Métodos de Codificação de Voz (5) - José de Ribamar Smolka Ramos

Esta página contém duas figuras grandes. Aguarde a carga se a conexão estiver lenta.

Métodos de Codificação de Voz – Uma Introdução (5)

Repetindo: A figura 6 mostra um diagrama de blocos para o processo de conversão A/D (analógico/digital) e
D/A (digital/analógico) que foi descrito.

Figura 6 - Conversão A/D e D/A

O cálculo do bit rate do sinal digital gerado por este processo de conversão é simples. A freqüência de amostragem (sampling rate) é de 8 KHz, portanto o sinal PAM contém 8000 amostras/s, ou, expressando como intervalo de tempo entre duas amostras consecutivas (sampling interval), uma amostra a cada 125 ms (1 ms = 10^-6 s). Então: bit rate = 8000 amostras/s . 8 bits/amostra = 64000 bits/s = 64 Kbps.

O cálculo do bit rate do sinal digital gerado por este processo de conversão é simples. A freqüência de amostragem (sampling rate) é de 8 KHz (o dobro da freqüência de corte de anti-alias), portanto o sinal PAM contém 8000 amostras/s, ou, expressando como intervalo de tempo entre duas amostras consecutivas (sampling interval), uma amostra a cada 125 µs (1 µs = 10-6 s).
Então: bit rate = 8000 amostras/s . 8 bits/amostra = 64000 bits/s = 64 Kbps

Waveform Encoding

As técnicas de waveform encoding mapeiam o sinal original no domínio tempo (por isso também são denominadas como técnicas de time-domain encoding), usando os bits do sinal digital, que são representações das amplitudes, no tempo, do sinal PAM. Conforme o modo de codificação empregado, estas técnicas produzem bit rates de altos a moderados, mas, em contrapartida, obtém os melhores índices de qualidade (MOS ou CMOS).

PCM

A "mãe" de todas as técnicas de waveform encoding é conhecida como PCM (Pulse Coded Modulation). Para aplicações de telefonia, o uso do PCM é padronizado na recomendação G.711 da ITU-T (International Telecommunications Union – Telecommunication standards section). O termo "recomendação" é ilusório, porque, na verdade, as recomendações da ITU-T são normas.

A diferença do PCM para o processo de conversão A/D e D/A já descrito está no modo de fazer a quantização.

No capítulo anterior, a quantização do sinal PAM foi feita de forma linear (todos os intervalos de quantização com a mesma "largura" – ver tabela 1). Mas o ouvido humano não tem uma curva de resposta dinâmica linear, e sim logarítmica. Isto significa que nossa sensibilidade para perceber diferenças de volume (amplitude) é muito grande para sons de baixa intensidade, e decresce logaritmicamente à medida que a intensidade aumenta. Para termos a sensação que o volume dobrou, a potência do sinal (diretamente proporcional à amplitude) tem de ser multiplicada por 10. É por isso que os audiófilos sempre querem amplificadores com muita potência. Se você achava que isso era bobagem, melhor rever sua posição.

A conseqüência prática é que os erros de quantização são mais perceptíveis para o ouvinte na parte baixa da escala de quantização, e menos perceptíveis na parte alta. A recomendação G.711 define uma maneira logarítmica para a distribução das amplitudes dos sub-intervalos de quantização, com sub-intervalos menores na parte baixa da escala, e maiores na parte alta.

Este processo, conhecido como companding (COMPressing and expANDING) pode ser feito de duas formas, conhecidas como µ-law (mu-law), usada nos Estados Unidos e Japão, e A-law, usada nos demais países. As duas formas são equivalentes, mas a A-law exige menos esforço computacional para implementação. O algoritmo, nos dois casos, é simples: primeiro é feita uma quantização linear com um número maior de intervalos (4096 ou 65536), e depois os números binários resultantes desta quantização linear (com 12 ou 16 bits) são transformados um número binário com 8 bits, de acordo com uma função de mapeamento.

Em termos de bit rate, os VOCODERs G.711 não oferecem nenhum ganho em relação ao processo linear de digitalização (são os mesmos 64 Kbps). A construção dos VOCODERs G.711 é semelhante à apresentada na figura 6, apenas acrescentando o algoritmo de companding no módulo de quantização.

Embora VOCODERs G.711 sejam muito bons em qualidade (índice MOS 4,3), o bit rate gerado é muito elevado para diversas situações, o que limita sua aplicação. Mas este tipo de codificação ainda é o padrão para todo o tráfego de voz digital através das estruturas convencionais de comutação e transmissão nas operadoras de telecomunicações.

DPCM e ADPCM

Observando o comportamento do sinal PCM obtido a partir de sinais de voz, observamos que ele não costuma apresentar variações muito grandes entre duas amostras consecutivas.

Comparando os valores binários que codificam uma amostra e sua antecessora, vemos que a diferença é um número que pode ser codificado com menos de oito bits.

Esta técnica, que é uma variação da modulação delta (delta modulation – DM), é conhecida como DPCM (differential PCM). O processo de encoding é feito da seguinte forma:

O sinal de voz é captado e codificado no formato PCM convencional;
O valor binário de cada amostra PCM é passado para dois circuitos, preditor e diferenciador;
O circuito preditor cria um delay de um intervalo de amostragem (125 µs), portanto, na sua saída sempre está o valor binário da amostra anterior;
O circuito diferenciador compara os valores binários da amostra corrente e da amostra anterior (na saída do preditor), e calcula a diferença binária entre eles A saída do diferenciador é o sinal digital a transmitir.

WirelessBR		WirelessBr é um site brasileiro, independente, sem vínculos com empresas ou organizações, sem finalidade comercial, feito por voluntários, para divulgação de tecnologia em telecomunicações
MÉTODOS DE CODIFICAÇÃO DE VOZ - UMA INTRODUÇÃO (5)
José de Ribamar Smolka Ramos

WirelessBR