| WirelessBR | 
 | WirelessBr é um site brasileiro, independente, sem vínculos com empresas ou organizações, sem finalidade comercial, feito por voluntários, para divulgação de tecnologia em telecomunicações | 
| MÉTODOS DE CODIFICAÇÃO DE VOZ - UMA INTRODUÇÃO (5) | ||
| José de Ribamar Smolka Ramos | ||
Esta página 
	contém duas figuras grandes. Aguarde a carga se a conexão estiver lenta.
	
	Métodos de Codificação de Voz 
	– Uma Introdução (5)
	 
Repetindo: A figura 6 
        mostra um diagrama de blocos para o processo de conversão A/D 
        (analógico/digital) e
        D/A (digital/analógico) que foi descrito.
 
		
		
Figura 6 - Conversão A/D e D/A
O cálculo do bit rate do sinal digital gerado por este processo de conversão é simples. A freqüência de amostragem (sampling rate) é de 8 KHz, portanto o sinal PAM contém 8000 amostras/s, ou, expressando como intervalo de tempo entre duas amostras consecutivas (sampling interval), uma amostra a cada 125 ms (1 ms = 10-6 s). Então: bit rate = 8000 amostras/s . 8 bits/amostra = 64000 bits/s = 64 Kbps.
O cálculo do bit rate do sinal digital gerado por 
        este processo de conversão é simples. A freqüência de amostragem (sampling 
        rate) é de 8 KHz (o dobro da freqüência de corte de anti-alias), 
        portanto o sinal PAM contém 8000 amostras/s, ou, expressando como 
        intervalo de tempo entre duas amostras consecutivas (sampling 
        interval), uma amostra a cada 125 µs (1 µs = 10-6 s). 
        Então: bit rate = 8000 amostras/s . 8 bits/amostra = 64000 bits/s 
        = 64 Kbps
As técnicas de waveform encoding mapeiam o sinal original no domínio tempo (por isso também são denominadas como técnicas de time-domain encoding), usando os bits do sinal digital, que são representações das amplitudes, no tempo, do sinal PAM. Conforme o modo de codificação empregado, estas técnicas produzem bit rates de altos a moderados, mas, em contrapartida, obtém os melhores índices de qualidade (MOS ou CMOS).
A "mãe" de todas as técnicas de waveform encoding é conhecida como PCM (
Pulse Coded Modulation). Para aplicações de telefonia, o uso do PCM é padronizado na recomendação G.711 da ITU-T (International Telecommunications Union – Telecommunication standards section). O termo "recomendação" é ilusório, porque, na verdade, as recomendações da ITU-T são normas.A diferença do PCM para o processo de conversão A/D e D/A já descrito está no modo de fazer a quantização.
No capítulo anterior, a quantização do sinal PAM foi feita de forma linear (todos os intervalos de quantização com a mesma "largura" – ver tabela 1). Mas o ouvido humano não tem uma curva de resposta dinâmica linear, e sim logarítmica. Isto significa que nossa sensibilidade para perceber diferenças de volume (amplitude) é muito grande para sons de baixa intensidade, e decresce logaritmicamente à medida que a intensidade aumenta. Para termos a sensação que o volume dobrou, a potência do sinal (diretamente proporcional à amplitude) tem de ser multiplicada por 10. É por isso que os audiófilos sempre querem amplificadores com muita potência. Se você achava que isso era bobagem, melhor rever sua posição.
A conseqüência prática é que os erros de quantização são mais perceptíveis para o ouvinte na parte baixa da escala de quantização, e menos perceptíveis na parte alta. A recomendação G.711 define uma maneira logarítmica para a distribução das amplitudes dos sub-intervalos de quantização, com sub-intervalos menores na parte baixa da escala, e maiores na parte alta.
Este processo, conhecido como companding (COMPressing and expANDING) pode ser feito de duas formas, conhecidas como µ-law (mu-law), usada nos Estados Unidos e Japão, e A-law, usada nos demais países. As duas formas são equivalentes, mas a A-law exige menos esforço computacional para implementação. O algoritmo, nos dois casos, é simples: primeiro é feita uma quantização linear com um número maior de intervalos (4096 ou 65536), e depois os números binários resultantes desta quantização linear (com 12 ou 16 bits) são transformados um número binário com 8 bits, de acordo com uma função de mapeamento.
Em termos de bit rate, os VOCODERs G.711 não oferecem nenhum ganho em relação ao processo linear de digitalização (são os mesmos 64 Kbps). A construção dos VOCODERs G.711 é semelhante à apresentada na figura 6, apenas acrescentando o algoritmo de companding no módulo de quantização.
Embora VOCODERs G.711 sejam muito bons em qualidade (índice MOS 4,3), o bit rate gerado é muito elevado para diversas situações, o que limita sua aplicação. Mas este tipo de codificação ainda é o padrão para todo o tráfego de voz digital através das estruturas convencionais de comutação e transmissão nas operadoras de telecomunicações.
Observando o comportamento do sinal PCM obtido a partir 
        de sinais de voz, observamos que ele não costuma apresentar variações 
        muito grandes entre duas amostras consecutivas.
        
        Comparando os valores binários que codificam uma amostra e sua 
        antecessora, vemos que a diferença é um número que pode ser codificado 
        com menos de oito bits.
        
        Esta técnica, que é uma variação da modulação delta (delta modulation
        – DM), é conhecida como DPCM (differential PCM). O processo 
        de encoding é feito da seguinte forma:
O sinal de voz é captado e codificado no formato PCM convencional;
O valor binário de cada amostra PCM é passado para dois circuitos, preditor e diferenciador;
O circuito preditor cria um delay de um intervalo de amostragem (125 µs), portanto, na sua saída sempre está o valor binário da amostra anterior;
O circuito diferenciador compara os valores binários da amostra corrente e da amostra anterior (na saída do preditor), e calcula a diferença binária entre eles A saída do diferenciador é o sinal digital a transmitir.