codificación de voz

La codificación de voz es una aplicación de compresión de datos a señales de audio digitales que contienen voz . La codificación de voz utiliza la estimación de parámetros específicos de la voz utilizando técnicas de procesamiento de señales de audio para modelar la señal de voz, combinadas con algoritmos genéricos de compresión de datos para representar los parámetros modelados resultantes en un flujo de bits compacto. ^[1]

Las aplicaciones comunes de la codificación de voz son la telefonía móvil y la voz sobre IP (VoIP). ^[2] La técnica de codificación de voz más utilizada en telefonía móvil es la codificación predictiva lineal (LPC), mientras que las más utilizadas en aplicaciones VoIP son la LPC y las técnicas de transformada de coseno discreta modificada (MDCT). ^{[ cita necesaria ]}

Las técnicas empleadas en la codificación del habla son similares a las utilizadas en la compresión de datos de audio y la codificación de audio, donde se utiliza la apreciación de la psicoacústica para transmitir sólo datos que son relevantes para el sistema auditivo humano. Por ejemplo, en la codificación de voz en banda vocal , sólo se transmite información en la banda de frecuencia de 400 a 3500 Hz, pero la señal reconstruida conserva una inteligibilidad adecuada .

La codificación del habla se diferencia de otras formas de codificación de audio en que el habla es una señal más simple que otras señales de audio y hay información estadística disponible sobre las propiedades del habla. Como resultado, parte de la información auditiva que es relevante en la codificación de audio general puede resultar innecesaria en el contexto de la codificación del habla. La codificación del habla enfatiza la preservación de la inteligibilidad y el agrado del habla mientras se utiliza una cantidad limitada de datos transmitidos. ^[3] Además, la mayoría de las aplicaciones de voz requieren un retraso de codificación bajo, ya que la latencia interfiere con la interacción del habla. ^[4]

La compresión de muestras vista como una forma de codificación de voz

Los algoritmos de ley A y ley μ utilizados en la telefonía digital PCM G.711 pueden verse como un precursor anterior de la codificación de voz, que requiere solo 8 bits por muestra pero proporciona efectivamente 12 bits de resolución . ^[7] La compresión logarítmica es consistente con la percepción auditiva humana en el sentido de que se escucha un ruido de baja amplitud junto con una señal de voz de baja amplitud, pero está enmascarado por una de alta amplitud. Aunque esto generaría una distorsión inaceptable en una señal musical, la naturaleza de picos de las formas de onda del habla, combinada con la estructura de frecuencia simple del habla como una forma de onda periódica que tiene una única frecuencia fundamental con ocasionales ráfagas de ruido agregadas, hacen que estos algoritmos de compresión instantánea muy simples sean aceptables para discurso. ^[^{cita necesaria}^]^[^dudoso^-^discutir^]

En ese momento se probó una amplia variedad de otros algoritmos, en su mayoría variantes de modulación delta , pero después de una cuidadosa consideración, los diseñadores de los primeros sistemas de telefonía digital eligieron los algoritmos de ley A/ley μ. En el momento de su diseño, su reducción del 33% del ancho de banda para una complejidad muy baja supuso un excelente compromiso de ingeniería. Su rendimiento de audio sigue siendo aceptable y no fue necesario reemplazarlos en la red telefónica fija. ^{[ cita necesaria ]}

En 2008, el ITU-T estandarizó el códec G.711.1 , que tiene una estructura escalable. La frecuencia de muestreo de entrada es de 16 kHz. ^[8]

Compresión de voz moderna

Gran parte del trabajo posterior en compresión de voz fue motivado por la investigación militar sobre comunicaciones digitales para radios militares seguras , donde se utilizaban velocidades de datos muy bajas para lograr una operación efectiva en un entorno de radio hostil. Al mismo tiempo, se disponía de mucha más potencia de procesamiento , en forma de circuitos VLSI , que la disponible para técnicas de compresión anteriores. Como resultado, los algoritmos de compresión de voz modernos podrían utilizar técnicas mucho más complejas que las disponibles en la década de 1960 para lograr relaciones de compresión mucho más altas.

Los algoritmos de codificación de voz más utilizados se basan en la codificación predictiva lineal (LPC). ^[9] En particular, el esquema de codificación de voz más común es la codificación de predicción lineal excitada por código (CELP) basada en LPC, que se utiliza, por ejemplo, en el estándar GSM . En CELP, el modelado se divide en dos etapas, una etapa predictiva lineal que modela la envolvente espectral y un modelo basado en libro de códigos del residual del modelo predictivo lineal. En CELP, los coeficientes de predicción lineal (LPC) se calculan y cuantifican, generalmente como pares espectrales de líneas (LSP). Además de la codificación de voz real de la señal, a menudo es necesario utilizar codificación de canal para la transmisión, para evitar pérdidas debidas a errores de transmisión. Para obtener los mejores resultados generales de codificación, los métodos de codificación de voz y codificación de canales se eligen en pares, estando los bits más importantes en el flujo de datos de voz protegidos por una codificación de canales más robusta.

La transformada de coseno discreta modificada (MDCT) se utiliza en la técnica LD-MDCT utilizada por el formato AAC-LD introducido en 1999. ^[10] Desde entonces, MDCT ha sido ampliamente adoptada en aplicaciones de voz sobre IP (VoIP), como la El códec de audio de banda ancha G.729.1 introducido en 2006, ^[11]FaceTime de Apple (usando AAC-LD) introducido en 2010, ^[12] y el códec CELT introducido en 2011. ^[13]

Opus es un codificador de audio de software gratuito . Combina el algoritmo SILK basado en LPC orientado al habla y el algoritmo CELT basado en MDCT de menor latencia, alternando entre ellos o combinándolos según sea necesario para lograr la máxima eficiencia. ^[14]^[15] Es muy utilizado para llamadas VoIP en WhatsApp . ^[16]^[17]^[18] La consola de videojuegos PlayStation 4 también utiliza Opus para el chat de fiesta del sistema PlayStation Network . ^[19]

Se han demostrado varios códecs con velocidades de bits aún más bajas. Codec2 , que funciona a velocidades de bits tan bajas como 450 bit/s, se utiliza en la radioafición. ^[20] La OTAN actualmente utiliza MELPe , que ofrece voz inteligible a 600 bit/s y menos. ^[21] También han surgido enfoques de codificadores de voz neuronales: Lyra de Google ofrece una calidad "casi espeluznante" a 3 kbit/s. ^[22]Satin de Microsoft también utiliza aprendizaje automático, pero utiliza una tasa de bits ajustable más alta y es de banda ancha. ^[23]

Subcampos

Codificación de audio de banda ancha

Codificación predictiva lineal (LPC)
- AMR-WB para redes WCDMA
- VMR-WB para redes CDMA2000
- Speex , IP-MR, SILK (parte de Opus ) y USAC/xHE-AAC para VoIP y videoconferencias
Transformada de coseno discreta modificada (MDCT)
- AAC-LD , G.722.1 , G.729.1 , CELT y Opus para VoIP y videoconferencia
Modulación diferencial adaptativa de código de impulsos (ADPCM)
- G.722 para VoIP
Codificación neuronal del habla
- Lyra (Google): V1 utiliza la reconstrucción de redes neuronales del espectrograma log-mel; V2 es un codificador automático de un extremo a otro .
- Satén (Microsoft)
- LPCNet (Mozilla, Xiph): reconstrucción de redes neuronales de características LPC ^[24]

Codificación de audio de banda estrecha

LPC
- FNBDT para aplicaciones militares
- SMV para redes CDMA
- Tarifa Completa , Media Tarifa , EFR y AMR para redes GSM
- G.723.1 , G.728 , G.729 , G.729.1 e iLBC para VoIP o videoconferencia
ADPCM
- G.726 para VoIP
Excitación multibanda (MBE)
- AMBE+ para radio móvil digital y telefonía satelital
- Códec 2

Ver también

Referencias

^ M. Arjona Ramírez y M. Minami, "Codificación de voz de baja velocidad de bits", en Wiley Encyclopedia of Telecommunications, JG Proakis, Ed., Nueva York: Wiley, 2003, vol. 3, págs. 1299-1308.
^ M. Arjona Ramírez y M. Minami, "Tecnología y estándares para métodos de codificación de voz de baja velocidad de bits", en The Handbook of Computer Networks, H. Bidgoli, Ed., Nueva York: Wiley, 2011, vol. 2, págs. 447–467.
^ P. Kroon, "Evaluación de codificadores de voz", en Speech Coding and Synthesis, W. Bastiaan Kleijn y KK Paliwal, Ed., Amsterdam: Elsevier Science, 1995, págs.
^ JH Chen, RV Cox, Y.-C. Lin, NS Jayant y MJ Melchner, un codificador CELP de bajo retardo para el estándar de codificación de voz CCITT de 16 kb/s. IEEE J. Seleccionar. Áreas Comunes. 10(5): 830-849, junio de 1992.
^ "Soo Hyun Bae, modelado y compresión de datos ECE 8873, Instituto de Tecnología de Georgia, 2004". Archivado desde el original el 7 de septiembre de 2006.
^ Zeghidour, Neil; Luebs, Alejandro; Omran, Ahmed; Skoglund, enero; Tagliasacchi, Marco (2022). "SoundStream: un códec de audio neuronal de extremo a extremo". Transacciones IEEE/ACM sobre procesamiento de audio, voz y lenguaje . 30 : 495–507. arXiv : 2107.03312 . doi :10.1109/TASLP.2021.3129994. S2CID 236149944.
^ NS Jayant y P. Noll, Codificación digital de formas de onda. Acantilados de Englewood: Prentice-Hall, 1984.
^ G.711.1: extensión integrada de banda ancha para modulación de código de pulsos G.711, UIT-T, 2012 , consultado el 24 de diciembre de 2022
^ Gupta, Shipra (mayo de 2016). "Aplicación de MFCC en el reconocimiento de locutores independientes de texto" (PDF) . Revista Internacional de Investigación Avanzada en Ciencias de la Computación e Ingeniería de Software . 6 (5): 805–810 (806). ISSN 2277-128X. S2CID 212485331. Archivado desde el original (PDF) el 18 de octubre de 2019 . Consultado el 18 de octubre de 2019 .
^ Schnell, Markus; Schmidt, Markus; Jander, Manuel; Alberto, Tobías; Geiger, Ralf; Ruoppila, Vesa; Ekstrand, Per; Bernhard, Grill (octubre de 2008). MPEG-4 AAC mejorado de bajo retardo: un nuevo estándar para comunicaciones de alta calidad (PDF) . 125ª Convención AES. Fraunhofer IIS . Sociedad de Ingeniería de Audio . Consultado el 20 de octubre de 2019 .
^ Nagireddi, Sivannarayana (2008). Procesamiento de señales de voz y fax VoIP. John Wiley e hijos . pag. 69.ISBN 9780470377864.
^ Daniel Eran Dilger (8 de junio de 2010). "Dentro del iPhone 4: videollamadas FaceTime". AppleInsider . Consultado el 9 de junio de 2010 .
^ Presentación del códec CELT Archivado el 7 de agosto de 2011 en Wayback Machine por Timothy B. Terriberry (65 minutos de video, ver también diapositivas de presentación en PDF)
^ "Códec Opus". Opus (Página de inicio). Fundación Xiph.org . Consultado el 31 de julio de 2012 .
^ Valin, Jean-Marc; Maxwell, Gregorio; Terriberry, Timothy B.; Vos, Koen (octubre de 2013). Codificación de música de alta calidad y bajo retardo en el códec Opus . 135ª Convención AES. Sociedad de Ingeniería de Audio . arXiv : 1602.04845 .
^ Leyden, John (27 de octubre de 2015). "WhatsApp al descubierto: se investigan las entrañas de la aplicación chupadora de información". El registro . Consultado el 19 de octubre de 2019 .
^ Hazra, Sudip; Mateti, Prabhaker (13 al 16 de septiembre de 2017). "Desafíos en la ciencia forense de Android". En Thampi, Sabu M.; Pérez, Gregorio Martínez; Westphall, Carlos Becker; Hu, Jiankun; Fan, Chun I.; Mármol, Félix Gómez (eds.). Seguridad en Computación y Comunicaciones: 5to Simposio Internacional, SSCC 2017 . Saltador. págs. 286–299 (290). doi :10.1007/978-981-10-6898-0_24. ISBN 9789811068980.
^ Srivastava, Saurabh Ranjan; Dubé, Sachin; Shrivastaya, Gulshan; Sharma, Kavita (2019). "Desafíos de seguridad provocados por teléfonos inteligentes: problemas, estudios de casos y prevención". En Le, Dac-Nhuong; Kumar, Raghvendra; Mishra, Brojo Kishore; Chatterjee, Jyotir Moy; Khari, Manju (eds.). Ciberseguridad en informática paralela y distribuida: conceptos, técnicas, aplicaciones y estudios de casos . John Wiley e hijos. págs. 187-206 (200). doi :10.1002/9781119488330.ch12. ISBN 9781119488057. S2CID 214034702. {{cite book}}: |journal=ignorado ( ayuda )
^ "Software de código abierto utilizado en PlayStation4". Sony Interactive Entertainment Inc. Consultado el 11 de diciembre de 2017 .^{[ verificación fallida ]}
^ "GitHub - Códec2". GitHub . Noviembre de 2019.
^ Alan McCree, "Un marco de codificador de voz fonético escalable que utiliza la cuantificación vectorial predictiva conjunta de parámetros MELP", en Proc. IEEE Internacional. Conf. Acoust., Habla, procesamiento de señales, 2006, págs. I 705–708, Toulouse, Francia
^ Buckley, Ian (8 de abril de 2021). "Google hace público su códec de voz Lyra de baja velocidad de bits". Hacer uso de . Consultado el 21 de julio de 2022 .
^ Levent-Levi, Tsahi (19 de abril de 2021). "Lyra, Satin y el futuro de los códecs de voz en WebRTC". BlogGeek.me . Consultado el 21 de julio de 2022 .
^ "LPCNet: síntesis neuronal eficiente del habla". Fundación Xiph.Org. 8 de agosto de 2023.

enlaces externos

Muestras de prueba de señales de prueba del UIT-T para sistemas de telecomunicaciones
Herramienta de evaluación perceptiva de la calidad del habla (PESQ) del UIT-T Fuentes