Lyra (códec)

Lyra es un códec de audio con pérdida desarrollado por Google que está diseñado para comprimir voz a velocidades de bits muy bajas. A diferencia de la mayoría de los demás formatos de audio, comprime datos mediante un algoritmo basado en aprendizaje automático .

Características

El códec Lyra está diseñado para transmitir voz en tiempo real cuando el ancho de banda está severamente restringido, como en conexiones de red lentas o poco confiables. ^[1] Se ejecuta a velocidades de bits fijas de 3,2, 6 y 9 kbit/s y está destinado a proporcionar una mejor calidad que los códecs que utilizan algoritmos tradicionales basados en formas de onda a velocidades de bits similares. ^[2]^[3] En cambio, la compresión se logra mediante un algoritmo de aprendizaje automático que codifica la entrada con extracción de características y luego reconstruye una aproximación del original utilizando un modelo generativo. ^[1] Este modelo fue entrenado con miles de horas de discurso grabado en más de 70 idiomas para funcionar con varios hablantes. ^[2] Debido a que los modelos generativos son más complejos computacionalmente que los códecs tradicionales, se utiliza un modelo simple que procesa diferentes rangos de frecuencia en paralelo para obtener un rendimiento aceptable. ^[4] Lyra impone 20 ms de latencia debido al tamaño de su marco. ^[3] La implementación de referencia de Google está disponible para Android y Linux . ^[4]

Comparación de calidad de Lyra versión 1

Original

Remuestreado a 16 kHz

Lyra a 3 kbps

Opus a 6 kbps

Habla a 3 kbps

¿Problemas al reproducir estos archivos? Ver ayuda para los medios .

Calidad

La versión inicial de Lyra funcionó significativamente mejor que los códecs tradicionales a velocidades de bits similares. ^[1]^[4]^[5] Ian Buckley de MakeUseOf dijo: "Logra crear niveles casi inquietantes de reproducción de audio con tasas de bits tan bajas como 3 kbps". Google afirma que reproduce el habla con un sonido natural y que Lyra a 3 kbit/s supera a Opus a 8 kbit/s. ^[2] Tsahi Levent-Levi escribe que Satin , el códec basado en inteligencia artificial de Microsoft , lo supera en velocidades de bits más altas. ^[5]

Historia

En diciembre de 2017, los investigadores de Google publicaron un artículo preimpreso sobre la sustitución del decodificador Codec 2 por una red neuronal WaveNet. Descubrieron que una red neuronal es capaz de extrapolar características de la voz no descritas en el flujo de bits del Codec 2 y proporcionar una mejor calidad de audio, y que el uso de características convencionales simplifica el cálculo de la red neuronal en comparación con una red basada puramente en formas de onda. La versión 1 de Lyra reutilizaría este marco general de extracción de características, cuantificación y síntesis neuronal. ^[6]

Lyra se anunció por primera vez en febrero de 2021 ^[2] y en abril, Google publicó el código fuente de su implementación de referencia. ^[1] La versión inicial tenía una tasa de bits fija de 3 kbit/s y una latencia de alrededor de 90 ms. ^[1]^[2] El codificador calcula un espectrograma log mel y realiza una cuantificación vectorial para almacenar el espectrograma en un flujo de datos. El decodificador es una red neuronal WaveNet que toma el espectrograma y reconstruye el audio de entrada. ^[2]

Una segunda versión (v2/1.2.0), lanzada en septiembre de 2022, mejoró la calidad del sonido, la latencia y el rendimiento, y permitió múltiples velocidades de bits. V2 utiliza una estructura "SoundStream" donde tanto el codificador como el decodificador son redes neuronales, una especie de codificador automático . Se utiliza un cuantificador de vector residual para convertir los valores de las características en datos transferibles. ^[3]

Apoyo

Implementaciones

La implementación de Google está disponible en GitHub bajo la licencia Apache. ^[1]^[7] Escrito en C++ , está optimizado para ARM de 64 bits pero también se ejecuta en x86 , ya sea en Android o Linux. ^[4]

Aplicaciones

Google Duo utiliza Lyra para transmitir sonido para chats de vídeo cuando el ancho de banda es limitado. ^[^15]

Referencias

^ abcdefg Buckley, Ian (8 de abril de 2021). "Google hace público su códec de voz Lyra de baja velocidad de bits". Hacer uso de . Consultado el 21 de julio de 2022 .
^ abcdef "Lyra: un nuevo códec de muy baja velocidad de bits para la compresión de voz". Blog de IA de Google . 25 de febrero de 2021 . Consultado el 21 de julio de 2022 .
^ abc "Lyra V2: un códec de voz mejor, más rápido y más versátil". Blog de código abierto de Google . Consultado el 26 de abril de 2023 .
^ abcd "Google Duo utiliza un nuevo códec para mejorar la calidad de las llamadas en conexiones deficientes". XDA . 2021-04-09 . Consultado el 21 de julio de 2022 .
^ abc Levent-Levi, Tsahi (19 de abril de 2021). "Lyra, Satin y el futuro de los códecs de voz en WebRTC". BlogGeek.me . Consultado el 21 de julio de 2022 .
^ Kleijn, WB; Lim, FS; Luebs, A.; Skoglund, J.; Stimberg, F.; Wang, Q.; Walters, TC (abril de 2018). Codificación de voz de baja velocidad basada en Wavenet . Conferencia internacional IEEE 2018 sobre acústica, habla y procesamiento de señales (ICASSP). IEEE. págs. 676–680. arXiv : 1712.01120 .
^ Google (2021). "Lyra: un códec de muy baja tasa de bits para la compresión de voz". GitHub . Consultado el 21 de julio de 2022 .

enlaces externos

Lyra: un nuevo códec de muy baja tasa de bits para la compresión de voz Publicación del blog de Google con una demostración que compara códecs

Ver también

Satin (codec) , un códec basado en IA desarrollado por Microsoft
Comparación de formatos de codificación de audio.
codificación de voz
Videotelefonía