stringtranslate.com

discurso

Speex es un códec de compresión de audio específicamente diseñado para la reproducción del habla humana y también un códec de voz de software libre que puede usarse en aplicaciones de voz sobre IP y podcasts . [6] Se basa en el algoritmo de codificación de voz de predicción lineal excitado por código . [7] Sus creadores afirman que Speex está libre de restricciones de patente y tiene la licencia BSD revisada (3 cláusulas) . Puede usarse con el formato contenedor Ogg o transmitirse directamente a través de UDP / RTP . También se puede utilizar con el formato de contenedor FLV . [8]

Los diseñadores de Speex ven su proyecto como complementario al proyecto de compresión de audio de propósito general Vorbis .

Speex es un formato con pérdida , es decir, la calidad se degrada permanentemente para reducir el tamaño del archivo.

El proyecto Speex se creó el 13 de febrero de 2002. [9] Las primeras versiones de desarrollo de Speex se publicaron bajo la licencia LGPL , pero a partir de la versión 1.0 beta 1, Speex se publica bajo la versión Xiph de la licencia BSD (revisada). [10] Speex 1.0 se anunció el 24 de marzo de 2003, después de un año de desarrollo. [11] La última versión estable del codificador y decodificador Speex es la 1.2.1. [3]

Xiph.Org ahora considera obsoleto Speex; su sucesor es el códec Opus más moderno , que utiliza el formato SILK bajo licencia de Microsoft y supera su rendimiento en la mayoría de las áreas excepto en las frecuencias de muestreo más bajas. [12]

Descripción

Speex está dirigido a voz sobre IP (VoIP) y compresión basada en archivos. Los objetivos del diseño han sido crear un códec que esté optimizado para voz de alta calidad y baja velocidad de bits. Para lograr esto, el códec utiliza múltiples velocidades de bits y admite banda ultra ancha (  frecuencia de muestreo de 32 kHz ), banda ancha (frecuencia de muestreo de 16 kHz) y banda estrecha (calidad de teléfono, frecuencia de muestreo de 8 kHz). Dado que Speex fue diseñado para VoIP en lugar del uso de teléfonos celulares, el códec debe ser resistente a los paquetes perdidos, pero no a los corruptos. Todo esto llevó a la elección de la predicción lineal excitada por código (CELP) como técnica de codificación a utilizar para Speex. [7] Una de las razones principales es que CELP ha demostrado durante mucho tiempo que puede hacer el trabajo y escalar bien tanto a velocidades de bits bajas (como lo demuestra DoD CELP @ 4,8 kbit/s) como a velocidades de bits altas (como con G.728) . a 16 kbit/s). Las principales características se pueden resumir en las siguientes:

Características

Tasa de muestreo
Speex está diseñado principalmente para tres frecuencias de muestreo diferentes: 8 kHz (la misma frecuencia de muestreo para transmitir llamadas telefónicas ), 16 kHz y 32 kHz. Se denominan respectivamente banda estrecha, banda ancha y banda ultraancha.
Calidad
La codificación Speex se controla la mayor parte del tiempo mediante un parámetro de calidad que oscila entre 0 y 10. En la operación de velocidad de bits constante (CBR), el parámetro de calidad es un número entero , mientras que para la velocidad de bits variable (VBR), el parámetro es un número real ( coma flotante ).
Complejidad (variable)
Con Speex, es posible variar la complejidad permitida para el codificador. Esto se hace controlando cómo se realiza la búsqueda con un número entero que va del 1 al 10 de forma similar a las opciones -1 a -9 de las utilidades de compresión gzip . Para un uso normal, el nivel de ruido en la complejidad 1 es entre 1 y 2 dB mayor que en la complejidad 10, pero los requisitos de CPU para la complejidad 10 son aproximadamente cinco veces mayores que para la complejidad 1. En la práctica, el mejor equilibrio es entre complejidad 2 y 4, [13] aunque los ajustes más altos suelen ser útiles cuando se codifican sonidos que no son de voz, como tonos DTMF , o si la codificación no se realiza en tiempo real.
Velocidad de bits variable (VBR)
La velocidad de bits variable (VBR) permite que un códec cambie su velocidad de bits dinámicamente para adaptarse a la "dificultad" del audio que se codifica. En el ejemplo de Speex, sonidos como vocales y transitorios de alta energía requieren una velocidad de bits más alta para lograr una buena calidad, mientras que las fricativas (por ejemplo, sonidos s y f) se pueden codificar adecuadamente con menos bits. Por esta razón, VBR puede lograr una tasa de bits más baja con la misma calidad o una calidad mejor con una tasa de bits determinada. A pesar de sus ventajas, VBR tiene tres inconvenientes principales: en primer lugar, al especificar únicamente la calidad, no hay garantía sobre la tasa de bits promedio final. En segundo lugar, para algunas aplicaciones en tiempo real como voz sobre IP (VoIP), lo que cuenta es la velocidad de bits máxima, que debe ser lo suficientemente baja para el canal de comunicación. En tercer lugar, el cifrado de la voz codificada con VBR puede no garantizar una privacidad completa, ya que las frases aún pueden identificarse, al menos en un entorno controlado con un pequeño diccionario de frases, [14] analizando el patrón de variación de la velocidad de bits.
Tasa de bits promedio (ABR)
La tasa de bits promedio resuelve uno de los problemas de VBR, ya que ajusta dinámicamente la calidad de VBR para alcanzar una tasa de bits objetivo específica. Debido a que la calidad/tasa de bits se ajusta en tiempo real (bucle abierto), la calidad global será ligeramente inferior a la obtenida codificando en VBR con exactamente la configuración de calidad adecuada para cumplir con la tasa de bits promedio objetivo.
Detección de actividad de voz (VAD)
Cuando está habilitada, la detección de actividad de voz detecta si el audio que se codifica es voz o silencio/ruido de fondo. VAD siempre se activa implícitamente cuando se codifica en VBR, por lo que la opción solo es útil en operaciones que no son VBR. En este caso, Speex detecta períodos que no son de habla y los codifica con los bits suficientes para reproducir el ruido de fondo. Esto se llama " generación de ruido de confort " (GNC). La última versión de VAD que funcionó bien es la 1.1.12, desde la versión 1.2 ha sido reemplazada por una simple Detección de cualquier actividad.
Transmisión discontinua (DTX)
La transmisión discontinua es una adición al funcionamiento VAD/VBR que permite dejar de transmitir por completo cuando el ruido de fondo es estacionario. En un archivo se utilizan 5 bits por cada cuadro que falta (correspondiente a 250 bit/s).
Mejora perceptiva
La mejora de la percepción es una parte del decodificador que, cuando se enciende, intenta reducir (la percepción de) el ruido producido por el proceso de codificación/decodificación. En la mayoría de los casos, la mejora de la percepción hace que el sonido se aleje objetivamente del original (relación señal-ruido), pero al final sigue sonando mejor (mejora subjetiva).
Retraso algorítmico
Cada códec introduce un retraso en la transmisión. Para Speex, este retraso es igual al tamaño del fotograma, más cierta cantidad de "anticipación" necesaria para procesar cada fotograma. En funcionamiento de banda estrecha (8 kHz), el retraso es de 30 ms, mientras que para banda ancha (16 kHz), el retraso es de 34 ms. Estos valores no tienen en cuenta el tiempo de CPU que se necesita para codificar o decodificar los fotogramas.

Aplicaciones

Comparación de códecs de audio para voz.

Existe una gran base de aplicaciones que admiten el códec Speex. Ejemplos incluyen:

La mayoría de ellos se basan en el filtro DirectShow o el códec OpenACM (por ejemplo, Microsoft NetMeeting ) en Microsoft Windows , o la implementación de referencia de Xiph.org, libvorbis, en Linux (por ejemplo, Ekiga ). También hay complementos para muchos reproductores de audio. Consulte la página de complementos y software en el sitio speex.org para obtener más detalles. [dieciséis]

El tipo de medio para Speex es audio/ogg mientras está contenido en Ogg, y audio/speex (anteriormente audio/x-speex) cuando se transporta a través de RTP o sin contenedor.

El sistema Land Warrior del ejército de los Estados Unidos , diseñado por General Dynamics , también utiliza Speex para VoIP en una radio EPLRS diseñada por Raytheon .

La Ear Bible [17] es un auricular de un solo oído con un reproductor Speex incorporado con 1 GB de memoria flash, [18] precargado con una grabación de la New American Standard Bible .

Software VIPA OS [ 20] basado en Linux de ASL Safety & Security [19 ] que se utiliza en sistemas de megafonía de larga distancia y sistemas de alarma por voz en los principales centros de transporte aéreo y redes ferroviarias internacionales.

El proyecto Rockbox utiliza Speex para su interfaz de voz. También puede reproducir archivos Speex en reproductores compatibles, como el iPod de Apple o el iRiver H10.

El dispositivo portátil de adquisición de datos Vernier LabQuest [21] para educación científica utiliza Speex para anotaciones de voz creadas por estudiantes y profesores utilizando el micrófono incorporado o externo.

La aplicación móvil de Google para iPhone incorpora actualmente Speex. [22] También se ha sugerido que la nueva aplicación de búsqueda por voz de Google para iPhone utiliza Speex para transmitir voz a los servidores de Google para su interpretación. [23]

Adobe Flash Player admite Speex a partir de Flash Player 10.0.12.36, lanzado en octubre de 2008. [24] Debido a algunos errores en Flash Player, la primera versión recomendada para compatibilidad con Speex es 10.0.22.87 y posteriores. Speex en Flash Player se puede utilizar para ambos tipos de comunicación, a través de Flash Media Server o P2P . Speex se puede decodificar o convertir a cualquier formato a diferencia del audio de Nellymoser , que era el único formato de voz en versiones anteriores de Flash Player. [25] [26] Speex también se puede utilizar en el formato contenedor Flash Video (.flv), a partir de la versión 10 de la Especificación de formato de archivo de video (publicada en noviembre de 2008). [27]

La grabadora de voz JavaSonics ListenUp [28] utiliza Speex para comprimir mensajes de voz que se graban en un navegador y luego se cargan en un servidor web. Las aplicaciones principales son la enseñanza de idiomas, la transcripción y las redes sociales.

Speex se utiliza como algoritmo de compresión de voz en la asistencia de voz Siri en el iPhone 4S . [29] Dado que la conversión de texto a voz se produce en los servidores de Apple, el códec Speex se utiliza para minimizar el ancho de banda de la red.

Ver también

Fuentes

Este artículo utiliza material del Manual del códec Speex, cuyo copyright es © Jean-Marc Valin y tiene licencia según los términos de GFDL .

Referencias

  1. ^ "¡PlayOgg! - FSF - Fundación de Software Libre". 2010-03-17 . Consultado el 1 de octubre de 2013 .
  2. ^ Jean-Marc Valin (2009). "people.xiph.org - espacio web personal de los xiphs - Jean-Marc Valin". Xiph.Org . Consultado el 11 de septiembre de 2009 .
  3. ^ ab "Noticias Speex". Fundación Xiph.Org . Consultado el 13 de abril de 2023 .
  4. ^ "Manual del códec Speex - Licencia Speex". Fundación Xiph.Org . Consultado el 1 de septiembre de 2009 .
  5. ^ "Muestra de variante Xiph.Org de la licencia BSD". Fundación Xiph.Org . Consultado el 29 de agosto de 2009 .
  6. ^ Xiph.Org Speex: un códec gratuito para la libertad de expresión, obtenido el 1 de septiembre de 2009
  7. ^ ab Xiph.Org Introducción a la codificación CELP, obtenido el 1 de septiembre de 2009
  8. ^ Especificación de formato Adobe FLV, consultado el 18 de abril de 2016
  9. ^ Lanzamientos de Xiph.org Speex - anteriores a la 1.0 - NOTICIAS y ChangeLog en speex-0.0.1.tar.gz, obtenido el 1 de septiembre de 2009
  10. ^ Preguntas frecuentes sobre Xiph.Org Speex: ¿bajo qué licencia se publica Speex? Consultado el 1 de septiembre de 2009.
  11. ^ Xiph.Org (24 de marzo de 2003) Speex llega a 1,0; Xiph.Org ahora es una organización sin fines de lucro 501(c)(3), obtenido el 1 de septiembre de 2009.
  12. ^ [1] Página de inicio de Speex, consultado el 11 de abril de 2017
  13. ^ "Descripción del códec". www.speex.org .
  14. ^ "Mírame si puedes: Descubriendo frases habladas en conversaciones VoIP cifradas (Charles V. Wright Lucas Ballard Scott E. Coull Fabian Monrose Gerald M. Masson)" (PDF) .
  15. ^ Como lo anunció Ralph Giles, el mantenedor del códec de Theora , en el episodio 29 de LugRadio
  16. ^ "Un códec gratuito para la libertad de expresión". Habla . Consultado el 29 de diciembre de 2012 .
  17. ^ Lascelles, LLC. "La Biblia en audio más conveniente del mundo". Biblia del oído . Consultado el 29 de diciembre de 2012 .
  18. ^ Lascelles, LLC. "Apoyo". Biblia del oído . Consultado el 29 de diciembre de 2012 .
  19. ^ "PA/VA, software PSIM y sistemas de gestión de estaciones> Seguridad y protección ASL". Asl-control.co.uk . Consultado el 29 de diciembre de 2012 .
  20. ^ IPAM 400: amplificador de megafonía inteligente basado en IP Archivado el 4 de septiembre de 2011 en Wayback Machine - Manual del usuario
  21. ^ "LabQuest 2> Software y tecnología Vernier". Vernier.com. 23 de mayo de 2012 . Consultado el 29 de diciembre de 2012 .
  22. ^ "Avisos legales". Corporación Google . Consultado el 5 de diciembre de 2014 .
  23. ^ Baio, Andy (18 de noviembre de 2008). "Deconstrucción de la búsqueda por voz de Google Mobile en el iPhone".
  24. ^ Hoja de datos de Adobe (2008) Flash Player 10, obtenido el 1 de septiembre de 2009
  25. ^ AskMeFlash.com (10 de mayo de 2009) Speex para Flash, obtenido el 12 de agosto de 2009
  26. ^ AskMeFlash.com (10 de mayo de 2009) Speex vs Nellymoser Archivado el 15 de abril de 2009 en Wayback Machine , obtenido el 12 de agosto de 2009
  27. ^ Adobe Systems Incorporated (noviembre de 2008). "Especificación de formato de archivo de vídeo, versión 10" (PDF) . Sistemas de Adobe incorporados. Archivado desde el original (PDF) el 23 de septiembre de 2010 . Consultado el 5 de diciembre de 2014 .
  28. ^ Phil Burk. "Applet de grabación de voz JavaSonics ListenUp para Java que carga mensajes a un servidor web". Javasonics.com . Consultado el 29 de diciembre de 2012 .
  29. ^ "Applidium - Noticias". Applidium.com. Archivado desde el original el 16 de noviembre de 2011 . Consultado el 29 de diciembre de 2012 .

enlaces externos