stringtranslate.com

Pares espectrales de líneas

Los pares espectrales de línea ( LSP ) o frecuencias espectrales de línea ( LSF ) se utilizan para representar coeficientes de predicción lineal (LPC) para la transmisión por un canal. [1] Los LSP tienen varias propiedades (por ejemplo, menor sensibilidad al ruido de cuantificación) que los hacen superiores a la cuantificación directa de los LPC. Por esta razón, los LSP son muy útiles en la codificación de voz .

La representación LSP fue desarrollada por Fumitada Itakura , [2] en Nippon Telegraph and Telephone (NTT) en 1975. [3] De 1975 a 1981, estudió problemas en análisis y síntesis de voz basados ​​en el método LSP. [4] En 1980, su equipo desarrolló un chip sintetizador de voz basado en LSP . LSP es una tecnología importante para la síntesis y codificación de voz, y en la década de 1990 fue adoptada por casi todos los estándares internacionales de codificación de voz como un componente esencial, contribuyendo a la mejora de la comunicación de voz digital a través de canales móviles e Internet en todo el mundo. [3] Los LSP se utilizan en el algoritmo de predicción lineal excitada por código (CELP), desarrollado por Bishnu S. Atal y Manfred R. Schroeder en 1985.

Fundamento matemático

El polinomio LP se puede expresar como , donde:

Por construcción, P es un polinomio palindrómico y Q un polinomio antipalindrómico ; físicamente P ( z ) corresponde al tracto vocal con la glotis cerrada y Q ( z ) con la glotis abierta. [5] Se puede demostrar que:

La representación del par espectral de líneas del polinomio LP consiste simplemente en la ubicación de las raíces de P y Q (es decir, tales que ). Como se presentan en pares, solo es necesario transmitir la mitad de las raíces reales (convencionalmente entre 0 y ). Por lo tanto, el número total de coeficientes para P y Q es igual a p , el número de coeficientes LP originales (sin contar ).

Un algoritmo común para hallar estos valores [6] consiste en evaluar el polinomio en una secuencia de puntos muy próximos entre sí alrededor del círculo unitario, observando cuándo el resultado cambia de signo; cuando esto sucede, debe haber una raíz entre los puntos evaluados. Como las raíces de P están intercaladas con las de Q, una sola pasada es suficiente para hallar las raíces de ambos polinomios.

Para volver a convertir a LPC, necesitamos evaluar "sincronizando" un impulso a través de él N veces (orden del filtro), lo que produce el filtro original,  A ( z ).

Propiedades

Los pares espectrales de línea tienen varias propiedades interesantes y útiles. Cuando las raíces de P ( z ) y Q ( z ) están intercaladas, la estabilidad del filtro está asegurada si y solo si las raíces aumentan monótonamente. Además, cuanto más cercanas estén dos raíces, más resonante será el filtro en la frecuencia correspondiente. Debido a que los LSP no son demasiado sensibles al ruido de cuantificación y la estabilidad se asegura fácilmente, los LSP se utilizan ampliamente para cuantificar filtros LPC. Las frecuencias espectrales de línea se pueden interpolar.

Véase también

Fuentes

Incluye una descripción general en relación con LPC.

Referencias

  1. ^ Sahidullah, Md.; Chakroborty, Sandipan; Saha, Goutam (enero de 2010). "Sobre el uso de frecuencias de pares espectrales de líneas perceptuales y momentos residuales de orden superior para la identificación del hablante". Revista Internacional de Biometría . 2 (4): 358–378. doi :10.1504/ijbm.2010.035450.
  2. ^ Zheng, F.; Song, Z.; Li, L.; Yu, W. (1998). "La medida de distancia para pares de espectros de líneas aplicada al reconocimiento de voz" (PDF) . Actas de la 5.ª Conferencia internacional sobre procesamiento del lenguaje hablado (ICSLP'98) (3): 1123–6.
  3. ^ ab "Lista de hitos del IEEE". IEEE . Consultado el 15 de julio de 2019 .
  4. ^ "Historia Oral Fumitada Itakura". Red de Historia Global IEEE. 20 de mayo de 2009 . Consultado el 21 de julio de 2009 .
  5. ^ http://svr-www.eng.cam.ac.uk/~ajr/SpeechAnalysis/node51.html#SECTION000713000000000000000 Tony Robinson: Análisis del habla
  6. ^ p. ej. lsf.c en http://www.ietf.org/rfc/rfc3951.txt