Pares espectrales de líneas

Los pares espectrales de líneas ( LSP ) o las frecuencias espectrales de líneas ( LSF ) se utilizan para representar coeficientes de predicción lineal (LPC) para la transmisión a través de un canal. ^[1] Los LSP tienen varias propiedades (por ejemplo, menor sensibilidad al ruido de cuantificación) que los hacen superiores a la cuantificación directa de los LPC. Por este motivo, los LSP son muy útiles en la codificación de voz .

La representación LSP fue desarrollada por Fumitada Itakura , ^[2] en Nippon Telegraph and Telephone (NTT) en 1975. ^[3] De 1975 a 1981, estudió problemas de análisis y síntesis del habla basados en el método LSP. ^[4] En 1980, su equipo desarrolló un chip sintetizador de voz basado en LSP . LSP es una tecnología importante para la síntesis y codificación de voz, y en la década de 1990 fue adoptada por casi todos los estándares internacionales de codificación de voz como un componente esencial, contribuyendo a la mejora de la comunicación de voz digital a través de canales móviles e Internet en todo el mundo. ^[3] Los LSP se utilizan en el algoritmo de predicción lineal excitada por código (CELP), desarrollado por Bishnu S. Atal y Manfred R. Schroeder en 1985.

fundamento matematico

El polinomio LP se puede expresar como , donde: $A(z)=1-\sum _{k=1}^{p}a_{k}z^{-k}$ $A(z)=0,5[P(z)+Q(z)]$

$P(z)=A(z)+z^{-(p+1)}A(z^{-1})$
$Q(z)=A(z)-z^{-(p+1)}A(z^{-1})$

Por construcción, P es un polinomio palindrómico y Q un polinomio antipalindrómico ; físicamente P ( z ) corresponde al tracto vocal con la glotis cerrada y Q ( z ) con la glotis abierta. ^[5] Se puede demostrar que:

Las raíces de P y Q se encuentran en el círculo unitario en el plano complejo.
Las raíces de P se alternan con las de Q a medida que recorremos el círculo.
Como los coeficientes de P y Q son reales, las raíces se presentan en pares conjugados.

La representación del par espectral de líneas del polinomio LP consiste simplemente en la ubicación de las raíces de P y Q (es decir, tal que ). Como aparecen en pares, sólo es necesario transmitir la mitad de las raíces reales (convencionalmente entre 0 y ). Por lo tanto , el número total de coeficientes tanto para P como para Q es igual a p , el número de coeficientes LP originales (sin contar ). ${\displaystyle\omega}$ $z=e^{i\omega },P(z)=0$ $\pi$ $a_{0}=1$

Un algoritmo común para encontrarlos ^[6] es evaluar el polinomio en una secuencia de puntos estrechamente espaciados alrededor del círculo unitario, observando cuándo el resultado cambia de signo; cuando lo hace, debe haber una raíz entre los puntos probados. Debido a que las raíces de P están intercaladas con las de Q, una sola pasada es suficiente para encontrar las raíces de ambos polinomios.

Para volver a convertir a LPC, debemos evaluar "cronometrando" un impulso a través de él N veces (orden del filtro), lo que produce el filtro original, A ( z ). $A(z)=0,5[P(z)+Q(z)]$

Propiedades

Los pares espectrales de líneas tienen varias propiedades interesantes y útiles. Cuando las raíces de P ( z ) y Q ( z ) están entrelazadas, la estabilidad del filtro está asegurada si y sólo si las raíces aumentan monótonamente. Además, cuanto más cercanas estén dos raíces, más resonante será el filtro en la frecuencia correspondiente. Debido a que los LSP no son demasiado sensibles al ruido de cuantificación y la estabilidad se garantiza fácilmente, los LSP se utilizan ampliamente para cuantificar filtros LPC. Las frecuencias espectrales de línea se pueden interpolar.

Ver también

Proporciones de área de registro

Fuentes

Manual de Speex y código fuente (lsp.c)
"El cálculo de frecuencias espectrales lineales utilizando polinomios de Chebyshev"/ P. Kabal y RP Ramachandran. Traducción IEEE. Acústica, habla, procesamiento de señales, vol. 34, núm. 6, págs. 1419-1426, diciembre de 1986.

Incluye una descripción general en relación con LPC.

Capítulo "Pares espectrales de líneas" como extracto en línea (pdf) / "Procesamiento de señales digitales: una perspectiva de la informática" ( ISBN 0-471-29546-9 ) Jonathan Stein.

Referencias

^ Sahidullah, Maryland; Chakroborty, Sandipan; Saha, Goutam (enero de 2010). "Sobre el uso de frecuencias de pares espectrales de líneas perceptuales y momentos residuales de orden superior para la identificación del hablante". Revista Internacional de Biometría . 2 (4): 358–378. doi :10.1504/ijbm.2010.035450.
^ Zheng, F.; Canción, Z.; Li, L.; Yu, W. (1998). "La medida de distancia para pares de espectro de líneas aplicada al reconocimiento de voz" (PDF) . Actas de la Quinta Conferencia Internacional sobre Procesamiento del Lenguaje Hablado (ICSLP'98) (3): 1123–6.
^ ab "Lista de hitos del IEEE". IEEE . Consultado el 15 de julio de 2019 .
^ "Historia Oral Fumitada Itakura". Red de Historia Global IEEE. 20 de mayo de 2009 . Consultado el 21 de julio de 2009 .
^ http://svr-www.eng.cam.ac.uk/~ajr/SpeechAnalysis/node51.html#SECTION000713000000000000000 Tony Robinson: análisis del habla
^ por ejemplo, lsf.c en http://www.ietf.org/rfc/rfc3951.txt