El procesamiento del habla es el estudio de las señales del habla y los métodos de procesamiento de las señales. Las señales generalmente se procesan en una representación digital , por lo que el procesamiento del habla puede considerarse como un caso especial de procesamiento de señales digitales , aplicado a las señales del habla . Los aspectos del procesamiento del habla incluyen la adquisición, manipulación, almacenamiento, transferencia y salida de señales de voz. Las diferentes tareas de procesamiento del habla incluyen reconocimiento de voz , síntesis de voz , diario del hablante , mejora del habla , reconocimiento del hablante , etc. [1]
Los primeros intentos de procesamiento y reconocimiento del habla se centraron principalmente en comprender un puñado de elementos fonéticos simples , como las vocales. En 1952, tres investigadores de los Laboratorios Bell, Stephen. Balashek, R. Biddulph y KH Davis desarrollaron un sistema que podía reconocer dígitos pronunciados por un solo hablante. [2] En la década de 1940 se publicaron trabajos pioneros en el campo del reconocimiento de voz utilizando el análisis de su espectro. [3]
La codificación predictiva lineal (LPC), un algoritmo de procesamiento del habla, fue propuesta por primera vez por Fumitada Itakura de la Universidad de Nagoya y Shuzo Saito de Nippon Telegraph and Telephone (NTT) en 1966. [4] Bishnu S. Atal realizó más desarrollos en la tecnología LPC y Manfred R. Schroeder en Bell Labs durante la década de 1970. [4] LPC fue la base de la tecnología de voz sobre IP (VoIP), [4] así como de los chips sintetizadores de voz , como los chips de voz LPC de Texas Instruments utilizados en los juguetes Speak & Spell de 1978. [5]
Uno de los primeros productos de reconocimiento de voz disponibles comercialmente fue Dragon Dictate, lanzado en 1990. En 1992, AT&T utilizó la tecnología desarrollada por Lawrence Rabiner y otros en Bell Labs en su servicio de procesamiento de llamadas por reconocimiento de voz para enrutar llamadas sin un operador humano. En este punto, el vocabulario de estos sistemas era mayor que el vocabulario humano promedio. [6]
A principios de la década de 2000, la estrategia dominante de procesamiento del habla comenzó a alejarse de los modelos ocultos de Markov hacia redes neuronales más modernas y aprendizaje profundo . [ cita necesaria ]
La distorsión dinámica del tiempo (DTW) es un algoritmo para medir la similitud entre dos secuencias temporales , que pueden variar en velocidad. En general, DTW es un método que calcula una coincidencia óptima entre dos secuencias dadas (por ejemplo, series de tiempo) con ciertas restricciones y reglas. La coincidencia óptima se denota por la coincidencia que satisface todas las restricciones y reglas y que tiene el costo mínimo, donde el costo se calcula como la suma de diferencias absolutas, para cada par de índices coincidentes, entre sus valores. [ cita necesaria ]
Un modelo de Markov oculto se puede representar como la red bayesiana dinámica más simple . El objetivo del algoritmo es estimar una variable oculta x(t) dada una lista de observaciones y(t). Al aplicar la propiedad de Markov , la distribución de probabilidad condicional de la variable oculta x ( t ) en el momento t , dados los valores de la variable oculta x en todo momento, depende únicamente del valor de la variable oculta x ( t − 1). De manera similar, el valor de la variable observada y ( t ) solo depende del valor de la variable oculta x ( t ) (ambas en el tiempo t ). [ cita necesaria ]
Una red neuronal artificial (RNA) se basa en una colección de unidades o nodos conectados llamados neuronas artificiales , que modelan vagamente las neuronas de un cerebro biológico . Cada conexión, como las sinapsis en un cerebro biológico , puede transmitir una señal de una neurona artificial a otra. Una neurona artificial que recibe una señal puede procesarla y luego enviar señales a neuronas artificiales adicionales conectadas a ella. En implementaciones comunes de ANN, la señal en una conexión entre neuronas artificiales es un número real y la salida de cada neurona artificial se calcula mediante alguna función no lineal de la suma de sus entradas. [ cita necesaria ]
Generalmente se supone que la fase es una variable aleatoria uniforme y, por lo tanto, inútil. Esto se debe a la envoltura de fase: [7] el resultado de la función arcotangente no es continuo debido a saltos periódicos . Después del desenvolvimiento de la fase (ver, [8] Capítulo 2.3; Fase y frecuencia instantáneas ), se puede expresar como: [7] [9] , donde es la fase lineal ( es el cambio temporal en cada cuadro de análisis), es la contribución de fase de el tracto vocal y la fuente de fase. [9] Las estimaciones de fase obtenidas se pueden utilizar para la reducción de ruido: suavizado temporal de la fase instantánea [10] y sus derivadas por tiempo ( frecuencia instantánea ) y frecuencia ( retardo de grupo ), [11] suavizado de fase a través de la frecuencia. [11] Los estimadores de amplitud y fase unidos pueden recuperar el habla con mayor precisión basándose en el supuesto de la distribución de fase de von Mises. [9]