Procesamiento del habla

El procesamiento del habla es el estudio de las señales de voz y los métodos de procesamiento de las señales. Las señales se procesan normalmente en una representación digital , por lo que el procesamiento del habla puede considerarse un caso especial de procesamiento de señales digitales , aplicado a las señales de voz . Los aspectos del procesamiento del habla incluyen la adquisición, manipulación, almacenamiento, transferencia y salida de señales de voz. Las diferentes tareas de procesamiento del habla incluyen el reconocimiento de voz , la síntesis de voz , la diarización del hablante , la mejora del habla , el reconocimiento del hablante , etc. ^[1]

Historia

Los primeros intentos de procesamiento y reconocimiento del habla se centraron principalmente en la comprensión de un puñado de elementos fonéticos simples , como las vocales. En 1952, tres investigadores de Bell Labs, Stephen Balashek, R. Biddulph y KH Davis, desarrollaron un sistema que podía reconocer dígitos pronunciados por un solo hablante. ^[2] En la década de 1940 se publicaron trabajos pioneros en el campo del reconocimiento del habla mediante el análisis de su espectro. ^[3]

La codificación predictiva lineal (LPC), un algoritmo de procesamiento de voz, fue propuesta por primera vez por Fumitada Itakura de la Universidad de Nagoya y Shuzo Saito de Nippon Telegraph and Telephone (NTT) en 1966. ^[4]Bishnu S. Atal y Manfred R. Schroeder realizaron desarrollos adicionales en la tecnología LPC en Bell Labs durante la década de 1970. ^[4] LPC fue la base de la tecnología de voz sobre IP (VoIP), ^[4] así como de los chips sintetizadores de voz , como los Texas Instruments LPC Speech Chips utilizados en los juguetes Speak & Spell de 1978. ^[5]

Uno de los primeros productos de reconocimiento de voz disponibles comercialmente fue Dragon Dictate, lanzado en 1990. En 1992, AT&T utilizó la tecnología desarrollada por Lawrence Rabiner y otros en Bell Labs en su servicio de procesamiento de llamadas de reconocimiento de voz para enrutar llamadas sin un operador humano. En ese momento, el vocabulario de estos sistemas era más amplio que el vocabulario humano promedio. ^[6]

A principios de la década de 2000, la estrategia dominante de procesamiento del habla comenzó a alejarse de los modelos ocultos de Markov hacia redes neuronales más modernas y aprendizaje profundo . ^{[ cita requerida ]}

Técnicas

Deformación temporal dinámica

La deformación temporal dinámica (DTW) es un algoritmo para medir la similitud entre dos secuencias temporales , que pueden variar en velocidad. En general, DTW es un método que calcula una coincidencia óptima entre dos secuencias dadas (por ejemplo, series temporales) con ciertas restricciones y reglas. La coincidencia óptima se denota por la coincidencia que satisface todas las restricciones y las reglas y que tiene el costo mínimo, donde el costo se calcula como la suma de las diferencias absolutas, para cada par de índices coincidentes, entre sus valores. ^{[ cita requerida ]}

Modelos ocultos de Markov

Un modelo Markov oculto puede representarse como la red bayesiana dinámica más simple . El objetivo del algoritmo es estimar una variable oculta x(t) dada una lista de observaciones y(t). Al aplicar la propiedad Markoviana , la distribución de probabilidad condicional de la variable oculta x ( t ) en el tiempo t , dados los valores de la variable oculta x en todo momento, depende únicamente del valor de la variable oculta x ( t − 1 ). De manera similar, el valor de la variable observada y ( t ) solo depende del valor de la variable oculta x ( t ) (ambos en el tiempo t ). ^{[ cita requerida ]}

Redes neuronales artificiales

Una red neuronal artificial (RNA) se basa en una colección de unidades o nodos conectados llamados neuronas artificiales , que modelan vagamente las neuronas de un cerebro biológico . Cada conexión, al igual que las sinapsis de un cerebro biológico , puede transmitir una señal de una neurona artificial a otra. Una neurona artificial que recibe una señal puede procesarla y luego enviar una señal a neuronas artificiales adicionales conectadas a ella. En las implementaciones comunes de RNA, la señal en una conexión entre neuronas artificiales es un número real , y la salida de cada neurona artificial se calcula mediante alguna función no lineal de la suma de sus entradas. ^{[ cita requerida ]}

Procesamiento con reconocimiento de fase

Generalmente se supone que la fase es una variable aleatoria uniforme y, por lo tanto, inútil. Esto se debe al enrollado de la fase: ^[7] el resultado de la función arcotangente no es continuo debido a los saltos periódicos en . Después del enrollado de la fase (ver, ^[8] Capítulo 2.3; Fase instantánea y frecuencia ), se puede expresar como: ^[7]^[9] , donde es la fase lineal ( es el desplazamiento temporal en cada cuadro de análisis), es la contribución de fase del tracto vocal y la fuente de fase. ^[9] Las estimaciones de fase obtenidas se pueden utilizar para la reducción de ruido: suavizado temporal de la fase instantánea ^[10] y sus derivadas por tiempo ( frecuencia instantánea ) y frecuencia ( retardo de grupo ), ^[11] suavizado de la fase a través de la frecuencia. ^[11] Los estimadores de amplitud y fase unidos pueden recuperar el habla con mayor precisión basándose en el supuesto de la distribución de fase de von Mises. ^[9] ${\estilo de visualización 2\pi}$ $\phi (h,l)=\phi _{lin}(h,l)+\Psi (h,l)$ $\phi _{lin}(h,l)=\omega _{0}(l'){}_{\Delta }t$ $estilo de visualización {}_{\Delta }t}$ $\Psi(h,l)$

Aplicaciones

Véase también

Referencias

^ Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (6 de noviembre de 2019). "La presentación rápida a DIHARD II: contribuciones y lecciones aprendidas". arXiv : 1911.02388 [eess.AS].
^ Juang, B.-H.; Rabiner, LR (2006), "Reconocimiento de voz automático: historia", Enciclopedia de lengua y lingüística , Elsevier, págs. 806-819, doi :10.1016/b0-08-044854-2/00906-8, ISBN 9780080448541
^ Myasnikov, LL; Myasnikova, Ye. N. (1970). Reconocimiento automático de patrones de sonido (en ruso). Leningrado: Energiya.
^ abc Gray, Robert M. (2010). "Una historia del habla digital en tiempo real en redes de paquetes: Parte II de la codificación predictiva lineal y el protocolo de Internet" (PDF) . Encontrado. Trends Signal Process . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN 1932-8346.
^ "VC&G - Entrevista de VC&G: 30 años después, Richard Wiggins habla sobre el desarrollo de Speak & Spell".
^ Huang, Xuedong; Baker, James; Reddy, Raj (1 de enero de 2014). "Una perspectiva histórica del reconocimiento de voz". Comunicaciones de la ACM . 57 (1): 94–103. doi :10.1145/2500887. ISSN 0001-0782. S2CID 6175701.
^ ab Mowlaee, Pejman; Kulmer, Josef (agosto de 2015). "Estimación de fase en la mejora del habla de un solo canal: límites-potencial". Transacciones IEEE/ACM sobre audio, habla y procesamiento del lenguaje . 23 (8): 1283–1294. doi :10.1109/TASLP.2015.2430820. ISSN 2329-9290. S2CID 13058142 . Consultado el 3 de diciembre de 2017 .
^ Mowlaee, Pejman; Kulmer, Josef; Stahl, Johannes; Mayer, Florian (2017). Procesamiento de señales con reconocimiento de fase de un solo canal en la comunicación oral: teoría y práctica . Chichester: Wiley. ISBN 978-1-119-23882-9.
^ abc Kulmer, Josef; Mowlaee, Pejman (abril de 2015). "Estimación de fase armónica en la mejora del habla de un solo canal utilizando la distribución de von Mises y la relación señal-ruido previa". Acústica, habla y procesamiento de señales (ICASSP), Conferencia internacional IEEE de 2015 sobre . IEEE. págs. 5063–5067.
^ Kulmer, Josef; Mowlaee, Pejman (mayo de 2015). "Estimación de fase en la mejora del habla de un solo canal mediante descomposición de fase". IEEE Signal Processing Letters . 22 (5): 598–602. Bibcode :2015ISPL...22..598K. doi :10.1109/LSP.2014.2365040. ISSN 1070-9908. S2CID 15503015 . Consultado el 2017-12-03 .
^ ab Mowlaee, Pejman; Saeidi, Rahim; Stylianou, Yannis (julio de 2016). "Avances en el procesamiento de señales con reconocimiento de fase en la comunicación del habla". Speech Communication . 81 : 1–29. doi :10.1016/j.specom.2016.04.002. ISSN 0167-6393. S2CID 17409161 . Consultado el 3 de diciembre de 2017 .