Red neuronal de retardo de tiempo

La red neuronal con retardo de tiempo ( TDNN ) ^[1] es una arquitectura de red neuronal artificial multicapa cuyo propósito es 1) clasificar patrones con invariancia de cambio y 2) modelar el contexto en cada capa de la red.

La clasificación invariante por cambio significa que el clasificador no requiere una segmentación explícita antes de la clasificación. Para la clasificación de un patrón temporal (como el habla), la TDNN evita tener que determinar los puntos inicial y final de los sonidos antes de clasificarlos.

Para el modelado contextual en una TDNN, cada unidad neuronal en cada capa recibe información no solo de activaciones/características en la capa inferior, sino de un patrón de salida de la unidad y su contexto. Para las señales horarias, cada unidad recibe como entrada los patrones de activación a lo largo del tiempo de las unidades inferiores. Aplicado a la clasificación bidimensional (imágenes, patrones de tiempo-frecuencia), el TDNN se puede entrenar con invariancia de desplazamiento en el espacio de coordenadas y evita una segmentación precisa en el espacio de coordenadas.

Historia

La TDNN se introdujo a finales de la década de 1980 y se aplicó a una tarea de clasificación de fonemas para el reconocimiento automático del habla en señales de voz donde la determinación automática de segmentos precisos o límites de características era difícil o imposible. Debido a que TDNN reconoce los fonemas y sus características acústicas/fonéticas subyacentes, independientemente de la posición en el tiempo, mejoró el rendimiento con respecto a la clasificación estática. ^[1]^[2] También se aplicó a señales bidimensionales (patrones de tiempo-frecuencia en el habla, ^[3] y patrón de espacio de coordenadas en OCR ^[4] ).

Agrupación máxima

En 1990, Yamaguchi et al. introdujo el concepto de agrupación máxima. Lo hicieron combinando TDNN con agrupación máxima para realizar un sistema de reconocimiento de palabras aislado e independiente del hablante. ^[5]

Descripción general

La red neuronal de retardo de tiempo, al igual que otras redes neuronales, opera con múltiples capas de perceptrones interconectadas y se implementa como una red neuronal de avance . Todas las neuronas (en cada capa) de una TDNN reciben entradas de las salidas de las neuronas en la capa inferior, pero con dos diferencias:

A diferencia de los perceptrones multicapa normales , todas las unidades de una TDNN, en cada capa, obtienen entradas de una ventana contextual de salidas de la capa inferior. Para señales que varían en el tiempo (por ejemplo, voz), cada unidad tiene conexiones a la salida de las unidades inferiores pero también a las salidas retardadas (pasadas) de estas mismas unidades. Esto modela el patrón/trayectoria temporal de las unidades. Para señales bidimensionales (por ejemplo, patrones o imágenes de tiempo-frecuencia), se observa una ventana de contexto 2-D en cada capa. Las capas superiores tienen entradas de ventanas de contexto más amplias que las capas inferiores y, por lo tanto, generalmente modelan niveles de abstracción más generales.
La invariancia de cambio se logra eliminando explícitamente la dependencia de la posición durante el entrenamiento de retropropagación . Esto se hace haciendo copias en diferido de una red a través de la dimensión de invariancia (aquí: tiempo). Luego, el gradiente de error se calcula mediante propagación hacia atrás a través de todas estas redes desde un vector objetivo general, pero antes de realizar la actualización de peso, los gradientes de error asociados con las copias desplazadas se promedian y, por lo tanto, se comparten y se restringen para que sean iguales. Por lo tanto, se elimina toda dependencia de la posición del entrenamiento de retropropagación a través de las copias desplazadas y las redes copiadas aprenden las características ocultas más destacadas de forma invariante, es decir, independientemente de su posición precisa en los datos de entrada. La invariancia de desplazamiento también se extiende fácilmente a múltiples dimensiones al imponer un peso compartido similar entre copias que se desplazan a lo largo de múltiples dimensiones. ^[3]^[4]

Ejemplo

En el caso de una señal de voz, las entradas son coeficientes espectrales en el tiempo.

Para aprender características acústico-fonéticas críticas (por ejemplo, transiciones de formantes, ráfagas, fricación, etc.) sin requerir primero una localización precisa, la TDNN se entrena de forma invariante en cambio de tiempo. La invariancia del cambio de tiempo se logra compartiendo el peso a lo largo del tiempo durante el entrenamiento: se realizan copias del TDNN con cambio de tiempo en el rango de entrada (de izquierda a derecha en la Fig.1). Luego se realiza la retropropagación a partir de un vector objetivo de clasificación general (consulte el diagrama TDNN, se muestran tres objetivos de clases de fonemas (/b/, /d/, /g/) en la capa de salida), lo que da como resultado gradientes que generalmente variarán para cada uno de la red en diferido copia. Sin embargo, dado que estas redes en diferido en el tiempo son sólo copias, la dependencia de la posición se elimina al compartir el peso. En este ejemplo, esto se hace promediando los gradientes de cada copia en diferido antes de realizar la actualización de peso. En el habla, se demostró que el entrenamiento invariante en cambio de tiempo aprende matrices de peso que son independientes del posicionamiento preciso de la entrada. También se podría demostrar que las matrices de peso detectan características acústico-fonéticas importantes que se sabe que son importantes para la percepción del habla humana, como transiciones de formantes, ráfagas, etc. ^[1] Las TDNN también podrían combinarse o desarrollarse mediante entrenamiento previo. . ^[6]

Implementación

La arquitectura precisa de las TDNN (retrasos de tiempo, número de capas) la determina principalmente el diseñador según el problema de clasificación y los tamaños de contexto más útiles. Los retrasos o ventanas de contexto se eligen de forma específica para cada aplicación. También se ha trabajado para crear TDNN de retardo de tiempo adaptables ^[7] donde se elimina este ajuste manual.

Lo último

Los reconocedores de fonemas basados en TDNN se compararon favorablemente en las primeras comparaciones con los modelos de teléfonos basados en HMM. ^[1]^[6] Las arquitecturas TDNN profundas modernas incluyen muchas más capas ocultas y conexiones de submuestra o grupo en contextos más amplios en capas superiores. Logran una reducción de hasta un 50% de errores de palabras en comparación con los modelos acústicos basados en GMM . ^[8]^[9] Si bien las diferentes capas de TDNN están destinadas a aprender características de un contexto cada vez más amplio, sí modelan contextos locales. Cuando es necesario procesar relaciones de mayor distancia y secuencias de patrones, aprender estados y secuencias de estados es importante y las TDNN se pueden combinar con otras técnicas de modelado. ^[10]^[3]^[4]

Aplicaciones

Reconocimiento de voz

Los TDNN solían resolver problemas de reconocimiento de voz que se introdujeron en 1989 ^[2] e inicialmente se centraron en el reconocimiento de fonemas invariantes por cambio. El habla se adapta muy bien a las TDNN, ya que los sonidos hablados rara vez tienen una longitud uniforme y la segmentación precisa es difícil o imposible. Al escanear un sonido en el pasado y el futuro, el TDNN puede construir un modelo para los elementos clave de ese sonido de manera invariante en el tiempo. Esto es particularmente útil cuando los sonidos se difuminan debido a la reverberación. ^[8]^[9] Las TDNN fonéticas grandes se pueden construir de forma modular mediante un entrenamiento previo y la combinación de redes más pequeñas. ^[6]

Reconocimiento de voz con amplio vocabulario

El reconocimiento de voz con un vocabulario amplio requiere reconocer secuencias de fonemas que forman palabras sujetas a las limitaciones de un vocabulario de pronunciación amplio. La integración de TDNN en reconocedores de voz de amplio vocabulario es posible mediante la introducción de transiciones de estado y la búsqueda entre fonemas que componen una palabra. La red neuronal de retardo de tiempo de múltiples estados (MS-TDNN) resultante se puede entrenar de forma discriminativa desde el nivel de palabra, optimizando así toda la disposición hacia el reconocimiento de palabras en lugar de la clasificación de fonemas. ^[10]^[11]^[4]

Independencia del hablante

Se propusieron variantes bidimensionales de las TDNN para la independencia del hablante. ^[3] Aquí, la invariancia de desplazamiento se aplica tanto al eje de tiempo como al de frecuencia para aprender características ocultas que son independientes de la ubicación precisa en el tiempo y en la frecuencia (esta última se debe a la variabilidad del hablante).

Reverberación

Uno de los problemas persistentes en el reconocimiento de voz es reconocer el habla cuando está corrompida por el eco y la reverberación (como es el caso en salas grandes y micrófonos distantes). La reverberación puede verse como una palabra corruptora con versiones retrasadas de sí misma. Sin embargo, en general es difícil eliminar la reverberación de una señal, ya que la función de respuesta al impulso (y, por tanto, el ruido convolucional experimentado por la señal) no se conoce en ningún espacio arbitrario. Se demostró que el TDNN es eficaz para reconocer el habla de forma sólida a pesar de los diferentes niveles de reverberación. ^[8]^[9]

Lectura de labios – discurso audiovisual

Los TDNN también se utilizaron con éxito en las primeras demostraciones de habla audiovisual, donde los sonidos del habla se complementan con la lectura visual del movimiento de los labios. ^[11] Aquí, los reconocedores basados en TDNN utilizaron características visuales y acústicas conjuntamente para lograr una precisión de reconocimiento mejorada, particularmente en presencia de ruido, donde la información complementaria de una modalidad alternativa podría fusionarse muy bien en una red neuronal.

Reconocimiento de escritura a mano

Los TDNN se han utilizado eficazmente en sistemas de reconocimiento de escritura a mano compactos y de alto rendimiento . La invariancia de cambio también se adaptó a patrones espaciales (ejes x/y) en el reconocimiento de escritura a mano fuera de línea de imágenes. ^[4]

Análisis de vídeo

El vídeo tiene una dimensión temporal que hace que TDNN sea una solución ideal para analizar patrones de movimiento. Un ejemplo de este análisis es una combinación de detección de vehículos y reconocimiento de peatones. ^[12] Al examinar videos, las imágenes posteriores se introducen en el TDNN como entrada, donde cada imagen es el siguiente cuadro del video. La fortaleza del TDNN proviene de su capacidad para examinar objetos desplazados en el tiempo hacia adelante y hacia atrás para definir un objeto detectable a medida que cambia el tiempo. Si un objeto puede reconocerse de esta manera, una aplicación puede planificar la búsqueda de ese objeto en el futuro y realizar una acción óptima.

Reconocimiento de imagen

Posteriormente, las TDNN bidimensionales se aplicaron a otras tareas de reconocimiento de imágenes bajo el nombre de " Redes neuronales convolucionales ", donde se aplica entrenamiento de cambio invariante a los ejes x/y de una imagen.

Bibliotecas comunes

Las TDNN se pueden implementar en prácticamente todos los marcos de aprendizaje automático utilizando redes neuronales convolucionales unidimensionales , debido a la equivalencia de los métodos.
Matlab : la caja de herramientas de redes neuronales tiene una funcionalidad explícita diseñada para producir una red neuronal con retardo de tiempo que proporciona el tamaño de paso de los retardos de tiempo y una función de entrenamiento opcional. El algoritmo de entrenamiento predeterminado es un algoritmo de retropropagación de aprendizaje supervisado que actualiza los pesos de los filtros en función de las optimizaciones de Levenberg-Marquardt. La función es timedelaynet(delays, hide_layers, train_fnc) y devuelve una arquitectura de red neuronal con retardo de tiempo que un usuario puede entrenar y proporcionar entradas. ^[13]
Kaldi ASR Toolkit tiene una implementación de TDNN con varias optimizaciones para el reconocimiento de voz. ^[14]

Ver también

Red neuronal convolucional : una red neuronal convolucional donde la convolución se realiza a lo largo del eje temporal de los datos es muy similar a una TDNN.
Redes neuronales recurrentes : una red neuronal recurrente también maneja datos temporales, aunque de manera diferente. En lugar de una entrada variable en el tiempo, los RNN mantienen capas internas ocultas para realizar un seguimiento de las entradas pasadas (y, en el caso de los RNN bidireccionales, futuras).

Referencias

^ abcd Alexander Waibel , Tashiyuki Hanazawa, Geoffrey Hinton , Kiyohito Shikano, Kevin J. Lang, Reconocimiento de fonemas mediante redes neuronales con retardo de tiempo , Transacciones IEEE sobre acústica, habla y procesamiento de señales, Volumen 37, No. 3, págs.328. - 339 de marzo de 1989.
^ ab Alexander Waibel, Reconocimiento de fonemas mediante redes neuronales con retardo de tiempo , SP87-100, Reunión del Instituto de Ingenieros Eléctricos, de la Información y las Comunicaciones (IEICE), diciembre de 1987, Tokio, Japón.
^ abcd John B. Hampshire y Alexander Waibel, Arquitecturas conexionistas para el reconocimiento de fonemas de varios hablantes Archivado el 11 de abril de 2016 en Wayback Machine , Avances en sistemas de procesamiento de información neuronal, 1990, Morgan Kaufmann.
^ abcde Stefan Jaeger, Stefan Manke, Juergen Reichert, Alexander Waibel, Reconocimiento de escritura a mano en línea: el reconocedor NPen++ , Revista internacional sobre análisis y reconocimiento de documentos, vol. 3, Número 3, marzo de 2001
^ Yamaguchi, Kouichi; Sakamoto, Kenji; Akabane, Toshio; Fujimoto, Yoshiji (noviembre de 1990). Una red neuronal para el reconocimiento de palabras aisladas independientes del hablante. Primera Conferencia Internacional sobre Procesamiento del Lenguaje Hablado (ICSLP 90). Kobe, Japón. Archivado desde el original el 7 de marzo de 2021 . Consultado el 4 de septiembre de 2019 .
^ abc Alexander Waibel, Hidefumi Sawai, Kiyohiro Shikano, Modularidad y escalamiento en grandes redes neuronales fonémicas , IEEE Transactions on Acoustics, Speech and Signal Processing, diciembre, diciembre de 1989.
^ Christian Koehler y Joachim K. Anlauf, Un algoritmo de red neuronal de retardo de tiempo adaptable para análisis de secuencia de imágenes , IEEE Transactions on Neural Networks 10.6 (1999): 1531-1536
^ abc Vijayaditya Peddinti, Daniel Povey, Sanjeev Khudanpur, Una arquitectura de red neuronal con retardo de tiempo para el modelado eficiente de contextos temporales prolongados , Actas de Interspeech 2015
^ abc David Snyder, Daniel García-Romero, Daniel Povey, Modelos de fondo universales basados en redes neuronales profundas con retardo de tiempo para el reconocimiento de hablantes , Actas de ASRU 2015.
^ ab Patrick Haffner, Alexander Waibel, Redes neuronales de retardo de tiempo de múltiples estados para el reconocimiento continuo de voz Archivado el 11 de abril de 2016 en Wayback Machine , Avances en sistemas de procesamiento de información neuronal, 1992, Morgan Kaufmann.
^ ab Christoph Bregler, Hermann Hild, Stefan Manke, Alexander Waibel, Mejora del reconocimiento de letras conectadas mediante lectura de labios , Conferencia internacional IEEE Proceedings sobre acústica, habla y procesamiento de señales, Minneapolis, 1993.
^ Christian Woehler y Joachim K. Anlauf, Reconocimiento de objetos en tiempo real en secuencias de imágenes con el algoritmo de red neuronal de retardo de tiempo adaptable: aplicaciones para vehículos autónomos. "Image and Vision Computing 19.9 (2001): 593-618.
^ "Series temporales y sistemas dinámicos: MATLAB y Simulink". mathworks.com. Consultado el 21 de junio de 2016.
^ Vijayaditya Peddinti, Guoguo Chen, Vimal Manohar, Tom Ko, Daniel Povey, Sanjeev Khudanpur, Sistema JHU ASpIRE: LVCSR robusto con adaptación i-vector TDNN y RNN-LM , Actas del taller de comprensión y reconocimiento automático de voz de IEEE, 2015.