stringtranslate.com

Red neuronal con retardo temporal

Diagrama TDNN

La red neuronal con retardo de tiempo ( TDNN ) [1] es una arquitectura de red neuronal artificial multicapa cuyo propósito es 1) clasificar patrones con invariancia de desplazamiento y 2) modelar el contexto en cada capa de la red.

La clasificación invariante al cambio significa que el clasificador no requiere una segmentación explícita antes de la clasificación. Para la clasificación de un patrón temporal (como el habla), la TDNN evita así tener que determinar los puntos de inicio y fin de los sonidos antes de clasificarlos.

Para el modelado contextual en una TDNN, cada unidad neuronal en cada capa recibe información no solo de las activaciones/características de la capa inferior, sino también de un patrón de salida de la unidad y su contexto. Para las señales temporales, cada unidad recibe como entrada los patrones de activación a lo largo del tiempo de las unidades inferiores. Aplicada a la clasificación bidimensional (imágenes, patrones de tiempo-frecuencia), la TDNN se puede entrenar con invariancia de desplazamiento en el espacio de coordenadas y evita la segmentación precisa en el espacio de coordenadas.

Historia

La TDNN se introdujo a fines de la década de 1980 y se aplicó a una tarea de clasificación de fonemas para el reconocimiento automático del habla en señales de voz donde la determinación automática de segmentos precisos o límites de características era difícil o imposible. Debido a que la TDNN reconoce fonemas y sus características acústicas/fonéticas subyacentes, independientemente de la posición en el tiempo, mejoró el rendimiento con respecto a la clasificación estática. [1] [2] También se aplicó a señales bidimensionales (patrones de tiempo-frecuencia en el habla, [3] y patrón de espacio de coordenadas en OCR [4] ).

Kunihiko Fukushima publicó el neocognitrón en 1980. [5] La agrupación máxima aparece en una publicación de 1982 sobre el neocognitrón [6] y estuvo en la publicación de 1989 en LeNet-5 . [7]

En 1990, Yamaguchi et al. utilizaron agrupamiento máximo en TDNN para lograr un sistema de reconocimiento de palabras aisladas e independientes del hablante. [8]

Descripción general

La red neuronal con retardo temporal, al igual que otras redes neuronales, funciona con múltiples capas interconectadas de perceptrones y se implementa como una red neuronal de propagación hacia adelante . Todas las neuronas (en cada capa) de una TDNN reciben entradas de las salidas de las neuronas de la capa inferior, pero con dos diferencias:

  1. A diferencia de los perceptrones multicapa regulares , todas las unidades en una TDNN, en cada capa, obtienen entradas de una ventana contextual de salidas de la capa inferior. Para señales que varían en el tiempo (por ejemplo, el habla), cada unidad tiene conexiones con la salida de las unidades inferiores, pero también con las salidas retardadas en el tiempo (pasadas) de estas mismas unidades. Esto modela el patrón/trayectoria temporal de las unidades. Para señales bidimensionales (por ejemplo, patrones de tiempo-frecuencia o imágenes), se observa una ventana de contexto 2-D en cada capa. Las capas superiores tienen entradas de ventanas de contexto más amplias que las capas inferiores y, por lo tanto, generalmente modelan niveles de abstracción más burdos.
  2. La invariancia de desplazamiento se logra eliminando explícitamente la dependencia de la posición durante el entrenamiento de retropropagación . Esto se hace haciendo copias desplazadas en el tiempo de una red a través de la dimensión de invariancia (aquí: tiempo). Luego, el gradiente de error se calcula mediante retropropagación a través de todas estas redes a partir de un vector objetivo general, pero antes de realizar la actualización de peso, los gradientes de error asociados con las copias desplazadas se promedian y, por lo tanto, se comparten y se limitan para que sean iguales. Por lo tanto, se elimina toda la dependencia de la posición del entrenamiento de retropropagación a través de las copias desplazadas y las redes copiadas aprenden las características ocultas más destacadas de manera invariante al desplazamiento, es decir, independientemente de su posición precisa en los datos de entrada. La invariancia de desplazamiento también se extiende fácilmente a múltiples dimensiones al imponer una distribución de peso similar entre las copias que se desplazan a lo largo de múltiples dimensiones. [3] [4]

Ejemplo

En el caso de una señal de voz, las entradas son coeficientes espectrales a lo largo del tiempo.

Para aprender características acústicas y fonéticas críticas (por ejemplo, transiciones de formantes, ráfagas, fricación, etc.) sin requerir primero una localización precisa, la TDNN se entrena de manera invariante al cambio de tiempo. La invariancia al cambio de tiempo se logra mediante la distribución de pesos a lo largo del tiempo durante el entrenamiento: se realizan copias de la TDNN con cambio de tiempo en el rango de entrada (de izquierda a derecha en la figura 1). Luego se realiza la retropropagación a partir de un vector objetivo de clasificación general (consulte el diagrama de la TDNN; se muestran tres objetivos de clase de fonema (/b/, /d/, /g/) en la capa de salida), lo que da como resultado gradientes que generalmente variarán para cada una de las copias de la red con cambio de tiempo. Sin embargo, dado que dichas redes con cambio de tiempo son solo copias, la dependencia de la posición se elimina mediante la distribución de pesos. En este ejemplo, esto se hace promediando los gradientes de cada copia con cambio de tiempo antes de realizar la actualización de pesos. En el habla, se demostró que el entrenamiento invariante al cambio de tiempo aprende matrices de pesos que son independientes del posicionamiento preciso de la entrada. También se podría demostrar que las matrices de peso detectan características fonético-acústicas importantes que se sabe que son importantes para la percepción del habla humana, como transiciones de formantes, ráfagas, etc. [1] Las TDNN también se podrían combinar o desarrollar mediante un preentrenamiento. [9]

Implementación

La arquitectura precisa de las TDNN (retardos temporales, número de capas) la determina principalmente el diseñador en función del problema de clasificación y de los tamaños de contexto más útiles. Los retrasos o ventanas de contexto se eligen de forma específica para cada aplicación. También se ha trabajado para crear TDNN con retardo temporal adaptables [10] en las que se elimina este ajuste manual.

Lo último

Los reconocedores de fonemas basados ​​en TDNN obtuvieron buenos resultados en las primeras comparaciones con los modelos de fonemas basados ​​en HMM. [1] [9] Las arquitecturas TDNN profundas modernas incluyen muchas más capas ocultas y conexiones de submuestras o grupos en contextos más amplios en capas superiores. Logran una reducción de errores de palabras de hasta el 50 % en comparación con los modelos acústicos basados ​​en GMM . [11] [12] Si bien las diferentes capas de TDNN están destinadas a aprender características de un ancho de contexto creciente, sí modelan contextos locales. Cuando se deben procesar relaciones y secuencias de patrones a mayor distancia, es importante aprender estados y secuencias de estados y las TDNN se pueden combinar con otras técnicas de modelado. [13] [3] [4]

Aplicaciones

Reconocimiento de voz

Las TDNN se utilizan para resolver problemas de reconocimiento de voz que se introdujeron en 1989 [2] y que inicialmente se centraron en el reconocimiento de fonemas invariantes al cambio de tiempo. El habla se presta muy bien a las TDNN, ya que los sonidos hablados rara vez tienen una longitud uniforme y la segmentación precisa es difícil o imposible. Al escanear un sonido en el pasado y el futuro, la TDNN puede construir un modelo para los elementos clave de ese sonido de una manera invariante al cambio de tiempo. Esto es particularmente útil ya que los sonidos se difuminan a través de la reverberación. [11] [12] Las TDNN fonéticas grandes se pueden construir de forma modular mediante un entrenamiento previo y la combinación de redes más pequeñas. [9]

Reconocimiento de voz de vocabulario amplio

El reconocimiento de voz de vocabulario amplio requiere reconocer secuencias de fonemas que forman palabras sujetas a las restricciones de un vocabulario de pronunciación amplio. La integración de TDNN en reconocedores de voz de vocabulario amplio es posible mediante la introducción de transiciones de estado y búsqueda entre fonemas que forman una palabra. La red neuronal de retardo temporal multiestado (MS-TDNN) resultante se puede entrenar para que discrimine a partir del nivel de palabra, optimizando así todo el arreglo hacia el reconocimiento de palabras en lugar de la clasificación de fonemas. [13] [14] [4]

Independencia del hablante

Se propusieron variantes bidimensionales de las TDNN para la independencia del hablante. [3] Aquí, la invariancia de desplazamiento se aplica tanto al eje de tiempo como al de frecuencia para aprender características ocultas que son independientes de la ubicación precisa en el tiempo y en la frecuencia (esta última se debe a la variabilidad del hablante).

Reverberación

Uno de los problemas persistentes en el reconocimiento de voz es reconocer el habla cuando está alterada por el eco y la reverberación (como es el caso en salas grandes y micrófonos distantes). La reverberación puede considerarse como la alteración del habla con versiones retardadas de sí misma. Sin embargo, en general es difícil desreverberar una señal, ya que la función de respuesta al impulso (y, por lo tanto, el ruido convolucional que experimenta la señal) no se conoce para ningún espacio arbitrario. Se demostró que la TDNN es eficaz para reconocer el habla de manera robusta a pesar de los diferentes niveles de reverberación. [11] [12]

Lectura de labios – discurso audiovisual

Las TDNN también se utilizaron con éxito en las primeras demostraciones del habla audiovisual, donde los sonidos del habla se complementan con la lectura visual del movimiento de los labios. [14] Aquí, los reconocedores basados ​​en TDNN utilizaron características visuales y acústicas en conjunto para lograr una precisión de reconocimiento mejorada, particularmente en presencia de ruido, donde la información complementaria de una modalidad alternativa podría fusionarse perfectamente en una red neuronal.

Reconocimiento de escritura a mano

Las TDNN se han utilizado de manera eficaz en sistemas de reconocimiento de escritura a mano compactos y de alto rendimiento . La invariancia de desplazamiento también se adaptó a los patrones espaciales (ejes x/y) en el reconocimiento de escritura a mano sin conexión a imágenes. [4]

Análisis de vídeo

El vídeo tiene una dimensión temporal que hace que una TDNN sea una solución ideal para analizar patrones de movimiento. Un ejemplo de este análisis es una combinación de detección de vehículos y reconocimiento de peatones. [15] Al examinar vídeos, las imágenes posteriores se introducen en la TDNN como entrada, donde cada imagen es el siguiente fotograma del vídeo. La fortaleza de la TDNN proviene de su capacidad para examinar objetos desplazados en el tiempo hacia adelante y hacia atrás para definir un objeto detectable a medida que se altera el tiempo. Si un objeto puede reconocerse de esta manera, una aplicación puede planificar la detección de ese objeto en el futuro y realizar una acción óptima.

Reconocimiento de imágenes

Las TDNN bidimensionales se aplicaron posteriormente a otras tareas de reconocimiento de imágenes bajo el nombre de " redes neuronales convolucionales ", donde se aplica un entrenamiento invariante al desplazamiento a los ejes x/y de una imagen.

Bibliotecas comunes

Véase también

Referencias

  1. ^ abcd Alexander Waibel , Tashiyuki Hanazawa, Geoffrey Hinton , Kiyohito Shikano, Kevin J. Lang, Reconocimiento de fonemas mediante redes neuronales con retardo temporal , IEEE Transactions on Acoustics, Speech, and Signal Processing, Volumen 37, N.º 3, págs. 328. - 339, marzo de 1989.
  2. ^ de Alexander Waibel, Reconocimiento de fonemas utilizando redes neuronales con retardo de tiempo , SP87-100, Reunión del Instituto de Ingenieros Eléctricos, de Información y Comunicaciones (IEICE), diciembre de 1987, Tokio, Japón.
  3. ^ abcd John B. Hampshire y Alexander Waibel, Arquitecturas conexionistas para el reconocimiento de fonemas de múltiples hablantes Archivado el 11 de abril de 2016 en Wayback Machine , Avances en sistemas de procesamiento de información neuronal, 1990, Morgan Kaufmann.
  4. ^ abcde Stefan Jaeger, Stefan Manke, Juergen Reichert, Alexander Waibel, Reconocimiento de escritura a mano en línea: el reconocedor NPen++ , Revista internacional sobre análisis y reconocimiento de documentos, vol. 3, número 3, marzo de 2001
  5. ^ Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" (PDF) . Cibernética biológica . 36 (4): 193–202. doi :10.1007/BF00344251. PMID  7370364. S2CID  206775608. Archivado (PDF) desde el original el 3 de junio de 2014 . Consultado el 16 de noviembre de 2013 .
  6. ^ Fukushima, Kunihiko; Miyake, Sei (1982-01-01). "Neocognitron: Un nuevo algoritmo para el reconocimiento de patrones tolerante a deformaciones y cambios de posición". Reconocimiento de patrones . 15 (6): 455–469. Bibcode :1982PatRe..15..455F. doi :10.1016/0031-3203(82)90024-3. ISSN  0031-3203.
  7. ^ LeCun, Yann; Boser, Bernhard; Denker, John; Henderson, Donnie; Howard, R.; Hubbard, Wayne; Jackel, Lawrence (1989). "Reconocimiento de dígitos escritos a mano con una red de retropropagación". Avances en sistemas de procesamiento de información neuronal . 2 . Morgan-Kaufmann.
  8. ^ Yamaguchi, Kouichi; Sakamoto, Kenji; Akabane, Toshio; Fujimoto, Yoshiji (noviembre de 1990). Una red neuronal para el reconocimiento de palabras aisladas independiente del hablante. Primera Conferencia Internacional sobre Procesamiento del Lenguaje Hablado (ICSLP 90). Kobe, Japón. Archivado desde el original el 2021-03-07 . Consultado el 2019-09-04 .
  9. ^ abc Alexander Waibel, Hidefumi Sawai, Kiyohiro Shikano, Modularidad y escalamiento en grandes redes neuronales fonémicas , IEEE Transactions on Acoustics, Speech, and Signal Processing, diciembre, diciembre de 1989.
  10. ^ Christian Koehler y Joachim K. Anlauf, Un algoritmo de red neuronal con retardo temporal adaptable para el análisis de secuencias de imágenes , IEEE Transactions on Neural Networks 10.6 (1999): 1531-1536
  11. ^ abc Vijayaditya Peddinti, Daniel Povey, Sanjeev Khudanpur, Una arquitectura de red neuronal con retardo temporal para el modelado eficiente de contextos temporales largos , Actas de Interspeech 2015
  12. ^ abc David Snyder, Daniel Garcia-Romero, Daniel Povey, Modelos de fondo universales basados ​​en redes neuronales profundas con retardo temporal para el reconocimiento de hablantes , Actas de la ASRU 2015.
  13. ^ por Patrick Haffner, Alexander Waibel, Redes neuronales con retardo temporal de múltiples estados para reconocimiento de voz continuo Archivado el 11 de abril de 2016 en Wayback Machine , Avances en sistemas de procesamiento de información neuronal, 1992, Morgan Kaufmann.
  14. ^ por Christoph Bregler, Hermann Hild, Stefan Manke, Alexander Waibel, Mejora del reconocimiento de letras conectadas mediante lectura de labios , Actas del IEEE, Conferencia internacional sobre acústica, habla y procesamiento de señales, Minneapolis, 1993.
  15. ^ Christian Woehler y Joachim K. Anlauf, Reconocimiento de objetos en tiempo real en secuencias de imágenes con el algoritmo de red neuronal de retardo temporal adaptable: aplicaciones para vehículos autónomos". Image and Vision Computing 19.9 (2001): 593-618.
  16. ^ "Series temporales y sistemas dinámicos - MATLAB y Simulink". mathworks.com. Consultado el 21 de junio de 2016.
  17. ^ Vijayaditya Peddinti, Guoguo Chen, Vimal Manohar, Tom Ko, Daniel Povey, Sanjeev Khudanpur, Sistema JHU ASpIRE: LVCSR robusto con adaptación i-vector de TDNN y RNN-LM , Actas del Taller de reconocimiento y comprensión automáticos del habla del IEEE, 2015.