La red neuronal con retardo de tiempo ( TDNN ) [1] es una arquitectura de red neuronal artificial multicapa cuyo propósito es 1) clasificar patrones con invariancia de cambio y 2) modelar el contexto en cada capa de la red.
La clasificación invariante por cambio significa que el clasificador no requiere una segmentación explícita antes de la clasificación. Para la clasificación de un patrón temporal (como el habla), la TDNN evita tener que determinar los puntos inicial y final de los sonidos antes de clasificarlos.
Para el modelado contextual en una TDNN, cada unidad neuronal en cada capa recibe información no solo de activaciones/características en la capa inferior, sino de un patrón de salida de la unidad y su contexto. Para las señales horarias, cada unidad recibe como entrada los patrones de activación a lo largo del tiempo de las unidades inferiores. Aplicado a la clasificación bidimensional (imágenes, patrones de tiempo-frecuencia), el TDNN se puede entrenar con invariancia de desplazamiento en el espacio de coordenadas y evita una segmentación precisa en el espacio de coordenadas.
La TDNN se introdujo a finales de la década de 1980 y se aplicó a una tarea de clasificación de fonemas para el reconocimiento automático del habla en señales de voz donde la determinación automática de segmentos precisos o límites de características era difícil o imposible. Debido a que TDNN reconoce los fonemas y sus características acústicas/fonéticas subyacentes, independientemente de la posición en el tiempo, mejoró el rendimiento con respecto a la clasificación estática. [1] [2] También se aplicó a señales bidimensionales (patrones de tiempo-frecuencia en el habla, [3] y patrón de espacio de coordenadas en OCR [4] ).
En 1990, Yamaguchi et al. introdujo el concepto de agrupación máxima. Lo hicieron combinando TDNN con agrupación máxima para realizar un sistema de reconocimiento de palabras aislado e independiente del hablante. [5]
La red neuronal de retardo de tiempo, al igual que otras redes neuronales, opera con múltiples capas de perceptrones interconectadas y se implementa como una red neuronal de avance . Todas las neuronas (en cada capa) de una TDNN reciben entradas de las salidas de las neuronas en la capa inferior, pero con dos diferencias:
En el caso de una señal de voz, las entradas son coeficientes espectrales en el tiempo.
Para aprender características acústico-fonéticas críticas (por ejemplo, transiciones de formantes, ráfagas, fricación, etc.) sin requerir primero una localización precisa, la TDNN se entrena de forma invariante en cambio de tiempo. La invariancia del cambio de tiempo se logra compartiendo el peso a lo largo del tiempo durante el entrenamiento: se realizan copias del TDNN con cambio de tiempo en el rango de entrada (de izquierda a derecha en la Fig.1). Luego se realiza la retropropagación a partir de un vector objetivo de clasificación general (consulte el diagrama TDNN, se muestran tres objetivos de clases de fonemas (/b/, /d/, /g/) en la capa de salida), lo que da como resultado gradientes que generalmente variarán para cada uno de la red en diferido copia. Sin embargo, dado que estas redes en diferido en el tiempo son sólo copias, la dependencia de la posición se elimina al compartir el peso. En este ejemplo, esto se hace promediando los gradientes de cada copia en diferido antes de realizar la actualización de peso. En el habla, se demostró que el entrenamiento invariante en cambio de tiempo aprende matrices de peso que son independientes del posicionamiento preciso de la entrada. También se podría demostrar que las matrices de peso detectan características acústico-fonéticas importantes que se sabe que son importantes para la percepción del habla humana, como transiciones de formantes, ráfagas, etc. [1] Las TDNN también podrían combinarse o desarrollarse mediante entrenamiento previo. . [6]
La arquitectura precisa de las TDNN (retrasos de tiempo, número de capas) la determina principalmente el diseñador según el problema de clasificación y los tamaños de contexto más útiles. Los retrasos o ventanas de contexto se eligen de forma específica para cada aplicación. También se ha trabajado para crear TDNN de retardo de tiempo adaptables [7] donde se elimina este ajuste manual.
Los reconocedores de fonemas basados en TDNN se compararon favorablemente en las primeras comparaciones con los modelos de teléfonos basados en HMM. [1] [6] Las arquitecturas TDNN profundas modernas incluyen muchas más capas ocultas y conexiones de submuestra o grupo en contextos más amplios en capas superiores. Logran una reducción de hasta un 50% de errores de palabras en comparación con los modelos acústicos basados en GMM . [8] [9] Si bien las diferentes capas de TDNN están destinadas a aprender características de un contexto cada vez más amplio, sí modelan contextos locales. Cuando es necesario procesar relaciones de mayor distancia y secuencias de patrones, aprender estados y secuencias de estados es importante y las TDNN se pueden combinar con otras técnicas de modelado. [10] [3] [4]
Los TDNN solían resolver problemas de reconocimiento de voz que se introdujeron en 1989 [2] e inicialmente se centraron en el reconocimiento de fonemas invariantes por cambio. El habla se adapta muy bien a las TDNN, ya que los sonidos hablados rara vez tienen una longitud uniforme y la segmentación precisa es difícil o imposible. Al escanear un sonido en el pasado y el futuro, el TDNN puede construir un modelo para los elementos clave de ese sonido de manera invariante en el tiempo. Esto es particularmente útil cuando los sonidos se difuminan debido a la reverberación. [8] [9] Las TDNN fonéticas grandes se pueden construir de forma modular mediante un entrenamiento previo y la combinación de redes más pequeñas. [6]
El reconocimiento de voz con un vocabulario amplio requiere reconocer secuencias de fonemas que forman palabras sujetas a las limitaciones de un vocabulario de pronunciación amplio. La integración de TDNN en reconocedores de voz de amplio vocabulario es posible mediante la introducción de transiciones de estado y la búsqueda entre fonemas que componen una palabra. La red neuronal de retardo de tiempo de múltiples estados (MS-TDNN) resultante se puede entrenar de forma discriminativa desde el nivel de palabra, optimizando así toda la disposición hacia el reconocimiento de palabras en lugar de la clasificación de fonemas. [10] [11] [4]
Se propusieron variantes bidimensionales de las TDNN para la independencia del hablante. [3] Aquí, la invariancia de desplazamiento se aplica tanto al eje de tiempo como al de frecuencia para aprender características ocultas que son independientes de la ubicación precisa en el tiempo y en la frecuencia (esta última se debe a la variabilidad del hablante).
Uno de los problemas persistentes en el reconocimiento de voz es reconocer el habla cuando está corrompida por el eco y la reverberación (como es el caso en salas grandes y micrófonos distantes). La reverberación puede verse como una palabra corruptora con versiones retrasadas de sí misma. Sin embargo, en general es difícil eliminar la reverberación de una señal, ya que la función de respuesta al impulso (y, por tanto, el ruido convolucional experimentado por la señal) no se conoce en ningún espacio arbitrario. Se demostró que el TDNN es eficaz para reconocer el habla de forma sólida a pesar de los diferentes niveles de reverberación. [8] [9]
Los TDNN también se utilizaron con éxito en las primeras demostraciones de habla audiovisual, donde los sonidos del habla se complementan con la lectura visual del movimiento de los labios. [11] Aquí, los reconocedores basados en TDNN utilizaron características visuales y acústicas conjuntamente para lograr una precisión de reconocimiento mejorada, particularmente en presencia de ruido, donde la información complementaria de una modalidad alternativa podría fusionarse muy bien en una red neuronal.
Los TDNN se han utilizado eficazmente en sistemas de reconocimiento de escritura a mano compactos y de alto rendimiento . La invariancia de cambio también se adaptó a patrones espaciales (ejes x/y) en el reconocimiento de escritura a mano fuera de línea de imágenes. [4]
El vídeo tiene una dimensión temporal que hace que TDNN sea una solución ideal para analizar patrones de movimiento. Un ejemplo de este análisis es una combinación de detección de vehículos y reconocimiento de peatones. [12] Al examinar videos, las imágenes posteriores se introducen en el TDNN como entrada, donde cada imagen es el siguiente cuadro del video. La fortaleza del TDNN proviene de su capacidad para examinar objetos desplazados en el tiempo hacia adelante y hacia atrás para definir un objeto detectable a medida que cambia el tiempo. Si un objeto puede reconocerse de esta manera, una aplicación puede planificar la búsqueda de ese objeto en el futuro y realizar una acción óptima.
Posteriormente, las TDNN bidimensionales se aplicaron a otras tareas de reconocimiento de imágenes bajo el nombre de " Redes neuronales convolucionales ", donde se aplica entrenamiento de cambio invariante a los ejes x/y de una imagen.