La red neuronal con retardo de tiempo ( TDNN ) [1] es una arquitectura de red neuronal artificial multicapa cuyo propósito es 1) clasificar patrones con invariancia de desplazamiento y 2) modelar el contexto en cada capa de la red.
La clasificación invariante al cambio significa que el clasificador no requiere una segmentación explícita antes de la clasificación. Para la clasificación de un patrón temporal (como el habla), la TDNN evita así tener que determinar los puntos de inicio y fin de los sonidos antes de clasificarlos.
Para el modelado contextual en una TDNN, cada unidad neuronal en cada capa recibe información no solo de las activaciones/características de la capa inferior, sino también de un patrón de salida de la unidad y su contexto. Para las señales temporales, cada unidad recibe como entrada los patrones de activación a lo largo del tiempo de las unidades inferiores. Aplicada a la clasificación bidimensional (imágenes, patrones de tiempo-frecuencia), la TDNN se puede entrenar con invariancia de desplazamiento en el espacio de coordenadas y evita la segmentación precisa en el espacio de coordenadas.
La TDNN se introdujo a fines de la década de 1980 y se aplicó a una tarea de clasificación de fonemas para el reconocimiento automático del habla en señales de voz donde la determinación automática de segmentos precisos o límites de características era difícil o imposible. Debido a que la TDNN reconoce fonemas y sus características acústicas/fonéticas subyacentes, independientemente de la posición en el tiempo, mejoró el rendimiento con respecto a la clasificación estática. [1] [2] También se aplicó a señales bidimensionales (patrones de tiempo-frecuencia en el habla, [3] y patrón de espacio de coordenadas en OCR [4] ).
Kunihiko Fukushima publicó el neocognitrón en 1980. [5] La agrupación máxima aparece en una publicación de 1982 sobre el neocognitrón [6] y estuvo en la publicación de 1989 en LeNet-5 . [7]
En 1990, Yamaguchi et al. utilizaron agrupamiento máximo en TDNN para lograr un sistema de reconocimiento de palabras aisladas e independientes del hablante. [8]
La red neuronal con retardo temporal, al igual que otras redes neuronales, funciona con múltiples capas interconectadas de perceptrones y se implementa como una red neuronal de propagación hacia adelante . Todas las neuronas (en cada capa) de una TDNN reciben entradas de las salidas de las neuronas de la capa inferior, pero con dos diferencias:
En el caso de una señal de voz, las entradas son coeficientes espectrales a lo largo del tiempo.
Para aprender características acústicas y fonéticas críticas (por ejemplo, transiciones de formantes, ráfagas, fricación, etc.) sin requerir primero una localización precisa, la TDNN se entrena de manera invariante al cambio de tiempo. La invariancia al cambio de tiempo se logra mediante la distribución de pesos a lo largo del tiempo durante el entrenamiento: se realizan copias de la TDNN con cambio de tiempo en el rango de entrada (de izquierda a derecha en la figura 1). Luego se realiza la retropropagación a partir de un vector objetivo de clasificación general (consulte el diagrama de la TDNN; se muestran tres objetivos de clase de fonema (/b/, /d/, /g/) en la capa de salida), lo que da como resultado gradientes que generalmente variarán para cada una de las copias de la red con cambio de tiempo. Sin embargo, dado que dichas redes con cambio de tiempo son solo copias, la dependencia de la posición se elimina mediante la distribución de pesos. En este ejemplo, esto se hace promediando los gradientes de cada copia con cambio de tiempo antes de realizar la actualización de pesos. En el habla, se demostró que el entrenamiento invariante al cambio de tiempo aprende matrices de pesos que son independientes del posicionamiento preciso de la entrada. También se podría demostrar que las matrices de peso detectan características fonético-acústicas importantes que se sabe que son importantes para la percepción del habla humana, como transiciones de formantes, ráfagas, etc. [1] Las TDNN también se podrían combinar o desarrollar mediante un preentrenamiento. [9]
La arquitectura precisa de las TDNN (retardos temporales, número de capas) la determina principalmente el diseñador en función del problema de clasificación y de los tamaños de contexto más útiles. Los retrasos o ventanas de contexto se eligen de forma específica para cada aplicación. También se ha trabajado para crear TDNN con retardo temporal adaptables [10] en las que se elimina este ajuste manual.
Los reconocedores de fonemas basados en TDNN obtuvieron buenos resultados en las primeras comparaciones con los modelos de fonemas basados en HMM. [1] [9] Las arquitecturas TDNN profundas modernas incluyen muchas más capas ocultas y conexiones de submuestras o grupos en contextos más amplios en capas superiores. Logran una reducción de errores de palabras de hasta el 50 % en comparación con los modelos acústicos basados en GMM . [11] [12] Si bien las diferentes capas de TDNN están destinadas a aprender características de un ancho de contexto creciente, sí modelan contextos locales. Cuando se deben procesar relaciones y secuencias de patrones a mayor distancia, es importante aprender estados y secuencias de estados y las TDNN se pueden combinar con otras técnicas de modelado. [13] [3] [4]
Las TDNN se utilizan para resolver problemas de reconocimiento de voz que se introdujeron en 1989 [2] y que inicialmente se centraron en el reconocimiento de fonemas invariantes al cambio de tiempo. El habla se presta muy bien a las TDNN, ya que los sonidos hablados rara vez tienen una longitud uniforme y la segmentación precisa es difícil o imposible. Al escanear un sonido en el pasado y el futuro, la TDNN puede construir un modelo para los elementos clave de ese sonido de una manera invariante al cambio de tiempo. Esto es particularmente útil ya que los sonidos se difuminan a través de la reverberación. [11] [12] Las TDNN fonéticas grandes se pueden construir de forma modular mediante un entrenamiento previo y la combinación de redes más pequeñas. [9]
El reconocimiento de voz de vocabulario amplio requiere reconocer secuencias de fonemas que forman palabras sujetas a las restricciones de un vocabulario de pronunciación amplio. La integración de TDNN en reconocedores de voz de vocabulario amplio es posible mediante la introducción de transiciones de estado y búsqueda entre fonemas que forman una palabra. La red neuronal de retardo temporal multiestado (MS-TDNN) resultante se puede entrenar para que discrimine a partir del nivel de palabra, optimizando así todo el arreglo hacia el reconocimiento de palabras en lugar de la clasificación de fonemas. [13] [14] [4]
Se propusieron variantes bidimensionales de las TDNN para la independencia del hablante. [3] Aquí, la invariancia de desplazamiento se aplica tanto al eje de tiempo como al de frecuencia para aprender características ocultas que son independientes de la ubicación precisa en el tiempo y en la frecuencia (esta última se debe a la variabilidad del hablante).
Uno de los problemas persistentes en el reconocimiento de voz es reconocer el habla cuando está alterada por el eco y la reverberación (como es el caso en salas grandes y micrófonos distantes). La reverberación puede considerarse como la alteración del habla con versiones retardadas de sí misma. Sin embargo, en general es difícil desreverberar una señal, ya que la función de respuesta al impulso (y, por lo tanto, el ruido convolucional que experimenta la señal) no se conoce para ningún espacio arbitrario. Se demostró que la TDNN es eficaz para reconocer el habla de manera robusta a pesar de los diferentes niveles de reverberación. [11] [12]
Las TDNN también se utilizaron con éxito en las primeras demostraciones del habla audiovisual, donde los sonidos del habla se complementan con la lectura visual del movimiento de los labios. [14] Aquí, los reconocedores basados en TDNN utilizaron características visuales y acústicas en conjunto para lograr una precisión de reconocimiento mejorada, particularmente en presencia de ruido, donde la información complementaria de una modalidad alternativa podría fusionarse perfectamente en una red neuronal.
Las TDNN se han utilizado de manera eficaz en sistemas de reconocimiento de escritura a mano compactos y de alto rendimiento . La invariancia de desplazamiento también se adaptó a los patrones espaciales (ejes x/y) en el reconocimiento de escritura a mano sin conexión a imágenes. [4]
El vídeo tiene una dimensión temporal que hace que una TDNN sea una solución ideal para analizar patrones de movimiento. Un ejemplo de este análisis es una combinación de detección de vehículos y reconocimiento de peatones. [15] Al examinar vídeos, las imágenes posteriores se introducen en la TDNN como entrada, donde cada imagen es el siguiente fotograma del vídeo. La fortaleza de la TDNN proviene de su capacidad para examinar objetos desplazados en el tiempo hacia adelante y hacia atrás para definir un objeto detectable a medida que se altera el tiempo. Si un objeto puede reconocerse de esta manera, una aplicación puede planificar la detección de ese objeto en el futuro y realizar una acción óptima.
Las TDNN bidimensionales se aplicaron posteriormente a otras tareas de reconocimiento de imágenes bajo el nombre de " redes neuronales convolucionales ", donde se aplica un entrenamiento invariante al desplazamiento a los ejes x/y de una imagen.