NETtalk es una red neuronal artificial . Es el resultado de una investigación realizada a mediados de la década de 1980 por Terrence Sejnowski y Charles Rosenberg. La intención detrás de NETtalk era construir modelos simplificados que pudieran arrojar luz sobre la complejidad del aprendizaje de tareas cognitivas de nivel humano y su implementación como un modelo conexionista que también pudiera aprender a realizar una tarea comparable. Los autores lo entrenaron mediante retropropagación . [1]
NETtalk es un programa que aprende a pronunciar texto escrito en inglés mostrándole texto como entrada y haciendo coincidir las transcripciones fonéticas para comparar. [2] [3]
La red fue entrenada con una gran cantidad de palabras en inglés y sus pronunciaciones correspondientes, y es capaz de generar pronunciaciones para palabras no vistas con un alto nivel de precisión. El éxito de la red NETtalk inspiró más investigaciones en el campo de la generación de pronunciación y síntesis de voz y demostró el potencial de las redes neuronales para resolver problemas complejos de PNL . El resultado de la red fue un flujo de fonemas, que se introdujeron en DECtalk para producir un habla audible. Logró un éxito popular, apareciendo en el programa Today . [4] El proceso de desarrollo se describió en una entrevista de 1993. Tomó tres meses crear el conjunto de datos de entrenamiento, pero solo unos días para entrenar la red. [5]
La red tenía tres capas y 18.629 pesos ajustables, una cantidad grande para los estándares de 1986. Existían preocupaciones de que se ajustara demasiado al conjunto de datos, pero se entrenó con éxito. El conjunto de datos era un subconjunto de 20.000 palabras del Corpus Brown , con fonemas y acentos anotados manualmente para cada letra. [4]
La entrada de la red tiene 203 unidades, divididas en 7 grupos de 29 unidades cada uno. Cada grupo es una codificación one-hot de un carácter. Hay 29 caracteres posibles: 26 letras, coma, punto y límite de palabra (espacio en blanco).
La capa oculta tiene 80 unidades.
La salida tiene 26 unidades. 21 unidades codifican características articulatorias (punto de articulación, sonoridad, altura de vocales, etc.) de los fonemas y 5 unidades codifican el acento y los límites silábicos.
Sejnowski estudió la representación aprendida en la red y descubrió que los fonemas que suenan de manera similar se agrupan en el espacio de representación. El resultado de la red se degrada, pero sigue siendo comprensible, cuando se eliminan algunas neuronas ocultas. [6]
NETtalk fue creado para explorar los mecanismos de aprendizaje para pronunciar correctamente el texto en inglés. Los autores señalan que aprender a leer implica un mecanismo complejo que involucra muchas partes del cerebro humano. NETtalk no modela específicamente las etapas de procesamiento de imágenes y reconocimiento de letras de la corteza visual . En cambio, supone que las letras han sido preclasificadas y reconocidas, y estas secuencias de letras que comprenden palabras se muestran a la red neuronal durante el entrenamiento y durante las pruebas de rendimiento. La tarea de NETtalk es aprender las asociaciones adecuadas entre la pronunciación correcta y una secuencia dada de letras en función del contexto en el que aparecen las letras. En otras palabras, NETtalk aprende a usar las letras alrededor del fonema actualmente pronunciado que brindan pistas sobre su mapeo fonémico deseado.