Reconocimiento de voz

El reconocimiento de voz es un subcampo interdisciplinario de la informática y la lingüística computacional que desarrolla metodologías y tecnologías que permiten el reconocimiento y la traducción del lenguaje hablado a texto por parte de las computadoras. También se conoce como reconocimiento automático de voz ( ASR ), reconocimiento de voz por computadora o voz a texto ( STT ). Incorpora conocimientos e investigaciones en los campos de la informática , la lingüística y la ingeniería informática . El proceso inverso es la síntesis de voz .

Algunos sistemas de reconocimiento de voz requieren un "entrenamiento" (también llamado "registro") en el que un hablante individual lee texto o vocabulario aislado en el sistema. El sistema analiza la voz específica de la persona y la utiliza para afinar el reconocimiento del habla de esa persona, lo que da como resultado una mayor precisión. Los sistemas que no utilizan entrenamiento se denominan sistemas "independientes del hablante" ^[1] . Los sistemas que utilizan entrenamiento se denominan "dependientes del hablante".

Las aplicaciones de reconocimiento de voz incluyen interfaces de usuario de voz como marcación por voz (por ejemplo, "llamar a casa"), enrutamiento de llamadas (por ejemplo, "Me gustaría hacer una llamada a cobro revertido"), control de electrodomésticos domóticos , búsqueda de palabras clave (por ejemplo, encontrar un podcast donde se dijeron palabras particulares), entrada de datos simple (por ejemplo, ingresar un número de tarjeta de crédito), preparación de documentos estructurados (por ejemplo, un informe de radiología), determinación de las características del hablante, ^[2] procesamiento de voz a texto (por ejemplo, procesadores de texto o correos electrónicos ) y aeronaves (generalmente denominado entrada de voz directa ). La evaluación automática de la pronunciación se utiliza en educación, como para el aprendizaje del lenguaje hablado.

El término reconocimiento de voz ^[3]^[4]^[5] o identificación del hablante^[6]^[7]^[8] se refiere a la identificación del hablante, en lugar de lo que está diciendo. Reconocer al hablante puede simplificar la tarea de traducir el habla en sistemas que han sido entrenados con la voz de una persona específica o puede usarse para autenticar o verificar la identidad de un hablante como parte de un proceso de seguridad.

Desde la perspectiva tecnológica, el reconocimiento de voz tiene una larga historia con varias oleadas de innovaciones importantes. Más recientemente, el campo se ha beneficiado de los avances en aprendizaje profundo y big data . Los avances se evidencian no solo en el aumento de artículos académicos publicados en el campo, sino más importante aún, en la adopción por parte de la industria mundial de una variedad de métodos de aprendizaje profundo para diseñar e implementar sistemas de reconocimiento de voz.

Historia

Las áreas clave de crecimiento fueron: tamaño del vocabulario, independencia del hablante y velocidad de procesamiento.

Antes de 1970

1952 – Tres investigadores de Bell Labs, Stephen Balashek, ^[9] R. Biddulph y KH Davis, construyeron un sistema llamado "Audrey" ^[10] para el reconocimiento de dígitos de un solo hablante. Su sistema ubicaba los formantes en el espectro de potencia de cada enunciado. ^[11]
1960 – Gunnar Fant desarrolló y publicó el modelo de filtro de fuente de producción de voz .
1962 – IBM demostró la capacidad de reconocimiento de voz de su máquina "Shoebox" de 16 palabras en la Feria Mundial de 1962. [ ^12]
1966 – Fumitada Itakura de la Universidad de Nagoya y Shuzo Saito de Nippon Telegraph and Telephone (NTT) propusieron por primera vez la codificación predictiva lineal (LPC), un método de codificación de voz , mientras trabajaban en el reconocimiento de voz. ^[13]
1969 – La financiación de los Laboratorios Bell se agotó durante varios años cuando, en 1969, el influyente John Pierce escribió una carta abierta en la que criticaba y retiraba la financiación de la investigación sobre reconocimiento de voz. ^[14] Esta retirada de financiación duró hasta que Pierce se jubiló y James L. Flanagan tomó el mando.

Raj Reddy fue la primera persona que se ocupó del reconocimiento de voz continuo cuando era estudiante de posgrado en la Universidad de Stanford a fines de la década de 1960. Los sistemas anteriores requerían que los usuarios hicieran una pausa después de cada palabra. El sistema de Reddy emitía comandos hablados para jugar al ajedrez .

En esa época, los investigadores soviéticos inventaron el algoritmo de distorsión temporal dinámica (DTW) y lo utilizaron para crear un reconocedor capaz de operar con un vocabulario de 200 palabras. ^[15] El DTW procesaba el habla dividiéndola en cuadros cortos, por ejemplo, segmentos de 10 ms, y procesando cada cuadro como una sola unidad. Aunque el DTW sería reemplazado por algoritmos posteriores, la técnica siguió en uso. Lograr la independencia del hablante seguía sin resolverse en ese período.

1970–1990

1971 – DARPA financió durante cinco años la investigación sobre comprensión del habla , una investigación de reconocimiento de voz que buscaba un tamaño mínimo de vocabulario de 1000 palabras. Pensaron que la comprensión del habla sería clave para avanzar en el reconocimiento de voz , pero esto más tarde resultó ser falso. ^[16] BBN , IBM , Carnegie Mellon y Stanford Research Institute participaron en el programa. ^[17]^[18] Esto revivió la investigación sobre reconocimiento de voz después de la carta de John Pierce.
1972 – El grupo de Acústica, Habla y Procesamiento de Señales del IEEE celebró una conferencia en Newton, Massachusetts.
1976 – Se celebró el primer ICASSP en Filadelfia , que desde entonces ha sido un importante lugar para la publicación de investigaciones sobre reconocimiento de voz. ^[19]

A finales de los años 1960, Leonard Baum desarrolló las matemáticas de las cadenas de Markov en el Instituto de Análisis de Defensa . Una década después, en la CMU, los estudiantes de Raj Reddy , James Baker y Janet M. Baker, comenzaron a utilizar el modelo oculto de Markov (HMM) para el reconocimiento de voz. ^[20] James Baker había aprendido sobre los HMM en un trabajo de verano en el Instituto de Análisis de Defensa durante su educación universitaria. ^[21] El uso de los HMM permitió a los investigadores combinar diferentes fuentes de conocimiento, como la acústica, el lenguaje y la sintaxis, en un modelo probabilístico unificado.

A mediados de la década de 1980, el equipo de Fred Jelinek de IBM creó una máquina de escribir activada por voz llamada Tangora, que podía manejar un vocabulario de 20.000 palabras ^[22]. El enfoque estadístico de Jelinek puso menos énfasis en emular la forma en que el cerebro humano procesa y entiende el habla a favor de utilizar técnicas de modelado estadístico como los HMM. (El grupo de Jelinek descubrió de forma independiente la aplicación de los HMM al habla. ^[21] ) Esto fue polémico entre los lingüistas ya que los HMM son demasiado simplistas para dar cuenta de muchas características comunes de los lenguajes humanos. ^[23] Sin embargo, el HMM demostró ser una forma muy útil de modelar el habla y reemplazó a la deformación temporal dinámica para convertirse en el algoritmo de reconocimiento de voz dominante en la década de 1980. ^[24]^[25]
1982 – Dragon Systems, fundada por James y Janet M. Baker , ^[26] fue uno de los pocos competidores de IBM.

Reconocimiento de voz práctico

La década de 1980 también vio la introducción del modelo de lenguaje n-gramas .

1987 – El modelo de retroceso permitió que los modelos de lenguaje usaran n-gramas de longitud múltiple, y CSELT ^[27] usó HMM para reconocer lenguajes (tanto en software como en procesadores especializados de hardware, por ejemplo, RIPAC ).

Gran parte del progreso en este campo se debe al rápido aumento de las capacidades de los ordenadores. Al final del programa DARPA en 1976, el mejor ordenador disponible para los investigadores era el PDP-10 con 4 MB de RAM. ^[28] Podían necesitarse hasta 100 minutos para decodificar tan sólo 30 segundos de voz. ^[29]

Dos productos prácticos fueron:

1984 – Se lanzó Apricot Portable con soporte para hasta 4096 palabras, de las cuales solo 64 podían almacenarse en RAM a la vez. ^[30]
1987 : un reconocedor de Kurzweil Applied Intelligence
1990 – Dragon Dictate, un producto de consumo lanzado en 1990 ^[31]^[32] AT&T implementó el servicio de procesamiento de llamadas de reconocimiento de voz en 1992 para enrutar llamadas telefónicas sin el uso de un operador humano. ^[33] La tecnología fue desarrollada por Lawrence Rabiner y otros en Bell Labs.

En ese momento, el vocabulario del sistema de reconocimiento de voz comercial típico era más grande que el vocabulario humano promedio. ^[28] El ex alumno de Raj Reddy, Xuedong Huang , desarrolló el sistema Sphinx-II en CMU. El sistema Sphinx-II fue el primero en realizar reconocimiento de voz continuo, de vocabulario amplio e independiente del hablante y tuvo el mejor desempeño en la evaluación de DARPA de 1992. El manejo de voz continua con un vocabulario amplio fue un hito importante en la historia del reconocimiento de voz. Huang fundó el grupo de reconocimiento de voz en Microsoft en 1993. El alumno de Raj Reddy, Kai-Fu Lee, se unió a Apple donde, en 1992, ayudó a desarrollar un prototipo de interfaz de voz para la computadora Apple conocida como Casper.

Lernout & Hauspie , una empresa de reconocimiento de voz con sede en Bélgica, adquirió varias otras empresas, incluidas Kurzweil Applied Intelligence en 1997 y Dragon Systems en 2000. La tecnología de voz de L&H se utilizó en el sistema operativo Windows XP . L&H fue líder de la industria hasta que un escándalo contable puso fin a la empresa en 2001. La tecnología de voz de L&H fue comprada por ScanSoft, que se convirtió en Nuance en 2005. Apple originalmente licenció el software de Nuance para proporcionar capacidad de reconocimiento de voz a su asistente digital Siri . ^[34]

Década de 2000

En la década de 2000, DARPA patrocinó dos programas de reconocimiento de voz: Effective Affordable Reutilizable Speech-to-Text (EARS) en 2002 y Global Autonomous Language Exploitation (GALE). Cuatro equipos participaron en el programa EARS: IBM , un equipo dirigido por BBN con LIMSI y la Univ. de Pittsburgh , la Universidad de Cambridge y un equipo compuesto por ICSI , SRI y la Universidad de Washington . EARS financió la recopilación del corpus de voz telefónica de Switchboard que contiene 260 horas de conversaciones grabadas de más de 500 hablantes. ^[35] El programa GALE se centró en el habla de las noticias transmitidas en árabe y mandarín . El primer esfuerzo de Google en el reconocimiento de voz llegó en 2007 después de contratar a algunos investigadores de Nuance. ^[36] El primer producto fue GOOG-411 , un servicio de directorio telefónico. Las grabaciones de GOOG-411 produjeron datos valiosos que ayudaron a Google a mejorar sus sistemas de reconocimiento. Google Voice Search ahora es compatible con más de 30 idiomas.

En Estados Unidos, la Agencia de Seguridad Nacional ha utilizado un tipo de reconocimiento de voz para detectar palabras clave desde al menos 2006. ^[37] Esta tecnología permite a los analistas buscar en grandes volúmenes de conversaciones grabadas y aislar las menciones de palabras clave. Las grabaciones se pueden indexar y los analistas pueden ejecutar consultas en la base de datos para encontrar conversaciones de interés. Algunos programas de investigación del gobierno se centraron en aplicaciones de inteligencia del reconocimiento de voz, por ejemplo, el programa EARS de DARPA y el programa Babel de IARPA .

A principios de la década de 2000, el reconocimiento de voz todavía estaba dominado por enfoques tradicionales como los modelos ocultos de Markov combinados con redes neuronales artificiales de propagación hacia adelante . ^[38] Hoy, sin embargo, muchos aspectos del reconocimiento de voz han sido asumidos por un método de aprendizaje profundo llamado memoria a corto plazo larga (LSTM), una red neuronal recurrente publicada por Sepp Hochreiter y Jürgen Schmidhuber en 1997. ^[39] Las RNN LSTM evitan el problema del gradiente de desaparición y pueden aprender tareas de "aprendizaje muy profundo" ^[40] que requieren recuerdos de eventos que sucedieron hace miles de pasos de tiempo discretos, lo cual es importante para el habla. Alrededor de 2007, LSTM entrenado por Connectionist Temporal Classification (CTC) ^[41] comenzó a superar el reconocimiento de voz tradicional en ciertas aplicaciones. ^[42] En 2015, se informó que el reconocimiento de voz de Google experimentó un salto de rendimiento dramático del 49% a través de LSTM entrenado por CTC, que ahora está disponible a través de Google Voice para todos los usuarios de teléfonos inteligentes. ^[43] Los transformadores , un tipo de red neuronal basada únicamente en la "atención", han sido ampliamente adoptados en la visión por computadora ^[44]^[45] y el modelado del lenguaje, ^[46]^[47] despertando el interés de adaptar dichos modelos a nuevos dominios, incluido el reconocimiento de voz. ^[48]^[49]^[50] Algunos artículos recientes informaron niveles de rendimiento superiores utilizando modelos de transformadores para el reconocimiento de voz, pero estos modelos generalmente requieren conjuntos de datos de entrenamiento a gran escala para alcanzar altos niveles de rendimiento.

El uso de redes de retroalimentación profunda (no recurrentes) para el modelado acústico fue introducido a finales de 2009 por Geoffrey Hinton y sus estudiantes en la Universidad de Toronto y por Li Deng ^[51] y colegas en Microsoft Research, inicialmente en el trabajo colaborativo entre Microsoft y la Universidad de Toronto que luego se expandió para incluir a IBM y Google (de ahí el subtítulo "Las opiniones compartidas de cuatro grupos de investigación" en su artículo de revisión de 2012). ^[52]^[53]^[54] Un ejecutivo de investigación de Microsoft llamó a esta innovación "el cambio más dramático en precisión desde 1979". ^[55] En contraste con las mejoras incrementales constantes de las últimas décadas, la aplicación del aprendizaje profundo redujo la tasa de error de palabras en un 30%. ^[55] Esta innovación fue adoptada rápidamente en todo el campo. Los investigadores han comenzado a utilizar técnicas de aprendizaje profundo también para el modelado del lenguaje.

En la larga historia del reconocimiento de voz, tanto la forma superficial como la forma profunda (por ejemplo, redes recurrentes) de redes neuronales artificiales se han explorado durante muchos años durante las décadas de 1980, 1990 y algunos años en la década de 2000. ^[56]^[57]^{[58] Pero estos métodos nunca vencieron a la tecnología del}modelo de mezcla gaussiana interna no uniforme / modelo oculto de Markov (GMM-HMM) basada en modelos generativos de habla entrenados de forma discriminativa. ^[59] Se habían analizado metodológicamente varias dificultades clave en la década de 1990, incluida la disminución del gradiente ^[60] y la estructura de correlación temporal débil en los modelos predictivos neuronales. ^[61]^[62] Todas estas dificultades se sumaron a la falta de grandes datos de entrenamiento y gran poder de procesamiento en estos primeros días. La mayoría de los investigadores en reconocimiento de voz que comprendieron estas barreras se alejaron posteriormente de las redes neuronales para buscar enfoques de modelado generativo hasta el reciente resurgimiento del aprendizaje profundo a partir de 2009-2010, que había superado todas estas dificultades. Hinton et al. y Deng et al. revisaron parte de esta historia reciente sobre cómo su colaboración entre ellos y luego con colegas de cuatro grupos (Universidad de Toronto, Microsoft, Google e IBM) encendió un renacimiento de las aplicaciones de redes neuronales de propagación hacia adelante profundas para el reconocimiento de voz. ^[53]^[54]^[63]^[64]

Década de 2010

A principios de la década de 2010 , el reconocimiento del habla , también llamado reconocimiento de voz ^[65]^[66]^[67], se diferenciaba claramente del reconocimiento del hablante , y la independencia del hablante se consideraba un gran avance. Hasta entonces, los sistemas requerían un período de "entrenamiento". Un anuncio de 1987 de una muñeca llevaba el eslogan "Por fin, la muñeca que te entiende", a pesar de que se describía como "a la que los niños podían entrenar para que respondiera a su voz". ^[12]

En 2017, los investigadores de Microsoft alcanzaron un hito histórico de paridad humana al transcribir el habla de una conversación telefónica en la tarea Switchboard, ampliamente evaluada. Se utilizaron múltiples modelos de aprendizaje profundo para optimizar la precisión del reconocimiento de voz. Se informó que la tasa de error de palabras en el reconocimiento de voz era tan baja como la de 4 transcriptores humanos profesionales que trabajaban juntos en la misma prueba comparativa, que fue financiada por el equipo de voz de IBM Watson en la misma tarea. ^[68]

Modelos, métodos y algoritmos

Tanto el modelado acústico como el modelado del lenguaje son partes importantes de los algoritmos de reconocimiento de voz basados en estadísticas modernas. Los modelos ocultos de Markov (HMM) se utilizan ampliamente en muchos sistemas. El modelado del lenguaje también se utiliza en muchas otras aplicaciones de procesamiento del lenguaje natural, como la clasificación de documentos o la traducción automática estadística .

Modelos ocultos de Markov

Los sistemas de reconocimiento de voz de propósito general modernos se basan en modelos ocultos de Markov. Estos son modelos estadísticos que generan una secuencia de símbolos o cantidades. Los HMM se utilizan en el reconocimiento de voz porque una señal de voz puede verse como una señal estacionaria por partes o una señal estacionaria de corta duración. En una escala de tiempo corta (por ejemplo, 10 milisegundos), el habla puede aproximarse como un proceso estacionario . El habla puede considerarse un modelo de Markov para muchos fines estocásticos.

Otra razón por la que los HMM son populares es que se pueden entrenar automáticamente y son simples y computacionalmente factibles de usar. En el reconocimiento de voz, el modelo oculto de Markov generaría una secuencia de vectores de valores reales de n dimensiones (siendo n un entero pequeño, como 10), generando uno de estos cada 10 milisegundos. Los vectores consistirían en coeficientes cepstrales , que se obtienen tomando una transformada de Fourier de una ventana de tiempo corta de voz y decorrelacionando el espectro usando una transformada de coseno , luego tomando los primeros coeficientes (más significativos). El modelo oculto de Markov tenderá a tener en cada estado una distribución estadística que es una mezcla de gaussianas de covarianza diagonal, que dará una probabilidad para cada vector observado. Cada palabra, o (para sistemas de reconocimiento de voz más generales), cada fonema , tendrá una distribución de salida diferente; un modelo oculto de Markov para una secuencia de palabras o fonemas se crea concatenando los modelos ocultos de Markov entrenados individuales para las palabras y fonemas separados.

Los elementos centrales del enfoque más común basado en HMM para el reconocimiento de voz se describen arriba. Los sistemas de reconocimiento de voz modernos utilizan varias combinaciones de varias técnicas estándar para mejorar los resultados con respecto al enfoque básico descrito arriba. Un sistema típico de vocabulario amplio necesitaría dependencia del contexto para los fonemas (de modo que los fonemas con contexto izquierdo y derecho diferentes tendrían realizaciones diferentes como estados HMM); utilizaría la normalización cepstral para normalizar para un hablante y condiciones de grabación diferentes; para una normalización adicional del hablante, podría utilizar la normalización de la longitud del tracto vocal (VTLN) para la normalización masculino-femenino y la regresión lineal de máxima verosimilitud (MLLR) para una adaptación más general del hablante. Las características tendrían los denominados coeficientes delta y delta-delta para capturar la dinámica del habla y, además, podrían utilizar el análisis discriminante lineal heterocedástico (HLDA); o podrían omitir los coeficientes delta y delta-delta y utilizar empalmes y una proyección basada en LDA seguida quizás de un análisis discriminante lineal heterocedástico o una transformación de covarianza semiligada global (también conocida como transformación lineal de máxima verosimilitud o MLLT). Muchos sistemas utilizan las llamadas técnicas de entrenamiento discriminativo que prescinden de un enfoque puramente estadístico para la estimación de parámetros HMM y, en su lugar, optimizan alguna medida relacionada con la clasificación de los datos de entrenamiento. Algunos ejemplos son la información mutua máxima (MMI), el error de clasificación mínimo (MCE) y el error telefónico mínimo (MPE).

La decodificación del habla (el término que designa lo que sucede cuando se presenta al sistema un nuevo enunciado y debe calcular la oración fuente más probable) probablemente utilizaría el algoritmo de Viterbi para encontrar el mejor camino, y aquí hay una elección entre crear dinámicamente un modelo combinado oculto de Markov, que incluye tanto la información del modelo acústico como la del lenguaje, y combinarlo estáticamente de antemano (el enfoque del transductor de estados finitos , o FST).

Una posible mejora en la decodificación es mantener un conjunto de buenos candidatos en lugar de solo mantener al mejor candidato, y usar una mejor función de puntuación (re-puntuación) para calificar a estos buenos candidatos de modo que podamos elegir al mejor de acuerdo con esta puntuación refinada. El conjunto de candidatos se puede mantener como una lista (el enfoque de la lista N-mejor) o como un subconjunto de los modelos (una red ). La re-puntuación generalmente se realiza tratando de minimizar el riesgo de Bayes ^[69] (o una aproximación del mismo). En lugar de tomar la oración fuente con probabilidad máxima, tratamos de tomar la oración que minimiza la expectativa de una función de pérdida dada con respecto a todas las transcripciones posibles (es decir, tomamos la oración que minimiza la distancia promedio a otras oraciones posibles ponderadas por su probabilidad estimada). La función de pérdida generalmente es la distancia de Levenshtein , aunque puede ser distancias diferentes para tareas específicas; el conjunto de transcripciones posibles, por supuesto, se poda para mantener la manejabilidad. Se han ideado algoritmos eficientes para volver a puntuar redes representadas como transductores de estados finitos ponderados con distancias de edición representadas a sí mismas como un transductor de estados finitos que verifica ciertas suposiciones. ^[70]

Reconocimiento de voz basado en deformación temporal dinámica (DTW)

La deformación temporal dinámica es un enfoque que se utilizó históricamente para el reconocimiento de voz, pero que ahora ha sido reemplazado en gran medida por el enfoque basado en HMM, más exitoso.

La deformación temporal dinámica es un algoritmo que mide la similitud entre dos secuencias que pueden variar en el tiempo o la velocidad. Por ejemplo, se detectarían similitudes en los patrones de la marcha, incluso si en un vídeo la persona caminaba lentamente y si en otro caminaba más rápido, o incluso si se producían aceleraciones y desaceleraciones durante el curso de una observación. La deformación temporal dinámica se ha aplicado a vídeo, audio y gráficos; de hecho, cualquier dato que pueda convertirse en una representación lineal puede analizarse con la deformación temporal dinámica.

Una aplicación bien conocida ha sido el reconocimiento automático de voz, para hacer frente a diferentes velocidades de habla. En general, es un método que permite a un ordenador encontrar una correspondencia óptima entre dos secuencias dadas (por ejemplo, series temporales) con ciertas restricciones. Es decir, las secuencias se "deforman" de forma no lineal para que coincidan entre sí. Este método de alineación de secuencias se utiliza a menudo en el contexto de los modelos ocultos de Markov.

Redes neuronales

Las redes neuronales surgieron como un enfoque atractivo de modelado acústico en ASR a fines de la década de 1980. Desde entonces, las redes neuronales se han utilizado en muchos aspectos del reconocimiento de voz, como la clasificación de fonemas, ^[71] la clasificación de fonemas a través de algoritmos evolutivos multiobjetivo, ^[72] el reconocimiento de palabras aisladas, ^[73] el reconocimiento de voz audiovisual , el reconocimiento de hablantes audiovisuales y la adaptación de hablantes.

Las redes neuronales hacen menos suposiciones explícitas sobre las propiedades estadísticas de las características que los HMM y tienen varias cualidades que las convierten en modelos de reconocimiento más atractivos para el reconocimiento de voz. Cuando se utilizan para estimar las probabilidades de un segmento de característica del habla, las redes neuronales permiten un entrenamiento discriminativo de una manera natural y eficiente. Sin embargo, a pesar de su eficacia en la clasificación de unidades de tiempo corto como fonemas individuales y palabras aisladas, ^[74] las primeras redes neuronales rara vez tuvieron éxito en tareas de reconocimiento continuo debido a su capacidad limitada para modelar dependencias temporales.

Una forma de abordar esta limitación fue utilizar redes neuronales como un paso de preprocesamiento, transformación de características o reducción de dimensionalidad, ^[75] previo al reconocimiento basado en HMM. Sin embargo, más recientemente, LSTM y redes neuronales recurrentes (RNN) relacionadas, ^[39]^[43]^[76]^[77] redes neuronales de retardo de tiempo (TDNN), ^[78] y transformadores ^[48]^[49]^[50] han demostrado un mejor desempeño en esta área.

Redes neuronales profundas de retroalimentación y recurrentes

Las redes neuronales profundas y los autocodificadores de eliminación de ruido ^[79] también están bajo investigación. Una red neuronal de propagación hacia adelante (DNN) profunda es una red neuronal artificial con múltiples capas ocultas de unidades entre las capas de entrada y salida. ^[53] De manera similar a las redes neuronales superficiales, las DNN pueden modelar relaciones no lineales complejas. Las arquitecturas de DNN generan modelos compositivos, donde las capas adicionales permiten la composición de características de las capas inferiores, lo que brinda una enorme capacidad de aprendizaje y, por lo tanto, el potencial de modelar patrones complejos de datos de voz. ^[80]

En 2010, investigadores industriales, en colaboración con investigadores académicos, lograron un éxito con las DNN en el reconocimiento de voz de vocabulario amplio, al adoptar grandes capas de salida de la DNN basadas en estados HMM dependientes del contexto construidos mediante árboles de decisión. ^[81]^[82]^[83] Véanse revisiones exhaustivas de este desarrollo y del estado del arte a octubre de 2014 en el reciente libro Springer de Microsoft Research. ^[84] Véanse también los antecedentes relacionados del reconocimiento automático de voz y el impacto de varios paradigmas de aprendizaje automático, incluido en particular el aprendizaje profundo , en artículos de descripción general recientes. ^[85]^[86]

Un principio fundamental del aprendizaje profundo es eliminar la ingeniería de características hecha a mano y utilizar características sin procesar. Este principio se exploró por primera vez con éxito en la arquitectura del autocodificador profundo en las características del espectrograma "sin procesar" o del banco de filtros lineales, ^[87] demostrando su superioridad sobre las características de Mel-Cepstral que contienen algunas etapas de transformación fija a partir de los espectrogramas. Más recientemente se ha demostrado que las verdaderas características "sin procesar" del habla, las formas de onda, producen excelentes resultados de reconocimiento de voz a gran escala. ^[88]

Reconocimiento automático de voz de extremo a extremo

Desde 2014, ha habido mucho interés de investigación en ASR "de extremo a extremo". Los enfoques tradicionales basados en fonética (es decir, todos los modelos basados en HMM ) requerían componentes separados y entrenamiento para el modelo de pronunciación, acústico y de lenguaje . Los modelos de extremo a extremo aprenden conjuntamente todos los componentes del reconocedor de voz. Esto es valioso ya que simplifica el proceso de entrenamiento y el proceso de implementación. Por ejemplo, se requiere un modelo de lenguaje de n-gramas para todos los sistemas basados en HMM, y un modelo de lenguaje de n-gramas típico a menudo ocupa varios gigabytes en la memoria, lo que los hace poco prácticos para implementar en dispositivos móviles. ^[89] En consecuencia, los sistemas ASR comerciales modernos de Google y Apple (a partir de 2017 ^[actualizar]) se implementan en la nube y requieren una conexión de red en lugar del dispositivo local.

El primer intento de ASR de extremo a extremo fue con sistemas basados en la Clasificación Temporal Conexionista (CTC) introducidos por Alex Graves de Google DeepMind y Navdeep Jaitly de la Universidad de Toronto en 2014. ^[90] El modelo consistía en redes neuronales recurrentes y una capa CTC. En conjunto, el modelo RNN-CTC aprende la pronunciación y el modelo acústico juntos, sin embargo es incapaz de aprender el idioma debido a los supuestos de independencia condicional similares a un HMM. En consecuencia, los modelos CTC pueden aprender directamente a mapear la acústica del habla a caracteres ingleses, pero los modelos cometen muchos errores ortográficos comunes y deben depender de un modelo de idioma separado para limpiar las transcripciones. Más tarde, Baidu amplió el trabajo con conjuntos de datos extremadamente grandes y demostró cierto éxito comercial en chino mandarín e inglés. ^[91] En 2016, la Universidad de Oxford presentó LipNet , ^[92] el primer modelo de lectura de labios de extremo a extremo a nivel de oración, que utiliza convoluciones espaciotemporales acopladas a una arquitectura RNN-CTC, superando el rendimiento a nivel humano en un conjunto de datos de gramática restringida. ^{[93] En 2018,}Google DeepMind presentó una arquitectura CNN-RNN-CTC a gran escala que logró un rendimiento 6 veces mejor que los expertos humanos. ^[94] En 2019, Nvidia lanzó dos modelos ASR CNN-CTC, Jasper y QuarzNet, con un rendimiento general WER del 3%. ^[95]^[96] De manera similar a otras aplicaciones de aprendizaje profundo, el aprendizaje por transferencia y la adaptación de dominios son estrategias importantes para reutilizar y ampliar las capacidades de los modelos de aprendizaje profundo, particularmente debido a los altos costos de entrenar modelos desde cero y al pequeño tamaño del corpus disponible en muchos idiomas y/o dominios específicos. ^[97]^[98]^[99]

Un enfoque alternativo a los modelos basados en CTC son los modelos basados en la atención. Los modelos ASR basados en la atención fueron introducidos simultáneamente por Chan et al. de la Universidad Carnegie Mellon y Google Brain y Bahdanau et al. de la Universidad de Montreal en 2016. ^[100]^[101] El modelo llamado "Listen, Attend and Spell" (LAS), literalmente "escucha" la señal acústica, presta "atención" a diferentes partes de la señal y "deletrea" la transcripción un carácter a la vez. A diferencia de los modelos basados en CTC, los modelos basados en la atención no tienen suposiciones de independencia condicional y pueden aprender todos los componentes de un reconocedor de voz, incluida la pronunciación, el modelo acústico y el modelo de lenguaje directamente. Esto significa que, durante la implementación, no es necesario llevar consigo un modelo de lenguaje, lo que lo hace muy práctico para aplicaciones con memoria limitada. A fines de 2016, los modelos basados en la atención han tenido un éxito considerable, incluso superando a los modelos CTC (con o sin un modelo de lenguaje externo). ^[102] Se han propuesto varias extensiones desde el modelo LAS original. La descomposición de secuencias latentes (LSD) fue propuesta por la Universidad Carnegie Mellon , el MIT y Google Brain para emitir directamente unidades de subpalabras que son más naturales que los caracteres ingleses; ^[103] La Universidad de Oxford y Google DeepMind extendieron LAS a "Watch, Listen, Attend and Spell" (WLAS) para manejar la lectura de labios superando el desempeño a nivel humano. ^[104]

Aplicaciones

Sistemas en el automóvil

Normalmente, una entrada de control manual, por ejemplo mediante un control con el dedo en el volante, activa el sistema de reconocimiento de voz y esto se indica al conductor mediante un mensaje de audio. Después del mensaje de audio, el sistema tiene una "ventana de escucha" durante la cual puede aceptar una entrada de voz para su reconocimiento. ^{[ cita requerida ]}

Se pueden utilizar comandos de voz simples para iniciar llamadas telefónicas, seleccionar estaciones de radio o reproducir música desde un teléfono inteligente compatible, un reproductor de MP3 o una unidad flash con música. Las capacidades de reconocimiento de voz varían según la marca y el modelo del automóvil. Algunos de los modelos de automóviles más recientes ^{[ ¿cuándo? ]} ofrecen reconocimiento de voz en lenguaje natural en lugar de un conjunto fijo de comandos, lo que permite al conductor usar oraciones completas y frases comunes. Con estos sistemas, por lo tanto, no es necesario que el usuario memorice un conjunto fijo de palabras de comando. ^{[ cita requerida ]}

Educación

La evaluación automática de la pronunciación es el uso del reconocimiento de voz para verificar la exactitud del habla pronunciada, ^[105] a diferencia de la evaluación manual por parte de un instructor o supervisor. ^[106] También llamada verificación del habla, evaluación de la pronunciación y puntuación de la pronunciación, la principal aplicación de esta tecnología es la enseñanza de la pronunciación asistida por computadora (CAPT) cuando se combina con la instrucción asistida por computadora para el aprendizaje de idiomas asistido por computadora (CALL), la corrección del habla o la reducción del acento . La evaluación de la pronunciación no determina el habla desconocida (como en el dictado o la transcripción automática ), sino que, conociendo de antemano las palabras esperadas, intenta verificar la exactitud de la pronunciación del alumno e idealmente su inteligibilidad para los oyentes, ^[107]^[108] a veces junto con prosodia a menudo intrascendente como la entonación , el tono , el tempo , el ritmo y el acento . ^[109] La evaluación de la pronunciación también se utiliza en la tutoría de lectura , por ejemplo, en productos como Microsoft Teams ^[110] y de Amira Learning. ^[111] La evaluación automática de la pronunciación también se puede utilizar para ayudar a diagnosticar y tratar trastornos del habla como la apraxia . ^[112]

Evaluar la inteligibilidad auténtica del oyente es esencial para evitar imprecisiones debidas al sesgo de acento , especialmente en evaluaciones de alto riesgo; ^[113]^[114]^[115] de palabras con múltiples pronunciaciones correctas; ^[116] y de errores de codificación de fonemas en diccionarios de pronunciación legibles por máquina. ^[117] En 2022, los investigadores descubrieron que algunos sistemas de voz a texto más nuevos, basados en el aprendizaje de refuerzo de extremo a extremo para mapear señales de audio directamente en palabras, producen puntajes de confianza de palabras y frases muy estrechamente correlacionados con la inteligibilidad genuina del oyente. ^[118] En los criterios de evaluación del Marco Común Europeo de Referencia para las Lenguas (MCER) para el "control fonológico general", la inteligibilidad supera a la pronunciación formalmente correcta en todos los niveles. ^[119]

Cuidado de la salud

Documentación médica

En el sector de la atención médica , el reconocimiento de voz se puede implementar en el front-end o en el back-end del proceso de documentación médica. El reconocimiento de voz front-end es cuando el proveedor dicta en un motor de reconocimiento de voz, las palabras reconocidas se muestran a medida que se pronuncian y el dictador es responsable de editar y aprobar el documento. El reconocimiento de voz back-end o diferido es cuando el proveedor dicta en un sistema de dictado digital , la voz se enruta a través de una máquina de reconocimiento de voz y el borrador del documento reconocido se enruta junto con el archivo de voz original al editor, donde se edita el borrador y se finaliza el informe. El reconocimiento de voz diferido se usa ampliamente en la industria actualmente.

Uno de los principales problemas relacionados con el uso del reconocimiento de voz en la atención médica es que la Ley de Recuperación y Reinversión Estadounidense de 2009 ( ARRA ) prevé importantes beneficios financieros para los médicos que utilicen un EMR de acuerdo con los estándares de "Uso significativo". Estos estándares requieren que el EMR (ahora más comúnmente conocido como Historia Clínica Electrónica o EHR) conserve una cantidad sustancial de datos. El uso del reconocimiento de voz es más adecuado para la generación de texto narrativo, como parte de una interpretación de radiología/patología, una nota de progreso o un resumen del alta: las ganancias ergonómicas de usar el reconocimiento de voz para ingresar datos discretos estructurados (por ejemplo, valores numéricos o códigos de una lista o un vocabulario controlado ) son relativamente mínimas para las personas que tienen visión y pueden operar un teclado y un mouse.

Un problema más importante es que la mayoría de los registros médicos electrónicos no han sido diseñados expresamente para aprovechar las capacidades de reconocimiento de voz. Una gran parte de la interacción del médico con el registro médico electrónico implica la navegación a través de la interfaz de usuario mediante menús y clics en pestañas y botones, y depende en gran medida del teclado y el ratón: la navegación basada en voz proporciona sólo modestos beneficios ergonómicos. Por el contrario, muchos sistemas altamente personalizados para dictado de radiología o patología implementan "macros" de voz, donde el uso de ciertas frases (por ejemplo, "informe normal") completará automáticamente una gran cantidad de valores predeterminados y/o generará un texto estándar, que variará según el tipo de examen (por ejemplo, una radiografía de tórax frente a una serie de contraste gastrointestinal para un sistema de radiología).

Uso terapéutico

El uso prolongado de software de reconocimiento de voz junto con procesadores de texto ha demostrado tener beneficios en el fortalecimiento de la memoria a corto plazo en pacientes con malformaciones arteriovenosas cerebrales que han sido tratados con resección . Es necesario realizar más investigaciones para determinar los beneficios cognitivos para las personas cuyas malformaciones arteriovenosas han sido tratadas con técnicas radiológicas. ^{[ cita requerida ]}

Militar

Aviones de combate de alto rendimiento

En la última década se han dedicado esfuerzos sustanciales a la prueba y evaluación del reconocimiento de voz en aviones de combate . Cabe destacar especialmente el programa estadounidense de reconocimiento de voz para el avión AFTI (Advanced Fighter Technology Integration) / F-16 ( F-16 VISTA ), el programa en Francia para aviones Mirage y otros programas en el Reino Unido que tratan con una variedad de plataformas de aeronaves. En estos programas, los reconocedores de voz se han utilizado con éxito en aviones de combate, con aplicaciones que incluyen el ajuste de frecuencias de radio, el comando de un sistema de piloto automático, el ajuste de coordenadas de punto de dirección y parámetros de liberación de armas y el control de la pantalla de vuelo.

Englund (2004) trabajó con pilotos suecos que volaban en la cabina del piloto del JAS-39 Gripen y descubrió que el reconocimiento se deterioraba con el aumento de las cargas g . El informe también concluyó que la adaptación mejoraba enormemente los resultados en todos los casos y que la introducción de modelos de respiración había demostrado mejorar significativamente las puntuaciones de reconocimiento. Contrariamente a lo que se podría haber esperado, no se encontraron efectos del inglés deficiente de los hablantes. Era evidente que el habla espontánea causaba problemas al reconocedor, como era de esperar. Por lo tanto, se podía esperar que un vocabulario restringido y, sobre todo, una sintaxis adecuada, mejoraran sustancialmente la precisión del reconocimiento. ^[120]

El Eurofighter Typhoon , actualmente en servicio en la RAF del Reino Unido , emplea un sistema que depende del altavoz, lo que requiere que cada piloto cree una plantilla. El sistema no se utiliza para ninguna tarea crítica para la seguridad o el armamento, como la liberación de armas o el descenso del tren de aterrizaje, pero se utiliza para una amplia gama de otras funciones de la cabina. Los comandos de voz se confirman mediante retroalimentación visual y/o auditiva. El sistema se considera una característica de diseño importante en la reducción de la carga de trabajo del piloto , ^[121] e incluso permite al piloto asignar objetivos a su aeronave con dos simples comandos de voz o a cualquiera de sus compañeros de ala con solo cinco comandos. ^[122]

También se están desarrollando sistemas independientes del hablante y se están probando para el F-35 Lightning II (JSF) y el entrenador de combate principal Alenia Aermacchi M-346 Master . Estos sistemas han producido puntuaciones de precisión de palabras superiores al 98 %. ^[123]

Helicópteros

Los problemas de lograr una alta precisión de reconocimiento bajo estrés y ruido son particularmente relevantes en el entorno de los helicópteros , así como en el entorno de los aviones de combate. El problema del ruido acústico es en realidad más grave en el entorno de los helicópteros, no sólo por los altos niveles de ruido, sino también porque el piloto del helicóptero, en general, no lleva una máscara facial , lo que reduciría el ruido acústico en el micrófono . En la última década se han llevado a cabo importantes programas de prueba y evaluación en aplicaciones de sistemas de reconocimiento de voz en helicópteros, en particular por la Actividad de Investigación y Desarrollo de Aviónica del Ejército de los EE. UU. (AVRADA) y por el Royal Aerospace Establishment ( RAE ) en el Reino Unido. El trabajo en Francia ha incluido el reconocimiento de voz en el helicóptero Puma . También ha habido mucho trabajo útil en Canadá . Los resultados han sido alentadores, y las aplicaciones de voz han incluido: control de radios de comunicación, configuración de sistemas de navegación y control de un sistema automatizado de entrega de objetivos.

Al igual que en las aplicaciones de combate, la cuestión primordial en el caso de la voz en helicópteros es el impacto en la eficacia del piloto. Se han informado resultados alentadores de las pruebas AVRADA, aunque estos representan solo una demostración de viabilidad en un entorno de prueba. Aún queda mucho por hacer, tanto en el reconocimiento de voz como en la tecnología de voz en general , para lograr mejoras constantes en el rendimiento en entornos operativos.

Formación de controladores de tráfico aéreo

La formación de los controladores de tráfico aéreo (ATC) representa una excelente aplicación de los sistemas de reconocimiento de voz. Muchos sistemas de formación de ATC requieren actualmente que una persona actúe como un "pseudopiloto", entablando un diálogo de voz con el controlador en formación, que simula el diálogo que el controlador tendría que mantener con los pilotos en una situación real de ATC. Las técnicas de reconocimiento y síntesis de voz ofrecen la posibilidad de eliminar la necesidad de que una persona actúe como un pseudopiloto, reduciendo así el personal de formación y apoyo. En teoría, las tareas de los controladores aéreos también se caracterizan por un habla altamente estructurada como salida principal del controlador, por lo que debería ser posible reducir la dificultad de la tarea de reconocimiento de voz. En la práctica, esto rara vez ocurre. El documento 7110.65 de la FAA detalla las frases que deben utilizar los controladores de tráfico aéreo. Si bien este documento proporciona menos de 150 ejemplos de dichas frases, la cantidad de frases admitidas por uno de los sistemas de reconocimiento de voz de los proveedores de simulación supera las 500.000.

La USAF, el USMC, el Ejército de los EE. UU., la Marina de los EE. UU. y la FAA, así como varias organizaciones internacionales de capacitación ATC como la Real Fuerza Aérea Australiana y las Autoridades de Aviación Civil de Italia, Brasil y Canadá, están utilizando actualmente simuladores ATC con reconocimiento de voz de varios proveedores diferentes. ^{[ cita requerida ]}

Telefonía y otros dominios

El ASR es ya un uso habitual en el ámbito de la telefonía y se está extendiendo cada vez más en el ámbito de los juegos y la simulación por ordenador . En los sistemas de telefonía, el ASR se utiliza ahora sobre todo en los centros de contacto, integrándolo con los sistemas de respuesta de voz interactiva (IVR) . A pesar del alto nivel de integración con el procesamiento de textos en la informática personal en general, en el ámbito de la producción de documentos, el ASR no ha experimentado el aumento de uso esperado.

La mejora de la velocidad de los procesadores móviles ha hecho que el reconocimiento de voz sea práctico en los teléfonos inteligentes . El habla se utiliza principalmente como parte de una interfaz de usuario para crear comandos de voz predefinidos o personalizados.

Personas con discapacidad

Las personas con discapacidades pueden beneficiarse de los programas de reconocimiento de voz. En el caso de las personas sordas o con problemas de audición, se utiliza un software de reconocimiento de voz para generar automáticamente subtítulos de conversaciones, como debates en salas de conferencias, clases o servicios religiosos. ^[124]

Los estudiantes ciegos (ver Ceguera y educación ) o que tienen muy baja visión pueden beneficiarse del uso de la tecnología para transmitir palabras y luego escuchar a la computadora recitarlas, así como también usar una computadora dando órdenes con su voz, en lugar de tener que mirar la pantalla y el teclado. ^[125]

Los estudiantes con discapacidades físicas que sufren lesiones por esfuerzo repetitivo u otras lesiones en las extremidades superiores pueden evitar tener que preocuparse por escribir a mano, mecanografiar o trabajar con un escriba en las tareas escolares mediante programas de conversión de voz a texto. También pueden utilizar la tecnología de reconocimiento de voz para disfrutar de la navegación en Internet o el uso de una computadora en casa sin tener que operar físicamente un mouse y un teclado. ^[125]

El reconocimiento de voz puede permitir que los estudiantes con discapacidades de aprendizaje se conviertan en mejores escritores. Al decir las palabras en voz alta, pueden aumentar la fluidez de su escritura y aliviar las preocupaciones relacionadas con la ortografía, la puntuación y otros aspectos mecánicos de la escritura. ^[126] Véase también Discapacidad de aprendizaje .

El uso de software de reconocimiento de voz, en conjunto con una grabadora de audio digital y una computadora personal con software de procesamiento de textos ha demostrado ser positivo para restaurar la capacidad de memoria a corto plazo dañada en individuos que han sufrido un accidente cerebrovascular y una craneotomía.

El reconocimiento de voz también es muy útil para las personas que tienen dificultades para usar sus manos, desde lesiones leves por estrés repetitivo hasta discapacidades que impiden el uso de dispositivos de entrada de computadora convencionales. De hecho, las personas que usaban mucho el teclado y desarrollaron RSI se convirtieron en un mercado temprano urgente para el reconocimiento de voz. ^[127]^[128] El reconocimiento de voz se utiliza en telefonía para sordos , como correo de voz a texto, servicios de retransmisión y teléfono subtitulado . Las personas con discapacidades de aprendizaje que tienen problemas con la comunicación de pensamiento a papel (esencialmente piensan en una idea pero se procesa incorrectamente haciendo que termine de manera diferente en el papel) posiblemente puedan beneficiarse del software, pero la tecnología no es a prueba de errores. ^[129] Además, toda la idea de hablar a texto puede ser difícil para las personas con discapacidad intelectual debido al hecho de que es raro que alguien intente aprender la tecnología para enseñarle a la persona con la discapacidad. ^[130]

Este tipo de tecnología puede ayudar a las personas con dislexia, pero otras discapacidades aún están en tela de juicio. La eficacia del producto es el problema que impide que sea eficaz. Aunque un niño puede ser capaz de decir una palabra dependiendo de lo claro que la diga, la tecnología puede pensar que está diciendo otra palabra e introducir la incorrecta. Esto les da más trabajo para corregir, lo que hace que tengan que dedicar más tiempo a corregir la palabra incorrecta. ^[131]

Otras aplicaciones

Aeroespacial (por ejemplo, exploración espacial , naves espaciales , etc.) El módulo de aterrizaje polar de Marte de la NASA utilizó tecnología de reconocimiento de voz de Sensory, Inc. en el micrófono de Marte del módulo de aterrizaje ^[132]
Subtitulado automático con reconocimiento de voz
Reconocimiento automático de emociones ^[133]
Listado automático de tomas en la producción audiovisual
Traducción automática
eDiscovery (Descubrimiento legal)
Computación manos libres : Interfaz de usuario de computadora de reconocimiento de voz
Automatización del hogar
Respuesta de voz interactiva
Telefonía móvil , incluido el correo electrónico móvil
Interacción multimodal ^[64]
Subtítulos en tiempo real ^[134]
Robótica
Seguridad, incluido el uso con otros escáneres biométricos para la autenticación multifactor ^[135]
Conversión de voz a texto (transcripción de voz a texto, subtitulado de vídeo en tiempo real , redacción de actas judiciales)
Telemática (por ejemplo, sistemas de navegación de vehículos)
Transcripción (conversión digital de voz a texto)
Videojuegos , con Tom Clancy's EndWar y Lifeline como ejemplos prácticos
Asistente virtual (por ejemplo, Siri de Apple )

Actuación

El rendimiento de los sistemas de reconocimiento de voz se suele evaluar en términos de precisión y velocidad. ^[136]^[137] La precisión se suele evaluar con la tasa de error de palabras (WER), mientras que la velocidad se mide con el factor de tiempo real. Otras medidas de precisión incluyen la tasa de error de una sola palabra (SWER) y la tasa de éxito de comandos (CSR).

Sin embargo, el reconocimiento de voz por parte de máquinas es un problema muy complejo. Las vocalizaciones varían en términos de acento, pronunciación, articulación, aspereza, nasalidad, tono, volumen y velocidad. El habla se distorsiona por el ruido de fondo y los ecos, características eléctricas. La precisión del reconocimiento de voz puede variar según lo siguiente: ^[138]^{[ cita requerida ]}

Tamaño del vocabulario y posibilidad de confusión
Dependencia versus independencia del hablante
Discurso aislado, discontinuo o continuo
Restricciones de tareas y lenguaje
Lectura versus habla espontánea
Condiciones adversas

Exactitud

Como se mencionó anteriormente en este artículo, la precisión del reconocimiento de voz puede variar dependiendo de los siguientes factores:

Las tasas de error aumentan a medida que crece el tamaño del vocabulario:

Por ejemplo, los 10 dígitos del "cero" al "nueve" se pueden reconocer prácticamente a la perfección, pero tamaños de vocabulario de 200, 5000 o 100000 pueden tener índices de error del 3%, 7% o 45% respectivamente.

El vocabulario es difícil de reconocer si contiene letras confusas:

Por ejemplo, las 26 letras del alfabeto inglés son difíciles de discriminar porque son palabras confusas (la más notoria es la serie E: "B, C, D, E, G, P, T, V, Z —donde "Z" se pronuncia "zee" en lugar de "zed" según la región inglesa); una tasa de error del 8% se considera buena para este vocabulario. ^[139]

Dependencia vs. independencia del hablante:

Un sistema dependiente del hablante está diseñado para ser utilizado por un solo hablante.

Un sistema independiente del hablante está diseñado para que lo utilice cualquier hablante (más difícil).

Discurso aislado, discontinuo o continuo

En el habla aislada se utilizan palabras sueltas, por lo que resulta más fácil reconocer el habla.

En el habla discontinua se utilizan frases completas separadas por silencios, por lo que resulta más fácil reconocer el habla, al igual que en el habla aislada.
En el habla continua se utilizan frases habladas de forma natural, por lo que resulta más difícil reconocer el habla, a diferencia tanto del habla aislada como del discontinuo.

Restricciones de tareas y lenguaje
- Por ejemplo, la aplicación de consulta puede descartar la hipótesis "La manzana es roja".
- Por ejemplo, las restricciones pueden ser semánticas; rechazar "La manzana está enojada".
- p. ej. Sintáctico; rechazando "Rojo es manzana el."

Las restricciones a menudo se representan mediante la gramática.

Lectura vs. habla espontánea: cuando una persona lee, generalmente lo hace en un contexto que ha sido preparado previamente, pero cuando una persona usa el habla espontánea, es difícil reconocer el discurso debido a las disfluencias (como "uh" y "um", falsos comienzos, oraciones incompletas, tartamudeo, tos y risas) y vocabulario limitado.
Condiciones adversas: ruido ambiental (p. ej., ruido en un automóvil o una fábrica). Distorsiones acústicas (p. ej., ecos, acústica de la sala).

El reconocimiento de voz es una tarea de reconocimiento de patrones de varios niveles.

Las señales acústicas se estructuran en una jerarquía de unidades, por ejemplo, fonemas , palabras, frases y oraciones;
Cada nivel proporciona restricciones adicionales;

por ejemplo, pronunciaciones de palabras conocidas o secuencias de palabras legales, que pueden compensar errores o incertidumbres en un nivel inferior;

Esta jerarquía de restricciones se explota. Al combinar decisiones de manera probabilística en todos los niveles inferiores y tomar decisiones más deterministas solo en el nivel más alto, el reconocimiento de voz por parte de una máquina es un proceso dividido en varias fases. Desde el punto de vista computacional, es un problema en el que un patrón de sonido debe ser reconocido o clasificado en una categoría que represente un significado para un ser humano. Cada señal acústica puede descomponerse en subseñales más pequeñas y básicas. A medida que la señal de sonido más compleja se descompone en subsonidos más pequeños, se crean diferentes niveles, donde en el nivel superior tenemos sonidos complejos, que están hechos de sonidos más simples en el nivel inferior, y al pasar a niveles aún más bajos, creamos sonidos más básicos, más cortos y simples. En el nivel más bajo, donde los sonidos son los más fundamentales, una máquina verificaría reglas simples y más probabilísticas de lo que debería representar el sonido. Una vez que estos sonidos se juntan en sonidos más complejos en el nivel superior, un nuevo conjunto de reglas más deterministas debería predecir lo que debería representar el nuevo sonido complejo. El nivel más alto de una regla determinista debe determinar el significado de expresiones complejas. Para ampliar nuestro conocimiento sobre el reconocimiento de voz, debemos tener en cuenta las redes neuronales. Existen cuatro pasos en los enfoques de redes neuronales:
Digitalizar el habla que queremos reconocer

Para el habla telefónica, la frecuencia de muestreo es de 8000 muestras por segundo;

Calcular características del dominio espectral del habla (con transformada de Fourier);

se calcula cada 10 ms, con una sección de 10 ms denominada trama;

El análisis de los enfoques de redes neuronales de cuatro pasos se puede explicar con más información. El sonido se produce por la vibración del aire (o de algún otro medio), que registramos con los oídos, pero las máquinas con los receptores. El sonido básico crea una onda que tiene dos descripciones: amplitud (qué tan fuerte es) y frecuencia (cuántas veces vibra por segundo). La precisión se puede calcular con la ayuda de la tasa de error de palabras (WER). La tasa de error de palabras se puede calcular alineando la palabra reconocida y la palabra referenciada utilizando la alineación de cadenas dinámica. El problema puede ocurrir al calcular la tasa de error de palabras debido a la diferencia entre las longitudes de secuencia de la palabra reconocida y la palabra referenciada.

La fórmula para calcular la tasa de error de palabras (WER) es:

$WER={(s+d+i) \sobre n}$

donde s es el número de sustituciones, d es el número de eliminaciones, i es el número de inserciones y n es el número de referencias de palabras.

Para el cálculo se utiliza la tasa de reconocimiento de palabras (WRR). La fórmula es la siguiente:

WRR=1-WER={(nsdi) \over n}={hola \over n}

donde h es el número de palabras reconocidas correctamente:

h=n-(s+d).

Preocupaciones de seguridad

El reconocimiento de voz puede convertirse en un medio de ataque, robo o manejo accidental. Por ejemplo, palabras de activación como "Alexa" pronunciadas en una transmisión de audio o video pueden hacer que los dispositivos en hogares y oficinas comiencen a escuchar entradas de manera inapropiada o posiblemente realicen una acción no deseada. ^[140] Los dispositivos controlados por voz también son accesibles para los visitantes del edificio, o incluso para aquellos fuera del edificio si se los puede escuchar en el interior. Los atacantes pueden obtener acceso a información personal, como calendario, contenido de la libreta de direcciones, mensajes privados y documentos. También pueden suplantar la identidad del usuario para enviar mensajes o realizar compras en línea.

Se han demostrado dos ataques que utilizan sonidos artificiales. Uno transmite ultrasonidos e intenta enviar órdenes sin que las personas cercanas se den cuenta. ^[141] El otro añade pequeñas distorsiones inaudibles a otras voces o música que están especialmente diseñadas para confundir al sistema de reconocimiento de voz específico y hacer que reconozca la música como voz, o para hacer que lo que suena como una orden para un humano suene como una orden diferente para el sistema. ^[142]

Más información

Congresos y revistas

Las conferencias populares sobre reconocimiento de voz que se celebran cada uno o dos años incluyen SpeechTEK y SpeechTEK Europe, ICASSP , Interspeech/Eurospeech y la IEEE ASRU. Las conferencias en el campo del procesamiento del lenguaje natural , como ACL , NAACL , EMNLP y HLT, están empezando a incluir artículos sobre procesamiento del habla . Entre las revistas importantes se incluyen IEEE Transactions on Speech and Audio Processing (posteriormente renombrada IEEE Transactions on Audio, Speech and Language Processing y desde septiembre de 2014 renombrada IEEE /ACM Transactions on Audio, Speech and Language Processing, tras fusionarse con una publicación de ACM), Computer Speech and Language y Speech Communication.

Libros

Libros como "Fundamentals of Speech Recognition" de Lawrence Rabiner pueden ser útiles para adquirir conocimientos básicos, pero es posible que no estén completamente actualizados (1993). Otra buena fuente puede ser "Statistical Methods for Speech Recognition" de Frederick Jelinek y "Spoken Language Processing (2001)" de Xuedong Huang , etc., "Computer Speech", de Manfred R. Schroeder , segunda edición publicada en 2004, y "Speech Processing: A Dynamic and Optimization-Oriented Approach" publicado en 2003 por Li Deng y Doug O'Shaughnessey. El libro de texto actualizado Speech and Language Processing (2008) de Jurafsky y Martin presenta los conceptos básicos y el estado del arte para ASR. El reconocimiento de hablantes también utiliza las mismas características, la mayor parte del mismo procesamiento frontal y las técnicas de clasificación que se utilizan en el reconocimiento de voz. Un libro de texto completo, "Fundamentals of Speaker Recognition" (Fundamentos del reconocimiento de hablantes) es una fuente exhaustiva de detalles actualizados sobre la teoría y la práctica. ^[143] Se puede obtener una buena idea de las técnicas utilizadas en los mejores sistemas modernos prestando atención a las evaluaciones patrocinadas por el gobierno, como las organizadas por DARPA (el proyecto más grande relacionado con el reconocimiento de voz en curso en 2007 es el proyecto GALE, que involucra componentes tanto de reconocimiento de voz como de traducción).

Una buena y accesible introducción a la tecnología de reconocimiento de voz y su historia la ofrece el libro para público general "La voz en la máquina. Construyendo computadoras que entienden el habla" de Roberto Pieraccini (2012).

El libro más reciente sobre reconocimiento de voz es Automatic Speech Recognition: A Deep Learning Approach (Editorial: Springer) escrito por los investigadores de Microsoft D. Yu y L. Deng y publicado a finales de 2014, con detalles técnicos altamente orientados a las matemáticas sobre cómo se derivan e implementan los métodos de aprendizaje profundo en los sistemas de reconocimiento de voz modernos basados en DNN y métodos de aprendizaje profundo relacionados. ^[84] Un libro relacionado, publicado a principios de 2014, "Deep Learning: Methods and Applications" de L. Deng y D. Yu proporciona una descripción general menos técnica pero más centrada en la metodología del reconocimiento de voz basado en DNN durante 2009-2014, ubicado dentro del contexto más general de aplicaciones de aprendizaje profundo que incluyen no solo reconocimiento de voz sino también reconocimiento de imágenes, procesamiento de lenguaje natural, recuperación de información, procesamiento multimodal y aprendizaje multitarea. ^[80]

Software

En términos de recursos disponibles de forma gratuita, el kit de herramientas Sphinx de la Universidad Carnegie Mellon es un lugar para comenzar a aprender sobre el reconocimiento de voz y comenzar a experimentar. Otro recurso (gratuito pero con derechos de autor) es el libro HTK (y el kit de herramientas HTK que lo acompaña). Para técnicas más recientes y de última generación, se puede utilizar el kit de herramientas Kaldi . ^[144] En 2017, Mozilla lanzó el proyecto de código abierto llamado Common Voice ^[145] para recopilar una gran base de datos de voces que ayudaría a construir el proyecto de reconocimiento de voz gratuito DeepSpeech (disponible de forma gratuita en GitHub ), ^[146] utilizando la plataforma de código abierto TensorFlow de Google . ^[147] Cuando Mozilla redirigió la financiación del proyecto en 2020, sus desarrolladores originales lo bifurcaron como Coqui STT ^[148] utilizando la misma licencia de código abierto. ^[149]^[150]

Google Gboard admite el reconocimiento de voz en todas las aplicaciones de Android . Se puede activar a través del icono del micrófono . ^[151]

Las API de reconocimiento de voz basadas en la nube comerciales están ampliamente disponibles.

Para obtener más recursos de software, consulte Lista de software de reconocimiento de voz .

Véase también

Liza

Referencias

^ "Reconocimiento de voz conectado e independiente del hablante: Fifth Generation Computer Corporation". Fifthgen.com. Archivado desde el original el 11 de noviembre de 2013. Consultado el 15 de junio de 2013 .
^ P. Nguyen (2010). "Clasificación automática de las características de los altavoces". Conferencia internacional sobre comunicaciones y electrónica 2010. págs. 147-152. doi :10.1109/ICCE.2010.5670700. ISBN. 978-1-4244-7055-6. Número de identificación del sujeto 13482115.
^ "Definición de reconocimiento de voz en inglés británico". Macmillan Publishers Limited. Archivado desde el original el 16 de septiembre de 2011. Consultado el 21 de febrero de 2012 .
^ "reconocimiento de voz, definición de". WebFinance, Inc. Archivado desde el original el 3 de diciembre de 2011 . Consultado el 21 de febrero de 2012 .
^ "El buzón de correo LG #114". Linuxgazette.net. Archivado desde el original el 19 de febrero de 2013. Consultado el 15 de junio de 2013 .
^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (septiembre de 2020). "Optimización del banco de filtros basado en datos para la verificación automática de hablantes". Procesamiento de señales digitales . 104 : 102795. arXiv : 2007.10729 . Código Bibliográfico :2020DSP...10402795S. doi :10.1016/j.dsp.2020.102795. S2CID 220665533.
^ Reynolds, Douglas; Rose, Richard (enero de 1995). "Identificación robusta de hablante independiente del texto utilizando modelos de hablantes de mezcla gaussiana" (PDF) . IEEE Transactions on Speech and Audio Processing . 3 (1): 72–83. doi :10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. S2CID 7319345. Archivado (PDF) desde el original el 8 de marzo de 2014 . Consultado el 21 de febrero de 2014 .
^ "Identificación del hablante (WhisperID)". Microsoft Research . Microsoft. Archivado desde el original el 25 de febrero de 2014 . Consultado el 21 de febrero de 2014 . Cuando hablas con alguien, esa persona no solo reconoce lo que dices: reconoce quién eres. WhisperID también permitirá que las computadoras hagan eso, averiguando quién eres por la forma en que hablas.
^ "Obituarios: Stephen Balashek". The Star-Ledger . 22 de julio de 2012. Archivado desde el original el 4 de abril de 2019 . Consultado el 9 de septiembre de 2024 .
^ "IBM-Shoebox-front.jpg". androidauthority.net. Archivado desde el original el 9 de agosto de 2018. Consultado el 4 de abril de 2019 .
^ Juang, BH; Rabiner, Lawrence R. "Reconocimiento automático de voz: una breve historia del desarrollo de la tecnología" (PDF) . pág. 6. Archivado (PDF) desde el original el 17 de agosto de 2014 . Consultado el 17 de enero de 2015 .
^ de Melanie Pinola (2 de noviembre de 2011). "Reconocimiento de voz a través de las décadas: cómo terminamos con Siri". PC World . Archivado desde el original el 3 de noviembre de 2018. Consultado el 22 de octubre de 2018 .
^ Gray, Robert M. (2010). "Una historia del habla digital en tiempo real en redes de paquetes: Parte II de la codificación predictiva lineal y el protocolo de Internet" (PDF) . Encontrado. Trends Signal Process . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN 1932-8346. Archivado (PDF) desde el original el 9 de octubre de 2022 . Consultado el 9 de septiembre de 2024 .
^ John R. Pierce (1969). "¿Hacia dónde va el reconocimiento de voz?". Revista de la Sociedad Acústica de América . 46 (48): 1049–1051. Código Bibliográfico :1969ASAJ...46.1049P. doi :10.1121/1.1911801.
^ Benesty, Jacob; Sondhi, MM; Huang, Yiteng (2008). Manual de Springer sobre procesamiento del habla . Springer Science & Business Media. ISBN 978-3540491255.
^ John Makhoul. «Medallista ISCA: por su liderazgo y sus extensas contribuciones al procesamiento del habla y el lenguaje». Archivado desde el original el 24 de enero de 2018. Consultado el 23 de enero de 2018 .
^ Blechman, RO; Blechman, Nicholas (23 de junio de 2008). "Hola, Hal". The New Yorker . Archivado desde el original el 20 de enero de 2015. Consultado el 17 de enero de 2015 .
^ Klatt, Dennis H. (1977). "Revisión del proyecto de comprensión del habla de ARPA". Revista de la Sociedad Acústica de América . 62 (6): 1345–1366. Código Bibliográfico :1977ASAJ...62.1345K. doi :10.1121/1.381666.
^ Rabiner (1984). "The Acoustics, Speech, and Signal Processing Society. A Historical Perspective" (PDF) . Archivado (PDF) del original el 9 de agosto de 2017. Consultado el 23 de enero de 2018 .
^ "De primera mano: el modelo oculto de Markov – Wiki de historia de la ingeniería y la tecnología". ethw.org . 12 de enero de 2015. Archivado desde el original el 3 de abril de 2018 . Consultado el 1 de mayo de 2018 .
^ ab «Entrevista a James Baker». Archivado desde el original el 28 de agosto de 2017. Consultado el 9 de febrero de 2017 .
^ "Reconocimiento de voz pionero". 7 de marzo de 2012. Archivado desde el original el 19 de febrero de 2015 . Consultado el 18 de enero de 2015 .
^ Huang, Xuedong; Baker, James; Reddy, Raj (enero de 2014). "Una perspectiva histórica del reconocimiento de voz". Comunicaciones de la ACM . 57 (1): 94–103. doi :10.1145/2500887. ISSN 0001-0782. S2CID 6175701. Archivado desde el original el 8 de diciembre de 2023.
^ Juang, BH; Rabiner, Lawrence R. Reconocimiento automático del habla: una breve historia del desarrollo de la tecnología (PDF) (Informe). pág. 10. Archivado (PDF) desde el original el 17 de agosto de 2014 . Consultado el 17 de enero de 2015 .
^ Li, Xiaochang (1 de julio de 2023). ""No hay datos como más datos": reconocimiento automático de voz y la creación de una cultura algorítmica". Osiris . 38 : 165–182. doi :10.1086/725132. ISSN 0369-7827. S2CID 259502346.
^ "Historia del reconocimiento de voz". Dragon Medical Transcription . Archivado desde el original el 13 de agosto de 2015. Consultado el 17 de enero de 2015 .
^ Billi, Roberto; Canavesio, Franco; Ciaramella, Alberto; Nebbia, Luciano (1 de noviembre de 1995). "Tecnología de voz interactiva en el trabajo: la experiencia CSELT". Comunicación del habla . 17 (3): 263–271. doi :10.1016/0167-6393(95)00030-R.
^ ab Xuedong Huang; James Baker; Raj Reddy (enero de 2014). "Una perspectiva histórica del reconocimiento de voz". Comunicaciones de la ACM. Archivado desde el original el 20 de enero de 2015 . Consultado el 20 de enero de 2015 .
^ Kevin McKean (8 de abril de 1980). "Cuando Cole habla, las computadoras escuchan". Sarasota Journal. AP . Consultado el 23 de noviembre de 2015 .
^ "ACT/Apricot - Historia del albaricoque". actapricot.org . Archivado desde el original el 21 de diciembre de 2016 . Consultado el 2 de febrero de 2016 .
^ Melanie Pinola (2 de noviembre de 2011). "Reconocimiento de voz a través de las décadas: cómo terminamos con Siri". PC World . Archivado desde el original el 13 de enero de 2017. Consultado el 28 de julio de 2017 .
^ "Biografía de Ray Kurzweil". KurzweilAINetwork. Archivado desde el original el 5 de febrero de 2014. Consultado el 25 de septiembre de 2014 .
^ Juang, BH; Rabiner, Lawrence. Reconocimiento automático de voz: una breve historia del desarrollo de la tecnología (PDF) (Informe). Archivado (PDF) del original el 9 de agosto de 2017. Consultado el 28 de julio de 2017 .
^ "Nuance Exec sobre el iPhone 4S, Siri y el futuro del habla". Tech.pinions. 10 de octubre de 2011. Archivado desde el original el 19 de noviembre de 2011. Consultado el 23 de noviembre de 2011 .
^ "Switchboard-1 Release 2". Archivado desde el original el 11 de julio de 2017 . Consultado el 26 de julio de 2017 .
^ Jason Kincaid (13 de febrero de 2011). "El poder de la voz: una conversación con el responsable de la tecnología de voz de Google". Tech Crunch . Archivado desde el original el 21 de julio de 2015. Consultado el 21 de julio de 2015 .
^ Froomkin, Dan (5 de mayo de 2015). "LAS COMPUTADORAS ESTÁN ESCUCHANDO". The Intercept . Archivado desde el original el 27 de junio de 2015. Consultado el 20 de junio de 2015 .
^ Herve Bourlard y Nelson Morgan , Reconocimiento de voz conexionista: un enfoque híbrido, The Kluwer International Series in Engineering and Computer Science; v. 247, Boston: Kluwer Academic Publishers, 1994.
^ por Sepp Hochreiter ; J. Schmidhuber (1997). "Memoria a corto y largo plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
^ Schmidhuber, Jürgen (2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85–117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
^ Alex Graves, Santiago Fernandez, Faustino Gomez y Jürgen Schmidhuber (2006). Clasificación temporal conexionista: etiquetado de datos de secuencias no segmentadas con redes neuronales recurrentes Archivado el 9 de septiembre de 2024 en Wayback Machine . Actas de ICML'06, págs. 369–376.
^ Santiago Fernández, Alex Graves y Jürgen Schmidhuber (2007). Una aplicación de redes neuronales recurrentes para la detección discriminativa de palabras clave ^{[ enlace muerto permanente ‍ ]} . Actas de la ICANN (2), págs. 220–229.
^ ab Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays y Johan Schalkwyk (septiembre de 2015): « Búsqueda por voz de Google: más rápida y precisa». Archivado desde el original el 9 de marzo de 2016. Consultado el 5 de abril de 2016 .."
^ Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alejandro; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matías; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob; Houlsby, Neil (3 de junio de 2021). "Una imagen vale 16 x 16 palabras: transformadores para el reconocimiento de imágenes a escala". arXiv : 2010.11929 [cs.CV].
^ Wu, Haiping; Xiao, Bin; Codella, Noel; Liu, Mengchen; Dai, Xiyang; Yuan, Lu; Zhang, Lei (29 de marzo de 2021). "CvT: Introducción de convoluciones a los transformadores de visión". arXiv : 2103.15808 [cs.CV].
^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, León; Gómez, Aidan N; Káiser, Łukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesitas". Avances en los sistemas de procesamiento de información neuronal . 30 . Asociados Curran. Archivado desde el original el 9 de septiembre de 2024 . Consultado el 9 de septiembre de 2024 .
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (24 de mayo de 2019). "BERT: preentrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805 [cs.CL].
^ ab Gong, Yuan; Chung, Yu-An; Glass, James (8 de julio de 2021). "AST: Transformador de espectrograma de audio". arXiv : 2104.01778 [cs.SD].
^ ab Ristea, Nicolae-Catalin; Ionescu, Radu Tudor; Khan, Fahad Shahbaz (20 de junio de 2022). "SepTr: transformador separable para procesamiento de espectrogramas de audio". arXiv : 2203.09581 [cs.CV].
^ ab Lohrenz, Timo; Li, Zhengyang; Fingscheidt, Tim (14 de julio de 2021). "Aprendizaje de codificadores múltiples y fusión de flujos para reconocimiento automático de voz de extremo a extremo basado en transformadores". arXiv : 2104.00120 [eess.AS].
^ "Li Deng". Sitio de Li Deng. Archivado desde el original el 9 de septiembre de 2024. Consultado el 9 de septiembre de 2024 .
^ Taller NIPS: Aprendizaje profundo para reconocimiento de voz y aplicaciones relacionadas, Whistler, BC, Canadá, diciembre de 2009 (Organizadores: Li Deng, Geoff Hinton, D. Yu).
^ abc Hinton, Geoffrey; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-Rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara ; Kingsbury, Brian (2012). "Redes neuronales profundas para modelado acústico en reconocimiento de voz: las visiones compartidas de cuatro grupos de investigación". Revista IEEE Signal Processing . 29 (6): 82–97. Bibcode :2012ISPM...29...82H. doi :10.1109/MSP.2012.2205597. S2CID 206485943.
^ ab Deng, L.; Hinton, G.; Kingsbury, B. (2013). "Nuevos tipos de aprendizaje de redes neuronales profundas para el reconocimiento de voz y aplicaciones relacionadas: una descripción general". Conferencia internacional IEEE de 2013 sobre acústica, habla y procesamiento de señales: Nuevos tipos de aprendizaje de redes neuronales profundas para el reconocimiento de voz y aplicaciones relacionadas: una descripción general . pág. 8599. doi :10.1109/ICASSP.2013.6639344. ISBN 978-1-4799-0356-6. Número de identificación del sujeto 13953660.
^ ab Markoff, John (23 de noviembre de 2012). "Los científicos ven promesas en los programas de aprendizaje profundo". New York Times . Archivado desde el original el 30 de noviembre de 2012. Consultado el 20 de enero de 2015 .
^ Morgan, Bourlard, Renals, Cohen, Franco (1993) "Sistemas de redes neuronales híbridas/modelos ocultos de Markov para reconocimiento continuo de voz. ICASSP/IJPRAI"
^ T. Robinson (1992). "Un sistema de reconocimiento de palabras en red de propagación de errores recurrentes en tiempo real". [Actas] ICASSP-92: Conferencia internacional IEEE de 1992 sobre acústica, habla y procesamiento de señales . pp. 617–620 vol.1. doi :10.1109/ICASSP.1992.225833. ISBN 0-7803-0532-9.S2CID62446313 .
^ Waibel , Hanazawa, Hinton, Shikano, Lang. (1989) "Reconocimiento de fonemas mediante redes neuronales con retardo temporal Archivado el 25 de febrero de 2021 en Wayback Machine . Transacciones IEEE sobre acústica, habla y procesamiento de señales".
^ Baker, J.; Li Deng; Glass, J.; Khudanpur, S.; Chin-Hui Lee ; Morgan, N.; O'Shaughnessy, D. (2009). "Desarrollos y direcciones en el reconocimiento y comprensión del habla, parte 1". Revista IEEE Signal Processing . 26 (3): 75–80. Bibcode :2009ISPM...26...75B. doi :10.1109/MSP.2009.932166. hdl : 1721.1/51891 . S2CID 357467.
↑ Sepp Hochreiter (1991), Untersuchungen zu dynamischen neuronalen Netzen Archivado el 6 de marzo de 2015 en Wayback Machine , Tesis de diploma. Instituto f. Informática, Universidad Técnica. Munich. Asesor: J. Schmidhuber.
^ Bengio, Y. (1991). Redes neuronales artificiales y su aplicación al reconocimiento de voz y secuencias (tesis doctoral). Universidad McGill.
^ Deng, L.; Hassanein, K.; Elmasry, M. (1994). "Análisis de la estructura de correlación para un modelo predictivo neuronal con aplicación al reconocimiento de voz". Redes neuronales . 7 (2): 331–339. doi :10.1016/0893-6080(94)90027-2.
^ Charla magistral: Desarrollos recientes en redes neuronales profundas. ICASSP, 2013 (por Geoff Hinton).
^ ab Charla principal: "Logros y desafíos del aprendizaje profundo: desde el análisis y reconocimiento del habla hasta el lenguaje y el procesamiento multimodal Archivado el 5 de marzo de 2021 en Wayback Machine ", Interspeech, septiembre de 2014 (por Li Deng).
^ "Aumentan las mejoras en el software de reconocimiento de voz". TechRepublic.com . 27 de agosto de 2002. Archivado desde el original el 23 de octubre de 2018 . Consultado el 22 de octubre de 2018 . Maners dijo que IBM ha trabajado en el avance del reconocimiento de voz... o en el piso de una ruidosa feria comercial.
^ "Reconocimiento de voz para facilitar las reservas de viajes: Business Travel News". BusinessTravelNews.com . 3 de marzo de 1997. Archivado desde el original el 9 de septiembre de 2024 . Consultado el 9 de septiembre de 2024 . Las primeras aplicaciones del software de reconocimiento de voz fueron el dictado ... Hace cuatro meses, IBM presentó un 'producto de dictado continuo' diseñado para ... debutó en la feria comercial de la Asociación Nacional de Viajes de Negocios en 1994.
^ Ellis Booker (14 de marzo de 1994). "El reconocimiento de voz se generaliza". Computerworld . p. 45. Hace apenas unos años, el reconocimiento de voz se limitaba a...
^ «Los investigadores de Microsoft alcanzan un nuevo hito en el reconocimiento de voz conversacional». Microsoft . 21 de agosto de 2017. Archivado desde el original el 9 de septiembre de 2024 . Consultado el 9 de septiembre de 2024 .
^ Goel, Vaibhava; Byrne, William J. (2000). «Reconocimiento automático del habla con riesgo bayesiano mínimo». Computer Speech & Language . 14 (2): 115–135. doi : 10.1006/csla.2000.0138 . S2CID: 206561058. Archivado desde el original el 25 de julio de 2011. Consultado el 28 de marzo de 2011 .
^ Mohri, M. (2002). "Edit-Distance of Weighted Automata: General Definitions and Algorithms" (PDF) . Revista internacional de fundamentos de la ciencia de la computación . 14 (6): 957–982. doi :10.1142/S0129054103002114. Archivado (PDF) desde el original el 18 de marzo de 2012 . Consultado el 28 de marzo de 2011 .
^ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, KJ (1989). "Reconocimiento de fonemas mediante redes neuronales con retardo temporal". IEEE Transactions on Acoustics, Speech, and Signal Processing . 37 (3): 328–339. doi :10.1109/29.21701. hdl : 10338.dmlcz/135496 . S2CID 9563026.
^ Bird, Jordan J.; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "Optimización del reconocimiento de voz con reconocimiento fonético a través de algoritmos evolutivos multiobjetivo" (PDF) . Sistemas expertos con aplicaciones . 153 . Elsevier BV: 113402. doi :10.1016/j.eswa.2020.113402. ISSN 0957-4174. S2CID 216472225. Archivado (PDF) desde el original el 9 de septiembre de 2024 . Consultado el 9 de septiembre de 2024 .
^ Wu, J.; Chan, C. (1993). "Reconocimiento de palabras aisladas mediante modelos de redes neuronales con coeficientes de correlación cruzada para dinámicas del habla". IEEE Transactions on Pattern Analysis and Machine Intelligence . 15 (11): 1174–1185. doi :10.1109/34.244678.
^ SA Zahorian, AM Zimmer y F. Meng (2002) "Clasificación de vocales para retroalimentación visual basada en computadora para entrenamiento del habla para personas con discapacidad auditiva", en ICSLP 2002
^ Hu, Hongbing; Zahorian, Stephen A. (2010). "Métodos de reducción de dimensionalidad para el reconocimiento fonético de HMM" (PDF) . ICASSP 2010. Archivado (PDF) desde el original el 6 de julio de 2012.
^ Fernandez, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Etiquetado de secuencias en dominios estructurados con redes neuronales recurrentes jerárquicas" (PDF) . Actas del IJCAI . Archivado (PDF) desde el original el 15 de agosto de 2017.
^ Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Reconocimiento de voz con redes neuronales recurrentes profundas". arXiv : 1303.5778 [cs.NE].Congreso Internacional de la Sociedad de la Información y la Comunicación (ICASSP) 2013.
^ Waibel, Alex (1989). "Construcción modular de redes neuronales con retardo temporal para el reconocimiento de voz" (PDF) . Neural Computation . 1 (1): 39–46. doi :10.1162/neco.1989.1.1.39. S2CID 236321. Archivado (PDF) desde el original el 29 de junio de 2016.
^ Maas, Andrew L.; Le, Quoc V.; O'Neil, Tyler M.; Vinyals, Oriol; Nguyen, Patrick; Ng, Andrew Y. (2012). "Redes neuronales recurrentes para la reducción de ruido en ASR robusto". Actas de Interspeech 2012 .
^ ab Deng, Li; Yu, Dong (2014). "Aprendizaje profundo: métodos y aplicaciones" (PDF) . Fundamentos y tendencias en procesamiento de señales . 7 (3–4): 197–387. CiteSeerX 10.1.1.691.3679 . doi :10.1561/2000000039. Archivado (PDF) desde el original el 22 de octubre de 2014.
^ Yu, D.; Deng, L.; Dahl, G. (2010). "Funciones del preentrenamiento y el ajuste fino en DBN-HMM dependientes del contexto para el reconocimiento de voz en el mundo real" (PDF) . Taller NIPS sobre aprendizaje profundo y aprendizaje de características no supervisado .
^ Dahl, George E.; Yu, Dong; Deng, Li; Acero, Alex (2012). "Redes neuronales profundas preentrenadas dependientes del contexto para el reconocimiento de voz de vocabulario amplio". IEEE Transactions on Audio, Speech, and Language Processing . 20 (1): 30–42. doi :10.1109/TASL.2011.2134090. S2CID 14862572.
^ Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. Avances recientes en aprendizaje profundo para la investigación del habla en Microsoft Archivado el 9 de septiembre de 2024 en Wayback Machine . ICASSP, 2013.
^ ab Yu, D.; Deng, L. (2014). "Reconocimiento automático de voz: un enfoque de aprendizaje profundo (Editorial: Springer)". {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Deng, L.; Li, Xiao (2013). "Paradigmas de aprendizaje automático para el reconocimiento de voz: una descripción general" (PDF) . IEEE Transactions on Audio, Speech, and Language Processing . 21 (5): 1060–1089. doi :10.1109/TASL.2013.2244083. S2CID 16585863. Archivado (PDF) del original el 9 de septiembre de 2024 . Consultado el 9 de septiembre de 2024 .
^ Schmidhuber, Jürgen (2015). "Aprendizaje profundo". Scholarpedia . 10 (11): 32832. Código Bibliográfico :2015SchpJ..1032832S. doi : 10.4249/scholarpedia.32832 .
^ L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed y G. Hinton (2010) Codificación binaria de espectrogramas de voz utilizando un codificador automático profundo. Interspeech.
^ Tüske, Zoltán; Golik, Pavel; Schlüter, Ralf; Ney, Hermann (2014). "Modelado acústico con redes neuronales profundas utilizando señales de tiempo sin procesar para LVCSR" (PDF) . Interspeech 2014 . Archivado (PDF) del original el 21 de diciembre de 2016.
^ Jurafsky, Daniel (2016). Procesamiento del habla y del lenguaje .
^ Graves, Alex (2014). "Hacia el reconocimiento de voz de extremo a extremo con redes neuronales recurrentes" (PDF) . ICML . Archivado desde el original (PDF) el 10 de enero de 2017 . Consultado el 22 de julio de 2019 .
^ Amodei, Dario (2016). "Deep Speech 2: reconocimiento de voz de extremo a extremo en inglés y mandarín". arXiv : 1512.02595 [cs.CL].
^ "LipNet: ¿Qué tan fácil crees que es leer los labios?". YouTube . 4 de noviembre de 2016. Archivado desde el original el 27 de abril de 2017. Consultado el 5 de mayo de 2017 .
^ Assael, Yannis; Shillingford, Brendan; Whiteson, Shimon; de Freitas, Nando (5 de noviembre de 2016). "LipNet: lectura de labios de principio a fin a nivel de oración". arXiv : 1611.01599 [cs.CV].
^ Shillingford, Brendan; Assael, Yannis; Hoffman, Mateo W.; Paine, Tomás; Hughes, Cían; Prabhu, Utsav; Liao, Hank; Sak, Hasim; Rao, Kanishka (13 de julio de 2018). "Reconocimiento visual de voz a gran escala". arXiv : 1807.05162 [cs.CV].
^ Li, Jason; Lavrukhin, Vitaly; Ginsburg, Boris; Leary, Ryan; Kuchaiev, Oleksii; Cohen, Jonathan M.; Nguyen, Huyen; Gadde, Ravi Teja (2019). "Jasper: un modelo acústico neuronal convolucional de extremo a extremo". Interspeech 2019 . págs. 71–75. arXiv : 1904.03288 . doi :10.21437/Interspeech.2019-1819.
^ Kriman, Samuel; Beliaev, Stanislav; Ginsburg, Boris; Huang, Jocelyn; Kuchaiev, Oleksii; Lavrukhin, Vitaly; Leary, Ryan; Li, Jason; Zhang, Yang (22 de octubre de 2019), QuartzNet: Reconocimiento automático de voz profundo con convoluciones separables de canal de tiempo 1D , arXiv : 1910.10261
^ Medeiros, Eduardo; Corado, Leonel; Rato, Luis; Quaresma, Paulo; Salgueiro, Pedro (mayo de 2023). "Adaptación de dominio de voz a texto para portugueses europeos de bajos recursos mediante el aprendizaje profundo". Internet del futuro . 15 (5): 159. doi : 10.3390/fi15050159 . ISSN 1999-5903.
^ Joshi, Raviraj; Singh, Anupam (mayo de 2022). Malmasi, Shervin; Rokhlenko, Oleg; Ueffing, Nicola; Guy, Ido; Agichtein, Eugene; Kallumadi, Surya (eds.). "Una línea base simple para la adaptación de dominios en sistemas ASR de extremo a extremo utilizando datos sintéticos". Actas del quinto taller sobre comercio electrónico y PNL (ECNLP 5) . Dublín, Irlanda: Asociación de Lingüística Computacional: 244–249. arXiv : 2206.13240 . doi :10.18653/v1/2022.ecnlp-1.28.
^ Sukhadia, Vrunda N.; Umesh, S. (9 de enero de 2023). "Adaptación de dominio de modelos de dominio objetivo de recursos reducidos utilizando modelos de conformadores ASR bien entrenados". Taller sobre tecnología del lenguaje hablado (SLT) del IEEE de 2022. IEEE. págs. 295–301. arXiv : 2202.09167 . doi :10.1109/SLT54892.2023.10023233. ISBN . 979-8-3503-9690-4.
^ Chan, William; Jaitly, Navdeep; Le, Quoc; Vinyals, Oriol (2016). "Escuchar, atender y deletrear: una red neuronal para el reconocimiento de voz conversacional de vocabulario extenso" (PDF) . ICASSP . Archivado (PDF) del original el 9 de septiembre de 2024 . Consultado el 9 de septiembre de 2024 .
^ Bahdanau, Dzmitry (2016). "Reconocimiento de voz de vocabulario extenso basado en la atención de extremo a extremo". arXiv : 1508.04395 [cs.CL].
^ Chorowski, Jan; Jaitly, Navdeep (8 de diciembre de 2016). "Hacia una mejor decodificación e integración de modelos de lenguaje en modelos secuencia a secuencia". arXiv : 1612.02695 [cs.NE].
^ Chan, William; Zhang, Yu; Le, Quoc; Jaitly, Navdeep (10 de octubre de 2016). "Descomposiciones de secuencias latentes". arXiv : 1610.03035 [estad.ML].
^ Chung, Joon Son; Senior, Andrew; Vinyals, Oriol; Zisserman, Andrew (16 de noviembre de 2016). "Lectura de labios en oraciones en la naturaleza". Conferencia IEEE de 2017 sobre visión artificial y reconocimiento de patrones (CVPR) . pp. 3444–3453. arXiv : 1611.05358 . doi :10.1109/CVPR.2017.367. ISBN . 978-1-5386-0457-1.S2CID1662180 .
^ El Kheir, Yassine; et al. (21 de octubre de 2023), Evaluación automática de la pronunciación: una revisión , Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural, arXiv : 2310.13974 , S2CID 264426545
^ Isaacs, Talia; Harding, Luke (julio de 2017). "Evaluación de la pronunciación". Enseñanza de idiomas . 50 (3): 347–366. doi : 10.1017/S0261444817000118 . ISSN 0261-4448. S2CID 209353525.
^ Loukina, Anastassia; et al. (6 de septiembre de 2015), "Pronunciation precision and inteligibility of non-native speech" (PDF) , INTERSPEECH 2015 , Dresden, Alemania: International Speech Communication Association , pp. 1917–1921, archivado (PDF) del original el 9 de septiembre de 2024 , recuperado el 9 de septiembre de 2024 , solo el 16% de la variabilidad en la inteligibilidad a nivel de palabra puede explicarse por la presencia de pronunciaciones erróneas obvias.
^ O'Brien, Mary Grantham; et al. (31 de diciembre de 2018). "Directrices para el futuro de la tecnología en la investigación y enseñanza de la pronunciación". Journal of Second Language Pronunciation . 4 (2): 182–207. doi : 10.1075/jslp.17001.obr . hdl : 2066/199273 . ISSN 2215-1931. S2CID 86440885. Los investigadores de la pronunciación están interesados principalmente en mejorar la inteligibilidad y la comprensibilidad de los estudiantes de L2, pero aún no han recopilado cantidades suficientes de datos representativos y confiables (grabaciones de habla con las anotaciones y juicios correspondientes) que indiquen qué errores afectan a estas dimensiones del habla y cuáles no. Estos datos son esenciales para entrenar algoritmos ASR para evaluar la inteligibilidad de los estudiantes de L2.
^ Eskenazi, Maxine (enero de 1999). «Uso del procesamiento automático del habla para la enseñanza de la pronunciación de lenguas extranjeras: algunos problemas y un prototipo». Aprendizaje de idiomas y tecnología . 2 (2): 62–76. Archivado desde el original el 9 de septiembre de 2024. Consultado el 11 de febrero de 2023 .
^ Tholfsen, Mike (9 de febrero de 2023). "Reading Coach en Immersive Reader y nuevas funciones que llegan a Reading Progress en Microsoft Teams". Blog de educación de Techcommunity . Microsoft. Archivado desde el original el 9 de septiembre de 2024 . Consultado el 12 de febrero de 2023 .
^ Banerji, Olina (7 de marzo de 2023). "Las escuelas están utilizando tecnología de voz para enseñar a leer. ¿Está ayudando?". EdSurge News . Archivado desde el original el 9 de septiembre de 2024. Consultado el 7 de marzo de 2023 .
^ Hair, Adam; et al. (19 de junio de 2018). "Apraxia world: Un juego de terapia del habla para niños con trastornos del sonido del habla". Actas de la 17.ª Conferencia de la ACM sobre diseño de interacción y niños (PDF) . pp. 119–131. doi :10.1145/3202185.3202733. ISBN 9781450351522. S2CID 13790002. Archivado (PDF) del original el 9 de septiembre de 2024 . Consultado el 9 de septiembre de 2024 .
^ "La computadora dice que no: un veterinario irlandés no aprueba el examen oral de inglés necesario para quedarse en Australia". The Guardian . Australian Associated Press. 8 de agosto de 2017. Archivado desde el original el 9 de septiembre de 2024 . Consultado el 12 de febrero de 2023 .
^ Ferrier, Tracey (9 de agosto de 2017). «Ex lector de noticias australiano con título en inglés no aprueba el examen de inglés de un robot». The Sydney Morning Herald . Archivado desde el original el 9 de septiembre de 2024. Consultado el 12 de febrero de 2023 .
^ Main, Ed; Watson, Richard (9 de febrero de 2022). «El examen de inglés que arruinó miles de vidas». BBC News . Archivado desde el original el 9 de septiembre de 2024. Consultado el 12 de febrero de 2023 .
^ Joyce, Katy Spratte (24 de enero de 2023). «13 palabras que se pueden pronunciar de dos maneras». Reader's Digest. Archivado desde el original el 9 de septiembre de 2024. Consultado el 23 de febrero de 2023 .
^ Por ejemplo, CMUDICT , "The CMU Pronouncing Dictionary". www.speech.cs.cmu.edu . Archivado desde el original el 15 de agosto de 2010. Consultado el 15 de febrero de 2023 .Compare "cuatro" dado como "F AO R" con la vocal AO como en "caught", con "row" dado como "R OW" con la vocal OW como en "oat".
^ Tu, Zehai; Ma, Ning; Barker, Jon (2022). "Medidas de incertidumbre no supervisadas del reconocimiento automático del habla para la predicción no intrusiva de la inteligibilidad del habla" (PDF) . Proc. Interspeech 2022 . INTERSPEECH 2022. ISCA. págs. 3493–3497. doi :10.21437/Interspeech.2022-10408. Archivado (PDF) del original el 9 de septiembre de 2024 . Consultado el 17 de diciembre de 2023 .
^ Marco común europeo de referencia para el aprendizaje, la enseñanza y la evaluación de lenguas: volumen complementario con nuevos descriptores. Programa de Política Lingüística, División de Política Educativa, Departamento de Educación, Consejo de Europa . Febrero de 2018. pág. 136. OCLC 1090351600. Archivado desde el original el 9 de septiembre de 2024. Consultado el 9 de septiembre de 2024 .
^ Englund, Christine (2004). Reconocimiento de voz en el avión JAS 39 Gripen: adaptación al habla con diferentes cargas G (PDF) (Tesis de maestría). Instituto Real de Tecnología de Estocolmo . Archivado (PDF) desde el original el 2 de octubre de 2008.
^ "La cabina". Eurofighter Typhoon . Archivado desde el original el 1 de marzo de 2017.
^ "Eurofighter Typhoon: el avión de combate más avanzado del mundo". www.eurofighter.com . Archivado desde el original el 11 de mayo de 2013 . Consultado el 1 de mayo de 2018 .
^ Schutte, John (15 de octubre de 2007). "Investigadores perfeccionan el sistema de comunicación entre el piloto y el avión del F-35". Fuerza Aérea de los Estados Unidos. Archivado desde el original el 20 de octubre de 2007.
^ "Superar las barreras de comunicación en el aula". MassMATCH. 18 de marzo de 2010. Archivado desde el original el 25 de julio de 2013. Consultado el 15 de junio de 2013 .
^ ab "Reconocimiento de voz para el aprendizaje". Centro Nacional de Innovación Tecnológica. 2010. Archivado desde el original el 13 de abril de 2014. Consultado el 26 de marzo de 2014 .
^ Follensbee, Bob; McCloskey-Dale, Susan (2000). "Reconocimiento de voz en las escuelas: una actualización desde el campo". Conferencia sobre tecnología y personas con discapacidades 2000. Archivado desde el original el 21 de agosto de 2006. Consultado el 26 de marzo de 2014 .
^ "Reconocimiento de voz para personas discapacitadas". Archivado desde el original el 4 de abril de 2008.
^ Grupo de apoyo internacional de amigos
^ Garrett, Jennifer Tumlin; et al. (2011). "Uso de software de reconocimiento de voz para aumentar la fluidez de escritura de personas con discapacidades físicas". Revista de tecnología de educación especial . 26 (1): 25–41. doi :10.1177/016264341102600104. S2CID 142730664. Archivado desde el original el 9 de septiembre de 2024 . Consultado el 9 de septiembre de 2024 .
^ Forgrave, Karen E. "Tecnología de asistencia: empoderamiento de estudiantes con discapacidades". Clearing House 75.3 (2002): 122–6. Web.
^ Tang, KW; Kamoua, Ridha; Sutan, Victor (2004). "Tecnología de reconocimiento de voz para la educación de personas con discapacidad". Revista de sistemas de tecnología educativa . 33 (2): 173–84. CiteSeerX 10.1.1.631.3736 . doi :10.2190/K6K8-78K2-59Y7-R9R2. S2CID 143159997.
^ "Proyectos: Micrófonos Planetarios". The Planetary Society. Archivado desde el original el 27 de enero de 2012.
^ Caridakis, George; Castellano, Ginevra; Kessous, Loic; Raouzaiou, Amaryllis; Malatesta, Lori; Asteriadis, Stelios; Karpouzis, Kostas (19 de septiembre de 2007). "Reconocimiento multimodal de emociones a partir de rostros expresivos, gestos corporales y habla". Inteligencia artificial e innovaciones 2007: de la teoría a las aplicaciones . IFIP, Federación Internacional para el Procesamiento de la Información. Vol. 247. Springer US. págs. 375–388. doi :10.1007/978-0-387-74161-1_41. ISBN . 978-0-387-74160-4.
^ "¿Qué es el subtitulado en tiempo real? | DO-IT". www.washington.edu . Archivado desde el original el 9 de septiembre de 2024 . Consultado el 11 de abril de 2021 .
^ Zheng, Thomas Fang; Li, Lantian (2017). Problemas relacionados con la robustez en el reconocimiento de hablantes. SpringerBriefs in Electrical and Computer Engineering. Singapur: Springer Singapore. doi :10.1007/978-981-10-3238-7. ISBN 978-981-10-3237-0Archivado desde el original el 9 de septiembre de 2024 . Consultado el 9 de septiembre de 2024 .
^ Ciaramella, Alberto. "Informe de evaluación del rendimiento de un prototipo". Sundial workpackage 8000 (1993).
^ Gerbino, E.; Baggia, P.; Ciaramella, A.; Rullent, C. (1993). "Prueba y evaluación de un sistema de diálogo hablado". IEEE International Conference on Acoustics Speech and Signal Processing . págs. 135–138 vol.2. doi :10.1109/ICASSP.1993.319250. ISBN 0-7803-0946-4.S2CID 57374050 .
^ Instituto Nacional de Estándares y Tecnología. "La historia de la evaluación del reconocimiento automático de voz en el NIST Archivado el 8 de octubre de 2013 en Wayback Machine ".
^ "Los nombres de las letras pueden causar confusión y otras cosas que debe saber sobre las relaciones entre letras y sonidos". NAEYC . Archivado desde el original el 9 de septiembre de 2024 . Consultado el 27 de octubre de 2023 .
^ "Listen Up: Your AI Assistant Goes Crazy For NPR Too" (Escucha: tu asistente de inteligencia artificial también se vuelve loco por NPR). NPR . 6 de marzo de 2016. Archivado desde el original el 23 de julio de 2017.
^ Claburn, Thomas (25 de agosto de 2017). "¿Es posible controlar Amazon Alexa y Google Now mediante comandos inaudibles? Absolutamente". The Register . Archivado desde el original el 2 de septiembre de 2017.
^ "Ataque contra sistemas de reconocimiento automático de voz". vice.com . 31 de enero de 2018. Archivado desde el original el 3 de marzo de 2018 . Consultado el 1 de mayo de 2018 .
^ Beigi, Homayoon (2011). Fundamentos del reconocimiento de hablantes. Nueva York: Springer. ISBN 978-0-387-77591-3Archivado desde el original el 31 de enero de 2018.
^ Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... y Vesely, K. (2011). El kit de herramientas de reconocimiento de voz Kaldi. En el taller IEEE 2011 sobre reconocimiento y comprensión automáticos del habla (n.º CONF). IEEE Signal Processing Society.
^ "Common Voice de Mozilla". voice.mozilla.org . Archivado desde el original el 27 de febrero de 2020 . Consultado el 9 de noviembre de 2019 .
^ "Una implementación de TensorFlow de la arquitectura DeepSpeech de Baidu: mozilla/DeepSpeech". 9 de noviembre de 2019. Archivado desde el original el 9 de septiembre de 2024. Consultado el 9 de septiembre de 2024 en GitHub.
^ "GitHub - tensorflow/docs: documentación de TensorFlow". 9 de noviembre de 2019. Archivado desde el original el 9 de septiembre de 2024. Consultado el 9 de septiembre de 2024 en GitHub.
^ "Coqui, una startup que ofrece tecnología de discurso abierto para todos". GitHub . Archivado desde el original el 9 de septiembre de 2024 . Consultado el 7 de marzo de 2022 .
^ Coffey, Donavyn (28 de abril de 2021). «Los maoríes están tratando de salvar su lengua de las grandes tecnológicas». Wired UK . ISSN 1357-0978. Archivado desde el original el 9 de septiembre de 2024. Consultado el 16 de octubre de 2021 .
^ "Por qué deberías pasar de DeepSpeech a coqui.ai". Mozilla Discourse . 7 de julio de 2021 . Consultado el 16 de octubre de 2021 .
^ "Escribe con tu voz". Archivado desde el original el 9 de septiembre de 2024. Consultado el 9 de septiembre de 2024 .

Lectura adicional

Cole, Ronald; Mariani, José ; Uszkoreit, Hans; Varile, Giovanni Battista; Zaenen, Annie; Zampolli; Zue, Víctor, eds. (1997). Estudio del estado del arte en tecnología del lenguaje humano . Estudios de Cambridge en procesamiento del lenguaje natural. vol. XII–XIII. Prensa de la Universidad de Cambridge. ISBN 978-0-521-59277-2.
Junqua, J.-C.; Haton, J.-P. (1995). Robustez en el reconocimiento automático de voz: fundamentos y aplicaciones . Kluwer Academic Publishers. ISBN 978-0-7923-9646-8.
Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007). "Tecnologías de interfaz conversacional". En Sears, Andrew ; Jacko, Julie A. (eds.). Manual de interacción hombre-ordenador: fundamentos, tecnologías en evolución y aplicaciones emergentes (Factores humanos y ergonomía) . Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
Pieraccini, Roberto (2012). La voz en la máquina. Construyendo computadoras que entienden el habla . The MIT Press. ISBN 978-0262016858.
Pirani, Giancarlo, ed. (2013). Algoritmos y arquitecturas avanzadas para la comprensión del habla . Springer Science & Business Media. ISBN 978-3-642-84341-9.
Signer, Beat; Hoste, Lode (diciembre de 2013). "SpeeG2: una interfaz basada en el habla y los gestos para la entrada de texto eficiente sin necesidad de controlador". Actas de ICMI 2013. 15.ª Conferencia internacional sobre interacción multimodal. Sídney, Australia.
Woelfel, Matthias; McDonough, John (26 de mayo de 2009). Reconocimiento de voz a distancia . Wiley. ISBN 978-0470517048.