stringtranslate.com

Reconocimiento de voz

El reconocimiento de voz es un subcampo interdisciplinario de la informática y la lingüística computacional que desarrolla metodologías y tecnologías que permiten el reconocimiento y la traducción del lenguaje hablado a texto mediante computadoras. También se le conoce como reconocimiento automático de voz ( ASR ), reconocimiento de voz por ordenador o voz a texto ( STT ). Incorpora conocimientos e investigaciones en los campos de la informática , la lingüística y la ingeniería informática . El proceso inverso es la síntesis del habla .

Algunos sistemas de reconocimiento de voz requieren "entrenamiento" (también llamado "inscripción") en el que un hablante individual lee texto o vocabulario aislado en el sistema. El sistema analiza la voz específica de la persona y la utiliza para afinar el reconocimiento del habla de esa persona, lo que da como resultado una mayor precisión. Los sistemas que no utilizan capacitación se denominan sistemas "independientes del hablante" [1] . Los sistemas que utilizan formación se denominan "dependientes del hablante".

Las aplicaciones de reconocimiento de voz incluyen interfaces de usuario de voz como marcación por voz (por ejemplo, "llamar a casa"), enrutamiento de llamadas (por ejemplo, "me gustaría hacer una llamada por cobrar"), control de aparatos domóticos , búsqueda de palabras clave (por ejemplo, encontrar un podcast donde se se hablaron), entrada simple de datos (por ejemplo, ingresar un número de tarjeta de crédito), preparación de documentos estructurados (por ejemplo, un informe de radiología), determinación de las características del hablante, [2] procesamiento de voz a texto (por ejemplo, procesadores de texto o correos electrónicos ), y aviones (generalmente denominado entrada de voz directa ). La evaluación automática de la pronunciación se utiliza en educación, por ejemplo, para el aprendizaje del lenguaje hablado.

El término reconocimiento de voz [3] [4] [5] o identificación del hablante [6] [7] [8] se refiere a identificar al hablante, en lugar de lo que está diciendo. Reconocer al hablante puede simplificar la tarea de traducir el habla en sistemas que han sido entrenados en la voz de una persona específica o puede usarse para autenticar o verificar la identidad de un hablante como parte de un proceso de seguridad.

Desde la perspectiva tecnológica, el reconocimiento de voz tiene una larga historia con varias oleadas de innovaciones importantes. Más recientemente, el campo se ha beneficiado de los avances en aprendizaje profundo y big data . Los avances se evidencian no sólo por el aumento de artículos académicos publicados en el campo, sino más importante aún por la adopción por parte de la industria mundial de una variedad de métodos de aprendizaje profundo en el diseño e implementación de sistemas de reconocimiento de voz.

Historia

Las áreas clave de crecimiento fueron: tamaño del vocabulario, independencia del hablante y velocidad de procesamiento.

Antes de 1970

Raj Reddy fue la primera persona en adoptar el reconocimiento continuo de voz como estudiante de posgrado en la Universidad de Stanford a finales de los años 1960. Los sistemas anteriores requerían que los usuarios hicieran una pausa después de cada palabra. El sistema de Reddy emitía comandos hablados para jugar al ajedrez .

Por esta época, los investigadores soviéticos inventaron el algoritmo de distorsión dinámica del tiempo (DTW) y lo utilizaron para crear un reconocedor capaz de operar con un vocabulario de 200 palabras. [15] DTW procesó la voz dividiéndola en cuadros cortos, por ejemplo, segmentos de 10 ms, y procesando cada cuadro como una sola unidad. Aunque DTW sería reemplazado por algoritmos posteriores, la técnica continuó. Lograr la independencia de los oradores seguía sin resolverse en este período.

1970-1990

A finales de la década de 1960 , Leonard Baum desarrolló las matemáticas de las cadenas de Markov en el Instituto de Análisis de Defensa . Una década más tarde, en CMU, los estudiantes de Raj Reddy, James Baker y Janet M. Baker, comenzaron a utilizar el modelo oculto de Markov (HMM) para el reconocimiento de voz. [20] James Baker había aprendido sobre los HMM en un trabajo de verano en el Instituto de Análisis de Defensa durante su educación universitaria. [21] El uso de HMM permitió a los investigadores combinar diferentes fuentes de conocimiento, como la acústica, el lenguaje y la sintaxis, en un modelo probabilístico unificado.

Reconocimiento de voz práctico

La década de 1980 también vio la introducción del modelo de lenguaje n-gram .

Gran parte del progreso en este campo se debe al rápido aumento de las capacidades de las computadoras. Al final del programa DARPA en 1976, la mejor computadora disponible para los investigadores era la PDP-10 con 4 MB de RAM. [28] Podría llevar hasta 100 minutos decodificar sólo 30 segundos de voz. [29]

Dos productos prácticos fueron:

En este punto, el vocabulario del típico sistema comercial de reconocimiento de voz era mayor que el vocabulario humano promedio. [28] El ex alumno de Raj Reddy, Xuedong Huang , desarrolló el sistema Sphinx-II en CMU. El sistema Sphinx-II fue el primero en ofrecer reconocimiento de voz continuo, amplio vocabulario e independiente del hablante y tuvo el mejor desempeño en la evaluación de DARPA de 1992. Manejar el habla continua con un amplio vocabulario fue un hito importante en la historia del reconocimiento de voz. Huang fundó el grupo de reconocimiento de voz en Microsoft en 1993. Kai-Fu Lee, alumno de Raj Reddy , se unió a Apple donde, en 1992, ayudó a desarrollar un prototipo de interfaz de voz para la computadora Apple conocida como Casper.

Lernout & Hauspie , una empresa de reconocimiento de voz con sede en Bélgica, adquirió varias otras empresas, entre ellas Kurzweil Applied Intelligence en 1997 y Dragon Systems en 2000. La tecnología de voz L&H se utilizó en el sistema operativo Windows XP . L&H fue líder de la industria hasta que un escándalo contable puso fin a la empresa en 2001. La tecnología de voz de L&H fue comprada por ScanSoft, que se convirtió en Nuance en 2005. Apple originalmente obtuvo la licencia de software de Nuance para proporcionar capacidad de reconocimiento de voz a su asistente digital Siri . [34]

2000

En la década de 2000, DARPA patrocinó dos programas de reconocimiento de voz: Voz a texto reutilizable, asequible y eficaz (EARS) en 2002 y Explotación global del lenguaje autónomo (GALE). En el programa EARS participaron cuatro equipos: IBM , equipo liderado por BBN con LIMSI y Univ. de Pittsburgh , la Universidad de Cambridge y un equipo compuesto por ICSI , SRI y la Universidad de Washington . EARS financió la recopilación del corpus de voz telefónica Switchboard que contiene 260 horas de conversaciones grabadas de más de 500 hablantes. [35] El programa GALE se centró en los discursos informativos transmitidos en árabe y mandarín . El primer esfuerzo de Google en materia de reconocimiento de voz se produjo en 2007 después de contratar a algunos investigadores de Nuance. [36] El primer producto fue GOOG-411 , un servicio de directorio telefónico. Las grabaciones de GOOG-411 produjeron datos valiosos que ayudaron a Google a mejorar sus sistemas de reconocimiento. La búsqueda por voz de Google ahora es compatible con más de 30 idiomas.

En Estados Unidos, la Agencia de Seguridad Nacional ha utilizado un tipo de reconocimiento de voz para detectar palabras clave desde al menos 2006. [37] Esta tecnología permite a los analistas buscar en grandes volúmenes de conversaciones grabadas y aislar menciones de palabras clave. Las grabaciones se pueden indexar y los analistas pueden realizar consultas en la base de datos para encontrar conversaciones de interés. Algunos programas de investigación gubernamentales se centraron en aplicaciones de inteligencia del reconocimiento de voz, por ejemplo, el programa EARS de DARPA y el programa Babel de IARPA .

A principios de la década de 2000, el reconocimiento de voz todavía estaba dominado por enfoques tradicionales como los modelos ocultos de Markov combinados con redes neuronales artificiales de avance . [38] Hoy en día, sin embargo, muchos aspectos del reconocimiento de voz han sido asumidos por un método de aprendizaje profundo llamado memoria a largo plazo (LSTM), una red neuronal recurrente publicada por Sepp Hochreiter y Jürgen Schmidhuber en 1997. [39] RNN de LSTM evita el problema del gradiente de desaparición y puede aprender tareas de "aprendizaje muy profundo" [40] que requieren recuerdos de eventos que sucedieron hace miles de pasos de tiempo discretos, lo cual es importante para el habla. Alrededor de 2007, LSTM entrenado por Clasificación Temporal Conexionista (CTC) [41] comenzó a superar el reconocimiento de voz tradicional en ciertas aplicaciones. [42] En 2015, el reconocimiento de voz de Google supuestamente experimentó un espectacular aumento en el rendimiento del 49% a través de LSTM entrenado por CTC, que ahora está disponible a través de Google Voice para todos los usuarios de teléfonos inteligentes. [43] Los transformadores , un tipo de red neuronal basada únicamente en la atención, han sido ampliamente adoptados en visión por computadora [44] [45] y modelado de lenguaje, [46] [47] despertando el interés de adaptar dichos modelos a nuevos dominios. incluido el reconocimiento de voz. [48] ​​[49] [50] Algunos artículos recientes informaron niveles de rendimiento superiores utilizando modelos de transformadores para el reconocimiento de voz, pero estos modelos generalmente requieren conjuntos de datos de entrenamiento a gran escala para alcanzar altos niveles de rendimiento.

El uso de redes de retroalimentación profunda (no recurrentes) para el modelado acústico fue introducido a finales de 2009 por Geoffrey Hinton y sus estudiantes de la Universidad de Toronto y por Li Deng [51] y colegas de Microsoft Research, inicialmente en el marco de la colaboración. trabajo entre Microsoft y la Universidad de Toronto que posteriormente se amplió para incluir a IBM y Google (de ahí el subtítulo "Las opiniones compartidas de cuatro grupos de investigación" en su artículo de revisión de 2012). [52] [53] [54] Un ejecutivo de investigación de Microsoft llamó a esta innovación "el cambio más dramático en precisión desde 1979". [55] En contraste con las mejoras incrementales constantes de las últimas décadas, la aplicación del aprendizaje profundo disminuyó la tasa de error de palabras en un 30%. [55] Esta innovación se adoptó rápidamente en todo el campo. Los investigadores también han comenzado a utilizar técnicas de aprendizaje profundo para modelar el lenguaje.

En la larga historia del reconocimiento de voz, tanto la forma superficial como la forma profunda (por ejemplo, redes recurrentes) de redes neuronales artificiales se habían explorado durante muchos años durante las décadas de 1980, 1990 y algunos años de la década de 2000. [56] [57] [58] Pero estos métodos nunca ganaron la tecnología del modelo de mezcla gaussiana / modelo oculto de Markov (GMM-HMM) de artesanía interna no uniforme basada en modelos generativos de habla entrenados discriminativamente. [59] En la década de 1990 se analizaron metodológicamente una serie de dificultades clave, incluida la disminución del gradiente [60] y una estructura de correlación temporal débil en los modelos predictivos neuronales. [61] [62] Todas estas dificultades se sumaron a la falta de grandes datos de entrenamiento y gran potencia informática en estos primeros días. Por lo tanto, la mayoría de los investigadores de reconocimiento de voz que entendieron tales barreras se alejaron posteriormente de las redes neuronales para buscar enfoques de modelado generativo hasta el reciente resurgimiento del aprendizaje profundo que comenzó alrededor de 2009-2010 y que superó todas estas dificultades. Hinton et al. y Deng et al. revisó parte de esta historia reciente sobre cómo su colaboración entre ellos y luego con colegas de cuatro grupos (Universidad de Toronto, Microsoft, Google e IBM) inició un renacimiento de las aplicaciones de redes neuronales de avance profundo para el reconocimiento de voz. [53] [54] [63] [64]

década de 2010

A principios de la década de 2010, el reconocimiento de voz , también llamado reconocimiento de voz [65] [66] [67] , se diferenciaba claramente del reconocimiento del hablante , y la independencia del hablante se consideraba un gran avance. Hasta entonces, los sistemas requerían un período de "formación". Un anuncio de 1987 de una muñeca llevaba el lema "Por fin, la muñeca que te entiende". – a pesar de que se describió como "que los niños podrían entrenar para responder a su voz". [12]

En 2017, los investigadores de Microsoft alcanzaron un hito histórico de paridad humana al transcribir el habla telefónica conversacional en la tarea Switchboard, ampliamente evaluada como punto de referencia. Se utilizaron múltiples modelos de aprendizaje profundo para optimizar la precisión del reconocimiento de voz. Se informó que la tasa de error de palabras en el reconocimiento de voz era tan baja como la de 4 transcriptores humanos profesionales trabajando juntos en el mismo punto de referencia, que fue financiado por el equipo de voz de IBM Watson en la misma tarea. [68]

Modelos, métodos y algoritmos.

Tanto el modelado acústico como el modelado del lenguaje son partes importantes de los algoritmos modernos de reconocimiento de voz con base estadística. Los modelos ocultos de Markov (HMM) se utilizan ampliamente en muchos sistemas. El modelado del lenguaje también se utiliza en muchas otras aplicaciones de procesamiento del lenguaje natural, como la clasificación de documentos o la traducción automática estadística .

Modelos ocultos de Markov

Los sistemas modernos de reconocimiento de voz de uso general se basan en modelos ocultos de Markov. Estos son modelos estadísticos que generan una secuencia de símbolos o cantidades. Los HMM se utilizan en el reconocimiento de voz porque una señal de voz puede verse como una señal estacionaria por partes o como una señal estacionaria de corta duración. En una escala de tiempo corta (por ejemplo, 10 milisegundos), el habla puede aproximarse a un proceso estacionario . Se puede considerar el habla como un modelo de Markov para muchos propósitos estocásticos.

Otra razón por la que los HMM son populares es que pueden entrenarse automáticamente y su uso es simple y computacionalmente factible. En el reconocimiento de voz, el modelo oculto de Markov generaría una secuencia de vectores de valores reales de n dimensiones (siendo n un número entero pequeño, como 10), generando uno de estos cada 10 milisegundos. Los vectores consistirían en coeficientes cepstrales , que se obtienen tomando una transformada de Fourier de una ventana de tiempo corta del habla y descorrelacionando el espectro usando una transformada coseno , luego tomando los primeros coeficientes (los más significativos). El modelo oculto de Markov tenderá a tener en cada estado una distribución estadística que es una mezcla de covarianzas diagonales gaussianas, lo que dará una probabilidad para cada vector observado. Cada palabra, o (para sistemas de reconocimiento de voz más generales), cada fonema , tendrá una distribución de salida diferente; Se crea un modelo de Markov oculto para una secuencia de palabras o fonemas concatenando los modelos de Markov ocultos entrenados individualmente para palabras y fonemas separados.

Anteriormente se describen los elementos centrales del enfoque de reconocimiento de voz más común basado en HMM. Los sistemas de reconocimiento de voz modernos utilizan varias combinaciones de una serie de técnicas estándar para mejorar los resultados con respecto al enfoque básico descrito anteriormente. Un sistema típico de gran vocabulario necesitaría dependencia del contexto para los fonemas (por lo que los fonemas con diferentes contextos izquierdo y derecho tienen diferentes realizaciones como dice HMM); usaría la normalización cepstral para normalizar para un hablante diferente y condiciones de grabación; para una mayor normalización del hablante, podría utilizar la normalización de la longitud del tracto vocal (VTLN) para la normalización hombre-mujer y la regresión lineal de máxima probabilidad (MLLR) para una adaptación más general del hablante. Las características tendrían los llamados coeficientes delta y delta-delta para capturar la dinámica del habla y, además, podrían utilizar análisis discriminante lineal heteroscedástico (HLDA); o podría omitir los coeficientes delta y delta-delta y utilizar empalme y una proyección basada en LDA seguida quizás de un análisis discriminante lineal heterocedástico o una transformación de covarianza semiligada global (también conocida como transformación lineal de máxima verosimilitud o MLLT). Muchos sistemas utilizan las llamadas técnicas de entrenamiento discriminativo que prescinden de un enfoque puramente estadístico para la estimación de parámetros HMM y en su lugar optimizan alguna medida de los datos de entrenamiento relacionada con la clasificación. Algunos ejemplos son información mutua máxima (MMI), error de clasificación mínimo (MCE) y error telefónico mínimo (MPE).

La decodificación del discurso (el término para lo que sucede cuando al sistema se le presenta una nueva expresión y debe calcular la oración fuente más probable) probablemente usaría el algoritmo de Viterbi para encontrar el mejor camino, y aquí hay una opción entre crear dinámicamente un Combinación del modelo oculto de Markov, que incluye información del modelo acústico y del lenguaje y la combina estáticamente de antemano (el enfoque del transductor de estado finito , o FST).

Una posible mejora en la decodificación es mantener un conjunto de buenos candidatos en lugar de simplemente mantener al mejor candidato, y utilizar una mejor función de puntuación (repuntuación) para calificar a estos buenos candidatos de modo que podamos elegir el mejor de acuerdo con esta puntuación refinada. . El conjunto de candidatos se puede mantener como una lista (el enfoque de la lista N-mejor) o como un subconjunto de los modelos (una red ). La re-puntuación generalmente se realiza tratando de minimizar el riesgo de Bayes [69] (o una aproximación del mismo): en lugar de tomar la oración fuente con la máxima probabilidad, intentamos tomar la oración que minimiza la expectativa de una función de pérdida dada con respecto a todas las transcripciones posibles (es decir, tomamos la oración que minimiza la distancia promedio a otras oraciones posibles ponderadas por su probabilidad estimada). La función de pérdida suele ser la distancia de Levenshtein , aunque pueden ser distancias diferentes para tareas específicas; el conjunto de posibles transcripciones, por supuesto, se poda para mantener la manejabilidad. Se han ideado algoritmos eficientes para volver a calificar redes representadas como transductores de estado finito ponderados con distancias de edición representadas como un transductor de estado finito que verifica ciertas suposiciones. [70]

Reconocimiento de voz basado en distorsión dinámica del tiempo (DTW)

La distorsión dinámica del tiempo es un enfoque que históricamente se utilizó para el reconocimiento de voz, pero que ahora ha sido desplazado en gran medida por el enfoque más exitoso basado en HMM.

La distorsión dinámica del tiempo es un algoritmo para medir la similitud entre dos secuencias que pueden variar en tiempo o velocidad. Por ejemplo, se detectarían similitudes en los patrones de marcha, incluso si en un vídeo la persona caminaba lentamente y en otro caminaba más rápido, o incluso si había aceleraciones y desaceleraciones durante el transcurso de una observación. DTW se ha aplicado a vídeo, audio y gráficos; de hecho, cualquier dato que pueda convertirse en una representación lineal se puede analizar con DTW.

Una aplicación muy conocida ha sido el reconocimiento automático de voz, para hacer frente a diferentes velocidades de habla. En general, es un método que permite a una computadora encontrar una coincidencia óptima entre dos secuencias dadas (por ejemplo, series de tiempo) con ciertas restricciones. Es decir, las secuencias se "deforman" de forma no lineal para que coincidan entre sí. Este método de alineación de secuencias se utiliza a menudo en el contexto de modelos ocultos de Markov.

Redes neuronales

Las redes neuronales surgieron como un enfoque atractivo de modelado acústico en ASR a finales de los años 1980. Desde entonces, las redes neuronales se han utilizado en muchos aspectos del reconocimiento de voz, como la clasificación de fonemas, [71] clasificación de fonemas mediante algoritmos evolutivos multiobjetivo, [72] reconocimiento de palabras aisladas, [73] reconocimiento de voz audiovisual , reconocimiento de locutor audiovisual y reconocimiento de locutor. adaptación.

Las redes neuronales hacen menos suposiciones explícitas sobre las propiedades estadísticas de las características que los HMM y tienen varias cualidades que las convierten en modelos de reconocimiento atractivos para el reconocimiento de voz. Cuando se utilizan para estimar las probabilidades de un segmento de característica del habla, las redes neuronales permiten un entrenamiento discriminativo de manera natural y eficiente. Sin embargo, a pesar de su eficacia para clasificar unidades de tiempo corto, como fonemas individuales y palabras aisladas, [74] las primeras redes neuronales rara vez tuvieron éxito en tareas de reconocimiento continuo debido a su capacidad limitada para modelar dependencias temporales.

Un enfoque para esta limitación fue utilizar redes neuronales como un paso de preprocesamiento, transformación de características o reducción de dimensionalidad, [75] antes del reconocimiento basado en HMM. Sin embargo, más recientemente, LSTM y redes neuronales recurrentes (RNN) relacionadas, [39] [43] [76] [77] redes neuronales de retardo de tiempo (TDNN), [78] y transformadores [48] [49] [50] han demostró un mejor desempeño en esta área.

Redes neuronales recurrentes y de avance profundo

También se están investigando las redes neuronales profundas y los codificadores automáticos de eliminación de ruido [79] . Una red neuronal de avance profundo (DNN) es una red neuronal artificial con múltiples capas ocultas de unidades entre las capas de entrada y salida. [53] Al igual que las redes neuronales poco profundas, las DNN pueden modelar relaciones complejas no lineales. Las arquitecturas DNN generan modelos compositivos, donde capas adicionales permiten la composición de características de capas inferiores, lo que brinda una enorme capacidad de aprendizaje y, por lo tanto, el potencial de modelar patrones complejos de datos de voz. [80]

En 2010, investigadores industriales, en colaboración con investigadores académicos, lograron un éxito de las DNN en el reconocimiento de voz de vocabulario amplio, donde se adoptaron grandes capas de salida de las DNN basadas en estados HMM dependientes del contexto construidos mediante árboles de decisión. [81] [82] [83] Consulte revisiones completas de este desarrollo y del estado del arte a partir de octubre de 2014 en el reciente libro Springer de Microsoft Research. [84] Véase también los antecedentes relacionados del reconocimiento automático de voz y el impacto de varios paradigmas de aprendizaje automático, en particular el aprendizaje profundo , en artículos de descripción general recientes. [85] [86]

Un principio fundamental del aprendizaje profundo es eliminar la ingeniería de funciones hecha a mano y utilizar funciones sin procesar. Este principio se exploró con éxito por primera vez en la arquitectura del codificador automático profundo en el espectrograma "sin procesar" o en las características del banco de filtros lineales, [87] mostrando su superioridad sobre las características de Mel-Cepstral que contienen algunas etapas de transformación fija a partir de espectrogramas. Más recientemente se ha demostrado que las verdaderas características "brutas" del habla, las formas de onda, producen excelentes resultados de reconocimiento de voz a mayor escala. [88]

Reconocimiento de voz automático de extremo a extremo

Desde 2014, ha habido mucho interés de investigación en ASR "de extremo a extremo". Los enfoques tradicionales basados ​​en fonética (es decir, todos los modelos basados ​​en HMM ) requerían componentes separados y capacitación para el modelo de pronunciación, acústico y de lenguaje . Los modelos de un extremo a otro aprenden conjuntamente todos los componentes del reconocedor de voz. Esto es valioso ya que simplifica el proceso de capacitación y el proceso de implementación. Por ejemplo, se requiere un modelo de lenguaje n-gram para todos los sistemas basados ​​en HMM, y un modelo de lenguaje n-gram típico a menudo ocupa varios gigabytes de memoria, lo que hace que su implementación en dispositivos móviles no sea práctica. [89] En consecuencia, los sistemas ASR comerciales modernos de Google y Apple (a partir de 2017 ) se implementan en la nube y requieren una conexión de red en lugar del dispositivo local.

El primer intento de ASR de extremo a extremo fue con sistemas basados ​​en Clasificación Temporal Conexionista (CTC) introducidos por Alex Graves de Google DeepMind y Navdeep Jaitly de la Universidad de Toronto en 2014. [90] El modelo consistía en redes neuronales recurrentes y una capa de CTC. En conjunto, el modelo RNN-CTC aprende la pronunciación y el modelo acústico juntos, sin embargo, es incapaz de aprender el idioma debido a supuestos de independencia condicional similares a un HMM. En consecuencia, los modelos CTC pueden aprender directamente a asignar la acústica del habla a los caracteres ingleses, pero los modelos cometen muchos errores ortográficos comunes y deben depender de un modelo de lenguaje independiente para limpiar las transcripciones. Posteriormente, Baidu amplió su trabajo con conjuntos de datos extremadamente grandes y demostró cierto éxito comercial en chino mandarín e inglés. [91] En 2016, la Universidad de Oxford presentó LipNet , [92] el primer modelo de lectura de labios a nivel de oración de un extremo a otro, que utiliza convoluciones espaciotemporales junto con una arquitectura RNN-CTC, superando el rendimiento a nivel humano en un conjunto de datos gramaticales restringidos. [93] Google DeepMind presentó en 2018 una arquitectura CNN-RNN-CTC a gran escala que logró un rendimiento 6 veces mejor que el de los expertos humanos. [94]

Un enfoque alternativo a los modelos basados ​​en CTC son los modelos basados ​​en la atención. Los modelos ASR basados ​​en la atención fueron introducidos simultáneamente por Chan et al. de la Universidad Carnegie Mellon y Google Brain y Bahdanau et al. de la Universidad de Montreal en 2016. [95] [96] El modelo denominado "Listen, Attend and Spell" (LAS), literalmente "escucha" la señal acústica, presta "atención" a diferentes partes de la señal y "deletrea" " saca la transcripción un carácter a la vez. A diferencia de los modelos basados ​​en CTC, los modelos basados ​​en la atención no tienen suposiciones de independencia condicional y pueden aprender todos los componentes de un reconocedor de voz, incluido el modelo de pronunciación, acústico y de lenguaje directamente. Esto significa que, durante la implementación, no es necesario llevar consigo un modelo de lenguaje, lo que lo hace muy práctico para aplicaciones con memoria limitada. A finales de 2016, los modelos basados ​​en la atención habían tenido un éxito considerable, incluso superando a los modelos CTC (con o sin un modelo de lenguaje externo). [97] Se han propuesto varias extensiones desde el modelo LAS original. La Descomposición de Secuencia Latente (LSD) fue propuesta por la Universidad Carnegie Mellon , el MIT y Google Brain para emitir directamente unidades de subpalabras que son más naturales que los caracteres ingleses; [98] La Universidad de Oxford y Google DeepMind ampliaron LAS a "Watch, Listen, Attend and Spell" (WLAS) para manejar la lectura de labios superando el rendimiento a nivel humano. [99]

Aplicaciones

Sistemas en el coche

Normalmente, una entrada de control manual, por ejemplo mediante un control digital en el volante, activa el sistema de reconocimiento de voz y esto se indica al conductor mediante un mensaje de audio. Después del mensaje de audio, el sistema tiene una "ventana de escucha" durante la cual puede aceptar una entrada de voz para su reconocimiento. [ cita necesaria ]

Se pueden usar comandos de voz simples para iniciar llamadas telefónicas, seleccionar estaciones de radio o reproducir música desde un teléfono inteligente, un reproductor de MP3 o una unidad flash con música compatible. Las capacidades de reconocimiento de voz varían según la marca y el modelo de automóvil. Algunos de los más recientes [ ¿cuándo? ] Los modelos de automóviles ofrecen reconocimiento de voz en lenguaje natural en lugar de un conjunto fijo de comandos, lo que permite al conductor utilizar oraciones completas y frases comunes. Por lo tanto, con tales sistemas no es necesario que el usuario memorice un conjunto de palabras de comando fijas. [ cita necesaria ]

Educación

La evaluación automática de la pronunciación es el uso del reconocimiento de voz para verificar la corrección del habla pronunciada, [100] a diferencia de la evaluación manual realizada por un instructor o supervisor. [101] También llamada verificación del habla, evaluación de la pronunciación y puntuación de la pronunciación, la principal aplicación de esta tecnología es la enseñanza de la pronunciación asistida por computadora (CAPT) cuando se combina con instrucción asistida por computadora para el aprendizaje de idiomas asistido por computadora (CALL), corrección del habla , o reducción de acento . La evaluación de la pronunciación no determina el habla desconocida (como en el dictado o la transcripción automática ), sino que, conociendo de antemano las palabras esperadas, intenta verificar la corrección de la pronunciación del alumno e idealmente su inteligibilidad para los oyentes, [102] [103 ] a veces junto con una prosodia a menudo intrascendente como la entonación , el tono , el tempo , el ritmo y el acento . [104] La evaluación de la pronunciación también se utiliza en la tutoría de lectura , por ejemplo, en productos como Microsoft Teams [105] y de Amira Learning. [106] La evaluación automática de la pronunciación también se puede utilizar para ayudar a diagnosticar y tratar trastornos del habla como la apraxia . [107]

Evaluar la inteligibilidad auténtica del oyente es esencial para evitar imprecisiones debidas al sesgo del acento , especialmente en evaluaciones de alto riesgo; [108] [109] [110] de palabras con múltiples pronunciaciones correctas; [111] y de errores de codificación de fonemas en diccionarios de pronunciación legibles por máquina. [112] En 2022, los investigadores descubrieron que algunos sistemas de conversión de voz a texto más nuevos, basados ​​en el aprendizaje por refuerzo de un extremo a otro para mapear señales de audio directamente en palabras, producen puntuaciones de confianza en palabras y frases muy estrechamente correlacionadas con la inteligibilidad genuina del oyente. [113] En los criterios de evaluación del Marco Común Europeo de Referencia para las Lenguas (MCER) para el "control fonológico general", la inteligibilidad pesa más que la pronunciación formalmente correcta en todos los niveles. [114]

Cuidado de la salud

Documentación médica

En el sector de la atención médica , el reconocimiento de voz se puede implementar al principio o al final del proceso de documentación médica. El reconocimiento de voz frontal es donde el proveedor dicta en un motor de reconocimiento de voz, las palabras reconocidas se muestran a medida que se pronuncian y el dictador es responsable de editar y aprobar el documento. El reconocimiento de voz diferido o back-end es donde el proveedor dicta en un sistema de dictado digital , la voz se enruta a través de una máquina de reconocimiento de voz y el documento borrador reconocido se enruta junto con el archivo de voz original al editor, donde se edita el borrador. y informe finalizado. El reconocimiento de voz diferido se utiliza ampliamente en la industria actualmente.

Uno de los principales problemas relacionados con el uso del reconocimiento de voz en la atención médica es que la Ley Estadounidense de Recuperación y Reinversión de 2009 ( ARRA ) proporciona beneficios financieros sustanciales a los médicos que utilizan un EMR de acuerdo con los estándares de "uso significativo". Estos estándares requieren que el EMR (ahora más comúnmente conocido como Registro Médico Electrónico o EHR) mantenga una cantidad sustancial de datos . El uso del reconocimiento de voz se adapta más naturalmente a la generación de texto narrativo, como parte de una interpretación de radiología/patología, nota de progreso o resumen de alta: las ventajas ergonómicas de usar el reconocimiento de voz para ingresar datos estructurados discretos (p. ej., valores numéricos o códigos de una lista o de un vocabulario controlado ) son relativamente mínimos para las personas que pueden ver y que pueden utilizar un teclado y un ratón.

Un problema más importante es que la mayoría de los EHR no se han diseñado expresamente para aprovechar las capacidades de reconocimiento de voz. Una gran parte de la interacción del médico con el EHR implica la navegación a través de la interfaz de usuario mediante menús y clics en pestañas/botones, y depende en gran medida del teclado y el mouse: la navegación basada en voz proporciona solo beneficios ergonómicos modestos. Por el contrario, muchos sistemas altamente personalizados para dictado de radiología o patología implementan "macros" de voz, donde el uso de ciertas frases (por ejemplo, "informe normal") completará automáticamente una gran cantidad de valores predeterminados y/o generará un texto estándar, que varían según el tipo de examen, por ejemplo, una radiografía de tórax frente a una serie de contraste gastrointestinal para un sistema de radiología.

Uso terapéutico

El uso prolongado de software de reconocimiento de voz junto con procesadores de texto ha demostrado beneficios para el fortalecimiento de la memoria a corto plazo en pacientes con MAV cerebral que han sido tratados con resección . Es necesario realizar más investigaciones para determinar los beneficios cognitivos para las personas cuyas MAV han sido tratadas mediante técnicas radiológicas. [ cita necesaria ]

Militar

Aviones de combate de alto rendimiento

En la última década se han dedicado esfuerzos sustanciales a la prueba y evaluación del reconocimiento de voz en aviones de combate . De particular interés han sido el programa estadounidense de reconocimiento de voz para el avión Advanced Fighter Technology Integration (AFTI) / F-16 ( F-16 VISTA ), el programa en Francia para el avión Mirage y otros programas en el Reino Unido que se ocupan de una variedad de de plataformas de aviones. En estos programas, los reconocedores de voz se han utilizado con éxito en aviones de combate, con aplicaciones que incluyen la configuración de frecuencias de radio, el control de un sistema de piloto automático, el establecimiento de coordenadas de puntos de dirección y parámetros de lanzamiento de armas, y el control de la visualización de vuelo.

Trabajando con pilotos suecos que volaban en la cabina del JAS-39 Gripen, Englund (2004) encontró que el reconocimiento se deterioraba con el aumento de las cargas G. El informe también concluyó que la adaptación mejoró enormemente los resultados en todos los casos y que se demostró que la introducción de modelos de respiración mejoraba significativamente las puntuaciones de reconocimiento. Contrariamente a lo que se podría esperar, no se encontraron efectos del inglés deficiente de los hablantes. Era evidente que el habla espontánea causaba problemas al reconocedor, como era de esperar. Por tanto, se podría esperar que un vocabulario restringido y, sobre todo, una sintaxis adecuada mejoraran sustancialmente la precisión del reconocimiento. [115]

El Eurofighter Typhoon , actualmente en servicio con la RAF del Reino Unido , emplea un sistema dependiente del altavoz, lo que requiere que cada piloto cree una plantilla. El sistema no se utiliza para ninguna tarea crítica para la seguridad o para las armas, como soltar el arma o bajar el tren de aterrizaje, pero se utiliza para una amplia gama de otras funciones de la cabina. Los comandos de voz se confirman mediante retroalimentación visual y/o auditiva. El sistema se considera una característica de diseño importante en la reducción de la carga de trabajo del piloto , [116] e incluso permite al piloto asignar objetivos a su avión con dos simples comandos de voz o a cualquiera de sus compañeros con solo cinco comandos. [117]

También se están desarrollando y probando sistemas independientes de los altavoces para el F35 Lightning II (JSF) y el entrenador de combate principal Alenia Aermacchi M-346 Master . Estos sistemas han producido puntuaciones de precisión de palabras superiores al 98%. [118]

Helicópteros

Los problemas de lograr una alta precisión de reconocimiento bajo estrés y ruido son particularmente relevantes en el entorno de los helicópteros así como en el entorno de los aviones de combate. El problema del ruido acústico es en realidad más grave en el entorno de los helicópteros, no sólo por los altos niveles de ruido sino también porque el piloto del helicóptero, en general, no lleva mascarilla , lo que reduciría el ruido acústico en el micrófono . En la última década se han llevado a cabo importantes programas de prueba y evaluación de aplicaciones de sistemas de reconocimiento de voz en helicópteros, en particular por parte de la Actividad de Investigación y Desarrollo de Aviónica del Ejército de los EE. UU . (AVRADA) y del Royal Aerospace Establishment ( RAE ) del Reino Unido. Los trabajos en Francia han incluido el reconocimiento de voz en el helicóptero Puma . También se han realizado muchos trabajos útiles en Canadá . Los resultados han sido alentadores y las aplicaciones de voz han incluido: control de radios de comunicación, configuración de sistemas de navegación y control de un sistema automatizado de traspaso de objetivos.

Al igual que en las aplicaciones de combate, la cuestión primordial de la voz en los helicópteros es el impacto en la eficacia del piloto. Se reportan resultados alentadores para las pruebas AVRADA, aunque representan sólo una demostración de viabilidad en un entorno de prueba. Queda mucho por hacer tanto en el reconocimiento de voz como en la tecnología del habla en general para lograr mejoras consistentes en el rendimiento en entornos operativos.

Formación de controladores de tránsito aéreo.

La formación de controladores de tránsito aéreo (ATC) representa una excelente aplicación para los sistemas de reconocimiento de voz. Muchos sistemas de formación ATC actualmente requieren que una persona actúe como "pseudopiloto", entablando un diálogo de voz con el controlador en formación, que simula el diálogo que el controlador tendría que mantener con los pilotos en una situación real de ATC. Las técnicas de síntesis y reconocimiento de voz ofrecen el potencial de eliminar la necesidad de que una persona actúe como pseudopiloto, reduciendo así la capacitación y el personal de apoyo. En teoría, las tareas de los controladores aéreos también se caracterizan por un habla altamente estructurada como salida principal del controlador, por lo que debería ser posible reducir la dificultad de la tarea de reconocimiento de voz. En la práctica, esto rara vez ocurre. El documento 7110.65 de la FAA detalla las frases que deben utilizar los controladores de tránsito aéreo. Si bien este documento proporciona menos de 150 ejemplos de este tipo de frases, el número de frases admitidas por uno de los sistemas de reconocimiento de voz de uno de los proveedores de simulación supera las 500.000.

La USAF, el USMC, el Ejército de los EE. UU., la Marina de los EE. UU. y la FAA, así como una serie de organizaciones internacionales de capacitación ATC, como la Real Fuerza Aérea Australiana y las autoridades de aviación civil en Italia, Brasil y Canadá, están utilizando actualmente simuladores ATC con reconocimiento de voz de varios proveedores diferentes. [ cita necesaria ]

Telefonía y otros dominios

ASR es ahora algo común en el campo de la telefonía y cada vez está más extendido en el campo de los juegos de ordenador y la simulación. En los sistemas de telefonía, ASR se utiliza ahora predominantemente en centros de contacto integrándolo con sistemas IVR . A pesar del alto nivel de integración con el procesamiento de textos en la informática personal en general, en el campo de la producción de documentos, ASR no ha experimentado los aumentos esperados en su uso.

La mejora de las velocidades de los procesadores móviles ha hecho que el reconocimiento de voz sea práctico en los teléfonos inteligentes . La voz se utiliza principalmente como parte de una interfaz de usuario, para crear comandos de voz predefinidos o personalizados.

Gente con discapacidades

Las personas con discapacidad pueden beneficiarse de los programas de reconocimiento de voz. Para las personas sordas o con problemas de audición, el software de reconocimiento de voz se utiliza para generar automáticamente subtítulos de conversaciones, como discusiones en salas de conferencias, conferencias en el aula y/o servicios religiosos. [119]

Los estudiantes ciegos (ver Ceguera y educación ) o que tienen muy baja visión pueden beneficiarse del uso de la tecnología para transmitir palabras y luego escuchar a la computadora recitarlas, así como también usar una computadora ordenando con su voz, en lugar de tener que mirar. la pantalla y el teclado. [120]

Los estudiantes con discapacidad física que tienen una lesión por esfuerzo repetitivo u otras lesiones en las extremidades superiores pueden liberarse de tener que preocuparse por escribir a mano, mecanografiar o trabajar con escribas en las tareas escolares mediante el uso de programas de conversión de voz a texto. También pueden utilizar la tecnología de reconocimiento de voz para disfrutar de la búsqueda en Internet o usar una computadora en casa sin tener que operar físicamente un mouse y un teclado. [120]

El reconocimiento de voz puede permitir que los estudiantes con dificultades de aprendizaje se conviertan en mejores escritores. Al decir las palabras en voz alta, pueden aumentar la fluidez de su escritura y aliviar las preocupaciones relacionadas con la ortografía, la puntuación y otras mecánicas de la escritura. [121] Véase también Discapacidad de aprendizaje .

El uso de software de reconocimiento de voz, junto con una grabadora de audio digital y una computadora personal con software de procesamiento de textos, ha demostrado ser positivo para restaurar la capacidad de memoria a corto plazo dañada en personas con accidente cerebrovascular y craneotomía.

El reconocimiento de voz también es muy útil para las personas que tienen dificultades para usar las manos, desde lesiones leves por estrés repetitivo hasta discapacidades que impiden el uso de dispositivos de entrada de computadora convencionales. De hecho, las personas que usaban mucho el teclado y desarrollaron RSI se convirtieron en un mercado urgente para el reconocimiento de voz. [122] [123] El reconocimiento de voz se utiliza en telefonía para sordos , como correo de voz a texto, servicios de retransmisión y teléfono con subtítulos . Las personas con problemas de aprendizaje que tienen problemas con la comunicación del pensamiento al papel (esencialmente piensan en una idea pero se procesa incorrectamente, lo que hace que termine de manera diferente en el papel) posiblemente puedan beneficiarse del software, pero la tecnología no es a prueba de errores. [124] Además, la idea de hablar con texto puede ser difícil para las personas con discapacidad intelectual debido al hecho de que es raro que alguien intente aprender la tecnología para enseñar a la persona con discapacidad. [125]

Este tipo de tecnología puede ayudar a las personas con dislexia, pero otras discapacidades aún están en duda. La eficacia del producto es el problema que impide que sea eficaz. Aunque un niño puede decir una palabra dependiendo de qué tan claramente la diga, la tecnología puede pensar que está diciendo otra palabra e ingresar la incorrecta. Les da más trabajo para corregir, lo que hace que tengan que dedicar más tiempo a corregir la palabra equivocada. [126]

Otras aplicaciones

Actuación

El rendimiento de los sistemas de reconocimiento de voz suele evaluarse en términos de precisión y velocidad. [131] [132] La precisión generalmente se clasifica con la tasa de error de palabras (WER), mientras que la velocidad se mide con el factor de tiempo real. Otras medidas de precisión incluyen la tasa de error de una sola palabra (SWER) y la tasa de éxito de comandos (CSR).

Sin embargo, el reconocimiento de voz por máquina es un problema muy complejo. Las vocalizaciones varían en términos de acento, pronunciación, articulación, aspereza, nasalidad, tono, volumen y velocidad. El habla se distorsiona por el ruido de fondo y los ecos, características eléctricas. La precisión del reconocimiento de voz puede variar según lo siguiente: [133] [ cita necesaria ]

Exactitud

Como se mencionó anteriormente en este artículo, la precisión del reconocimiento de voz puede variar según los siguientes factores:

por ejemplo, los 10 dígitos "cero" a "nueve" se pueden reconocer prácticamente perfectamente, pero tamaños de vocabulario de 200, 5000 o 100000 pueden tener tasas de error del 3%, 7% o 45% respectivamente.
por ejemplo, las 26 letras del alfabeto inglés son difíciles de discriminar porque son palabras confusas (más notoriamente, el conjunto E: "B, C, D, E, G, P, T, V, Z - cuando "Z" es pronunciado "zee" en lugar de "zed" dependiendo de la región inglesa); una tasa de error del 8% se considera buena para este vocabulario. [134]
Un sistema dependiente del hablante está diseñado para ser utilizado por un solo hablante.
Un sistema independiente del hablante está diseñado para que lo utilice cualquier hablante (más difícil).
En el habla aislada se utilizan palabras sueltas, por lo que resulta más fácil reconocer el habla.

En el habla discontinua se utilizan frases completas separadas por silencio, por lo que resulta más fácil reconocer el habla tanto como en el habla aislada.
En el habla continua se utilizan frases habladas de forma natural, por lo que resulta más difícil reconocer el habla, a diferencia del habla aislada y discontinua.

Las restricciones suelen estar representadas por la gramática.

El reconocimiento de voz es una tarea de reconocimiento de patrones de varios niveles.

por ejemplo, pronunciaciones de palabras conocidas o secuencias de palabras legales, que pueden compensar errores o incertidumbres en un nivel inferior;

Para conversaciones telefónicas, la velocidad de muestreo es de 8.000 muestras por segundo;

calculado cada 10 ms, con una sección de 10 ms llamada trama;

El análisis de los enfoques de redes neuronales de cuatro pasos se puede explicar con más información. El sonido se produce por la vibración del aire (o de algún otro medio), que registramos con los oídos, pero las máquinas, con los receptores. El sonido básico crea una onda que tiene dos descripciones: amplitud (qué tan fuerte es) y frecuencia (con qué frecuencia vibra por segundo). La precisión se puede calcular con la ayuda de la tasa de error de palabras (WER). La tasa de error de palabras se puede calcular alineando la palabra reconocida y la palabra referenciada mediante la alineación dinámica de cadenas. El problema puede ocurrir al calcular la tasa de error de palabras debido a la diferencia entre las longitudes de secuencia de la palabra reconocida y la palabra referenciada.

La fórmula para calcular la tasa de error de palabras (WER) es:

donde s es el número de sustituciones, d es el número de eliminaciones, i es el número de inserciones y n es el número de referencias de palabras.

Durante la computación, se utiliza la tasa de reconocimiento de palabras (WRR). La fórmula es:

donde h es el número de palabras reconocidas correctamente:

Preocupaciones de seguridad

El reconocimiento de voz puede convertirse en un medio de ataque, robo o operación accidental. Por ejemplo, palabras de activación como "Alexa" pronunciadas en una transmisión de audio o video pueden hacer que los dispositivos en hogares y oficinas comiencen a escuchar entradas de manera inapropiada o posiblemente realicen una acción no deseada. [135] Los dispositivos controlados por voz también son accesibles para los visitantes del edificio, o incluso para aquellos que se encuentran fuera del edificio si se pueden escuchar en el interior. Los atacantes pueden obtener acceso a información personal, como calendario, contenido de la libreta de direcciones, mensajes privados y documentos. También podrán hacerse pasar por el usuario para enviar mensajes o realizar compras en línea.

Se han demostrado dos ataques que utilizan sonidos artificiales. Uno transmite ultrasonidos e intenta enviar comandos sin que las personas cercanas se den cuenta. [136] El otro agrega pequeñas distorsiones inaudibles a otras palabras o música que están especialmente diseñadas para confundir el sistema de reconocimiento de voz específico y hacer que reconozca la música como voz, o para hacer que lo que suena como una orden para un humano suene como una orden diferente para el otro. sistema. [137]

Más información

Congresos y revistas

Las conferencias populares sobre reconocimiento de voz que se celebran cada uno o dos años incluyen SpeechTEK y SpeechTEK Europe, ICASSP , Interspeech/Eurospeech y IEEE ASRU. Las conferencias en el campo del procesamiento del lenguaje natural , como ACL , NAACL , EMNLP y HLT, están comenzando a incluir artículos sobre el procesamiento del habla . Las revistas importantes incluyen IEEE Transactions on Speech and Audio Processing (más tarde renombrada IEEE Transactions on Audio, Speech and Language Processing y desde septiembre de 2014 renombrada IEEE /ACM Transactions on Audio, Speech and Language Processing, después de fusionarse con una publicación de ACM), Computer Speech y Lenguaje y Comunicación del Habla.

Libros

Libros como "Fundamentos del reconocimiento de voz" de Lawrence Rabiner pueden resultar útiles para adquirir conocimientos básicos pero es posible que no estén totalmente actualizados (1993). Otra buena fuente puede ser "Statistical Methods for Speech Recognition" de Frederick Jelinek y "Spoken Language Processing (2001)" de Xuedong Huang , etc., "Computer Speech", de Manfred R. Schroeder , segunda edición publicada en 2004, y "Speech Processing: A Dynamic and Optimization-Oriented Approach", publicado en 2003 por Li Deng y Doug O'Shaughnessey. El libro de texto actualizado Speech and Language Processing (2008) de Jurafsky y Martin presenta los conceptos básicos y el estado del arte de ASR. El reconocimiento de locutor también utiliza las mismas características, la mayoría del mismo procesamiento frontal y técnicas de clasificación que se realizan en el reconocimiento de voz. Un libro de texto completo, "Fundamentos del reconocimiento del hablante" es una fuente detallada de detalles actualizados sobre la teoría y la práctica. [138] Se puede obtener una buena idea de las técnicas utilizadas en los mejores sistemas modernos prestando atención a las evaluaciones patrocinadas por el gobierno, como las organizadas por DARPA (el mayor proyecto relacionado con el reconocimiento de voz en curso en 2007 es el proyecto GALE, que involucra componentes de reconocimiento de voz y de traducción).

Una buena y accesible introducción a la tecnología de reconocimiento de voz y su historia la proporciona el libro para público general "La voz en la máquina. Construyendo computadoras que entiendan el habla" de Roberto Pieraccini (2012).

El libro más reciente sobre reconocimiento de voz es Reconocimiento automático de voz: un enfoque de aprendizaje profundo (Editorial: Springer) escrito por los investigadores de Microsoft D. Yu y L. Deng y publicado a finales de 2014, con detalles técnicos altamente orientados matemáticamente sobre cómo funciona el aprendizaje profundo. Los métodos se derivan e implementan en sistemas modernos de reconocimiento de voz basados ​​en DNN y métodos de aprendizaje profundo relacionados. [84] Un libro relacionado, publicado a principios de 2014, "Aprendizaje profundo: métodos y aplicaciones" de L. Deng y D. Yu proporciona una descripción general menos técnica pero más centrada en la metodología del reconocimiento de voz basado en DNN durante 2009-2014, ubicado dentro del contexto más general de las aplicaciones de aprendizaje profundo, que incluyen no solo el reconocimiento de voz sino también el reconocimiento de imágenes, el procesamiento del lenguaje natural, la recuperación de información, el procesamiento multimodal y el aprendizaje multitarea. [80]

Software

En términos de recursos disponibles gratuitamente, el kit de herramientas Sphinx de la Universidad Carnegie Mellon es un lugar para comenzar a aprender sobre el reconocimiento de voz y comenzar a experimentar. Otro recurso (gratuito pero con derechos de autor) es el libro HTK (y el kit de herramientas HTK que lo acompaña). Para técnicas más recientes y de última generación, se puede utilizar el kit de herramientas Kaldi . [139] En 2017, Mozilla lanzó el proyecto de código abierto llamado Common Voice [140] para recopilar una gran base de datos de voces que ayudaría a construir el proyecto de reconocimiento de voz gratuito DeepSpeech (disponible de forma gratuita en GitHub ), [141] utilizando la plataforma de código abierto de Google, TensorFlow . [142] Cuando Mozilla desvió la financiación del proyecto en 2020, sus desarrolladores originales lo bifurcaron como Coqui STT [143] utilizando la misma licencia de código abierto. [144] [145]

Google Gboard admite el reconocimiento de voz en todas las aplicaciones de Android . Se puede activar a través del icono del micrófono . [146]

Las API comerciales de reconocimiento de voz basadas en la nube están ampliamente disponibles.

Para obtener más recursos de software, consulte Lista de software de reconocimiento de voz .

Ver también

Liza

Referencias

  1. ^ "Reconocimiento de voz conectado independiente del hablante: Fifth Generation Computer Corporation". Fifthgen.com. Archivado desde el original el 11 de noviembre de 2013 . Consultado el 15 de junio de 2013 .
  2. ^ P. Nguyen (2010). "Clasificación automática de características de los hablantes". Congreso Internacional de Comunicaciones y Electrónica 2010 . págs. 147-152. doi :10.1109/ICCE.2010.5670700. ISBN 978-1-4244-7055-6. S2CID  13482115.
  3. ^ "Definición de reconocimiento de voz en inglés británico". Editores Macmillan limitados. Archivado desde el original el 16 de septiembre de 2011 . Consultado el 21 de febrero de 2012 .
  4. ^ "reconocimiento de voz, definición de". WebFinance, Inc. Archivado desde el original el 3 de diciembre de 2011 . Consultado el 21 de febrero de 2012 .
  5. ^ "La bolsa de correo LG # 114". Linuxgazette.net. Archivado desde el original el 19 de febrero de 2013 . Consultado el 15 de junio de 2013 .
  6. ^ Sarangi, Susanta; Sahidullah, Maryland; Saha, Goutam (septiembre de 2020). "Optimización del banco de filtros basado en datos para la verificación automática de hablantes". Procesamiento de señales digitales . 104 : 102795. arXiv : 2007.10729 . doi : 10.1016/j.dsp.2020.102795. S2CID  220665533.
  7. ^ Reynolds, Douglas; Rose, Richard (enero de 1995). "Identificación robusta de locutores independientes del texto utilizando modelos de locutores de mezcla gaussiana" (PDF) . Transacciones IEEE sobre procesamiento de voz y audio . 3 (1): 72–83. doi : 10.1109/89.365379. ISSN  1063-6676. OCLC  26108901. S2CID  7319345. Archivado (PDF) desde el original el 8 de marzo de 2014 . Consultado el 21 de febrero de 2014 .
  8. ^ "Identificación del hablante (WhisperID)". Investigación de Microsoft . Microsoft. Archivado desde el original el 25 de febrero de 2014 . Consultado el 21 de febrero de 2014 . Cuando hablas con alguien, no sólo reconoce lo que dices: reconoce quién eres. WhisperID permitirá que las computadoras también hagan eso, descubriendo quién es usted por su forma de hablar.
  9. ^ "Obituarios: Stephen Balashek". El Star-Ledger . 22 de julio de 2012.
  10. ^ "IBM-Shoebox-front.jpg". androidauthority.net . Consultado el 4 de abril de 2019 .
  11. ^ Juang, BH; Rabiner, Lawrence R. "Reconocimiento automático de voz: una breve historia del desarrollo tecnológico" (PDF) . pag. 6. Archivado (PDF) desde el original el 17 de agosto de 2014 . Consultado el 17 de enero de 2015 .
  12. ^ ab Melanie Pinola (2 de noviembre de 2011). "Reconocimiento de voz a lo largo de décadas: cómo terminamos con Siri". Mundo PC . Consultado el 22 de octubre de 2018 .
  13. ^ Gris, Robert M. (2010). "Una historia del habla digital en tiempo real en redes de paquetes: parte II de la codificación predictiva lineal y el protocolo de Internet" (PDF) . Encontró. Proceso de señales de tendencias . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN  1932-8346.
  14. ^ John R. Pierce (1969). "¿A dónde va el reconocimiento de voz?". Revista de la Sociedad de Acústica de América . 46 (48): 1049-1051. Código bibliográfico : 1969ASAJ...46.1049P. doi :10.1121/1.1911801.
  15. ^ Beneficio, Jacob; Sondhi, MM; Huang, Yiteng (2008). Manual Springer de procesamiento del habla . Medios de ciencia y negocios de Springer. ISBN 978-3540491255.
  16. ^ John Makhoul. "Medallista de ISCA: por liderazgo y amplias contribuciones al procesamiento del habla y el lenguaje". Archivado desde el original el 24 de enero de 2018 . Consultado el 23 de enero de 2018 .
  17. ^ Blechman, RO; Blechman, Nicholas (23 de junio de 2008). "Hola, Hal". El neoyorquino . Archivado desde el original el 20 de enero de 2015 . Consultado el 17 de enero de 2015 .
  18. ^ Klatt, Dennis H. (1977). "Revisión del proyecto de comprensión del habla ARPA". La Revista de la Sociedad de Acústica de América . 62 (6): 1345-1366. Código bibliográfico : 1977ASAJ...62.1345K. doi : 10.1121/1.381666.
  19. ^ Rabiner (1984). "La sociedad de la acústica, el habla y el procesamiento de señales. Una perspectiva histórica" ​​(PDF) . Archivado (PDF) desde el original el 9 de agosto de 2017 . Consultado el 23 de enero de 2018 .
  20. ^ "De primera mano: el modelo oculto de Markov - Wiki de historia de la ingeniería y la tecnología". ethw.org . 12 de enero de 2015. Archivado desde el original el 3 de abril de 2018 . Consultado el 1 de mayo de 2018 .
  21. ^ ab "Entrevista a James Baker". Archivado desde el original el 28 de agosto de 2017 . Consultado el 9 de febrero de 2017 .
  22. ^ "Pioneros en el reconocimiento de voz". 7 de marzo de 2012. Archivado desde el original el 19 de febrero de 2015 . Consultado el 18 de enero de 2015 .
  23. ^ Huang, Xuedong; Panadero, James; Reddy, Raj (enero de 2014). "Una perspectiva histórica del reconocimiento de voz". Comunicaciones de la ACM . 57 (1): 94-103. doi :10.1145/2500887. ISSN  0001-0782. S2CID  6175701. Archivado desde el original el 8 de diciembre de 2023.
  24. ^ Juang, BH; Rabiner, Lawrence R. "Reconocimiento automático de voz: una breve historia del desarrollo tecnológico" (PDF) : 10. Archivado (PDF) desde el original el 17 de agosto de 2014 . Consultado el 17 de enero de 2015 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  25. ^ Li, Xiaochang (1 de julio de 2023). ""No hay datos como más datos ": el reconocimiento automático de voz y la creación de una cultura algorítmica". Osiris . 38 : 165–182. doi :10.1086/725132. ISSN  0369-7827. S2CID  259502346.
  26. ^ "Historia del reconocimiento de voz". Transcripción médica del dragón . Archivado desde el original el 13 de agosto de 2015 . Consultado el 17 de enero de 2015 .
  27. ^ Billi, Roberto; Canavesio, Franco; Ciaramella, Alberto; Nebbia, Luciano (1 de noviembre de 1995). "Tecnología de voz interactiva en el trabajo: la experiencia CSELT". Comunicación del habla . 17 (3): 263–271. doi :10.1016/0167-6393(95)00030-R.
  28. ^ ab Xuedong Huang; James panadero; Raj Reddy. "Una perspectiva histórica del reconocimiento de voz". Comunicaciones de la ACM. Archivado desde el original el 20 de enero de 2015 . Consultado el 20 de enero de 2015 .
  29. ^ Kevin McKean (8 de abril de 1980). "Cuando Cole habla, las computadoras escuchan". Diario de Sarasota. AP . Consultado el 23 de noviembre de 2015 .
  30. ^ "ACT/Apricot - Historia del albaricoque". actapricot.org . Consultado el 2 de febrero de 2016 .
  31. ^ Melanie Pinola (2 de noviembre de 2011). "Reconocimiento de voz a lo largo de décadas: cómo terminamos con Siri". Mundo PC . Archivado desde el original el 13 de enero de 2017 . Consultado el 28 de julio de 2017 .
  32. ^ "Biografía de Ray Kurzweil". KurzweilAINetwork. Archivado desde el original el 5 de febrero de 2014 . Consultado el 25 de septiembre de 2014 .
  33. ^ Juang, BH; Rabiner, Lawrence. "Reconocimiento automático de voz: una breve historia del desarrollo tecnológico" (PDF) . Archivado (PDF) desde el original el 9 de agosto de 2017 . Consultado el 28 de julio de 2017 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  34. ^ "Nuance Exec en iPhone 4S, Siri y el futuro del habla". Opiniones técnicas. 10 de octubre de 2011. Archivado desde el original el 19 de noviembre de 2011 . Consultado el 23 de noviembre de 2011 .
  35. ^ "Centralita-1 versión 2". Archivado desde el original el 11 de julio de 2017 . Consultado el 26 de julio de 2017 .
  36. ^ Jason Kincaid (13 de febrero de 2011). "El poder de la voz: una conversación con el director de tecnología del habla de Google". Crisis tecnológica . Archivado desde el original el 21 de julio de 2015 . Consultado el 21 de julio de 2015 .
  37. ^ Froomkin, Dan (5 de mayo de 2015). "LAS COMPUTADORAS ESTÁN ESCUCHANDO". La Intercepción . Archivado desde el original el 27 de junio de 2015 . Consultado el 20 de junio de 2015 .
  38. ^ Herve Bourlard y Nelson Morgan , Reconocimiento de voz conexionista: un enfoque híbrido, Serie Internacional Kluwer en Ingeniería e Informática; v.247, Boston: Kluwer Academic Publishers, 1994.
  39. ^ ab Sepp Hochreiter ; J. Schmidhuber (1997). "Memoria a largo plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. PMID  9377276. S2CID  1915014.
  40. ^ Schmidhuber, Jürgen (2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85-117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. PMID  25462637. S2CID  11715509.
  41. ^ Alex Graves, Santiago Fernández, Faustino Gómez y Jürgen Schmidhuber (2006). Clasificación temporal conexionista: etiquetado de datos de secuencia no segmentados con redes neuronales recurrentes. Actas de ICML'06, págs. 369–376.
  42. ^ Santiago Fernández, Alex Graves y Jürgen Schmidhuber (2007). Una aplicación de redes neuronales recurrentes para la detección discriminativa de palabras clave [ enlace muerto permanente ] . Actas de ICANN (2), págs. 220–229.
  43. ^ ab Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays y Johan Schalkwyk (septiembre de 2015): "Búsqueda por voz de Google: más rápida y precisa". Archivado el 9 de marzo de 2016 en Wayback Machine.
  44. ^ Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alejandro; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matías; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob; Houlsby, Neil (3 de junio de 2021). "Una imagen vale 16 x 16 palabras: transformadores para el reconocimiento de imágenes a escala". arXiv : 2010.11929 [cs.CV].
  45. ^ Wu, Haiping; Xiao, Bin; Codella, Noel; Liu, Mengchen; Dai, Xiyang; Yuan, Lu; Zhang, Lei (29 de marzo de 2021). "CvT: Introducción de convoluciones a los transformadores de visión". arXiv : 2103.15808 [cs.CV].
  46. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, León; Gómez, Aidan N; Káiser, Łukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesitas". Avances en los sistemas de procesamiento de información neuronal . Asociados Curran. 30 .
  47. ^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (24 de mayo de 2019). "BERT: formación previa de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805 [cs.CL].
  48. ^ ab Gong, Yuan; Chung, Yu-An; Glass, James (8 de julio de 2021). "AST: Transformador de espectrograma de audio". arXiv : 2104.01778 [cs.SD].
  49. ^ ab Ristea, Nicolae-Catalin; Ionescu, Radu Tudor; Khan, Fahad Shahbaz (20 de junio de 2022). "SepTr: transformador separable para procesamiento de espectrogramas de audio". arXiv : 2203.09581 [cs.CV].
  50. ^ ab Lohrenz, Timo; Li, Zhengyang; Fingscheidt, Tim (14 de julio de 2021). "Aprendizaje de codificadores múltiples y fusión de transmisiones para el reconocimiento automático de voz de un extremo a otro basado en transformadores". arXiv : 2104.00120 [eess.AS].
  51. ^ "Li Deng". Sitio de Li Deng.
  52. ^ Taller NIPS: Aprendizaje profundo para el reconocimiento de voz y aplicaciones relacionadas, Whistler, BC, Canadá, diciembre de 2009 (Organizadores: Li Deng, Geoff Hinton, D. Yu).
  53. ^ abc Hinton, Geoffrey; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-Rahman; Jaitly, Navdeep; Mayor, Andrés; Vanhoucke, Vicente; Nguyen, Patricio; Sainath, Tara ; Kingsbury, Brian (2012). "Redes neuronales profundas para el modelado acústico en el reconocimiento de voz: las opiniones compartidas de cuatro grupos de investigación". Revista de procesamiento de señales IEEE . 29 (6): 82–97. Código Bib : 2012 ISPM...29...82H. doi :10.1109/MSP.2012.2205597. S2CID  206485943.
  54. ^ ab Deng, L.; Hinton, G.; Kingsbury, B. (2013). "Nuevos tipos de aprendizaje profundo de redes neuronales para el reconocimiento de voz y aplicaciones relacionadas: una descripción general". Conferencia internacional IEEE 2013 sobre acústica, habla y procesamiento de señales: nuevos tipos de aprendizaje profundo de redes neuronales para el reconocimiento de voz y aplicaciones relacionadas: una descripción general . pag. 8599. doi : 10.1109/ICASSP.2013.6639344. ISBN 978-1-4799-0356-6. S2CID  13953660.
  55. ^ ab Markoff, John (23 de noviembre de 2012). "Los científicos ven promesas en los programas de aprendizaje profundo". New York Times . Archivado desde el original el 30 de noviembre de 2012 . Consultado el 20 de enero de 2015 .
  56. ^ Morgan, Bourlard, Renals, Cohen, Franco (1993) "Red neuronal híbrida/sistemas modelo de Markov ocultos para el reconocimiento continuo de voz. ICASSP/IJPRAI"
  57. ^ T. Robinson (1992). "Un sistema de reconocimiento de palabras en red de propagación de errores recurrentes en tiempo real". [Actas] ICASSP-92: Conferencia internacional IEEE de 1992 sobre acústica, habla y procesamiento de señales . págs. 617–620 vol.1. doi :10.1109/ICASSP.1992.225833. ISBN 0-7803-0532-9. S2CID  62446313.
  58. ^ Waibel , Hanazawa, Hinton, Shikano, Lang. (1989) "Reconocimiento de fonemas mediante redes neuronales con retardo de tiempo. Transacciones IEEE sobre acústica, habla y procesamiento de señales".
  59. ^ Panadero, J.; Li Deng; Vidrio, J.; Khudanpur, S.; Chin-Hui Lee ; Morgan, N.; O'Shaughnessy, D. (2009). "Desarrollos y direcciones en el reconocimiento y la comprensión del habla, parte 1". Revista de procesamiento de señales IEEE . 26 (3): 75–80. Código Bib : 2009 ISPM...26...75B. doi :10.1109/MSP.2009.932166. hdl : 1721.1/51891 . S2CID  357467.
  60. Sepp Hochreiter (1991), Untersuchungen zu dynamischen neuronalen Netzen Archivado el 6 de marzo de 2015 en Wayback Machine , Tesis de diploma. Instituto f. Informática, Universidad Técnica. Munich. Asesor: J. Schmidhuber.
  61. ^ Bengio, Y. (1991). Redes neuronales artificiales y su aplicación al reconocimiento de voz/secuencia (Ph.D.). Universidad McGill.
  62. ^ Deng, L.; Hassanein, K.; Elmasry, M. (1994). "Análisis de la estructura de correlación para un modelo predictivo neuronal con aplicación al reconocimiento de voz". Redes neuronales . 7 (2): 331–339. doi :10.1016/0893-6080(94)90027-2.
  63. ^ Charla magistral: Desarrollos recientes en redes neuronales profundas. ICASSP, 2013 (por Geoff Hinton).
  64. ^ ab Charla magistral: "Logros y desafíos del aprendizaje profundo: desde el análisis y el reconocimiento del habla hasta el lenguaje y el procesamiento multimodal Archivado el 5 de marzo de 2021 en Wayback Machine ", Interspeech, septiembre de 2014 (por Li Deng).
  65. ^ "Aumentan las mejoras en el software de reconocimiento de voz". TechRepublic.com . 27 de agosto de 2002. Archivado desde el original el 23 de octubre de 2018 . Consultado el 22 de octubre de 2018 . Maners dijo que IBM ha trabajado en el avance del reconocimiento de voz... o en el piso de una ruidosa feria comercial.
  66. ^ "Reconocimiento de voz para facilitar las reservas de viajes: noticias sobre viajes de negocios". BusinessTravelNews.com . 3 de marzo de 1997. Las primeras aplicaciones de software de reconocimiento de voz fueron el dictado... Hace cuatro meses, IBM presentó un 'producto de dictado continuo' diseñado para... debutó en la feria comercial de la Asociación Nacional de Viajes de Negocios en 1994.
  67. ^ Ellis Booker (14 de marzo de 1994). "El reconocimiento de voz entra en la corriente principal". Mundo de la informática . pag. 45. Hace apenas unos años, el reconocimiento de voz se limitaba a...
  68. ^ "Los investigadores de Microsoft logran un nuevo hito en el reconocimiento de voz conversacional". Microsoft . 21 de agosto de 2017.
  69. ^ Goel, Vaibhava; Byrne, William J. (2000). "Reconocimiento automático de voz con riesgo mínimo de Bayes". Habla y lenguaje informático . 14 (2): 115-135. doi : 10.1006/csla.2000.0138 . S2CID  206561058. Archivado desde el original el 25 de julio de 2011 . Consultado el 28 de marzo de 2011 .
  70. ^ Mohri, M. (2002). "Edición-Distancia de autómatas ponderados: definiciones y algoritmos generales" (PDF) . Revista Internacional de Fundamentos de la Informática . 14 (6): 957–982. doi :10.1142/S0129054103002114. Archivado (PDF) desde el original el 18 de marzo de 2012 . Consultado el 28 de marzo de 2011 .
  71. ^ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, KJ (1989). "Reconocimiento de fonemas mediante redes neuronales con retardo de tiempo". Transacciones IEEE sobre acústica, voz y procesamiento de señales . 37 (3): 328–339. doi :10.1109/29.21701. hdl : 10338.dmlcz/135496 . S2CID  9563026.
  72. ^ Pájaro, Jordan J.; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "Optimización del reconocimiento de voz con reconocimiento fonético mediante algoritmos evolutivos multiobjetivo" (PDF) . Sistemas Expertos con Aplicaciones . Elsevier BV. 153 : 113402. doi : 10.1016/j.eswa.2020.113402. ISSN  0957-4174. S2CID  216472225.
  73. ^ Wu, J.; Chan, C. (1993). "Reconocimiento de palabras aisladas mediante modelos de redes neuronales con coeficientes de correlación cruzada para la dinámica del habla". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 15 (11): 1174-1185. doi : 10.1109/34.244678.
  74. ^ SA Zahorian, AM Zimmer y F. Meng, (2002) "Clasificación de vocales para retroalimentación visual basada en computadora para el entrenamiento del habla para personas con discapacidad auditiva", en ICSLP 2002
  75. ^ Hu, Hong Bing; Zahorian, Stephen A. (2010). "Métodos de reducción de dimensionalidad para el reconocimiento fonético HMM" (PDF) . ICASSP 2010 . Archivado (PDF) desde el original el 6 de julio de 2012.
  76. ^ Fernández, Santiago; Tumbas, Alex; Schmidhuber, Jürgen (2007). "Etiquetado de secuencias en dominios estructurados con redes neuronales recurrentes jerárquicas" (PDF) . Actas de IJCAI . Archivado (PDF) desde el original el 15 de agosto de 2017.
  77. ^ Tumbas, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Reconocimiento de voz con redes neuronales recurrentes profundas". arXiv : 1303.5778 [cs.NE].ICASSP 2013.
  78. ^ Waibel, Alex (1989). "Construcción modular de redes neuronales con retardo de tiempo para el reconocimiento de voz" (PDF) . Computación neuronal . 1 (1): 39–46. doi :10.1162/neco.1989.1.1.39. S2CID  236321. Archivado (PDF) desde el original el 29 de junio de 2016.
  79. ^ Maas, Andrew L.; Le, Quoc V.; O'Neil, Tyler M.; Vinyals, Oriol; Nguyen, Patricio; Ng, Andrew Y. (2012). "Redes neuronales recurrentes para la reducción de ruido en ASR robusto". Actas de Interspeech 2012 .
  80. ^ ab Deng, Li; Yu, Dong (2014). "Aprendizaje profundo: métodos y aplicaciones" (PDF) . Fundamentos y Tendencias en Procesamiento de Señales . 7 (3–4): 197–387. CiteSeerX 10.1.1.691.3679 . doi :10.1561/2000000039. Archivado (PDF) desde el original el 22 de octubre de 2014. 
  81. ^ Yu, D.; Deng, L.; Dahl, G. (2010). "Funciones de la capacitación previa y el ajuste en DBN-HMM dependientes del contexto para el reconocimiento de voz en el mundo real" (PDF) . Taller NIPS sobre aprendizaje profundo y aprendizaje de funciones no supervisadas .
  82. ^ Dahl, George E.; Yu, Dong; Deng, Li; Acero, Álex (2012). "Redes neuronales profundas preentrenadas dependientes del contexto para el reconocimiento de voz de amplio vocabulario". Transacciones IEEE sobre procesamiento de audio, voz y lenguaje . 20 (1): 30–42. doi :10.1109/TASL.2011.2134090. S2CID  14862572.
  83. ^ Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. Avances recientes en aprendizaje profundo para la investigación del habla en Microsoft. ICASSP, 2013.
  84. ^ ab Yu, D.; Deng, L. (2014). "Reconocimiento automático de voz: un enfoque de aprendizaje profundo (Editorial: Springer)". {{cite journal}}: Citar diario requiere |journal=( ayuda )
  85. ^ Deng, L.; Li, Xiao (2013). "Paradigmas de aprendizaje automático para el reconocimiento de voz: descripción general" (PDF) . Transacciones IEEE sobre procesamiento de audio, voz y lenguaje . 21 (5): 1060–1089. doi :10.1109/TASL.2013.2244083. S2CID  16585863.
  86. ^ Schmidhuber, Jürgen (2015). "Aprendizaje profundo". Scholarpedia . 10 (11): 32832. Código bibliográfico : 2015SchpJ..1032832S. doi : 10.4249/scholarpedia.32832 .
  87. ^ L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed y G. Hinton (2010) Codificación binaria de espectrogramas de voz mediante un codificador automático profundo. Entre discursos.
  88. ^ Tüske, Zoltán; Golik, Pavel; Schlüter, Ralf; Ney, Hermann (2014). "Modelado acústico con redes neuronales profundas utilizando señal de tiempo sin procesar para LVCSR" (PDF) . Entre discursos 2014 . Archivado (PDF) desde el original el 21 de diciembre de 2016.
  89. ^ Jurafsky, Daniel (2016). Procesamiento del habla y el lenguaje .
  90. ^ Tumbas, Alex (2014). "Hacia el reconocimiento de voz de un extremo a otro con redes neuronales recurrentes" (PDF) . ICML . Archivado desde el original (PDF) el 10 de enero de 2017 . Consultado el 22 de julio de 2019 .
  91. ^ Amodei, Darío (2016). "Deep Speech 2: reconocimiento de voz de un extremo a otro en inglés y mandarín". arXiv : 1512.02595 [cs.CL].
  92. ^ "LipNet: ¿Qué tan fácil crees que es leer los labios?". YouTube . Archivado desde el original el 27 de abril de 2017 . Consultado el 5 de mayo de 2017 .
  93. ^ Assael, Yannis; Shillingford, Brendan; Whiteson, Shimón; de Freitas, Nando (5 de noviembre de 2016). "LipNet: lectura de labios a nivel de oraciones de un extremo a otro". arXiv : 1611.01599 [cs.CV].
  94. ^ Shillingford, Brendan; Assael, Yannis; Hoffman, Mateo W.; Paine, Tomás; Hughes, Cían; Prabhu, Utsav; Liao, Hank; Sak, Hasim; Rao, Kanishka (13 de julio de 2018). "Reconocimiento visual de voz a gran escala". arXiv : 1807.05162 [cs.CV].
  95. ^ Chan, William; Jaitly, Navdeep; Le, Quoc; Vinyals, Oriol (2016). "Escuchar, atender y deletrear: una red neuronal para el reconocimiento de voz conversacional de vocabulario amplio" (PDF) . ICASSP .
  96. ^ Bahdanau, Dzmitry (2016). "Reconocimiento de voz de vocabulario extenso basado en la atención de un extremo a otro". arXiv : 1508.04395 [cs.CL].
  97. ^ Chorowski, enero; Jaitly, Navdeep (8 de diciembre de 2016). "Hacia una mejor decodificación e integración de modelos de lenguaje en modelos de secuencia a secuencia". arXiv : 1612.02695 [cs.NE].
  98. ^ Chan, William; Zhang, Yu; Le, Quoc; Jaitly, Navdeep (10 de octubre de 2016). "Descomposiciones de secuencias latentes". arXiv : 1610.03035 [estad.ML].
  99. ^ Chung, hijo de Joon; Mayor, Andrés; Vinyals, Oriol; Zisserman, Andrew (16 de noviembre de 2016). "Oraciones de lectura de labios en la naturaleza". Conferencia IEEE 2017 sobre visión por computadora y reconocimiento de patrones (CVPR) . págs. 3444–3453. arXiv : 1611.05358 . doi :10.1109/CVPR.2017.367. ISBN 978-1-5386-0457-1. S2CID  1662180.
  100. ^ Ehsani, Farzad; Knodt, Eva (julio de 1998). "Tecnología del habla en el aprendizaje de idiomas asistido por computadora: fortalezas y limitaciones de un nuevo paradigma CALL". Aprendizaje de idiomas y tecnología . Centro Nacional de Recursos para Idiomas Extranjeros de la Universidad de Hawaii; Centro de Educación e Investigación de Idiomas de la Universidad Estatal de Michigan. 2 (1): 54–73 . Consultado el 11 de febrero de 2023 .
  101. ^ Isaacs, Talía; Harding, Luke (julio de 2017). "Evaluación de la pronunciación". Enseñanza de idiomas . 50 (3): 347–366. doi : 10.1017/S0261444817000118 . ISSN  0261-4448. S2CID  209353525.
  102. ^ Loukina, Anastassia; et al. (6 de septiembre de 2015), "Precisión de la pronunciación e inteligibilidad del habla no nativa" (PDF) , INTERSPEECH 2015 , Dresde, Alemania: Asociación Internacional de Comunicación del Habla , págs. 1917-1921, solo el 16% de la variabilidad en la inteligibilidad a nivel de palabras puede explicarse por la presencia de errores de pronunciación evidentes.
  103. ^ O'Brien, María Grantham; et al. (31 de diciembre de 2018). "Direcciones para el futuro de la tecnología en la investigación y enseñanza de la pronunciación". Revista de pronunciación de una segunda lengua . 4 (2): 182–207. doi : 10.1075/jslp.17001.obr . hdl : 2066/199273 . ISSN  2215-1931. S2CID  86440885. Los investigadores de pronunciación están interesados ​​principalmente en mejorar la inteligibilidad y comprensibilidad de los estudiantes de L2, pero aún no han recopilado cantidades suficientes de datos representativos y confiables (grabaciones de discursos con las correspondientes anotaciones y juicios) que indiquen qué errores afectan estas dimensiones del habla y cuáles no. . Estos datos son esenciales para entrenar algoritmos ASR para evaluar la inteligibilidad de los estudiantes de L2.
  104. ^ Eskenazi, Maxine (enero de 1999). "Uso del procesamiento automático del habla para la tutoría de pronunciación de lenguas extranjeras: algunas cuestiones y un prototipo". Aprendizaje de idiomas y tecnología . 2 (2): 62–76 . Consultado el 11 de febrero de 2023 .
  105. ^ Tholfsen, Mike (9 de febrero de 2023). "Reading Coach en Immersive Reader y nuevas funciones que llegarán a Reading Progress en Microsoft Teams". Blog de educación de Techcommunity . Microsoft . Consultado el 12 de febrero de 2023 .
  106. ^ Banerji, Olina (7 de marzo de 2023). "Las escuelas están utilizando la tecnología de voz para enseñar a leer. ¿Está ayudando?". Noticias de EdSurge . Consultado el 7 de marzo de 2023 .
  107. ^ Cabello, Adán; et al. (19 de junio de 2018). "Apraxia world: un juego de logopedia para niños con trastornos de los sonidos del habla". Actas de la 17ª Conferencia ACM sobre diseño de interacción y niños (PDF) . págs. 119-131. doi :10.1145/3202185.3202733. ISBN 9781450351522. S2CID  13790002.
  108. ^ "La computadora dice que no: el veterinario irlandés no aprueba el examen oral de inglés necesario para permanecer en Australia". El guardián . Prensa asociada australiana. 8 de agosto de 2017 . Consultado el 12 de febrero de 2023 .
  109. ^ Ferrier, Tracey (9 de agosto de 2017). "Un ex lector de noticias australiano con título en inglés no aprueba la prueba de inglés del robot". El Sydney Morning Herald . Consultado el 12 de febrero de 2023 .
  110. ^ Principal, Ed; Watson, Richard (9 de febrero de 2022). "El examen de inglés que arruinó miles de vidas". Noticias de la BBC . Consultado el 12 de febrero de 2023 .
  111. ^ Joyce, Katy Spratte (24 de enero de 2023). "13 palabras que se pueden pronunciar de dos maneras". Resumen del lector . Consultado el 23 de febrero de 2023 .
  112. ^ Por ejemplo, CMUDICT , "Diccionario de pronunciación CMU". www.speech.cs.cmu.edu . Consultado el 15 de febrero de 2023 .Compare "cuatro" dado como "F AO R" con la vocal AO como en "atrapado", con "fila" dado como "R OW" con la vocal OW como en "oat".
  113. ^ Tu, Zehai; Mamá, Ning; Barker, Jon (2022). "Medidas de incertidumbre no supervisadas del reconocimiento automático de voz para la predicción no intrusiva de la inteligibilidad del habla" (PDF) . Proc. Entre discursos 2022 . INTERDISCURSO 2022. ISCA. págs. 3493–3497. doi : 10.21437/Interspeech.2022-10408 . Consultado el 17 de diciembre de 2023 .
  114. ^ Marco común europeo de referencia para el aprendizaje, la enseñanza y la evaluación de idiomas: volumen complementario con nuevos descriptores. Programa de Política Lingüística, División de Política Educativa, Departamento de Educación, Consejo de Europa . Febrero de 2018. p. 136. OCLC  1090351600.
  115. ^ Englund, Christine (2004). Reconocimiento de voz en el avión JAS 39 Gripen: Adaptación al habla en diferentes cargas G (PDF) (tesis de maestría). Real Instituto Tecnológico de Estocolmo . Archivado (PDF) desde el original el 2 de octubre de 2008.
  116. ^ "La cabina". Eurofighter Tifón . Archivado desde el original el 1 de marzo de 2017.
  117. ^ "Eurofighter Typhoon: el avión de combate más avanzado del mundo". www.eurofighter.com . Archivado desde el original el 11 de mayo de 2013 . Consultado el 1 de mayo de 2018 .
  118. ^ Schutte, John (15 de octubre de 2007). "Los investigadores afinan el sistema de voz del piloto del avión F-35". Fuerza Aérea de los Estados Unidos. Archivado desde el original el 20 de octubre de 2007.
  119. ^ "Superar las barreras de la comunicación en el aula". Partido masivo. 18 de marzo de 2010. Archivado desde el original el 25 de julio de 2013 . Consultado el 15 de junio de 2013 .
  120. ^ ab "Reconocimiento de voz para el aprendizaje". Centro Nacional de Innovación Tecnológica. 2010. Archivado desde el original el 13 de abril de 2014 . Consultado el 26 de marzo de 2014 .
  121. ^ Follensbee, Bob; McCloskey-Dale, Susan (2000). "Reconocimiento de voz en las escuelas: una actualización desde el campo". Conferencia sobre tecnología y personas con discapacidad 2000 . Archivado desde el original el 21 de agosto de 2006 . Consultado el 26 de marzo de 2014 .
  122. ^ "Reconocimiento de voz para personas discapacitadas". Archivado desde el original el 4 de abril de 2008.
  123. ^ Grupo de apoyo internacional de amigos
  124. ^ Garrett, Jennifer Tumlin; et al. (2011). "Uso de software de reconocimiento de voz para aumentar la fluidez en la escritura de personas con discapacidades físicas". Revista de tecnología de educación especial . 26 (1): 25–41. doi :10.1177/016264341102600104. S2CID  142730664.
  125. ^ Forgrave, Karen E. "Tecnología de asistencia: empoderar a los estudiantes con discapacidades". Cámara de compensación 75.3 (2002): 122–6. Web.
  126. ^ Espiga, KW; Kamoua, Ridha; Sután, Víctor (2004). "Tecnología de reconocimiento de voz para la educación sobre personas con discapacidad". Revista de Sistemas de Tecnología Educativa . 33 (2): 173–84. CiteSeerX 10.1.1.631.3736 . doi :10.2190/K6K8-78K2-59Y7-R9R2. S2CID  143159997. 
  127. ^ "Proyectos: Micrófonos Planetarios". La Sociedad Planetaria. Archivado desde el original el 27 de enero de 2012.
  128. ^ Caridakis, George; Castellano, Ginevra; Kessous, Loic; Raouzaiou, Amarilis; Malatesta, Lori; Asteriadis, Stelios; Karpouzis, Kostas (19 de septiembre de 2007). "Reconocimiento de emociones multimodal a partir de rostros expresivos, gestos corporales y habla". Inteligencia artificial e innovaciones 2007: de la teoría a las aplicaciones . IFIP la Federación Internacional para el Procesamiento de la Información. vol. 247. Springer Estados Unidos. págs. 375–388. doi :10.1007/978-0-387-74161-1_41. ISBN 978-0-387-74160-4.
  129. ^ "¿Qué son los subtítulos en tiempo real? | HAZLO". www.washington.edu . Consultado el 11 de abril de 2021 .
  130. ^ Zheng, Thomas Colmillo; Li, Lantian (2017). Cuestiones relacionadas con la robustez en el reconocimiento de locutores. SpringerBriefs en Ingeniería Eléctrica e Informática. Singapur: Springer Singapur. doi :10.1007/978-981-10-3238-7. ISBN 978-981-10-3237-0.
  131. ^ Ciaramella, Alberto. "Un prototipo de informe de evaluación del desempeño". Paquete de trabajo de reloj de sol 8000 (1993).
  132. ^ Gerbino, E.; Baggia, P.; Ciaramella, A.; Rullent, C. (1993). "Prueba y evaluación de un sistema de diálogo hablado". Conferencia internacional IEEE sobre procesamiento acústico de señales y voz . págs. 135-138 vol.2. doi :10.1109/ICASSP.1993.319250. ISBN 0-7803-0946-4. S2CID  57374050.
  133. ^ Instituto Nacional de Estándares y Tecnología. "La historia de la evaluación del reconocimiento automático de voz en el NIST Archivado el 8 de octubre de 2013 en Wayback Machine ".
  134. ^ "Los nombres de las letras pueden causar confusión y otras cosas que debe saber sobre las relaciones entre letras y sonidos". NAEYC . Consultado el 27 de octubre de 2023 .
  135. ^ "Escuche: su asistente de inteligencia artificial también se vuelve loco por NPR". NPR . 6 de marzo de 2016. Archivado desde el original el 23 de julio de 2017.
  136. ^ Claburn, Thomas (25 de agosto de 2017). "¿Es posible controlar Amazon Alexa, Google Now mediante comandos inaudibles? Absolutamente". El registro . Archivado desde el original el 2 de septiembre de 2017.
  137. ^ "El ataque apunta a sistemas automáticos de reconocimiento de voz". vice.com . 31 de enero de 2018. Archivado desde el original el 3 de marzo de 2018 . Consultado el 1 de mayo de 2018 .
  138. ^ Beigi, Homayoon (2011). Fundamentos del reconocimiento de hablantes. Nueva York: Springer. ISBN 978-0-387-77591-3. Archivado desde el original el 31 de enero de 2018.
  139. ^ Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... y Vesely, K. (2011). El kit de herramientas de reconocimiento de voz de Kaldi. En el taller IEEE 2011 sobre reconocimiento y comprensión automáticos del habla (No. CONF). Sociedad de procesamiento de señales IEEE.
  140. ^ "Voz común de Mozilla". voz.mozilla.org . Archivado desde el original el 27 de febrero de 2020 . Consultado el 9 de noviembre de 2019 .
  141. ^ "Una implementación de TensorFlow de la arquitectura DeepSpeech de Baidu: mozilla/DeepSpeech". 9 de noviembre de 2019 - vía GitHub.
  142. ^ "GitHub - tensorflow/docs: documentación de TensorFlow". 9 de noviembre de 2019 - vía GitHub.
  143. ^ "Coqui, una startup que ofrece tecnología de discurso abierto para todos". GitHub . Consultado el 7 de marzo de 2022 .
  144. ^ Coffey, Donavyn (28 de abril de 2021). "Los maoríes están intentando salvar su idioma de las grandes tecnologías". Reino Unido cableado . ISSN  1357-0978 . Consultado el 16 de octubre de 2021 .
  145. ^ "Por qué debería pasar de DeepSpeech a coqui.ai". Discurso de Mozilla . 7 de julio de 2021 . Consultado el 16 de octubre de 2021 .
  146. ^ "Escribe con tu voz".

Otras lecturas

enlaces externos