El reconocimiento de voz es un subcampo interdisciplinario de la informática y la lingüística computacional que desarrolla metodologías y tecnologías que permiten el reconocimiento y la traducción del lenguaje hablado a texto por parte de las computadoras. También se conoce como reconocimiento automático de voz ( ASR ), reconocimiento de voz por computadora o voz a texto ( STT ). Incorpora conocimientos e investigaciones en los campos de la informática , la lingüística y la ingeniería informática . El proceso inverso es la síntesis de voz .
Algunos sistemas de reconocimiento de voz requieren un "entrenamiento" (también llamado "registro") en el que un hablante individual lee texto o vocabulario aislado en el sistema. El sistema analiza la voz específica de la persona y la utiliza para afinar el reconocimiento del habla de esa persona, lo que da como resultado una mayor precisión. Los sistemas que no utilizan entrenamiento se denominan sistemas "independientes del hablante" [1] . Los sistemas que utilizan entrenamiento se denominan "dependientes del hablante".
Las aplicaciones de reconocimiento de voz incluyen interfaces de usuario de voz como marcación por voz (por ejemplo, "llamar a casa"), enrutamiento de llamadas (por ejemplo, "Me gustaría hacer una llamada a cobro revertido"), control de electrodomésticos domóticos , búsqueda de palabras clave (por ejemplo, encontrar un podcast donde se dijeron palabras particulares), entrada de datos simple (por ejemplo, ingresar un número de tarjeta de crédito), preparación de documentos estructurados (por ejemplo, un informe de radiología), determinación de las características del hablante, [2] procesamiento de voz a texto (por ejemplo, procesadores de texto o correos electrónicos ) y aeronaves (generalmente denominado entrada de voz directa ). La evaluación automática de la pronunciación se utiliza en educación, como para el aprendizaje del lenguaje hablado.
El término reconocimiento de voz [3] [4] [5] o identificación del hablante [6] [7] [8] se refiere a la identificación del hablante, en lugar de lo que está diciendo. Reconocer al hablante puede simplificar la tarea de traducir el habla en sistemas que han sido entrenados con la voz de una persona específica o puede usarse para autenticar o verificar la identidad de un hablante como parte de un proceso de seguridad.
Desde la perspectiva tecnológica, el reconocimiento de voz tiene una larga historia con varias oleadas de innovaciones importantes. Más recientemente, el campo se ha beneficiado de los avances en aprendizaje profundo y big data . Los avances se evidencian no solo en el aumento de artículos académicos publicados en el campo, sino más importante aún, en la adopción por parte de la industria mundial de una variedad de métodos de aprendizaje profundo para diseñar e implementar sistemas de reconocimiento de voz.
Las áreas clave de crecimiento fueron: tamaño del vocabulario, independencia del hablante y velocidad de procesamiento.
Raj Reddy fue la primera persona que se ocupó del reconocimiento de voz continuo cuando era estudiante de posgrado en la Universidad de Stanford a fines de la década de 1960. Los sistemas anteriores requerían que los usuarios hicieran una pausa después de cada palabra. El sistema de Reddy emitía comandos hablados para jugar al ajedrez .
En esa época, los investigadores soviéticos inventaron el algoritmo de distorsión temporal dinámica (DTW) y lo utilizaron para crear un reconocedor capaz de operar con un vocabulario de 200 palabras. [15] El DTW procesaba el habla dividiéndola en cuadros cortos, por ejemplo, segmentos de 10 ms, y procesando cada cuadro como una sola unidad. Aunque el DTW sería reemplazado por algoritmos posteriores, la técnica siguió en uso. Lograr la independencia del hablante seguía sin resolverse en ese período.
A finales de los años 1960, Leonard Baum desarrolló las matemáticas de las cadenas de Markov en el Instituto de Análisis de Defensa . Una década después, en la CMU, los estudiantes de Raj Reddy , James Baker y Janet M. Baker, comenzaron a utilizar el modelo oculto de Markov (HMM) para el reconocimiento de voz. [20] James Baker había aprendido sobre los HMM en un trabajo de verano en el Instituto de Análisis de Defensa durante su educación universitaria. [21] El uso de los HMM permitió a los investigadores combinar diferentes fuentes de conocimiento, como la acústica, el lenguaje y la sintaxis, en un modelo probabilístico unificado.
La década de 1980 también vio la introducción del modelo de lenguaje n-gramas .
Gran parte del progreso en este campo se debe al rápido aumento de las capacidades de los ordenadores. Al final del programa DARPA en 1976, el mejor ordenador disponible para los investigadores era el PDP-10 con 4 MB de RAM. [28] Podían necesitarse hasta 100 minutos para decodificar tan sólo 30 segundos de voz. [29]
Dos productos prácticos fueron:
En ese momento, el vocabulario del sistema de reconocimiento de voz comercial típico era más grande que el vocabulario humano promedio. [28] El ex alumno de Raj Reddy, Xuedong Huang , desarrolló el sistema Sphinx-II en CMU. El sistema Sphinx-II fue el primero en realizar reconocimiento de voz continuo, de vocabulario amplio e independiente del hablante y tuvo el mejor desempeño en la evaluación de DARPA de 1992. El manejo de voz continua con un vocabulario amplio fue un hito importante en la historia del reconocimiento de voz. Huang fundó el grupo de reconocimiento de voz en Microsoft en 1993. El alumno de Raj Reddy, Kai-Fu Lee, se unió a Apple donde, en 1992, ayudó a desarrollar un prototipo de interfaz de voz para la computadora Apple conocida como Casper.
Lernout & Hauspie , una empresa de reconocimiento de voz con sede en Bélgica, adquirió varias otras empresas, incluidas Kurzweil Applied Intelligence en 1997 y Dragon Systems en 2000. La tecnología de voz de L&H se utilizó en el sistema operativo Windows XP . L&H fue líder de la industria hasta que un escándalo contable puso fin a la empresa en 2001. La tecnología de voz de L&H fue comprada por ScanSoft, que se convirtió en Nuance en 2005. Apple originalmente licenció el software de Nuance para proporcionar capacidad de reconocimiento de voz a su asistente digital Siri . [34]
En la década de 2000, DARPA patrocinó dos programas de reconocimiento de voz: Effective Affordable Reutilizable Speech-to-Text (EARS) en 2002 y Global Autonomous Language Exploitation (GALE). Cuatro equipos participaron en el programa EARS: IBM , un equipo dirigido por BBN con LIMSI y la Univ. de Pittsburgh , la Universidad de Cambridge y un equipo compuesto por ICSI , SRI y la Universidad de Washington . EARS financió la recopilación del corpus de voz telefónica de Switchboard que contiene 260 horas de conversaciones grabadas de más de 500 hablantes. [35] El programa GALE se centró en el habla de las noticias transmitidas en árabe y mandarín . El primer esfuerzo de Google en el reconocimiento de voz llegó en 2007 después de contratar a algunos investigadores de Nuance. [36] El primer producto fue GOOG-411 , un servicio de directorio telefónico. Las grabaciones de GOOG-411 produjeron datos valiosos que ayudaron a Google a mejorar sus sistemas de reconocimiento. Google Voice Search ahora es compatible con más de 30 idiomas.
En Estados Unidos, la Agencia de Seguridad Nacional ha utilizado un tipo de reconocimiento de voz para detectar palabras clave desde al menos 2006. [37] Esta tecnología permite a los analistas buscar en grandes volúmenes de conversaciones grabadas y aislar las menciones de palabras clave. Las grabaciones se pueden indexar y los analistas pueden ejecutar consultas en la base de datos para encontrar conversaciones de interés. Algunos programas de investigación del gobierno se centraron en aplicaciones de inteligencia del reconocimiento de voz, por ejemplo, el programa EARS de DARPA y el programa Babel de IARPA .
A principios de la década de 2000, el reconocimiento de voz todavía estaba dominado por enfoques tradicionales como los modelos ocultos de Markov combinados con redes neuronales artificiales de propagación hacia adelante . [38] Hoy, sin embargo, muchos aspectos del reconocimiento de voz han sido asumidos por un método de aprendizaje profundo llamado memoria a corto plazo larga (LSTM), una red neuronal recurrente publicada por Sepp Hochreiter y Jürgen Schmidhuber en 1997. [39] Las RNN LSTM evitan el problema del gradiente de desaparición y pueden aprender tareas de "aprendizaje muy profundo" [40] que requieren recuerdos de eventos que sucedieron hace miles de pasos de tiempo discretos, lo cual es importante para el habla. Alrededor de 2007, LSTM entrenado por Connectionist Temporal Classification (CTC) [41] comenzó a superar el reconocimiento de voz tradicional en ciertas aplicaciones. [42] En 2015, se informó que el reconocimiento de voz de Google experimentó un salto de rendimiento dramático del 49% a través de LSTM entrenado por CTC, que ahora está disponible a través de Google Voice para todos los usuarios de teléfonos inteligentes. [43] Los transformadores , un tipo de red neuronal basada únicamente en la "atención", han sido ampliamente adoptados en la visión por computadora [44] [45] y el modelado del lenguaje, [46] [47] despertando el interés de adaptar dichos modelos a nuevos dominios, incluido el reconocimiento de voz. [48] [49] [50] Algunos artículos recientes informaron niveles de rendimiento superiores utilizando modelos de transformadores para el reconocimiento de voz, pero estos modelos generalmente requieren conjuntos de datos de entrenamiento a gran escala para alcanzar altos niveles de rendimiento.
El uso de redes de retroalimentación profunda (no recurrentes) para el modelado acústico fue introducido a finales de 2009 por Geoffrey Hinton y sus estudiantes en la Universidad de Toronto y por Li Deng [51] y colegas en Microsoft Research, inicialmente en el trabajo colaborativo entre Microsoft y la Universidad de Toronto que luego se expandió para incluir a IBM y Google (de ahí el subtítulo "Las opiniones compartidas de cuatro grupos de investigación" en su artículo de revisión de 2012). [52] [53] [54] Un ejecutivo de investigación de Microsoft llamó a esta innovación "el cambio más dramático en precisión desde 1979". [55] En contraste con las mejoras incrementales constantes de las últimas décadas, la aplicación del aprendizaje profundo redujo la tasa de error de palabras en un 30%. [55] Esta innovación fue adoptada rápidamente en todo el campo. Los investigadores han comenzado a utilizar técnicas de aprendizaje profundo también para el modelado del lenguaje.
En la larga historia del reconocimiento de voz, tanto la forma superficial como la forma profunda (por ejemplo, redes recurrentes) de redes neuronales artificiales se han explorado durante muchos años durante las décadas de 1980, 1990 y algunos años en la década de 2000. [56] [57] [58] Pero estos métodos nunca vencieron a la tecnología del modelo de mezcla gaussiana interna no uniforme / modelo oculto de Markov (GMM-HMM) basada en modelos generativos de habla entrenados de forma discriminativa. [59] Se habían analizado metodológicamente varias dificultades clave en la década de 1990, incluida la disminución del gradiente [60] y la estructura de correlación temporal débil en los modelos predictivos neuronales. [61] [62] Todas estas dificultades se sumaron a la falta de grandes datos de entrenamiento y gran poder de procesamiento en estos primeros días. La mayoría de los investigadores en reconocimiento de voz que comprendieron estas barreras se alejaron posteriormente de las redes neuronales para buscar enfoques de modelado generativo hasta el reciente resurgimiento del aprendizaje profundo a partir de 2009-2010, que había superado todas estas dificultades. Hinton et al. y Deng et al. revisaron parte de esta historia reciente sobre cómo su colaboración entre ellos y luego con colegas de cuatro grupos (Universidad de Toronto, Microsoft, Google e IBM) encendió un renacimiento de las aplicaciones de redes neuronales de propagación hacia adelante profundas para el reconocimiento de voz. [53] [54] [63] [64]
A principios de la década de 2010 , el reconocimiento del habla , también llamado reconocimiento de voz [65] [66] [67], se diferenciaba claramente del reconocimiento del hablante , y la independencia del hablante se consideraba un gran avance. Hasta entonces, los sistemas requerían un período de "entrenamiento". Un anuncio de 1987 de una muñeca llevaba el eslogan "Por fin, la muñeca que te entiende", a pesar de que se describía como "a la que los niños podían entrenar para que respondiera a su voz". [12]
En 2017, los investigadores de Microsoft alcanzaron un hito histórico de paridad humana al transcribir el habla de una conversación telefónica en la tarea Switchboard, ampliamente evaluada. Se utilizaron múltiples modelos de aprendizaje profundo para optimizar la precisión del reconocimiento de voz. Se informó que la tasa de error de palabras en el reconocimiento de voz era tan baja como la de 4 transcriptores humanos profesionales que trabajaban juntos en la misma prueba comparativa, que fue financiada por el equipo de voz de IBM Watson en la misma tarea. [68]
Tanto el modelado acústico como el modelado del lenguaje son partes importantes de los algoritmos de reconocimiento de voz basados en estadísticas modernas. Los modelos ocultos de Markov (HMM) se utilizan ampliamente en muchos sistemas. El modelado del lenguaje también se utiliza en muchas otras aplicaciones de procesamiento del lenguaje natural, como la clasificación de documentos o la traducción automática estadística .
Los sistemas de reconocimiento de voz de propósito general modernos se basan en modelos ocultos de Markov. Estos son modelos estadísticos que generan una secuencia de símbolos o cantidades. Los HMM se utilizan en el reconocimiento de voz porque una señal de voz puede verse como una señal estacionaria por partes o una señal estacionaria de corta duración. En una escala de tiempo corta (por ejemplo, 10 milisegundos), el habla puede aproximarse como un proceso estacionario . El habla puede considerarse un modelo de Markov para muchos fines estocásticos.
Otra razón por la que los HMM son populares es que se pueden entrenar automáticamente y son simples y computacionalmente factibles de usar. En el reconocimiento de voz, el modelo oculto de Markov generaría una secuencia de vectores de valores reales de n dimensiones (siendo n un entero pequeño, como 10), generando uno de estos cada 10 milisegundos. Los vectores consistirían en coeficientes cepstrales , que se obtienen tomando una transformada de Fourier de una ventana de tiempo corta de voz y decorrelacionando el espectro usando una transformada de coseno , luego tomando los primeros coeficientes (más significativos). El modelo oculto de Markov tenderá a tener en cada estado una distribución estadística que es una mezcla de gaussianas de covarianza diagonal, que dará una probabilidad para cada vector observado. Cada palabra, o (para sistemas de reconocimiento de voz más generales), cada fonema , tendrá una distribución de salida diferente; un modelo oculto de Markov para una secuencia de palabras o fonemas se crea concatenando los modelos ocultos de Markov entrenados individuales para las palabras y fonemas separados.
Los elementos centrales del enfoque más común basado en HMM para el reconocimiento de voz se describen arriba. Los sistemas de reconocimiento de voz modernos utilizan varias combinaciones de varias técnicas estándar para mejorar los resultados con respecto al enfoque básico descrito arriba. Un sistema típico de vocabulario amplio necesitaría dependencia del contexto para los fonemas (de modo que los fonemas con contexto izquierdo y derecho diferentes tendrían realizaciones diferentes como estados HMM); utilizaría la normalización cepstral para normalizar para un hablante y condiciones de grabación diferentes; para una normalización adicional del hablante, podría utilizar la normalización de la longitud del tracto vocal (VTLN) para la normalización masculino-femenino y la regresión lineal de máxima verosimilitud (MLLR) para una adaptación más general del hablante. Las características tendrían los denominados coeficientes delta y delta-delta para capturar la dinámica del habla y, además, podrían utilizar el análisis discriminante lineal heterocedástico (HLDA); o podrían omitir los coeficientes delta y delta-delta y utilizar empalmes y una proyección basada en LDA seguida quizás de un análisis discriminante lineal heterocedástico o una transformación de covarianza semiligada global (también conocida como transformación lineal de máxima verosimilitud o MLLT). Muchos sistemas utilizan las llamadas técnicas de entrenamiento discriminativo que prescinden de un enfoque puramente estadístico para la estimación de parámetros HMM y, en su lugar, optimizan alguna medida relacionada con la clasificación de los datos de entrenamiento. Algunos ejemplos son la información mutua máxima (MMI), el error de clasificación mínimo (MCE) y el error telefónico mínimo (MPE).
La decodificación del habla (el término que designa lo que sucede cuando se presenta al sistema un nuevo enunciado y debe calcular la oración fuente más probable) probablemente utilizaría el algoritmo de Viterbi para encontrar el mejor camino, y aquí hay una elección entre crear dinámicamente un modelo combinado oculto de Markov, que incluye tanto la información del modelo acústico como la del lenguaje, y combinarlo estáticamente de antemano (el enfoque del transductor de estados finitos , o FST).
Una posible mejora en la decodificación es mantener un conjunto de buenos candidatos en lugar de solo mantener al mejor candidato, y usar una mejor función de puntuación (re-puntuación) para calificar a estos buenos candidatos de modo que podamos elegir al mejor de acuerdo con esta puntuación refinada. El conjunto de candidatos se puede mantener como una lista (el enfoque de la lista N-mejor) o como un subconjunto de los modelos (una red ). La re-puntuación generalmente se realiza tratando de minimizar el riesgo de Bayes [69] (o una aproximación del mismo). En lugar de tomar la oración fuente con probabilidad máxima, tratamos de tomar la oración que minimiza la expectativa de una función de pérdida dada con respecto a todas las transcripciones posibles (es decir, tomamos la oración que minimiza la distancia promedio a otras oraciones posibles ponderadas por su probabilidad estimada). La función de pérdida generalmente es la distancia de Levenshtein , aunque puede ser distancias diferentes para tareas específicas; el conjunto de transcripciones posibles, por supuesto, se poda para mantener la manejabilidad. Se han ideado algoritmos eficientes para volver a puntuar redes representadas como transductores de estados finitos ponderados con distancias de edición representadas a sí mismas como un transductor de estados finitos que verifica ciertas suposiciones. [70]
La deformación temporal dinámica es un enfoque que se utilizó históricamente para el reconocimiento de voz, pero que ahora ha sido reemplazado en gran medida por el enfoque basado en HMM, más exitoso.
La deformación temporal dinámica es un algoritmo que mide la similitud entre dos secuencias que pueden variar en el tiempo o la velocidad. Por ejemplo, se detectarían similitudes en los patrones de la marcha, incluso si en un vídeo la persona caminaba lentamente y si en otro caminaba más rápido, o incluso si se producían aceleraciones y desaceleraciones durante el curso de una observación. La deformación temporal dinámica se ha aplicado a vídeo, audio y gráficos; de hecho, cualquier dato que pueda convertirse en una representación lineal puede analizarse con la deformación temporal dinámica.
Una aplicación bien conocida ha sido el reconocimiento automático de voz, para hacer frente a diferentes velocidades de habla. En general, es un método que permite a un ordenador encontrar una correspondencia óptima entre dos secuencias dadas (por ejemplo, series temporales) con ciertas restricciones. Es decir, las secuencias se "deforman" de forma no lineal para que coincidan entre sí. Este método de alineación de secuencias se utiliza a menudo en el contexto de los modelos ocultos de Markov.
Las redes neuronales surgieron como un enfoque atractivo de modelado acústico en ASR a fines de la década de 1980. Desde entonces, las redes neuronales se han utilizado en muchos aspectos del reconocimiento de voz, como la clasificación de fonemas, [71] la clasificación de fonemas a través de algoritmos evolutivos multiobjetivo, [72] el reconocimiento de palabras aisladas, [73] el reconocimiento de voz audiovisual , el reconocimiento de hablantes audiovisuales y la adaptación de hablantes.
Las redes neuronales hacen menos suposiciones explícitas sobre las propiedades estadísticas de las características que los HMM y tienen varias cualidades que las convierten en modelos de reconocimiento más atractivos para el reconocimiento de voz. Cuando se utilizan para estimar las probabilidades de un segmento de característica del habla, las redes neuronales permiten un entrenamiento discriminativo de una manera natural y eficiente. Sin embargo, a pesar de su eficacia en la clasificación de unidades de tiempo corto como fonemas individuales y palabras aisladas, [74] las primeras redes neuronales rara vez tuvieron éxito en tareas de reconocimiento continuo debido a su capacidad limitada para modelar dependencias temporales.
Una forma de abordar esta limitación fue utilizar redes neuronales como un paso de preprocesamiento, transformación de características o reducción de dimensionalidad, [75] previo al reconocimiento basado en HMM. Sin embargo, más recientemente, LSTM y redes neuronales recurrentes (RNN) relacionadas, [39] [43] [76] [77] redes neuronales de retardo de tiempo (TDNN), [78] y transformadores [48] [49] [50] han demostrado un mejor desempeño en esta área.
Las redes neuronales profundas y los autocodificadores de eliminación de ruido [79] también están bajo investigación. Una red neuronal de propagación hacia adelante (DNN) profunda es una red neuronal artificial con múltiples capas ocultas de unidades entre las capas de entrada y salida. [53] De manera similar a las redes neuronales superficiales, las DNN pueden modelar relaciones no lineales complejas. Las arquitecturas de DNN generan modelos compositivos, donde las capas adicionales permiten la composición de características de las capas inferiores, lo que brinda una enorme capacidad de aprendizaje y, por lo tanto, el potencial de modelar patrones complejos de datos de voz. [80]
En 2010, investigadores industriales, en colaboración con investigadores académicos, lograron un éxito con las DNN en el reconocimiento de voz de vocabulario amplio, al adoptar grandes capas de salida de la DNN basadas en estados HMM dependientes del contexto construidos mediante árboles de decisión. [81] [82] [83] Véanse revisiones exhaustivas de este desarrollo y del estado del arte a octubre de 2014 en el reciente libro Springer de Microsoft Research. [84] Véanse también los antecedentes relacionados del reconocimiento automático de voz y el impacto de varios paradigmas de aprendizaje automático, incluido en particular el aprendizaje profundo , en artículos de descripción general recientes. [85] [86]
Un principio fundamental del aprendizaje profundo es eliminar la ingeniería de características hecha a mano y utilizar características sin procesar. Este principio se exploró por primera vez con éxito en la arquitectura del autocodificador profundo en las características del espectrograma "sin procesar" o del banco de filtros lineales, [87] demostrando su superioridad sobre las características de Mel-Cepstral que contienen algunas etapas de transformación fija a partir de los espectrogramas. Más recientemente se ha demostrado que las verdaderas características "sin procesar" del habla, las formas de onda, producen excelentes resultados de reconocimiento de voz a gran escala. [88]
Desde 2014, ha habido mucho interés de investigación en ASR "de extremo a extremo". Los enfoques tradicionales basados en fonética (es decir, todos los modelos basados en HMM ) requerían componentes separados y entrenamiento para el modelo de pronunciación, acústico y de lenguaje . Los modelos de extremo a extremo aprenden conjuntamente todos los componentes del reconocedor de voz. Esto es valioso ya que simplifica el proceso de entrenamiento y el proceso de implementación. Por ejemplo, se requiere un modelo de lenguaje de n-gramas para todos los sistemas basados en HMM, y un modelo de lenguaje de n-gramas típico a menudo ocupa varios gigabytes en la memoria, lo que los hace poco prácticos para implementar en dispositivos móviles. [89] En consecuencia, los sistemas ASR comerciales modernos de Google y Apple (a partir de 2017 [actualizar]) se implementan en la nube y requieren una conexión de red en lugar del dispositivo local.
El primer intento de ASR de extremo a extremo fue con sistemas basados en la Clasificación Temporal Conexionista (CTC) introducidos por Alex Graves de Google DeepMind y Navdeep Jaitly de la Universidad de Toronto en 2014. [90] El modelo consistía en redes neuronales recurrentes y una capa CTC. En conjunto, el modelo RNN-CTC aprende la pronunciación y el modelo acústico juntos, sin embargo es incapaz de aprender el idioma debido a los supuestos de independencia condicional similares a un HMM. En consecuencia, los modelos CTC pueden aprender directamente a mapear la acústica del habla a caracteres ingleses, pero los modelos cometen muchos errores ortográficos comunes y deben depender de un modelo de idioma separado para limpiar las transcripciones. Más tarde, Baidu amplió el trabajo con conjuntos de datos extremadamente grandes y demostró cierto éxito comercial en chino mandarín e inglés. [91] En 2016, la Universidad de Oxford presentó LipNet , [92] el primer modelo de lectura de labios de extremo a extremo a nivel de oración, que utiliza convoluciones espaciotemporales acopladas a una arquitectura RNN-CTC, superando el rendimiento a nivel humano en un conjunto de datos de gramática restringida. [93] En 2018, Google DeepMind presentó una arquitectura CNN-RNN-CTC a gran escala que logró un rendimiento 6 veces mejor que los expertos humanos. [94] En 2019, Nvidia lanzó dos modelos ASR CNN-CTC, Jasper y QuarzNet, con un rendimiento general WER del 3%. [95] [96] De manera similar a otras aplicaciones de aprendizaje profundo, el aprendizaje por transferencia y la adaptación de dominios son estrategias importantes para reutilizar y ampliar las capacidades de los modelos de aprendizaje profundo, particularmente debido a los altos costos de entrenar modelos desde cero y al pequeño tamaño del corpus disponible en muchos idiomas y/o dominios específicos. [97] [98] [99]
Un enfoque alternativo a los modelos basados en CTC son los modelos basados en la atención. Los modelos ASR basados en la atención fueron introducidos simultáneamente por Chan et al. de la Universidad Carnegie Mellon y Google Brain y Bahdanau et al. de la Universidad de Montreal en 2016. [100] [101] El modelo llamado "Listen, Attend and Spell" (LAS), literalmente "escucha" la señal acústica, presta "atención" a diferentes partes de la señal y "deletrea" la transcripción un carácter a la vez. A diferencia de los modelos basados en CTC, los modelos basados en la atención no tienen suposiciones de independencia condicional y pueden aprender todos los componentes de un reconocedor de voz, incluida la pronunciación, el modelo acústico y el modelo de lenguaje directamente. Esto significa que, durante la implementación, no es necesario llevar consigo un modelo de lenguaje, lo que lo hace muy práctico para aplicaciones con memoria limitada. A fines de 2016, los modelos basados en la atención han tenido un éxito considerable, incluso superando a los modelos CTC (con o sin un modelo de lenguaje externo). [102] Se han propuesto varias extensiones desde el modelo LAS original. La descomposición de secuencias latentes (LSD) fue propuesta por la Universidad Carnegie Mellon , el MIT y Google Brain para emitir directamente unidades de subpalabras que son más naturales que los caracteres ingleses; [103] La Universidad de Oxford y Google DeepMind extendieron LAS a "Watch, Listen, Attend and Spell" (WLAS) para manejar la lectura de labios superando el desempeño a nivel humano. [104]
Normalmente, una entrada de control manual, por ejemplo mediante un control con el dedo en el volante, activa el sistema de reconocimiento de voz y esto se indica al conductor mediante un mensaje de audio. Después del mensaje de audio, el sistema tiene una "ventana de escucha" durante la cual puede aceptar una entrada de voz para su reconocimiento. [ cita requerida ]
Se pueden utilizar comandos de voz simples para iniciar llamadas telefónicas, seleccionar estaciones de radio o reproducir música desde un teléfono inteligente compatible, un reproductor de MP3 o una unidad flash con música. Las capacidades de reconocimiento de voz varían según la marca y el modelo del automóvil. Algunos de los modelos de automóviles más recientes [ ¿cuándo? ] ofrecen reconocimiento de voz en lenguaje natural en lugar de un conjunto fijo de comandos, lo que permite al conductor usar oraciones completas y frases comunes. Con estos sistemas, por lo tanto, no es necesario que el usuario memorice un conjunto fijo de palabras de comando. [ cita requerida ]
La evaluación automática de la pronunciación es el uso del reconocimiento de voz para verificar la exactitud del habla pronunciada, [105] a diferencia de la evaluación manual por parte de un instructor o supervisor. [106] También llamada verificación del habla, evaluación de la pronunciación y puntuación de la pronunciación, la principal aplicación de esta tecnología es la enseñanza de la pronunciación asistida por computadora (CAPT) cuando se combina con la instrucción asistida por computadora para el aprendizaje de idiomas asistido por computadora (CALL), la corrección del habla o la reducción del acento . La evaluación de la pronunciación no determina el habla desconocida (como en el dictado o la transcripción automática ), sino que, conociendo de antemano las palabras esperadas, intenta verificar la exactitud de la pronunciación del alumno e idealmente su inteligibilidad para los oyentes, [107] [108] a veces junto con prosodia a menudo intrascendente como la entonación , el tono , el tempo , el ritmo y el acento . [109] La evaluación de la pronunciación también se utiliza en la tutoría de lectura , por ejemplo, en productos como Microsoft Teams [110] y de Amira Learning. [111] La evaluación automática de la pronunciación también se puede utilizar para ayudar a diagnosticar y tratar trastornos del habla como la apraxia . [112]
Evaluar la inteligibilidad auténtica del oyente es esencial para evitar imprecisiones debidas al sesgo de acento , especialmente en evaluaciones de alto riesgo; [113] [114] [115] de palabras con múltiples pronunciaciones correctas; [116] y de errores de codificación de fonemas en diccionarios de pronunciación legibles por máquina. [117] En 2022, los investigadores descubrieron que algunos sistemas de voz a texto más nuevos, basados en el aprendizaje de refuerzo de extremo a extremo para mapear señales de audio directamente en palabras, producen puntajes de confianza de palabras y frases muy estrechamente correlacionados con la inteligibilidad genuina del oyente. [118] En los criterios de evaluación del Marco Común Europeo de Referencia para las Lenguas (MCER) para el "control fonológico general", la inteligibilidad supera a la pronunciación formalmente correcta en todos los niveles. [119]
En el sector de la atención médica , el reconocimiento de voz se puede implementar en el front-end o en el back-end del proceso de documentación médica. El reconocimiento de voz front-end es cuando el proveedor dicta en un motor de reconocimiento de voz, las palabras reconocidas se muestran a medida que se pronuncian y el dictador es responsable de editar y aprobar el documento. El reconocimiento de voz back-end o diferido es cuando el proveedor dicta en un sistema de dictado digital , la voz se enruta a través de una máquina de reconocimiento de voz y el borrador del documento reconocido se enruta junto con el archivo de voz original al editor, donde se edita el borrador y se finaliza el informe. El reconocimiento de voz diferido se usa ampliamente en la industria actualmente.
Uno de los principales problemas relacionados con el uso del reconocimiento de voz en la atención médica es que la Ley de Recuperación y Reinversión Estadounidense de 2009 ( ARRA ) prevé importantes beneficios financieros para los médicos que utilicen un EMR de acuerdo con los estándares de "Uso significativo". Estos estándares requieren que el EMR (ahora más comúnmente conocido como Historia Clínica Electrónica o EHR) conserve una cantidad sustancial de datos. El uso del reconocimiento de voz es más adecuado para la generación de texto narrativo, como parte de una interpretación de radiología/patología, una nota de progreso o un resumen del alta: las ganancias ergonómicas de usar el reconocimiento de voz para ingresar datos discretos estructurados (por ejemplo, valores numéricos o códigos de una lista o un vocabulario controlado ) son relativamente mínimas para las personas que tienen visión y pueden operar un teclado y un mouse.
Un problema más importante es que la mayoría de los registros médicos electrónicos no han sido diseñados expresamente para aprovechar las capacidades de reconocimiento de voz. Una gran parte de la interacción del médico con el registro médico electrónico implica la navegación a través de la interfaz de usuario mediante menús y clics en pestañas y botones, y depende en gran medida del teclado y el ratón: la navegación basada en voz proporciona sólo modestos beneficios ergonómicos. Por el contrario, muchos sistemas altamente personalizados para dictado de radiología o patología implementan "macros" de voz, donde el uso de ciertas frases (por ejemplo, "informe normal") completará automáticamente una gran cantidad de valores predeterminados y/o generará un texto estándar, que variará según el tipo de examen (por ejemplo, una radiografía de tórax frente a una serie de contraste gastrointestinal para un sistema de radiología).
El uso prolongado de software de reconocimiento de voz junto con procesadores de texto ha demostrado tener beneficios en el fortalecimiento de la memoria a corto plazo en pacientes con malformaciones arteriovenosas cerebrales que han sido tratados con resección . Es necesario realizar más investigaciones para determinar los beneficios cognitivos para las personas cuyas malformaciones arteriovenosas han sido tratadas con técnicas radiológicas. [ cita requerida ]
En la última década se han dedicado esfuerzos sustanciales a la prueba y evaluación del reconocimiento de voz en aviones de combate . Cabe destacar especialmente el programa estadounidense de reconocimiento de voz para el avión AFTI (Advanced Fighter Technology Integration) / F-16 ( F-16 VISTA ), el programa en Francia para aviones Mirage y otros programas en el Reino Unido que tratan con una variedad de plataformas de aeronaves. En estos programas, los reconocedores de voz se han utilizado con éxito en aviones de combate, con aplicaciones que incluyen el ajuste de frecuencias de radio, el comando de un sistema de piloto automático, el ajuste de coordenadas de punto de dirección y parámetros de liberación de armas y el control de la pantalla de vuelo.
Englund (2004) trabajó con pilotos suecos que volaban en la cabina del piloto del JAS-39 Gripen y descubrió que el reconocimiento se deterioraba con el aumento de las cargas g . El informe también concluyó que la adaptación mejoraba enormemente los resultados en todos los casos y que la introducción de modelos de respiración había demostrado mejorar significativamente las puntuaciones de reconocimiento. Contrariamente a lo que se podría haber esperado, no se encontraron efectos del inglés deficiente de los hablantes. Era evidente que el habla espontánea causaba problemas al reconocedor, como era de esperar. Por lo tanto, se podía esperar que un vocabulario restringido y, sobre todo, una sintaxis adecuada, mejoraran sustancialmente la precisión del reconocimiento. [120]
El Eurofighter Typhoon , actualmente en servicio en la RAF del Reino Unido , emplea un sistema que depende del altavoz, lo que requiere que cada piloto cree una plantilla. El sistema no se utiliza para ninguna tarea crítica para la seguridad o el armamento, como la liberación de armas o el descenso del tren de aterrizaje, pero se utiliza para una amplia gama de otras funciones de la cabina. Los comandos de voz se confirman mediante retroalimentación visual y/o auditiva. El sistema se considera una característica de diseño importante en la reducción de la carga de trabajo del piloto , [121] e incluso permite al piloto asignar objetivos a su aeronave con dos simples comandos de voz o a cualquiera de sus compañeros de ala con solo cinco comandos. [122]
También se están desarrollando sistemas independientes del hablante y se están probando para el F-35 Lightning II (JSF) y el entrenador de combate principal Alenia Aermacchi M-346 Master . Estos sistemas han producido puntuaciones de precisión de palabras superiores al 98 %. [123]
Los problemas de lograr una alta precisión de reconocimiento bajo estrés y ruido son particularmente relevantes en el entorno de los helicópteros , así como en el entorno de los aviones de combate. El problema del ruido acústico es en realidad más grave en el entorno de los helicópteros, no sólo por los altos niveles de ruido, sino también porque el piloto del helicóptero, en general, no lleva una máscara facial , lo que reduciría el ruido acústico en el micrófono . En la última década se han llevado a cabo importantes programas de prueba y evaluación en aplicaciones de sistemas de reconocimiento de voz en helicópteros, en particular por la Actividad de Investigación y Desarrollo de Aviónica del Ejército de los EE. UU. (AVRADA) y por el Royal Aerospace Establishment ( RAE ) en el Reino Unido. El trabajo en Francia ha incluido el reconocimiento de voz en el helicóptero Puma . También ha habido mucho trabajo útil en Canadá . Los resultados han sido alentadores, y las aplicaciones de voz han incluido: control de radios de comunicación, configuración de sistemas de navegación y control de un sistema automatizado de entrega de objetivos.
Al igual que en las aplicaciones de combate, la cuestión primordial en el caso de la voz en helicópteros es el impacto en la eficacia del piloto. Se han informado resultados alentadores de las pruebas AVRADA, aunque estos representan solo una demostración de viabilidad en un entorno de prueba. Aún queda mucho por hacer, tanto en el reconocimiento de voz como en la tecnología de voz en general , para lograr mejoras constantes en el rendimiento en entornos operativos.
La formación de los controladores de tráfico aéreo (ATC) representa una excelente aplicación de los sistemas de reconocimiento de voz. Muchos sistemas de formación de ATC requieren actualmente que una persona actúe como un "pseudopiloto", entablando un diálogo de voz con el controlador en formación, que simula el diálogo que el controlador tendría que mantener con los pilotos en una situación real de ATC. Las técnicas de reconocimiento y síntesis de voz ofrecen la posibilidad de eliminar la necesidad de que una persona actúe como un pseudopiloto, reduciendo así el personal de formación y apoyo. En teoría, las tareas de los controladores aéreos también se caracterizan por un habla altamente estructurada como salida principal del controlador, por lo que debería ser posible reducir la dificultad de la tarea de reconocimiento de voz. En la práctica, esto rara vez ocurre. El documento 7110.65 de la FAA detalla las frases que deben utilizar los controladores de tráfico aéreo. Si bien este documento proporciona menos de 150 ejemplos de dichas frases, la cantidad de frases admitidas por uno de los sistemas de reconocimiento de voz de los proveedores de simulación supera las 500.000.
La USAF, el USMC, el Ejército de los EE. UU., la Marina de los EE. UU. y la FAA, así como varias organizaciones internacionales de capacitación ATC como la Real Fuerza Aérea Australiana y las Autoridades de Aviación Civil de Italia, Brasil y Canadá, están utilizando actualmente simuladores ATC con reconocimiento de voz de varios proveedores diferentes. [ cita requerida ]
El ASR es ya un uso habitual en el ámbito de la telefonía y se está extendiendo cada vez más en el ámbito de los juegos y la simulación por ordenador . En los sistemas de telefonía, el ASR se utiliza ahora sobre todo en los centros de contacto, integrándolo con los sistemas de respuesta de voz interactiva (IVR) . A pesar del alto nivel de integración con el procesamiento de textos en la informática personal en general, en el ámbito de la producción de documentos, el ASR no ha experimentado el aumento de uso esperado.
La mejora de la velocidad de los procesadores móviles ha hecho que el reconocimiento de voz sea práctico en los teléfonos inteligentes . El habla se utiliza principalmente como parte de una interfaz de usuario para crear comandos de voz predefinidos o personalizados.
Las personas con discapacidades pueden beneficiarse de los programas de reconocimiento de voz. En el caso de las personas sordas o con problemas de audición, se utiliza un software de reconocimiento de voz para generar automáticamente subtítulos de conversaciones, como debates en salas de conferencias, clases o servicios religiosos. [124]
Los estudiantes ciegos (ver Ceguera y educación ) o que tienen muy baja visión pueden beneficiarse del uso de la tecnología para transmitir palabras y luego escuchar a la computadora recitarlas, así como también usar una computadora dando órdenes con su voz, en lugar de tener que mirar la pantalla y el teclado. [125]
Los estudiantes con discapacidades físicas que sufren lesiones por esfuerzo repetitivo u otras lesiones en las extremidades superiores pueden evitar tener que preocuparse por escribir a mano, mecanografiar o trabajar con un escriba en las tareas escolares mediante programas de conversión de voz a texto. También pueden utilizar la tecnología de reconocimiento de voz para disfrutar de la navegación en Internet o el uso de una computadora en casa sin tener que operar físicamente un mouse y un teclado. [125]
El reconocimiento de voz puede permitir que los estudiantes con discapacidades de aprendizaje se conviertan en mejores escritores. Al decir las palabras en voz alta, pueden aumentar la fluidez de su escritura y aliviar las preocupaciones relacionadas con la ortografía, la puntuación y otros aspectos mecánicos de la escritura. [126] Véase también Discapacidad de aprendizaje .
El uso de software de reconocimiento de voz, en conjunto con una grabadora de audio digital y una computadora personal con software de procesamiento de textos ha demostrado ser positivo para restaurar la capacidad de memoria a corto plazo dañada en individuos que han sufrido un accidente cerebrovascular y una craneotomía.
El reconocimiento de voz también es muy útil para las personas que tienen dificultades para usar sus manos, desde lesiones leves por estrés repetitivo hasta discapacidades que impiden el uso de dispositivos de entrada de computadora convencionales. De hecho, las personas que usaban mucho el teclado y desarrollaron RSI se convirtieron en un mercado temprano urgente para el reconocimiento de voz. [127] [128] El reconocimiento de voz se utiliza en telefonía para sordos , como correo de voz a texto, servicios de retransmisión y teléfono subtitulado . Las personas con discapacidades de aprendizaje que tienen problemas con la comunicación de pensamiento a papel (esencialmente piensan en una idea pero se procesa incorrectamente haciendo que termine de manera diferente en el papel) posiblemente puedan beneficiarse del software, pero la tecnología no es a prueba de errores. [129] Además, toda la idea de hablar a texto puede ser difícil para las personas con discapacidad intelectual debido al hecho de que es raro que alguien intente aprender la tecnología para enseñarle a la persona con la discapacidad. [130]
Este tipo de tecnología puede ayudar a las personas con dislexia, pero otras discapacidades aún están en tela de juicio. La eficacia del producto es el problema que impide que sea eficaz. Aunque un niño puede ser capaz de decir una palabra dependiendo de lo claro que la diga, la tecnología puede pensar que está diciendo otra palabra e introducir la incorrecta. Esto les da más trabajo para corregir, lo que hace que tengan que dedicar más tiempo a corregir la palabra incorrecta. [131]
El rendimiento de los sistemas de reconocimiento de voz se suele evaluar en términos de precisión y velocidad. [136] [137] La precisión se suele evaluar con la tasa de error de palabras (WER), mientras que la velocidad se mide con el factor de tiempo real. Otras medidas de precisión incluyen la tasa de error de una sola palabra (SWER) y la tasa de éxito de comandos (CSR).
Sin embargo, el reconocimiento de voz por parte de máquinas es un problema muy complejo. Las vocalizaciones varían en términos de acento, pronunciación, articulación, aspereza, nasalidad, tono, volumen y velocidad. El habla se distorsiona por el ruido de fondo y los ecos, características eléctricas. La precisión del reconocimiento de voz puede variar según lo siguiente: [138] [ cita requerida ]
Como se mencionó anteriormente en este artículo, la precisión del reconocimiento de voz puede variar dependiendo de los siguientes factores:
En el habla discontinua se utilizan frases completas separadas por silencios, por lo que resulta más fácil reconocer el habla, al igual que en el habla aislada.
En el habla continua se utilizan frases habladas de forma natural, por lo que resulta más difícil reconocer el habla, a diferencia tanto del habla aislada como del discontinuo.
Las restricciones a menudo se representan mediante la gramática.
El reconocimiento de voz es una tarea de reconocimiento de patrones de varios niveles.
p. ej. Pronunciaciones de palabras conocidas o secuencias de palabras legales, que pueden compensar errores o incertidumbres en un nivel inferior;
Para el habla telefónica, la frecuencia de muestreo es de 8000 muestras por segundo;
se calcula cada 10 ms, con una sección de 10 ms denominada trama;
El análisis de los enfoques de redes neuronales de cuatro pasos se puede explicar con más información. El sonido se produce por la vibración del aire (o de algún otro medio), que registramos con los oídos, pero las máquinas con los receptores. El sonido básico crea una onda que tiene dos descripciones: amplitud (qué tan fuerte es) y frecuencia (cuántas veces vibra por segundo). La precisión se puede calcular con la ayuda de la tasa de error de palabras (WER). La tasa de error de palabras se puede calcular alineando la palabra reconocida y la palabra referenciada utilizando la alineación de cadenas dinámica. El problema puede ocurrir al calcular la tasa de error de palabras debido a la diferencia entre las longitudes de secuencia de la palabra reconocida y la palabra referenciada.
La fórmula para calcular la tasa de error de palabras (WER) es:
donde s es el número de sustituciones, d es el número de eliminaciones, i es el número de inserciones y n es el número de referencias de palabras.
Para el cálculo se utiliza la tasa de reconocimiento de palabras (WRR). La fórmula es la siguiente:
donde h es el número de palabras reconocidas correctamente:
El reconocimiento de voz puede convertirse en un medio de ataque, robo o manejo accidental. Por ejemplo, palabras de activación como "Alexa" pronunciadas en una transmisión de audio o video pueden hacer que los dispositivos en hogares y oficinas comiencen a escuchar entradas de manera inapropiada o posiblemente realicen una acción no deseada. [140] Los dispositivos controlados por voz también son accesibles para los visitantes del edificio, o incluso para aquellos fuera del edificio si se los puede escuchar en el interior. Los atacantes pueden obtener acceso a información personal, como calendario, contenido de la libreta de direcciones, mensajes privados y documentos. También pueden suplantar la identidad del usuario para enviar mensajes o realizar compras en línea.
Se han demostrado dos ataques que utilizan sonidos artificiales. Uno transmite ultrasonidos e intenta enviar órdenes sin que las personas cercanas se den cuenta. [141] El otro añade pequeñas distorsiones inaudibles a otras voces o música que están especialmente diseñadas para confundir al sistema de reconocimiento de voz específico y hacer que reconozca la música como voz, o para hacer que lo que suena como una orden para un humano suene como una orden diferente para el sistema. [142]
Las conferencias populares sobre reconocimiento de voz que se celebran cada uno o dos años incluyen SpeechTEK y SpeechTEK Europe, ICASSP , Interspeech/Eurospeech y la IEEE ASRU. Las conferencias en el campo del procesamiento del lenguaje natural , como ACL , NAACL , EMNLP y HLT, están empezando a incluir artículos sobre procesamiento del habla . Entre las revistas importantes se incluyen IEEE Transactions on Speech and Audio Processing (posteriormente renombrada IEEE Transactions on Audio, Speech and Language Processing y desde septiembre de 2014 renombrada IEEE /ACM Transactions on Audio, Speech and Language Processing, tras fusionarse con una publicación de ACM), Computer Speech and Language y Speech Communication.
Libros como "Fundamentals of Speech Recognition" de Lawrence Rabiner pueden ser útiles para adquirir conocimientos básicos, pero es posible que no estén completamente actualizados (1993). Otra buena fuente puede ser "Statistical Methods for Speech Recognition" de Frederick Jelinek y "Spoken Language Processing (2001)" de Xuedong Huang , etc., "Computer Speech", de Manfred R. Schroeder , segunda edición publicada en 2004, y "Speech Processing: A Dynamic and Optimization-Oriented Approach" publicado en 2003 por Li Deng y Doug O'Shaughnessey. El libro de texto actualizado Speech and Language Processing (2008) de Jurafsky y Martin presenta los conceptos básicos y el estado del arte para ASR. El reconocimiento de hablantes también utiliza las mismas características, la mayor parte del mismo procesamiento frontal y las técnicas de clasificación que se utilizan en el reconocimiento de voz. Un libro de texto completo, "Fundamentals of Speaker Recognition" (Fundamentos del reconocimiento de hablantes) es una fuente exhaustiva de detalles actualizados sobre la teoría y la práctica. [143] Se puede obtener una buena idea de las técnicas utilizadas en los mejores sistemas modernos prestando atención a las evaluaciones patrocinadas por el gobierno, como las organizadas por DARPA (el proyecto más grande relacionado con el reconocimiento de voz en curso en 2007 es el proyecto GALE, que involucra componentes tanto de reconocimiento de voz como de traducción).
Una buena y accesible introducción a la tecnología de reconocimiento de voz y su historia la ofrece el libro para público general "La voz en la máquina. Construyendo computadoras que entienden el habla" de Roberto Pieraccini (2012).
El libro más reciente sobre reconocimiento de voz es Automatic Speech Recognition: A Deep Learning Approach (Editorial: Springer) escrito por los investigadores de Microsoft D. Yu y L. Deng y publicado a finales de 2014, con detalles técnicos altamente orientados a las matemáticas sobre cómo se derivan e implementan los métodos de aprendizaje profundo en los sistemas de reconocimiento de voz modernos basados en DNN y métodos de aprendizaje profundo relacionados. [84] Un libro relacionado, publicado a principios de 2014, "Deep Learning: Methods and Applications" de L. Deng y D. Yu proporciona una descripción general menos técnica pero más centrada en la metodología del reconocimiento de voz basado en DNN durante 2009-2014, ubicado dentro del contexto más general de aplicaciones de aprendizaje profundo que incluyen no solo reconocimiento de voz sino también reconocimiento de imágenes, procesamiento de lenguaje natural, recuperación de información, procesamiento multimodal y aprendizaje multitarea. [80]
En términos de recursos disponibles de forma gratuita, el kit de herramientas Sphinx de la Universidad Carnegie Mellon es un lugar para comenzar a aprender sobre el reconocimiento de voz y comenzar a experimentar. Otro recurso (gratuito pero con derechos de autor) es el libro HTK (y el kit de herramientas HTK que lo acompaña). Para técnicas más recientes y de última generación, se puede utilizar el kit de herramientas Kaldi . [144] En 2017, Mozilla lanzó el proyecto de código abierto llamado Common Voice [145] para recopilar una gran base de datos de voces que ayudaría a construir el proyecto de reconocimiento de voz gratuito DeepSpeech (disponible de forma gratuita en GitHub ), [146] utilizando la plataforma de código abierto TensorFlow de Google . [147] Cuando Mozilla redirigió la financiación del proyecto en 2020, sus desarrolladores originales lo bifurcaron como Coqui STT [148] utilizando la misma licencia de código abierto. [149] [150]
Google Gboard admite el reconocimiento de voz en todas las aplicaciones de Android . Se puede activar a través del icono del micrófono . [151]
Las API de reconocimiento de voz basadas en la nube comerciales están ampliamente disponibles.
Para obtener más recursos de software, consulte Lista de software de reconocimiento de voz .
Cuando hablas con alguien, esa persona no solo reconoce lo que dices: reconoce quién eres. WhisperID también permitirá que las computadoras hagan eso, averiguando quién eres por la forma en que hablas.
Maners dijo que IBM ha trabajado en el avance del reconocimiento de voz... o en el piso de una ruidosa feria comercial.
Las primeras aplicaciones del software de reconocimiento de voz fueron el dictado ... Hace cuatro meses, IBM presentó un 'producto de dictado continuo' diseñado para ... debutó en la feria comercial de la Asociación Nacional de Viajes de Negocios en 1994.
Hace apenas unos años, el reconocimiento de voz se limitaba a...
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )solo el 16% de la variabilidad en la inteligibilidad a nivel de palabra puede explicarse por la presencia de pronunciaciones erróneas obvias.
Los investigadores de la pronunciación están interesados principalmente en mejorar la inteligibilidad y la comprensibilidad de los estudiantes de L2, pero aún no han recopilado cantidades suficientes de datos representativos y confiables (grabaciones de habla con las anotaciones y juicios correspondientes) que indiquen qué errores afectan a estas dimensiones del habla y cuáles no. Estos datos son esenciales para entrenar algoritmos ASR para evaluar la inteligibilidad de los estudiantes de L2.