Modelo de lenguaje de caché

Un modelo de lenguaje de caché es un tipo de modelo de lenguaje estadístico . Estos se encuentran en el subcampo de procesamiento del lenguaje natural de la informática y asignan probabilidades a secuencias dadas de palabras por medio de una distribución de probabilidad . Los modelos de lenguaje estadístico son componentes clave de los sistemas de reconocimiento de voz y de muchos sistemas de traducción automática : indican a dichos sistemas qué posibles secuencias de palabras de salida son probables y cuáles son improbables. La característica particular de un modelo de lenguaje de caché es que contiene un componente de caché y asigna probabilidades relativamente altas a palabras o secuencias de palabras que aparecen en otras partes de un texto determinado. El uso principal, pero de ninguna manera el único, de los modelos de lenguaje de caché es en los sistemas de reconocimiento de voz. ^{[ cita requerida ]}

Para entender por qué es una buena idea que un modelo de lenguaje estadístico contenga un componente de caché, se podría considerar a alguien que está dictando una carta sobre elefantes a un sistema de reconocimiento de voz. Los modelos de lenguaje N-gramas estándar (sin caché) asignarán una probabilidad muy baja a la palabra "elefante" porque es una palabra muy rara en inglés . Si el sistema de reconocimiento de voz no contiene un componente de caché, la persona que dicta la carta puede molestarse: cada vez que se dice la palabra "elefante", se puede reconocer otra secuencia de palabras con una probabilidad más alta según el modelo de lenguaje N-grama (por ejemplo, "contar un plan"). Estas secuencias erróneas tendrán que eliminarse manualmente y reemplazarse en el texto por "elefante" cada vez que se diga "elefante". Si el sistema tiene un modelo de lenguaje de caché, es probable que "elefante" aún se reconozca incorrectamente la primera vez que se diga y tendrá que ingresarse en el texto manualmente; Sin embargo, a partir de este punto, el sistema es consciente de que es probable que "elefante" vuelva a aparecer: la probabilidad estimada de ocurrencia de "elefante" se ha incrementado, lo que hace que sea más probable que, si se pronuncia, se reconozca correctamente. Una vez que "elefante" ha aparecido varias veces, es probable que el sistema lo reconozca correctamente cada vez que se pronuncia hasta que la letra se haya dictado por completo. Este aumento en la probabilidad asignada a la aparición de "elefante" es un ejemplo de una consecuencia del aprendizaje automático y, más específicamente, del reconocimiento de patrones .

Existen variantes del modelo de lenguaje caché en las que no sólo se asignan probabilidades más altas a palabras individuales sino también a secuencias de múltiples palabras que han ocurrido previamente (por ejemplo, si "San Francisco" ocurrió cerca del comienzo del texto, a las instancias subsiguientes se les asignaría una probabilidad más alta). ^{[ cita requerida ]}

El modelo de lenguaje caché se propuso por primera vez en un artículo publicado en 1990 ^[1] , después de lo cual el grupo de reconocimiento de voz de IBM experimentó con el concepto. El grupo descubrió que la implementación de una forma de modelo de lenguaje caché produjo una caída del 24% en las tasas de errores de palabras una vez que se habían dictado los primeros cientos de palabras de un documento ^[2] . Un estudio detallado de las técnicas de modelado de lenguaje concluyó que el modelo de lenguaje caché era una de las pocas técnicas de modelado de lenguaje nuevas que producían mejoras con respecto al enfoque estándar de N-gramas: "Nuestros resultados de almacenamiento en caché muestran que el almacenamiento en caché es, con diferencia, la técnica más útil para la reducción de la perplejidad en tamaños de datos de entrenamiento pequeños y medianos ". ^[3]

El desarrollo del modelo de lenguaje caché ha generado un interés considerable entre aquellos interesados en la lingüística computacional en general y en el procesamiento estadístico del lenguaje natural en particular: recientemente, ha habido interés en aplicar el modelo de lenguaje caché en el campo de la traducción automática estadística. ^[4]

El éxito del modelo de lenguaje caché a la hora de mejorar la predicción de palabras se basa en la tendencia humana a utilizar las palabras de forma "rápida": cuando se habla de un tema determinado en un contexto determinado, la frecuencia con la que se utilizan determinadas palabras será muy distinta de la frecuencia con la que se utilizan cuando se habla de otros temas en otros contextos. Los modelos de lenguaje tradicionales de N-gramas, que se basan exclusivamente en la información de un número muy pequeño (cuatro, tres o dos) de palabras que preceden a la palabra a la que se va a asignar una probabilidad, no modelan adecuadamente esta "ráfaga". ^{[ cita requerida ]}

Recientemente, el concepto de modelo de lenguaje caché (originalmente concebido para el paradigma del modelo de lenguaje estadístico de N-gramas) se ha adaptado para su uso en el paradigma neuronal. Por ejemplo, trabajos recientes sobre modelos de lenguaje caché continuos en el entorno de redes neuronales recurrentes (RNN) han aplicado el concepto de caché a contextos mucho más amplios que antes, lo que ha producido reducciones significativas en la perplejidad. ^[5] Otra línea de investigación reciente implica la incorporación de un componente de caché en un modelo de lenguaje neuronal de avance (FN-LM) para lograr una rápida adaptación del dominio. ^[6]

Véase también

Referencias

^ Kuhn, R.; De Mori, R. (junio de 1990). "Un modelo de lenguaje natural basado en caché para el reconocimiento de voz" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 12 (6): 570–583. doi :10.1109/34.56193. ISSN 1939-3539. Archivado desde el original (PDF) el 2011-09-01 . Consultado el 2011-09-24 .(Abstracto)
^ F. Jelinek; B. Merialdo; S. Roukos y M. Strauss (1991). "Un modelo de lenguaje dinámico para el reconocimiento de voz" (PDF) . The Journal of the Acoustical Society of America . 98 (2): 293–295. doi :10.3115/112405.112464. S2CID 11601499. Archivado desde el original (PDF) el 14 de junio de 2006.Conferencia: Habla y lenguaje natural, actas de un taller celebrado en Pacific Grove, California, EE.UU., del 19 al 22 de febrero de 1999.
^ Joshua T. Goodman (2001). Un poco de progreso en el modelado del lenguaje: versión extendida . Redmond, WA (EE. UU.): Microsoft Research. arXiv : cs/0108005v1 . Código bibliográfico :2001cs........8005G. Informe técnico MSR-TR-2001-72.
^ Tiedemann, Jorg (2010). Adaptación del contexto en la traducción automática estadística mediante modelos con caché de descomposición exponencial (PDF) . Actas del taller de 2010 sobre adaptación del dominio para el procesamiento del lenguaje natural, ACL 2010. Uppsala, Suecia: Asociación de Lingüística Computacional. pp. 8–15.
^ Edouard Grave; Moustapha Cisse; Armand Joulin (2017). "Modelo de caché ilimitado para el modelado de lenguaje en línea con vocabulario abierto". NIPS'17 Actas de la 31.ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . Long Beach, California: Association for Computing Machinery. págs. 6044–6054. ISBN 978-1-5108-6096-4.
^ Karel Benes; Santosh Kesiraju; Lukas Burget (2018). i-Vectores en el modelado del lenguaje: una forma eficiente de adaptación de dominios para modelos de propagación hacia adelante . Interspeech 2018. Hyderabad, India: Interspeech. págs. 3383–3387. doi :10.21437/Interspeech.2018-1070. S2CID 52192034.

Lectura adicional

Jelinek, Frederick (1997). Métodos estadísticos para el reconocimiento de voz. The MIT Press . ISBN 0-262-10066-5Archivado desde el original el 5 de agosto de 2011. Consultado el 24 de septiembre de 2011 .