Modelación del lenguaje
Modelación del lenguaje hace referencia a la tarea de predecir la siguiente palabra o carácter en un documento.[1] Esto se realiza por medio de información estadística asociada con un vocabulario específico, que tiene el objetivo de predecir las palabras con más probabilidades de ser utilizadas.El modelo de lenguaje desempeña un papel fundamental al proporcionar un contexto que permite discernir entre palabras y frases que, a nivel auditivo, pueden parecer similares.Por ejemplo, en inglés americano, las frases "recognize speech" y "wreck a nice beach" se pronuncian de manera parecida, pero tienen significados completamente distintos.Estas ambigüedades se resuelven de manera más efectiva cuando se combina la información del modelo de lenguaje con los modelos de pronunciación y acústicos.[2] Los modelos del lenguaje se utilizan en la recuperación de información en el modelo de consulta probabilístico.Aquí, un modelo del lenguaje está asociado con cada documento en una colección.Comúnmente, el modelo del lenguaje unigrama (conocido también como el modelo bolsa de palabras) se utiliza para este propósito.Una solución es hacer la hipótesis de que la probabilidad sea posible.[3] Divide las probabilidades de diferentes términos en un contexto, por ejemplo, desdePara cada autómata, solo tenemos una manera de alcanzar su único estado, asignado con una probabilidad.El siguiente es un modelo unigrama de un documento.La probabilidad generada para una consulta específica se calcula como( q u e r y ) =Se pueden construir distintos modelos unigrama para variados documentos, para generar diferentes probabilidades de acierto en una consulta.Un enfoque común es generar un modelo de máxima verosimilitud para la colección entera, e interpolar linealmente el modelo de colección con un modelo de máxima verosimilitud para cada documento para crear un modelo de documento suavizado.c o u n t (c o u n t (Las palabras bigrama' y modelo del lenguaje trigrama denotan modelos de lenguaje n-grama con n=2 y n=3, respectivamente.[5] Típicamente, sin embargo, las probabilidades de n-grama no se derivan directamente de los recuentos de frecuencia, porque los modelos derivados de esta manera tienen graves problemas cuando se enfrentan a cualquier n-grama que explícitamente no se ha visto antes.En cambio, alguna forma de suavizado es necesaria, asignando una porción de la probabilidad total a las palabras o n-gramas que no se han visto anteriormente.Se utilizan varios métodos, desde la técnica de suavizado simple "agrega-uno" (añade artificialmente una observación a todos los elementos del vocabulario) a modelos más sofisticados, como El descuento Good-Turing, modelos de back-off o interpolación.En un modelo del lenguaje bígama (n = 2), la probabilidad de que la frase I saw the red house se aproxima como( h o u s eh o u s e )mientras que en un modelo del lenguaje trigrama (n = 3), la aproximación ess a w , t h e )( h o u s eTenga en cuenta que el contexto de los primeros firstDel mismo modo, los modelos de bolsa de conceptos[7] de apalancamiento en la semántica es asociada con expresiones de varias palabras como: "buy christmas present", incluso cuando se utilizan en oraciones ricas en información, como "today I bought a lot of very nice Christmas presents".