N-grama

El estudio de los n-gramas es interesante en diversas áreas del conocimiento.Por ejemplo en el estudio del lenguaje natural podríamos construir los n-gramas sobre la base de distintos tipos de elementos como por ejemplo fonemas, sílabas, letras, palabras.En casi todos los casos, los signos de puntuación se eliminan durante el preproceso.Debido a limitaciones computacionales y a la normalmente naturaleza abierta de los problemas (suele haber infinitos elementos posibles), se suele asumir que cada elemento solo depende de los últimos n elementos de la secuencia.: a = 0.05, b = 0.00001, ..., e = 0.4, f = 0,....; donde las probabilidades de todas las posibles letras siguientes suman 1.0.Parte de esa información, Google n-gram corpus, está accesible a través del Google Ngram Viewer que se puede acceder de forma pública en bruto o a través de una interfaz web.Otra aplicación típica de esta información es descubrir tendencia analizando la presencia de ciertos sustantivos y viendo como se les va prestando más o menos atención (más o menos presencias) según la fecha de publicación e idioma del libro.Empleando esta representación, perdemos información sobre la cadena de texto.Por ejemplo, las cadenas "abcba" y "bcbab" llevarán exactamente a los mismos digramas.Sin embargo, se conoce empíricamente que si dos cadenas de texto real tienen una representación vectorial similar (medida a través del producto escalar) es muy probable que sean similares.Aplicaciones prácticas de esta técnica son: Los n-gramas se emplean en diversas áreas de la informática, lingüística computacional, y matemática aplicada.Los n-gramas también pueden emplearse para encontrar candidatos probables para la correcta ortografía de una palabra mal escrita.[9][10] [11] Por ejemplo, la oración "las noticias económicas tienen poco efecto sobre los mercados financieros" puede ser transformada a n-gramas sintácticos siguiendo la estructura de sus relaciones de dependencia : tienen-noticias, efecto-poco, tienen-sobre-mercados-los.[9] Los n-gramas sintácticos están destinadas a reflejar la estructura sintáctica más fielmente que los n-gramas lineales, y tienen muchas de las mismas aplicaciones, especialmente como características en un modelo de espacio vectorial.