El estudio de los n-gramas es interesante en diversas áreas del conocimiento.
Por ejemplo en el estudio del lenguaje natural podríamos construir los n-gramas sobre la base de distintos tipos de elementos como por ejemplo fonemas, sílabas, letras, palabras.
En casi todos los casos, los signos de puntuación se eliminan durante el preproceso.
Debido a limitaciones computacionales y a la normalmente naturaleza abierta de los problemas (suele haber infinitos elementos posibles), se suele asumir que cada elemento solo depende de los últimos n elementos de la secuencia.
: a = 0.05, b = 0.00001, ..., e = 0.4, f = 0,....; donde las probabilidades de todas las posibles letras siguientes suman 1.0.
Parte de esa información, Google n-gram corpus, está accesible a través del Google Ngram Viewer que se puede acceder de forma pública en bruto o a través de una interfaz web.
Otra aplicación típica de esta información es descubrir tendencia analizando la presencia de ciertos sustantivos y viendo como se les va prestando más o menos atención (más o menos presencias) según la fecha de publicación e idioma del libro.
Empleando esta representación, perdemos información sobre la cadena de texto.
Por ejemplo, las cadenas "abcba" y "bcbab" llevarán exactamente a los mismos digramas.
Sin embargo, se conoce empíricamente que si dos cadenas de texto real tienen una representación vectorial similar (medida a través del producto escalar) es muy probable que sean similares.
Aplicaciones prácticas de esta técnica son: Los n-gramas se emplean en diversas áreas de la informática, lingüística computacional, y matemática aplicada.
Los n-gramas también pueden emplearse para encontrar candidatos probables para la correcta ortografía de una palabra mal escrita.
[9][10] [11] Por ejemplo, la oración "las noticias económicas tienen poco efecto sobre los mercados financieros" puede ser transformada a n-gramas sintácticos siguiendo la estructura de sus relaciones de dependencia : tienen-noticias, efecto-poco, tienen-sobre-mercados-los.
[9] Los n-gramas sintácticos están destinadas a reflejar la estructura sintáctica más fielmente que los n-gramas lineales, y tienen muchas de las mismas aplicaciones, especialmente como características en un modelo de espacio vectorial.