stringtranslate.com

n-grama

Seis n -gramas que se encuentran frecuentemente en títulos de publicaciones sobre la enfermedad del coronavirus 2019 (COVID-19), al 7 de mayo de 2020

Un n -grama es una secuencia de n símbolos adyacentes en un orden particular. Los símbolos pueden ser n letras adyacentes (incluidos signos de puntuación y espacios en blanco), sílabas o, en raras ocasiones, palabras completas que se encuentran en un conjunto de datos de un idioma; o fonemas adyacentes extraídos de un conjunto de datos de grabación de voz, o pares de bases adyacentes extraídos de un genoma. Se recopilan de un corpus de texto o de habla . Si se utilizan prefijos numéricos latinos , entonces un n -gramo de tamaño 1 se llama "unigramo", uno de tamaño 2 " bigrama " (o, menos comúnmente, "digrama"), etc. Si, en lugar de los latinos, se utilizan además los números cardinales ingleses , entonces se les llama "cuatro-gramos", "cinco-gramos", etc. De manera similar, utilizando prefijos numéricos griegos como "monómero", "dímero", "trímero", "tetrámero", "pentámero", etc., o números cardinales ingleses, "one-mero", "two-mero", "three-mero", etc. se utilizan en biología computacional, para polímeros u oligómeros de un tamaño conocido, llamados k -meros . Cuando los elementos son palabras, los n -gramas también pueden llamarse tejas . [1]

En el contexto del procesamiento del lenguaje natural (PLN), el uso de n -gramas permite que los modelos de bolsa de palabras capturen información como el orden de las palabras, lo que no sería posible en el entorno tradicional de bolsa de palabras.

Ejemplos

(Shannon 1951) [2] analizó los modelos n -gramas del inglés. Por ejemplo:

La figura 1 muestra varias secuencias de ejemplo y las secuencias correspondientes de 1 gramo, 2 gramos y 3 gramos.

A continuación se presentan más ejemplos; se trata de 3-gramas y 4-gramas a nivel de palabra (y recuentos de la cantidad de veces que aparecieron) del corpus de n -gramas de Google. [3]

3 gramos

4 gramos

Referencias

  1. ^ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). "Agrupamiento sintáctico de la web". Redes informáticas y sistemas RDSI . 29 (8): 1157–1166. doi :10.1016/s0169-7552(97)00031-7. S2CID  9022773.
  2. ^ Shannon, Claude E. "La redundancia del inglés". Cibernética; Transacciones de la 7.ª Conferencia, Nueva York: Josiah Macy, Jr. Foundation . 1951.
  3. ^ Franz, Alex; Brants, Thorsten (2006). «All Our N-gram are Belong to You» (Todos nuestros n-gramas te pertenecen). Blog de investigación de Google . Archivado desde el original el 17 de octubre de 2006. Consultado el 16 de diciembre de 2011 .

Lectura adicional

Véase también

Enlaces externos