stringtranslate.com

n-grama

Seis n -gramas que se encuentran con frecuencia en títulos de publicaciones sobre la enfermedad del coronavirus 2019 (COVID-19), al 7 de mayo de 2020

Un n -grama es una secuencia de n símbolos adyacentes en un orden particular. Los símbolos pueden ser letras adyacentes ( incluidos signos de puntuación y espacios en blanco), sílabas o, rara vez, palabras completas que se encuentran en un conjunto de datos de un idioma; o fonemas adyacentes extraídos de un conjunto de datos de grabación de voz, o pares de bases adyacentes extraídos de un genoma. Se recogen a partir de un corpus de texto o corpus de habla . Si se utilizan prefijos numéricos latinos , entonces el n -gramo de tamaño 1 se llama "unigrama", el tamaño 2 " bigrama " (o, menos comúnmente, "digrama"), etc. Si, en lugar de los latinos, se utilizan los ingleses Luego se usan números cardinales , luego se les llama "cuatro gramos", "cinco gramos", etc. De manera similar, se usan prefijos numéricos griegos como "monómero", "dímero", "trímero", "tetrámero", "pentámero". ", etc., o números cardinales ingleses, "one-mer", "two-mer", "tres-mer", etc. se utilizan en biología computacional, para polímeros u oligómeros de tamaño conocido, llamados k -mers . Cuando los elementos son palabras, los n -gramas también pueden denominarse culebrilla . [1]

En el contexto de PNL , el uso de n -gramas permite que los modelos de bolsa de palabras capturen información como el orden de las palabras, lo que no sería posible en la configuración tradicional de bolsa de palabras.

Ejemplos

(Shannon 1951) [2] analizó los modelos de n -gramas del inglés. Por ejemplo:

La Figura 1 muestra varias secuencias de ejemplo y las correspondientes secuencias de 1 gramo, 2 gramos y 3 gramos.

Aquí hay más ejemplos; estos son 3 gramos y 4 gramos a nivel de palabra (y el recuento del número de veces que aparecieron) del corpus de n -gramas de Google. [3]

3 gramos

4 gramos

Referencias

  1. ^ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). "Agrupación sintáctica de la web". Redes Informáticas y Sistemas RDSI . 29 (8): 1157-1166. doi :10.1016/s0169-7552(97)00031-7. S2CID  9022773.
  2. ^ Shannon, Claude E. "La redundancia del inglés". Cibernética; Transacciones de la Séptima Conferencia, Nueva York: Fundación Josiah Macy, Jr. . 1951.
  3. ^ Alex Franz y Thorsten Brants (2006). "Todos nuestros N-gram te pertenecen". Blog de investigación de Google . Archivado desde el original el 17 de octubre de 2006 . Consultado el 16 de diciembre de 2011 .

Otras lecturas

Ver también

enlaces externos