n-grama

Un n -grama es una secuencia de n símbolos adyacentes en un orden particular. Los símbolos pueden ser n letras adyacentes (incluidos signos de puntuación y espacios en blanco), sílabas o, en raras ocasiones, palabras completas que se encuentran en un conjunto de datos de un idioma; o fonemas adyacentes extraídos de un conjunto de datos de grabación de voz, o pares de bases adyacentes extraídos de un genoma. Se recopilan de un corpus de texto o de habla . Si se utilizan prefijos numéricos latinos , entonces un n -gramo de tamaño 1 se llama "unigramo", uno de tamaño 2 " bigrama " (o, menos comúnmente, "digrama"), etc. Si, en lugar de los latinos, se utilizan además los números cardinales ingleses , entonces se les llama "cuatro-gramos", "cinco-gramos", etc. De manera similar, utilizando prefijos numéricos griegos como "monómero", "dímero", "trímero", "tetrámero", "pentámero", etc., o números cardinales ingleses, "one-mero", "two-mero", "three-mero", etc. se utilizan en biología computacional, para polímeros u oligómeros de un tamaño conocido, llamados k -meros . Cuando los elementos son palabras, $los n$ -gramas también pueden llamarse tejas . ^[1]

En el contexto del procesamiento del lenguaje natural (PLN), el uso de n -gramas permite que los modelos de bolsa de palabras capturen información como el orden de las palabras, lo que no sería posible en el entorno tradicional de bolsa de palabras.

Ejemplos

(Shannon 1951) ^[2] analizó los modelos n -gramas del inglés. Por ejemplo:

Modelo de carácter de 3 gramos (extracción aleatoria basada en las probabilidades de cada trigrama): en ningún caso hay un lat whey cratict froure birs grocid pondenome de demostraciones de la retagin es regiactiona de cre
Modelo de palabras de 2 gramos (extracción aleatoria de palabras teniendo en cuenta sus probabilidades de transición): la cabeza y en ataque frontal a un escritor inglés que el carácter de este punto es por tanto otro método para las letras que el tiempo de quien alguna vez contó el problema por un inesperado

La figura 1 muestra varias secuencias de ejemplo y las secuencias correspondientes de 1 gramo, 2 gramos y 3 gramos.

A continuación se presentan más ejemplos; se trata de 3-gramas y 4-gramas a nivel de palabra (y recuentos de la cantidad de veces que aparecieron) del corpus de n -gramas de Google. ^[3]

3 gramos

Coleccionables de cerámica Coleccionables (55)
Coleccionables de cerámica fina (130)
Cerámica recolectada por (52)
Cerámica de colección (50)
Coleccionables de cerámica para cocinar (45)

4 gramos

Servir como entrante (92)
servir como incubadora (99)
Servir como independiente (794)
servir como índice (223)
servir como indicación (72)
servir como indicador (120)

Referencias

^ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). "Agrupamiento sintáctico de la web". Redes informáticas y sistemas RDSI . 29 (8): 1157–1166. doi :10.1016/s0169-7552(97)00031-7. S2CID 9022773.
^ Shannon, Claude E. "La redundancia del inglés". Cibernética; Actas de la 7ª Conferencia, Nueva York: Josiah Macy, Jr. Foundation . 1951.
^ Franz, Alex; Brants, Thorsten (2006). «All Our N-gram are Belong to You» (Todos nuestros n-gramas te pertenecen). Blog de investigación de Google . Archivado desde el original el 17 de octubre de 2006. Consultado el 16 de diciembre de 2011 .

Lectura adicional

Manning, Christopher D.; Schütze, Hinrich; Fundamentos del procesamiento estadístico del lenguaje natural , MIT Press: 1999, ISBN 0-262-13360-1
White, Owen; Dunning, Ted; Sutton, Granger; Adams, Mark; Venter, J. Craig; Fields, Chris (1993). "Un algoritmo de control de calidad para proyectos de secuenciación de ADN". Nucleic Acids Research . 21 (16): 3829–3838. doi :10.1093/nar/21.16.3829. PMC 309901 . PMID 8367301.
Damerau, Frederick J.; Modelos de Markov y teoría lingüística , Mouton, La Haya, 1971
Figueroa, Alejandro; Atkinson, John (2012). "Modelos contextuales del lenguaje para clasificar respuestas a preguntas de definición del lenguaje natural". Computational Intelligence . 28 (4): 528–548. doi :10.1111/j.1467-8640.2012.00426.x. S2CID 27378409.
Brocardo, Marcelo Luiz; Traore, Issa; Saad, Sherif; Woungang, Isaac (2013). Verificación de autoría para mensajes cortos mediante estilometría. IEEE International Conference on Computer, Information and Telecommunication Systems (CITS).

Véase también

Visor de Ngram de Google Books

Enlaces externos

Extractor de n-gramas: proporciona el peso de los n-gramas en función de su frecuencia.
Visor de n-gramas de Google Books y base de datos de n-gramas web de Google (septiembre de 2006)
Proyecto N-gramas de STATOPERATOR Visor de n-gramas ponderado para cada dominio en Alexa Top 1M
1.000.000 de los 2, 3, 4 y 5 gramos más frecuentes del corpus de 425 millones de palabras del inglés americano contemporáneo
Visor de n-gramas musicales de Peachnote
Especificación de modelos de lenguaje estocástico (n-gramas) (W3C)
Notas de Michael Collins sobre los modelos de lenguaje n-gramatical
OpenRefine: agrupamiento en profundidad