Un n -grama es una secuencia de n símbolos adyacentes en un orden particular. Los símbolos pueden ser n letras adyacentes (incluidos signos de puntuación y espacios en blanco), sílabas o, en raras ocasiones, palabras completas que se encuentran en un conjunto de datos de un idioma; o fonemas adyacentes extraídos de un conjunto de datos de grabación de voz, o pares de bases adyacentes extraídos de un genoma. Se recopilan de un corpus de texto o de habla . Si se utilizan prefijos numéricos latinos , entonces un n -gramo de tamaño 1 se llama "unigramo", uno de tamaño 2 " bigrama " (o, menos comúnmente, "digrama"), etc. Si, en lugar de los latinos, se utilizan además los números cardinales ingleses , entonces se les llama "cuatro-gramos", "cinco-gramos", etc. De manera similar, utilizando prefijos numéricos griegos como "monómero", "dímero", "trímero", "tetrámero", "pentámero", etc., o números cardinales ingleses, "one-mero", "two-mero", "three-mero", etc. se utilizan en biología computacional, para polímeros u oligómeros de un tamaño conocido, llamados k -meros . Cuando los elementos son palabras, los n -gramas también pueden llamarse tejas . [1]
En el contexto del procesamiento del lenguaje natural (PLN), el uso de n -gramas permite que los modelos de bolsa de palabras capturen información como el orden de las palabras, lo que no sería posible en el entorno tradicional de bolsa de palabras.
Ejemplos
(Shannon 1951) [2] analizó los modelos n -gramas del inglés. Por ejemplo:
Modelo de carácter de 3 gramos (extracción aleatoria basada en las probabilidades de cada trigrama): en ningún caso hay un lat whey cratict froure birs grocid pondenome de demostraciones de la retagin es regiactiona de cre
Modelo de palabras de 2 gramos (extracción aleatoria de palabras teniendo en cuenta sus probabilidades de transición): la cabeza y en ataque frontal a un escritor inglés que el carácter de este punto es por tanto otro método para las letras que el tiempo de quien alguna vez contó el problema por un inesperado
La figura 1 muestra varias secuencias de ejemplo y las secuencias correspondientes de 1 gramo, 2 gramos y 3 gramos.
A continuación se presentan más ejemplos; se trata de 3-gramas y 4-gramas a nivel de palabra (y recuentos de la cantidad de veces que aparecieron) del corpus de n -gramas de Google. [3]
3 gramos
Coleccionables de cerámica Coleccionables (55)
Coleccionables de cerámica fina (130)
Cerámica recolectada por (52)
Cerámica de colección (50)
Coleccionables de cerámica para cocinar (45)
4 gramos
Servir como entrante (92)
servir como incubadora (99)
Servir como independiente (794)
servir como índice (223)
servir como indicación (72)
servir como indicador (120)
Referencias
^ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). "Agrupamiento sintáctico de la web". Redes informáticas y sistemas RDSI . 29 (8): 1157–1166. doi :10.1016/s0169-7552(97)00031-7. S2CID 9022773.
^ Shannon, Claude E. "La redundancia del inglés". Cibernética; Transacciones de la 7.ª Conferencia, Nueva York: Josiah Macy, Jr. Foundation . 1951.
^ Franz, Alex; Brants, Thorsten (2006). «All Our N-gram are Belong to You» (Todos nuestros n-gramas te pertenecen). Blog de investigación de Google . Archivado desde el original el 17 de octubre de 2006. Consultado el 16 de diciembre de 2011 .
Lectura adicional
Manning, Christopher D.; Schütze, Hinrich; Fundamentos del procesamiento estadístico del lenguaje natural , MIT Press: 1999, ISBN 0-262-13360-1
White, Owen; Dunning, Ted; Sutton, Granger; Adams, Mark; Venter, J. Craig; Fields, Chris (1993). "Un algoritmo de control de calidad para proyectos de secuenciación de ADN". Nucleic Acids Research . 21 (16): 3829–3838. doi :10.1093/nar/21.16.3829. PMC 309901 . PMID 8367301.
Damerau, Frederick J.; Modelos de Markov y teoría lingüística , Mouton, La Haya, 1971
Figueroa, Alejandro; Atkinson, John (2012). "Modelos contextuales del lenguaje para clasificar respuestas a preguntas de definición del lenguaje natural". Computational Intelligence . 28 (4): 528–548. doi :10.1111/j.1467-8640.2012.00426.x. S2CID 27378409.
Brocardo, Marcelo Luiz; Traore, Issa; Saad, Sherif; Woungang, Isaac (2013). Verificación de autoría para mensajes cortos mediante estilometría. IEEE International Conference on Computer, Information and Telecommunication Systems (CITS).