Un bigrama o digrama es una secuencia de dos elementos adyacentes de una cadena de tokens , que normalmente son letras, sílabas o palabras. Un bigrama es un n -grama para n = 2.
La distribución de frecuencia de cada bigrama de una cadena se utiliza comúnmente para el análisis estadístico simple de texto en muchas aplicaciones, incluidas la lingüística computacional , la criptografía y el reconocimiento de voz .
Los bigramas con espacios o bigramas salteados son pares de palabras que permiten espacios (quizás evitando palabras de conexión o permitiendo alguna simulación de dependencias, como en una gramática de dependencia ).
Los bigramas, junto con otros n-gramas, se utilizan en la mayoría de los modelos de lenguaje exitosos para el reconocimiento de voz . [1]
Los ataques de frecuencia de bigramas se pueden utilizar en criptografía para resolver criptogramas . Véase análisis de frecuencia .
La frecuencia de bigramas es un enfoque para la identificación estadística del lenguaje .
Algunas actividades de la logología o la lingüística recreativa implican bigramas. Entre ellas se incluyen los intentos de encontrar palabras en inglés que comiencen con todos los bigramas posibles, [2] o palabras que contengan una cadena de bigramas repetidos, como logogogo . [3]
La frecuencia de los bigramas de letras más comunes en un gran corpus de inglés es: [4]
del 3,56% al 1,17% y del 0,83%él 3,07% ed 1,17% le 0,83%en 2,43% es 1,13% y 0,83%es 2,05%, es 1,12%, es 0,79%un 1,99% al 1,09% yo 0,79%re 1.85% o 1.07% de 0.76%en 1,76% st 1,05% alto 0,76%entre 1,49% y 1,05% ri 0,73%en 1,45% nt 1,04% ro 0,73%nd 1,35% ng 0,95% ic 0,70%ti 1,34% se 0,93% ne 0,69%es 1,34% ha 0,93% ea 0,69%o 1,28% como 0,87% ra 0,69%te 1,20% o 0,87% ce 0,65%