stringtranslate.com

Bigrama

Un bigrama o digrama es una secuencia de dos elementos adyacentes de una cadena de tokens , que normalmente son letras, sílabas o palabras. Un bigrama es un n -grama para n = 2.

La distribución de frecuencia de cada bigrama de una cadena se utiliza comúnmente para el análisis estadístico simple de texto en muchas aplicaciones, incluidas la lingüística computacional , la criptografía y el reconocimiento de voz .

Los bigramas con espacios o bigramas salteados son pares de palabras que permiten espacios (quizás evitando palabras de conexión o permitiendo alguna simulación de dependencias, como en una gramática de dependencia ).

Aplicaciones

Los bigramas, junto con otros n-gramas, se utilizan en la mayoría de los modelos de lenguaje exitosos para el reconocimiento de voz . [1]

Los ataques de frecuencia de bigramas se pueden utilizar en criptografía para resolver criptogramas . Véase análisis de frecuencia .

La frecuencia de bigramas es un enfoque para la identificación estadística del lenguaje .

Algunas actividades de la logología o la lingüística recreativa implican bigramas. Entre ellas se incluyen los intentos de encontrar palabras en inglés que comiencen con todos los bigramas posibles, [2] o palabras que contengan una cadena de bigramas repetidos, como logogogo . [3]

Frecuencia de bigramas en el idioma inglés

La frecuencia de los bigramas de letras más comunes en un gran corpus de inglés es: [4]

del 3,56% al 1,17% y del 0,83%él 3,07% ed 1,17% le 0,83%en 2,43% es 1,13% y 0,83%es 2,05%, es 1,12%, es 0,79%un 1,99% al 1,09% yo 0,79%re 1.85% o 1.07% de 0.76%en 1,76% st 1,05% alto 0,76%entre 1,49% y 1,05% ri 0,73%en 1,45% nt 1,04% ro 0,73%nd 1,35% ng 0,95% ic 0,70%ti 1,34% se 0,93% ne 0,69%es 1,34% ha 0,93% ea 0,69%o 1,28% como 0,87% ra 0,69%te 1,20% o 0,87% ce 0,65%

Véase también

Referencias

  1. ^ Collins, Michael John (24 de junio de 1996). "Un nuevo analizador estadístico basado en dependencias léxicas de bigramas". Actas de la 34.ª reunión anual de la Association for Computational Linguistics - . Association for Computational Linguistics. pp. 184–191. arXiv : cmp-lg/9605012 . doi :10.3115/981863.981888. S2CID  12615602 . Consultado el 9 de octubre de 2018 .
  2. ^ Cohen, Philip M. (1975). "Initial Bigrams". Word Ways . 8 (2) . Consultado el 11 de septiembre de 2016 .
  3. ^ Corbin, Kyle (1989). "Doble, triple y cuádruple bigramas". Word Ways . 22 (3) . Consultado el 11 de septiembre de 2016 .
  4. ^ "Recuento de frecuencias de letras en inglés: Mayzner revisitado o ETAOIN SRHLDCU". norvig.com . Consultado el 28 de octubre de 2019 .