stringtranslate.com

Bigrama

Un bigrama o digrama es una secuencia de dos elementos adyacentes de una cadena de tokens , que suelen ser letras, sílabas o palabras. Un bigrama es un n -grama para n =2.

La distribución de frecuencia de cada bigrama en una cadena se usa comúnmente para análisis estadístico simple de texto en muchas aplicaciones, incluida la lingüística computacional , la criptografía y el reconocimiento de voz .

Los bigramas con espacios o bigramas saltados son pares de palabras que permiten espacios (quizás evitando conectar palabras o permitiendo alguna simulación de dependencias, como en una gramática de dependencia ).

Aplicaciones

Los bigramas, junto con otros n-gramas, se utilizan en los modelos de lenguaje más exitosos para el reconocimiento de voz . [1]

Los ataques de frecuencia de Bigram se pueden utilizar en criptografía para resolver criptogramas . Ver análisis de frecuencia .

La frecuencia de Bigram es un enfoque para la identificación estadística del lenguaje .

Algunas actividades en logología o lingüística recreativa involucran bigramas. Estos incluyen intentos de encontrar palabras en inglés que comiencen con todos los bigramas posibles, [2] o palabras que contengan una cadena de bigramas repetidos, como logogogue . [3]

Frecuencia de Bigram en el idioma inglés.

La frecuencia de los bigramas de letras más comunes en un corpus grande en inglés es: [4]

el 3,56% del 1,17% y el 0,83%él 3,07% y 1,17% y 0,83%en 2,43% es 1,13% y 0,83%er 2,05% it 1,12% co 0,79%un 1.99% al 1.09% yo 0.79%re 1,85% a 1,07% de 0,76%en 1,76% st 1,05% hola 0,76%al 1,49% al 1,05% ri 0,73%en 1,45% nt 1,04% ro 0,73%nd 1,35% ng 0,95% ic 0,70%ti 1,34% se 0,93% ne 0,69%es 1,34% ha 0,93% ea 0,69%o 1,28% como 0,87% ra 0,69%te 1,20% o 0,87% ce 0,65%

Ver también

Referencias

  1. ^ Collins, Michael John (24 de junio de 1996). "Un nuevo analizador estadístico basado en dependencias léxicas de bigramas". Actas de la 34ª reunión anual de la Asociación de Lingüística Computacional - . Asociación de Lingüística Computacional. págs. 184-191. arXiv : cmp-lg/9605012 . doi : 10.3115/981863.981888. S2CID  12615602 . Consultado el 9 de octubre de 2018 .
  2. ^ Cohen, Philip M. (1975). "Bigramas iniciales". Formas de palabras . 8 (2) . Consultado el 11 de septiembre de 2016 .
  3. ^ Corbin, Kyle (1989). "Bigramas dobles, triples y cuádruples". Formas de palabras . 22 (3) . Consultado el 11 de septiembre de 2016 .
  4. ^ "Recuento de frecuencia de letras en inglés: Mayzner Revisited o ETAOIN SRHLDCU". norvig.com . Consultado el 28 de octubre de 2019 .