La frecuencia de las letras es el número de veces que aparecen las letras del alfabeto en promedio en el lenguaje escrito . El análisis de la frecuencia de las letras se remonta al matemático árabe Al-Kindi ( c. 801-873 d. C.), quien desarrolló formalmente el método para descifrar cifras . El análisis de la frecuencia de las letras ganó importancia en Europa con el desarrollo de los tipos móviles en 1450 d. C., donde se debe estimar la cantidad de tipos necesarios para cada forma de letra . Los lingüistas utilizan el análisis de la frecuencia de las letras como una técnica rudimentaria para la identificación de idiomas , donde es particularmente eficaz como indicación de si un sistema de escritura desconocido es alfabético, silábico o ideográfico .
El uso de frecuencias de letras y el análisis de frecuencias desempeña un papel fundamental en los criptogramas y en varios juegos de palabras, como el ahorcado , el Scrabble , Wordle [2] y el programa de televisión La rueda de la fortuna . Una de las primeras descripciones en la literatura clásica de la aplicación del conocimiento de la frecuencia de las letras inglesas para resolver un criptograma se encuentra en la famosa historia de Edgar Allan Poe " El escarabajo de oro ", donde el método se aplica con éxito para descifrar un mensaje que da la ubicación de un tesoro escondido por el capitán Kidd . [3] [ cita requerida ]
Herbert S. Zim , en su clásico texto introductorio de criptografía Códigos y escritura secreta , da la secuencia de frecuencia de letras en inglés como " ETAON RISHD LFCMU GYPWB VKJXZQ ", los pares de letras más comunes como "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO", y las letras duplicadas más comunes como "LL EE SS OO TT FF RR NN PP CC". [4] Diferentes formas de contar pueden producir órdenes algo diferentes.
Las frecuencias de las letras también tienen un fuerte efecto en el diseño de algunos diseños de teclado . Las letras más frecuentes se colocan en la fila inicial de la máquina de escribir Blickensderfer , el diseño de teclado Dvorak , Colemak y otros diseños optimizados.
La frecuencia de las letras en el texto se ha estudiado para su uso en criptoanálisis , y en análisis de frecuencia en particular, desde el matemático árabe al-Kindi (c. 801-873 d. C.), quien desarrolló formalmente el método (los cifrados que se pueden descifrar con esta técnica se remontan al menos al cifrado César utilizado por Julio César , [ cita requerida ] por lo que este método podría haber sido explorado en tiempos clásicos). El análisis de frecuencia de letras ganó importancia adicional en Europa con el desarrollo de los tipos móviles en 1450 d. C., donde uno debe estimar la cantidad de tipo requerida para cada forma de letra, como lo evidencian las variaciones en el tamaño del compartimento de letras en las cajas de tipos de los tipógrafos.
No existe una distribución exacta de frecuencias de letras subyacente a una lengua dada, ya que todos los escritores escriben de manera ligeramente diferente. Sin embargo, la mayoría de las lenguas tienen una distribución característica que es muy evidente en textos más largos. Incluso cambios lingüísticos tan extremos como el del inglés antiguo al inglés moderno (considerados mutuamente ininteligibles) muestran fuertes tendencias en frecuencias de letras relacionadas: en una pequeña muestra de pasajes bíblicos, de más frecuente a menos frecuente, enaid sorhm tgþlwu æcfy ðbpxz del inglés antiguo se compara con eotha sinrd luymw fgcbp kvjqxz del inglés moderno, y las diferencias más extremas en cuanto a las formas de las letras no se comparten. [5]
Las máquinas linotipia para el idioma inglés asumieron que el orden de las letras, de más a menos común, era etaoin shrdlu cmfwyp vbgkqj xz basándose en la experiencia y la costumbre de los cajistas manuales. El equivalente para el idioma francés era elaoin sdrétu cmfhyp vbgwqj xz .
Al organizar el alfabeto Morse en grupos de letras que requieren cantidades iguales de tiempo para transmitirse, y luego ordenar estos grupos en orden creciente, se obtiene e it san hurdm wgvlfbk opxcz jyq . [a] La frecuencia de las letras fue utilizada por otros sistemas telegráficos, como el Código Murray .
Se utilizan ideas similares en las técnicas modernas de compresión de datos, como la codificación Huffman .
Las frecuencias de las letras, al igual que las frecuencias de las palabras , tienden a variar, tanto según el escritor como según el tema. Por ejemplo, ⟨d⟩ aparece con mayor frecuencia en la ficción, ya que la mayoría de la ficción está escrita en tiempo pasado y, por lo tanto, la mayoría de los verbos terminarán en el sufijo flexivo -ed / -d . No se puede escribir un ensayo sobre rayos X sin usar ⟨x⟩ con frecuencia. Diferentes autores tienen hábitos que pueden reflejarse en su uso de las letras. El estilo de escritura de Hemingway , por ejemplo, es visiblemente diferente al de Faulkner . Las letras, los bigramas , los trigramas , las frecuencias de las palabras, la longitud de las palabras y la longitud de las oraciones se pueden calcular para autores específicos y se pueden usar para probar o refutar la autoría de los textos, incluso para autores cuyos estilos no son tan divergentes.
Las frecuencias medias precisas de las letras solo se pueden obtener analizando una gran cantidad de texto representativo. Con la disponibilidad de la informática moderna y de colecciones de grandes corpus de texto , estos cálculos se realizan fácilmente. Se pueden extraer ejemplos de diversas fuentes (informes de prensa, textos religiosos, textos científicos y ficción en general) y existen diferencias, especialmente para la ficción en general, con la posición de ⟨h⟩ e ⟨i⟩ , siendo ⟨h⟩ cada vez más común.
Los diferentes dialectos de un idioma también afectarán la frecuencia de una letra. Por ejemplo, un autor de los Estados Unidos produciría algo en el que ⟨z⟩ es más común que un autor del Reino Unido que escribe sobre el mismo tema: palabras como "analyze", "apologize" y "recognize" contienen la letra en inglés estadounidense, mientras que las mismas palabras se escriben "analyse", "apologise" y "recognise" en inglés británico. Esto afectaría en gran medida la frecuencia de la letra ⟨z⟩ , ya que rara vez la utilizan los escritores británicos en el idioma inglés. [6]
Las "doce primeras" letras constituyen aproximadamente el 80% del uso total. Las "ocho primeras" letras constituyen aproximadamente el 65% del uso total. La frecuencia de las letras como función del rango se puede ajustar bien mediante varias funciones de rango, siendo la función de rango de dos parámetros Cocho/Beta la mejor. [7] Otra función de rango sin parámetro libre ajustable también se ajusta razonablemente bien a la distribución de frecuencia de las letras [8] (la misma función se ha utilizado para ajustar la frecuencia de aminoácidos en secuencias de proteínas. [9] ) Un espía que utiliza el cifrado VIC o algún otro cifrado basado en un tablero de ajedrez a horcajadas normalmente utiliza una mnemotecnia como "a sin to err" (omitiendo la segunda "r") [10] [11] o "at one sir" [12] para recordar los ocho primeros caracteres.
Hay tres formas de contar la frecuencia de las letras que dan como resultado tablas muy diferentes para las letras comunes. El primer método, utilizado en la tabla siguiente, consiste en contar la frecuencia de las letras en lemas de un diccionario. El lema es la palabra en su forma canónica. El segundo método consiste en incluir todas las variantes de la palabra al contar, como "abstracts", "abstracted" y "abstracting", y no solo el lema de "abstract". Este segundo método da como resultado que letras como ⟨s⟩ aparezcan con mucha más frecuencia, como cuando se cuentan letras de listas de las palabras en inglés más utilizadas en Internet. ⟨s⟩ es especialmente común en palabras flexivas (formas que no son lemas) porque se agrega para formar plurales y verbos en tercera persona del singular en tiempo presente. Un método final es contar las letras en función de su frecuencia de uso en textos reales, lo que da como resultado que ciertas combinaciones de letras como ⟨th⟩ se vuelvan más comunes debido al uso frecuente de palabras comunes como "the", "then", "both", "this", etc. Las medidas de frecuencia de uso absoluta como esta se utilizan al crear diseños de teclado o frecuencias de letras en imprentas antiguas.
Un análisis de las entradas del diccionario Concise Oxford, ignorando la frecuencia de uso de las palabras, arroja un orden de "EARIOTNSLCUDPMHGBFYWKVXZJQ". [13]
La tabla de frecuencia de letras que aparece a continuación está tomada del sitio web de Pavel Mička, que cita Cryptological Mathematics de Robert Lewand . [14]
Según Lewand, ordenadas de más a menos común, las letras son: etaoinshrdlcumwfgypbvkjxqz . El orden de Lewand difiere ligeramente de otros, como el Proyecto Math Explorer de la Universidad de Cornell, que produjo una tabla después de medir 40.000 palabras. [15]
En inglés, el carácter de espacio aparece casi dos veces más frecuentemente que la letra superior ( ⟨e⟩ ) [16] y los caracteres no alfabéticos (dígitos, puntuación, etc.) ocupan colectivamente la cuarta posición (habiendo incluido ya el espacio) entre ⟨t⟩ y ⟨a⟩ . [17]
La frecuencia de las primeras letras de palabras o nombres es útil para preasignar espacio en archivos físicos e índices. [18] Dados 26 cajones de archivadores , en lugar de una asignación 1:1 de un cajón a una letra del alfabeto, a menudo es útil usar un código de letras de frecuencia más igual asignando varias letras de baja frecuencia al mismo cajón (a menudo un cajón está etiquetado como VWXYZ), y dividir las letras iniciales más frecuentes ( ⟨s, a, c⟩ ) en varios cajones (a menudo 6 cajones Aa-An, Ao-Az, Ca-Cj, Ck-Cz, Sa-Si, Sj-Sz). El mismo sistema se utiliza en algunas obras de varios volúmenes, como algunas enciclopedias . Los números de corte , otra asignación de nombres a un código de frecuencia más igual, se utilizan en algunas bibliotecas.
Tanto la distribución general de letras como la distribución de letras iniciales de palabra coinciden aproximadamente con la distribución de Zipf y coinciden aún más estrechamente con la distribución de Yule . [19]
A menudo, la distribución de frecuencia del primer dígito de cada dato es significativamente diferente de la frecuencia general de todos los dígitos de un conjunto de datos numéricos, una observación conocida como ley de Benford .
Un análisis de Peter Norvig sobre palabras que aparecen 100.000 veces o más en los datos de Google Books transcritos mediante reconocimiento óptico de caracteres (OCR) determinó la frecuencia de las primeras letras de las palabras en inglés, entre otras cosas. [20]
*Ver İ y I sin punto .
La siguiente figura ilustra las distribuciones de frecuencia de las 26 letras latinas más comunes en algunos idiomas. Todos estos idiomas utilizan un alfabeto similar de más de 25 caracteres.
Según estas tablas, el equivalente de ' etaoin shrdlu ' para cada idioma es el siguiente:
[sl]: The Mathematical Association of America, 2000. 199 p. ISBN 0-88385-719-7
Tablas útiles para frecuencias de letras individuales, digramas, trigramas, tetragramas y pentagramas basadas en 20 000 palabras que tienen en cuenta combinaciones de longitud de palabra y posición de letra para palabras de 3 a 7 letras de longitud: