Frecuencia de las letras

La frecuencia de las letras es el número de veces que aparecen las letras del alfabeto en promedio en el lenguaje escrito . El análisis de la frecuencia de las letras se remonta al matemático árabe Al-Kindi ( c. 801-873 d. C.), quien desarrolló formalmente el método para descifrar cifras . El análisis de la frecuencia de las letras ganó importancia en Europa con el desarrollo de los tipos móviles en 1450 d. C., donde se debe estimar la cantidad de tipos necesarios para cada forma de letra . Los lingüistas utilizan el análisis de la frecuencia de las letras como una técnica rudimentaria para la identificación de idiomas , donde es particularmente eficaz como indicación de si un sistema de escritura desconocido es alfabético, silábico o ideográfico .

El uso de frecuencias de letras y el análisis de frecuencias desempeña un papel fundamental en los criptogramas y en varios juegos de palabras, como el ahorcado , el Scrabble , Wordle^[2] y el programa de televisión La rueda de la fortuna . Una de las primeras descripciones en la literatura clásica de la aplicación del conocimiento de la frecuencia de las letras inglesas para resolver un criptograma se encuentra en la famosa historia de Edgar Allan Poe " El escarabajo de oro ", donde el método se aplica con éxito para descifrar un mensaje que da la ubicación de un tesoro escondido por el capitán Kidd . ^[3]^{[ cita requerida ]}

Herbert S. Zim , en su clásico texto introductorio de criptografía Códigos y escritura secreta , da la secuencia de frecuencia de letras en inglés como " ETAON RISHD LFCMU GYPWB VKJXZQ ", los pares de letras más comunes como "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO", y las letras duplicadas más comunes como "LL EE SS OO TT FF RR NN PP CC". ^[4] Diferentes formas de contar pueden producir órdenes algo diferentes.

Las frecuencias de las letras también tienen un fuerte efecto en el diseño de algunos diseños de teclado . Las letras más frecuentes se colocan en la fila inicial de la máquina de escribir Blickensderfer , el diseño de teclado Dvorak , Colemak y otros diseños optimizados.

Fondo

La California Job Case era una caja compartimentada para impresión en el siglo XIX, cuyos tamaños correspondían a la frecuencia de las letras.

La frecuencia de las letras en el texto se ha estudiado para su uso en criptoanálisis , y en análisis de frecuencia en particular, desde el matemático árabe al-Kindi (c. 801-873 d. C.), quien desarrolló formalmente el método (los cifrados que se pueden descifrar con esta técnica se remontan al menos al cifrado César utilizado por Julio César , ^{[ cita requerida ]} por lo que este método podría haber sido explorado en tiempos clásicos). El análisis de frecuencia de letras ganó importancia adicional en Europa con el desarrollo de los tipos móviles en 1450 d. C., donde uno debe estimar la cantidad de tipo requerida para cada forma de letra, como lo evidencian las variaciones en el tamaño del compartimento de letras en las cajas de tipos de los tipógrafos.

No existe una distribución exacta de frecuencias de letras subyacente a una lengua dada, ya que todos los escritores escriben de manera ligeramente diferente. Sin embargo, la mayoría de las lenguas tienen una distribución característica que es muy evidente en textos más largos. Incluso cambios lingüísticos tan extremos como el del inglés antiguo al inglés moderno (considerados mutuamente ininteligibles) muestran fuertes tendencias en frecuencias de letras relacionadas: en una pequeña muestra de pasajes bíblicos, de más frecuente a menos frecuente, enaid sorhm tgþlwu æcfy ðbpxz del inglés antiguo se compara con eotha sinrd luymw fgcbp kvjqxz del inglés moderno, y las diferencias más extremas en cuanto a las formas de las letras no se comparten. ^[5]

Las máquinas linotipia para el idioma inglés asumieron que el orden de las letras, de más a menos común, era etaoin shrdlu cmfwyp vbgkqj xz basándose en la experiencia y la costumbre de los cajistas manuales. El equivalente para el idioma francés era elaoin sdrétu cmfhyp vbgwqj xz .

Al organizar el alfabeto Morse en grupos de letras que requieren cantidades iguales de tiempo para transmitirse, y luego ordenar estos grupos en orden creciente, se obtiene e it san hurdm wgvlfbk opxcz jyq . ^[a] La frecuencia de las letras fue utilizada por otros sistemas telegráficos, como el Código Murray .

Se utilizan ideas similares en las técnicas modernas de compresión de datos, como la codificación Huffman .

Las frecuencias de las letras, al igual que las frecuencias de las palabras , tienden a variar, tanto según el escritor como según el tema. Por ejemplo, ⟨d⟩ aparece con mayor frecuencia en la ficción, ya que la mayoría de la ficción está escrita en tiempo pasado y, por lo tanto, la mayoría de los verbos terminarán en el sufijo flexivo -ed / -d . No se puede escribir un ensayo sobre rayos X sin usar ⟨x⟩ con frecuencia. Diferentes autores tienen hábitos que pueden reflejarse en su uso de las letras. El estilo de escritura de Hemingway , por ejemplo, es visiblemente diferente al de Faulkner . Las letras, los bigramas , los trigramas , las frecuencias de las palabras, la longitud de las palabras y la longitud de las oraciones se pueden calcular para autores específicos y se pueden usar para probar o refutar la autoría de los textos, incluso para autores cuyos estilos no son tan divergentes.

Las frecuencias medias precisas de las letras solo se pueden obtener analizando una gran cantidad de texto representativo. Con la disponibilidad de la informática moderna y de colecciones de grandes corpus de texto , estos cálculos se realizan fácilmente. Se pueden extraer ejemplos de diversas fuentes (informes de prensa, textos religiosos, textos científicos y ficción en general) y existen diferencias, especialmente para la ficción en general, con la posición de ⟨h⟩ e ⟨i⟩ , siendo ⟨h⟩ cada vez más común.

Los diferentes dialectos de un idioma también afectarán la frecuencia de una letra. Por ejemplo, un autor de los Estados Unidos produciría algo en el que ⟨z⟩ es más común que un autor del Reino Unido que escribe sobre el mismo tema: palabras como "analyze", "apologize" y "recognize" contienen la letra en inglés estadounidense, mientras que las mismas palabras se escriben "analyse", "apologise" y "recognise" en inglés británico. Esto afectaría en gran medida la frecuencia de la letra ⟨z⟩ , ya que rara vez la utilizan los escritores británicos en el idioma inglés. ^[6]

Las "doce primeras" letras constituyen aproximadamente el 80% del uso total. Las "ocho primeras" letras constituyen aproximadamente el 65% del uso total. La frecuencia de las letras como función del rango se puede ajustar bien mediante varias funciones de rango, siendo la función de rango de dos parámetros Cocho/Beta la mejor. ^[7] Otra función de rango sin parámetro libre ajustable también se ajusta razonablemente bien a la distribución de frecuencia de las letras ^[8] (la misma función se ha utilizado para ajustar la frecuencia de aminoácidos en secuencias de proteínas. ^[9] ) Un espía que utiliza el cifrado VIC o algún otro cifrado basado en un tablero de ajedrez a horcajadas normalmente utiliza una mnemotecnia como "a sin to err" (omitiendo la segunda "r") ^[10]^[11] o "at one sir" ^[12] para recordar los ocho primeros caracteres.

Frecuencias relativas de las letras en el idioma inglés

Hay tres formas de contar la frecuencia de las letras que dan como resultado tablas muy diferentes para las letras comunes. El primer método, utilizado en la tabla siguiente, consiste en contar la frecuencia de las letras en lemas de un diccionario. El lema es la palabra en su forma canónica. El segundo método consiste en incluir todas las variantes de la palabra al contar, como "abstracts", "abstracted" y "abstracting", y no solo el lema de "abstract". Este segundo método da como resultado que letras como ⟨s⟩ aparezcan con mucha más frecuencia, como cuando se cuentan letras de listas de las palabras en inglés más utilizadas en Internet. ⟨s⟩ es especialmente común en palabras flexivas (formas que no son lemas) porque se agrega para formar plurales y verbos en tercera persona del singular en tiempo presente. Un método final es contar las letras en función de su frecuencia de uso en textos reales, lo que da como resultado que ciertas combinaciones de letras como ⟨th⟩ se vuelvan más comunes debido al uso frecuente de palabras comunes como "the", "then", "both", "this", etc. Las medidas de frecuencia de uso absoluta como esta se utilizan al crear diseños de teclado o frecuencias de letras en imprentas antiguas.

Un análisis de las entradas del diccionario Concise Oxford, ignorando la frecuencia de uso de las palabras, arroja un orden de "EARIOTNSLCUDPMHGBFYWKVXZJQ". ^[13]

La tabla de frecuencia de letras que aparece a continuación está tomada del sitio web de Pavel Mička, que cita Cryptological Mathematics de Robert Lewand . ^[14]

Según Lewand, ordenadas de más a menos común, las letras son: etaoinshrdlcumwfgypbvkjxqz . El orden de Lewand difiere ligeramente de otros, como el Proyecto Math Explorer de la Universidad de Cornell, que produjo una tabla después de medir 40.000 palabras. ^[15]

En inglés, el carácter de espacio aparece casi dos veces más frecuentemente que la letra superior ( ⟨e⟩ ) ^[16] y los caracteres no alfabéticos (dígitos, puntuación, etc.) ocupan colectivamente la cuarta posición (habiendo incluido ya el espacio) entre ⟨t⟩ y ⟨a⟩ . ^[17]

Frecuencias relativas de las primeras letras de una palabra en idioma inglés

La frecuencia de las primeras letras de palabras o nombres es útil para preasignar espacio en archivos físicos e índices. ^[18] Dados 26 cajones de archivadores , en lugar de una asignación 1:1 de un cajón a una letra del alfabeto, a menudo es útil usar un código de letras de frecuencia más igual asignando varias letras de baja frecuencia al mismo cajón (a menudo un cajón está etiquetado como VWXYZ), y dividir las letras iniciales más frecuentes ( ⟨s, a, c⟩ ) en varios cajones (a menudo 6 cajones Aa-An, Ao-Az, Ca-Cj, Ck-Cz, Sa-Si, Sj-Sz). El mismo sistema se utiliza en algunas obras de varios volúmenes, como algunas enciclopedias . Los números de corte , otra asignación de nombres a un código de frecuencia más igual, se utilizan en algunas bibliotecas.

Tanto la distribución general de letras como la distribución de letras iniciales de palabra coinciden aproximadamente con la distribución de Zipf y coinciden aún más estrechamente con la distribución de Yule . ^[19]

A menudo, la distribución de frecuencia del primer dígito de cada dato es significativamente diferente de la frecuencia general de todos los dígitos de un conjunto de datos numéricos, una observación conocida como ley de Benford .

Un análisis de Peter Norvig sobre palabras que aparecen 100.000 veces o más en los datos de Google Books transcritos mediante reconocimiento óptico de caracteres (OCR) determinó la frecuencia de las primeras letras de las palabras en inglés, entre otras cosas. ^[20]

Frecuencias relativas de letras en otros idiomas

*Ver İ y I sin punto .

La siguiente figura ilustra las distribuciones de frecuencia de las 26 letras latinas más comunes en algunos idiomas. Todos estos idiomas utilizan un alfabeto similar de más de 25 caracteres.

Según estas tablas, el equivalente de ' etaoin shrdlu ' para cada idioma es el siguiente:

Francés: 'esaitn ruoldc'; (indoeuropeo: romance; tradicionalmente se utiliza 'esartinulop', en parte por su facilidad de pronunciación ^[34] )
Español: 'eaosrn idltcm'; (indoeuropeo: romance)
Portugués: 'aeosri dmntcu' (indoeuropeo: romance)
Italiano: 'eaionl rtscdu'; (indoeuropeo: romance)
Alemán: 'ensria tdhulg'; (indoeuropeo: germánico)
Sueco: 'earrts ildomk'; (indoeuropeo: germánico)
Turco: 'aeinrl ıdkmyt'; (altaico: turco)
Holandés: 'enatir odslgv'; (indoeuropeo: germánico) ^[29]
Polaco: 'aioezn rwstcy'; (indoeuropeo: eslavo)
Danés: 'erntai dslogk'; (indoeuropeo: germánico)
Islandés: 'arnies tulðgm'; (indoeuropeo: germánico)
Finés: 'aintes loukäm'; (Urálico: Finnic)
Checo: 'aeonit vsrldk'; (indoeuropeo: eslavo)
húngaro: 'eatlsn kizroá'; (Urálico: ugrico)

Véase también

Notas explicativas

^ El código Morse estadounidense fue desarrollado en la década de 1830 por Alfred Vail , basándose en las frecuencias de las letras del idioma inglés, para codificar las letras más frecuentes con los símbolos más cortos. Se perdió cierta eficiencia en la versión reformada que se utiliza actualmente: el Código Morse Internacional.

Referencias

^ Mička, Pavel. «Frecuencia de letras (inglés)». Algoritmy.net . Archivado desde el original el 4 de marzo de 2021. Consultado el 14 de junio de 2022. La fuente es Leland, Robert. Matemáticas criptológicas . [sl]: The Mathematical Association of America, 2000. 199 p. ISBN 0-88385-719-7
^ Guinness, Harry. "Las mejores palabras iniciales para ganar en Wordle". Wired . ISSN 1059-1028 . Consultado el 12 de febrero de 2022 .
^ Poe, Edgar Allan. "Las obras de Edgar Allan Poe en cinco volúmenes". Proyecto Gutenberg.
^ Zim, Herbert Spencer (1961). Códigos y escritura secreta: resumen autorizado . Scholastic Book Services. OCLC 317853773.
^ Moreno, Marsha Lynn (primavera de 2005). "Análisis de frecuencia a la luz de la innovación lingüística" (PDF) . Matemáticas. Universidad de California – San Diego . Consultado el 19 de febrero de 2015 .
^ "Ortografía británica y americana - Oxford Dictionaries". Oxford Dictionaries - Inglés . Archivado desde el original el 28 de diciembre de 2011. Consultado el 18 de abril de 2018 .
^ Li, Wentian; Miramontes, Pedro (2011). "Ajuste de la distribución de frecuencias de letras en inglés y español en discursos presidenciales de Estados Unidos y México". Journal of Quantitative Linguistics . 18 (4): 359. arXiv : 1103.2950 . doi :10.1080/09296174.2011.608606. S2CID 1716455.
^ Gusein-Zade, SM (1988). "Distribución de frecuencias de letras en el idioma ruso". Probl. Peredachi Inf . 24 (4): 102–107.
^ Gamow, George; Ycas, Martynas (1955). "Correlación estadística de la composición de proteínas y ácidos ribonucleicos". Proc. Natl. Sci . 41 (12): 1011–1019. Bibcode :1955PNAS...41.1011G. doi : 10.1073/pnas.41.12.1011 . PMC 528190 . PMID 16589789.
^ Bauer, Friedrich L. (2006). Secretos descifrados: métodos y máximas de la criptología. Springer. pág. 57. ISBN 9783540481218– a través de Google Books.
^ Goebel, Greg (2009). El auge de los cifrados de campo: cifrados de tablero de ajedrez.
^ Rijmenantes, Dirk. "Bloc de notas de un solo uso".
^ "¿Cuál es la frecuencia de las letras del alfabeto en inglés?". Oxford Dictionary . Oxford University Press. Archivado desde el original el 24 de diciembre de 2011 . Consultado el 29 de diciembre de 2012 .
^ Mička, Pavel. "Frecuencia de las letras (en inglés)". Algoritmy.net.
^ "Frecuencia de las letras en inglés (basada en una muestra de 40.000 palabras)". cornell.edu . Consultado el 24 de enero de 2021 .
^ "Distribuciones estadísticas de textos en inglés". data-compression.com . Archivado desde el original el 18 de septiembre de 2017.
^ Lee, E. Stewart. "Ensayos sobre seguridad informática" (PDF) . Laboratorio de Computación de la Universidad de Cambridge. pág. 181.
^ Ohlman, Herbert Marvin (1959). Frecuencias de letras de palabras-sujeto con aplicaciones a la codificación superpuesta. Actas de la Conferencia Internacional sobre Información Científica. doi :10.17226/10866. ISBN 978-0-309-57421-1.
^ Pande, Hemlata; Dhami, HS "Modelado matemático de la aparición de letras e iniciales de palabras en textos en idioma hindi" (PDF) . JTL . 16 .
^ "Recuento de frecuencias de letras en inglés: Mayzner revisitado o ETAOIN SRHLDCU". norvig.com . Consultado el 18 de abril de 2018 .
^ "Corpus de Thomas Tempé". Archivado desde el original el 30 de septiembre de 2007. Consultado el 15 de junio de 2007 .
^ Beutelspacher, Albrecht (2005). Kryptologie (7 ed.). Wiesbaden: Vieweg. pag. 10.ISBN 3-8348-0014-7.
^ Pratt, Fletcher (1942). Secreto y urgente: La historia de los códigos y cifras . Garden City, NY: Blue Ribbon Books. págs. 254-255. OCLC 795065.
^ "Frequência da ocorrência de letras no Português". Archivado desde el original el 3 de agosto de 2009 . Consultado el 16 de junio de 2009 .
^ Singh, Simón; Galli, Stefano (1999). Codici e Segreti (en italiano). Milán: Rizzoli. ISBN 978-8-817-86213-4.OCLC 535461359 .
^ Serengil, Sefik Ilkin; Akin, Murat (20-22 de febrero de 2011). Ataque a textos turcos cifrados mediante un código homofónico (PDF) . Actas de la 10.ª Conferencia internacional WSEAS sobre electrónica, hardware, comunicaciones inalámbricas y ópticas. Cambridge, Reino Unido. págs. 123-126.
^ "Criptografía práctica" . Consultado el 30 de octubre de 2013 .
^ "Frekwencja litro con polskich tekstach - Poradnia językowa PWN".
^ ab "Frecuencias de letras". Genootschap OnzeTaal . Consultado el 17 de mayo de 2009 .
^ "Frecuencias de las letras danesas". Criptografía práctica . Consultado el 24 de octubre de 2013 .
^ "Frecuencias de las letras islandesas". Criptografía práctica . Consultado el 24 de octubre de 2013 .
^ "Frecuencias de las letras finlandesas". Criptografía práctica . Consultado el 24 de octubre de 2013 .
^ "Frecuencias de caracteres húngaros". Sitio Wolfram Alpha . Consultado el 25 de marzo de 2023 .
^ Perec, Georges; Alfabetos ; Ediciones Galilée, 1976

Enlaces externos

Lewand, Robert Edward. "Matemáticas criptográficas". pages.central.edu. Archivado desde el original el 2 de abril de 2007.
"Algunos ejemplos de clasificaciones de frecuencia de letras en algunos idiomas comunes". www.bckelk.org.uk.
"Visualización de mapa de calor en JavaScript que muestra las frecuencias de letras de textos en diferentes diseños de teclado". www.patrick-wied.at.
Norvig, Peter. "Una versión actualizada del trabajo de Mayzner utilizando el conjunto de datos Ngrams de Google Books". norvig.com.
Frecuencia de las letras—simia.net

Tablas útiles

Tablas útiles para frecuencias de letras individuales, digramas, trigramas, tetragramas y pentagramas basadas en 20 000 palabras que tienen en cuenta combinaciones de longitud de palabra y posición de letra para palabras de 3 a 7 letras de longitud:

Mayzner, MS; Tresselt, ME; Wolin, BR (1965). "Tablas de recuentos de frecuencia de letras individuales y digramas para varias combinaciones de longitud de palabra y posición de letra". Suplementos monográficos psiconómicos . 1 (2): 13–32. OCLC 639975358.
Mayzner, MS; Tresselt, ME; Wolin, BR (1965). "Tablas de recuentos de frecuencia de trigramas para varias combinaciones de longitud de palabra y posición de letra". Suplementos monográficos psiconómicos . 1 (3): 33–78.
Mayzner, MS; Tresselt, ME; Wolin, BR (1965). "Tablas de recuentos de frecuencia de tetragramas para varias combinaciones de longitud de palabra y posición de letra". Suplementos monográficos psiconómicos . 1 (4): 79–143.
Mayzner, MS; Tresselt, ME; Wolin, BR (1965). "Tablas de recuentos de frecuencia de pentagramas para varias combinaciones de longitud de palabra y posición de letra". Suplementos monográficos psiconómicos . 1 (5): 144–190.