La frecuencia de las letras en el texto se ha estudiado a menudo para su uso en el criptoanálisis , y en el análisis de frecuencia en particular.
Ningún idioma tiene una distribución exacta de frecuencias de letras, ya que cada escritor escribe de forma ligeramente diferente. Por regla general, los textos en diferentes idiomas que utilizan el alfabeto árabe (por ejemplo, árabe , turco otomano , persa y urdu ) tendrán frecuencias de letras diferentes, más evidentemente en el caso de letras que solo se utilizan en algunos idiomas (por ejemplo, las letras persas پ, چ, ژ, گ, que no se utilizan para escribir en árabe).
Los métodos que codifican las letras más frecuentes con los símbolos más cortos fueron iniciados por los códigos telegráficos y se utilizan en técnicas modernas de compresión de datos como la codificación Huffman .
El alfabeto árabe consta de 28 letras primarias, que son las letras 1 a 28 en la Tabla 1. Las ocho letras modificadas que figuran en las posiciones 29 a 36 en la misma tabla se utilizan de la misma manera [ aclaración necesaria ] . Si estas 8 formas modificadas se incorporan a la lista primaria en función de la forma o la similitud fonética, el resultado es el que se muestra en la Tabla 2. Para un análisis de frecuencia preciso, se cuenta la frecuencia de cada una de las 36 letras de la Tabla 1 de forma independiente.
El orden del alfabeto que se muestra en las tablas es más lógico [ cita requerida ] que el utilizado por el estándar Unicode .
Aunque el conjunto completo de caracteres árabes incluye alrededor de diez diacríticos, como se muestra en la Figura 1, el análisis de frecuencia de los caracteres árabes solo se ocupa de calcular la frecuencia de las letras del alfabeto que se muestran en la Tabla 2.
Las siguientes fuentes árabes se utilizan para generar una cantidad aceptable de datos sobre los que se realizan estadísticas de frecuencia.
En conjunto, estas fuentes suman 3.378 páginas, con 1.297.259 palabras y 5.122.132 letras.
El siguiente gráfico muestra la distribución de frecuencia de letras para las letras contadas.