Muchos sistemas de escritura Unicode , como el árabe , tienen reglas ortográficas especiales que requieren que ciertas combinaciones de formas de letras se combinen en formas de ligadura especiales . En inglés, el ampersand común (&) se desarrolló a partir de una ligadura en la que se combinaban las letras latinas manuscritas e y t (ortografía et , latín para y ). [1] Las reglas que rigen la formación de ligaduras en árabe pueden ser bastante complejas y requieren tecnologías especiales de modelado de escritura, como el motor caligráfico árabe de DecoType de Thomas Milo. [2]
A partir de Unicode 16.0, el alfabeto árabe está contenido en los siguientes bloques : [3]
- Árabe (0600–06FF, 256 caracteres)
- Suplemento árabe (0750–077F, 48 caracteres)
- Árabe ampliado B (0870–089F, 42 caracteres)
- Árabe ampliado-A (08A0–08FF, 96 caracteres)
- Formularios de presentación en árabe-A (FB50–FDFF, 631 caracteres)
- Formularios de presentación en árabe-B (FE70–FEFF, 141 caracteres)
- Símbolos numéricos de Rumi (10E60–10E7F, 31 caracteres)
- Árabe extendido-C (10EC0-10EFF, 7 caracteres)
- Números de Siyaq de la India (1EC70–1ECBF, 68 caracteres)
- Números del siyaq otomano (1ED00–1ED4F, 61 caracteres)
- Símbolos alfabéticos matemáticos árabes (1EE00–1EEFF, 143 caracteres)
El rango árabe básico codifica las letras y diacríticos estándar, pero no codifica formas contextuales (U+0621–U+0652 se basa directamente en ISO 8859-6 ); y también incluye los diacríticos más comunes y los dígitos árabe-índicos . El rango de Suplemento árabe codifica variantes de letras utilizadas principalmente para escribir idiomas africanos (no árabes). Los rangos Árabe extendido-B y Árabe extendido-A codifican anotaciones coránicas adicionales y variantes de letras utilizadas para varios idiomas no árabes. El rango de Formas de presentación árabe-A codifica formas contextuales y ligaduras de variantes de letras necesarias para persa, urdu, sindhi y idiomas de Asia central. El rango de Formas de presentación árabe-B codifica formas de espaciado de diacríticos árabes y formas de letras más contextuales. Las formas de presentación están presentes solo para compatibilidad con estándares más antiguos y actualmente no son necesarias para codificar texto. [4]
El bloque de Símbolos alfabéticos matemáticos árabes codifica caracteres utilizados en expresiones matemáticas árabes. El bloque de números Siyaq índicos contiene un subconjunto especializado de la escritura árabe que se utilizó para la contabilidad en la India bajo el Imperio mogol desde el siglo XVII hasta mediados del siglo XX. [5] [6]
El bloque de números Siyaq otomanos contiene un subconjunto especializado de la escritura árabe, también conocido como números Siyakat , utilizado para la contabilidad en los documentos turcos otomanos . [6]
Formas contextuales
A continuación se muestra una demostración del alfabeto básico utilizado en el árabe estándar moderno que ilustra cómo se espera que aparezcan las letras árabes en diferentes contextos. Los puntos de código enumerados como formas contextuales " no deben usarse en el intercambio general" [4] . Unicode tiene otros métodos para codificar la diferencia si es necesario, como el conector de ancho cero .
Puntuación y adornos
En la escritura árabe regular solo se utilizan el signo de interrogación árabe ⟨ ؟ ⟩ y la coma árabe ⟨ ، ⟩, y la coma a menudo se sustituye por la coma del alfabeto latino ⟨ , ⟩, que también se utiliza como separador decimal cuando se utilizan números arábigos orientales (por ejemplo, ⟨100,6⟩ en comparación con ⟨ ١٠٠,٦ ⟩).
- U+060C ، COMA ÁRABE
- U+060D ؍ SEPARADOR DE FECHA ÁRABE
- U+060E ؎ SIGNO DE VERSO POÉTICO ÁRABE
- U+060F ؏ SIGNO ÁRABE
- U+061B ؛ PUNTO Y COMA ÁRABE
- U+061E ؞ SIGNO DE PUNTUACIÓN ÁRABE
- U+061F ؟ SIGNO DE INTERROGACIÓN ÁRABE
- U+066D ٭ ESTRELLA ÁRABE DE CINCO PUNTAS
- U+06D4 ۔ PUNTO ÁRABE
- U+06DD FIN ÁRABE
- U+06DE ۞ INICIO ÁRABE
- U+06E9 ۩ LUGAR ÁRABE
- U+06FD ۽ SIGNO ÁRABE
- U+FD3E ﴾ Paréntesis izquierdo adornado árabe
- U+FD3F ﴿ Paréntesis derecho adornado árabe
Ligaduras de palabras
Las formas de presentación árabes A tienen algunos caracteres definidos como "ligaduras de palabras" para los términos que se usan con frecuencia en expresiones formales en árabe. Rara vez se usan fuera de la mecanografía litúrgica profesional; además, el grafema rial normalmente se escribe completo, no mediante la ligadura.
- U+FDF0 ﷰ LIGADURA ÁRABE ( صلى , estilizada como صلے )
- U+FDF1 ﷱ LIGADURA ÁRABE ( قلى , estilizada como قلے )
- U+FDF2 ﷲ LIGATURA ÁRABE ( اللّٰه )
- U+FDF3 ﷳ LIGATURA ÁRABE ( اكبر ), como en la frase الله اكبر Allāhu akbar
- U+FDF4 ﷴ LIGATURA ÁRABE ( محمد )
- U+FDF5 ﷵ LIGATURA ÁRABE ( صلعم , la abreviatura de صلى الله عليه وسلم "la paz sea con él")
- U+FDF6 ﷶ LIGATURA ÁRABE ( رسول )
- U+FDF7 ﷷ LIGATURA ÁRABE ( عليه )
- U+FDF8 ﷸ LIGATURA ÁRABE ( وسلم )
- U+FDF9 ﷹ LIGATURA ÁRABE ( صلى )
- U+FDFA ﷺ LIGATURA ÁRABE ( صلى الله عليه وسلم "la paz sea con él")
- U+FDFB ﷻ LIGATURA ÁRABE ( جل جلاله )
- U+FDFC ﷼ SIGNO RIAL ( ريال )
- U+FDFD ﷽ LIGATURA ÁRABE ( بسم الله الرحمن الرحيم bism-i llāh-i r-raḥmān-i r-raḥīm )
Bloques de código
árabe
Tabla de caracteres
Mesa compacta
Suplemento árabe
Árabe ampliado-B
Árabe extendido-A
Formularios de presentación en árabe A
Se trata en su mayoría de ligaduras que se pueden crear a partir de los caracteres de los gráficos anteriores, con excepción de los grafemas tipo corchete ﴾ ﴿ y algunas de ellas son ligaduras de frases litúrgicas comunes.
Formularios de presentación en árabe B
Todos ellos se pueden crear a partir de los caracteres del gráfico básico.
Símbolos numéricos de Rumi
Árabe extendido-C
Números de Siyaq índicos
Números del Siyaq otomano
Símbolos alfabéticos matemáticos árabes
Referencias
- ^ "¿Cuál es el origen del ampersand (&)?"
- ^ unicode.org Biografía: Thomas Milo - DecoType
- ^ "UAX #24: Archivo de datos de script". Base de datos de caracteres Unicode . El Consorcio Unicode.
- ^ ab "Sección 9.2: Árabe, Formas de presentación árabes-B". El estándar Unicode . El Consorcio Unicode. Septiembre de 2024.
- ^ Pandey, Anshuman (5 de noviembre de 2015). "L2/15-121R2: Propuesta para codificar los números índicos siyaq" (PDF) .
- ^ ab "Capítulo 22: Símbolos". Unicode, Inc. Septiembre de 2024.
- ^ Obsoleto a partir de la versión Unicode 6.0 Historial de cambios de UCD "La combinación particular de una alef con esta marca vocálica debe escribirse con la secuencia <U+0627 LETRA ÁRABE ALEF, U+065F HAMZA ONDULADA ÁRABE ABAJO>, en lugar de con el carácter U+0673 LETRA ÁRABE ALEF CON HAMZA ONDULADA ABAJO, que ha quedado obsoleto y que no es canónicamente equivalente. "Sección 9.2: Árabe, marcas vocálicas adicionales". El estándar Unicode . El Consorcio Unicode. Septiembre de 2024.
Enlaces externos
- Oibane. "Problemas con Unicode". Árabe en Linux . Archivado desde el original el 3 de febrero de 2008.
- Arabunic. "Arabúnico: unicode <-> glifos, convertidor bidireccional". Aplicación Java que convierte glifos a unicode (y unicode a glifos). Tiene en cuenta ligaduras, lam-alif, diacríticos, etc.
- Scheherazade o Scheherazade New, una fuente de escritura árabe extendida diseñada por SIL International , distribuida bajo la Licencia de Fuente Abierta SIL (OFL)
- Harmattan, una fuente de escritura árabe extendida diseñada por SIL International para África Occidental, distribuida bajo la Licencia de Fuente Abierta SIL (OFL)