En Unicode , una escritura es una colección de letras y otros signos escritos que se utilizan para representar información textual en uno o más sistemas de escritura . [1] Algunas escrituras admiten un solo sistema de escritura e idioma , por ejemplo, el armenio . Otros scripts admiten muchos sistemas de escritura diferentes; por ejemplo, la escritura latina admite inglés , francés , alemán , italiano , vietnamita , el propio latín y varios otros idiomas. Algunos idiomas utilizan múltiples sistemas de escritura alternativos y, por lo tanto, también utilizan varias escrituras; por ejemplo, en turco , la escritura árabe se utilizaba antes del siglo XX, pero pasó al latín a principios del siglo XX. Más o menos complementarios a los scripts son los símbolos y caracteres de control Unicode .
Los caracteres diacríticos unificados y los caracteres de puntuación unificados suelen tener la propiedad de escritura "común" o "heredada". Sin embargo, las escrituras individuales a menudo tienen su propia puntuación y signos diacríticos , de modo que muchas escrituras incluyen no solo letras sino también signos diacríticos y de otro tipo, puntuación, números e incluso sus propios símbolos y caracteres de espacio idiosincrásicos.
Unicode 15.1 define 161 escrituras independientes, incluidas 94 escrituras modernas y 67 escrituras antiguas o históricas. [2] [3] Hay más scripts en proceso de codificación o se han asignado tentativamente para codificación en hojas de ruta. [4]
Cuando varios idiomas utilizan la misma escritura, con frecuencia existen algunas diferencias, particularmente en los signos diacríticos y otras marcas. Por ejemplo, tanto el sueco como el inglés utilizan la escritura latina. Sin embargo, el sueco incluye el carácter å (a veces llamado O sueco ), mientras que el inglés no tiene ese carácter. El inglés tampoco utiliza el anillo de combinación diacrítico anterior para ningún carácter. En general, los idiomas que comparten las mismas escrituras comparten muchos de los mismos caracteres. A pesar de estas diferencias periféricas en los sistemas de escritura sueco e inglés, se dice que utilizan la misma escritura latina. Por tanto, la abstracción Unicode de guiones es una técnica de organización básica. Las diferencias entre los diferentes alfabetos o sistemas de escritura permanecen y están respaldadas por las secuencias de comandos flexibles de Unicode, que combinan marcas y algoritmos de intercalación.
El sistema de escritura a veces se trata como sinónimo de "guión". Sin embargo, también se puede utilizar como un sistema de escritura concreto específico respaldado por un guión. Por ejemplo, el sistema de escritura vietnamita está respaldado por la escritura latina. Un sistema de escritura también puede abarcar más de una escritura; por ejemplo, el sistema de escritura japonés hace uso de las escrituras Han , Hiragana y Katakana .
La mayoría de los sistemas de escritura se pueden dividir a grandes rasgos en varias categorías: logográfica , silábica , alfabética (o segmentaria ), abugida , abjad y característica ; sin embargo, todas las características de cualquiera de estos pueden encontrarse en cualquier sistema de escritura determinado en proporciones variables, lo que a menudo dificulta la categorización pura de un sistema. El término sistema complejo se utiliza a veces para describir aquellos en los que la mezcla hace que la clasificación sea problemática.
Unicode admite todos estos tipos de sistemas de escritura a través de sus numerosos scripts. Unicode también agrega más propiedades a los caracteres para ayudar a diferenciar los distintos caracteres y las formas en que se comportan dentro de los algoritmos de procesamiento de texto Unicode.
Además de las propiedades de script explícitas o específicas, Unicode utiliza tres valores especiales: [5]
Unicode proporciona una propiedad de categoría general para cada carácter. Así que además de pertenecer a un guión cada personaje también tiene una categoría general. Por lo general, los scripts incluyen caracteres de letras que incluyen: letras mayúsculas, letras minúsculas y letras modificadoras. Algunos caracteres se consideran letras de título para algunas ligaduras precompuestas, como Dz (U+01F2). Todas estas ligaduras de títulos están en escritura latina y griega y son caracteres de compatibilidad y, por lo tanto, Unicode desaconseja su uso por parte de los autores. Es poco probable que se agreguen nuevas letras de título en el futuro.
La mayoría de los sistemas de escritura no diferencian entre letras mayúsculas y minúsculas. Para esas escrituras, todas las letras se clasifican como "otra letra" o "letra modificadora". Los ideogramas como los de Unihan también se clasifican como "otras letras". Sin embargo, algunas escrituras diferencian entre mayúsculas y minúsculas: latín, cirílico, griego, armenio, georgiano y Deseret. Incluso para estas escrituras hay algunas letras que no son ni mayúsculas ni minúsculas.
Los guiones también pueden contener cualquier otro carácter de categoría general, como marcas (diacríticas y de otro tipo), números (numerales), puntuación , separadores (separadores de palabras como espacios), símbolos y caracteres de formato no gráfico . Estos se incluyen en un script en particular cuando son exclusivos de ese script. Otros caracteres similares generalmente están unificados e incluidos en los bloques de puntuación o diacríticos. Sin embargo, la mayor parte de los caracteres de cualquier escritura (aparte de las escrituras comunes y heredadas) son letras.
Unicode define más de cien nombres de scripts (llamados "Alias" o "alias de valor de propiedad"), según la lista ISO 15924. Unicode utiliza el nombre de script "Común" para Zyyy de ISO 15924 (código para script indeterminado), "Heredado" para Zinh de ISO 15924 (código para script heredado) y "Desconocido" para Zzzz de ISO 15924 (código para script no codificado). No se utilizan, entre otros, los códigos de escritura ISO 15924: Zsym (Símbolos) y Zmth (Notación matemática). Se considera que no son scripts en el sentido Unicode.
Con cada nueva versión de Unicode, se agregan nuevos sistemas de escritura al código de caracteres internacional. Según una declaración de la lingüista Dra. Deborah Anderson de UC Berkeley, hay más de 100 sistemas de escritura que aún no se han incluido en Unicode.
Según una lista del proyecto Missing Scripts de la Universidad de Ciencias Aplicadas de Mainz, Alemania, el ANRT Nancy, Francia y la UC Berkeley, EE. UU., según el estado actual de la investigación (enero de 2022), existen 294 sistemas de escritura conocidos de la humanidad. 131 de ellos aún no están codificados en Unicode, es decir, aún no se pueden utilizar en un ordenador o en un teléfono móvil.