En Unicode , una escritura es una colección de letras y otros signos escritos que se utilizan para representar información textual en uno o más sistemas de escritura . [1] Algunas escrituras admiten un solo sistema de escritura e idioma , por ejemplo, el armenio . Otras escrituras admiten muchos sistemas de escritura diferentes; por ejemplo, la escritura latina admite inglés , francés , alemán , italiano , vietnamita , el propio latín y varios otros idiomas. Algunos idiomas hacen uso de múltiples sistemas de escritura alternativos y, por lo tanto, también usan varias escrituras; por ejemplo, en turco , la escritura árabe se usó antes del siglo XX, pero pasó al latín a principios del siglo XX. Más o menos complementarios a las escrituras son los símbolos y los caracteres de control Unicode .
Los caracteres diacríticos unificados y los caracteres de puntuación unificados suelen tener la propiedad de escritura "común" o "heredada". Sin embargo, las escrituras individuales suelen tener su propia puntuación y diacríticos , de modo que muchas escrituras incluyen no solo letras sino también signos diacríticos y de otro tipo, puntuación, números e incluso sus propios símbolos idiosincrásicos y caracteres de espacio .
Unicode 16.0 define 168 escrituras independientes, incluidas 99 escrituras modernas y 69 escrituras antiguas o históricas. [2] [3] Hay más escrituras en proceso de codificación o se han asignado tentativamente para codificación en hojas de ruta. [4]
Cuando varios idiomas utilizan el mismo sistema de escritura, con frecuencia hay algunas diferencias, en particular en los diacríticos y otras marcas. Por ejemplo, tanto el sueco como el inglés utilizan el sistema de escritura latino. Sin embargo, el sueco incluye el carácter å (a veces llamado O sueco ), mientras que el inglés no tiene dicho carácter. El inglés tampoco utiliza el anillo de combinación diacrítica mencionado anteriormente para ningún carácter. En general, los idiomas que comparten el mismo sistema de escritura comparten muchos de los mismos caracteres. A pesar de estas diferencias periféricas en los sistemas de escritura sueco e inglés, se dice que utilizan el mismo sistema de escritura latino. Por lo tanto, la abstracción Unicode de los sistemas de escritura es una técnica de organización básica. Las diferencias entre los diferentes alfabetos o sistemas de escritura se mantienen y se respaldan mediante los sistemas de escritura flexibles de Unicode, las marcas de combinación y los algoritmos de cotejo.
El sistema de escritura se considera a veces sinónimo de "escritura". Sin embargo, también puede utilizarse como el sistema de escritura concreto específico que se sustenta en una escritura. Por ejemplo, el sistema de escritura vietnamita se sustenta en la escritura latina. Un sistema de escritura también puede abarcar más de una escritura; por ejemplo, el sistema de escritura japonés utiliza las escrituras han , hiragana y katakana .
La mayoría de los sistemas de escritura pueden dividirse en varias categorías: logográficos , silábicos , alfabéticos (o segmentales ), abugida , abjad y facultativos ; sin embargo, todas las características de cualquiera de estos pueden encontrarse en cualquier sistema de escritura determinado en proporciones variables, lo que a menudo dificulta la categorización pura de un sistema. El término sistema complejo se utiliza a veces para describir aquellos en los que la mezcla hace que la clasificación sea problemática.
Unicode admite todos estos tipos de sistemas de escritura a través de sus numerosos sistemas de escritura. Unicode también añade más propiedades a los caracteres para ayudar a diferenciarlos y a diferenciarlos de los demás y de su comportamiento dentro de los algoritmos de procesamiento de texto de Unicode.
Además de las propiedades de script explícitas o específicas, Unicode utiliza tres valores especiales: [5]
Unicode proporciona una propiedad de categoría general para cada carácter. Por lo tanto, además de pertenecer a un sistema de escritura, cada carácter también tiene una categoría general. Normalmente, los sistemas de escritura incluyen caracteres de letras, como letras mayúsculas, letras minúsculas y letras modificadoras. Algunos caracteres se consideran letras mayúsculas para algunas ligaduras precompuestas , como Dz (U+01F2). Dichas ligaduras mayúsculas se encuentran en los sistemas de escritura latino y griego y son caracteres de compatibilidad , por lo que Unicode desaconseja su uso por parte de los autores. Es poco probable que se añadan nuevas letras mayúsculas en el futuro.
La mayoría de los sistemas de escritura no distinguen entre letras mayúsculas y minúsculas. En estos sistemas, todas las letras se clasifican como "otras letras" o "letras modificadoras". Los ideogramas, como los ideogramas Unihan, también se clasifican como "otras letras". Sin embargo, algunos sistemas de escritura sí diferencian entre mayúsculas y minúsculas: el latín, el cirílico, el griego, el armenio, el georgiano y el deseret. Incluso en estos sistemas de escritura hay algunas letras que no son ni mayúsculas ni minúsculas.
Los alfabetos también pueden contener cualquier otro carácter de categoría general, como marcas (diacríticas y de otro tipo), números (numerales), puntuación , separadores (separadores de palabras, como espacios), símbolos y caracteres de formato no gráfico . Estos se incluyen en un alfabeto en particular cuando son exclusivos de ese alfabeto. Otros caracteres similares se unifican generalmente y se incluyen en los bloques de puntuación o diacríticos. Sin embargo, la mayor parte de los caracteres de cualquier alfabeto (excepto los alfabetos comunes y heredados) son letras.
A partir de la versión 16.0 [actualizar], Unicode define 168 scripts (llamados "Alias" o "Alias de valor de propiedad") según la lista ISO 15924. Además, Unicode asigna el nombre "Común" al Zyyy
código ISO 15924 para scripts indeterminados, "Heredado" al Zinh
código ISO 15924 para scripts heredados y "Desconocido" al código ISO 15924 Zzzz
para scripts no codificados. Existen códigos de script definidos por ISO 15924 pero que no se utilizan en Unicode, incluidos Zsym
(Símbolos) y Zmth
(Notación matemática).
El proyecto Missing Scripts, con colaboradores de la Universidad de Ciencias Aplicadas de Maguncia , L'Atelier national de recherche typographique (ANRT) de Nancy y la Universidad de California en Berkeley , ha compilado una lista de 131 scripts que aún no han sido codificados en el estándar Unicode , de un total de 294 scripts reconocidos según el estado actual de la investigación. [6]