Escritura (Unicode)

En Unicode , una escritura es una colección de letras y otros signos escritos que se utilizan para representar información textual en uno o más sistemas de escritura . ^[1] Algunas escrituras admiten un solo sistema de escritura e idioma , por ejemplo, el armenio . Otras escrituras admiten muchos sistemas de escritura diferentes; por ejemplo, la escritura latina admite inglés , francés , alemán , italiano , vietnamita , el propio latín y varios otros idiomas. Algunos idiomas hacen uso de múltiples sistemas de escritura alternativos y, por lo tanto, también usan varias escrituras; por ejemplo, en turco , la escritura árabe se usó antes del siglo XX, pero pasó al latín a principios del siglo XX. Más o menos complementarios a las escrituras son los símbolos y los caracteres de control Unicode .

Los caracteres diacríticos unificados y los caracteres de puntuación unificados suelen tener la propiedad de escritura "común" o "heredada". Sin embargo, las escrituras individuales suelen tener su propia puntuación y diacríticos , de modo que muchas escrituras incluyen no solo letras sino también signos diacríticos y de otro tipo, puntuación, números e incluso sus propios símbolos idiosincrásicos y caracteres de espacio .

Unicode 16.0 define 168 escrituras independientes, incluidas 99 escrituras modernas y 69 escrituras antiguas o históricas. ^[2]^[3] Hay más escrituras en proceso de codificación o se han asignado tentativamente para codificación en hojas de ruta. ^[4]

Definición y clasificación

Cuando varios idiomas utilizan el mismo sistema de escritura, con frecuencia hay algunas diferencias, en particular en los diacríticos y otras marcas. Por ejemplo, tanto el sueco como el inglés utilizan el sistema de escritura latino. Sin embargo, el sueco incluye el carácter å (a veces llamado O sueco ), mientras que el inglés no tiene dicho carácter. El inglés tampoco utiliza el anillo de combinación diacrítica mencionado anteriormente para ningún carácter. En general, los idiomas que comparten el mismo sistema de escritura comparten muchos de los mismos caracteres. A pesar de estas diferencias periféricas en los sistemas de escritura sueco e inglés, se dice que utilizan el mismo sistema de escritura latino. Por lo tanto, la abstracción Unicode de los sistemas de escritura es una técnica de organización básica. Las diferencias entre los diferentes alfabetos o sistemas de escritura se mantienen y se respaldan mediante los sistemas de escritura flexibles de Unicode, las marcas de combinación y los algoritmos de cotejo.

Guión versus sistema de escritura

El sistema de escritura se considera a veces sinónimo de "escritura". Sin embargo, también puede utilizarse como el sistema de escritura concreto específico que se sustenta en una escritura. Por ejemplo, el sistema de escritura vietnamita se sustenta en la escritura latina. Un sistema de escritura también puede abarcar más de una escritura; por ejemplo, el sistema de escritura japonés utiliza las escrituras han , hiragana y katakana .

La mayoría de los sistemas de escritura pueden dividirse en varias categorías: logográficos , silábicos , alfabéticos (o segmentales ), abugida , abjad y facultativos ; sin embargo, todas las características de cualquiera de estos pueden encontrarse en cualquier sistema de escritura determinado en proporciones variables, lo que a menudo dificulta la categorización pura de un sistema. El término sistema complejo se utiliza a veces para describir aquellos en los que la mezcla hace que la clasificación sea problemática.

Unicode admite todos estos tipos de sistemas de escritura a través de sus numerosos sistemas de escritura. Unicode también añade más propiedades a los caracteres para ayudar a diferenciarlos y a diferenciarlos de los demás y de su comportamiento dentro de los algoritmos de procesamiento de texto de Unicode.

Valores de propiedad de scripts especiales

Además de las propiedades de script explícitas o específicas, Unicode utiliza tres valores especiales: ^[5]

Común: Unicode puede asignar un carácter del UCS a un solo sistema de escritura. Sin embargo, muchos caracteres (aquellos que no forman parte de un sistema de escritura formal en lenguaje natural o que están unificados en muchos sistemas de escritura) pueden usarse en más de un sistema de escritura (por ejemplo, signos monetarios, símbolos, números y signos de puntuación). En estos casos, Unicode los define como pertenecientes al sistema de escritura "común" ( código ISO 15924 "Zyyy").
Heredado: Muchos diacríticos y caracteres de combinación sin espaciado pueden aplicarse a caracteres de más de una escritura. En estos casos, Unicode los asigna a la escritura "heredada" (código ISO 15924 Zinh), lo que significa que tienen la misma clase de escritura que el carácter base con el que se combinan, y por lo tanto, en diferentes contextos pueden tratarse como pertenecientes a diferentes escrituras. Por ejemplo, U+0308 ̈ DIÉRESIS COMBINANTE puede combinarse con U+0065 e LETRA E MINÚSCULA LATINA para crear una ë latina o con U+0435 е LETRA IE MINÚSCULA CIRÍLICA para crear la ё cirílica . En el primer caso, hereda la escritura latina del carácter base, mientras que en el segundo caso, hereda la escritura cirílica del carácter base.
Desconocido: El valor del script "desconocido" (código ISO 15924 Zzzz) se asigna a puntos de código no asignados, de uso privado, sin caracteres y sustitutos.

Categorías de personajes dentro de los guiones

Unicode proporciona una propiedad de categoría general para cada carácter. Por lo tanto, además de pertenecer a un sistema de escritura, cada carácter también tiene una categoría general. Normalmente, los sistemas de escritura incluyen caracteres de letras, como letras mayúsculas, letras minúsculas y letras modificadoras. Algunos caracteres se consideran letras mayúsculas para algunas ligaduras precompuestas , como ǲ (U+01F2). Dichas ligaduras mayúsculas se encuentran en los sistemas de escritura latino y griego y son caracteres de compatibilidad , por lo que Unicode desaconseja su uso por parte de los autores. Es poco probable que se añadan nuevas letras mayúsculas en el futuro.

La mayoría de los sistemas de escritura no distinguen entre letras mayúsculas y minúsculas. En estos sistemas, todas las letras se clasifican como "otras letras" o "letras modificadoras". Los ideogramas, como los ideogramas Unihan, también se clasifican como "otras letras". Sin embargo, algunos sistemas de escritura sí diferencian entre mayúsculas y minúsculas: el latín, el cirílico, el griego, el armenio, el georgiano y el deseret. Incluso en estos sistemas de escritura hay algunas letras que no son ni mayúsculas ni minúsculas.

Los alfabetos también pueden contener cualquier otro carácter de categoría general, como marcas (diacríticas y de otro tipo), números (numerales), puntuación , separadores (separadores de palabras, como espacios), símbolos y caracteres de formato no gráfico . Estos se incluyen en un alfabeto en particular cuando son exclusivos de ese alfabeto. Otros caracteres similares se unifican generalmente y se incluyen en los bloques de puntuación o diacríticos. Sin embargo, la mayor parte de los caracteres de cualquier alfabeto (excepto los alfabetos comunes y heredados) son letras.

Lista de scripts codificados

A partir de la versión 16.0 ^[actualizar], Unicode define 168 scripts (llamados "Alias" o "Alias de valor de propiedad") según la lista ISO 15924. Además, Unicode asigna el nombre "Común" al Zyyycódigo ISO 15924 para scripts indeterminados, "Heredado" al Zinhcódigo ISO 15924 para scripts heredados y "Desconocido" al código ISO 15924 Zzzzpara scripts no codificados. Existen códigos de script definidos por ISO 15924 pero que no se utilizan en Unicode, incluidos Zsym(Símbolos) y Zmth(Notación matemática).

Scripts faltantes en Unicode

El proyecto Missing Scripts, con colaboradores de la Universidad de Ciencias Aplicadas de Maguncia , L'Atelier national de recherche typographique (ANRT) de Nancy y la Universidad de California en Berkeley , ha compilado una lista de 131 scripts que aún no han sido codificados en el estándar Unicode , de un total de 294 scripts reconocidos según el estado actual de la investigación. ^[6]

Véase también

Referencias

^ "Glosario". unicode.org .
^ "Base de datos de caracteres Unicode: secuencias de comandos". unicode.org .
^ "Capítulo 14: Escrituras antiguas e históricas adicionales". El estándar Unicode, versión 15.0 (PDF) . Mountain View, CA: Unicode, Inc. Septiembre de 2022. ISBN 978-1-936213-32-0.
^ https://www.unicode.org/roadmaps/ Hojas de ruta hacia Unicode
^ "UAX #24: Propiedad de script Unicode". www.unicode.org .
^ "Los sistemas de escritura del mundo". www.worldswritingsystems.org . Consultado el 4 de octubre de 2024 .

Enlaces externos

Iniciativa de codificación de scripts, un proyecto de la Universidad de California en Berkeley (EE. UU.) que trabaja para lograr que se incluyan más scripts en el estándar Unicode.
Los sistemas de escritura del mundo: una descripción general de los 294 sistemas de escritura conocidos, cada uno con un glifo de referencia tipográfica y su estado Unicode.