Guión (Unicode)

En Unicode , una escritura es una colección de letras y otros signos escritos que se utilizan para representar información textual en uno o más sistemas de escritura . ^[1] Algunas escrituras admiten un solo sistema de escritura e idioma , por ejemplo, el armenio . Otros scripts admiten muchos sistemas de escritura diferentes; por ejemplo, la escritura latina admite inglés , francés , alemán , italiano , vietnamita , el propio latín y varios otros idiomas. Algunos idiomas utilizan múltiples sistemas de escritura alternativos y, por lo tanto, también utilizan varias escrituras; por ejemplo, en turco , la escritura árabe se utilizaba antes del siglo XX, pero pasó al latín a principios del siglo XX. Más o menos complementarios a los scripts son los símbolos y caracteres de control Unicode .

Los caracteres diacríticos unificados y los caracteres de puntuación unificados suelen tener la propiedad de escritura "común" o "heredada". Sin embargo, las escrituras individuales a menudo tienen su propia puntuación y signos diacríticos , de modo que muchas escrituras incluyen no solo letras sino también signos diacríticos y de otro tipo, puntuación, números e incluso sus propios símbolos y caracteres de espacio idiosincrásicos.

Unicode 15.1 define 161 escrituras independientes, incluidas 94 escrituras modernas y 67 escrituras antiguas o históricas. ^[2]^[3] Hay más scripts en proceso de codificación o se han asignado tentativamente para codificación en hojas de ruta. ^[4]

Definición y clasificación

Cuando varios idiomas utilizan la misma escritura, con frecuencia existen algunas diferencias, particularmente en los signos diacríticos y otras marcas. Por ejemplo, tanto el sueco como el inglés utilizan la escritura latina. Sin embargo, el sueco incluye el carácter å (a veces llamado O sueco ), mientras que el inglés no tiene ese carácter. El inglés tampoco utiliza el anillo de combinación diacrítico anterior para ningún carácter. En general, los idiomas que comparten las mismas escrituras comparten muchos de los mismos caracteres. A pesar de estas diferencias periféricas en los sistemas de escritura sueco e inglés, se dice que utilizan la misma escritura latina. Por tanto, la abstracción Unicode de guiones es una técnica de organización básica. Las diferencias entre los diferentes alfabetos o sistemas de escritura permanecen y están respaldadas por las secuencias de comandos flexibles de Unicode, que combinan marcas y algoritmos de intercalación.

Guión versus sistema de escritura

El sistema de escritura a veces se trata como sinónimo de "guión". Sin embargo, también se puede utilizar como un sistema de escritura concreto específico respaldado por un guión. Por ejemplo, el sistema de escritura vietnamita está respaldado por la escritura latina. Un sistema de escritura también puede abarcar más de una escritura; por ejemplo, el sistema de escritura japonés hace uso de las escrituras Han , Hiragana y Katakana .

La mayoría de los sistemas de escritura se pueden dividir a grandes rasgos en varias categorías: logográfica , silábica , alfabética (o segmentaria ), abugida , abjad y característica ; sin embargo, todas las características de cualquiera de estos pueden encontrarse en cualquier sistema de escritura determinado en proporciones variables, lo que a menudo dificulta la categorización pura de un sistema. El término sistema complejo se utiliza a veces para describir aquellos en los que la mezcla hace que la clasificación sea problemática.

Unicode admite todos estos tipos de sistemas de escritura a través de sus numerosos scripts. Unicode también agrega más propiedades a los caracteres para ayudar a diferenciar los distintos caracteres y las formas en que se comportan dentro de los algoritmos de procesamiento de texto Unicode.

Valores de propiedades de script especiales

Además de las propiedades de script explícitas o específicas, Unicode utiliza tres valores especiales: ^[5]

Común: Unicode puede asignar un carácter en el UCS a un único script. Sin embargo, muchos caracteres (aquellos que no forman parte de un sistema formal de escritura en lenguaje natural o que están unificados en muchos sistemas de escritura) pueden usarse en más de una escritura (por ejemplo, signos de moneda, símbolos, números y signos de puntuación). En estos casos Unicode los define como pertenecientes al script "común" ( código ISO 15924 "Zyyy").
Heredado: Se pueden aplicar muchos signos diacríticos y caracteres combinados sin espacios a caracteres de más de una escritura. En estos casos Unicode los asigna a la escritura "heredada" (código ISO 15924 Zinh), lo que significa que tienen la misma clase de escritura que el carácter base con el que se combinan, por lo que en diferentes contextos pueden ser tratados como pertenecientes a diferentes guiones. Por ejemplo, U+0308 ̈ COMBINANDO DIÉRESIS puede combinarse con U+0065 e LETRA E MINÚSCULA LATINA para crear una ë latina o con U+0435 е LETRA MINÚSCULA CIRÍLICA IE para el cirílico ё . En el primer caso, hereda la escritura latina del carácter base, mientras que en el segundo caso, hereda la escritura cirílica del carácter base.
Desconocido: El valor de secuencia de comandos "desconocida" (código ISO 15924 Zzzz) se otorga a puntos de código sustitutos, sin caracteres y de uso privado no asignados.

Categorías de personajes dentro de los guiones

Unicode proporciona una propiedad de categoría general para cada carácter. Así que además de pertenecer a un guión cada personaje también tiene una categoría general. Por lo general, los scripts incluyen caracteres de letras que incluyen: letras mayúsculas, letras minúsculas y letras modificadoras. Algunos caracteres se consideran letras de título para algunas ligaduras precompuestas, como ǲ (U+01F2). Todas estas ligaduras de títulos están en escritura latina y griega y son caracteres de compatibilidad y, por lo tanto, Unicode desaconseja su uso por parte de los autores. Es poco probable que se agreguen nuevas letras de título en el futuro.

La mayoría de los sistemas de escritura no diferencian entre letras mayúsculas y minúsculas. Para esas escrituras, todas las letras se clasifican como "otra letra" o "letra modificadora". Los ideogramas como los de Unihan también se clasifican como "otras letras". Sin embargo, algunas escrituras diferencian entre mayúsculas y minúsculas: latín, cirílico, griego, armenio, georgiano y Deseret. Incluso para estas escrituras hay algunas letras que no son ni mayúsculas ni minúsculas.

Los guiones también pueden contener cualquier otro carácter de categoría general, como marcas (diacríticas y de otro tipo), números (numerales), puntuación , separadores (separadores de palabras como espacios), símbolos y caracteres de formato no gráfico . Estos se incluyen en un script en particular cuando son exclusivos de ese script. Otros caracteres similares generalmente están unificados e incluidos en los bloques de puntuación o diacríticos. Sin embargo, la mayor parte de los caracteres de cualquier escritura (aparte de las escrituras comunes y heredadas) son letras.

Lista de scripts en Unicode

Unicode define más de cien nombres de scripts (llamados "Alias" o "alias de valor de propiedad"), según la lista ISO 15924. Unicode utiliza el nombre de script "Común" para Zyyy de ISO 15924 (código para script indeterminado), "Heredado" para Zinh de ISO 15924 (código para script heredado) y "Desconocido" para Zzzz de ISO 15924 (código para script no codificado). No se utilizan, entre otros, los códigos de escritura ISO 15924: Zsym (Símbolos) y Zmth (Notación matemática). Se considera que no son scripts en el sentido Unicode.

Scripts faltantes en Unicode

Con cada nueva versión de Unicode, se agregan nuevos sistemas de escritura al código de caracteres internacional. Según una declaración de la lingüista Dra. Deborah Anderson de UC Berkeley, hay más de 100 sistemas de escritura que aún no se han incluido en Unicode.

Según una lista del proyecto Missing Scripts de la Universidad de Ciencias Aplicadas de Mainz, Alemania, el ANRT Nancy, Francia y la UC Berkeley, EE. UU., según el estado actual de la investigación (enero de 2022), existen 294 sistemas de escritura conocidos de la humanidad. 131 de ellos aún no están codificados en Unicode, es decir, aún no se pueden utilizar en un ordenador o en un teléfono móvil.

Ver también

Referencias

^ "Glosario". unicode.org .
^ "Base de datos de caracteres Unicode: scripts". unicode.org .
^ "Capítulo 14: Escrituras antiguas e históricas adicionales". El estándar Unicode, versión 15.0 (PDF) . Mountain View, CA: Unicode, Inc. Septiembre de 2022. ISBN 978-1-936213-32-0.
^ https://www.unicode.org/roadmaps/ Hojas de ruta hacia Unicode
^ "UAX n.° 24: propiedad de secuencia de comandos Unicode". www.unicode.org .

enlaces externos

Script Encoding Initiative, un proyecto de UC Berkeley, EE. UU., que trabaja para incluir más scripts en el estándar Unicode.
Los sistemas de escritura del mundo, una descripción general de los 294 sistemas de escritura conocidos, cada uno con un glifo de referencia tipográfica y su estado Unicode.