stringtranslate.com

Bloque Unicode

Un bloque Unicode es uno de varios rangos contiguos de códigos de caracteres numéricos ( puntos de código ) del conjunto de caracteres Unicode que define el Consorcio Unicode con fines administrativos y de documentación. Normalmente, las propuestas como la adición de nuevos glifos se analizan y evalúan considerando el bloque o los bloques pertinentes en su conjunto.

Cada bloque está generalmente, pero no siempre, destinado a proporcionar glifos utilizados en uno o más idiomas específicos, o en algún área de aplicación general como matemáticas , agrimensura , composición tipográfica decorativa , foros sociales, etc.

Diseño e implementación

Los bloques Unicode se identifican por nombres únicos, que utilizan solo caracteres ASCII y generalmente son descriptivos de la naturaleza de los símbolos, en inglés ; como "Tibetan" o "Supplemental Arrows-A". (Al comparar nombres de bloques, se supone que se deben equiparar las letras mayúsculas con las minúsculas e ignorar los espacios en blanco, los guiones y las barras subrayadas; por lo que el apellido es equivalente a "supplemental_arrows__a" y "SUPPLEMENTALARROWSA". [1]

Los bloques son disjuntos por pares , es decir, no se superponen. El punto de código inicial y el tamaño (número de puntos de código) de cada bloque son siempre múltiplos de 16; por lo tanto, en la notación hexadecimal , el punto inicial (más pequeño) es U+ xxx 0 y el punto final (más grande) es U+ yyy F, donde xxx e yyy son tres o más dígitos hexadecimales. (Estas restricciones tienen por objeto simplificar la visualización de los glifos en los documentos del Consorcio Unicode, como tablas con 16 filas etiquetadas con el último dígito hexadecimal del punto de código. [1] ) El tamaño de un bloque puede variar desde el mínimo de 16 hasta un máximo de 65.536 puntos de código.

Cada punto de código asignado tiene una propiedad de glifo llamada "Bloque", cuyo valor es una cadena de caracteres que nombra el bloque único que posee ese punto. [2] Sin embargo, un bloque también puede contener puntos de código no asignados, normalmente reservados para futuras incorporaciones de caracteres que "lógicamente" deberían pertenecer a ese bloque. Los puntos de código que no pertenecen a ninguno de los bloques nombrados, por ejemplo, en los planos no asignados 4–13, tienen el valor block="No_Block". [1]

El simple hecho de pertenecer a un bloque Unicode en particular no garantiza las propiedades particulares de los caracteres que contiene o se espera que contenga. La identidad de cualquier carácter está determinada por sus propiedades establecidas en la base de datos de caracteres Unicode. Por ejemplo, el rango contiguo de 32 puntos de código que no son caracteres U+FDD0..U+FDEF no comparte ninguna de las propiedades comunes a los demás caracteres del bloque de Formas de presentación árabes-A , por lo que no son caracteres de escritura árabe ni "caracteres que no se escriben de derecha a izquierda", y se asignan allí como relleno para este bloque dado que se ha acordado que no se codificarán más caracteres de compatibilidad árabe. [3]

Otras clasificaciones

Cada punto Unicode tiene también una propiedad llamada " Categoría General ", que intenta describir el papel del símbolo correspondiente en los lenguajes o aplicaciones para los cuales fue incluido en el sistema. Ejemplos de Categorías Generales son "Lu" (que significa letra mayúscula), "Nd" (dígito decimal), "Pi" (puntuación entre comillas) y "Mn" (marca sin espaciado, es decir, un diacrítico para el glifo precedente). Esta división es completamente independiente de los bloques de código: los puntos de código con una Categoría General dada generalmente abarcan muchos bloques, y no tienen que ser consecutivos, ni siquiera dentro de cada bloque. [4]

Cada punto de código también tiene una propiedad de script , que especifica a qué sistema de escritura está destinado o si está destinado a varios sistemas de escritura. Esto también es independiente del bloque.

En las descripciones del sistema Unicode, un bloque puede subdividirse en subgrupos más específicos, como los " Símbolos de ajedrez " en el bloque Símbolos varios (que no debe confundirse con el bloque Símbolos de ajedrez independiente ). Esos subgrupos no son "bloques" en el sentido técnico utilizado por el consorcio Unicode y se nombran solo para conveniencia de los usuarios.

Lista de bloques

Unicode 16.0 define 338 bloques: [1]

Bloques movidos

La política de estabilidad de Unicode exige que, una vez asignado, un carácter no se pueda mover ni eliminar, aunque puede quedar obsoleto. Esto se aplica a Unicode 2.0 y a todas las versiones posteriores.

Previamente se trasladaron los siguientes bloques antiguos:

Referencias

  1. ^ abcd «Archivo de datos de bloques Unicode, versión Unicode 15.1». Consorcio Unicode . Consultado el 12 de septiembre de 2023 .
  2. ^ "Glosario". www.unicode.org . Consultado el 7 de agosto de 2022 .
  3. ^ "Preguntas frecuentes sobre personajes, no personajes y centinelas de uso privado" www.unicode.org . Consultado el 24 de julio de 2023 .
  4. ^ "Especificación básica Unicode, Capítulo 4: Propiedades de los caracteres" (PDF) . Consultado el 15 de septiembre de 2021 .
  5. ^ "3.8: Gráficos bloque por bloque" (PDF) . El estándar Unicode . Versión 1.0. Consorcio Unicode .
  6. ^ abc "Apéndice E: Nombres de bloques" (PDF) . El estándar Unicode . Versión 1.1. Consorcio Unicode .

Enlaces externos