stringtranslate.com

bloque Unicode

Un bloque Unicode es uno de varios rangos contiguos de códigos de caracteres numéricos ( puntos de código ) del conjunto de caracteres Unicode que define el Consorcio Unicode con fines administrativos y de documentación. Normalmente, propuestas como la adición de nuevos glifos se discuten y evalúan considerando el bloque o bloques relevantes en su conjunto.

Generalmente, pero no siempre, cada bloque está destinado a proporcionar glifos utilizados por uno o más lenguajes específicos, o en algún área de aplicación general como matemáticas , topografía , composición tipográfica decorativa , foros sociales, etc.

Diseño e implementación

Los bloques Unicode se identifican mediante nombres únicos, que utilizan únicamente caracteres ASCII y suelen ser descriptivos de la naturaleza de los símbolos, en inglés ; como "tibetano" o "flechas suplementarias-A". (Al comparar nombres de bloques, se supone que se deben equiparar las letras mayúsculas con las minúsculas e ignorar los espacios en blanco, los guiones y las barras inferiores; por lo que el apellido es equivalente a "supplemental_arrows__a" y "SUPPLEMENTALARROWSA". [ 1]

Los bloques son separados por pares ; es decir, no se superponen. El punto de código inicial y el tamaño (número de puntos de código) de cada bloque son siempre múltiplos de 16; por lo tanto, en la notación hexadecimal , el punto inicial (el más pequeño) es U+ xxx 0 y el punto final (el más grande) es U+ yyy F, donde xxx y yyy son tres o más dígitos hexadecimales. (Estas restricciones tienen como objetivo simplificar la visualización de glifos en documentos del Consorcio Unicode, como tablas con 16 filas etiquetadas con el último dígito hexadecimal del punto de código. [1] ) El tamaño de un bloque puede variar desde un mínimo de 16 hasta un máximo de 65.536 puntos de código.

Cada punto de código asignado tiene una propiedad de glifo llamada "Bloque", cuyo valor es una cadena de caracteres que nombra el bloque único propietario de ese punto. [2] Sin embargo, un bloque también puede contener puntos de código no asignados, generalmente reservados para futuras adiciones de caracteres que "lógicamente" deberían pertenecer a ese bloque. Los puntos de código que no pertenecen a ninguno de los bloques nombrados, por ejemplo en los planos no asignados 4–13, tienen el valor block="No_Block". [1]

El simple hecho de pertenecer a un bloque Unicode particular no garantiza ciertas propiedades particulares de los caracteres que contiene o se espera que contenga. La identidad de cualquier carácter está determinada por sus propiedades indicadas en la base de datos de caracteres Unicode. Por ejemplo, el rango contiguo de 32 puntos de código sin caracteres U+FDD0..U+FDEF no comparte ninguna de las propiedades comunes a los otros caracteres en el bloque Formularios de presentación árabe-A , y ciertamente no son caracteres de escritura árabe o caracteres "derechos". no caracteres a la izquierda", y se asignan allí como relleno de este bloque dado que se ha acordado que no se codificarán más caracteres de compatibilidad árabe. [3]

Otras clasificaciones

Cada punto Unicode también tiene una propiedad llamada " Categoría general ", que intenta describir el papel del símbolo correspondiente en los idiomas o aplicaciones por cuyo motivo fue incluido en el sistema. Ejemplos de categorías generales son "Lu" (que significa letra mayúscula), "Nd" (dígito decimal), "Pi" (puntuación entre comillas abiertas) y "Mn" (signo sin espacio, es decir, un signo diacrítico para lo anterior). glifo). Esta división es completamente independiente de los bloques de código: los puntos de código con una determinada Categoría General generalmente abarcan muchos bloques, y no tienen por qué ser consecutivos, ni siquiera dentro de cada bloque. [4]

Cada punto de código también tiene una propiedad de script , que especifica a qué sistema de escritura está destinado o si está destinado a varios sistemas de escritura. Esto, además, es independiente del bloque.

En las descripciones del sistema Unicode, un bloque puede subdividirse en subgrupos más específicos, como los " Símbolos de ajedrez " en el bloque Símbolos varios (que no debe confundirse con el bloque de Símbolos de ajedrez separado ). Esos subgrupos no son "bloques" en el sentido técnico utilizado por el consorcio Unicode y reciben nombres únicamente para comodidad de los usuarios.

Lista de bloques

Unicode 15.1 define 328 bloques: [1]

Bloques movidos

La política de estabilidad de Unicode requiere que un carácter, una vez asignado, no se pueda mover ni eliminar, aunque puede quedar obsoleto. Esto se aplica a Unicode 2.0 y todas las versiones posteriores.

Anteriormente se trasladaron los siguientes bloques antiguos:

Referencias

  1. ^ abcd "Archivo de datos de bloques Unicode, versión Unicode 15.1". Consorcio Unicode . Consultado el 12 de septiembre de 2023 .
  2. ^ "Glosario". www.unicode.org . Consultado el 7 de agosto de 2022 .
  3. ^ "Preguntas frecuentes sobre personajes de uso privado, no personajes y centinelas". www.unicode.org . Consultado el 24 de julio de 2023 .
  4. ^ "Especificación principal de Unicode, Capítulo 4: Propiedades de los caracteres" (PDF) . Consultado el 15 de septiembre de 2021 .
  5. ^ "3.8: Gráficos bloque por bloque" (PDF) . El estándar Unicode . Versión 1.0. Consorcio Unicode .
  6. ^ abc "Apéndice E: Nombres de bloques" (PDF) . El estándar Unicode . Versión 1.1. Consorcio Unicode .

enlaces externos