stringtranslate.com

Avión (Unicode)

En el estándar Unicode , un avión es un grupo contiguo de 65.536 (2 16 ) puntos de código . Hay 17 planos, identificados por los números del 0 al 16, que corresponden con los valores posibles 00–10 16 de las dos primeras posiciones en formato hexadecimal de seis posiciones (U+ hh hhhh ). El plano 0 es el plano multilingüe básico (BMP), que contiene los caracteres más utilizados. Los planos superiores del 1 al 16 se denominan "planos suplementarios". [1] El último punto de código en Unicode es el último punto de código en el plano 16, U+10FFFF. A partir de la versión 15.1 de Unicode, cinco de los aviones tienen puntos de código asignados (caracteres) y siete tienen nombre.

El límite de 17 planos se debe a UTF-16 , que puede codificar de 2 a 20 puntos de código (16 planos) como pares de palabras , más el BMP como una sola palabra. [2] UTF-8 fue diseñado con un límite mucho mayor de 2 31 (2,147,483,648) puntos de código (32,768 aviones), y aún podría codificar 2 21 (2,097,152) puntos de código (32 aviones) incluso bajo el límite actual de 4 bytes . [3]

Los 17 aviones tienen capacidad para 1.114.112 puntos de código. De estos, 2.048 son sustitutos (utilizados para hacer los pares en UTF-16), 66 no son personajes y 137.468 están reservados para uso privado , dejando 974.530 para asignación pública.

Los aviones se subdividen en bloques Unicode que, a diferencia de los aviones, no tienen un tamaño fijo. Los 328 bloques definidos en Unicode 15.1 cubren el 26% del espacio de puntos de código posible y varían en tamaño desde un mínimo de 16 puntos de código (dieciséis bloques) hasta un máximo de 65,536 puntos de código (Área de uso privado suplementario-A y -B). que constituyen la totalidad de los planos 15 y 16). Para uso futuro, se han trazado tentativamente rangos de caracteres para la mayoría de los sistemas de escritura antiguos y actuales conocidos. [4]

Descripción general

personajes asignados

  1. ^ Puntos de código que se han asignado a un bloque Unicode .

Plano multilingüe básico

Un mapa del Plano Plurilingüe Básico. Cada cuadro numerado representa 256 puntos de código.

El primer plano, el plano 0 , el Plano Multilingüe Básico ( BMP ), contiene caracteres para casi todos los idiomas modernos y una gran cantidad de símbolos . Un objetivo principal del BMP es apoyar la unificación de conjuntos de caracteres anteriores, así como caracteres para escritura . La mayoría de los puntos de código asignados en BMP se utilizan para codificar caracteres chinos, japoneses y coreanos ( CJK ).

Los códigos High Surrogate ( U+D800–U+DBFF ) y Low Surrogate ( U+DC00–U+DFFF ) están reservados para codificar caracteres que no son BMP en UTF-16 mediante el uso de un par de códigos de 16 bits : un High Surrogate y un sustituto bajo. A un único punto de código sustituto nunca se le asignará un carácter.

65.520 de los 65.536 puntos de código en este plano se han asignado a un bloque Unicode , dejando solo 16 puntos de código en un único rango sin asignar (2FE0..2FEF).

A partir de Unicode 15.1 , el BMP comprende los siguientes 164 bloques:

Plano Suplementario Multilingüe

Un mapa del Plano Suplementario Multilingüe. Cada cuadro numerado representa 256 puntos de código.

El plano 1 , el plano multilingüe suplementario ( SMP ), contiene escrituras históricas (excepto ideográficas CJK) y símbolos y notaciones utilizadas dentro de ciertos campos. Las escrituras incluyen escritura lineal B , jeroglíficos egipcios y escritura cuneiforme . También incluye ortografías reformistas inglesas como Shavian y Deseret , y algunas escrituras modernas como Osage , Warang Citi , Adlam , Wancho y Toto . Los símbolos y notaciones incluyen notación musical histórica y moderna ; alfanuméricos matemáticos ; taquigrafías; Emoji y otros conjuntos pictográficos; y símbolos de juegos para jugar a las cartas , mahjong y dominó .

A partir de Unicode 15.1 , el SMP comprende los siguientes 151 bloques:

Plano ideográfico suplementario

Un mapa del Plano Ideográfico Suplementario. Cada cuadro numerado representa 256 puntos de código.

El plano 2 , el plano ideográfico suplementario ( SIP ), se utiliza para ideogramas CJK, en su mayoría ideogramas unificados CJK , que no estaban incluidos en estándares de codificación de caracteres anteriores.

A partir de Unicode 15.1 , el SIP comprende los siguientes siete bloques:

Plano ideográfico terciario

Un mapa del Plano Ideográfico Terciario. Cada cuadro numerado representa 256 puntos de código.

El plano 3 es el Plano Ideográfico Terciario (TIP). CJK Unified Ideographs Extension G se agregó al TIP en Unicode 13.0, lanzado en marzo de 2020. [5] También está asignada provisionalmente para Oracle Bone script y Small Seal Script . [6]

A partir de Unicode 15.1 , el TIP comprende los dos bloques siguientes:

Aviones no asignados

Planos 4 a 13 (planos 4 a D en hexadecimal ): aún no se ha asignado ni se ha propuesto asignación de caracteres a los planos 4 al 13.

Avión suplementario para fines especiales

Un mapa del avión suplementario para fines especiales. Cada cuadro numerado representa 256 puntos de código.

El plano 14 ( E en hexadecimal) se designa como Plano Suplementario de Propósito Especial ( SSP ). Consta de los dos bloques siguientes , a partir de Unicode 15.1 :

Planos de Área de Uso Privado

Los dos planos 15 y 16 (planos F y 10 en hexadecimal) contienen cada uno un " Área de Uso Privado ". Contienen bloques denominados Área de uso privado suplementario-A ( PUA-A ) y -B ( PUA-B ). Las Áreas de uso privado están disponibles para su uso por partes fuera de ISO y Unicode (codificación de caracteres privados).

Referencias

  1. ^ "Glosario". www.unicode.org . Consultado el 27 de septiembre de 2021 .
  2. ^ Consulte la Tabla 3.5 "Distribución de bits UTF-16" en el estándar Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  3. ^ Consulte la Tabla 3.6 "Distribución de bits UTF-8" en el estándar Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  4. ^ "Hojas de ruta hacia Unicode". www.unicode.org . Consultado el 27 de septiembre de 2021 .
  5. ^ "Anuncio del estándar Unicode, versión 13.0".
  6. ^ "Nuevos personajes propuestos: The Pipeline". www.unicode.org .