stringtranslate.com

Avión (Unicode)

En el estándar Unicode , un plano es un grupo contiguo de 65.536 (2 16 ) puntos de código . Hay 17 planos, identificados por los números del 0 al 16, que corresponden a los posibles valores 00–10 16 de las dos primeras posiciones en formato hexadecimal de seis posiciones (U+ hh hhhh ). El plano 0 es el plano multilingüe básico (BMP), que contiene los caracteres más utilizados. Los planos superiores del 1 al 16 se denominan "planos suplementarios". [1] El último punto de código en Unicode es el último punto de código en el plano 16, U+10FFFF. A partir de la versión 16.0 de Unicode, cinco de los planos tienen puntos de código asignados (caracteres) y siete tienen nombre.

El límite de 17 planos se debe a UTF-16 , que puede codificar 2 20 puntos de código (16 planos) como pares de palabras , más el BMP como una sola palabra. [2] UTF-8 fue diseñado con un límite mucho mayor de 2 31 (2.147.483.648) puntos de código (32.768 planos), y aún podría codificar 2 21 (2.097.152) puntos de código (32 planos) incluso bajo el límite actual de 4 bytes . [3]

Los 17 planos pueden albergar 1.114.112 puntos de código. De ellos, 2.048 son sustitutos (utilizados para formar los pares en UTF-16), 66 son caracteres no codificados y 137.468 están reservados para uso privado , dejando 974.530 para asignación pública.

Los planos se subdividen en bloques Unicode que, a diferencia de los planos, no tienen un tamaño fijo. Los 338 bloques definidos en Unicode 16.0 cubren el 27% del espacio de puntos de código posible y varían en tamaño desde un mínimo de 16 puntos de código (dieciséis bloques) hasta un máximo de 65.536 puntos de código (Área de uso privado suplementario A y B, que constituyen la totalidad de los planos 15 y 16). Para uso futuro, se han trazado tentativamente rangos de caracteres para la mayoría de los sistemas de escritura actuales y antiguos conocidos. [4]

Descripción general

Personajes asignados

  1. ^ Puntos de código que se han asignado a un bloque Unicode .

Plano multilingüe básico

Mapa del plano multilingüe básico. Cada casilla numerada representa 256 puntos de código.

El primer plano, el plano 0 , el plano multilingüe básico ( BMP ), contiene caracteres para casi todos los idiomas modernos y una gran cantidad de símbolos . Un objetivo principal del BMP es respaldar la unificación de conjuntos de caracteres anteriores, así como caracteres para escritura . La mayoría de los puntos de código asignados en el BMP se utilizan para codificar caracteres chinos, japoneses y coreanos ( CJK ).

Los códigos de sustitución alta ( U+D800–U+DBFF ) y de sustitución baja ( U+DC00–U+DFFF ) están reservados para codificar caracteres que no sean BMP en UTF-16 mediante un par de códigos de 16 bits : un código de sustitución alta y un código de sustitución baja. Nunca se asignará un carácter a un único punto de código de sustitución.

De los 65.536 puntos de código de este plano, se han asignado 65.520 a un bloque Unicode, dejando solo 16 puntos de código en un único rango sin asignar (2FE0..2FEF).

A partir de Unicode 16.0 , el BMP comprende los siguientes 164 bloques:

Plano multilingüe suplementario

Mapa del plano multilingüe suplementario. Cada casilla numerada representa 256 puntos de código.

El plano 1 , el plano multilingüe suplementario ( SMP ), contiene escrituras históricas (excepto la ideográfica CJK), y símbolos y notaciones utilizadas en ciertos campos. Las escrituras incluyen el Lineal B , los jeroglíficos egipcios y las escrituras cuneiformes . También incluye ortografías reformistas inglesas como Shavian y Deseret , y algunas escrituras modernas como Osage , Warang Citi , Adlam , Wancho y Toto . Los símbolos y notaciones incluyen notación musical histórica y moderna ; alfanuméricos matemáticos ; taquigrafías; Emoji y otros conjuntos pictográficos; y símbolos de juegos para naipes , mahjong y dominó .

A partir de Unicode 16.0 , el SMP comprende los siguientes 161 bloques:

Plano ideográfico suplementario

Mapa del plano ideográfico suplementario. Cada casilla numerada representa 256 puntos de código.

El plano 2 , el plano ideográfico suplementario ( SIP ), se utiliza para los ideogramas CJK, principalmente los ideogramas unificados CJK , que no se incluyeron en los estándares de codificación de caracteres anteriores.

A partir de Unicode 16.0 , el SIP comprende los siete bloques siguientes:

Plano ideográfico terciario

Mapa del plano ideográfico terciario. Cada casilla numerada representa 256 puntos de código.

El plano 3 es el plano ideográfico terciario (TIP). La extensión G de ideogramas unificados de CJK se agregó al TIP en Unicode 13.0, lanzado en marzo de 2020. [5] También está asignado provisionalmente para la escritura Oracle Bone y la escritura Small Seal . [6]

A partir de Unicode 16.0 , el TIP comprende los dos bloques siguientes:

Aviones no asignados

Planos 4 a 13 (planos 4 a D en hexadecimal ): Aún no se han asignado ni propuesto caracteres para asignación a los planos 4 al 13.

Avión suplementario de propósito especial

Mapa del avión especial suplementario. Cada casilla numerada representa 256 puntos de código.

El plano 14 ( E en hexadecimal) se designa como plano suplementario de propósito especial ( SSP ). A partir de Unicode 16.0, comprende los dos bloques siguientes :

Planos de Área de Uso Privado

Los dos planos 15 y 16 (planos F y 10 en hexadecimal) contienen cada uno un " Área de uso privado ". Contienen bloques denominados Área de uso privado suplementario A ( PUA-A ) y Área de uso privado suplementario B ( PUA-B ). Las Áreas de uso privado están disponibles para su uso por terceros ajenos a ISO y Unicode (codificación de caracteres privada).

Referencias

  1. ^ "Glosario". www.unicode.org . Consultado el 27 de septiembre de 2021 .
  2. ^ Consulte la Tabla 3.5 "Distribución de bits UTF-16" en el estándar Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  3. ^ Consulte la Tabla 3.6 "Distribución de bits UTF-8" en el estándar Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  4. ^ "Hojas de ruta hacia Unicode". www.unicode.org . Consultado el 27 de septiembre de 2021 .
  5. ^ "Anuncio del estándar Unicode, versión 13.0".
  6. ^ "Nuevos personajes propuestos: The Pipeline". www.unicode.org .