Avión (Unicode)

En el estándar Unicode , un avión es un grupo contiguo de 65.536 (2 ¹⁶ ) puntos de código . Hay 17 planos, identificados por los números del 0 al 16, que corresponden con los valores posibles 00–10 ₁₆ de las dos primeras posiciones en formato hexadecimal de seis posiciones (U+ hh hhhh ). El plano 0 es el plano multilingüe básico (BMP), que contiene los caracteres más utilizados. Los planos superiores del 1 al 16 se denominan "planos suplementarios". ^[1] El último punto de código en Unicode es el último punto de código en el plano 16, U+10FFFF. A partir de la versión 15.1 de Unicode, cinco de los aviones tienen puntos de código asignados (caracteres) y siete tienen nombre.

El límite de 17 planos se debe a UTF-16 , que puede codificar de 2 ^{a 20} puntos de código (16 planos) como pares de palabras , más el BMP como una sola palabra. ^[2] UTF-8 fue diseñado con un límite mucho mayor de 2 ³¹ (2,147,483,648) puntos de código (32,768 aviones), y aún podría codificar 2 ²¹ (2,097,152) puntos de código (32 aviones) incluso bajo el límite actual de 4 bytes . ^[3]

Los 17 aviones tienen capacidad para 1.114.112 puntos de código. De estos, 2.048 son sustitutos (utilizados para hacer los pares en UTF-16), 66 no son personajes y 137.468 están reservados para uso privado , dejando 974.530 para asignación pública.

Los aviones se subdividen en bloques Unicode que, a diferencia de los aviones, no tienen un tamaño fijo. Los 328 bloques definidos en Unicode 15.1 cubren el 26% del espacio de puntos de código posible y varían en tamaño desde un mínimo de 16 puntos de código (dieciséis bloques) hasta un máximo de 65,536 puntos de código (Área de uso privado suplementario-A y -B). que constituyen la totalidad de los planos 15 y 16). Para uso futuro, se han trazado tentativamente rangos de caracteres para la mayoría de los sistemas de escritura antiguos y actuales conocidos. ^[4]

Descripción general

personajes asignados

^ Puntos de código que se han asignado a un bloque Unicode .

Plano multilingüe básico

El primer plano, el plano 0 , el Plano Multilingüe Básico ( BMP ), contiene caracteres para casi todos los idiomas modernos y una gran cantidad de símbolos . Un objetivo principal del BMP es apoyar la unificación de conjuntos de caracteres anteriores, así como caracteres para escritura . La mayoría de los puntos de código asignados en BMP se utilizan para codificar caracteres chinos, japoneses y coreanos ( CJK ).

Los códigos High Surrogate ( U+D800–U+DBFF ) y Low Surrogate ( U+DC00–U+DFFF ) están reservados para codificar caracteres que no son BMP en UTF-16 mediante el uso de un par de códigos de 16 bits : un High Surrogate y un sustituto bajo. A un único punto de código sustituto nunca se le asignará un carácter.

65.520 de los 65.536 puntos de código en este plano se han asignado a un bloque Unicode, dejando solo 16 puntos de código en un único rango sin asignar (2FE0..2FEF).

A partir de Unicode 15.1 ^[actualizar], el BMP comprende los siguientes 164 bloques:

Escrituras alfabéticas de izquierda a derecha:
- Latín básico (mitad inferior de ISO/IEC 8859-1 : ISO/IEC 646:1991-IRV también conocido como ASCII ) (0000–007F)
- Suplemento Latin-1 (mitad superior de ISO/IEC 8859-1 ) (0080–00FF)
- Latín extendido A (0100–017F)
- Latín extendido-B (0180–024F)
- Extensiones IPA (0250–02AF)
- Letras modificadoras de espaciado (02B0–02FF)
- Combinación de marcas diacríticas (0300–036F)
- Griego y copto (0370–03FF)
- Cirílico (0400–04FF)
- Suplemento cirílico (0500–052F)
- Armenio (0530-058F)
Abjads semíticos y otras escrituras de derecha a izquierda:
- Hebreo (0590–05FF)
- Árabe (0600–06FF)
- Siríaco (0700–074F)
- Suplemento árabe (0750–077F)
- Thaana (0780-07BF)
- N'Ko (07C0-07FF)
- Samaritano (0800–083F)
- Mandaico (0840–085F)
- Suplemento siríaco (0860–086F)
- Árabe extendido-B (0870–089F)
- Árabe extendido A (08A0–08FF)
Escrituras brahmicas :
- Devanagari (09:00–097F)
- Bengalí (0980–09FF)
- Gurmukhi (0A00–0A7F)
- Guyaratí (0A80–0AFF)
- Oriya (0B00–0B7F)
- Tamil (0B80–0BFF)
- Telugu (0C00–0C7F)
- Canarés (0C80–0CFF)
- Malayalam (0D00–0D7F)
- Cingalés (0D80–0DFF)
- Tailandés (0E00–0E7F)
- Laos (0E80–0EFF)
- Tibetano (0F00–0FFF)
- Myanmar (1000-109F)
Otras escrituras alfabéticas o silábicas de izquierda a derecha:
- Georgiano (10A0–10FF)
- Hangul Jamo (1100–11FF)
- Etíope (1200-137F)
- Suplemento etíope (1380-139F)
- Cherokee (13A0-13FF)
- Sílabas aborígenes canadienses unificadas (1400–167F)
- Ogham (1680–169F)
- Rúnico (16A0–16FF)
Escrituras filipinas :
- Tagalo (1700–171F)
- Hanunoo (1720–173F)
- Buhid (1740–175F)
- Tagbanwa (1760–177F)
Jemer (1780–17FF)
Mongol (1800–18AF)
Sílabas aborígenes canadienses unificadas ampliadas (18B0–18FF)
Escrituras brahmicas :
- Limbu (1900–194F)
Escrituras tai :
- Tai Le (1950–197F)
- Nuevo Tai Lue (1980-19DF)
- Símbolos jemeres (19E0-19FF)
- Buginés (1A00–1A1F)
- Tai Tham (1A20–1AAF)
Combinación de signos diacríticos ampliados (1AB0–1AFF)
Escrituras indonesias :
- Balinés (1B00–1B7F)
- Sundanés (1B80–1BBF)
- Batak (1BC0–1BFF)
Lepcha (1C00–1C4F)
Ol Chiki (1C50–1C7F)
Otros complementos alfabéticos o silábicos de izquierda a derecha:
- Cirílico extendido-C (1C80–1C8F)
- Georgiano ampliado (1C90–1CBF)
Suplemento sundanés (1CC0–1CCF)
Extensiones védicas (1CD0–1CFF)
Otros suplementos alfabéticos de izquierda a derecha:
- Extensiones fonéticas (1D00–1D7F)
- Suplemento de extensiones fonéticas (1D80–1DBF)
- Suplemento combinado de marcas diacríticas (1DC0–1DFF)
- Adicional extendido latino (1E00–1EFF)
- Griego ampliado (1F00–1FFF)
Símbolos :
- Puntuación general (2000–206F)
- Superíndices y subíndices (2070–209F)
- Símbolos de moneda (20A0–20CF)
- Combinación de signos diacríticos para símbolos (20D0–20FF)
- Símbolos tipo letras (2100–214F)
- Formularios numéricos (2150–218F)
- Flechas (2190–21FF)
- Operadores matemáticos (2200–22FF)
- Varios técnicos (2300–23FF)
- Imágenes de control (2400–243F)
- Reconocimiento óptico de caracteres (2440–245F)
- Alfanuméricos adjuntos (2460–24FF)
- Dibujo de caja (2500–257F)
- Elementos de bloque (2580–259F)
- Formas geométricas (25A0–25FF)
- Símbolos varios (2600–26FF)
- Dinmurciélagos (2700–27BF)
- Símbolos matemáticos varios-A (27C0–27EF)
- Flechas suplementarias-A (27F0–27FF)
- Patrones Braille (2800–28FF)
- Flechas suplementarias-B (2900–297F)
- Símbolos matemáticos varios-B (2980–29FF)
- Operadores matemáticos suplementarios (2A00–2AFF)
- Símbolos y flechas varios (2B00–2BFF)
Otras escrituras alfabéticas o complementos de izquierda a derecha:
- Glagolítico (2C00–2C5F)
- Latín extendido-C (2C60–2C7F)
- Copto (2C80–2CFF)
- Suplemento georgiano (2D00–2D2F)
Escrituras africanas:
- Tifinagh (2D30–2D7F)
- Etíope extendido (2D80–2DDF)
Otros suplementos alfabéticos de izquierda a derecha:
- Cirílico extendido A (2DE0–2DFF)
- Puntuación suplementaria (2E00–2E7F)
Escrituras y símbolos CJK :
- Suplemento de radicales CJK (2E80–2EFF)
- Radicales Kangxi (2F00-2FDF)
- Personajes de descripción ideográfica (2FF0–2FFF)
- Símbolos y puntuación CJK (3000–303F)
- Hiragana (3040–309F)
- Katakana (30A0–30FF)
- Bopomofo (3100–312F)
- Compatibilidad Hangul Jamo (3130–318F)
- Kanbun (3190–319F)
- Bopomofo extendido (31A0–31BF)
- Trazos CJK (31C0–31EF)
- Extensiones fonéticas katakana (31F0–31FF)
- Cartas y meses CJK adjuntos (3200–32FF)
- Compatibilidad CJK (3300–33FF)
- Extensión A de ideogramas unificados de CJK (3400–4DBF)
- Símbolos del hexagrama Yijing (4DC0–4DFF)
- Ideógrafos unificados de CJK (4E00–9FFF)
Sílabas Yi (A000 – A48F)
Radicales Yi (A490 – A4CF)
Lisu (A4D0–A4FF)
Escrituras africanas:
- Vai (A500–A63F)
Otros suplementos alfabéticos de izquierda a derecha:
- Cirílico extendido B (A640–A69F)
Escrituras africanas:
- Bámum (A6A0–A6FF)
Otros suplementos alfabéticos de izquierda a derecha:
- Letras de tono modificador (A700–A71F)
- Latín extendido-D (A720–A7FF)
Escrituras brahmicas :
- Syloti Nagri (A800–A82F)
- Formas de números índicos comunes (A830–A83F)
- Phags-pa (A840–A87F)
- Saurastra (A880 – A8DF)
- Devanagari extendido (A8E0 – A8FF)
- Kayah Li (A900-A92F)
- Rejang (A930–A95F)
Hangul Jamo Extendido-A (A960–A97F)
Escrituras brahmicas :
- javanés (A980 – A9DF)
- Myanmar Extendido-B (A9E0–A9FF)
- Cámara (AA00–AA5F)
- Myanmar Extendido-A (AA60–AA7F)
- Tai Viet (AA80 – AADF)
- Extensiones de Meetei Mayek (AAE0 – AAFF)
Etíope extendido-A (AB00–AB2F)
Latín extendido-E (AB30 – AB6F)
Suplemento Cherokee (AB70–ABBF)
Meetei Mayek (ABC0-ABFF)
Sílabas Hangul (AC00 – D7AF)
Hangul Jamo Extendido-B (D7B0–D7FF)
Sustitutos :
- Altos sustitutos (D800–DB7F)
- Sustitutos de alto uso privado (DB80–DBFF)
- Suplentes bajos (DC00–DFFF)
Área de uso privado (E000–F8FF)
Ideógrafos de compatibilidad CJK (F900–FAFF)
Formularios de presentación alfabético (FB00–FB4F)
Formularios de presentación en árabe-A (FB50–FDFF)
Selectores de variación (FE00–FE0F)
Formularios verticales (FE10–FE1F)
Combinación de medias marcas (FE20–FE2F)
Formularios de compatibilidad CJK (FE30–FE4F)
Variantes de forma pequeña (FE50–FE6F)
Formularios de presentación en árabe-B (FE70–FEFF)
Formularios de ancho medio y ancho completo (FF00–FFEF)
Especiales (FFF0–FFFF)

Plano Suplementario Multilingüe

El plano 1 , el plano multilingüe suplementario ( SMP ), contiene escrituras históricas (excepto ideográficas CJK) y símbolos y notaciones utilizadas dentro de ciertos campos. Las escrituras incluyen escritura lineal B , jeroglíficos egipcios y escritura cuneiforme . También incluye ortografías reformistas inglesas como Shavian y Deseret , y algunas escrituras modernas como Osage , Warang Citi , Adlam , Wancho y Toto . Los símbolos y notaciones incluyen notación musical histórica y moderna ; alfanuméricos matemáticos ; taquigrafías; Emoji y otros conjuntos pictográficos; y símbolos de juegos para jugar a las cartas , mahjong y dominó .

A partir de Unicode 15.1 ^[actualizar], el SMP comprende los siguientes 151 bloques:

Griego arcaico y otras escrituras de izquierda a derecha:
- Silabario lineal B (10000–1007F)
- Ideogramas lineales B (10080–100FF)
- Números del Egeo (10100–1013F)
- Números griegos antiguos (10140–1018F)
- Símbolos antiguos (10190–101CF)
- Disco de Festos (101D0–101FF)
- Licia (10280-1029F)
- Caria (102A0–102DF)
- Números coptos de Epact (102E0–102FF)
- Cursiva antigua (10300–1032F)
- Gótico (10330-1034F)
- Pérmico antiguo (10350–1037F)
- Ugarítico (10380-1039F)
- Persa antiguo (103A0-103DF)
- Deseret (10400–1044F)
- Shaviano (10450-1047F)
- Osmanya (10480–104AF)
- Osaje (104B0–104FF)
- Elbasan (10500-1052F)
- Albanese caucásico (10530-1056F)
- Vithkuqi (10570-105 a. F.)
- Lineal A (10600–1077F)
- Latín extendido-F (10780–107BF)
Guiones de derecha a izquierda:
- Silabario chipriota (10800-1083F)
- Arameo imperial (10840–1085F)
- Palmireno (10860–1087F)
- Nabateo (10880-108AF)
- Hatrán (108E0–108FF)
- Fenicio (10900–1091F)
- Lidio (10920-1093F)
- Jeroglíficos meroíticos (10980-1099F)
- Cursiva meroítica (109A0–109FF)
- Kharoshthi (10A00–10A5F)
- Antiguo sur de Arabia (10A60–10A7F)
- Antiguo norte de Arabia (10A80–10A9F)
- Maniqueo (10AC0–10AFF)
- Avestan (10B00-10B3F)
- Parto con inscripción (10B40-10B5F)
- Pahlavi con inscripción (10B60-10B7F)
- Salterio Pahlevi (10B80–10BAF)
- Antiguo turco (10C00–10C4F)
- Húngaro antiguo (10C80–10CFF)
- Hanifi Rohingya (10D00–10D3F)
- Símbolos numéricos de Rumi (10E60–10E7F)
- Yazidí (10E80-10EBF)
- Árabe extendido-C (10EC0–10EFF)
- Antiguo sogdiano (10F00–10F2F)
- Sogdiano (10F30–10F6F)
- Viejo uigur (10F70–10FAF)
- Corasmiano (10FB0–10FDF)
- Elimaico (10FE0–10FFF)
Escrituras brahmicas :
- Brahmi (11000-1107F)
- Kaithi (11080–110CF)
- Sora Sompeng (110D0–110FF)
- Chakma (11100-1114F)
- Mahajani (11150-1117F)
- Sharada (11180–111DF)
- Números arcaicos cingaleses (111E0–111FF)
- Khojki (11200–1124F)
- Multani (11280-112AF)
- Khudawadi (112B0-112FF)
- Grantha (11300-1137F)
- Nueva (11400-1147F)
- Tirhuta (11480–114DF)
- Siddham (11580-115 y siguientes)
- Modi (11600–1165F)
- Suplemento de Mongolia (11660-1167F)
- Takri (11680–116CF)
- Ahom (11700–1174F)
- Dogra (11800–1184F)
- Warang Citi (118A0–118FF)
- Inmersiones Akuru (11900-1195F)
- Nandinagari (119A0–119FF)
- Plaza Zanabazar (11A00–11A4F)
- Soyombo (11A50–11AAF)
Sílabas aborígenes canadienses unificadas extendidas-A (11AB0–11ABF)
Escrituras brahmicas:
- Pau Cin Hau (11AC0–11AFF)
- Devanagari Extendido-A (11B00–11B5F)
- Bhaiksuki (11C00–11C6F)
- Marchas (11C70–11CBF)
- Masaram Gondi (11D00–11D5F)
- Gunjala Gondi (11D60–11DAF)
- Macasar (11EE0–11EFF)
- Kawi (11F00–11F5F)
Suplemento Lisu (11FB0–11FBF)
Suplemento tamil (11FC0–11FFF)
Escrituras cuneiformes:
- Cuneiforme (12000-123FF)
- Números cuneiformes y puntuación (12400–1247F)
- Cuneiforme dinástico temprano (12480-1254F)
Cipro-minoico (12F90-12FFF)
Escrituras jeroglíficas:
- Jeroglíficos egipcios (13000-1342F)
- Controles de formato de jeroglíficos egipcios (13430–1345F)
- Jeroglíficos de Anatolia (14400-1467F)
Suplemento Bamum (16800–16A3F)
Señor (16A40–16A6F)
Tangsa (16A70-16ACF)
Bassa Vah (16AD0-16AFF)
Pahawh Hmong (16B00-16B8F)
Medefaidrina (16E40–16E9F)
Miao (16F00-16F9F)
Escrituras de Asia oriental:
- Símbolos ideográficos y puntuación (16FE0–16FFF)
- Tangut (17000–187FF)
- Componentes Tangut (18800–18AFF)
- Escritura pequeña khitan (18B00–18CFF)
- Suplemento Tangut (18D00–18D7F)
- Kana Extendido-B (1AFF0–1AFFF)
- Suplemento Kana (1B000–1B0FF)
- Kana Extendido-A (1B100–1B12F)
- Extensión Kana pequeña (1B130–1B16F)
- Nushu (1B170-1B2FF)
Sistemas de escritura notacional:
- Duployán (1BC00–1BC9F)
- Controles de formato abreviado (1BCA0–1BCAF)
Símbolos y números:
- Notación musical :
  - Notación musical Znamenny (1CF00–1CFCF)
  - Símbolos musicales bizantinos (1D000–1D0FF)
  - Símbolos musicales (1D100–1D1FF)
  - Notación musical griega antigua (1D200–1D24F)
- Números Kaktovik (1D2C0–1D2DF)
- Números mayas (1D2E0–1D2FF)
- Símbolos matemáticos :
  - Símbolos de Tai Xuan Jing (1D300–1D35F)
  - Números de varillas de conteo (1D360–1D37F)
  - Símbolos alfanuméricos matemáticos (1D400–1D7FF)
Sistemas de escritura notacional:
- Escritura de letreros de Sutton (1D800–1DAAF)
Otros guiones de izquierda a derecha:
- G latino extendido (1DF00–1DFFF)
- Suplemento glagolítico (1E000–1E02F)
- Cirílico extendido-D (1E030–1E08F)
Nyiakeng Puachue Hmong (1E100–1E14F)
Toto (1E290–1E2BF)
Wancho (1E2C0–1E2FF)
Nag Mundari (1E4D0–1E4FF)
Escrituras africanas:
- Etíope extendido-B (1E7E0–1E7FF)
- Mende Kikakui (1E800–1E8DF)
- Adlam (1E900–1E95F)
Símbolos y números:
- Números índicos Siyaq (1EC70–1ECBF)
- Números otomanos Siyaq (1ED00–1ED4F)
- Símbolos alfabéticos matemáticos árabes (1EE00–1EEFF)
- Fichas y cartas del juego:
  - Fichas de Mahjong (1F000–1F02F)
  - Fichas de dominó (1F030–1F09F)
  - Naipes (1F0A0–1F0FF)
- Suplemento alfanumérico adjunto (1F100–1F1FF)
- Suplemento ideográfico adjunto (1F200–1F2FF)
- Símbolos y pictografías varios (1F300–1F5FF)
- Emoticones (1F600–1F64F)
- Murciélagos ornamentales (1F650–1F67F)
- Símbolos de transporte y mapas (1F680–1F6FF)
- Símbolos alquímicos (1F700–1F77F)
- Formas geométricas ampliadas (1F780–1F7FF)
- Flechas suplementarias-C (1F800–1F8FF)
- Símbolos y pictografías suplementarios (1F900–1F9FF)
- Símbolos de ajedrez (1FA00–1FA6F)
- Símbolos y pictogramas ampliados-A (1FA70–1FAFF)
- Símbolos para informática heredada (1FB00–1FBFF)

Plano ideográfico suplementario

El plano 2 , el plano ideográfico suplementario ( SIP ), se utiliza para ideogramas CJK, en su mayoría ideogramas unificados CJK , que no estaban incluidos en estándares de codificación de caracteres anteriores.

A partir de Unicode 15.1 ^[actualizar], el SIP comprende los siguientes siete bloques:

Extensión B de ideogramas unificados de CJK (20000–2A6DF)
Extensión C de ideogramas unificados de CJK (2A700–2B73F)
Extensión D de ideogramas unificados de CJK (2B740–2B81F)
Extensión E de ideogramas unificados de CJK (2B820–2CEAF)
Extensión F de ideogramas unificados de CJK (2CEB0–2EBEF)
Extensión I de ideogramas unificados de CJK (2EBF0–2EE5F)
Suplemento de ideogramas de compatibilidad CJK (2F800–2FA1F)

Plano ideográfico terciario

El plano 3 es el Plano Ideográfico Terciario (TIP). CJK Unified Ideographs Extension G se agregó al TIP en Unicode 13.0, lanzado en marzo de 2020. ^[5] También está asignado provisionalmente para Oracle Bone script y Small Seal Script . ^[6]

A partir de Unicode 15.1 ^[actualizar], el TIP comprende los dos bloques siguientes:

Extensión G de ideogramas unificados de CJK (30000–3134F)
Extensión H de ideogramas unificados de CJK (31350–323AF)

Aviones no asignados

Planos 4 a 13 (planos 4 a D en hexadecimal ): Aún no se ha asignado ni se ha propuesto asignación de caracteres a los planos 4 al 13.

Avión suplementario para fines especiales

El plano 14 ( E en hexadecimal) se designa como Plano Suplementario de Propósito Especial ( SSP ). Consta de los dos bloques siguientes , a partir de Unicode 15.1 :^[actualizar]

Etiquetas (E0000–E007F)
Suplemento de selectores de variación (E0100–E01EF): se utiliza para indicar glifos alternativos para caracteres.

Planos de Área de Uso Privado

Los dos planos 15 y 16 (planos F y 10 en hexadecimal) contienen cada uno un " Área de Uso Privado ". Contienen bloques denominados Área de uso privado suplementario-A ( PUA-A ) y -B ( PUA-B ). Las Áreas de uso privado están disponibles para su uso por partes fuera de ISO y Unicode (codificación de caracteres privados).

Referencias

^ "Glosario". www.unicode.org . Consultado el 27 de septiembre de 2021 .
^ Consulte la Tabla 3.5 "Distribución de bits UTF-16" en el estándar Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
^ Consulte la Tabla 3.6 "Distribución de bits UTF-8" en el estándar Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
^ "Hojas de ruta hacia Unicode". www.unicode.org . Consultado el 27 de septiembre de 2021 .
^ "Anuncio del estándar Unicode, versión 13.0".
^ "Nuevos personajes propuestos: The Pipeline". www.unicode.org .