Puntos de código Unicode no asignados intencionalmente
En Unicode , un área de uso privado ( PUA ) es un rango de puntos de código a los que, por definición, el Consorcio Unicode no les asignará caracteres . [1] Se definen tres áreas de uso privado: una en el Plano Multilingüe Básico ( U+E000–U+F8FF ), y una en cada uno de los planos 15 y 16 , y casi cubriéndolas ( U+F0000–U+FFFFD , U+ 100000–U+10FFFD ). Los puntos de código en estas áreas no pueden considerarse caracteres estandarizados en Unicode. Se dejan intencionalmente sin definir para que terceros puedan definir sus propios caracteres sin entrar en conflicto con las asignaciones del Consorcio Unicode. Según la Política de estabilidad de Unicode, [2] las áreas de uso privado seguirán asignadas para ese fin en todas las versiones futuras de Unicode.
Las asignaciones a personajes del Área de Uso Privado no tienen por qué ser privadas en el sentido estrictamente internas de una organización; Varias organizaciones han publicado varios esquemas de asignación. Dicha publicación puede incluir una fuente que respalde la definición (que muestre los glifos) y software que utilice caracteres de uso privado (por ejemplo, un carácter gráfico para una función de "imprimir documento"). Por definición, varias partes privadas pueden asignar diferentes caracteres al mismo punto de código, con la consecuencia de que un usuario puede ver un carácter privado de una fuente instalada donde estaba previsto uno diferente.
Definición
Según la definición de Unicode, a los puntos de código en las Áreas de uso privado se les asignan caracteres; no son caracteres que no sean caracteres, ni estén reservados ni sin asignar. Su categoría es " Other, private use (Co)
" y no se especifican nombres de caracteres. No se proporcionan glifos representativos y la semántica de los caracteres se deja a un acuerdo privado.
A los caracteres de uso privado se les asignan puntos de código Unicode cuya interpretación no está especificada en este estándar y cuyo uso puede determinarse mediante acuerdo privado entre usuarios que cooperan. Estos caracteres están designados para uso privado y no tienen una semántica definida e interpretable excepto por acuerdo privado.
...
No se proporcionan gráficos para caracteres de uso privado, ya que dichos caracteres, por su propia naturaleza, se definen sólo fuera del contexto de esta norma. [3]
Asignación
En el Plano Multilingüe Básico (plano 0), el bloque titulado Área de Uso Privado tiene 6400 puntos de código.
Los planos 15 y 16 están casi [nota 1] asignados en su totalidad a otras dos Áreas de Uso Privado, el Área de Uso Privado Suplementario-A y el Área de Uso Privado Suplementario-B, respectivamente. En UTF-16, un subconjunto de sustitutos superiores (U+DB80..U+DBFF) se utiliza para estos y solo estos planos, y se denominan sustitutos de uso privado elevado .
Bloques PUA Unicode
Hay tres bloques PUA en Unicode. [3]
bloque de caracteres Unicode
bloque de caracteres Unicode
bloque de caracteres Unicode
Historia
En Unicode 1.0.0, el área de uso privado se extendía de U+E800 a U+FDFF (es decir, no incluía U+E000..E7FF, pero incluía adicionalmente el rango U+F900..FDFF que ahora ocupan los ideógrafos de compatibilidad CJK , alfabéticos) . Formularios de presentación y formularios de presentación en árabe-A ). [7] Esto se cambió a U+E000..F8FF en Unicode 1.0.1, [4] y permaneció así en Unicode 1.1. [8] Contrariamente a lo que se cree erróneamente, el rango U+D800..DFFF (reservado para sustitutos UTF-16 desde Unicode 2.0) no se incluyó en el rango de uso privado de ninguna versión Unicode 1.x.
Históricamente, los aviones E0 (224) a FF (255) y los grupos 60 (96) a 7F (127) del conjunto de caracteres codificados universales (es decir, U+E00000 a U+FFFFFF y U+60000000 a U+7FFFFFFF) también eran designado como uso privado. Estos campos de tiro se eliminaron de los campos de tiro de uso privado especificados cuando el UCS se limitó a los diecisiete aviones accesibles en UTF-16. [9]
Uso
Usos de la iniciativa de estandarización
Muchas personas e instituciones han creado colecciones de personajes para la PUA. Algunos de estos acuerdos de uso privado se publican, por lo que otros implementadores de PUA pueden apuntar a puntos de código no utilizados o menos utilizados para evitar superposiciones. Varios caracteres y secuencias de comandos previamente codificados en acuerdos de uso privado se han codificado completamente en Unicode, lo que requiere asignaciones de la PUA a otros puntos de código Unicode.
Uno de los acuerdos PUA más conocidos y ampliamente implementados es el que mantiene el Registro Unicode ConScript (CSUR). El CSUR, que no cuenta con el respaldo oficial ni está asociado con el Consorcio Unicode, proporciona un mapeo de escrituras construidas, como la escritura klingon pIqaD y ferengi (Star Trek), Tengwar y Cirth (escrituras cursivas y rúnicas de JRR Tolkien), Visible de Alexander Melville Bell. Discurso y alfabeto del Dr. Seuss de On Beyond Zebra . El CSUR codificó previamente los caracteres no descifrados de Phaistos , así como los alfabetos Shavian y Deseret , todos los cuales han sido aceptados para la codificación oficial en Unicode.
Otro acuerdo común de PUA es el que mantiene la Medieval Unicode Font Initiative (MUFI). Este proyecto intenta admitir todas las abreviaturas, ligaduras, caracteres precompuestos , símbolos y formas de letras alternativas de los escribas que se encuentran en los textos medievales escritos en el alfabeto latino. El propósito expreso de MUFI es determinar experimentalmente qué caracteres son necesarios para representar estos textos y codificar esos caracteres oficialmente en Unicode. A partir de la versión 5.1 de Unicode, se han incorporado 152 caracteres MUFI a la codificación Unicode oficial. [ necesita actualización ]
Algunas colecciones de caracteres PUA acordadas existen en parte o en su totalidad porque el Consorcio Unicode no tiene prisa por codificarlas. Es probable que algunos, como los idiomas no representados, acaben codificados en el futuro. Algunos casos inusuales, como los lenguajes ficticios, están fuera del alcance habitual de Unicode, pero no están explícitamente excluidos por los principios de Unicode, y pueden aparecer eventualmente (como los sistemas de escritura Star Trek y Tolkien). En otros casos, la codificación propuesta viola uno o más principios de Unicode y, por lo tanto, es poco probable que Unicode alguna vez la reconozca oficialmente, principalmente cuando los usuarios desean codificar directamente formas alternativas, ligaduras o combinaciones de caracteres base más signos diacríticos (como el esquema TUNE).
- Emoji es una codificación de caracteres de imágenes o emoticones utilizados en páginas web y mensajes inalámbricos japoneses. Con Unicode 6.0 y posteriores, muchos de estos se han codificado en el bloque Símbolos y pictogramas varios y en otras partes del SMP .
- GB/T 20542-2006 ("Extensión A del juego de caracteres codificados tibetanos") y GB/T 22238-2008 ("Extensión B del juego de caracteres codificados tibetanos") son estándares nacionales chinos que utilizan la PUA para codificar ligaduras tibetanas precompuestas .
- GB 18030 y GBK utilizan la PUA para codificar provisionalmente caracteres que no se encuentran en los estándares Unicode en el momento de la publicación (la mayoría se han codificado desde entonces).
- El Instituto de la Lengua Estonia utiliza la PUA para codificar caracteres precompuestos latinos y cirílicos [10] que no tienen codificación Unicode.
- El Free Tengwar Font Project utiliza un mapeo diferente del Registro Unicode de ConScript que sigue en gran medida el documento de debate Tengwar del 2001-03-07 de Michael Everson, pero difiere en algunos detalles.
- El estándar MARC 21 utiliza la PUA para codificar caracteres de Asia oriental presentes en MARC-8 [11] que no tienen codificación Unicode.
- La PUA corporativa SIL utiliza la PUA para codificar caracteres utilizados en idiomas minoritarios que aún no han sido aceptados en Unicode.
- El proyecto STIX Fonts utiliza la PUA para proporcionar un conjunto completo de fuentes de símbolos y alfabetos matemáticos, muchos de los cuales ahora también están disponibles en el SMP, por ejemplo, en el bloque Símbolos alfanuméricos matemáticos .
- La nueva codificación Tamil Unicode (TUNE) [12] es un esquema propuesto para codificar tamil que supera las deficiencias percibidas en la codificación Unicode actual.
Uso del proveedor
Informalmente, el rango U+F000 a U+F8FF se conoce como Área de Uso Corporativo. Esto se origina en las primeras versiones de Unicode, que definían una "Zona de usuario final" que se extendía desde U+E000 hacia arriba y una "Zona de uso corporativo" que se extendía desde U+F8FF hacia abajo, sin definir el límite entre las dos. [8]
- Adobe Glyph List solía utilizar la PUA para algunos de sus glifos. [13]
- Apple enumera un rango de 1280 caracteres en su documentación para desarrolladores [14] de U+F400–U+F8FF dentro de la PUA para uso de Apple. De ellos, sólo se utilizan 311, en el rango U+F700–U+F8FF ( NeXT ( NeXTSTEP y OPENSTEP ) y Apple (Mac OS X AppKit)). [15]
- Uno de ellos es U+F8FF, el logotipo de Apple , generalmente compatible con los conjuntos de 8 bits de Apple.
- WGL4 utiliza la PUA (U+F001 y U+F002) para codificar duplicados de las ligaduras fi (U+FB01) fl (U+FB02). [dieciséis]
- La extinta función Servicios para Macintosh de Microsoft utilizaba U+F001 a U+F029 como reemplazos de los caracteres especiales permitidos en HFS pero prohibidos en NTFS , y U+F02A para el logotipo de Apple. [17] [18]
- En versiones anteriores de su componente RichEdit, Microsoft asignaba U+F020–U+F0FF dentro de la PUA a fuentes de símbolos. Para cualquier carácter en este rango, RichEdit mostraría un carácter de una fuente de símbolo en lugar del carácter definido por el usuario final (EUDC) [19] [20]
- AutoCAD [ se necesita aclaración ] usa U+F8FC–U+F8FE para ⌀ (signo de diámetro), ± ( signo más-menos ) y ° (signo de grado) respectivamente.
- Algunas fuentes colocan la clave del logotipo de Windows en
U+F000
. - El número
U+F000
es una sucesión numérica que comienza en 13 o 18 en algunos videojuegos como Agar.io. - En Ubuntu ,
U+E0FF
se muestra como el logotipo "Círculo de amigos" [21] y U+F200
es "ubuntu" en el tipo de letra de Ubuntu con un superíndice "Círculo de amigos" (esto en sí es U+F0FF
). [22] - La fuente 3270 incluye el logotipo de Debian en
U+F100
- En la fuente Linux Libertine
U+E000
, se muestra Tux , la mascota de Linux. - La fuente del icono Font Awesome utiliza la PUA para mostrar varios glifos.
- Powerline, un complemento de línea de estado para Vim , utiliza U+E0A0–U+E0A2 y U+E0B0–U+E0B3 para caracteres de dibujo de cuadros adicionales . [23] [24] [25]
- En el tipo de letra Fira Sans utilizado en Firefox OS ,
U+E003
se muestra el logotipo de Mozilla (la cabeza de dinosaurio). - Lotus Multi-Byte Character Set (LMBCS), la codificación y el juego de caracteres utilizados internamente por Lotus / IBM Lotus 1-2-3 , Symphony , SmartSuite , Notes , Domino, así como por una serie de productos de terceros como Microsoft Works , utiliza algunos caracteres (
U+F862
- U+F89F
y U+F8FB
- U+F8FE
) en el Área de uso privado para símbolos no definidos en Unicode. De estos, U+F8FB
se sabe que están reservados para un símbolo de moneda de corona ("Kr"), y U+F8FC
luego U+F8FD
fueron asignados a U+FB02
( fl ) y U+FB01
( fi ), respectivamente. Además, cuando los códigos UTF-16 están incrustados en LMBCS, los códigos UTF-16 correspondientes a U+F601
través U+F6FF
se sustituyen por códigos UTF-16 que contendrían bytes nulos , ya que LMBCS está diseñado para no contener bytes nulos incrustados. [26] [27] - IBM reservó varios ID de página de códigos para las páginas de códigos PUA: página de códigos 1446 para el plano genérico 15, página de códigos 1447 para el plano genérico 16, página de códigos 1448 para el PUA BMP genérico, página de códigos 1445 (IBM AFP PUA No. 1) para plano 15 con asignaciones de IBM en U+FFF00–U+FFFFD, [28] [29] y página de códigos 1449 (PUA predeterminada de IBM) para la PUA BMP con asignaciones de IBM en U+F83D–U+F8FF. [30] [31]
- El sistema de archivos que se encuentra en Windows utiliza el
U+F000
bloque U+F0FF
para escapar de caracteres especiales . - NetApp traduce caracteres en nombres de archivos permitidos en Unix pero no válidos para clientes SMB a caracteres PUA. [32]
- La fuente Chirp de Twitter
U+E000
proporciona algunos íconos adicionales, como el que corresponde a una flecha hacia abajo hacia la izquierda, U+EA00
el que corresponde al pájaro de Twitter y U+F8FF
el que corresponde a un logotipo de Apple, posiblemente por compatibilidad con las fuentes de Apple. [33]
Caracteres de uso privado en otros conjuntos de caracteres
El concepto de reservar puntos de código específicos para uso privado se basa en un uso anterior similar en otros conjuntos de caracteres. En particular, muchos caracteres obsoletos en escrituras de Asia Oriental continúan utilizándose en nombres específicos u otras situaciones, por lo que algunos conjuntos de caracteres para esas escrituras permitieron caracteres de uso privado (como los planos definidos por el usuario de CNS 11643 , o gaiji en ciertas codificaciones japonesas). El estándar Unicode hace referencia a estos usos bajo el nombre "Definición de caracteres del usuario final" (EUCD). [3]
Además, el bloque de control C1 contiene dos códigos destinados a "funciones de control" de uso privado según ECMA-48 : 0x91 uso privado uno (PU1) y 0x92 uso privado dos (PU2). [34] [35] Unicode los incluye en U+0091 <control-0091> y U+0092 <control-0092> pero los define como caracteres de control (categoría ), no caracteres de uso privado (categoría ). [5] [36] Cc
Co
Las codificaciones que no tienen áreas de uso privado pero sí áreas más o menos no utilizadas, como ISO/IEC 8859 y Shift JIS , han visto evolucionar variantes no controladas de estas codificaciones. [37] Para Unicode, las empresas de software pueden utilizar las áreas de uso privado para las adiciones que deseen.
Notas
- ^ Los dos últimos personajes de cada plano se definen como no personajes . Los 65.534 personajes restantes de cada uno de los planos 15 y 16 se asignan como personajes de uso privado.
Referencias
- ^ "Glosario de términos Unicode:" Área de uso privado (PUA)"". Consorcio Unicode .
- ^ "Política de estabilidad de codificación de caracteres Unicode". 2021-11-10 . Consultado el 3 de marzo de 2022 .
- ^ abc "Capítulo 23 Áreas especiales y caracteres de formato" (PDF) . La versión 14.0 del estándar Unicode: especificación principal . Personajes de uso privado.
- ^ ab "Unicode 1.0.1" (PDF) . El estándar Unicode . 1992-11-03. Archivado (PDF) desde el original el 2 de julio de 2016 . Consultado el 9 de julio de 2016 .
- ^ abcd "Base de datos de caracteres Unicode". El estándar Unicode . Consultado el 26 de julio de 2023 .
- ^ abc "Versiones enumeradas del estándar Unicode". El estándar Unicode . Consultado el 26 de julio de 2023 .
- ^ "3.5: Área de uso privado" (PDF) . El estándar Unicode, versión 1.0, volumen 1 . Consorcio Unicode . 1991, págs. 118-119. ISBN 0-201-56788-1. Archivado (PDF) desde el original el 21 de octubre de 2021 . Consultado el 11 de octubre de 2021 .
- ^ ab "2.0: cambios en Unicode 1.0" (PDF) . El estándar Unicode, versión 1.1 . Consorcio Unicode . págs. 3–4. UTR #4. Archivado (PDF) desde el original el 20 de noviembre de 2021 . Consultado el 11 de octubre de 2021 .
- ^ Whistler, Ken (2000). "Cambios necesarios para ISO/IEC 10646 con respecto a la PUA". UTC /00-015. Archivado desde el original el 23 de junio de 2021 . Consultado el 30 de enero de 2021 .
- ^ "Base de datos de cartas". Eki.ee. Archivado desde el original el 21 de mayo de 2018 . Consultado el 11 de abril de 2013 .
- ^ "Conjuntos de caracteres: caracteres de Asia oriental: asignaciones Unicode alternativas para caracteres MARC 21 asignados al área de uso privado (PUA): especificaciones MARC 21 para estructura de registros, conjuntos de caracteres y medios de intercambio". Biblioteca del Congreso. 2004-09-02. Archivado desde el original el 19 de agosto de 2013 . Consultado el 11 de abril de 2013 .
- ^ "tunerfc.tn.nic.in". tunerfc.tn.nic.in. Archivado desde el original el 29 de julio de 2010 . Consultado el 11 de abril de 2013 .
- ^ "Subárea de uso corporativo de Unicode utilizada por Adobe Systems". 22 de octubre de 1998. Archivado desde el original el 9 de octubre de 2002 . Consultado el 12 de mayo de 2021 .
- ^ "NSOpenStepUnicodeReservedBase: documentación para desarrolladores de Apple". Apple Inc. Archivado desde el original el 6 de noviembre de 2020 . Consultado el 16 de octubre de 2020 .
- ^ Apple Computer, Inc. (2005) [1994]. "CORPCHAR.TXT - Registro (versión externa) del uso de caracteres de zona corporativa Unicode por parte de Apple". c03. Unicode Inc. Archivado desde el original el 30 de octubre de 2020 . Consultado el 16 de octubre de 2020 .
- ^ "Rango WGL4 Unicode U + 2013 a U + FB02". Microsoft . Archivado desde el original el 17 de julio de 2014.
- ^ "SFM convierte nombres de archivos HFS de Macintosh a NTFS Unicode". Soporte de Microsoft . 24 de febrero de 2014. Archivado desde el original el 27 de mayo de 2016.
- ^ "ntfs.util.c". 2008. Archivado desde el original el 7 de agosto de 2018 . Consultado el 7 de agosto de 2018 .
Los caracteres de nombre de archivo NTFS no válidos están codificados [
sic
] utilizando caracteres Unicode de uso privado SFM (Servicios para Macintosh).
- ^ "El rango de caracteres entre U+F020 y U+F0FF en el área de uso privado de Unicode se asigna a fuentes de símbolos en Richedit 4.1". Base de conocimientos de Microsoft . Archivado desde el original el 22 de octubre de 2012.
- ^ "Manejo de caracteres PUA en software de Microsoft". SIL Internacional . 2003-04-25. Archivado desde el original el 11 de mayo de 2015 . Consultado el 4 de marzo de 2014 .
- ^ "Comentario n.° 8: error n.° 651606 (círculo de amigos): errores: familia de fuentes de Ubuntu". Plataforma de lanzamiento . 5 de octubre de 2010. Archivado desde el original el 17 de octubre de 2020 . Consultado el 17 de octubre de 2020 .
- ^ "Comentario n.° 2: error n.° 853855: errores: familia de fuentes de Ubuntu". Plataforma de lanzamiento . 26 de septiembre de 2011. Archivado desde el original el 17 de octubre de 2020 . Consultado el 17 de octubre de 2020 .
- ^ "Pregunta sobre el complemento de la línea de estado de Powerline en Stack Exchange que menciona caracteres del área de uso privado". Archivado desde el original el 12 de marzo de 2015 . Consultado el 22 de marzo de 2015 .
- ^ "Imágenes que muestran caracteres del área de uso privado en fuentes parcheadas Powerline". Archivado desde el original el 11 de mayo de 2015 . Consultado el 22 de marzo de 2015 .
- ^ Li, Renzhi (23 de agosto de 2019). "Propuesta para agregar caracteres adicionales al bloque de Gráficos para Computación Legacy de la UCS" (PDF) . Consultado el 31 de julio de 2023 .
- ^ "lmb-excp.ucm". GitHub . 2000-02-10. Archivado desde el original el 25 de enero de 2022 . Consultado el 23 de abril de 2020 .
- ^ "Anhang 2. Der Lotus Multibyte Zeichensatz (LMBCS)" [Apéndice 2. El conjunto de caracteres Lotus Multibyte (LMBCS)]. Lotus 1-2-3 Versión 3.1 Referenzhandbuch [ Manual de referencia de Lotus 1-2-3 Versión 3.1 ] (en alemán) (1 ed.). Cambridge, Massachusetts, EE. UU.: Lotus Development Corporation . 1989. págs. A2–1 – A2–13. 302168.
- ^ "CPGID 01445 (gráfico)" (PDF) . REGISTRO: Juegos de caracteres gráficos y páginas de códigos . 2012 [2011]. CH 3-3220-050.
El área que se muestra en el gráfico anterior representa solo 254 bytes de la fila FF en el plano 0F.
- ^ "CPGID 01445: IBM AFP PUA n.º 1". REGISTRO: Juegos de caracteres gráficos y páginas de códigos . 2012 [2011]. CH 3-3220-050.
El área que se muestra en el gráfico anterior representa solo 254 bytes de la fila FF en el plano 0F.
- ^ "CPGID 01449: PUA predeterminada de IBM". Globalización de IBM: identificadores de página de códigos . IBM . Archivado desde el original el 16 de septiembre de 2015.
IBM ha designado 195 posiciones de U+F83D a U+F8FF para su uso como zona corporativa de IBM y tiene la intención de usarlas consistentemente dentro de IBM siempre que sea necesario mantener la integridad de ida y vuelta de los caracteres de IBM.
- ^ IBM (1997). unicode.nam: permite especificar los caracteres Unicode utilizando nombres similares a IBM o PostScript .(Incluido con Borgendale, Ken, OS/2 Codepage y herramientas de visualización de teclado)
- ^ "Configurar la asignación de caracteres para la traducción de nombres de archivos SMB en volúmenes". 9 de diciembre de 2021 . Consultado el 14 de octubre de 2022 .
- ^ "Fuente Twitter Chirp". Copiar Pegar Volcado . Consultado el 8 de febrero de 2022 .
- ^ "Estándar ECMA-48, quinta edición - junio de 1991" (PDF) . §8.2.14 Funciones de control diversas, §8.3.100, §8.3.101.
- ^ ISO/TC97/SC2 (1 de octubre de 1983). Juego de caracteres de control C1 de ISO 6429 (PDF) . ITSCJ/ IPSJ . ISO-IR -77.
{{citation}}
: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace ) - ^ "Capítulo 4 Propiedades de los caracteres" (PDF) . La versión 14.0 del estándar Unicode: especificación principal . Tabla 4-4.
- ^ "Mapa (versión externa) de la codificación japonesa de Mac OS a Unicode 2.1 y posteriores". Archivado desde el original el 31 de agosto de 2021 . Consultado el 8 de octubre de 2021 .