Nombres y alias de caracteres Unicode
En Unicode , los caracteres pueden tener un nombre único . Un carácter también puede tener uno o más alias . Un alias puede ser una abreviatura, un nombre de control C0 o C1, una corrección, un nombre alternativo o una invención. Un alias también es único entre todos los nombres y alias y, por lo tanto, identificable.
Fondo
El nombre formal y primario de Unicode es único entre todos los nombres, solo utiliza ciertos caracteres y formatos, y se garantiza que nunca cambiará. El nombre formal consta de caracteres A–Z (mayúsculas), 0–9, " " (espacio) y "-" (guión). Junto a este nombre, un carácter puede tener uno o más alias formales (normativos) . Un alias de este tipo también sigue las reglas de un nombre: caracteres utilizados (AZ, -, 0-9, <espacio>) y no utilizados (az, %, $, etc.). Los alias también son únicos en el conjunto de nombres completos (es decir, todos los nombres y alias son únicos en su conjunto combinado). Los alias se describen formalmente en el estándar Unicode. [1] [2] En este sentido, una abreviatura también se considera un nombre Unicode .
Razón para añadir un alias
Hay cinco posibles razones para asignar un nombre de alias a un punto de código. [1]
Un carácter puede tener varios alias: por ejemplo, U+0008 <control-0008> tiene el alias de control BACKSPACE y el alias de abreviatura BS .
- 1. Abreviatura
- Abreviaturas (o acrónimos) comunes para códigos de control, caracteres de formato, espacios y selectores de variaciones.
- Hay 354 alias de este tipo, incluidos 256 alias para selectores de variantes (VS-1 ... VS-256).
- Por ejemplo, U+00A0 NO-BREAK SPACE tiene el alias NBSP .
- Presentación: en los cuadros de códigos, la abreviatura se muestra en un recuadro punteado:
PNBSP
. - 2. Control
- Los nombres ISO 6429 para las funciones de control C0 y C1 y otros nombres similares que aparecen comúnmente se agregan como un alias al carácter.
- Existen 84 alias de este tipo.
- Por ejemplo, U+0008 <control-0008> tiene el alias BACKSPACE .
- Presentación: Los caracteres de control no tienen un nombre principal, se etiquetan como <control-0008>. Su nombre de alias como BACKSPACE se utiliza en la documentación del gráfico, pero nunca como nombre principal. Esto evita el reemplazo no deseado (automático) por el carácter de control real que interrumpe. Por ejemplo, usar el nombre de alias BEL en la línea se reemplazaría por U+0007 <control-0007> , activando el sonido de la campana.
- 3. Corrección
- Esta es una corrección de un "problema grave" en el nombre del personaje principal, generalmente un error.
- Existen 35 alias de este tipo.
- Por ejemplo, U+2118 ℘ SCRIPT CAPITAL P es en realidad una p minúscula , por lo que se le da el nombre de alias ※ FUNCIÓN ELÍPTICA DE WEIERSTRASS : "en realidad tiene la forma de una p caligráfica minúscula, a pesar de su nombre, y a través del alias se agrega la ortografía correcta".
- Presentación: Un nombre corregido está precedido por el símbolo ※ (la marca de referencia ).
- 4. Alternativa
- Para un nombre alternativo ampliamente utilizado para un personaje.
- Existe un alias de ese tipo.
- Ejemplo: U+FEFF ESPACIO SIN INTERRUPCIÓN DE ANCHO CERO tiene MARCA DE ORDEN DE BYTES alternativa .
- Presentación: aparece en la descripción de los cuadros de personajes.
- 5. Figmento
- Varias etiquetas documentadas para puntos de código de control C1 que en realidad nunca fueron aprobados en ninguna norma ( figment = fingido, en ficción).
- Hay tres alias de este tipo.
- Por ejemplo, U+0099 <control-0099> tiene el alias de figment SINGLE GRAPHIC CHARACTER INTRODUCER . Este nombre es un concepto arquitectónico de los primeros borradores de ISO/IEC 10646-1, pero nunca fue aprobado ni estandarizado.
- Presentación: Estas abreviaturas de figuras no están publicadas en Estándar; el cuadro muestra "XXX" para cada una de manera informal, es decir: no es una abreviatura única o identificativa.
Lista de alias
Nombres alternativos informales
El estándar Unicode también utiliza y publica nombres alternativos que no son formales y no se enumeran como nombres de alias normativos. Estas etiquetas pueden no ser únicas y pueden utilizar caracteres irregulares en su nombre. Se utilizan en los cuadros de códigos Unicode, por ejemplo U+070F MARCA DE ABREVIACIÓN SIRIACA : SAM. [3]
Véase también
Referencias
- ^ ab "NameAliases.txt". El Consorcio Unicode. 24 de abril de 2024. Consultado el 11 de septiembre de 2024 .
- ^ "El estándar Unicode". El Consorcio Unicode.
- ^ "Tablas de códigos de caracteres Unicode 14.0: siríaco" (PDF) .