Especiales (bloque Unicode)

Especiales es un bloque corto de caracteres Unicode asignado al final del plano multilingüe básico , en U+FFF0–FFFF. De estos 16 puntos de código, cinco han sido asignados desde Unicode 3.0:

U+FFF9 ANCLAJE DE ANOTACIÓN INTERLINEAR , marca el inicio del texto anotado
SEPARADOR DE ANOTACIONES INTERLINEALES U+FFFA , marca el inicio de los caracteres de anotación
U+FFFB TERMINADOR DE ANOTACIÓN INTERLINEAR , marca el final del bloque de anotación
U+FFFC CARÁCTER DE REEMPLAZO DE OBJETO , marcador de posición en el texto para otro objeto no especificado, por ejemplo en undocumento compuesto.
U+FFFD: CARÁCTER DE REEMPLAZO utilizado para reemplazar un carácter desconocido, no reconocido o irrepresentable
U+FFFE <sin carácter-FFFE> no es un personaje.
U+FFFF <noncharacter-FFFF> no es un personaje.

U+FFFE <noncharacter-FFFE> y U+FFFF <noncharacter-FFFF> no son caracteres , lo que significa que están reservados pero no provocan texto Unicode con formato incorrecto. Las versiones del estándar Unicode de 3.1.0 a 6.3.0 afirmaban que estos caracteres nunca deberían intercambiarse, lo que llevó a algunas aplicaciones a usarlos para adivinar la codificación del texto interpretando la presencia de cualquiera de ellos como una señal de que el texto no es Unicode. Sin embargo, el Corrigendum #9 especificó posteriormente que los caracteres que no son caracteres no son ilegales y, por lo tanto, este método de verificar la codificación de texto es incorrecto. ^[3]

El carácter U+FEFF BYTE ORDER MARK de Unicode se puede insertar al principio de un texto Unicode para indicar su endianidad : un programa que lea dicho texto y encuentre 0xFFFE sabría entonces que debe cambiar el orden de bytes de todos los caracteres siguientes.

El nombre de su bloque en Unicode 1.0 era Especial . ^[4]

Personaje de reemplazo

El carácter de reemplazo � (a menudo mostrado como un rombo negro con un signo de interrogación blanco) es un símbolo que se encuentra en el estándar Unicode en el punto de código U+FFFD en la tabla Especiales . Se utiliza para indicar problemas cuando un sistema no puede representar un flujo de datos para corregir símbolos. ^[5]

Por ejemplo, un archivo de texto codificado en ISO 8859-1 que contiene la palabra alemana für contiene bytes 0x66 0xFC 0x72. Si este archivo se abre con un editor de texto que asume que la entrada es UTF-8 , el primer y tercer byte son codificaciones UTF-8 válidas de ASCII , pero el segundo byte ( 0xFC) no es válido en UTF-8. El editor de texto podría reemplazar este byte con el carácter de reemplazo para producir una cadena válida de puntos de código Unicode para mostrar, de modo que el usuario vea "f�r".

Un editor de texto mal implementado podría escribir el carácter de reemplazo cuando el usuario guarda el archivo; Los datos del archivo se convertirán en 0x66 0xEF 0xBF 0xBD 0x72. Si el archivo se vuelve a abrir usando ISO 8859-1, mostrará "fï¿½r" (esto se llama mojibake ). Dado que el reemplazo es el mismo para todos los errores, es imposible recuperar el carácter original. Un diseño que es mejor (pero más difícil de implementar) es preservar los bytes originales, incluidos los errores, y solo convertirlos al reemplazo cuando se muestra el texto. Esto permitirá que el editor de texto guarde la secuencia de bytes original, sin dejar de mostrar una indicación de error al usuario.

Hubo un tiempo en que el carácter de reemplazo se usaba a menudo cuando no había ningún glifo disponible en una fuente para ese carácter, como en la sustitución de fuentes . Sin embargo, la mayoría de los sistemas de representación de texto modernos utilizan el carácter .notdef de una fuente , que en la mayoría de los casos es un cuadro vacío o "?" o "X" en un cuadro, ^[6] (este navegador muestra �), a veces llamado ' tofu '. No existe ningún punto de código Unicode para este símbolo.

Por lo tanto, el carácter de reemplazo ahora solo se ve en caso de errores de codificación. Algunos programas de software traducen bytes UTF-8 no válidos a caracteres coincidentes en Windows-1252 (ya que esa es la fuente más común de estos errores), de modo que nunca se ve el carácter de reemplazo.

gráfico Unicode

Historia

Los siguientes documentos relacionados con Unicode registran el propósito y el proceso de definir caracteres específicos en el bloque Especiales:

Ver también

Caracteres de control Unicode

Referencias

^ "Base de datos de caracteres Unicode". El estándar Unicode . Consultado el 26 de julio de 2023 .
^ "Versiones enumeradas del estándar Unicode". El estándar Unicode . Consultado el 26 de julio de 2023 .
^ "Corrigéndum n.º 9: aclaración sobre personajes que no son personajes". El estándar Unicode . Archivado desde el original el 10 de junio de 2023 . Consultado el 7 de junio de 2023 .
^ "3.8: Gráficos bloque por bloque" (PDF) . El estándar Unicode . Versión 1.0. Consorcio Unicode . Archivado (PDF) desde el original el 11 de febrero de 2021 . Consultado el 30 de septiembre de 2020 .
^ Wichary, Marcin (29 de septiembre de 2020). "Cuando las fuentes caen". Figma. Archivado desde el original el 13 de junio de 2021 . Consultado el 6 de junio de 2021 .
^ "Recomendaciones para fuentes OpenType (OpenType 1.7): tipografía". Microsoft aprende . Archivado desde el original el 19 de octubre de 2020 . Consultado el 18 de octubre de 2020 .