Caracteres duplicados en Unicode

Unicode tiene una cierta cantidad de caracteres duplicados . Se trata de pares de puntos de código Unicode únicos que son canónicamente equivalentes . La razón de esto son problemas de compatibilidad con sistemas heredados.

A menos que dos caracteres sean canónicamente equivalentes, no son "duplicados" en sentido estricto. Sin embargo, hay lugar para el desacuerdo sobre si dos caracteres Unicode realmente codifican el mismo grafema en casos como el SIGNO MICRO U+00B5 µ frente al SIGNO MINÚSCULA GRIEGA U+03BC μ MU .

Esto debe distinguirse claramente de los caracteres Unicode que se representan como glifos idénticos o casi idénticos ( homoglifos ), ya sea porque son históricamente cognados (como el griego Η frente a la latina H ) o por similitud coincidente (como el griego Ρ frente a la latina P , o el griego Η frente a la cirílica Н , o el siguiente septillizo de homoglifos: símbolo astronómico para "Sol" ☉ , "operador de punto en un círculo" ⊙ , la letra gótica 𐍈 , el símbolo AFI para un clic bilabial ʘ , la letra de Osage 𐓃, la letra Tifinagh ⵙ y la letra cirílica arcaica Ꙩ ).

Carácter duplicado vs. carácter derivado

Unicode tiene como objetivo codificar grafemas, no "significados" ("semántica") individuales de grafemas, y no glifos . Es una cuestión de juicio caso por caso si dichos caracteres deben recibir una codificación separada cuando se utilizan en contextos técnicos, por ejemplo, letras griegas utilizadas como símbolos matemáticos: por lo tanto, la elección de tener un " micro- signo" µ separado del griego μ, pero no un " signo Mega " separado de la M latina, fue una decisión pragmática del consorcio Unicode por razones históricas (a saber, compatibilidad con Latin-1 , que incluía un microsigno). Técnicamente, µ y μ no son caracteres duplicados en el sentido de que el consorcio consideró estos símbolos como caracteres distintos (mientras que consideró M para "Mega" y M latina como uno y el mismo carácter).

Obsérvese que el mero hecho de tener diferentes "significados" no es motivo suficiente para dividir un grafema en varios caracteres: así, el acento agudo puede representar el acento de la palabra en galés o sueco, puede expresar la calidad vocálica en francés y puede expresar la longitud vocálica en húngaro, islandés o irlandés. Dado que todos estos idiomas se escriben en la misma escritura , es decir , la escritura latina , el acento agudo en sus diversos significados se considera un mismo carácter diacrítico combinatorio (U+0301), y por tanto la letra acentuada é es el mismo carácter en francés y húngaro. Hay una "marca de tono agudo diacrítico combinatorio" separada en U+0341 para la romanización de idiomas tonales, una diferencia importante con el acento agudo es que en un idioma como el francés, el acento agudo puede reemplazar al punto sobre la i minúscula, mientras que en un idioma como el vietnamita, la marca de tono agudo se añade sobre el punto. Los signos diacríticos para alfabetos considerados independientes pueden codificarse por separado, como el acento agudo ("tonos") para el alfabeto griego en U+0384, y para el alfabeto armenio en U+055B. Algunos alfabetos basados en el cirílico (como el ruso ) también usan el acento agudo, pero no hay un "agudo cirílico" codificado por separado y U+0301 debe usarse para el cirílico así como para el latín (ver Caracteres cirílicos en Unicode ). El punto de que el mismo grafema puede tener muchos "significados" es aún más obvio considerando, por ejemplo, la letra U , que tiene referentes fonémicos completamente diferentes en los diversos idiomas que la usan en sus ortografías (inglés /juː/, /ʊ/, /ʌ/ etc., francés /y/ , alemán /uː/, /u/ , etc., sin mencionar los diversos usos de U como símbolo ).

Problemas de compatibilidad

Formularios CJK de ancho completo

En las codificaciones de caracteres chinos tradicionales , los caracteres normalmente ocupaban un solo byte (conocido como medio ancho) o dos bytes (conocido como ancho completo). Los caracteres que ocupaban un solo byte generalmente se mostraban con la mitad del ancho de los que ocupaban dos bytes. Algunos caracteres, como el alfabeto latino , estaban disponibles tanto en versiones de medio ancho como de ancho completo. Como las versiones de medio ancho eran las más utilizadas, generalmente eran las que se asignaban a los puntos de código estándar para esos caracteres. Por lo tanto, se necesitaba una sección separada para las formas de ancho completo para preservar la distinción.

Símbolos con forma de letras

En algunos casos, grafemas específicos han adquirido un significado simbólico o técnico especializado, independiente de su función original. Un ejemplo destacado es la letra griega π , que es ampliamente reconocida como el símbolo de la constante matemática de la circunferencia de un círculo dividida por su diámetro, incluso por personas que no saben leer y escribir en griego.

Varias variantes de los alfabetos griego y latino, específicamente para su uso como símbolos matemáticos, están codificadas en la gama de símbolos alfanuméricos matemáticos . Esta gama elimina la ambigüedad de caracteres que normalmente se considerarían variantes de fuente, pero que se codifican por separado debido al uso generalizado de variantes de fuente (por ejemplo, L frente a " L cursiva " ℒ frente a "L gótica" 𝔏 frente a "L gótica negrita" 𝕷 ) como símbolos matemáticos distintivos . Está destinada a usarse solo en notación matemática o técnica, no en textos no técnicos. ^[1]

Lista

U+1F549 🕉 OM SÍMBOLO , U+0950 ॐ DEVANAGARI OM
U+212B Å SIGNO DE ANGSTROM , U+00C5 Å LETRA A MAYÚSCULA LATINA CON ANILLO ENCIMA
U+00B5 µ MICRO SIGNO , U+03BC μ LETRA GRIEGA MINÚSCULA MU
U+037E ; SIGNO DE INTERROGACIÓN GRIEGO , U+003B ; PUNTO Y COMA
U+212A K SIGNO KELVIN , U+004B K LETRA LATINA MAYÚSCULA K
U+2024 ․ LÍDER DE UN PUNTO , U+002E . PUNTO
U+2126 Ω SIGNO OHM , U+03A9 Ω LETRA GRIEGA MAYÚSCULA OMEGA
U+2236 ∶ RATIO , U+003A : DOMINGO

Griego

Muchas letras griegas se utilizan como símbolos técnicos . Todas las letras griegas están codificadas en la sección griega de Unicode, pero muchas están codificadas una segunda vez bajo el nombre del símbolo técnico que representan. El " signo micro " (U+00B5, µ) es obviamente heredado de ISO 8859-1 , pero el origen de los demás es menos claro.

Otras variantes del glifo griego codificadas como caracteres separados incluyen la sigma semilunar Ϲ ϲ en contraste con Σ σ, la sigma final ς (estrictamente hablando, una variante del glifo contextual) en contraste con σ, y el símbolo numeral Qoppa Ϟ ϟ en contraste con el arcaico Ϙ ϙ.

Las letras griegas a las que se les asignan puntos de código "símbolo" separados incluyen los símbolos similares a letras ϐ , ϵ , ϑ , ϖ , ϱ , ϒ y ϕ (en contraste con β, ε, θ, π, ρ, Υ, φ); el símbolo de Ohm Ω (en contraste con Ω); y los operadores matemáticos para el producto ∏ y la suma ∑ (en contraste con Π y Σ ).

Números romanos

Unicode tiene una serie de caracteres específicamente designados como números romanos , como parte del rango de formas numéricas de U+2160 a U+2183. Por ejemplo, Roman 1988 ( MCMLXXXVIII ) podría escribirse alternativamente como ⅯⅭⅯⅬⅩⅩⅩⅧ . Este rango incluye números en mayúsculas y minúsculas, así como glifos precombinados para números hasta 12 ( Ⅻ para XII ), destinados principalmente a esferas de reloj.

Los glifos precombinados solo se deben usar para representar números individuales cuando no se desea el uso de glifos individuales, y no para reemplazar números compuestos. Por ejemplo, se puede combinar Ⅹ con Ⅰ para representar el número romano once ( ⅩⅠ ), por lo que U+216A ( Ⅺ ) es canónicamente equivalente a ⅩⅠ . Estos caracteres también se conocen como caracteres de compatibilidad compuestos o caracteres de compatibilidad descomponibles. Normalmente, estos caracteres no se habrían incluido en el estándar Unicode excepto por la compatibilidad con otras codificaciones existentes (consulte Caracteres de compatibilidad Unicode ). El objetivo era dar cabida a una traducción simple de codificaciones existentes a Unicode. Esto hace que las traducciones en la dirección opuesta sean complicadas porque varios caracteres Unicode pueden asignarse a un solo carácter en otra codificación. Sin los problemas de compatibilidad, los únicos caracteres necesarios serían: Ⅰ, Ⅴ, Ⅹ, Ⅼ, Ⅽ, Ⅾ, Ⅿ, ⅰ, ⅴ, ⅹ, ⅼ, ⅽ, ⅾ, ⅿ, ↀ, ↁ, ↂ, ↇ, ↈ y Ↄ ; todos los demás números romanos pueden estar compuestos a partir de estos.

Véase también

Referencias

^ "UTR #25: Unicode y matemáticas". unicode.org . Consultado el 4 de marzo de 2024 .