stringtranslate.com

Unificación Han

Diferencias para el mismo punto de código Unicode (U+8FD4) en versiones regionales de Source Han Sans

La unificación Han es un esfuerzo de los autores de Unicode y del Conjunto Universal de Caracteres para mapear múltiples conjuntos de caracteres de los caracteres Han de los llamados idiomas CJK en un único conjunto de caracteres unificados . Los caracteres Han son una característica compartida en común por el chino escrito ( hanzi ), el japonés ( kanji ), el coreano ( hanja ) y el vietnamita ( chữ Hán ).

Los tipos de letra chinos, japoneses y coreanos modernos suelen utilizar variantes regionales o históricas de un carácter Han determinado . En la formulación de Unicode, se intentó unificar estas variantes al considerarlas como alógrafos  (diferentes glifos que representan el mismo "grafema" o unidad ortográfica ), de ahí la "unificación Han", con el repertorio de caracteres resultante a veces contraído a Unihan . [1] [a]

Sin embargo, muchos caracteres tienen variantes regionales asignadas a diferentes puntos de código , como Tradicional (U+500B) versus Simplificado (U+4E2A).

Fundamento y controversia

El estándar Unicode detalla los principios de la unificación Han. [5] [6] El Grupo de Investigación Ideográfica (GRI), integrado por expertos de los países de habla china, Corea del Norte y del Sur, Japón, Vietnam y otros países, es responsable del proceso. [7]

Una de las razones fue el deseo de limitar el tamaño del conjunto completo de caracteres Unicode, donde los caracteres CJK representados por ideogramas discretos pueden acercarse o superar los 100.000 caracteres [b] . La versión 1 de Unicode fue diseñada para caber en 16 bits y solo 20.940 caracteres (32%) de los 65.536 posibles se reservaron para estos ideogramas unificados CJK . Unicode se amplió más tarde a 21 bits, lo que permitió muchos más caracteres CJK (se asignaron 97.680, con espacio para más).

Un artículo publicado por IBM intenta ilustrar parte de la motivación detrás de la unificación Han: [8]

El problema surge del hecho de que Unicode codifica caracteres en lugar de "glifos", que son las representaciones visuales de los caracteres. Hay cuatro tradiciones básicas para las formas de los caracteres de Asia oriental: chino tradicional, chino simplificado, japonés y coreano. Si bien el carácter raíz Han puede ser el mismo para los idiomas CJK, los glifos de uso común para los mismos caracteres pueden no serlo. Por ejemplo, el glifo chino tradicional para "hierba" utiliza cuatro trazos para el radical "hierba" [ ⺿ ], mientras que los glifos chino simplificado, japonés y coreano [ ] utilizan tres. Pero solo hay un punto Unicode para el carácter de hierba (U+8349) [] independientemente del sistema de escritura. Otro ejemplo es el ideograma para "uno", que es diferente en chino, japonés y coreano. Mucha gente piensa que las tres versiones deberían codificarse de manera diferente.

De hecho, los tres ideogramas para "uno" (,o) están codificados por separado en Unicode, ya que no se consideran variantes nacionales. El primero es la forma común en los tres países, mientras que el segundo y el tercero se utilizan en instrumentos financieros para evitar la manipulación (pueden considerarse variantes).

Sin embargo, la unificación Han también ha causado una considerable controversia, particularmente entre el público japonés, que, junto con los literatos de la nación, tiene un historial de protestas por la eliminación de variantes histórica y culturalmente significativas. [9] [10] (Véase Kanji § Reforma ortográfica y listas de kanji . Hoy en día, la lista de caracteres reconocidos oficialmente para su uso en nombres propios sigue expandiéndose a un ritmo modesto.)

En 1993, la Asociación de Desarrollo de Industrias Electrónicas de Japón (JEIDA) publicó un folleto titulado "未来の文字コード体系に私達は不安をもっています" (Estamos ansiosos por el futuro sistema de codificación de caracteres JPNO  20985671), críticas importantes contra el enfoque de unificación Han adoptado por Unicode.

Grafemas versus glifos

La letra latina " a " minúscula tiene glifos muy diferentes que representan instancias concretas del mismo grafema abstracto. Aunque un lector nativo de cualquier idioma que utilice la escritura latina reconoce estos dos glifos como el mismo grafema, para otros podrían parecer completamente diferentes.

Un grafema es la unidad abstracta de significado más pequeña de un sistema de escritura. Cualquier grafema tiene muchas expresiones posibles en forma de glifo, pero quienes tienen conocimientos de lectura y escritura de un sistema de escritura en particular reconocen todas como el mismo grafema. Aunque Unicode generalmente asigna caracteres a puntos de código para expresar los grafemas dentro de un sistema de escritura, el Estándar Unicode (sección 3.4 D7) advierte:

Un carácter abstracto no corresponde necesariamente a lo que un usuario considera un "carácter" y no debe confundirse con un grafema .

—  El estándar Unicode® versión 15.0 – Especificación básica §3.4 Caracteres y codificación

Sin embargo, esta cita se refiere al hecho de que algunos grafemas están compuestos de varios elementos gráficos o "caracteres". Así, por ejemplo, el carácter U+0061 una LETRA A MINÚSCULA LATINA combinada con U+030A ◌̊ ANILLO COMBINANTE ARRIBA (generando la combinación "å") podría ser entendido por un usuario como un solo grafema a pesar de estar compuesto de múltiples caracteres abstractos Unicode. Además, Unicode también asigna algunos puntos de código a un pequeño número (excepto por razones de compatibilidad) de caracteres de formato, caracteres de espacio en blanco y otros caracteres abstractos que no son grafemas, sino que se utilizan para controlar los saltos entre líneas, palabras, grafemas y grupos de grafemas. Con los ideogramas Han unificados, el Estándar Unicode se aleja de las prácticas anteriores al asignar caracteres abstractos no como grafemas, sino de acuerdo con el significado subyacente del grafema: lo que los lingüistas a veces llaman sememas . Por lo tanto, esta desviación no se explica simplemente por la distinción a menudo citada entre un carácter abstracto y un glifo, sino que está más arraigada en la diferencia entre un carácter abstracto asignado como grafema y un carácter abstracto asignado como semema. En contraste, considere la unificación de puntuación y diacríticos de ASCII , donde los grafemas con significados muy diferentes (por ejemplo, un apóstrofo y una comilla simple) se unifican porque los glifos son los mismos. Para Unihan, los caracteres no están unificados por su apariencia, sino por su definición o significado.

Para que un grafema se represente mediante varios glifos, significa que el grafema tiene variaciones de glifos que generalmente se determinan seleccionando una fuente u otra o utilizando funciones de sustitución de glifos donde se incluyen múltiples glifos en una sola fuente. Unicode considera que dichas variaciones de glifos son una característica de los protocolos de texto enriquecido y no se manejan adecuadamente con los objetivos de texto simple de Unicode. Sin embargo, cuando el cambio de un glifo a otro constituye un cambio de un grafema a otro (donde un glifo no puede significar, por ejemplo, el mismo grafema entendido como la letra minúscula "a"), Unicode separa esos puntos de código separados. Para Unihan, se hace lo mismo siempre que cambia el significado abstracto, sin embargo, en lugar de hablar del significado abstracto de un grafema (la letra "a"), la unificación de los ideogramas Han asigna un nuevo punto de código para cada significado diferente, incluso si ese significado se expresa mediante grafemas distintos en diferentes idiomas. Aunque un grafema como "ö" puede significar algo diferente en inglés (como se usa en la palabra "coördinated") que en alemán (como se usa en la palabra "schön"), sigue siendo el mismo grafema y se puede unificar fácilmente para que el inglés y el alemán puedan compartir un sistema de escritura en latín abstracto común (junto con el propio latín). Este ejemplo también señala otra razón por la que el "carácter abstracto" y el grafema como unidad abstracta en un idioma escrito no necesariamente se corresponden uno a uno. En inglés, la diéresis de combinación , "¨", y la "o" que modifica pueden verse como dos grafemas separados, mientras que en idiomas como el sueco, la letra "ö" puede verse como un solo grafema. De manera similar, en inglés, el punto sobre una "i" se entiende como parte del grafema "i", mientras que en otros idiomas, como el turco, el punto puede verse como un grafema separado agregado al "ı" sin punto .

Para abordar el uso de diferentes grafemas para el mismo semema Unihan, Unicode se ha basado en varios mecanismos, especialmente en lo que se refiere a la representación de texto. Uno de ellos ha sido tratarlo simplemente como un problema de fuentes, de modo que se puedan utilizar diferentes fuentes para representar chino, japonés o coreano. Además, los formatos de fuentes como OpenType permiten la asignación de glifos alternativos según el idioma, de modo que un sistema de representación de texto pueda observar la configuración del entorno del usuario para determinar qué glifo utilizar. El problema con estos enfoques es que no cumplen con los objetivos de Unicode de definir una forma coherente de codificar texto multilingüe. [11]

Por lo tanto, en lugar de tratar el problema como un problema de texto enriquecido de alternativas de glifos, Unicode agregó el concepto de selectores de variación , introducido por primera vez en la versión 3.2 y complementado en la versión 4.0. [12] Si bien los selectores de variación se tratan como caracteres de combinación, no tienen diacrítico o marca asociada. En cambio, al combinarse con un carácter base, señalan que la secuencia de dos caracteres selecciona una variación (generalmente en términos de grafema, pero también en términos de significado subyacente como en el caso de un nombre de ubicación u otro nombre propio) del carácter base. Esto entonces no es una selección de un glifo alternativo, sino la selección de una variación de grafema o una variación del carácter abstracto base. Sin embargo, una secuencia de dos caracteres de este tipo se puede asignar fácilmente a un solo glifo separado en fuentes modernas. Dado que Unicode ha asignado 256 selectores de variación separados, es capaz de asignar 256 variaciones para cualquier ideograma Han. Dichas variaciones pueden ser específicas de un idioma u otro y permiten la codificación de texto simple que incluye dichas variaciones de grafema.

Personajes abstractos de Unihan

Dado que el estándar Unihan codifica "caracteres abstractos", no "glifos", los artefactos gráficos producidos por Unicode se han considerado obstáculos técnicos temporales y, como mucho, cosméticos. Sin embargo, nuevamente, particularmente en Japón, debido en parte a la forma en que los caracteres chinos se incorporaron a los sistemas de escritura japoneses históricamente, la incapacidad de especificar una variante particular se consideró un obstáculo significativo para el uso de Unicode en el trabajo académico. Por ejemplo, la unificación de "hierba" (explicada anteriormente), significa que un texto histórico no se puede codificar de manera que se preserve su ortografía peculiar. En cambio, por ejemplo, el académico tendría que ubicar el glifo deseado en un tipo de letra específico para transmitir el texto tal como está escrito, lo que frustra el propósito de un conjunto de caracteres unificado. Unicode ha respondido a estas necesidades asignando selectores de variación para que los autores puedan seleccionar variaciones de grafemas de ideogramas particulares (o incluso otros caracteres). [12]

Las pequeñas diferencias en la representación gráfica también son problemáticas cuando afectan la legibilidad o pertenecen a la tradición cultural equivocada. Además de hacer que algunas fuentes Unicode no se puedan usar para textos que involucran múltiples "idiomas Unihan", los nombres u otra terminología ortográficamente sensible pueden mostrarse incorrectamente. (Los nombres propios tienden a ser especialmente conservadores ortográficamente; compárese esto con cambiar la ortografía del propio nombre para adaptarse a una reforma lingüística en los EE. UU. o el Reino Unido). Si bien esto puede considerarse principalmente un problema de representación o interpretación gráfica que se debe superar con fuentes más ingeniosas, el uso generalizado de Unicode dificultaría la conservación de tales distinciones. El problema de que un carácter represente conceptos semánticamente diferentes también está presente en la parte latina de Unicode. El carácter Unicode para un apóstrofe curvo es el mismo que el carácter para una comilla simple derecha ('). Por otro lado, la letra latina mayúscula A no está unificada con la letra griega Α o la letra cirílica А. Esto es, por supuesto, deseable por razones de compatibilidad y se ocupa de un conjunto de caracteres alfabéticos mucho más pequeño.

Si bien el aspecto de unificación de Unicode es controvertido en algunos sectores por las razones expuestas anteriormente, Unicode en sí mismo codifica ahora una gran cantidad de caracteres poco utilizados y de naturaleza más o menos antigua.

Parte de la controversia se debe a que la decisión de llevar a cabo la unificación del Han la tomó el Consorcio Unicode inicial, que en ese momento era un consorcio de empresas y organizaciones norteamericanas (la mayoría de ellas en California), [13] pero no incluía a ningún representante de los gobiernos del este de Asia. El objetivo inicial del diseño era crear un estándar de 16 bits, [14] y, por lo tanto, la unificación del Han era un paso fundamental para evitar decenas de miles de duplicaciones de caracteres. Este requisito de 16 bits se abandonó más tarde, lo que hizo que el tamaño del conjunto de caracteres sea un problema menor en la actualidad.

La controversia se extendió posteriormente a la ISO, que representa a nivel internacional: el Grupo de Investigación Conjunta CJK (CJK-JRG) inicial favoreció una propuesta (DIS 10646) para un conjunto de caracteres no unificado, "que fue desechada a favor de la unificación con el conjunto de caracteres unificado del Consorcio Unicode por los votos de los miembros estadounidenses y europeos de la ISO" (aunque la posición japonesa no estaba clara). [15] Apoyar la unificación de Unicode Han fue un paso necesario para la acalorada fusión ISO 10646/Unicode.

Gran parte de la controversia en torno a la unificación Han se basa en la distinción entre glifos , tal como se definen en Unicode, y la idea relacionada pero distinta de los grafemas. Unicode asigna caracteres abstractos (grafemas), a diferencia de los glifos, que son representaciones visuales particulares de un carácter en un tipo de letra específico . Un carácter puede estar representado por muchos glifos distintos, por ejemplo una "g" o una "a", los cuales pueden tener un bucle ( ɑ , ɡ ) o dos ( a , g ). Sin embargo, para un lector de idiomas basados ​​en la escritura latina, las dos variaciones del carácter "a" se reconocen como el mismo grafema. Los grafemas presentes en los estándares de códigos de caracteres nacionales se han agregado a Unicode, como lo requiere la regla de separación de fuentes de Unicode, incluso cuando pueden estar compuestos de caracteres ya disponibles. Los estándares de códigos de caracteres nacionales existentes en los idiomas CJK son considerablemente más complejos, dadas las limitaciones tecnológicas bajo las que evolucionaron, por lo que los participantes oficiales CJK en la unificación Han bien pueden haber sido receptivos a la reforma.

A diferencia de las versiones europeas, las fuentes Unicode CJK, debido a la unificación Han, tienen patrones de superposición grandes pero irregulares, lo que requiere fuentes específicas del idioma. Desafortunadamente, las fuentes específicas del idioma también dificultan el acceso a una variante que, como en el ejemplo de "hierba", aparece más típicamente en otro estilo de idioma. (Es decir, sería difícil acceder a "hierba" con el radical de cuatro trazos más típico del chino tradicional en un entorno japonés, cuyas fuentes normalmente representarían el radical de tres trazos). Los defensores de Unihan tienden a favorecer los lenguajes de marcado para definir cadenas de idioma, pero esto no garantizaría el uso de una variante específica en el caso dado, solo la fuente específica del idioma con más probabilidades de representar un carácter como esa variante. (En este punto, entran en juego diferencias meramente estilísticas, ya que es poco probable que una selección de fuentes japonesas y chinas sean visualmente compatibles).

Los usuarios chinos parecen tener menos objeciones a la unificación Han, en gran parte porque Unicode no intentó unificar los caracteres chinos simplificados con los caracteres chinos tradicionales . (Los caracteres chinos simplificados se utilizan entre hablantes de chino en la República Popular China , Singapur y Malasia . Los caracteres chinos tradicionales se utilizan en Hong Kong y Taiwán ( Big5 ) y son, con algunas diferencias, más familiares para los usuarios coreanos y japoneses). Unicode es visto como neutral con respecto a este tema políticamente cargado, y ha codificado los glifos chinos simplificados y tradicionales por separado (por ejemplo, el ideograma para "descartar" esU+4E1F para chino tradicional Big5 #A5E1 yU+4E22 para chino simplificado GB #2210). También se observa que los caracteres tradicionales y simplificados deben codificarse por separado de acuerdo con las reglas de unificación Han de Unicode, porque se distinguen en los conjuntos de caracteres PRC preexistentes. Además, como con otras variantes, los caracteres tradicionales a simplificados no tienen una relación uno a uno.

Alternativas

Existen varios conjuntos de caracteres alternativos que no codifican según el principio de la Unificación Han y, por lo tanto, están libres de sus restricciones:

Estos conjuntos de caracteres dependientes de la región también se consideran no afectados por la Unificación Han debido a su naturaleza específica de la región:

Sin embargo, ninguno de estos estándares alternativos ha sido tan ampliamente adoptado como Unicode , que ahora es el conjunto de caracteres base para muchos estándares y protocolos nuevos, adoptado internacionalmente y está integrado en la arquitectura de los sistemas operativos ( Microsoft Windows , Apple macOS y muchos sistemas similares a Unix ), lenguajes de programación ( Perl , Python , C# , Java , Common Lisp , APL , C , C++ ) y bibliotecas (IBM International Components for Unicode (ICU) junto con los motores de renderizado Pango , Graphite , Scribe , Uniscribe y ATSUI ), formatos de fuente ( TrueType y OpenType ), etc.

En marzo de 1989, el sistema basado en (B)TRON fue adoptado por las organizaciones gubernamentales japonesas "Center for Educational Computing" como el sistema de elección para la educación escolar, incluida la educación obligatoria . [16] Sin embargo, en abril, un informe titulado "Informe de estimación comercial nacional de 1989 sobre barreras al comercio exterior" de la Oficina del Representante Comercial de los Estados Unidos incluyó específicamente el sistema como una barrera comercial en Japón. El informe afirmaba que la adopción del sistema basado en TRON por parte del gobierno japonés es ventajosa para los fabricantes japoneses y, por lo tanto, excluye a los sistemas operativos estadounidenses del enorme nuevo mercado; específicamente, el informe enumera MS-DOS, OS/2 y UNIX como ejemplos. La Oficina del Representante Comercial de los Estados Unidos supuestamente estaba bajo la influencia de Microsoft, ya que su ex funcionario Tom Robertson recibió entonces una oferta de puesto lucrativo por parte de Microsoft. [17] Si bien el sistema TRON fue posteriormente eliminado de la lista de sanciones por la Sección 301 de la Ley de Comercio de 1974 después de las protestas de la organización en mayo de 1989, la disputa comercial provocó que el Ministerio de Comercio Internacional e Industria aceptara una solicitud de Masayoshi Son para cancelar la selección del Centro de Computación Educativa del sistema basado en TRON para el uso de computadoras educativas. [18] El incidente se considera un evento simbólico de la pérdida de impulso y la eventual desaparición del sistema BTRON, que llevó a la adopción generalizada de MS-DOS en Japón y la eventual adopción de Unicode con su sucesor Windows.

Fusión de todos los caracteres equivalentes

No ha habido ningún esfuerzo por unificar semánticamente todos los caracteres semánticamente vinculados, aunque la idea sería tratar a los usuarios de los idiomas del este asiático por igual, ya sea que escriban en coreano, chino simplificado, chino tradicional, japonés kyūjitai , japonés shinjitai o vietnamita. En lugar de que algunas variantes obtengan puntos de código distintos mientras que otros grupos de variantes tienen que compartir puntos de código únicos, todas las variantes podrían expresarse de manera confiable solo con etiquetas de metadatos (por ejemplo, formato CSS en páginas web). La carga recaería sobre todos aquellos que usan diferentes versiones de,,,, ya sea que esa diferencia se deba a la simplificación, a la variación internacional o a la variación intranacional. Sin embargo, para algunas plataformas (por ejemplo, los teléfonos inteligentes), un dispositivo puede venir con solo una fuente preinstalada. La fuente del sistema debe tomar una decisión sobre el glifo predeterminado para cada punto de código y estos glifos pueden diferir en gran medida, lo que indica diferentes grafemas subyacentes.

En consecuencia, confiar en el marcado del lenguaje de forma generalizada como método se ve afectado por dos problemas importantes. En primer lugar, hay contextos en los que el marcado del lenguaje no está disponible (commits de código, texto simple). En segundo lugar, cualquier solución requeriría que cada sistema operativo viniera preinstalado con muchos glifos para caracteres semánticamente idénticos que tienen muchas variantes. Además de los conjuntos de caracteres estándar en chino simplificado, chino tradicional, coreano, vietnamita, japonés Kyūjitai y japonés Shinjitai, también existen formas "antiguas" de caracteres que son de interés para historiadores, lingüistas y filólogos.

La base de datos Unihan de Unicode ya ha establecido conexiones entre muchos caracteres. La base de datos Unicode ya cataloga las conexiones entre caracteres variantes con puntos de código distintos. Sin embargo, para los caracteres que comparten un punto de código, la imagen del glifo de referencia suele estar sesgada hacia la versión en chino tradicional. Además, la decisión de clasificar los pares como variantes semánticas o variantes z no siempre es coherente o clara, a pesar de las racionalizaciones que aparecen en el manual. [19]

Las denominadas variantes semánticas de(U+4E1F) y(U+4E22) son ejemplos que Unicode da como diferentes de manera significativa en sus formas abstractas, mientras que Unicode enumeraycomo variantes z, que difieren solo en el estilo de fuente. Paradójicamente, Unicode considera queyson variantes z casi idénticas, mientras que al mismo tiempo las clasifica como variantes semánticas significativamente diferentes. También hay casos de algunos pares de caracteres que son simultáneamente variantes semánticas y variantes semánticas especializadas y variantes simplificadas:(U+500B) y(U+4E2A). Hay casos de equivalencia no mutua. Por ejemplo, la entrada de la base de datos Unihan para(U+4E80) considera que(U+9F9C) es su variante z, pero la entrada parano incluye a 亀como una variante z, aunqueobviamente ya estaba en la base de datos en el momento en que se escribió la entrada para亀.

Algunos errores administrativos llevaron a la duplicación de caracteres completamente idénticos, como(U+FA23) y 𧺯 (U+27EAF). Si una fuente tiene glifos codificados en ambos puntos de modo que se utiliza una fuente para ambos, deberían aparecer idénticos. Estos casos se enumeran como variantes z a pesar de no tener variación alguna. Los caracteres duplicados intencionalmente se agregaron para facilitar la conversión de ida y vuelta bit a bit . Debido a que la conversión de ida y vuelta fue uno de los primeros puntos fuertes de Unicode, esto significaba que si un estándar nacional en uso duplicaba innecesariamente un carácter, Unicode tenía que hacer lo mismo. Unicode llama a estas duplicaciones intencionales " variantes de compatibilidad ", como con 漢 (U+FA9A) que llama(U+6F22) su variante de compatibilidad. Siempre que una aplicación use la misma fuente para ambos, deberían aparecer idénticos. A veces, como en el caso decon U+8ECA y U+F902, el carácter de compatibilidad añadido enumera la versión ya presente decomo su variante de compatibilidad y su variante z. El campo de variante de compatibilidad anula el campo de variante z, forzando la normalización bajo todas las formas, incluida la equivalencia canónica. A pesar del nombre, las variantes de compatibilidad son en realidad canónicamente equivalentes y están unidas en cualquier esquema de normalización Unicode y no solo bajo la normalización de compatibilidad. Esto es similar a cómo U+212B Å SIGNO ANGSTROM es canónicamente equivalente a una U+00C5 Å LETRA A MAYÚSCULA LATINA CON ANILLO ENCIMA precompuesta . Gran parte del software (como el software MediaWiki que aloja Wikipedia) reemplazará todos los caracteres canónicamente equivalentes que no se recomiendan (por ejemplo, el símbolo angstrom) con el equivalente recomendado. A pesar del nombre, las "variantes de compatibilidad" CJK son caracteres canónicamente equivalentes y no caracteres de compatibilidad.

漢 (U+FA9A) se agregó a la base de datos más tarde que(U+6F22) y su entrada informa al usuario sobre la información de compatibilidad. Por otro lado,(U+6F22) no tiene esta equivalencia listada en esta entrada. Unicode exige que todas las entradas, una vez admitidas, no puedan cambiar la compatibilidad o equivalencia, de modo que las reglas de normalización para caracteres ya existentes no cambien.

Algunos pares de tradicional y simplificado también se consideran variantes semánticas. Según las definiciones de Unicode, tiene sentido que todas las simplificaciones (que no resulten en la fusión de caracteres totalmente diferentes para su homofonía) sean una forma de variante semántica. Unicode clasificaycomo variantes tradicionales y simplificadas respectivas, y también como variantes semánticas. Sin embargo, mientras que Unicode clasifica(U+5104) y亿(U+4EBF) como variantes tradicionales y simplificadas respectivas, Unicode no consideray亿como variantes semánticas entre sí.

Unicode afirma que "lo ideal sería que no existieran pares de variantes z en el estándar Unicode". [19] Esto haría parecer que el objetivo es al menos unificar todas las variantes menores, redundancias de compatibilidad y redundancias accidentales, dejando la diferenciación a las fuentes y a las etiquetas de idioma. Esto entra en conflicto con el objetivo declarado de Unicode de eliminar esa sobrecarga y permitir que cualquier cantidad de cualquiera de los alfabetos del mundo se encuentre en el mismo documento con un sistema de codificación. [¿ Síntesis incorrecta? ] El capítulo uno del manual afirma que "con Unicode, la industria de la tecnología de la información ha reemplazado los conjuntos de caracteres proliferantes por estabilidad de datos, interoperabilidad global e intercambio de datos, software simplificado y costos de desarrollo reducidos. Si bien toma el conjunto de caracteres ASCII como punto de partida, el estándar Unicode va mucho más allá de la capacidad limitada de ASCII de codificar únicamente las letras mayúsculas y minúsculas de la A a la Z. Proporciona la capacidad de codificar todos los caracteres utilizados en los idiomas escritos del mundo: se pueden codificar más de un millón de caracteres. No se requiere ninguna secuencia de escape o código de control para especificar ningún carácter en ningún idioma. La codificación de caracteres Unicode trata los caracteres alfabéticos, los caracteres ideográficos y los símbolos de manera equivalente, lo que significa que se pueden utilizar en cualquier combinación y con la misma facilidad". [11]

Esto deja la opción de establecer un grafema de referencia unificado para todas las variantes z, lo que es polémico ya que pocos fuera de Japón reconoceríanycomo equivalentes. Incluso dentro de Japón, las variantes están en diferentes lados de una simplificación importante llamada Shinjitai. Unicode haría que la simplificación de la República Popular China de(U+4FA3) y(U+4FB6) sea una diferencia monumental en comparación. Tal plan también eliminaría las variaciones visualmente muy distintas de caracteres como(U+76F4) y(U+96C7).

Sería de esperar que todos los caracteres simplificados fueran simultáneamente variantes z o variantes semánticas de sus contrapartes tradicionales, pero muchos no son ni una ni otra. Es más fácil explicar el extraño caso de que las variantes semánticas puedan ser simultáneamente variantes semánticas y variantes especializadas cuando la definición de Unicode es que las variantes semánticas especializadas tienen el mismo significado solo en ciertos contextos. Los idiomas las usan de manera diferente. Un par cuyos caracteres son reemplazos directos entre sí en japonés puede no ser tan flexible en chino. Por lo tanto, cualquier fusión integral de los puntos de código recomendados tendría que mantener algunas variantes que difieren solo ligeramente en apariencia incluso si el significado es 100% el mismo para todos los contextos en un idioma, porque en otro idioma los dos caracteres pueden no ser reemplazos directos en un 100%.

Ejemplos de glifos que dependen del idioma

En cada fila de la siguiente tabla, el mismo carácter se repite en las seis columnas. Sin embargo, cada columna está marcada (por el langatributo) como perteneciente a un idioma diferente: chino ( simplificado y dos tipos de tradicional ), japonés , coreano o vietnamita . El navegador debe seleccionar, para cada carácter, un glifo (de una fuente) adecuado para el idioma especificado. (Además de la variación real de los caracteres (busque diferencias en el orden, número o dirección de los trazos), los tipos de letra también pueden reflejar diferentes estilos tipográficos, como ocurre con los alfabetos con serifa y los que no). Esto solo funciona para la selección de glifos de respaldo si tiene fuentes CJK instaladas en su sistema y la fuente seleccionada para mostrar este artículo no incluye glifos para estos caracteres.

Ninguna variante de carácter exclusiva del coreano o del vietnamita ha recibido su propio punto de código, mientras que casi todas las variantes del japonés Shinjitai o del chino simplificado tienen puntos de código distintos y glifos de referencia inequívocos en el estándar Unicode.

En el siglo XX, los países del este asiático crearon sus propios estándares de codificación. Dentro de cada estándar, coexistían variantes con puntos de código distintos, de ahí los puntos de código distintos en Unicode para ciertos conjuntos de variantes. Si tomamos como ejemplo el chino simplificado, las dos variantes de caracteres de(U+5167) y(U+5185) difieren exactamente de la misma manera que las variantes coreana y no coreana de(U+5168). Cada variante respectiva del primer carácter tiene(U+5165) o(U+4EBA). Cada variante respectiva del segundo carácter tiene(U+5165) o(U+4EBA). Ambas variantes del primer carácter tienen sus propios puntos de código distintos. Sin embargo, las dos variantes del segundo carácter tuvieron que compartir el mismo punto de código.

La justificación que da Unicode es que el organismo de normalización nacional de la República Popular China creó puntos de código distintos para las dos variantes del primer carácter/, mientras que Corea nunca creó puntos de código separados para las diferentes variantes de. Existe una razón para esto que no tiene nada que ver con cómo los organismos nacionales ven los caracteres en sí. China atravesó un proceso en el siglo XX que cambió (si no simplificó) varios caracteres. Durante esta transición, hubo una necesidad de poder codificar ambas variantes dentro del mismo documento. Corea siempre ha utilizado la variante decon el radical(U+5165) encima. Por lo tanto, no tenía ninguna razón para codificar ambas variantes. Los documentos en idioma coreano hechos en el siglo XX tenían pocas razones para representar ambas versiones en el mismo documento.

Casi todas las variantes que la República Popular China desarrolló o estandarizó obtuvieron puntos de código distintos simplemente debido a la suerte de que la transición al chino simplificado se prolongó hasta la era de la computación. Sin embargo, este privilegio parece aplicarse de manera inconsistente, mientras que la mayoría de las simplificaciones realizadas en Japón y China continental con puntos de código en estándares nacionales, incluidos caracteres simplificados de manera diferente en cada país, sí se incorporaron a Unicode como puntos de código distintos.

Sesenta y dos caracteres "simplificados" de Shinjitai con puntos de código distintos en Japón se fusionaron con sus equivalentes tradicionales de Kyūjitai, como. [ cita requerida ] Esto puede causar problemas para la estrategia de etiquetado de idiomas. No existe una etiqueta universal para las versiones tradicional y "simplificada" del japonés como sí la hay para el chino. Por lo tanto, cualquier escritor japonés que desee mostrar la forma Kyūjitai depuede tener que etiquetar el carácter como "chino tradicional" o confiar en que la fuente japonesa del destinatario use solo los glifos de Kyūjitai, pero las etiquetas de chino tradicional y chino simplificado pueden ser necesarias para mostrar las dos formas una al lado de la otra en un libro de texto japonés. Sin embargo, esto impediría que se use la misma fuente para un documento completo. Hay dos puntos de código distintos paraen Unicode, pero solo por "razones de compatibilidad". Cualquier fuente compatible con Unicode debe mostrar los puntos de código equivalentes de las versiones Kyūjitai y Shinjitai en Unicode como iguales. De manera extraoficial, una fuente puede mostrarsede manera diferente, siendo 海 (U+6D77) la versión Shinjitai y 海 (U+FA45) la versión Kyūjitai (que es idéntica a la versión tradicional en chino escrito y coreano).

El radical(U+7CF8) se utiliza en caracteres como/, con dos variantes, siendo la segunda forma simplemente la forma cursiva. Los componentes radicales de(U+7D05) y(U+7EA2) son semánticamente idénticos y los glifos difieren solo en que el último utiliza una versión cursiva del componente. Sin embargo, en China continental, los organismos de normalización querían estandarizar la forma cursiva cuando se utiliza en caracteres como. Debido a que este cambio ocurrió relativamente recientemente, hubo un período de transición. Tanto(U+7D05) como(U+7EA2) obtuvieron puntos de código separados en los organismos de normalización de codificación de texto de la República Popular China para que los documentos en idioma chino pudieran usar ambas versiones. Las dos variantes recibieron puntos de código distintos también en Unicode.

El caso del radical(U+8278) demuestra lo arbitrario de la situación. Cuando se utiliza para componer caracteres como(U+8349), el radical se colocaba en la parte superior, pero tenía dos formas diferentes. El chino tradicional y el coreano utilizan una versión de cuatro trazos. En la parte superior dedebería haber algo que parezca dos signos más ( ⺿ ). El chino simplificado, el japonés Kyūjitai y el japonés Shinjitai utilizan una versión de tres trazos, como dos signos más que comparten sus trazos horizontales ( , es decir,). Los cuerpos de codificación de texto de la RPC no codificaron las dos variantes de forma diferente. El hecho de que casi todos los demás cambios introducidos por la RPC, sin importar lo menores que fueran, justificaran su propio punto de código sugiere que esta excepción puede haber sido involuntaria. Unicode copió los estándares existentes tal como están, conservando esas irregularidades.

El Consorcio Unicode ha reconocido errores en otros casos. Los innumerables bloques Unicode de los ideogramas han del CJK tienen redundancias en los estándares originales, redundancias provocadas por una importación defectuosa de los estándares originales, así como fusiones accidentales que se corrigen posteriormente, lo que sienta un precedente para la desunificación de caracteres.

Para los hablantes nativos, las variantes pueden resultar ininteligibles o inaceptables en contextos educados. Los angloparlantes pueden entender una nota escrita a mano que diga "4P5 kg" como "495 kg", pero escribir el nueve al revés (para que parezca una "P") puede resultar chocante y se consideraría incorrecto en cualquier escuela. Del mismo modo, para los usuarios de una lengua CJK que lean un documento con glifos "extranjeros": las variantes depueden aparecer como imágenes especulares,pueden carecer de un trazo o tener un trazo extraño, ypueden ser ilegibles para personas que no sean japonesas. (En Japón, se aceptan ambas variantes).

Ejemplos de algunos ideogramas Han no unificados

En algunos casos, a menudo cuando los cambios son más llamativos, Unicode ha codificado caracteres variantes, lo que hace innecesario cambiar entre fuentes o langatributos. Sin embargo, algunas variantes con diferencias mínimas obtienen puntos de código distintos, y no todas las variantes con cambios sustanciales obtienen un punto de código único. Como ejemplo, tomemos un carácter como(U+5165), para el cual la única forma de mostrar las variantes es cambiar la fuente (o langel atributo) como se describe en la tabla anterior. Por otro lado, para(U+5167), la variante de(U+5185) obtiene un punto de código único. Para algunos caracteres, como/(U+514C/U+5151), se puede utilizar cualquiera de los métodos para mostrar los diferentes glifos. En la siguiente tabla, cada fila compara variantes a las que se les han asignado diferentes puntos de código. Para abreviar, tenga en cuenta que las variantes de shinjitai con diferentes componentes normalmente (y como era de esperar) toman puntos de código únicos (por ejemplo,氣/気). No aparecerán aquí, como tampoco lo harán los caracteres chinos simplificados que toman componentes radicales simplificados de manera consistente (por ejemplo,/,/). [3] Esta lista no es exhaustiva.

Base de datos de variación ideográfica (IVD)

Para resolver los problemas que trajo consigo la unificación Han, se creó un estándar técnico Unicode conocido como la base de datos de variación ideográfica Unicode para resolver el problema de especificar un glifo específico en un entorno de texto simple. [20] Al registrar colecciones de glifos en la base de datos de variación ideográfica (IVD), es posible utilizar selectores de variación ideográfica para formar una secuencia de variación ideográfica (IVS) para especificar o restringir el glifo apropiado en el procesamiento de texto en un entorno Unicode.

Rangos Unicode

Los caracteres ideográficos asignados por Unicode aparecen en los siguientes bloques:

Unicode incluye soporte para radicales CJKV, trazos, puntuación, marcas y símbolos en los siguientes bloques:

En estos bloques aparecen caracteres de compatibilidad adicionales (uso desaconsejado):

Estos caracteres de compatibilidad (excluidos los doce ideogramas unificados del bloque de ideogramas de compatibilidad CJK) se incluyen para lograr compatibilidad con sistemas de manejo de texto heredados y otros conjuntos de caracteres heredados. Incluyen formas de caracteres para el diseño de texto vertical y caracteres de texto enriquecido que Unicode recomienda manejar por otros medios.

Núcleo de ideogramas internacionales

El núcleo de ideogramas internacionales (IICore) es un subconjunto de 9810 ideogramas derivados de las tablas de ideogramas unificados CJK, diseñado para implementarse en dispositivos con memoria limitada, capacidad de entrada/salida y/o aplicaciones donde no es posible utilizar el repertorio completo de ideogramas ISO 10646. El estándar actual tiene 9810 caracteres. [22]

Archivos de base de datos de Unihan

El proyecto Unihan siempre ha hecho un esfuerzo para poner a disposición su base de datos de compilación. [2]

El proyecto libUnihan proporciona una base de datos SQLite Unihan normalizada y la biblioteca C correspondiente. [23] Todas las tablas de esta base de datos están en quinta forma normal . libUnihan se publica bajo la LGPL , mientras que su base de datos, UnihanDb, se publica bajo la Licencia MIT .

Véase también

Notas

  1. ^ Unihan también puede referirse a la Base de Datos Unihan mantenida por el Consorcio Unicode , que proporciona información sobre todos los caracteres Han unificados codificados en el Estándar Unicode, incluyendo asignaciones a varios estándares nacionales e industriales, índices en diccionarios estándar, variantes codificadas, pronunciaciones en varios idiomas y una definición en inglés. La base de datos está disponible para el público como archivos de texto [2] y a través de un sitio web interactivo. [3] [4] Este último también incluye glifos representativos y definiciones de palabras compuestas extraídas de los proyectos de diccionarios gratuitos japonés EDICT y chino CEDICT (que se proporcionan para conveniencia y no son una parte formal del Estándar Unicode).
  2. ^ La mayoría de estos son caracteres heredados y obsoletos, sin embargo, según el objetivo de Unicode de codificar cada sistema de escritura que se usa o se ha usado alguna vez, solo se necesitan entre 2000 y 3000 caracteres para ser considerado alfabetizado.

Referencias

  1. ^ "Anexo n.° 38 del estándar Unicode® | BASE DE DATOS UNICODE HAN (UNIHAN)". Consorcio Unicode . 2023-09-01.
  2. ^ ab "Unihan.zip". El estándar Unicode . Consorcio Unicode.
  3. ^ ab "Búsqueda en la base de datos Unihan". El estándar Unicode . Consorcio Unicode.
  4. ^ "Búsqueda en la base de datos Unihan: ejemplo de búsqueda para 中". El estándar Unicode . Consorcio Unicode.
  5. ^ "Capítulo 18: Asia Oriental, Principios de la Unificación Han". El estándar Unicode . Consorcio Unicode.
  6. ^ Whistler, Ken (25 de octubre de 2010). "Nota técnica Unicode n.° 26: sobre la codificación de los alfabetos latino, griego, cirílico y han".
  7. ^ "Historia de la unificación Han". El estándar Unicode . Consorcio Unicode.
  8. ^ "La vida secreta de Unicode". IBM . 2013-12-16. Archivado desde el original el 2013-12-16 . Consultado el 2023-09-30 .
  9. ^ Unicode revisitado Steven J. Searle; Webmaster, TRON Web
  10. ^ "IVD/IVS とは - 文字情報基盤整備事業". mojikiban.ipa.go.jp .
  11. ^ ab "Capítulo 1: Introducción". El estándar Unicode . Consorcio Unicode.
  12. ^ ab "Base de datos de variación ideográfica". Consorcio Unicode.
  13. ^ "Los primeros años de Unicode". Consorcio Unicode.
  14. ^ Becker, Joseph D. (29 de agosto de 1998). «Unicode 88» (PDF) .
  15. ^ "Unicode en Japón: guía para una lucha técnica y psicológica". Archivado desde el original el 27 de junio de 2009.{{cite web}}: CS1 maint: unfit URL (link)
  16. ^ 小林紀興『松下電器の果し状』1章
  17. ^ Krikke, Jan (15 de octubre de 2003). "El sistema operativo más popular del mundo". LinuxInsider.com .
  18. ^ 大下英治 『孫正義 起業の若き獅子』(ISBN 4-06-208718-9)pp. 285-294 
  19. ^ ab "UAX n.° 38: base de datos Unicode Han (Unihan)". www.unicode.org .
  20. ^ "UTS #37: Base de datos de variación ideográfica Unicode". www.unicode.org .
  21. ^ "URO". ccjktype.fonts.adobe.com .
  22. ^ "OGCIO: Área de descargas: Utilidad de comparación del núcleo de ideogramas internacionales (IICORE)". www.ogcio.gov.hk .
  23. ^ Chen, Ding-Yi. "libUnihan - Una biblioteca para la base de datos de caracteres Unihan en quinta forma normal". libunihan.sourceforge.net .