stringtranslate.com

unificación han

Diferencias para el mismo punto de código Unicode (U+8FD4) en las versiones regionales de Source Han Sans

La unificación Han es un esfuerzo de los autores de Unicode y Universal Character Set para mapear múltiples conjuntos de caracteres Han de los llamados lenguajes CJK en un único conjunto de caracteres unificados . Los caracteres han son una característica que comparten el chino escrito ( hanzi ), el japonés ( kanji ), el coreano ( hanja ) y el vietnamita ( chữ Hán ).

Los tipos de letra chinos, japoneses y coreanos modernos suelen utilizar variantes regionales o históricas de un carácter Han determinado . En la formulación de Unicode, se intentó unificar estas variantes considerándolas como alógrafos  (diferentes glifos que representan el mismo "grafema" o unidad ortográfica ), de ahí la "unificación Han", con el repertorio de caracteres resultante a veces contratado para Unihan . [1] [un]

Sin embargo, muchos caracteres tienen variantes regionales asignadas a diferentes puntos de código , como Tradicional (U+500B) versus Simplificado (U+4E2A).

Justificación y controversia

El estándar Unicode detalla los principios de la unificación Han. [5] [6] El Grupo de Investigación Ideográfica (IRG), formado por expertos de los países de habla china, Corea del Norte y del Sur, Japón, Vietnam y otros países, es responsable del proceso.

Una de las razones fue el deseo de limitar el tamaño del conjunto completo de caracteres Unicode, donde los caracteres CJK representados por ideogramas discretos pueden acercarse o superar los 100.000 [b] caracteres. La versión 1 de Unicode fue diseñada para caber en 16 bits y sólo 20.940 caracteres (32%) de los 65.536 posibles estaban reservados para estos Ideógrafos Unificados CJK . Posteriormente, Unicode se amplió a 21 bits, lo que permitió muchos más caracteres CJK (se asignan 97.680, con espacio para más).

Un artículo presentado por IBM intenta ilustrar parte de la motivación para la unificación Han: [7]

El problema surge del hecho de que Unicode codifica caracteres en lugar de "glifos", que son representaciones visuales de los caracteres. Hay cuatro tradiciones básicas para las formas de los caracteres del este de Asia: chino tradicional, chino simplificado, japonés y coreano. Si bien el carácter raíz Han puede ser el mismo para los idiomas CJK, es posible que los glifos de uso común para los mismos caracteres no lo sean. Por ejemplo, el glifo chino tradicional para "hierba" usa cuatro trazos para el radical "hierba" [ ⺿ ], mientras que los glifos chinos simplificados, japoneses y coreanos [ ] usan tres. Pero sólo hay un punto Unicode para el carácter de hierba (U+8349) [] independientemente del sistema de escritura. Otro ejemplo es el ideograma de "uno", que es diferente en chino, japonés y coreano. Mucha gente piensa que las tres versiones deberían codificarse de forma diferente.

De hecho, los tres ideogramas de "uno" (,o) están codificados por separado en Unicode, ya que no se consideran variantes nacionales. La primera es la forma común en los tres países, mientras que la segunda y la tercera se utilizan en instrumentos financieros para evitar la manipulación (pueden considerarse variantes).

Sin embargo, la unificación Han también ha causado una controversia considerable, particularmente entre el público japonés, quien, junto con los literatos de la nación, tiene un historial de protestar por la eliminación de variantes histórica y culturalmente significativas. [8] [9] (Ver Kanji § Reforma ortográfica y listas de kanji . Hoy en día, la lista de caracteres oficialmente reconocidos para su uso en nombres propios continúa expandiéndose a un ritmo modesto).

En 1993, la Asociación de Desarrollo de Industrias Electrónicas de Japón (JEIDA) publicó un folleto titulado "未来の文字コード体系に私達は不安をもっています" (Estamos ansiosos por el futuro sistema de codificación de caracteres JPNO  20985671), que resume los principales crítica contra el enfoque de unificación Han adoptado por Unicode.

Grafemas versus glifos

La " a " minúscula latina tiene glifos muy diferentes y todos representan instancias concretas del mismo grafema abstracto. Aunque un lector nativo de cualquier idioma que utilice la escritura latina reconoce estos dos glifos como el mismo grafema, a otros les podría parecer que no tienen ninguna relación.

Un grafema es la unidad abstracta de significado más pequeña en un sistema de escritura. Cualquier grafema tiene muchas expresiones glíficas posibles, pero todas son reconocidas como el mismo grafema por aquellos con conocimientos de lectura y escritura de un sistema de escritura en particular. Aunque Unicode normalmente asigna caracteres a puntos de código para expresar los grafemas dentro de un sistema de escritura, el Estándar Unicode (sección 3.4 D7) advierte:

Un carácter abstracto no necesariamente corresponde a lo que un usuario considera un "personaje" y no debe confundirse con un grafema .

—  El estándar Unicode® versión 15.0 – Especificación principal §3.4 Caracteres y codificación

Sin embargo, esta cita hace referencia a que algunos grafemas están compuestos por varios elementos gráficos o “personajes”. Entonces, por ejemplo, el carácter U+0061 , una LETRA A MINÚSCULA LATINA combinada con U+030A ◌̊ COMBINANDO EL ANILLO ARRIBA (generando la combinación "å") podría ser entendido por un usuario como un solo grafema mientras está compuesto por múltiples resúmenes Unicode. caracteres. Además, Unicode también asigna algunos puntos de código a una pequeña cantidad (aparte de por razones de compatibilidad) de caracteres de formato, espacios en blanco y otros caracteres abstractos que no son grafemas, sino que se utilizan para controlar las rupturas entre líneas, palabras, grafemas y grupos de grafemas. Con los ideogramas Han unificados, el estándar Unicode se aparta de las prácticas anteriores al asignar caracteres abstractos no como grafemas, sino según el significado subyacente del grafema: lo que los lingüistas a veces llaman sememas . Por lo tanto, esta desviación no se explica simplemente por la distinción frecuentemente citada entre un carácter abstracto y un glifo, sino que está más arraigada en la diferencia entre un carácter abstracto asignado como grafema y un carácter abstracto asignado como semema. Por el contrario, considere la unificación de puntuación y signos diacríticos de ASCII , donde los grafemas con significados muy diferentes (por ejemplo, un apóstrofe y una comilla simple) se unifican porque los glifos son los mismos. Para Unihan los personajes no están unificados por su apariencia, sino por su definición o significado.

Que un grafema esté representado por varios glifos significa que el grafema tiene variaciones de glifos que generalmente se determinan seleccionando una fuente u otra o usando funciones de sustitución de glifos donde se incluyen múltiples glifos en una sola fuente. Unicode considera que dichas variaciones de glifos son una característica de los protocolos de texto enriquecido y no las manejan adecuadamente los objetivos de texto sin formato de Unicode. Sin embargo, cuando el cambio de un glifo a otro constituye un cambio de un grafema a otro (donde un glifo todavía no puede significar, por ejemplo, el mismo grafema entendido como la letra minúscula "a"), Unicode los separa en puntos de código separados. Para Unihan se hace lo mismo siempre que cambia el significado abstracto, sin embargo, en lugar de hablar del significado abstracto de un grafema (la letra "a"), la unificación de los ideogramas Han asigna un nuevo punto de código para cada significado diferente, incluso si ese El significado se expresa mediante distintos grafemas en diferentes idiomas. Aunque un grafema como "ö" puede significar algo diferente en francés (como se usa en la palabra Noël ) que en alemán (como se usa en la palabra Österreich ), sigue siendo el mismo grafema y se puede unificar fácilmente para que el inglés y el alemán puede compartir un sistema de escritura latino abstracto común (junto con el propio latín). Este ejemplo también apunta a otra razón por la que el "carácter abstracto" y el grafema como unidad abstracta en un lenguaje escrito no necesariamente se corresponden uno a uno. En inglés, la diéresis combinada , "¨", y la "o" que modifica pueden verse como dos grafemas separados, mientras que en idiomas como el sueco, la letra "ö" puede verse como un solo grafema. De manera similar, en inglés, el punto sobre una "i" se entiende como parte del grafema "i", mientras que en otros idiomas, como el turco, el punto puede verse como un grafema separado agregado al " ı" sin punto .

Para abordar el uso de diferentes grafemas para el mismo semema Unihan, Unicode se ha basado en varios mecanismos: especialmente en lo que se refiere a la representación de texto. Una ha sido tratarlo simplemente como una cuestión de fuentes, de modo que se puedan usar diferentes fuentes para representar chino, japonés o coreano. Además, los formatos de fuente como OpenType permiten el mapeo de glifos alternativos según el idioma, de modo que un sistema de representación de texto pueda consultar la configuración ambiental del usuario para determinar qué glifo usar. El problema con estos enfoques es que no cumplen con los objetivos de Unicode de definir una forma consistente de codificar texto multilingüe. [10]

Entonces, en lugar de tratar el problema como un problema de texto enriquecido de glifos alternativos, Unicode agregó el concepto de selectores de variación , introducido por primera vez en la versión 3.2 y complementado en la versión 4.0. [11] Si bien los selectores de variación se tratan como caracteres combinados, no tienen signos diacríticos ni marcas asociados. En cambio, al combinarse con un carácter base, indican que la secuencia de dos caracteres selecciona una variación (generalmente en términos de grafema, pero también en términos de significado subyacente, como en el caso de un nombre de ubicación u otro nombre propio) del carácter base. Entonces no se trata de una selección de un glifo alternativo, sino de la selección de una variación del grafema o una variación del carácter abstracto base. Sin embargo, una secuencia de dos caracteres de este tipo se puede asignar fácilmente a un único glifo separado en las fuentes modernas. Dado que Unicode ha asignado 256 selectores de variación separados, es capaz de asignar 256 variaciones para cualquier ideograma Han. Dichas variaciones pueden ser específicas de un idioma u otro y permitir la codificación de texto sin formato que incluya dichas variaciones de grafemas.

Unihan "personajes abstractos"

Dado que el estándar Unihan codifica "caracteres abstractos", no "glifos", los artefactos gráficos producidos por Unicode se han considerado obstáculos técnicos temporales y, como mucho, cosméticos. Sin embargo, nuevamente, particularmente en Japón, debido en parte a la forma en que los caracteres chinos se incorporaron históricamente a los sistemas de escritura japoneses, la incapacidad de especificar una variante particular se consideró un obstáculo importante para el uso de Unicode en el trabajo académico. Por ejemplo, la unificación de "hierba" (explicada anteriormente) significa que un texto histórico no puede codificarse para preservar su ortografía peculiar. En cambio, por ejemplo, se requeriría que el erudito localizara el glifo deseado en un tipo de letra específico para transmitir el texto tal como está escrito, frustrando el propósito de un conjunto de caracteres unificado. Unicode ha respondido a estas necesidades asignando selectores de variación para que los autores puedan seleccionar variaciones de grafemas de ideogramas particulares (o incluso de otros personajes). [11]

Las pequeñas diferencias en la representación gráfica también son problemáticas cuando afectan la legibilidad o pertenecen a una tradición cultural equivocada. Además de inutilizar algunas fuentes Unicode para textos que involucran múltiples "idiomas Unihan", es posible que los nombres u otra terminología ortográficamente sensible se muestren incorrectamente. (Los nombres propios tienden a ser especialmente conservadores desde el punto de vista ortográfico; compárese esto con cambiar la ortografía del propio nombre para adaptarlo a una reforma lingüística en los EE. UU. o el Reino Unido). Si bien esto puede considerarse principalmente una representación gráfica o un problema de representación que debe superarse con fuentes más ingeniosas , el uso generalizado de Unicode haría difícil preservar tales distinciones. El problema de que un carácter represente conceptos semánticamente diferentes también está presente en la parte latina de Unicode. El carácter Unicode de un apóstrofo curvo es el mismo que el de una comilla simple derecha ('). En cambio, la letra latina mayúscula A no está unificada con la letra griega A ni con la letra cirílica A. Por supuesto, esto es deseable por razones de compatibilidad y se ocupa de un conjunto de caracteres alfabéticos mucho más pequeño.

Si bien el aspecto de unificación de Unicode es controvertido en algunos sectores por las razones expuestas anteriormente, el propio Unicode ahora codifica una gran cantidad de caracteres rara vez utilizados y de naturaleza más o menos anticuaria.

Parte de la controversia surge del hecho de que la decisión misma de realizar la unificación Han fue tomada por el Consorcio Unicode inicial, que en ese momento era un consorcio de empresas y organizaciones norteamericanas (la mayoría de ellas en California), [12 ] pero incluía No hay representantes del gobierno de Asia Oriental. El objetivo inicial del diseño era crear un estándar de 16 bits [13] y, por lo tanto, la unificación Han fue un paso crítico para evitar decenas de miles de duplicaciones de caracteres. Este requisito de 16 bits se abandonó más tarde, lo que hizo que el tamaño del conjunto de caracteres fuera un problema menor en la actualidad.

La controversia se extendió más tarde a la ISO internacionalmente representativa: el Grupo Conjunto de Investigación CJK (CJK-JRG) inicial favoreció una propuesta (DIS 10646) para un juego de caracteres no unificado, "que fue rechazada a favor de la unificación con el sistema unificado del Consorcio Unicode". "carácter determinado por los votos de los miembros americanos y europeos de la ISO" (aunque la posición japonesa no estaba clara). [14] Respaldar la unificación Unicode Han fue un paso necesario para la acalorada fusión ISO 10646/Unicode.

Gran parte de la controversia en torno a la unificación Han se basa en la distinción entre glifos , tal como se definen en Unicode, y la idea relacionada pero distinta de grafemas. Unicode asigna caracteres abstractos (grafemas), a diferencia de los glifos, que son representaciones visuales particulares de un carácter en un tipo de letra específico . Un carácter puede estar representado por muchos glifos distintos, por ejemplo, una "g" o una "a", los cuales pueden tener un bucle ( ɑ , ɡ ) o dos ( a , g ). Sin embargo, para un lector de lenguas basadas en escritura latina, las dos variaciones del carácter "a" se reconocen como el mismo grafema. Los grafemas presentes en los estándares nacionales de códigos de caracteres se han agregado a Unicode, según lo exige la regla de separación de fuentes de Unicode, incluso cuando pueden estar compuestos de caracteres ya disponibles. Los estándares de códigos de caracteres nacionales existentes en los idiomas CJK son considerablemente más complicados, dadas las limitaciones tecnológicas bajo las cuales evolucionaron, por lo que los participantes oficiales del CJK en la unificación Han bien pueden haber estado dispuestos a reformarse.

A diferencia de las versiones europeas, las fuentes CJK Unicode, debido a la unificación Han, tienen patrones de superposición grandes pero irregulares, lo que requiere fuentes específicas del idioma. Desafortunadamente, las fuentes específicas del idioma también dificultan el acceso a una variante que, como en el ejemplo "grass", aparece más típicamente en otro estilo de idioma. (Es decir, sería difícil acceder a "hierba" con el radical de cuatro trazos más típico del chino tradicional en un entorno japonés, cuyas fuentes normalmente representarían el radical de tres trazos). Los defensores de Unihan tienden a favorecer los lenguajes de marcado para definir cadenas de idioma, pero esto no garantizaría el uso de una variante específica en el caso dado, solo la fuente específica del idioma que tiene más probabilidades de representar un carácter como esa variante. (En este punto, entran en juego diferencias meramente estilísticas, ya que es probable que una selección de fuentes japonesas y chinas no sean visualmente compatibles).

Los usuarios chinos parecen tener menos objeciones a la unificación de Han, en gran parte porque Unicode no intentó unificar los caracteres del chino simplificado con los caracteres del chino tradicional . (Los caracteres chinos simplificados se utilizan entre los hablantes de chino en la República Popular China , Singapur y Malasia . Los caracteres chinos tradicionales se utilizan en Hong Kong y Taiwán ( Big5 ) y son, con algunas diferencias, más familiares para los usuarios coreanos y japoneses. ) Unicode se considera neutral con respecto a este tema políticamente cargado y ha codificado los glifos del chino simplificado y tradicional por separado (por ejemplo, el ideograma para "descartar" esU+4E1F para el chino tradicional Big5 #A5E1 yU+4E22 para el chino simplificado GB #2210). También se observa que los caracteres tradicionales y simplificados deben codificarse por separado de acuerdo con las reglas de unificación Unicode Han, porque se distinguen en conjuntos de caracteres PRC preexistentes. Además, como ocurre con otras variantes, los caracteres tradicionales a simplificados no son una relación uno a uno.

Alternativas

Hay varios conjuntos de caracteres alternativos que no codifican según el principio de la Unificación Han y, por lo tanto, están libres de sus restricciones:

Estos conjuntos de caracteres dependientes de la región tampoco se ven afectados por la Unificación Han debido a su naturaleza específica de la región:

Sin embargo, ninguno de estos estándares alternativos ha sido adoptado tan ampliamente como Unicode , que ahora es el conjunto de caracteres base para muchos estándares y protocolos nuevos, adoptados internacionalmente y está integrado en la arquitectura de los sistemas operativos ( Microsoft Windows , Apple macOS y muchos otros). Sistemas tipo Unix ), lenguajes de programación ( Perl , Python , C# , Java , Common Lisp , APL , C , C++ ) y bibliotecas (IBM International Components for Unicode (ICU) junto con Pango , Graphite , Scribe , Uniscribe y Motores de renderizado ATSUI ), formatos de fuente ( TrueType y OpenType ), etc.

En marzo de 1989, la organización gubernamental japonesa "Centro de Computación Educativa" adoptó un sistema basado en (B)TRON como el sistema de elección para la educación escolar, incluida la educación obligatoria . [15] Sin embargo, en abril, un informe titulado "Informe de estimación comercial nacional de 1989 sobre barreras al comercio exterior" de la Oficina del Representante Comercial de los Estados Unidos enumeró específicamente el sistema como una barrera comercial en Japón. El informe afirma que la adopción del sistema basado en TRON por parte del gobierno japonés es ventajosa para los fabricantes japoneses y, por lo tanto, excluye los sistemas operativos estadounidenses del enorme nuevo mercado; específicamente, el informe enumera MS-DOS, OS/2 y UNIX como ejemplos. La Oficina del USTR supuestamente estaba bajo la influencia de Microsoft, ya que Microsoft le ofreció a su ex funcionario Tom Robertson un puesto lucrativo. [16] Si bien el propio sistema TRON fue posteriormente eliminado de la lista de sanciones por la Sección 301 de la Ley de Comercio de 1974 después de las protestas de la organización en mayo de 1989, la disputa comercial hizo que el Ministerio de Comercio Internacional e Industria aceptara una solicitud de Masayoshi Son cancelará la selección del sistema basado en TRON por parte del Centro de Computación Educativa para el uso de computadoras educativas. [17] El incidente se considera un evento simbólico de la pérdida de impulso y eventual desaparición del sistema BTRON, que condujo a la adopción generalizada de MS-DOS en Japón y la eventual adopción de Unicode con su sucesor Windows.

Fusión de todos los caracteres equivalentes.

No ha habido ningún impulso para una unificación semántica completa de todos los caracteres vinculados semánticamente, aunque la idea trataría a los respectivos usuarios de idiomas de Asia Oriental de la misma manera, ya sea que escriban en coreano, chino simplificado, chino tradicional, japonés Kyūjitai , japonés Shinjitai o vietnamita. . En lugar de que algunas variantes obtengan puntos de código distintos mientras que otros grupos de variantes tienen que compartir puntos de código únicos, todas las variantes podrían expresarse de manera confiable solo con etiquetas de metadatos (por ejemplo, formato CSS en páginas web). La carga recaería sobre todos aquellos que utilizan diferentes versiones de,,,, ya sea que esa diferencia se deba a la simplificación, a la variación internacional o a la variación intranacional. Sin embargo, para algunas plataformas (por ejemplo, teléfonos inteligentes), un dispositivo puede venir con una sola fuente preinstalada. La fuente del sistema debe tomar una decisión sobre el glifo predeterminado para cada punto de código y estos glifos pueden diferir mucho, indicando diferentes grafemas subyacentes.

En consecuencia, confiar en el marcado del lenguaje en todos los ámbitos como enfoque plantea dos problemas importantes. En primer lugar, hay contextos en los que el marcado del idioma no está disponible (confirmaciones de código, texto sin formato). En segundo lugar, cualquier solución requeriría que cada sistema operativo viniera preinstalado con muchos glifos para caracteres semánticamente idénticos que tienen muchas variantes. Además de los conjuntos de caracteres estándar en chino simplificado, chino tradicional, coreano, vietnamita, japonés Kyūjitai y japonés Shinjitai, también existen formas "antiguas" de caracteres que son de interés para historiadores, lingüistas y filólogos.

La base de datos Unihan de Unicode ya ha establecido conexiones entre muchos caracteres. La base de datos Unicode cataloga las conexiones entre caracteres variantes con puntos de código distintos. Sin embargo, para los caracteres con un punto de código compartido, la imagen del glifo de referencia suele estar sesgada hacia la versión en chino tradicional. Además, la decisión de clasificar pares como variantes semánticas o variantes z no siempre es consistente o clara, a pesar de las racionalizaciones contenidas en el manual. [18]

Las llamadas variantes semánticas de(U+4E1F) y(U+4E22) son ejemplos que Unicode presenta como que difieren de manera significativa en sus formas abstractas, mientras que Unicode enumeraycomo variantes z, que difieren solo en la fuente. estilismo. Paradójicamente, Unicode considera queyson variantes z casi idénticas y al mismo tiempo las clasifica como variantes semánticas significativamente diferentes. También hay casos en los que algunos pares de caracteres son simultáneamente variantes semánticas y variantes semánticas especializadas y variantes simplificadas:(U+500B) y(U+4E2A). Hay casos de equivalencia no mutua. Por ejemplo, la entrada de la base de datos de Unihan para ( U+4E80) considera que (U+9F9C) es su variante z, pero la entrada para no enumera como variante z, aunque obviamente ya estaba en la base de datos en el momento en que se escribió la entrada para亀.

Algunos errores administrativos llevaron a la duplicación de caracteres completamente idénticos como(U+FA23) y 𧺯 (U+27EAF). Si una fuente tiene glifos codificados en ambos puntos de modo que se use una fuente para ambos, deberían parecer idénticos. Estos casos se enumeran como variantes z a pesar de no tener variación alguna. Se agregaron caracteres duplicados intencionalmente para facilitar la conversión de ida y vuelta bit a bit . Debido a que la conversión de ida y vuelta fue uno de los primeros puntos de venta de Unicode, esto significaba que si un estándar nacional en uso duplicaba innecesariamente un carácter, Unicode tenía que hacer lo mismo. Unicode llama a estas duplicaciones intencionales " variantes de compatibilidad " como con 漢 (U+FA9A) que llama a(U+6F22) su variante de compatibilidad. Siempre que una aplicación utilice la misma fuente para ambos, deberían parecer idénticos. A veces, como en el caso de U +8ECA y U+F902, el carácter de compatibilidad agregado enumera la versión ya presente de, tanto como su variante de compatibilidad como su variante z. El campo de variante de compatibilidad anula el campo de variante z, lo que obliga a la normalización en todas las formas, incluida la equivalencia canónica. A pesar del nombre, las variantes de compatibilidad son en realidad canónicamente equivalentes y están unidas en cualquier esquema de normalización Unicode y no solo bajo la normalización de compatibilidad. Esto es similar a cómo U+212B Å ANGSTROM SIGN es canónicamente equivalente a una letra precompuesta U+00C5 Å LETRA A MAYÚSCULA LATINA CON ANILLO ARRIBA . Gran parte del software (como el software MediaWiki que aloja Wikipedia) reemplazará todos los caracteres canónicamente equivalentes que no se recomiendan (por ejemplo, el símbolo angstrom) con el equivalente recomendado. A pesar del nombre, las "variantes de compatibilidad" de CJK son caracteres canónicamente equivalentes y no caracteres de compatibilidad.

漢 (U+FA9A) se agregó a la base de datos más tarde que(U+6F22) y su entrada informa al usuario la información de compatibilidad. Por otro lado,(U+6F22) no tiene esta equivalencia enumerada en esta entrada. Unicode exige que todas las entradas, una vez admitidas, no puedan cambiar la compatibilidad o equivalencia, de modo que las reglas de normalización para caracteres ya existentes no cambien.

Algunos pares de tradicional y simplificado también se consideran variantes semánticas. Según las definiciones de Unicode, tiene sentido que todas las simplificaciones (que no resulten en la fusión de caracteres completamente diferentes por su homofonía) sean una forma de variante semántica. Unicode clasificaycomo las respectivas variantes tradicionales y simplificadas de cada uno y también como sus variantes semánticas. Sin embargo, mientras Unicode clasifica(U+5104) y亿(U+4EBF) como las respectivas variantes tradicionales y simplificadas de cada uno, Unicode no consideray亿como variantes semánticas entre sí.

Unicode afirma que "lo ideal sería que no hubiera pares de variantes z en el estándar Unicode". [18] Esto haría parecer que el objetivo es al menos unificar todas las variantes menores, redundancias de compatibilidad y redundancias accidentales, dejando la diferenciación a las fuentes y a las etiquetas de idioma. Esto entra en conflicto con el objetivo declarado de Unicode de eliminar esa sobrecarga y permitir que cualquier cantidad de scripts del mundo estén en el mismo documento con un sistema de codificación. [¿ síntesis inadecuada? ] El capítulo uno del manual establece que "Con Unicode, la industria de la tecnología de la información ha reemplazado los conjuntos de caracteres proliferantes con estabilidad de datos, interoperabilidad global e intercambio de datos, software simplificado y costos de desarrollo reducidos. Si bien toma el conjunto de caracteres ASCII como punto de partida, El estándar Unicode va mucho más allá de la capacidad limitada de ASCII para codificar sólo las letras mayúsculas y minúsculas de la A a la Z. Proporciona la capacidad de codificar todos los caracteres utilizados en los idiomas escritos del mundo: se pueden codificar más de 1 millón de caracteres. Se requiere un código de secuencia o control para especificar cualquier carácter en cualquier idioma. La codificación de caracteres Unicode trata los caracteres alfabéticos, los caracteres ideográficos y los símbolos de manera equivalente, lo que significa que se pueden usar en cualquier combinación y con la misma facilidad ". [10]

Eso nos deja decidirnos por un grafema de referencia unificado para todas las variantes z, lo cual es polémico ya que pocos fuera de Japón reconoceríanycomo equivalentes. Incluso dentro de Japón, las variantes están en lados diferentes de una importante simplificación llamada Shinjitai. Unicode efectivamente haría que la simplificación de la República Popular China de(U+4FA3) y(U+4FB6) fuera una diferencia monumental en comparación. Tal plan también eliminaría las variaciones visualmente distintas de personajes como(U+76F4) y(U+96C7).

Uno esperaría que todos los caracteres simplificados fueran simultáneamente variantes z o variantes semánticas de sus contrapartes tradicionales, pero muchos no lo son. Es más fácil explicar el extraño caso de que las variantes semánticas puedan ser simultáneamente variantes semánticas y variantes especializadas cuando la definición de Unicode es que las variantes semánticas especializadas tienen el mismo significado sólo en ciertos contextos. Los idiomas los usan de manera diferente. Un par cuyos caracteres se reemplazan 100% entre sí en japonés puede no ser tan flexible en chino. Por lo tanto, cualquier fusión integral de puntos de código recomendados tendría que mantener algunas variantes que difieren sólo ligeramente en apariencia incluso si el significado es 100% igual para todos los contextos en un idioma, porque en otro idioma los dos caracteres pueden no ser 100% iguales. -en reemplazos.

Ejemplos de glifos dependientes del idioma

En cada fila de la siguiente tabla, el mismo carácter se repite en las seis columnas. Sin embargo, cada columna está marcada (por el langatributo) como en un idioma diferente: chino ( simplificado y dos tipos de tradicional ), japonés , coreano o vietnamita . El navegador debe seleccionar, para cada carácter, un glifo (de una fuente) adecuado al idioma especificado. (Además de la variación real de los caracteres (busque diferencias en el orden de los trazos, el número o la dirección), los tipos de letra también pueden reflejar diferentes estilos tipográficos, como ocurre con los alfabetos serif y no serif). Esto solo funciona para la selección de glifos alternativos si tiene fuentes CJK instaladas. en su sistema y la fuente seleccionada para mostrar este artículo no incluye glifos para estos caracteres.

Ninguna variante de carácter exclusiva del coreano o vietnamita ha recibido su propio punto de código, mientras que casi todas las variantes del japonés Shinjitai o del chino simplificado tienen puntos de código distintos y glifos de referencia inequívocos en el estándar Unicode.

En el siglo XX, los países del este de Asia crearon sus propios estándares de codificación. Dentro de cada estándar, coexistían variantes con distintos puntos de código, de ahí los distintos puntos de código en Unicode para ciertos conjuntos de variantes. Tomando el chino simplificado como ejemplo, las dos variantes de caracteres de(U+5167) y(U+5185) difieren exactamente de la misma manera que las variantes coreana y no coreana de(U+5168). Cada variante respectiva del primer carácter tiene(U+5165) o(U+4EBA). Cada variante respectiva del segundo carácter tiene(U+5165) o(U+4EBA). Ambas variantes del primer carácter obtuvieron sus propios puntos de código distintos. Sin embargo, las dos variantes del segundo carácter debían compartir el mismo punto de código.

La justificación que da Unicode es que el organismo nacional de normalización de la República Popular China creó puntos de código distintos para las dos variaciones del primer carácter/, mientras que Corea nunca creó puntos de código separados para las diferentes variantes de. Hay una razón para esto que no tiene nada que ver con cómo los cuerpos domésticos ven a los propios personajes. China pasó por un proceso en el siglo XX que cambió (si no simplificó) varios caracteres. Durante esta transición, era necesario poder codificar ambas variantes dentro del mismo documento. El coreano siempre ha usado la variante decon el radical(U+5165) encima. Por tanto, no tenía ningún motivo para codificar ambas variantes. Los documentos en idioma coreano elaborados en el siglo XX tenían pocas razones para representar ambas versiones en el mismo documento.

Casi todas las variantes que la República Popular China desarrolló o estandarizó obtuvieron puntos de código distintos debido simplemente a la suerte de que la transición del chino simplificado se prolongara hasta la era de la informática. Sin embargo, este privilegio parece aplicarse de manera inconsistente, mientras que la mayoría de las simplificaciones realizadas en Japón y China continental con puntos de código en los estándares nacionales, incluidos caracteres simplificados de manera diferente en cada país, llegaron a Unicode como puntos de código distintos.

Sesenta y dos caracteres "simplificados" de Shinjitai con distintos puntos de código en Japón se fusionaron con sus equivalentes tradicionales de Kyūjitai, como. [ cita necesaria ] Esto puede causar problemas en la estrategia de etiquetado de idiomas. No existe una etiqueta universal para las versiones tradicional y "simplificada" del japonés como sí existe para el chino. Por lo tanto, cualquier escritor japonés que desee mostrar la forma Kyūjitai depuede tener que etiquetar el carácter como "chino tradicional" o confiar en que la fuente japonesa del destinatario utiliza sólo los glifos Kyūjitai, pero es posible que sean necesarias etiquetas de chino tradicional y chino simplificado para mostrar. las dos formas una al lado de la otra en un libro de texto japonés. Sin embargo, esto impediría utilizar la misma fuente para un documento completo. Hay dos puntos de código distintos paraen Unicode, pero sólo por "razones de compatibilidad". Cualquier fuente compatible con Unicode debe mostrar los puntos de código equivalentes de las versiones Kyūjitai y Shinjitai en Unicode como iguales. Extraoficialmente, una fuente puede mostrarse de manera diferente con(U+6D77) como la versión Shinjitai y 海 (U+FA45) como la versión Kyūjitai (que es idéntica a la versión tradicional en chino y coreano escrito).

El radical(U+7CF8) se utiliza en caracteres como/, con dos variantes, siendo la segunda forma simplemente la cursiva. Los componentes radicales de(U+7D05) y(U+7EA2) son semánticamente idénticos y los glifos difieren sólo en este último usando una versión cursiva delcomponente. Sin embargo, en China continental, los organismos de normalización querían estandarizar la forma cursiva cuando se utiliza en caracteres como. Debido a que este cambio ocurrió relativamente recientemente, hubo un período de transición. Tanto(U+7D05) como(U+7EA2) obtuvieron puntos de código separados en los organismos de estándares de codificación de texto de la República Popular China para que los documentos en idioma chino pudieran usar ambas versiones. Las dos variantes también recibieron puntos de código distintos en Unicode.

El caso del radical(U+8278) demuestra cuán arbitrario es el estado de cosas. Cuando se usaba para componer caracteres como(U+8349), el radical se colocaba en la parte superior, pero tenía dos formas diferentes. Los chinos tradicionales y los coreanos utilizan una versión de cuatro tiempos. En la parte superior dedebería haber algo que parezca dos signos más ( ⺿ ). El chino simplificado, el japonés Kyūjitai y el japonés Shinjitai utilizan una versión de tres trazos, como dos signos más que comparten sus trazos horizontales ( , es decir,). Los cuerpos de codificación de texto de la República Popular China no codificaron las dos variantes de manera diferente. El hecho de que casi todos los demás cambios introducidos por la República Popular China, por menores que sean, justificaran su propio punto de código sugiere que esta excepción puede haber sido no intencional. Unicode copió los estándares existentes tal como están, preservando tales irregularidades.

El Consorcio Unicode ha reconocido errores en otros casos. Los innumerables bloques Unicode para los ideogramas CJK Han tienen redundancias en los estándares originales, redundancias provocadas por una importación defectuosa de los estándares originales, así como fusiones accidentales que luego se corrigen, sentando un precedente para la desunificación de caracteres.

Para los hablantes nativos, las variantes pueden resultar ininteligibles o inaceptables en contextos educados. Los angloparlantes pueden entender una nota escrita a mano que diga "4P5 kg" como "495 kg", pero escribir el nueve al revés (para que parezca una "P") puede resultar discordante y se consideraría incorrecto en cualquier escuela. Del mismo modo, para los usuarios de un idioma CJK que leen un documento con glifos "extranjeros": las variantes depueden aparecer como imágenes especulares, pueden faltar un trazo o tener un trazo extraño y pueden ser ilegibles para personas no japonesas. (En Japón se aceptan ambas variantes).

Ejemplos de algunos ideogramas Han no unificados

En algunos casos, a menudo donde los cambios son más llamativos, Unicode ha codificado caracteres variantes, lo que hace innecesario cambiar entre fuentes o langatributos. Sin embargo, algunas variantes con diferencias posiblemente mínimas obtienen puntos de código distintos, y no todas las variantes con cambios posiblemente sustanciales obtienen un punto de código único. Como ejemplo, tomemos un carácter como(U+5165), para el cual la única forma de mostrar las variantes es cambiar la fuente (o langatributo) como se describe en la tabla anterior. Por otro lado, para(U+5167), la variante de(U+5185) obtiene un punto de código único. Para algunos caracteres, como/(U+514C/U+5151), se puede utilizar cualquiera de los métodos para mostrar los diferentes glifos. En la siguiente tabla, cada fila compara variantes a las que se les han asignado diferentes puntos de código. Para ser breve, tenga en cuenta que las variantes de shinjitai con diferentes componentes normalmente (y como era de esperar) tendrán puntos de código únicos (por ejemplo,氣/気). No aparecerán aquí ni los caracteres chinos simplificados que toman componentes radicales consistentemente simplificados (por ejemplo,/,/). [3] Esta lista no es exhaustiva.

Base de datos de variaciones ideográficas (IVD)

Para resolver los problemas planteados por la unificación Han, se creó un estándar técnico Unicode conocido como Base de datos de variación ideográfica Unicode para resolver el problema de especificar glifos específicos en un entorno de texto sin formato. [19] Al registrar colecciones de glifos en la Base de datos de variaciones ideográficas (IVD), es posible utilizar selectores de variaciones ideográficas para formar una secuencia de variaciones ideográficas (IVS) para especificar o restringir el glifo apropiado en el procesamiento de texto en un entorno Unicode.

rangos Unicode

Los caracteres ideográficos asignados por Unicode aparecen en los siguientes bloques:

Unicode incluye soporte para radicales, trazos, puntuación, marcas y símbolos CJKV en los siguientes bloques:

En estos bloques aparecen caracteres adicionales de compatibilidad (uso desaconsejado):

Estos caracteres de compatibilidad (excluidos los doce ideogramas unificados en el bloque Ideógrafos de compatibilidad de CJK) se incluyen por compatibilidad con sistemas de manejo de texto heredados y otros conjuntos de caracteres heredados. Incluyen formas de caracteres para diseño de texto vertical y caracteres de texto enriquecido que Unicode recomienda manejar por otros medios.

Núcleo de ideogramas internacionales

El Núcleo de Ideógrafos Internacionales (IICore) es un subconjunto de 9810 ideógrafos derivados de las tablas de Ideógrafos Unificados CJK, diseñado para implementarse en dispositivos con memoria, capacidad de entrada/salida limitada y/o aplicaciones donde se utiliza el repertorio completo de ideógrafos ISO 10646. no es factible. Hay 9810 caracteres en el estándar actual. [21]

Archivos de base de datos Unihan

El proyecto Unihan siempre se ha esforzado por poner a disposición su base de datos de compilación. [2]

El proyecto libUnihan proporciona una base de datos SQLite Unihan normalizada y la biblioteca C correspondiente. [22] Todas las tablas de esta base de datos están en quinta forma normal . libUnihan se publica bajo LGPL , mientras que su base de datos, UnihanDb, se publica bajo la licencia MIT .

Ver también

Notas

  1. ^ Unihan también puede consultar la base de datos Unihan mantenida por Unicode Consortium , que proporciona información sobre todos los caracteres Han unificados codificados en el estándar Unicode, incluidas asignaciones a varios estándares nacionales e industriales, índices en diccionarios estándar, variantes codificadas y pronunciaciones en varios idiomas y una definición en inglés. La base de datos está disponible al público como archivos de texto [2] y a través de un sitio web interactivo. [3] [4] Este último también incluye glifos representativos y definiciones de palabras compuestas extraídas de los proyectos gratuitos de diccionario japonés EDICT y chino CEDICT (que se proporcionan por conveniencia y no son una parte formal del estándar Unicode).
  2. ^ Sin embargo, la mayoría de estos son caracteres heredados y obsoletos, según el objetivo de Unicode de codificar todos los sistemas de escritura que se utilizan o se han utilizado alguna vez; sólo se necesitan entre 2000 y 3000 caracteres para ser considerado alfabetizado.

Referencias

  1. ^ "Anexo n.º 38 del estándar Unicode® | BASE DE DATOS UNICODE HAN (UNIHAN)". Consorcio Unicode . 2023-09-01.
  2. ^ ab "Unihan.zip". El estándar Unicode . Consorcio Unicode.
  3. ^ ab "Búsqueda de base de datos Unihan". El estándar Unicode . Consorcio Unicode.
  4. ^ "Búsqueda en la base de datos de Unihan: búsqueda de muestra para 中". El estándar Unicode . Consorcio Unicode.
  5. ^ "Capítulo 18: Asia Oriental, principios de la unificación Han" (PDF) . El estándar Unicode . Consorcio Unicode.
  6. ^ Whistler, Ken (25 de octubre de 2010). "Nota técnica Unicode 26: sobre la codificación del latín, griego, cirílico y han".
  7. ^ "La vida secreta de Unicode". IBM . 2013-12-16. Archivado desde el original el 16 de diciembre de 2013 . Consultado el 30 de septiembre de 2023 .
  8. ^ Unicode revisitado Steven J. Searle; Webmaster, TRON Web
  9. ^ "IVD/IVS とは - 文字情報基盤整備事業". mojikiban.ipa.go.jp .
  10. ^ ab "Capítulo 1: Introducción" (PDF) . El estándar Unicode . Consorcio Unicode.
  11. ^ ab "Base de datos de variaciones ideográficas". Consorcio Unicode.
  12. ^ "Primeros años de Unicode". Consorcio Unicode.
  13. ^ Becker, Joseph D. (29 de agosto de 1998). "Unicode 88" (PDF) .
  14. ^ "Unicode en Japón: guía para una lucha técnica y psicológica". Archivado desde el original el 27 de junio de 2009.{{cite web}}: CS1 maint: unfit URL (link)
  15. ^ 小林紀興『松下電器の果し状』1章
  16. ^ Krikke, enero (15 de octubre de 2003). "El sistema operativo más popular del mundo". LinuxInsider.com .
  17. ^ 大下英治 『孫正義 起業の若き獅子』(ISBN 4-06-208718-9)pp. 285-294 
  18. ^ ab "UAX n.° 38: base de datos Unicode Han (Unihan)". www.unicode.org .
  19. ^ "UTS n.º 37: base de datos de variaciones ideográficas Unicode". www.unicode.org .
  20. ^ "URO". ccjktype.fonts.adobe.com .
  21. ^ "OGCIO: Área de descarga: Utilidad de comparación de núcleo de ideógrafos internacionales (IICORE)". www.ogcio.gov.hk .
  22. ^ Chen, Ding-Yi. "libUnihan: una biblioteca para la base de datos de caracteres Unihan en quinta forma normal". libunihan.sourceforge.net .