Los alfabetos chino, japonés y coreano ( CJK ) comparten un trasfondo común, conocido colectivamente como caracteres CJK . Durante el proceso denominado unificación Han , se identificaron los caracteres comunes (compartidos) y se los denominó ideogramas unificados CJK . A partir de Unicode 16.0, Unicode define un total de 97.680 caracteres. [1]
El término ideogramas es inapropiado, ya que la escritura china no es ideográfica sino más bien logográfica .
Hasta principios del siglo XX, Vietnam también utilizaba caracteres chinos ( Chữ Nôm ), por lo que a veces se utiliza la abreviatura CJKV .
El Grupo de Investigación Ideográfica (IRG) es responsable de desarrollar extensiones para los repertorios codificados de ideogramas unificados CJK. El IRG procesa las propuestas de nuevos ideogramas unificados CJK presentadas por sus organismos miembros y, después de pasar por varias rondas de revisión por parte de expertos, presenta un conjunto consolidado de caracteres al Grupo de Trabajo 2 (WG2) de ISO/IEC JTC 1/SC 2 y al Comité Técnico Unicode (UTC) para que se considere su inclusión en las normas ISO/IEC 10646 y Unicode . Los siguientes organismos miembros del IRG han participado en la estandarización de ideogramas unificados CJK:
Los ideogramas presentados por la UTC y el Reino Unido no son específicos de ninguna región en particular, sino que son caracteres que expertos individuales han sugerido para su codificación. Los ideogramas presentados por el SAT son necesarios para la base de datos de textos Daizōkyō del SAT .
La siguiente tabla muestra el número de ideogramas unificados CJK codificados para cada fuente IRG para Unicode 16.0. [2] El número total de caracteres (260.840) supera ampliamente el número de ideogramas unificados CJK codificados (97.680) ya que muchos caracteres tienen más de una fuente.
La mayoría de los caracteres enviados por el UTC al IRG se derivan de documentos del Comité Técnico Unicode (UTC). [3] Otras fuentes incluyen:
El bloque básico denominado Ideógrafos Unificados CJK (4E00–9FFF) contiene 20.992 caracteres chinos básicos en el rango U+4E00 a U+9FFF. El bloque no solo incluye caracteres utilizados en el sistema de escritura chino , sino también kanji utilizados en el sistema de escritura japonés , hanja en Corea y caracteres chữ Nôm en vietnamita. Muchos caracteres de este bloque se utilizan en los tres sistemas de escritura , mientras que otros solo se utilizan en uno o dos de los tres. Los primeros 20.902 caracteres del bloque están organizados según el orden de radicales del Diccionario Kangxi . En este sistema, los caracteres escritos con menos trazos se enumeran primero. Los caracteres restantes se agregaron más tarde, por lo que no están en orden radical.
El bloque es el resultado de la unificación Han , [4] que fue algo controvertida en el este de Asia. [5] Dado que los caracteres chinos, japoneses y coreanos se codificaban en la misma ubicación, la apariencia de un glifo seleccionado podía depender de la fuente particular que se estuviera utilizando. Sin embargo, la regla de separación de fuentes establece que los caracteres codificados por separado en un conjunto de caracteres anterior permanecerían separados en la nueva codificación Unicode. [6]
Mediante el uso de selectores de variación , es posible especificar ciertos ideogramas CJK variantes dentro de Unicode. [7] El conjunto de caracteres Adobe-Japan1 , que tiene 14.684 secuencias de variación ideográfica, [8] es un ejemplo extremo del uso de selectores de variación. [9]
4E00-62FF , 6300-77FF , 7800-8CFF , 8D00-9FFF .
Nota: La mayoría de los caracteres aparecen en múltiples fuentes, por lo que la suma de los recuentos de caracteres individuales (108.480) es mucho mayor que el número de caracteres codificados (20.992). [10]
En Unicode 4.1, se asignaron 14 caracteres HKSCS-2004 y 8 caracteres GB 18030 a los puntos de código entre U+9FA6 y U+9FBB. Desde entonces, se agregaron otras características a este bloque por diversas razones, todas resumidas en la sección de historial de versiones a continuación.
El bloque denominado CJK Unified Ideographs Extension A (3400–4DBF) contiene 6.592 caracteres adicionales en el rango U+3400 a U+4DBF.
Nota: La mayoría de los caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (23.954) es mucho mayor que el número de caracteres codificados (6.592). [10]
El bloque denominado Extensión B de ideogramas unificados del CJK (20000–2A6DF) contiene 42.720 caracteres en el rango de U+20000 a U+2A6DF. Entre ellos se incluyen la mayoría de los caracteres utilizados en el diccionario Kangxi que no están en el bloque básico de ideogramas unificados del CJK, así como muchos caracteres Hán-Nôm que se utilizaban anteriormente para escribir en vietnamita.
20000-215FF , 21600-230FF , 23100-245FF , 24600-260FF , 26100-275FF , 27600-290FF , 29100-2A6DF .
Nota: Muchos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (99.784) es mucho mayor que el número de caracteres codificados (42.720). [10]
El bloque denominado Extensión C de ideogramas unificados CJK (2A700–2B73F) contiene 4154 caracteres en el rango U+2A700 a U+2B739. Se agregó inicialmente en Unicode 5.2 (2009).
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (4634) es mayor que el número de caracteres codificados (4154). [10]
El bloque denominado CJK Unified Ideographs Extension D (2B740–2B81F) contiene 222 caracteres en el rango U+2B740 a U+2B81D que se agregaron en Unicode 6.0 (2010).
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (239) es mayor que el número de caracteres codificados (222). [10]
El bloque denominado CJK Unified Ideographs Extension E (2B820–2CEAF) contiene 5.762 caracteres en el rango U+2B820 a U+2CEA1 que se agregaron en Unicode 8.0 (2015).
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (5.919) es mayor que el número de caracteres codificados (5.762). [10]
El bloque denominado Extensión F de ideogramas unificados del CJK (2CEB0–2EBEF) contiene 7473 caracteres en el rango U+2CEB0 a 2EBE0 que se agregaron en Unicode 10.0 (2017). Incluye más de 1000 caracteres Sawndip para Zhuang .
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (7775) es mayor que el número de caracteres codificados (7473). [10]
Se agregó un bloque denominado CJK Unified Ideographs Extension G como parte de Unicode 13.0 al plano ideográfico terciario en el rango U+30000 a U+3134F, que contiene 4939 caracteres. [13]
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (5081) es mayor que el número de caracteres codificados (4939). [10]
Se agregó un bloque denominado CJK Unified Ideographs Extension H como parte de Unicode 15.0 al plano ideográfico terciario en el rango U+31350 a U+323AF, que contiene 4192 caracteres. [14]
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (4309) es mayor que el número de caracteres codificados (4192). [10]
Se agregó un bloque denominado CJK Unified Ideographs Extension I como parte de Unicode 15.1 al Plano Ideográfico Suplementario en el rango U+2EBF0 a U+2EE5F, que contiene 622 caracteres. [15]
Nota: Algunos caracteres aparecen en más de una fuente, lo que hace que la suma de los recuentos de caracteres individuales (625) sea mayor que el número de caracteres codificados (622). [10]
El bloque denominado Ideógrafos de compatibilidad CJK (F900–FAFF) se creó para conservar la compatibilidad de ida y vuelta con otros estándares.
Sin embargo, doce caracteres en este bloque en realidad tienen la propiedad "Ideógrafo unificado": U+FA0E 﨎, U+FA0F 﨏, U+FA11 﨑, U+FA13 﨓, U+FA14 﨔, U+FA1F 﨟, U+FA21 﨡, U+FA23 﨣, U+FA24 﨤, U+FA27 﨧, U+FA28 﨨 y U+FA29 﨩. [1] Ninguno de los otros caracteres en este y otros bloques de "Compatibilidad" se relacionan con la unificación CJK.
Si bien 龜 y 亀 no se consideran unificables, no está claro por qué U+FA20 蘒 CJK COMPATIBILITY IDEOGRAPH-FA20 se considera equivalente a U+8612蘒CJK UNIFIED IDEOGRAPH-8612 .
Nota: Todos los caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (40) es mayor que la cantidad de caracteres codificados (12). [10]
El carácter U+4039 (䀹) fue una unificación de dos caracteres diferentes (uno con fonética jiā 夾 y otro con fonética shǎn 㚒) hasta Unicode 5.0. Sin embargo, eran caracteres léxicos diferentes que no deberían haberse unificado; tienen pronunciaciones y significados diferentes.
La propuesta de desunificación de U+4039 [16] fue aceptada para Unicode 5.1, codificando un nuevo carácter en U+9FC3 (鿃) para representar shǎn.
En la extensión B de los ideogramas unificados del CJK, algunos caracteres están unificados incorrectamente con otros. Estos caracteres incluyen U+2017B (𠅻), U+204AF (𠒯) y U+24CB2 (𤲲). Los dos primeros caracteres contenían una unificación incorrecta de la fuente china continental y vietnamita de su glifo, mientras que el último unifica las fuentes china continental y taiwanesa. [17]
También en CJK Unified Ideographs Extension B, cientos de variantes de glifos fueron codificadas por error. [18] Además, un informe ISO/IEC JTC 1/SC 2 ha descubierto que seis duplicados exactos (donde el mismo carácter ha sido codificado inadvertidamente dos veces) y dos semiduplicados (donde el carácter CJK-B representa una desunificación de facto de dos formas de glifo unificadas en el carácter BMP correspondiente) fueron codificados por error: [19]
Aparte de los diez bloques de "ideogramas unificados", Unicode tiene alrededor de una docena de bloques más con caracteres CJK no unificados. Se trata principalmente de radicales CJK, trazos, signos de puntuación, marcas, símbolos y caracteres de compatibilidad. Aunque algunos caracteres tienen sus contrapartes (descomponibles) en otros bloques, los usos pueden ser diferentes. Un ejemplo de un carácter CJK no unificado es U+3007〇NÚMERO IDEOGRÁFICO CERO en el bloque Símbolos y puntuación CJK . Aunque no está cubierto por "ideogramas unificados CJK", se trata como un carácter CJK para todos los demás propósitos. [20]
Se incluyen cuatro bloques de caracteres de compatibilidad para lograr compatibilidad con sistemas de manejo de texto heredados y conjuntos de caracteres más antiguos:
Incluyen formas de caracteres para disposición de texto vertical y caracteres de texto enriquecido que Unicode recomienda manejar por otros medios, por lo que se desaconseja su uso.
Los bloques CJK Unified Ideographs y CJK Unified Ideographs Extension A, que forman parte del Basic Multilingual Plane , son compatibles con la mayoría de las fuentes CJK . Sin embargo, las fuentes japonesas y coreanas suelen tener menos caracteres (unos 13.000 y 8.000, respectivamente) que las chinas. Las extensiones B, C y D son compatibles con las fuentes adicionales MingLiU-ExtB, MingLiU_HKSCS-ExtB, PMingLiU-ExtB y SimSun-ExtB incluidas en Microsoft Windows desde Vista. [21]
{{cite web}}
: CS1 maint: bot: estado de URL original desconocido ( enlace )