Las escrituras china, japonesa y coreana ( CJK ) comparten un trasfondo común, conocidos colectivamente como caracteres CJK . Durante el proceso llamado unificación Han , los caracteres comunes (compartidos) fueron identificados y denominados Ideógrafos Unificados CJK . A partir de Unicode 15.1, Unicode define un total de 97.680 caracteres. [1]
El término ideogramas es un nombre inapropiado, ya que la escritura china no es ideográfica sino logográfica .
Hasta principios del siglo XX, Vietnam también utilizaba caracteres chinos ( Chữ Nôm ), por lo que en ocasiones se utiliza la abreviatura CJKV .
El Grupo de Investigación Ideográfica (IRG) es responsable de desarrollar extensiones de los repertorios codificados de ideógrafos unificados CJK. IRG procesa propuestas para nuevos ideogramas unificados CJK presentadas por sus organismos miembros y, después de pasar por varias rondas de revisión de expertos, IRG envía un conjunto consolidado de caracteres al Grupo de Trabajo 2 (WG2) de ISO/IEC JTC 1/SC 2 y al Comité Técnico de Unicode. (UTC) para su consideración para su inclusión en los estándares ISO/IEC 10646 y Unicode . Los siguientes organismos miembros del IRG han participado en la estandarización de los ideógrafos unificados de CJK:
Los ideogramas presentados por UTC y el Reino Unido no son específicos de ninguna región en particular, sino que son caracteres cuya codificación ha sido sugerida por expertos individuales. Los ideogramas enviados por el SAT son obligatorios para la base de datos de textos del SAT Daizōkyō .
La siguiente tabla proporciona la cantidad de ideogramas unificados CJK codificados para cada fuente IRG para Unicode 15.1. [2] El número total de caracteres (224.891) supera con creces el número de ideogramas unificados CJK codificados (97.680), ya que muchos caracteres tienen más de una fuente.
La mayoría de los caracteres enviados por UTC al IRG se derivan de documentos del Comité Técnico Unicode (UTC). [3] Otras fuentes incluyen:
El bloque básico denominado CJK Unified Ideographs (4E00–9FFF) contiene 20.992 caracteres chinos básicos en el rango U+4E00 a U+9FFF. El bloque no solo incluye caracteres utilizados en el sistema de escritura chino , sino también kanji utilizados en el sistema de escritura japonés , hanja en Corea y caracteres chữ Nôm en vietnamita. Muchos caracteres de este bloque se utilizan en los tres sistemas de escritura , mientras que otros se encuentran sólo en uno o dos de los tres. Los primeros 20.902 caracteres del bloque están ordenados según el orden de radicales del Diccionario Kangxi . En este sistema, los caracteres escritos con el menor número de trazos aparecen primero. Los caracteres restantes se agregaron más tarde y, por lo tanto, no están en un orden radical.
El bloque es el resultado de la unificación Han , [4] que fue algo controvertida dentro del este de Asia. [5] Dado que los caracteres chinos, japoneses y coreanos se codificaron en la misma ubicación, la apariencia de un glifo seleccionado podría depender de la fuente particular que se utilizara. Sin embargo, la regla de separación de fuentes establece que los caracteres codificados por separado en un conjunto de caracteres anterior permanecerían separados en la nueva codificación Unicode. [6]
Usando selectores de variación , es posible especificar ciertas variantes de ideogramas CJK dentro de Unicode. [7] El conjunto de caracteres Adobe-Japan1 , que tiene 14.684 secuencias de variación ideográfica, [8] es un ejemplo extremo del uso de selectores de variación. [9]
4E00-62FF , 6300-77FF , 7800-8CFF , 8D00-9FFF .
Nota: La mayoría de los caracteres aparecen en varias fuentes, por lo que la suma de los recuentos de caracteres individuales (102 795) es mucho mayor que la cantidad de caracteres codificados (20 992). [10]
En Unicode 4.1, se asignaron 14 caracteres HKSCS-2004 y 8 GB 18030 a puntos de código U+9FA6 y U+9FBB. Desde entonces, se agregaron otras adiciones a este bloque por varias razones, todas resumidas en la sección del historial de versiones a continuación.
El bloque denominado CJK Unified Ideographs Extension A (3400–4DBF) contiene 6592 caracteres adicionales en el rango U+3400 a U+4DBF.
Nota: La mayoría de los caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (18.835) es mucho mayor que la cantidad de caracteres codificados (6.592). [10]
El bloque denominado CJK Unified Ideographs Extension B (20000–2A6DF) contiene 42.720 caracteres en el rango U+20000 a U+2A6DF. Estos incluyen la mayoría de los caracteres utilizados en el Diccionario Kangxi que no están en el bloque básico de Ideógrafos Unificados de CJK, así como muchos caracteres Hán-Nôm que se usaban anteriormente para escribir vietnamita.
20000-215FF , 21600-230FF , 23100-245FF , 24600-260FF , 26100-275FF , 27600-290FF , 29100-2A6DF .
Nota: Muchos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (74.208) es mucho mayor que la cantidad de caracteres codificados (42.720). [10]
El bloque denominado CJK Unified Ideographs Extension C (2A700–2B73F) contiene 4154 caracteres en el rango U+2A700 a U+2B739. Inicialmente se agregó en Unicode 5.2 (2009).
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (4570) es mayor que la cantidad de caracteres codificados (4154). [10]
El bloque denominado CJK Unified Ideographs Extension D (2B740–2B81F) contiene 222 caracteres en el rango U+2B740 a U+2B81D que se agregaron en Unicode 6.0 (2010).
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (229) es mayor que la cantidad de caracteres codificados (222). [10]
El bloque denominado CJK Unified Ideographs Extension E (2B820–2CEAF) contiene 5762 caracteres en el rango U+2B820 a U+2CEA1 que se agregaron en Unicode 8.0 (2015).
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (5830) es mayor que la cantidad de caracteres codificados (5762). [10]
El bloque denominado CJK Unified Ideographs Extension F (2CEB0–2EBEF) contiene 7473 caracteres en el rango U+2CEB0 a 2EBE0 que se agregaron en Unicode 10.0 (2017). Incluye más de 1.000 caracteres Sawndip para Zhuang .
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (7774) es mayor que la cantidad de caracteres codificados (7473). [10]
Se agregó un bloque denominado CJK Unified Ideographs Extension G como parte de Unicode 13.0 al plano ideográfico terciario en el rango U+30000 a U+3134F, que contiene 4939 caracteres. [13]
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (5081) es mayor que la cantidad de caracteres codificados (4939). [10]
Se agregó un bloque denominado CJK Unified Ideographs Extension H como parte de Unicode 15.0 al plano ideográfico terciario en el rango U+31350 a U+323AF, que contiene 4192 caracteres. [14]
Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (4306) es mayor que la cantidad de caracteres codificados (4192). [10]
Se agregó un bloque denominado CJK Unified Ideographs Extension I como parte de Unicode 15.1 al plano ideográfico suplementario en el rango U+2EBF0 a U+2EE5F, que contiene 622 caracteres. [15]
El bloque denominado Ideógrafos de compatibilidad CJK (F900–FAFF) se creó para conservar la compatibilidad de ida y vuelta con otros estándares.
Sin embargo, doce caracteres en este bloque en realidad tienen la propiedad "Ideógrafo unificado": U+FA0E 﨎, U+FA0F 﨏, U+FA11 﨑, U+FA13 﨓, U+FA14 﨔, U+FA1F 﨟, U+FA21 﨡, U+FA23 﨣, U+FA24 﨤, U+FA27 﨧, U+FA28 﨨 y U+FA29 﨩. [1] Ninguno de los otros caracteres en este y otros bloques de "Compatibilidad" se relacionan con la unificación de CJK.
Si bien 龜 y 亀 no se consideran unificables, no está claro por qué U+FA20 蘒 se considera equivalente a U+8612蘒 .
Nota: Todos los caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (36) es mayor que la cantidad de caracteres codificados (12). [10]
El carácter U+4039 (䀹) era una unificación de dos caracteres diferentes (uno con fonética jiā 夾 y otro con fonética shǎn 㚒) hasta Unicode 5.0. Sin embargo, eran caracteres léxicamente diferentes que no debieron estar unificados; tienen diferentes pronunciaciones y diferentes significados.
La propuesta de desunificación de U+4039 [16] fue aceptada para Unicode 5.1, codificando un nuevo carácter en U+9FC3 (鿃) para representar shǎn.
En CJK Unified Ideographs Extension B, algunos caracteres están unificados incorrectamente con otros. Estos personajes incluyen U+2017B (𠅻), U+204AF (𠒯) y U+24CB2 (𤲲). Los dos primeros caracteres contenían una unificación errónea de la fuente de su glifo de China continental y vietnamita, mientras que el último unifica los de China continental y Taiwán. [17]
También en CJK Unified Ideographs Extension B, cientos de variantes de glifos fueron codificadas por error. [18] Además, un informe ISO/IEC JTC 1/SC 2 encontró que seis duplicados exactos (donde el mismo carácter se ha codificado dos veces sin darse cuenta) y dos semiduplicados (donde el carácter CJK-B representa una desunificación de facto de dos formas de glifos unificadas en el carácter BMP correspondiente) fueron codificadas por error: [19]
Además de los diez bloques de "Ideógrafos unificados", Unicode tiene alrededor de una docena de bloques más con caracteres CJK no unificados. Se trata principalmente de radicales CJK, trazos, puntuación, marcas, símbolos y caracteres de compatibilidad. Aunque algunos personajes tienen sus contrapartes (descomponibles) en otros bloques, los usos pueden ser diferentes. Un ejemplo de un carácter CJK no unificado es U+3007〇NÚMERO IDEOGRAFICO CERO en el bloque Símbolos y puntuación CJK . Aunque no está cubierto por "Ideógrafos unificados CJK", se trata como un carácter CJK para todos los demás efectos. [20]
Se incluyen cuatro bloques de caracteres de compatibilidad para compatibilidad con sistemas de manejo de texto heredados y conjuntos de caracteres más antiguos:
Incluyen formas de caracteres para diseño de texto vertical y caracteres de texto enriquecido que Unicode recomienda manejar por otros medios. Por tanto, se desaconseja su uso.
Los bloques CJK Unified Ideographs y CJK Unified Ideographs Extension A, que forman parte del plano multilingüe básico , son compatibles con la mayoría de las fuentes CJK . Sin embargo, las fuentes japonesas y coreanas suelen tener menos caracteres (alrededor de 13.000 y 8.000, respectivamente) que las chinas. Las extensiones B, C, D son compatibles con fuentes adicionales MingLiU-ExtB, MingLiU_HKSCS-ExtB, PMingLiU-ExtB, SimSun-ExtB incluidas en Microsoft Windows desde Vista. [21]
{{cite web}}
: Mantenimiento CS1: bot: estado de la URL original desconocido ( enlace )