Ideogramas unificados del CJK

Los alfabetos chino, japonés y coreano ( CJK ) comparten un trasfondo común, conocido colectivamente como caracteres CJK . Durante el proceso denominado unificación Han , se identificaron los caracteres comunes (compartidos) y se los denominó ideogramas unificados CJK . A partir de Unicode 16.0, Unicode define un total de 97.680 caracteres. ^[1]

El término ideogramas es inapropiado, ya que la escritura china no es ideográfica sino más bien logográfica .

Hasta principios del siglo XX, Vietnam también utilizaba caracteres chinos ( Chữ Nôm ), por lo que a veces se utiliza la abreviatura CJKV .

Fuentes

El Grupo de Investigación Ideográfica (IRG) es responsable de desarrollar extensiones para los repertorios codificados de ideogramas unificados CJK. El IRG procesa las propuestas de nuevos ideogramas unificados CJK presentadas por sus organismos miembros y, después de pasar por varias rondas de revisión por parte de expertos, presenta un conjunto consolidado de caracteres al Grupo de Trabajo 2 (WG2) de ISO/IEC JTC 1/SC 2 y al Comité Técnico Unicode (UTC) para que se considere su inclusión en las normas ISO/IEC 10646 y Unicode . Los siguientes organismos miembros del IRG han participado en la estandarización de ideogramas unificados CJK:

Porcelana
Hong Kong
Japón
Corea del Sur
Corea del Norte
Macao
Taiwán , miembro de enlace representado por la Asociación de Computación de Taipei (TCA)
Vietnam
Comité Técnico Unicode (miembro de enlace)
Reino Unido
SAT (miembro de enlace)

Los ideogramas presentados por la UTC y el Reino Unido no son específicos de ninguna región en particular, sino que son caracteres que expertos individuales han sugerido para su codificación. Los ideogramas presentados por el SAT son necesarios para la base de datos de textos Daizōkyō del SAT .

La siguiente tabla muestra el número de ideogramas unificados CJK codificados para cada fuente IRG para Unicode 16.0. ^[2] El número total de caracteres (260.840) supera ampliamente el número de ideogramas unificados CJK codificados (97.680) ya que muchos caracteres tienen más de una fuente.

Fuentes UTC

La mayoría de los caracteres enviados por el UTC al IRG se derivan de documentos del Comité Técnico Unicode (UTC). ^[3] Otras fuentes incluyen:

Diccionario chino-inglés ABC de John DeFrancis
La colección de glifos Adobe-CNS1
La colección de glifos Adobe-Japan1
Una lista completa de especies y subespecies de aves chinas (中国鸟类系统检索)
El gran diccionario Nom (Đại Tự Điển Chữ Nôm)
Anotaciones a Shuowen Jiezi (anotadas por Duan Yucai )
GB18030-2000
Lista de caracteres obligatorios proporcionada por la Iglesia de Jesucristo de los Santos de los Últimos Días (Hong Kong)
Nuevo diccionario comercial (商务新词典), Hong Kong
Diccionario chino moderno (现代汉语词典), de la Academia China de Ciencias Sociales , Instituto de Investigación Lingüística, Oficina Editorial del Diccionario
Documentos del Grupo de Trabajo (GT2)

Bloques de ideogramas unificados del CJK

Ideogramas unificados del CJK

El bloque básico denominado Ideógrafos Unificados CJK (4E00–9FFF) contiene 20.992 caracteres chinos básicos en el rango U+4E00 a U+9FFF. El bloque no solo incluye caracteres utilizados en el sistema de escritura chino , sino también kanji utilizados en el sistema de escritura japonés , hanja en Corea y caracteres chữ Nôm en vietnamita. Muchos caracteres de este bloque se utilizan en los tres sistemas de escritura , mientras que otros solo se utilizan en uno o dos de los tres. Los primeros 20.902 caracteres del bloque están organizados según el orden de radicales del Diccionario Kangxi . En este sistema, los caracteres escritos con menos trazos se enumeran primero. Los caracteres restantes se agregaron más tarde, por lo que no están en orden radical.

El bloque es el resultado de la unificación Han , ^[4] que fue algo controvertida en el este de Asia. ^[5] Dado que los caracteres chinos, japoneses y coreanos se codificaban en la misma ubicación, la apariencia de un glifo seleccionado podía depender de la fuente particular que se estuviera utilizando. Sin embargo, la regla de separación de fuentes establece que los caracteres codificados por separado en un conjunto de caracteres anterior permanecerían separados en la nueva codificación Unicode. ^[6]

Mediante el uso de selectores de variación , es posible especificar ciertos ideogramas CJK variantes dentro de Unicode. ^{[7] El}conjunto de caracteres Adobe-Japan1 , que tiene 14.684 secuencias de variación ideográfica, ^[8] es un ejemplo extremo del uso de selectores de variación. ^[9]

Gráficos

4E00-62FF , 6300-77FF , 7800-8CFF , 8D00-9FFF .

Fuentes

Nota: La mayoría de los caracteres aparecen en múltiples fuentes, por lo que la suma de los recuentos de caracteres individuales (108.480) es mucho mayor que el número de caracteres codificados (20.992). ^[10]

En Unicode 4.1, se asignaron 14 caracteres HKSCS-2004 y 8 caracteres GB 18030 a los puntos de código entre U+9FA6 y U+9FBB. Desde entonces, se agregaron otras características a este bloque por diversas razones, todas resumidas en la sección de historial de versiones a continuación.

Ideogramas unificados del CJK, extensión A

El bloque denominado CJK Unified Ideographs Extension A (3400–4DBF) contiene 6.592 caracteres adicionales en el rango U+3400 a U+4DBF.

Gráficos

3400-4DBF .

Fuentes

Nota: La mayoría de los caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (23.954) es mucho mayor que el número de caracteres codificados (6.592). ^[10]

Ideogramas unificados del CJK, extensión B

El bloque denominado Extensión B de ideogramas unificados del CJK (20000–2A6DF) contiene 42.720 caracteres en el rango de U+20000 a U+2A6DF. Entre ellos se incluyen la mayoría de los caracteres utilizados en el Diccionario Kangxi que no están en el bloque básico de ideogramas unificados del CJK, así como muchos caracteres Hán-Nôm que se utilizaban anteriormente para escribir en vietnamita.

Gráficos

20000-215FF , 21600-230FF , 23100-245FF , 24600-260FF , 26100-275FF , 27600-290FF , 29100-2A6DF .

Fuentes

Nota: Muchos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (99.784) es mucho mayor que el número de caracteres codificados (42.720). ^[10]

Extensión C de los ideogramas unificados del CJK

El bloque denominado CJK Unified Ideographs Extension C (2A700–2B73F) contiene 4154 caracteres en el rango U+2A700 a U+2B739. Se agregó inicialmente en Unicode 5.2 (2009).

Gráficos

2A700-2B73F .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (4634) es mayor que el número de caracteres codificados (4154). ^[10]

Ideogramas unificados del CJK, extensión D

El bloque denominado CJK Unified Ideographs Extension D (2B740–2B81F) contiene 222 caracteres en el rango U+2B740 a U+2B81D que se agregaron en Unicode 6.0 (2010).

Gráficos

2B740–2B81F .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (239) es mayor que el número de caracteres codificados (222). ^[10]

Extensión E de los ideogramas unificados del CJK

El bloque denominado CJK Unified Ideographs Extension E (2B820–2CEAF) contiene 5.762 caracteres en el rango U+2B820 a U+2CEA1 que se agregaron en Unicode 8.0 (2015).

Gráficos

2B820–2CEAF .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (5919) es mayor que el número de caracteres codificados (5762). ^[10]

Extensión F de los ideogramas unificados del CJK

El bloque denominado Extensión F de ideogramas unificados del CJK (2CEB0–2EBEF) contiene 7473 caracteres en el rango U+2CEB0 a 2EBE0 que se agregaron en Unicode 10.0 (2017). Incluye más de 1000 caracteres Sawndip para Zhuang .

Gráficos

2CEB0–2EBEF .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (7775) es mayor que el número de caracteres codificados (7473). ^[10]

Extensión G de los ideogramas unificados del CJK

Se agregó un bloque denominado CJK Unified Ideographs Extension G como parte de Unicode 13.0 al plano ideográfico terciario en el rango U+30000 a U+3134F, que contiene 4939 caracteres. ^[13]

Gráficos

30000–3134 °F .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (5081) es mayor que el número de caracteres codificados (4939). ^[10]

Extensión H de los ideogramas unificados del CJK

Se agregó un bloque denominado CJK Unified Ideographs Extension H como parte de Unicode 15.0 al plano ideográfico terciario en el rango U+31350 a U+323AF, que contiene 4192 caracteres. ^[14]

Gráficos

31350–323AF .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (4309) es mayor que el número de caracteres codificados (4192). ^[10]

Extensión I de los ideogramas unificados del CJK

Se agregó un bloque denominado CJK Unified Ideographs Extension I como parte de Unicode 15.1 al Plano Ideográfico Suplementario en el rango U+2EBF0 a U+2EE5F, que contiene 622 caracteres. ^[15]

Gráficos

2EBF0–2EE5F .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, lo que hace que la suma de los recuentos de caracteres individuales (625) sea mayor que el número de caracteres codificados (622). ^[10]

Ideogramas de compatibilidad CJK

El bloque denominado Ideógrafos de compatibilidad CJK (F900–FAFF) se creó para conservar la compatibilidad de ida y vuelta con otros estándares.

Sin embargo, doce caracteres en este bloque en realidad tienen la propiedad "Ideógrafo unificado": U+FA0E 﨎, U+FA0F 﨏, U+FA11 﨑, U+FA13 﨓, U+FA14 﨔, U+FA1F 﨟, U+FA21 﨡, U+FA23 﨣, U+FA24 﨤, U+FA27 﨧, U+FA28 﨨 y U+FA29 﨩. ^[1] Ninguno de los otros caracteres en este y otros bloques de "Compatibilidad" se relacionan con la unificación CJK.

Si bien 龜 y 亀 no se consideran unificables, no está claro por qué U+FA20 蘒 CJK COMPATIBILITY IDEOGRAPH-FA20 se considera equivalente a U+8612蘒CJK UNIFIED IDEOGRAPH-8612 .

Gráficos

F900–FAFF .

Fuentes

Nota: Todos los caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (40) es mayor que la cantidad de caracteres codificados (12). ^[10]

Problemas conocidos

Desunificación

U+4039

El carácter U+4039 (䀹) fue una unificación de dos caracteres diferentes (uno con fonética jiā 夾 y otro con fonética shǎn 㚒) hasta Unicode 5.0. Sin embargo, eran caracteres léxicos diferentes que no deberían haberse unificado; tienen diferentes pronunciaciones y significados diferentes.

La propuesta de desunificación de U+4039 ^[16] fue aceptada para Unicode 5.1, codificando un nuevo carácter en U+9FC3 (鿃) para representar shǎn.

Otros 3 glifos en la Extensión B

En la extensión B de los ideogramas unificados del CJK, algunos caracteres están unificados incorrectamente con otros. Entre estos caracteres se encuentran U+2017B (𠅻), U+204AF (𠒯) y U+24CB2 (𤲲). Los dos primeros caracteres contenían una unificación incorrecta de la fuente china continental y vietnamita de su glifo, mientras que el último unifica las fuentes china continental y taiwanesa. ^[17]

Variantes unificables y duplicados exactos

También en CJK Unified Ideographs Extension B, cientos de variantes de glifos fueron codificadas por error. ^[18] Además, un informe ISO/IEC JTC 1/SC 2 ha descubierto que seis duplicados exactos (donde el mismo carácter ha sido codificado inadvertidamente dos veces) y dos semiduplicados (donde el carácter CJK-B representa una desunificación de facto de dos formas de glifo unificadas en el carácter BMP correspondiente) fueron codificados por error: ^[19]

U+34A8 㒨 = U+20457 𠑗 : U+20457 es el mismo glifo de origen chino para U+34A8, pero es significativamente diferente del glifo de origen taiwanés para U+34A8
U+3DB7 㶷 = U+2420E 𤈎 : mismas formas de glifos
U+8641 虁 = U+27144 𧅄 : U+27144 es el mismo glifo de origen coreano para U+8641, pero es significativamente diferente de los glifos de origen de China continental, Taiwán y Japón para U+8641.
U+204F2 𠓲 = U+23515 𣔕 : mismas formas de glifos, pero ordenadas bajo diferentes radicales
U+249BC 𤦼 = U+249E9 𤧩 : mismas formas de glifos
U+24BD2 𤯒 = U+2A415 𪐕 : mismas formas de glifos, pero ordenadas bajo diferentes radicales
U+26842 𦡂 = U+26866 𦡦 : mismas formas de glifos
U+FA23 﨣 = U+27EAF 𧺯 : mismas formas de glifos (U+FA23 﨣 es un ideograma CJK unificado, a pesar de su nombre "IDEOGRAFO DE COMPATIBILIDAD CJK-FA23").

Otros ideogramas CJK en Unicode, no Unificado

Aparte de los diez bloques de "ideogramas unificados", Unicode tiene alrededor de una docena de bloques más con caracteres CJK no unificados. Se trata principalmente de radicales CJK, trazos, signos de puntuación, marcas, símbolos y caracteres de compatibilidad. Aunque algunos caracteres tienen sus contrapartes (descomponibles) en otros bloques, los usos pueden ser diferentes. Un ejemplo de un carácter CJK no unificado es U+3007〇NÚMERO IDEOGRÁFICO CERO en el bloque Símbolos y puntuación CJK . Aunque no está cubierto por "ideogramas unificados CJK", se trata como un carácter CJK para todos los demás propósitos. ^[20]

Se incluyen cuatro bloques de caracteres de compatibilidad para lograr compatibilidad con sistemas de manejo de texto heredados y conjuntos de caracteres más antiguos:

Compatibilidad con CJK (3300–33FF)
Formularios de compatibilidad CJK (FE30–FE4F)
Ideogramas de compatibilidad CJK (F900–FAFF)
Suplemento de ideogramas de compatibilidad CJK (2F800–2FA1F)

Incluyen formas de caracteres para disposición de texto vertical y caracteres de texto enriquecido que Unicode recomienda manejar por otros medios, por lo que se desaconseja su uso.

Compatibilidad con fuentes

Los bloques CJK Unified Ideographs y CJK Unified Ideographs Extension A, que forman parte del Basic Multilingual Plane , son compatibles con la mayoría de las fuentes CJK . Sin embargo, las fuentes japonesas y coreanas suelen tener menos caracteres (unos 13.000 y 8.000, respectivamente) que las chinas. Las extensiones B, C y D son compatibles con las fuentes adicionales MingLiU-ExtB, MingLiU_HKSCS-ExtB, PMingLiU-ExtB y SimSun-ExtB incluidas en Microsoft Windows desde Vista. ^[21]

Historial de versiones de Unicode

Véase también

Notas

^ Caracteres ad hoc y no relacionados con Singapur ni con sus caracteres chinos . ^[12]

Referencias

^ ab "Unicode 16.0 UCD: PropList.txt". 2024-05-31 . Consultado el 2024-09-14 .
^ "Unicode 16.0 UCD: Unihan: Unihan_IRGSources.txt". 2024-07-31 . Consultado el 2024-09-10 .
^ Lunde, Ken (31 de julio de 2024). "UAX #45: Ideógrafos de código U". Consorcio Unicode.
^ El estándar Unicode 4.0, Apéndice A - Historia de la unificación Han
^ Suzanne Topping, "La vida secreta de Unicode". Archivado desde el original el 14 de noviembre de 2007. Consultado el 12 de mayo de 2010 .{{cite web}}: CS1 maint: bot: estado de URL original desconocido ( enlace )
^ "Capítulo 11 - Escrituras de Asia Oriental", El estándar Unicode, 4.0 .
^ "Base de datos de variación ideográfica". 13 de septiembre de 2022. Consultado el 20 de septiembre de 2022 .
^ "Estadísticas de IVD". 13 de septiembre de 2022. Consultado el 20 de septiembre de 2022 .
^ PRI 108: Registro combinado de la colección Adobe Japan1 y de las secuencias de esa colección
^ abcdefghijk "Unihan_IRGSources.txt (de Unihan.zip)". 15 de julio de 2023. Consultado el 10 de septiembre de 2024 .
^ abcdefghijk "UAX #38: Base de datos Unicode Han (Unihan)". Consorcio Unicode. 31 de julio de 2024.
^ Lunde, Ken (2009). Procesamiento de información CJKV (2.ª ed.). Sebastopol, California: O'Reilly Media, Inc. ISBN 978-0-596-15611-4.OCLC 317878469 .
^ "Unicode 13.0.0". 10 de marzo de 2020. Consultado el 10 de marzo de 2020 .
^ "Unicode 15.0.0". 13 de septiembre de 2022. Consultado el 14 de septiembre de 2022 .
^ "Unicode 15.1.0". 2023-09-12 . Consultado el 2023-09-12 .
^ Andrew West y John Jenkins, propuesta de desunificación de U+4039
^ Eiso Chan (陈永聪), Comentarios sobre cuatro glifos erróneos en los ideogramas unificados CJK Ext B y E.[1]
^ Taichi Kawabata. "IRGN1155 Posibles duplicados" (.zip) . Consultado el 22 de junio de 2019 .
^ Cook, Richard (6 de octubre de 2003). "Informe de defectos en formularios CJK codificados duplicados" (PDF) . ISO/IEC JTC1/SC2/WG2 . Consultado el 28 de marzo de 2012 .
^ GB/T 15835-2011《出版物上数字用法》. China Guojia Biaozhun. https://journals.usst.edu.cn/uploadfile/file/GBT%2015835-2011%E3%80%8A%E5%87%BA%E7%89%88%E7%89%A9%E4%B8% 8A%E6%95%B0%E5%AD%97%E7%94%A8%E6%B3%95%E3%80%8B.pdf
^ Lunde, Ken (2009). Procesamiento de Información CJKV. O'Reilly. págs. 633–634. ISBN 978-0-596-51447-1.

Enlaces externos

Ideógrafos de origen británico (documentos IRG N2107R2 e IRG N2232R)