Ideógrafos unificados de CJK

Las escrituras china, japonesa y coreana ( CJK ) comparten un trasfondo común, conocidos colectivamente como caracteres CJK . Durante el proceso llamado unificación Han , los caracteres comunes (compartidos) fueron identificados y denominados Ideógrafos Unificados CJK . A partir de Unicode 15.1, Unicode define un total de 97.680 caracteres. ^[1]

El término ideogramas es un nombre inapropiado, ya que la escritura china no es ideográfica sino logográfica .

Hasta principios del siglo XX, Vietnam también utilizaba caracteres chinos ( Chữ Nôm ), por lo que en ocasiones se utiliza la abreviatura CJKV .

Fuentes

El Grupo de Investigación Ideográfica (IRG) es responsable de desarrollar extensiones de los repertorios codificados de ideógrafos unificados CJK. IRG procesa propuestas para nuevos ideogramas unificados CJK presentadas por sus organismos miembros y, después de pasar por varias rondas de revisión de expertos, IRG envía un conjunto consolidado de caracteres al Grupo de Trabajo 2 (WG2) de ISO/IEC JTC 1/SC 2 y al Comité Técnico de Unicode. (UTC) para su consideración para su inclusión en los estándares ISO/IEC 10646 y Unicode . Los siguientes organismos miembros del IRG han participado en la estandarización de los ideógrafos unificados de CJK:

Porcelana
Hong Kong
Japón
Corea del Sur
Corea del Norte
Macao
Taiwán , miembro de enlace representado por la Taipei Computer Association (TCA)
Vietnam
Comité Técnico Unicode (miembro de enlace)
Reino Unido
SAT (miembro de enlace)

Los ideogramas presentados por UTC y el Reino Unido no son específicos de ninguna región en particular, sino que son caracteres cuya codificación ha sido sugerida por expertos individuales. Los ideogramas enviados por el SAT son obligatorios para la base de datos de textos del SAT Daizōkyō .

La siguiente tabla proporciona la cantidad de ideogramas unificados CJK codificados para cada fuente IRG para Unicode 15.1. ^[2] El número total de caracteres (224.891) supera con creces el número de ideogramas unificados CJK codificados (97.680), ya que muchos caracteres tienen más de una fuente.

fuentes UTC

La mayoría de los caracteres enviados por UTC al IRG se derivan de documentos del Comité Técnico Unicode (UTC). ^[3] Otras fuentes incluyen:

Diccionario ABC chino-inglés de John DeFrancis
La colección de glifos Adobe-CNS1
La colección de glifos de Adobe-Japan1
Una lista completa de especies y subespecies de aves chinas (中国鸟类系统检索)
El gran diccionario Nom (Đại Tự Điển Chữ Nôm)
Anotaciones a Shuowen Jiezi (anotadas por Duan Yucai )
GB18030-2000
Lista de caracteres requeridos proporcionada por la Iglesia de Jesucristo de los Santos de los Últimos Días (Hong Kong)
Nuevo diccionario comercial (商务新词典), Hong Kong
Diccionario chino moderno (现代汉语词典), de la Academia China de Ciencias Sociales , Instituto de Investigación Lingüística, Oficina Editorial del Diccionario
Documentos del Grupo de Trabajo (WG2)
Wenlin (文林) http://www.wenlin.com/

Bloques de ideogramas unificados CJK

Ideógrafos unificados de CJK

El bloque básico denominado CJK Unified Ideographs (4E00–9FFF) contiene 20.992 caracteres chinos básicos en el rango U+4E00 a U+9FFF. El bloque no solo incluye caracteres utilizados en el sistema de escritura chino , sino también kanji utilizados en el sistema de escritura japonés , hanja en Corea y caracteres chữ Nôm en vietnamita. Muchos caracteres de este bloque se utilizan en los tres sistemas de escritura , mientras que otros se encuentran sólo en uno o dos de los tres. Los primeros 20.902 caracteres del bloque están ordenados según el orden de radicales del Diccionario Kangxi . En este sistema, los caracteres escritos con el menor número de trazos aparecen primero. Los caracteres restantes se agregaron más tarde y, por lo tanto, no están en un orden radical.

El bloque es el resultado de la unificación Han , ^[4] que fue algo controvertida dentro del este de Asia. ^[5] Dado que los caracteres chinos, japoneses y coreanos se codificaron en la misma ubicación, la apariencia de un glifo seleccionado podría depender de la fuente particular que se utilizara. Sin embargo, la regla de separación de fuentes establece que los caracteres codificados por separado en un conjunto de caracteres anterior permanecerían separados en la nueva codificación Unicode. ^[6]

Usando selectores de variación , es posible especificar ciertas variantes de ideogramas CJK dentro de Unicode. ^{[7] El}conjunto de caracteres Adobe-Japan1 , que tiene 14.684 secuencias de variación ideográfica, ^[8] es un ejemplo extremo del uso de selectores de variación. ^[9]

Gráficos

4E00-62FF , 6300-77FF , 7800-8CFF , 8D00-9FFF .

Fuentes

Nota: La mayoría de los caracteres aparecen en varias fuentes, por lo que la suma de los recuentos de caracteres individuales (102 795) es mucho mayor que la cantidad de caracteres codificados (20 992). ^[10]

En Unicode 4.1, se asignaron 14 caracteres HKSCS-2004 y 8 GB 18030 a puntos de código U+9FA6 y U+9FBB. Desde entonces, se agregaron otras adiciones a este bloque por varias razones, todas resumidas en la sección del historial de versiones a continuación.

Extensión A de ideogramas unificados de CJK

El bloque denominado CJK Unified Ideographs Extension A (3400–4DBF) contiene 6592 caracteres adicionales en el rango U+3400 a U+4DBF.

Gráficos

3400-4DBF .

Fuentes

Nota: La mayoría de los caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (18.835) es mucho mayor que la cantidad de caracteres codificados (6.592). ^[10]

Extensión B de ideogramas unificados de CJK

El bloque denominado CJK Unified Ideographs Extension B (20000–2A6DF) contiene 42.720 caracteres en el rango U+20000 a U+2A6DF. Estos incluyen la mayoría de los caracteres utilizados en el Diccionario Kangxi que no están en el bloque básico de Ideógrafos Unificados de CJK, así como muchos caracteres Hán-Nôm que se usaban anteriormente para escribir vietnamita.

Gráficos

20000-215FF , 21600-230FF , 23100-245FF , 24600-260FF , 26100-275FF , 27600-290FF , 29100-2A6DF .

Fuentes

Nota: Muchos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (74.208) es mucho mayor que la cantidad de caracteres codificados (42.720). ^[10]

Extensión C de ideogramas unificados de CJK

El bloque denominado CJK Unified Ideographs Extension C (2A700–2B73F) contiene 4154 caracteres en el rango U+2A700 a U+2B739. Inicialmente se agregó en Unicode 5.2 (2009).

Gráficos

2A700-2B73F .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (4570) es mayor que la cantidad de caracteres codificados (4154). ^[10]

Extensión D de ideogramas unificados de CJK

El bloque denominado CJK Unified Ideographs Extension D (2B740–2B81F) contiene 222 caracteres en el rango U+2B740 a U+2B81D que se agregaron en Unicode 6.0 (2010).

Gráficos

2B740–2B81F .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (229) es mayor que la cantidad de caracteres codificados (222). ^[10]

Extensión E de ideogramas unificados de CJK

El bloque denominado CJK Unified Ideographs Extension E (2B820–2CEAF) contiene 5762 caracteres en el rango U+2B820 a U+2CEA1 que se agregaron en Unicode 8.0 (2015).

Gráficos

2B820–2CEAF .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (5830) es mayor que la cantidad de caracteres codificados (5762). ^[10]

Extensión F de ideogramas unificados de CJK

El bloque denominado CJK Unified Ideographs Extension F (2CEB0–2EBEF) contiene 7473 caracteres en el rango U+2CEB0 a 2EBE0 que se agregaron en Unicode 10.0 (2017). Incluye más de 1.000 caracteres Sawndip para Zhuang .

Gráficos

2CEB0–2EBEF .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (7774) es mayor que la cantidad de caracteres codificados (7473). ^[10]

Extensión G de ideogramas unificados de CJK

Se agregó un bloque denominado CJK Unified Ideographs Extension G como parte de Unicode 13.0 al plano ideográfico terciario en el rango U+30000 a U+3134F, que contiene 4939 caracteres. ^[13]

Gráficos

30000–3134F .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (5081) es mayor que la cantidad de caracteres codificados (4939). ^[10]

Extensión H de ideogramas unificados de CJK

Se agregó un bloque denominado CJK Unified Ideographs Extension H como parte de Unicode 15.0 al plano ideográfico terciario en el rango U+31350 a U+323AF, que contiene 4192 caracteres. ^[14]

Gráficos

31350–323AF .

Fuentes

Nota: Algunos caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (4306) es mayor que la cantidad de caracteres codificados (4192). ^[10]

Extensión I de ideogramas unificados de CJK

Se agregó un bloque denominado CJK Unified Ideographs Extension I como parte de Unicode 15.1 al plano ideográfico suplementario en el rango U+2EBF0 a U+2EE5F, que contiene 622 caracteres. ^[15]

Gráficos

2EBF0–2EE5F .

Fuentes

Ideografías de compatibilidad con CJK

El bloque denominado Ideógrafos de compatibilidad CJK (F900–FAFF) se creó para conservar la compatibilidad de ida y vuelta con otros estándares.

Sin embargo, doce caracteres en este bloque en realidad tienen la propiedad "Ideógrafo unificado": U+FA0E 﨎, U+FA0F 﨏, U+FA11 﨑, U+FA13 﨓, U+FA14 﨔, U+FA1F 﨟, U+FA21 﨡, U+FA23 﨣, U+FA24 﨤, U+FA27 﨧, U+FA28 﨨 y U+FA29 﨩. ^[1] Ninguno de los otros caracteres en este y otros bloques de "Compatibilidad" se relacionan con la unificación de CJK.

Si bien 龜 y 亀 no se consideran unificables, no está claro por qué U+FA20 蘒 se considera equivalente a U+8612蘒 .

Gráficos

F900–FAFF .

Fuentes

Nota: Todos los caracteres aparecen en más de una fuente, por lo que la suma de los recuentos de caracteres individuales (36) es mayor que la cantidad de caracteres codificados (12). ^[10]

Problemas conocidos

Desunificación

U+4039

El carácter U+4039 (䀹) era una unificación de dos caracteres diferentes (uno con fonética jiā 夾 y otro con fonética shǎn 㚒) hasta Unicode 5.0. Sin embargo, eran caracteres léxicamente diferentes que no debieron estar unificados; tienen diferentes pronunciaciones y diferentes significados.

La propuesta de desunificación de U+4039 ^[16] fue aceptada para Unicode 5.1, codificando un nuevo carácter en U+9FC3 (鿃) para representar shǎn.

Otros 3 glifos en la Extensión B

En CJK Unified Ideographs Extension B, algunos caracteres están unificados incorrectamente con otros. Estos personajes incluyen U+2017B (𠅻), U+204AF (𠒯) y U+24CB2 (𤲲). Los dos primeros caracteres contenían una unificación errónea de la fuente de su glifo de China continental y vietnamita, mientras que el último unifica los de China continental y Taiwán. ^[17]

Variantes unificables y duplicados exactos

También en CJK Unified Ideographs Extension B, cientos de variantes de glifos fueron codificadas por error. ^[18] Además, un informe ISO/IEC JTC 1/SC 2 encontró que seis duplicados exactos (donde el mismo carácter se ha codificado dos veces sin darse cuenta) y dos semiduplicados (donde el carácter CJK-B representa una desunificación de facto de dos formas de glifos unificadas en el carácter BMP correspondiente) fueron codificadas por error: ^[19]

U+34A8 㒨 = U+20457 𠑗 : U+20457 es el mismo que el glifo de origen chino para U+34A8, pero es significativamente diferente del glifo de origen de Taiwán para U+34A8
U+3DB7 㶷 = U+2420E 𤈎: mismas formas de glifos
U+8641 虁 = U+27144 𧅄 : U+27144 es el mismo que el glifo de origen coreano para U+8641, pero es significativamente diferente de los glifos de origen de China continental, Taiwán y Japón para U+8641.
U+204F2 𠓲 = U+23515 𣔕: mismas formas de glifos, pero ordenadas bajo diferentes radicales
U+249BC 𤦼 = U+249E9 𤧩: mismas formas de glifos
U+24BD2 𤯒 = U+2A415 𪐕: mismas formas de glifos, pero ordenadas bajo diferentes radicales
U+26842 𦡂 = U+26866 𦡦: mismas formas de glifos
U+FA23 﨣 = U+27EAF 𧺯: mismas formas de glifos (U+FA23 﨣 es un ideograma CJK unificado, a pesar de su nombre "CJK COMPATIBILITY IDEOGRAPH-FA23.")

Otros ideogramas de CJK en Unicode, no unificados

Además de los diez bloques de "Ideógrafos unificados", Unicode tiene alrededor de una docena de bloques más con caracteres CJK no unificados. Se trata principalmente de radicales CJK, trazos, puntuación, marcas, símbolos y caracteres de compatibilidad. Aunque algunos personajes tienen sus contrapartes (descomponibles) en otros bloques, los usos pueden ser diferentes. Un ejemplo de un carácter CJK no unificado es U+3007〇NÚMERO IDEOGRAFICO CERO en el bloque Símbolos y puntuación CJK . Aunque no está cubierto por "Ideógrafos unificados CJK", se trata como un carácter CJK para todos los demás efectos. ^[20]

Se incluyen cuatro bloques de caracteres de compatibilidad para compatibilidad con sistemas de manejo de texto heredados y conjuntos de caracteres más antiguos:

Compatibilidad CJK (3300–33FF)
Formularios de compatibilidad CJK (FE30–FE4F)
Ideógrafos de compatibilidad CJK (F900–FAFF)
Suplemento de ideogramas de compatibilidad CJK (2F800–2FA1F)

Incluyen formas de caracteres para diseño de texto vertical y caracteres de texto enriquecido que Unicode recomienda manejar por otros medios. Por tanto, se desaconseja su uso.

Soporte de fuentes

Los bloques CJK Unified Ideographs y CJK Unified Ideographs Extension A, que forman parte del plano multilingüe básico , son compatibles con la mayoría de las fuentes CJK . Sin embargo, las fuentes japonesas y coreanas suelen tener menos caracteres (alrededor de 13.000 y 8.000, respectivamente) que las chinas. Las extensiones B, C, D son compatibles con fuentes adicionales MingLiU-ExtB, MingLiU_HKSCS-ExtB, PMingLiU-ExtB, SimSun-ExtB incluidas en Microsoft Windows desde Vista. ^[21]

Historial de versiones Unicode

Ver también

Notas

^ Caracteres ad hoc y no relacionados con Singapur o sus caracteres chinos . ^[12]

Referencias

^ ab "Unicode 15.1 UCD: PropList.txt". 2023-08-01 . Consultado el 12 de septiembre de 2023 .
^ "Unicode 15.1 UCD: Unihan: Unihan_IRGSources.txt". 2023-07-15 . Consultado el 24 de enero de 2024 .
^ Lunde, Ken (17 de julio de 2023). "UAX n.° 45: ideogramas de fuente U". Consorcio Unicode.
^ El estándar Unicode 4.0, Apéndice A: Historia de la unificación Han
^ Suzanne Topping, "La vida secreta de Unicode". Archivado desde el original el 14 de noviembre de 2007 . Consultado el 12 de mayo de 2010 .{{cite web}}: Mantenimiento CS1: bot: estado de la URL original desconocido ( enlace )
^ "Capítulo 11: Escrituras de Asia oriental", El estándar Unicode, 4.0 .
^ "Base de datos de variaciones ideográficas". 2022-09-13 . Consultado el 20 de septiembre de 2022 .
^ "Estadísticas de DIV". 2022-09-13 . Consultado el 20 de septiembre de 2022 .
^ PRI 108: registro combinado de la colección Adobe Japan1 y de secuencias de esa colección
^ abcdefghij "Unihan_IRGSources.txt (de Unihan.zip)". 2023-07-15 . Consultado el 12 de septiembre de 2023 .
^ abcdefghijk "UAX n.° 38: base de datos Unicode Han (Unihan)". Consorcio Unicode. 2023-09-01.
^ Lunde, Ken (2009). Procesamiento de información CJKV (2ª ed.). Sebastopol, California: O'Reilly Media, Inc. ISBN 978-0-596-15611-4. OCLC 317878469.
^ "Unicode 13.0.0". 10 de marzo de 2020 . Consultado el 10 de marzo de 2020 .
^ "Unicode 15.0.0". 13 de septiembre de 2022 . Consultado el 14 de septiembre de 2022 .
^ "Unicode 15.1.0". 2023-09-12 . Consultado el 12 de septiembre de 2023 .
^ Andrew West y John Jenkins, propuesta de desunificación de U+4039
^ Eiso Chan (陈永聪), Comentarios sobre cuatro glifos de error en CJK Unified Ideographs Ext B & E.[1]
^ Taichi Kawabata. "IRGN1155 Posibles duplicados" (.zip) . Consultado el 22 de junio de 2019 .
^ Cook, Richard (6 de octubre de 2003). "Informe de defectos en formularios CJK codificados duplicados" (PDF) . ISO/CEI JTC1/SC2/WG2 . Consultado el 28 de marzo de 2012 .
^ GB/T 15835-2011《出版物上数字用法》. China Guojia Biaozhun. https://journals.usst.edu.cn/uploadfile/file/GBT%2015835-2011%E3%80%8A%E5%87%BA%E7%89%88%E7%89%A9%E4%B8% 8A%E6%95%B0%E5%AD%97%E7%94%A8%E6%B3%95%E3%80%8B.pdf
^ Lunde, Ken (2009). Procesamiento de Información CJKV. O'Reilly. págs. 633–634. ISBN 978-0-596-51447-1.

enlaces externos

Ideógrafos de origen británico (Documentos IRG N2107R2 e IRG N2232R)