CJK Unified Ideographs Extension I es un bloque Unicode que comprende CJK Unified Ideographs incluidos en borradores de una enmienda al estándar GB 18030 de China que circuló en 2022 y 2023, que se aceleraron a Unicode en 2023.
A diferencia de la mayoría de los otros conjuntos de ideógrafos unificados de CJK, la Extensión I no fue preparada ni presentada por el Grupo de Investigación Ideográfica (IRG). [3]
GB 18030 es una norma nacional obligatoria de la República Popular China (RPC). Define un formato de transformación Unicode que conserva la compatibilidad con los datos existentes en las codificaciones de caracteres GBK y EUC-CN anteriores , y especifica caracteres Unicode particulares que deben admitir los dispositivos vendidos en China. [4] Su edición de 2022, GB 18030-2022 , cambió una cantidad de caracteres requeridos para asignarlos a puntos de código Unicode estándar , en lugar de puntos de código de área de uso privado .
A finales de 2022, la República Popular China puso a disposición del público para consulta pública un borrador de una nueva enmienda que se introducirá en GB 18030. Este borrador habría colocado 897 nuevos caracteres sinográficos en el Plano 10 ( hexadecimal : 0A), un plano Unicode astral aún sin título . [5] Esto fue motivado por una "fuerte necesidad de certificación del nombre real de los ciudadanos en China". [6] Dado que afectaría a ISO/IEC 10646 (el conjunto de caracteres codificados universales, el estándar ISO sincronizado con Unicode), el borrador se distribuyó en ISO/IEC JTC 1/SC 2 , el subcomité de ISO responsable de ISO 10646. Los chinos El organismo nacional sostuvo que "ISO/IEC 10646 no especifica el propósito del avión 0A", que ISO 10646 indica como "reservado para futura estandarización", y que este uso, por lo tanto, "no era inapropiado". [5]
Sin embargo, dado que la intención de ISO 10646 era que el Plano 10 se reservara para una futura asignación por parte de ISO 10646 y Unicode a través de su proceso de votación habitual, y no que fuera asignado unilateralmente por los organismos nacionales de normalización, esta medida propuesta fue criticada por expertos y otros organismos nacionales como uno que "desestabilizaría la sincronización" entre GB 18030 e ISO/IEC 10646 (y por lo tanto Unicode), y que haría imposible cumplir con ambos con una sola implementación, [5] bifurcando efectivamente Unicode. En su reunión de marzo de 2023, el IRG enfatizó la importancia de proporcionar cualquier borrador de enmienda posterior al GB 18030 a los expertos del IRG de manera oportuna y de no "utilizar el estándar ISO/IEC 10646 de manera inapropiada". [7]
Como alternativa, el repertorio (finalmente reducido a 622 caracteres después de la revisión de expertos) se aceleró a la versión 15.1 de Unicode en septiembre de 2023, como bloque CJK Unified Ideographs Extension I. [5] Los caracteres constituyen la fuente Unihan "GIDC23" , [8] definida como procedente del "sistema de identificación del Ministerio de Seguridad Pública de China, 2023". [9] El bloque de la Extensión D de Ideógrafos Unificados de CJK fue citado como precedente, ya que comprendía un repertorio de caracteres de necesidad urgente (UNC) de los organismos miembros del IRG, mientras que el conjunto de trabajo del IRG inicialmente programado para convertirse en la Extensión D se convertiría en cambio en la Extensión E. . [10] Para mayor compacidad, el bloque se asignó al espacio disponible en el Plano Ideográfico Suplementario después de la Extensión F de Ideógrafos Unificados CJK , a diferencia del Plano Ideográfico Terciario después de la Extensión H de Ideógrafos Unificados CJK ; esto significa que los bloques de extensión CJK ya no están en orden alfabético por letra de extensión. [11] Después de esto, el proyecto de enmienda GB 18030 se modificó para utilizar los puntos del código de la Extensión I. [6]
En su próxima reunión en octubre de 2023, el IRG expresó su preocupación por eludir el IRG para grandes colecciones de caracteres CJK, y señaló que dos de los caracteres en la Extensión I, para los propósitos de las fuentes de caracteres de otras regiones, se habían unificado previamente con los existentes. personajes bajo las reglas de unificación del IRG: [3] [12]
En respuesta, el IRG recomendó que, en el futuro, se exija a los remitentes de personajes CJK propuestos que proporcionen información sobre el impacto en otras fuentes de caracteres CJK de cualquier desunificación propuesta por la presentación, y que se le dé tiempo al IRG para revisar todas las presentaciones grandes de Personajes CJK. El IRG alentó al organismo chino a proponer soluciones a los problemas causados por la adición de estos dos caracteres en la próxima reunión del IRG. [3]
Los siguientes documentos relacionados con Unicode registran el propósito y el proceso de definir caracteres específicos en el bloque CJK Unified Ideographs Extension I:
Para mantener los rangos de bloques CJK lo más compactos posible, se agregó la Extensión I al Plano 2, en lugar de directamente después de la Extensión H en el Plano 3. Los implementadores también deben verificar que su código no asuma que todas las extensiones CJK ocurren en orden alfabético según el carta de extensión.