KPS 9566 (" Conjunto de caracteres gráficos coreanos estándar de la RPDC para el intercambio de información ") [2] es un estándar norcoreano que especifica una codificación de caracteres para el sistema de escritura Chosŏn'gŭl (Hangul) utilizado para el idioma coreano . La edición de 1997 especificaba un juego de caracteres codificados de dos bytes de 94 × 94 compatible con ISO 2022 . Las ediciones posteriores han agregado caracteres codificados adicionales fuera del plano 94 × 94, de manera comparable a UHC o GBK . [3]
KPS 9566 difiere en enfoque de KS X 1001 , su contraparte surcoreana , en el uso de un orden diferente de Chosŏn'gŭl, [4] en la codificación de formas de puntuación de presentación vertical explícita, en no codificar Hanja duplicado para lecturas múltiples y en incluir varios caracteres específicos del sistema político norcoreano, incluidas codificaciones especiales para los nombres de los líderes pasados y presentes del país ( Kim Il Sung , Kim Jong Il y Kim Jong Un ). [1] [2] [3] [5]
Aunque KPS 9566 fue la fuente original de varios caracteres agregados a Unicode , [6] no todos los caracteres KPS 9566 tienen equivalentes Unicode. Aquellos que no lo hacen se asignan a caracteres Unicode similares o al Área de uso privado . [7]
El conjunto de caracteres ASCII se originó en los Estados Unidos en 1963 y fue revisado en 1967 hasta alcanzar la forma que tiene hoy. [8] ASCII también fue aceptado como estándar internacional en 1967, convirtiéndose en ECMA-6, [8] designado ISO/IEC 646 por la Organización Internacional de Normalización . [9] Actualmente se denomina ANSI X3.4-1986 e ISO 646:1991. [10] ASCII era una codificación de un solo byte de 7 bits que incluía 94 caracteres gráficos, el espacio y 33 códigos de control , que proporcionaba soporte básico para representar texto en inglés americano como una serie de bytes. [8] [10]
La siguiente edición de ISO 646, publicada en 1972, revisó la norma para introducir el concepto de versiones nacionales del código, permitiendo a los países reemplazar algunos códigos menos utilizados con sus propios caracteres requeridos. Al mismo tiempo, se estaba trabajando en la definición de mecanismos de extensión para ASCII, con la intención de que fuera aplicable tanto a entornos de 7 como de 8 bits. Esto se completó en 1973 y se publicó como JIS X 0202 , ECMA-35 e ISO 2022 . [11] ISO 2022 especifica mecanismos para utilizar conjuntos de caracteres de un solo byte y de varios bytes con una determinada estructura en entornos de 7 y 8 bits, y para declarar y cambiar entre ellos de forma estándar utilizando códigos de desplazamiento y secuencias de escape. . [12]
Los países del este de Asia , debido al uso de grandes repertorios de caracteres chinos , introdujeron codificaciones estandarizadas de doble byte (DBCS) para sus sistemas de escritura, ya que la cantidad de caracteres representables en un código de un solo byte no era suficiente. En un DBCS compatible con ISO 2022, cada carácter se puede representar con dos bytes de caracteres de impresión ASCII; se puede hacer referencia a la ubicación de un carácter mediante estos valores de bytes, o mediante dos números del 1 al 94 (a kuten ), iguales a los bytes respectivos menos 32. [13] El primer DBCS registrado que cumple con ISO 2022 y el primer DBCS de Asia Oriental DBCS, que se estableció como estándar nacional, fue la primera edición de JIS X 0208 (Japón), publicada en 1978. [14] [15] A esta le siguió GB 2312 (China continental) en 1980, y el código Wansung (Sur Corea; designado por primera vez KS C 5601-1987) en 1987. [16] [15] Big5 (Taiwán), definido en 1984, no siguió la estructura ISO 2022. [16] Cuando se usaba en un entorno de 8 bits (en lugar de 7 bits), GB 2312 y el código Wansung generalmente se usaban con el octavo bit configurado, con ASCII o un SBCS similar usado con el octavo bit no configurado; estos esquemas de codificación se conocen como EUC-CN y EUC-KR , respectivamente. [17]
Aunque el sistema de escritura coreano incluye símbolos individuales ( jamo ) para consonantes y vocales, que sirven como alfabeto , el texto coreano está correctamente compuesto con estos símbolos compuestos en bloques para cada sílaba. El código Wansung incluía bloques de sílabas coreanas individuales por separado, tratándolos como un gran conjunto de caracteres de manera similar a Hanja , [18] y fue definido por primera vez en la tercera edición del estándar surcoreano KS C 5601. La primera edición había definido una codificación de sílabas individuales. jamo, que permitía codificar bloques de sílabas como secuencias, se denominó Hangul de N bytes y no se había adoptado tan ampliamente como se esperaba. [19] [20]
El código Wansung no codificaba todas las posibles sílabas coreanas modernas, sólo una selección de las 2350 más comunes, [2] aunque permitía especificarlas mediante secuencias combinadas, que a menudo no eran compatibles. [18] Se creó una codificación alternativa, también surcoreana, llamada Johab , que sirvió como competidor de Wansung durante algún tiempo. [19] Código Hangul Unificado (UHC), introducido por Microsoft con Windows 95 , EUC-KR extendido, que permite el uso de códigos EUC de doble byte no válidos para representar todas las demás sílabas disponibles en Johab. [18] La codificación GBK de chino continental adoptó un enfoque similar , ampliando GB 2312 con soporte para chino tradicional y caracteres chinos menos comunes codificándolos en códigos de doble byte no válidos en EUC-CN . [dieciséis]
Corea del Sur no fue el único país que desarrolló un DBCS ISO 2022 para coreano: el GB 12052 para chino continental se publicó en 1989. No estaba estrechamente relacionado con el código Wansung, aunque también incluía sílabas compuestas. En cambio, correspondía a GB 2312 con sílabas coreanas (y 94 hanja ) reemplazando los caracteres chinos, excepto por la inclusión de un signo de dólar en lugar de un signo de yuan. Fue desarrollado para uso de la minoría coreana en el noreste de China. [2]
Asimismo, Corea del Norte desarrolló KPS 9566. Aunque Corea del Norte y Corea del Sur utilizan el Chosŏn'gŭl (Hangul) coreano como su sistema de escritura principal, utilizan diferentes órdenes lexicográficos . [21] Por lo tanto, el orden de los caracteres difiere entre el código Wansung y KPS 9566. [4]
KPS 9566 ha pasado por varias revisiones, incluidas las ediciones de 1997 y 2003, [22] principalmente para mejorar la compatibilidad con Unicode . Normalmente se indican especificando el año (por ejemplo, KPS 9566-97, 9566-2003). La edición actual a partir del lanzamiento de Red Star OS 3.0 parece ser KPS 9566-2011, que agrega a Kim Jong Un a la lista de líderes. [3] El cuadro de códigos disponible públicamente para la edición de 1997 de KPS 9566 muestra un plano ISO 2022 94 × 94. [23] Las ediciones más recientes, a partir de qué fuentes de información están disponibles fuera de la propia Corea del Norte, parecen definir asignaciones adicionales fuera del plano EUC (de manera similar a GBK o UHC). [3]
Debido a los problemas de interoperabilidad que surgen del uso de múltiples codificaciones de caracteres patentadas estándar nacionales y específicas de plataformas o fuentes, el estándar Unicode se desarrolló con la intención de permitir que todo el texto representable se intercambie en un formato único y universal. La primera edición de Unicode se publicó en 1991 y 1992, [24] e ISO/IEC 10646 se estableció en sincronía con Unicode en 1993. [25] Los formatos Unicode son preferidos para uso internacional en la World Wide Web , donde las codificaciones de caracteres heredadas son tratados como codificaciones parciales de Unicode mediante archivos de mapeo. [26] [27]
En principio, KPS 9566 es similar al conjunto de caracteres Wansung definido por el estándar surcoreano KS X 1001 , aunque ambos no son compatibles. Ambos codifican una sección de puntuación, símbolos, jamo , kana y caracteres alfabéticos, seguida de un subconjunto de las posibles sílabas Chosŏn'gŭl modernas, seguidas de una sección de Hanja . [2] Sin embargo, KPS 9566 utiliza un orden diferente de jamo y sílabas para cumplir con los estándares de ordenamiento lexicográfico de Corea del Norte . [4] KPS 9566 también incluye 28 caracteres de puntuación rotados explícitamente para tipografía vertical, lo que KS X 1001 no incluye, y codifica cada Hanja solo una vez, mientras que KS X 1001 codifica varios Hanja con múltiples lecturas varias veces. [2]
KPS 9566-97 codifica un total de 2679 sílabas Chosŏn'gŭl y 4653 Hanja. Esto proporciona una mejor cobertura que las 2350 sílabas codificadas por el código Wansung: por ejemplo, el carácter 똠 usado en el nombre de 똠방각하 , una destacada obra literaria coreana, no tiene un punto de código Wansung asignado, pero tiene uno (38-02) en KPS 9566. [2] La sección Hanja incluye 4652 caracteres del Repertorio y Ordenamiento Unificados y uno de la Extensión A de Ideógrafos Unificados de CJK . La totalidad de la fila 15, la segunda mitad de la fila 44 (después del bloque de sílabas) y la segunda mitad de la fila 94 (después del bloque Hanja) se pueden utilizar para fines definidos por el usuario. [23] [2]
KPS 9566 se distingue especialmente por la inclusión de varios personajes especiales de la vida política de Corea del Norte. En concreto, incluye el emblema del martillo, la hoz y el cepillo del Partido de los Trabajadores de Corea , tanto sin círculos como con círculos [7] (puntos de código 12-01 y 12-02), [23] y dos grupos de tres caracteres con fines especiales. que detallan los nombres de los líderes norcoreanos Kim Il Sung ( 김일성 ) y Kim Jong Il ( 김정일 ) en una fuente decorativa especial (puntos de código 04-72 a 04-74 y 04-75 a 04-77, respectivamente). [28] Las sílabas de Kim e Il, que son idénticas en la ortografía de ambos nombres, están codificadas dos veces. KPS 9566-2011 incluye además el nombre de Kim Jong Un ( 김정은 ) como puntos de código 04-78 a 04-80. [3] [5]
Debido a estos caracteres especiales, actualmente no existe compatibilidad total de ida y vuelta entre KPS 9566 y Unicode, a menos que los caracteres no admitidos estén asignados al Área de uso privado . [1]
Corea del Norte también desarrolló un segundo conjunto de caracteres, KPS 10721 " Código del conjunto Hanja coreano complementario para el intercambio de información ", que se publicó en 2000. KPS 10721 codifica un conjunto de al menos 19469 Hanja [2] adicionales a los incluidos en KPS 9566 A partir de 2009 [actualizar], no todos tenían asignaciones a Unicode, pero incluían 10358 del Repertorio y Ordenamiento Unificado , 3187 de la Extensión A de Ideógrafos Unificados de CJK y 107 de los Ideógrafos de Compatibilidad de CJK (todos en el Plano Multilingüe Básico ), así como 5767. de la Extensión B de Ideógrafos Unificados de CJK y 50 del Suplemento de Ideógrafos de Compatibilidad de CJK (en el Plano Ideográfico Suplementario ). [2] Todos los KPS 9566 Hanja también están incluidos en KPS 10721, [29] que utiliza una estructura de codificación diferente, no relacionada con ISO 2022.
Además del mapeo de estos Hanja (excluidos los que también están en KPS 9566) [29] a Unicode, se sabía poco sobre el estándar KPS 10721 fuera de Corea del Norte [2] [5] antes de 2022. Se proporcionaron glifos de referencia de Corea del Norte solo para un subconjunto de estos Hanja en las tablas de códigos Unicode, debido a la falta de datos de fuentes adecuados disponibles para el Consorcio Unicode. [30] [29] Los caracteres Unicode Hanja con fuentes KPS 9566 o KPS 10721 tienen, no obstante, referencias cruzadas a sus códigos KPS en la base de datos Unihan con la clave kIRG_KPSource
; los códigos fuente de Unihan utilizan "KP0" para referirse a KPS 9566 y "KP1" para KPS 10721. [31]
En 2022, se aisló una fuente Hanja de la aplicación de Android Okpyon de Corea del Norte , que se utilizó para corregir algunos errores en los datos cartográficos de KPS-10721 a Unicode y para proporcionar nuevos glifos de referencia de Corea del Norte para los gráficos de códigos Unicode; Al hacerlo, también se dedujeron las asignaciones de KPS 9566 Hanja a KPS 10721. [29] [32] Los glifos de referencia existentes se actualizaron en Unicode 15 en septiembre de 2022, [33] mientras que CJK y Unihan Group del Consorcio Unicode recomendaron en noviembre de 2022 que el Comité Técnico de Unicode incluyera los glifos de referencia adicionales en la próxima versión de Unicode. , [34] se incluirá en Unicode 15.1 en septiembre de 2023. [35]
La cobertura inicial de Unicode de las sílabas coreanas , agregada en la versión 1.0, se basó en el código Wansung. En Unicode versión 2.0, se agregó un nuevo bloque de sílabas coreanas (el actual bloque de sílabas Hangul ), basado en el repertorio de sílabas disponible en Johab, y se eliminó el bloque anterior (ahora está ocupado por la Extensión A de Ideógrafos Unificados de CJK ). Esto se hizo bajo el supuesto de que aún no existían datos coreanos codificados en Unicode, pero se conoció como el "lío coreano", y los comités responsables se comprometieron a no realizar un cambio tan incompatible en el futuro, [36] una promesa codificada por el Política de estabilidad Unicode. [37]
La tabla de códigos para KPS 9566-97, publicada en abril de 1997, [2] se envió al Registro Internacional ISO de Juegos de Caracteres Codificados para su registro para su uso con ISO/IEC 2022 . Fue registrado en junio de 1998 con el número ISO-IR-202 . Este cuadro de códigos está disponible públicamente en la Sociedad de Procesamiento de Información de Japón . [23]
En agosto de 1999, el organismo nacional norcoreano presentó un documento al WG2 ( ISO/IEC JTC 1/SC 2 Working Group 2), organismo ISO responsable de ISO/IEC 10646 , la norma internacional correspondiente a Unicode . Este documento solicitaba la adición de los códigos KPS 9566 a las referencias cruzadas existentes de las tablas de ideogramas unificados de CJK , la adición de 80 caracteres de símbolo de KPS 9566 que no tenían asignaciones Unicode existentes, una resolución a la diferencia en el orden de clasificación entre KPS 9566 y Unicode (debido al orden de los caracteres en Unicode siguiendo las codificaciones de Corea del Sur) y la adición de 8 combinando jamo. También solicitó que el WG2 editara el carácter Unicode existente y los nombres de los bloques para utilizar el término "carácter coreano" en lugar de "Hangul". [38] En diciembre de 1999 se presentó como tema de trabajo una versión ampliada de esta propuesta, dividida en varios documentos. [39]
El representante sueco presentó una respuesta detallada en marzo de 2000, oponiéndose a varios de los puntos y explicando el voto de Suecia en contra de la propuesta. Esta respuesta afirmaba que volver a cambiar la codificación de los caracteres coreanos causaría una alteración importante, incluso más que la primera vez, lo que se hizo cuando existían comparativamente pocas implementaciones, pero que, en retrospectiva, no debería haberse hecho. Explicó que pocos o ninguno de los idiomas se pueden cotejar correctamente por valor de punto de código, y que para ese fin se debería utilizar una adaptación para el algoritmo de cotejo Unicode o ISO/IEC 14651 (en ese momento en redacción), y que los nombres normativos de los caracteres ya Los idiomas asignados no se pueden cambiar debido a la política de estabilidad, aunque se pueden emplear traducciones no normativas a otros idiomas. Sugirió que el propio organismo norcoreano podría proporcionar un archivo de mapeo legible por máquina entre Unicode y KPS 9566, y sería más útil que una referencia cruzada impresa en el documento estándar. Con respecto a los caracteres adicionales propuestos, la respuesta indicó que no deberían agregarse caracteres que tendrían descomposiciones de compatibilidad en Unicode y que no deberían agregarse logotipos, incluidos los de partidos políticos, ni caracteres especiales para nombres de personas en particular. [40]
En julio de 2000, el organismo norcoreano escribió al WG2, acusándolo de desarrollar ambas versiones de la codificación Unicode para coreano basándose únicamente en propuestas de Corea del Sur, sin consultar a Corea del Norte, acusándolo de poner en riesgo los intereses comerciales de las empresas y los temores de las autoridades internacionales. confusión sobre el respeto a la soberanía de Corea del Norte, y afirmando que Corea del Norte consideraría una mayor negativa a cambiar el nombre y el orden de los caracteres coreanos en Unicode como un insulto a su dignidad soberana y como un compromiso para las pretensiones de imparcialidad de la ISO . Reiteraron su demanda de que WG2 y Unicode "corrijan" el orden de los caracteres coreanos y "corrijan" los nombres "Hangul Jamo" y "Hangul Syllable" por "Alfabeto coreano" y "Sílaba coreana". [4]
En agosto de 2000, el organismo nacional norcoreano presentó una versión más detallada de sus solicitudes en una serie de cinco propuestas consecutivas. Estos solicitaron la adición de 14 caracteres jamo adicionales, [41] la adición de 82 caracteres simbólicos, [42] y el uso del término "alfabeto coreano" en lugar de "Hangul", [43] proporcionaron evidencia de respaldo para la recopilación de Corea del Norte. orden, [21] y solicitó la adición del repertorio norcoreano Hanja. [44] Estas propuestas fueron discutidas en dos reuniones entre representantes norcoreanos, surcoreanos , suecos y otros representantes del WG2 en septiembre de 2000, en las que se pidió al organismo norcoreano que proporcionara evidencia manuscrita de los caracteres jamo adicionales, para volver a presentar su propuesta de símbolos con se eliminaron los símbolos que ya habían sido aceptados en Unicode, y considerar el uso de ISO/IEC 14651 , entonces en la etapa de borrador final, para propósitos de cotejo. [45]
En septiembre de 2001, el organismo nacional de Corea del Norte presentó una serie revisada de propuestas solicitando la adición de varios caracteres KPS 9566 y KPS 10721, incluidos 70 caracteres de símbolo, a Unicode. [46] [47] En esta versión de la propuesta, se incluyó una sección de extractos de documentos que demuestran el uso de varios caracteres y breves explicaciones de su propósito. El símbolo del Partido de los Trabajadores de Corea fue denominado "Hoz, Martillo y Cepillo", [46] renombrado como "Marca del Partido de los Trabajadores de Corea" en versiones anteriores de la propuesta, [42] y se justificó su uso como símbolo. Símbolo de identificación en los mapas. [46] Como justificación de los caracteres propuestos para los nombres de los líderes, explicaron que los nombres de los líderes a menudo aparecen con un tamaño y peso de fuente diferente en las publicaciones de Corea del Norte con el fin de dar énfasis. [46] Un seguimiento realizado por representantes del WG2 de Corea del Sur solicitó evidencia, nombres en coreano y justificaciones para agregar algunos de estos caracteres, y señaló que ya existían versiones sin énfasis de los caracteres para los nombres de los líderes. [48] En octubre de 2001 se convocó una reunión de representantes de Corea del Norte y del Sur del WG2, en la que se recomendó agregar 47 de los caracteres simbólicos a Unicode, y se sugirió que los nombres de los líderes y los símbolos del WPK se plantearan para una mayor discusión en el WG2. [49]
Un documento de comentarios posterior de febrero de 2002 sobre las adiciones propuestas por Corea del Norte solicitó que el símbolo de "té" para una casa de té fuera aceptado como un símbolo más general de "bebida caliente", equiparándolo con los símbolos utilizados en las guías para indicar bebidas calientes o no alcohólicas. bebidas. También recomendó que se modificara el glifo de referencia del punto de código existente para un paraguas sin lluvia a fin de armonizarlo con el glifo de referencia propuesto para el paraguas con lluvia, equiparándolos con los símbolos de "mantener seco" utilizados en los envases, y planteó la cuestión de cuáles Los símbolos de advertencia de rayo y alto voltaje en las colecciones de símbolos existentes podrían unificarse con el carácter propuesto de "alto voltaje". [50] Estos tres caracteres fueron aceptados en Unicode en la versión 4.0. [51] También recomendó que las fracciones con barras horizontales y las tijeras que apuntan hacia la izquierda se codificaran utilizando un selector de variación , ya que las tijeras no acompañaban a un par de tijeras orientadas de manera diferente, y dado que los puntos de código de fracción Unicode existentes unificaban las fracciones sesgadas. y formas horizontales. [50]
En noviembre de 2002, el organismo surcoreano publicó un conjunto de tablas de tres entradas que asignan caracteres entre las normas KPS 9566, KS X 1001 (como EUC-KR) e ISO/IEC 10646 tal como existían en 2000. Estas tablas se habían preparado sin aportes de Corea del Norte. [52]
En agosto de 2004, un individuo que usaba el nombre "ooprojlover" envió al proyecto OpenOffice.org un par de tablas de mapeo entre KPS 9566-2003 y Unicode , quien afirmó que representaban la versión actualizada del estándar KPS 9566 y solicitó que se agregue soporte. [22] Estos archivos asignaron los caracteres no disponibles en Unicode al Área de uso privado e incluyeron formas codificadas adicionales para otros bloques de sílabas fuera del plano principal ISO-IR-202. Posteriormente, el Consorcio Unicode publicó una tabla de mapeo en 2011, basada en estos datos de mapeo, pero con errores corregidos con referencia al gráfico ISO-IR. [1]
Las copias de Red Star OS 3.0 incluyen fuentes para una edición más reciente de KPS 9566, que parece ser KPS 9566-2011. La tabla de mapeo utilizada internamente por Red Star OS se ha extraído con éxito. Además de agregar a Kim Jong Un a la lista de líderes, KPS 9566-2011 modifica las asignaciones de ciertas formas verticales en comparación con las asignaciones de 2003 (aprovechando el bloque de Formas verticales agregado en Unicode 4.1), y también incluye varios Hanja y símbolos codificados adicionales. fuera del plano ISO-IR-202. Varios de estos símbolos adicionales también están asignados al Área de Uso Privado; sin embargo, se desconoce su identidad, ya que no se conocen nombres ni glifos de referencia para esos personajes fuera de Corea del Norte. [3]
Se agregaron varios caracteres Unicode actuales a Unicode 4.0 como resultado de las propuestas de Corea del Norte, aunque no siempre en los puntos de código propuestos originalmente. Estos incluyen BEBIDA CALIENTE (☕, propuesta como SÍMBOLO DE TÉ), que se propuso como símbolo en el mapa para marcar una casa de té , y los símbolos de bandera BANDERA BLANCA (⚐) y BANDERA NEGRA (⚑), que se propusieron como símbolos en el mapa para sitios. de batallas y victorias militares. [6] Estos caracteres fueron propuestos para los puntos de código provisionales U+270A, U+268E y U+268F respectivamente, [49] pero codificados en los puntos de código finales U+2615, U+2690 y U+2691 respectivamente. [53] También incluyen una serie de flechas direccionales en negrita en el rango U+2B05 a U+2B0D, [49] excluyendo una flecha hacia la derecha, que se asignó a un carácter existente en el bloque Dingbats , [54] que se agregaron en los mismos puntos de código para los que fueron propuestos, además de que las flechas noreste y noroeste se intercambiaron en comparación con la propuesta. [55]
Otros personajes pictográficos que se incluyeron en la propuesta norcoreana incluyen el paraguas con gotas de lluvia (☔), el rayo de alto voltaje (⚡) y el triángulo de advertencia (⚠). [49] Después de una discusión sobre qué otros glifos de símbolos de alto voltaje en uso representaban el mismo carácter que el de la propuesta de Corea del Norte, [50] y qué glifo sería mejor incluirlo en el cuadro de códigos Unicode, [56] y tras la modificación del glifo del gráfico de códigos del carácter de paraguas existente sin lluvia (U+2602, ☂) para armonizar con el nuevo paraguas con gotas de lluvia de la propuesta de Corea del Norte, [50] [58] estos caracteres también se agregaron en Unicode 4.0 , al mismo tiempo que las banderas y el símbolo de la bebida. [51] [53] [56] Aunque se propusieron para los puntos de código provisionales U+2618, U+267F y U+267E, [49] se les asignaron los puntos de código finales U+2614, U+26A1 y U+26A0 respectivamente. . [53]
De estos caracteres, la bebida caliente, el paraguas con gotas de lluvia, el rayo y el triángulo de advertencia, y las flechas hacia arriba, hacia abajo y hacia la izquierda fueron seleccionados posteriormente como asignaciones de los conjuntos de emojis móviles japoneses , [59] haciendo un total de siete emoji Unicode actuales que se agregaron originalmente a Unicode a pedido de Corea del Norte. El paraguas con gotas de lluvia y las flechas hacia arriba, hacia abajo y hacia la izquierda también se unificaron con caracteres de las extensiones ARIB utilizadas en la radiodifusión japonesa, [60] que incluyen varios caracteres ahora clasificados como emoji, [61] y se asignó a Unicode en Unicode 5.2. [62] Sin embargo, el par de banderas blancas y negras utilizadas como emoji o en secuencias de banderas de identidad y regionales emoji es un conjunto diferente de "ondear" agregado en Unicode 7.0 (U+1F3F3 🏳 y U+1F3F4 🏴), [63] [64] no la pareja norcoreana.
En 2018, quedaban varios caracteres KPS 9566 que no están asignados a Unicode. Estos incluyen el símbolo WPK, cuatro marcas triangulares, un par de tijeras que apuntan hacia la izquierda (excluidas porque no se había demostrado el uso contrastante con las tijeras que apuntan hacia la derecha en el bloque Dingbats ), una manícula que apunta hacia arriba en un círculo, presentación vertical formas de signos de puntuación, variantes de corchetes de cierre que incorporan puntos , variantes con barras horizontales de fracciones vulgares codificadas por separado de sus versiones inclinadas, y los nombres de los líderes. [sesenta y cinco]
En KPS 9566-97 se incluyó una marca postal japonesa con un triángulo que apunta hacia abajo, pero se eliminó en KPS 9566-2003 [1] después de que el organismo norcoreano la retirara de su propuesta Unicode para revisión [66] en respuesta a solicitudes del Sur. organismo coreano en busca de pruebas del uso del símbolo en Corea del Norte. [48] Esta marca se volvió a proponer en 2018 sobre la base de la compatibilidad con KPS 9566 y se identificó como una marca de conformidad eléctrica utilizada en Japón antes de su reemplazo por el diamante PSE . [67] Se agregó a Unicode en la versión 13.0, publicada en 2020.
La edición de 1997 de KPS 9566 se registró en el Registro internacional de conjuntos de caracteres codificados para uso con secuencias de escape como ISO-IR-202, [23] y, por lo tanto, se puede codificar utilizando ISO/IEC 2022 . Es un conjunto G de múltiples bytes de 94 n , es decir, si se usa en un código ISO 2022 de 7 bits (análogo a ISO-2022-JP o ISO-2022-KR ), los caracteres se codificarán con pares de bytes entre 0x21 y 0x7E cuando está en el modo apropiado.
Las asignaciones documentadas entre KPS 9566 y Unicode para las ediciones de 2003 [22] [1] y 2011 [3] de KPS 9566 utilizan una codificación que se asemeja a una adaptación del Código Hangul Unificado (UHC) para codificar KPS 9566 en lugar del código Wansung, con sus Las versiones actualizadas del plano ISO-IR-202 se codifican utilizando pares de bytes entre 0xA1 y 0xFE, y con otros códigos de dos bytes utilizados para sílabas que no están presentes en ISO-IR-202. El orden de las sílabas extendidas sigue el orden habitual de KPS 9566. De manera similar a UHC, utilizan bytes iniciales 0x81 y superiores, y bytes finales de los rangos 0x41–0x5A, 0x61–0x7A y 0x81–0xFE, excluyendo el rango 0xA1–0xFE si el byte principal es 0xA1 o superior. [3]
La edición de 2011 también incluye varios Hanja adicionales y símbolos codificados fuera del plano ISO-IR-202, después del rango utilizado para los bloques de sílabas extendidos. [3] Este enfoque es similar al adoptado por GBK , pero con los bytes finales que permanecen en los rangos de estilo UHC: al igual que las sílabas extendidas con bytes iniciales 0xA1 y superiores, todos usan los rangos de bytes finales 0x41–0x5A, 0x61– 0x7A y 0x81–0xA0. Los Hanja extendidos se codifican con bytes iniciales entre 0xC8 y 0xDC, los símbolos extendidos se codifican utilizando bytes iniciales entre 0xE0 y 0xEA, y los códigos extendidos con bytes iniciales entre 0xEC y 0xFE se asignan, sin espacios, al área de uso privado [3] (compárese los rangos definidos por el usuario en GBK). Varios de los caracteres de la sección de símbolos extendidos y tres de la sección Hanja también están asignados al Área de uso privado Unicode; A diferencia de los símbolos mapeados por PUA en el plano principal ISO-IR-202, se desconoce la identidad de estos caracteres. [3]
Este gráfico detalla el diseño general del plano principal del conjunto de caracteres KPS 9566 por byte inicial. [23] Para los bytes iniciales utilizados para caracteres distintos de las sílabas Chosŏn'gŭl o Hanja compuestas, se proporcionan enlaces a cuadros en esta página que enumeran los caracteres codificados bajo ese byte inicial. Para los bytes iniciales utilizados para Hanja, se proporcionan enlaces a la sección correspondiente del índice Hanja de Wikcionario .
Cuando se proporcionan dos números hexadecimales, el valor inferior a 0x7F se utiliza en una codificación de 7 bits, [a] y el valor mayor (entre 0xA1 y 0xFE) se utiliza en una codificación de estilo EUC de 8 bits . [17] Las codificaciones extendidas de 8 bits estilo UHC definidas por la edición de 2003 en adelante también utilizan los valores de bytes más grandes, entre 0xA1 y 0xFE inclusive, para el plano principal basado en ISO-IR-202. [1] [3]
Este conjunto contiene puntuación de oraciones comunes, como corchetes, comillas, comas, etc., así como formas de presentación para usar en escritura vertical. La puntuación ASCII (resaltada) se muestra a continuación asignada a puntos de código latinos básicos (consistente con artículos sobre otros conjuntos de caracteres CJK, como KS X 1001 o JIS X 0208 ), pero se asigna al bloque Halfwidth y Fullwidth Forms cuando se usa en una codificación que combina KPS 9566 con ASCII (como se define, por ejemplo, en la edición de 2003). [1]
En comparación con la asignación de 2003, la asignación de 2011 cambia las asignaciones Unicode de tres formularios de presentación verticales para aprovechar el bloque de formularios verticales introducido con Unicode 4.1. [3]
Este conjunto incluye operadores matemáticos y algunos otros símbolos como el signo comercial , el pilcrow , la nota musical , etc. La puntuación ASCII (resaltada) se muestra a continuación asignada a puntos de código latinos básicos (consistente con artículos sobre otros conjuntos de caracteres CJK), pero se asigna al bloque de formas de ancho medio y ancho completo cuando se usa en una codificación que combina KPS 9566 con ASCII . [1]
En esta fila se incluyen varios símbolos triangulares de "marcas de carretera" que denotan montañas próximas o pendientes hacia adelante o hacia un lado, pero actualmente no están incluidos en Unicode. Están asignados al Área de Uso Privado. [46]
Este conjunto incluye un subconjunto de ASCII , menos puntuación y símbolos, que comprende números arábigos occidentales y ambos casos del alfabeto latino básico . Compare la fila 3 de JIS X 0208 , que esta fila coincide exactamente. Compare y contraste la fila 3 de KS X 1001 y GB 2312 , que incluyen sus variantes nacionales completas de ISO 646 en esta fila, en lugar de solo el subconjunto alfanumérico.
Los caracteres de esta fila se muestran a continuación asignados a puntos de código de latín básico (consistente con los artículos sobre los otros conjuntos de caracteres), pero se asignan al bloque de formularios de ancho medio y ancho completo cuando se usan en una codificación que combina KPS 9566 con ASCII . [1]
Este conjunto contiene Chosŏn'gŭl jamo , así como codificaciones especiales para los nombres (a partir de 2003) de los líderes norcoreanos Kim Il Sung y Kim Jong Il . El nombre de Kim Jong Un también se incluye a partir de la edición de 2011. [3] Comparar con la fila 4 de KS X 1001 .
Los jamo de esta fila que existen en el bloque Jamo de compatibilidad Unicode Hangul (que contiene los caracteres independientes de la posición asignados desde KS X 1001) se asignan a ese bloque. El obsoleto jamo que distingue las sibilantes palatalizadas se asigna a los caracteres específicos de la posición en el bloque Hangul Jamo . [1] Por el contrario, no todos los jamo obsoletos codificados por KS X 1001 están codificados en el plano principal de KPS 9566. En la edición de 2011 de KPS 9566, algunos de los otros jamos históricos de KS X 1001 se incluyen fuera del plano principal. plano, con el byte inicial 0xEA. [3]
Las codificaciones especiales de los nombres de los líderes no están presentes en Unicode y están asignadas al Área de uso privado. Se muestran a continuación simulados con marcado.
Este conjunto incluye ambos casos de 33 letras de la escritura cirílica , suficientes para escribir el alfabeto ruso moderno y el alfabeto búlgaro , aunque otras formas de cirílico requieren letras adicionales. [72]
Compare la fila 12 de KS X 1001 y la fila 7 de JIS X 0208 , que utilizan el mismo diseño (pero en una fila diferente).
Este conjunto contiene números romanos y soporte básico para el alfabeto griego , sin signos diacríticos ni sigma final .
Compare y contraste la fila 5 de KS X 1001 (que usa los mismos caracteres pero en un diseño diferente y una fila diferente) y la fila 6 de JIS X 0208 (que usa el mismo diseño para las letras griegas, pero sin los números romanos).
Varios números encerrados en un círculo en esta fila se asignaron incorrectamente a Unicode en la edición de 2003, debido al uso de puntos de código propuestos no finales. [1] Fueron corregidos en la edición de 2011. [3]
Este conjunto contiene símbolos para unidades de medida y moneda. Los presentes en ASCII (resaltados) se muestran a continuación asignados a puntos de código latinos básicos (consistentes con artículos sobre otros conjuntos de caracteres CJK), pero se asignan al bloque Halfwidth y Fullwidth Forms cuando se usan en una codificación que combina KPS 9566 con ASCII . [1]
El signo de Kelvin fue sustituido por el signo del euro en la edición de 2003. [1] La edición de 2011 incluye una codificación alternativa del signo Kelvin en 0xE988. [3]
Compare y contraste con el repertorio de símbolos de unidades incluidos en la fila 7 de KS X 1001 .
Esta fila contiene Hiragana para su uso en el idioma japonés .
Compare la fila 10 de KS X 1001 , que utiliza el mismo diseño. Compare y contraste la fila 4 de JIS X 0208 , que también utiliza el mismo diseño, pero en una fila diferente.
Esta fila contiene Katakana para su uso en el idioma japonés . Sin embargo, la marca de vocal larga japonesa , que se utiliza en el texto katakana y se incluye en la fila 1 de JIS X 0208 , no está incluida (de manera similar a GB 2312 y KS X 1001), [73] aunque sí está incluida en KPS 9566- 2011 fuera del avión principal, en 0xEA48. [3]
Compárese la fila 11 de KS X 1001 , que utiliza el mismo diseño. Compare y contraste la fila 5 de JIS X 0208 , que también utiliza el mismo diseño, pero en una fila diferente.
Con el fin de asignar esta fila a Unicode, la flecha en negrita hacia la derecha se unificó con la flecha en negrita hacia la derecha de Zapf Dingbats (U+27A1), [54] aunque las tablas anteriores (que carecían de asignaciones para las otras flechas en negrita) la habían unificado. con U+279E, un personaje de Zapf Dingbats ligeramente diferente. [52] Dado que las flechas correspondientes en otras direcciones no se incluyeron en el bloque Dingbats , se codificaron flechas adicionales entre U+2B05 y U+2B0D para compatibilidad con KPS 9566. Estas se incorporaron a los gráficos de códigos Unicode utilizando los glifos de referencia propuestos por Organismo nacional de Corea del Norte, mientras que U+27A1 conservó su glifo de referencia basado en Zapf Dingbats. [54] Estas flechas (U+2B05 a U+2B07, más U+27A1) se eligieron en Unicode 6.0 como asignaciones para algunos de los caracteres de flecha en conjuntos de emoji celulares . [59] Posteriormente, durante la adición del repertorio Wingdings 3 en Unicode 7.0, se revisó la cobertura Unicode de los caracteres de flecha, lo que resultó en la adición de una flecha adicional hacia la derecha en U+2B95 con la intención de armonizar con los caracteres U+2B05 a U. +2B0D (en presentación de texto), ya que no se consideró apropiado cambiar el glifo de referencia para el personaje Zapf Dingbats. [54]
En ediciones anteriores de KPS 9566, como la edición de 1997, esta fila incluía tanto la marca postal de estilo japonés simple (〒) como una versión en un triángulo que apunta hacia abajo, [46] [23] que fue propuesta por el norcoreano organismo nacional para su adición a Unicode junto con los otros caracteres KPS 9566 que faltan. [46] Una respuesta de un representante de Corea del Sur , entre otras solicitudes, solicitó pruebas del uso del símbolo en Corea del Norte, señalando que la marca postal de estilo japonés no se utiliza en Corea del Sur, que utiliza un círculo 우 (es decir, ㉾) para con un propósito similar y preguntando si en Corea del Norte se utilizaba una marca postal de estilo japonés. [48] Se celebró una reunión posterior para discutir esta propuesta, a la que asistieron representantes del GT2 de Corea del Norte y del Sur; El informe de la reunión señala que el organismo norcoreano había decidido revisar el carácter antes de discutirlo más a fondo y, por lo tanto, no recomendó su consideración por parte del WG2 en su conjunto. [66] El triángulo de la marca postal se eliminó posteriormente de KPS 9566 en 2003, dejando sólo la marca postal sin incluir. [1]
El triángulo de la marca postal finalmente se agregó a Unicode en la versión 13.0, tanto por compatibilidad con el carácter heredado KPS 9566-97 como después de que la marca se identificara como un símbolo que se había utilizado para la certificación de aparatos eléctricos en Japón (como predecesor). al diamante PSE ). [67]
Ciertos caracteres de KPS 9566 en esta fila, a saber, dos formas del emblema del Partido de los Trabajadores de Corea , un par de tijeras que apuntan en una dirección diferente a las del bloque Dingbats y una manícula con un círculo que apunta hacia arriba , permanecen asignados a la Área de Uso Privado . [1]
Las flechas blancas noreste y noroeste utilizaron asignaciones Unicode intercambiadas incorrectamente en la edición de 2003. [1] Esto se corrigió en las asignaciones de la edición de 2011. [3]
Los personajes de este conjunto no estaban presentes en la versión de 1997 del conjunto de caracteres, pero se agregaron en la versión de 2003. [1] Constituyen un subconjunto del bloque Suplemento Latin-1 de Unicode (equivalente a la mitad superior del conjunto de caracteres ISO 8859-1 (Latin-1)). Esto incluye letras y símbolos romanos acentuados. Algunos de los símbolos que ya estaban incluidos se omiten, mientras que otros se duplican como contrapartes de ancho medio de las formas anteriores de ancho completo : por ejemplo, el signo no (¬, U+00AC) se representa como 0xAEAC, mientras que su forma de ancho completo (¬, U+FFE2) se representa como 0xA2D1 (en la fila 2). [1]
Esta fila se omite en el mapeo de la edición 2011 del estándar, [3] lo que indica que puede haber sido eliminada en algún momento después de la edición 2003. En cambio, el signo yen de ancho medio está codificado en 0xE98E en la edición de 2011. [3]
El espacio requerido quedaría fuera del rango de 94 caracteres, chocando con el área utilizada para las sílabas Chosŏn'gŭl extendidas cuando se usa una codificación de estilo UHC (específicamente, con la sílaba 쁲), [1] y se omite. Aunque la y con trema también queda fuera del rango de 94 caracteres y el byte de seguimiento 0xFF no se utiliza, el código 0xAEFF se le asigna en KPS 9566-2003. [1]
A los grupos de sílabas Chosŏn'gŭl precompuestos se les asignan puntos de código en un bloque ordenado continuo entre los puntos de código 16-01 y 44-47 inclusive. No a todos los grupos posibles se les asignan puntos de código. [74] Compare los diferentes pedidos y disponibilidad en KS X 1001 .
La forma codificada documentada para KPS 9566-2003 codifica el plano KPS 9566 en GR (0xA1-0xFE) y además codifica los grupos de sílabas restantes utilizando bytes iniciales en el rango 0x80-0xC2 y bytes finales en los rangos 0x41-0x5A, 0x61-0x7A. y 0x81-0xFE (donde como máximo un byte está en el rango 0xA1-0xFE), [1] de manera similar al Código Hangul Unificado pero con los clústeres omitidos y el orden de clasificación de KPS 9566, no KS X 1001 .
El Hanja en 69-09 (0xE5A9) está asignado a U+676E杮en todas las tablas documentadas; Sin embargo, los caracteres están ordenados según sus lecturas, por lo que parece que en su lugar está previsto que sea U+67FF柿. [75]
A continuación se muestran gráficos para la sección sin sílabas ni Hanja de KPS 9566-2011 fuera del plano principal. [3]
Todos los caracteres de estos conjuntos de extensiones se asignan al área de uso privado. Se desconoce su propósito. [3]
Este conjunto incluye varias flechas, en su mayoría hacia la derecha, que se asignan al bloque Unicode Dingbats y a otros lugares. [3]
Esta fila incluye varios superíndices romanos en minúsculas con bytes de seguimiento correspondientes a sus equivalentes ASCII en mayúsculas, y subíndices romanos en minúsculas con bytes de seguimiento correspondientes a sus equivalentes ASCII en minúsculas. [3]
Todos los caracteres de este conjunto de extensiones se asignan al área de uso privado, excepto 0xE884, que se asigna a U+FE30 ︰ FORMULARIO DE PRESENTACIÓN PARA LÍDER VERTICAL DE DOS PUNTOS . [3]
Este conjunto contiene símbolos de palos de naipes, varios símbolos diversos y contrapartes de ancho medio para algunos de los símbolos de moneda en la fila 8. También se incluye el signo de Kelvin , [3] que ha sido reemplazado en la fila 8 por el signo del euro . [1]
Este conjunto contiene varios signos de puntuación utilizados en Japón y algunos caracteres del bloque Jamo Unicode de compatibilidad Hangul que aún no están incluidos en la fila 4. [3] Esto comprende algunos de los caracteres jamo presentes en KS X 1001 , pero que anteriormente no estaban en KPS. 9566.
{{citation}}
: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace ){{cite web}}
: Mantenimiento CS1: URL no apta ( enlace )La RPD de Corea sugirió que revisarían este carácter más cuidadosamente antes de discutirlo nuevamente en el grupo ad hoc sobre escritura coreana o WG2.