stringtranslate.com

Número de registro 9566

KPS 9566 (" Conjunto de caracteres gráficos coreanos estándar de la RPDC para el intercambio de información ") [2] es un estándar norcoreano que especifica una codificación de caracteres para el sistema de escritura Chosŏn'gŭl (Hangul) utilizado para el idioma coreano . La edición de 1997 especificó un conjunto de caracteres codificados de dos bytes de 94×94 compatible con ISO 2022. Las ediciones posteriores han agregado caracteres codificados adicionales fuera del plano 94×94, de una manera comparable a UHC o GBK . [3]

El KPS 9566 difiere en su enfoque de KS X 1001 , su contraparte surcoreana , en el uso de un orden diferente de Chosŏn'gŭl, [4] en la codificación de formas de presentación verticales explícitas de puntuación, en no codificar Hanja duplicado para múltiples lecturas y en la inclusión de varios caracteres específicos del sistema político norcoreano, incluidas codificaciones especiales para los nombres de los líderes pasados ​​y presentes del país ( Kim Il Sung , Kim Jong Il y Kim Jong Un ). [1] [2] [3] [5]

Aunque KPS 9566 fue la fuente original de varios caracteres añadidos a Unicode , [6] no todos los caracteres de KPS 9566 tienen equivalentes Unicode. Los que no los tienen se asignan a caracteres Unicode similares o al Área de uso privado . [7]

Antecedentes y otras normas

El conjunto de caracteres ASCII se originó en los Estados Unidos en 1963 y fue revisado en 1967 hasta alcanzar la forma que tiene hoy. [8] ASCII también fue aceptado como estándar internacional en 1967, convirtiéndose en ECMA-6, [8] designado ISO/IEC 646 por la Organización Internacional de Normalización . [9] Actualmente se lo designa ANSI X3.4-1986 e ISO 646:1991. [10] ASCII era una codificación de un solo byte de 7 bits que incluía 94 caracteres gráficos, el espacio y 33 códigos de control , que proporcionaban soporte básico para representar texto en inglés estadounidense como una serie de bytes. [8] [10]

La siguiente edición de la ISO 646, publicada en 1972, revisó la norma para introducir el concepto de versiones nacionales del código, lo que permitía a los países sustituir algunos códigos menos utilizados por sus propios caracteres obligatorios. Al mismo tiempo, se estaba trabajando en la definición de mecanismos de extensión para ASCII, con la intención de que fuera aplicable tanto a entornos de 7 bits como de 8 bits. Esto se completó en 1973 y se publicó como JIS X 0202 , ECMA-35 e ISO 2022. [ 11] La ISO 2022 especifica mecanismos para utilizar conjuntos de caracteres de un solo byte y de varios bytes con una determinada estructura en entornos de 7 y 8 bits, y para declararlos y cambiar entre ellos de forma estándar utilizando códigos de desplazamiento y secuencias de escape . [12]

Los países del este de Asia , debido al uso de grandes repertorios de caracteres chinos , introdujeron codificaciones estandarizadas de doble byte (DBCS) para sus sistemas de escritura, ya que el número de caracteres representables en un código de un solo byte no era suficiente. En un DBCS compatible con ISO 2022, cada carácter puede representarse con dos bytes de caracteres de impresión ASCII; La ubicación de un carácter puede referenciarse mediante estos valores de byte, o mediante dos números del 1 al 94 (un kuten ), iguales a los bytes respectivos menos 32. [13] El primer DBCS registrado compatible con ISO 2022, y el primer DBCS de Asia Oriental que se estableció como estándar nacional, fue la primera edición de JIS X 0208 (Japón), publicada en 1978. [14] [15] A esto le siguió GB 2312 (China continental) en 1980, y el código Wansung (Corea del Sur; primero designado KS C 5601-1987) en 1987. [16] [15] Big5 (Taiwán), definido en 1984, no siguió la estructura ISO 2022. [16] Cuando se utilizaban en un entorno de 8 bits (en lugar de 7 bits), el código GB 2312 y el código Wansung se utilizaban generalmente con el octavo bit configurado, mientras que ASCII o un SBCS similar se utilizaban con el octavo bit no configurado; estos esquemas de codificación se conocen como EUC-CN y EUC-KR , respectivamente. [17]

Aunque el sistema de escritura coreano incluye símbolos individuales ( jamo ) para consonantes y vocales, que sirven como un alfabeto , el texto coreano está correctamente compuesto con estos símbolos compuestos en bloques para cada sílaba. El código Wansung incluía bloques de sílabas coreanas individuales por separado, tratándolos como un gran conjunto de caracteres de manera similar al Hanja , [18] y fue definido por primera vez por la tercera edición del estándar surcoreano KS C 5601. La primera edición había definido una codificación de jamo individual que permitía codificar bloques de sílabas como secuencias, que se denominó Hangul de N-bytes , y no había sido adoptada tan ampliamente como se pretendía. [19] [20]

El código Wansung no codificó todas las sílabas coreanas modernas posibles, sino solo una selección de las 2350 más comunes, [2] aunque permitió especificarlas mediante secuencias de combinación, que a menudo no eran compatibles. [18] Una codificación alternativa, también surcoreana, llamada Johab sí lo hizo, y sirvió como competidor de Wansung durante algún tiempo. [19] El código Hangul unificado (UHC), introducido por Microsoft con Windows 95 , amplió el EUC-KR, permitiendo el uso de códigos de doble byte EUC no válidos para representar todas las demás sílabas disponibles en Johab. [18] Un enfoque similar fue adoptado por la codificación GBK en chino continental , que amplió el GB 2312 con soporte para chino tradicional y para caracteres chinos menos comunes codificándolos en códigos de doble byte no válidos en EUC-CN . [16]

Corea del Sur no fue el único país que desarrolló un DBCS ISO 2022 para el coreano: el GB 12052 para chino continental se publicó en 1989. Este no estaba estrechamente relacionado con el código Wansung, aunque también incluía sílabas compuestas. En cambio, correspondía al GB 2312 con sílabas coreanas (y 94 Hanja ) reemplazando los caracteres chinos, excepto por la inclusión de un signo de dólar en lugar de un signo de yuan. Fue desarrollado para su uso por la minoría coreana en el noreste de China. [2]

De la misma manera, Corea del Norte desarrolló el KPS 9566. Aunque tanto Corea del Norte como Corea del Sur utilizan el coreano Chosŏn'gŭl (Hangul) como su sistema de escritura principal, utilizan diferentes órdenes lexicográficos . [21] Por lo tanto, el orden de los caracteres difiere entre el código Wansung y el KPS 9566. [4]

El KPS 9566 ha sufrido varias revisiones, incluidas las ediciones de 1997 y 2003, [22] principalmente para mejorar la compatibilidad con Unicode . Estas se indican comúnmente especificando el año (por ejemplo, KPS 9566-97, 9566-2003). La edición actual a partir del lanzamiento de Red Star OS 3.0 parece ser KPS 9566-2011, que agrega a Kim Jong Un a la lista de líderes. [3] El cuadro de códigos disponible públicamente para la edición de 1997 de KPS 9566 muestra un plano ISO 2022 de 94 × 94. [23] Las ediciones más recientes, de las fuentes de información disponibles fuera de Corea del Norte, parecen definir asignaciones adicionales fuera del plano EUC (de manera similar a GBK o UHC). [3]

Debido a los problemas de interoperabilidad que surgen del uso de múltiples estándares nacionales y codificaciones de caracteres patentadas específicas de la plataforma o de la fuente, el estándar Unicode se desarrolló con la intención de permitir que todo el texto representable se intercambiara en un formato único y universal. La primera edición de Unicode se publicó en 1991 y 1992, [24] y la ISO/IEC 10646 se estableció en sincronía con Unicode en 1993. [25] Los formatos Unicode son los preferidos para el uso internacional en la World Wide Web , donde las codificaciones de caracteres heredadas se tratan como codificaciones parciales de Unicode por medio de archivos de mapeo. [26] [27]

Diseño

En principio, el KPS 9566 es similar al conjunto de caracteres Wansung definido por el estándar surcoreano KS X 1001 , aunque los dos no son compatibles. Ambos codifican una sección de puntuación, símbolos, jamo , kana y caracteres alfabéticos, seguidos de un subconjunto de las posibles sílabas modernas Chosŏn'gŭl, seguidas de una sección de Hanja . [2] Sin embargo, el KPS 9566 utiliza un orden diferente de jamo y sílabas para cumplir con los estándares de ordenamiento lexicográfico de Corea del Norte . [4] El KPS 9566 también incluye 28 caracteres de puntuación rotados explícitamente para tipografía vertical, lo que el KS X 1001 no hace, y codifica cada Hanja solo una vez, mientras que el KS X 1001 codifica varios Hanja con múltiples lecturas varias veces. [2]

El código KPS 9566-97 codifica un total de 2679 sílabas Chosŏn'gŭl y 4653 Hanja. Esto proporciona una mejor cobertura que las 2350 sílabas codificadas por el código Wansung: por ejemplo, el carácter 똠 ​​utilizado en el nombre de 똠방각하 , una destacada obra literaria coreana, no tiene un punto de código Wansung asignado, pero tiene uno (38-02) en el código KPS 9566. [2] La sección Hanja incluye 4652 caracteres del Repertorio y Ordenamiento Unificados y uno de la Extensión A de Ideógrafos Unificados del CJK . La totalidad de la fila 15, la segunda mitad de la fila 44 (después del bloque de sílabas) y la segunda mitad de la fila 94 (después del bloque Hanja) se pueden utilizar para fines definidos por el usuario. [23] [2]

El KPS 9566 se distingue especialmente por la inclusión de varios caracteres especiales de la vida política norcoreana. En concreto, incluye el emblema del Partido de los Trabajadores de Corea , la hoz, el martillo y el pincel, tanto sin círculo como con un círculo [7] (puntos de código 12-01 y 12-02), [23] y dos grupos de tres caracteres especiales que deletrean los nombres de los líderes norcoreanos Kim Il Sung ( 김일성 ) y Kim Jong Il ( 김정일 ) en una fuente decorativa especial (puntos de código 04-72 a 04-74 y 04-75 a 04-77, respectivamente). [28] Las sílabas de Kim e Il, que son idénticas en la ortografía de ambos nombres, están codificadas dos veces. El KPS 9566-2011 incluye además el nombre de Kim Jong Un ( 김정은 ) como puntos de código 04-78 a 04-80. [3] [5]

Debido a estos caracteres especiales, actualmente no existe compatibilidad total entre KPS 9566 y Unicode, a menos que los caracteres no admitidos se asignen al Área de uso privado . [1]

Número de registro de la empresa KPS 10721

Corea del Norte también desarrolló un segundo conjunto de caracteres, KPS 10721 " Código del conjunto suplementario de hanja coreano para el intercambio de información ", que se publicó en 2000. KPS 10721 codifica un conjunto de al menos 19469 hanja [2] adicionales a los incluidos en KPS 9566. A partir de 2009 , estos no todos tenían asignaciones a Unicode, pero incluían 10358 del Repertorio y ordenamiento unificados , 3187 de CJK Unified Ideographs Extension A y 107 de CJK Compatibility Ideographs (todos en el Plano multilingüe básico ), así como 5767 de CJK Unified Ideographs Extension B y 50 de CJK Compatibility Ideographs Supplement (en el Plano ideográfico suplementario ). [2] Todos los Hanja KPS 9566 también están incluidos en KPS 10721, [29] que utiliza una estructura de codificación diferente, no relacionada con ISO 2022.

Aparte del mapeo de estos Hanja (excluyendo aquellos también en KPS 9566) [29] a Unicode, poco se sabía sobre el estándar KPS 10721 fuera de Corea del Norte [2] [5] antes de 2022. Los glifos de referencia de Corea del Norte se proporcionaron solo para un subconjunto de estos Hanja en las tablas de códigos Unicode, debido a la falta de datos de fuentes adecuados disponibles para el Consorcio Unicode. [30] [29] No obstante, los caracteres Unicode Hanja con fuentes KPS 9566 o KPS 10721 están referenciados de forma cruzada con sus códigos KPS en la base de datos Unihan con la clave kIRG_KPSource; los códigos fuente Unihan usan "KP0" para referirse a KPS 9566 y "KP1" para KPS 10721. [31]

En 2022, se aisló una fuente Hanja de la aplicación norcoreana Okpyon para Android , que se utilizó para corregir algunos errores en los datos de mapeo de KPS-10721 a Unicode y para proporcionar nuevos glifos de referencia norcoreanos para las tablas de códigos Unicode; al hacerlo, también se dedujeron los mapeos de KPS 9566 Hanja a KPS 10721. [29] [32] Los glifos de referencia existentes se actualizaron en Unicode 15 en septiembre de 2022, [33] mientras que el Grupo CJK y Unihan del Consorcio Unicode recomendó en noviembre de 2022 que el Comité Técnico Unicode incluyera los glifos de referencia adicionales en la próxima versión de Unicode, [34] que se incluiría en Unicode 15.1 en septiembre de 2023. [35]

Documentación y relación con Unicode

La cobertura inicial de sílabas coreanas de Unicode , agregada en la versión 1.0, se basó en el código Wansung. En la versión 2.0 de Unicode, se agregó un nuevo bloque de sílabas coreanas (el actual bloque de sílabas Hangul ), basado en el repertorio de sílabas disponible en Johab, y se eliminó el bloque anterior (ahora está ocupado por CJK Unified Ideographs Extension A ). Esto se hizo bajo el supuesto de que aún no existían datos coreanos codificados en Unicode, pero se conoció como el "lío coreano", y los comités responsables se comprometieron a no realizar un cambio tan incompatible en el futuro, [36] una promesa codificada por la Política de estabilidad de Unicode. [37]

El cuadro de códigos para KPS 9566-97, publicado en abril de 1997, [2] se presentó al Registro Internacional de Conjuntos de Caracteres Codificados de la ISO para su registro para su uso con la ISO/IEC 2022. Se registró en junio de 1998 con el número ISO-IR-202 . Este cuadro de códigos está disponible públicamente en la Sociedad de Procesamiento de la Información de Japón . [23]

En agosto de 1999, el organismo nacional de Corea del Norte presentó un documento al WG2 ( Grupo de trabajo 2 de ISO/IEC JTC 1/SC 2 ), el organismo de la ISO responsable de la ISO/IEC 10646 , la norma internacional correspondiente a Unicode . Este documento solicitaba la adición de los códigos KPS 9566 a las referencias cruzadas existentes de los gráficos de ideogramas unificados CJK , la adición de 80 caracteres simbólicos de KPS 9566 que no tenían asignaciones Unicode existentes, una resolución a la diferencia en el orden de intercalación entre KPS 9566 y Unicode (debido al orden de los caracteres en Unicode siguiendo las codificaciones de Corea del Sur) y la adición de 8 jamo de combinación. También solicitaba que el WG2 editara los nombres de caracteres y bloques Unicode existentes para utilizar el término "carácter coreano" en lugar de "Hangul". [38] Una versión ampliada de esta propuesta, dividida en varios documentos, se presentó como tema de trabajo en diciembre de 1999. [39]

En marzo de 2000, el representante sueco presentó una respuesta detallada en la que se oponía a varios de los puntos y explicaba en detalle el voto de Suecia en contra de la propuesta. En esa respuesta se afirmaba que volver a cambiar la codificación de los caracteres coreanos causaría grandes trastornos, incluso más que la primera vez, que se hizo cuando existían relativamente pocas implementaciones, pero que, en retrospectiva, no se debería haber hecho. Se explicaba que pocos o ningún idioma se puede cotejar correctamente por valor de punto de código y que para ese fin se debería utilizar una adaptación del algoritmo de cotejo Unicode o de la norma ISO/IEC 14651 (que se estaba redactando en ese momento) y que los nombres normativos de los caracteres ya asignados no se pueden cambiar, debido a la política de estabilidad, aunque se pueden emplear traducciones no normativas a otros idiomas. Se sugería que el propio organismo norcoreano podría proporcionar un archivo de correspondencia legible por máquina entre Unicode y KPS 9566, que sería más útil que una referencia cruzada impresa en el documento normalizado. En cuanto a los caracteres adicionales propuestos, la respuesta indicó que no se deberían agregar caracteres que tendrían descomposiciones de compatibilidad en Unicode y que no se deberían agregar logotipos, incluidos los de partidos políticos, ni caracteres especiales para nombres de personas particulares. [40]

En julio de 2000, el organismo norcoreano escribió al WG2 acusándolos de desarrollar ambas versiones de la codificación Unicode para el coreano basándose únicamente en propuestas surcoreanas, sin consultar a Corea del Norte, acusándolos de anteponer los intereses comerciales de las empresas y los temores de confusión internacional al respeto a la soberanía de Corea del Norte, y afirmando que Corea del Norte consideraría una nueva negativa a cambiar el nombre y el orden de los caracteres coreanos en Unicode como un insulto a su dignidad soberana y como una vulneración de las pretensiones de imparcialidad de la ISO . Reiteraron su exigencia de que el WG2 y Unicode "corrijan" el orden de los caracteres coreanos y "corrijan" los nombres "Hangul Jamo" y "Hangul Syllable" a "Korean Alphabet" y "Korean Syllable". [4]

En agosto de 2000, el organismo nacional de Corea del Norte presentó una versión más detallada de sus solicitudes en una serie de cinco propuestas consecutivas. En ellas se solicitaba la adición de 14 caracteres jamo adicionales, [41] la adición de 82 caracteres simbólicos, [42] y el uso del término "alfabeto coreano" en lugar de "Hangul", [43] se proporcionaban pruebas que respaldaban el orden de intercalación de Corea del Norte, [21] y se solicitaba la adición del repertorio hanja de Corea del Norte. [44] Estas propuestas se analizaron en dos reuniones entre representantes de Corea del Norte, Corea del Sur , Suecia y otros países del WG2 en septiembre de 2000, en las que se pidió al organismo de Corea del Norte que proporcionara pruebas manuscritas de los caracteres jamo adicionales, que volviera a presentar su propuesta de símbolos con los símbolos que ya habían sido aceptados en Unicode eliminados, y que considerara la posibilidad de utilizar la norma ISO/IEC 14651 , que entonces se encontraba en la etapa de borrador final, para fines de intercalación. [45]

En septiembre de 2001, el organismo nacional de Corea del Norte presentó una serie revisada de propuestas solicitando la adición de varios caracteres KPS 9566 y KPS 10721, incluidos 70 caracteres de símbolo, a Unicode. [46] [47] En esta versión de la propuesta, se incluyó una sección de extractos de documentos que demostraban el uso de varios caracteres y breves explicaciones de su propósito. El símbolo del Partido de los Trabajadores de Corea se denominó "Martillo, hoz y pincel", [46] renombrado de "Marca del Partido de los Trabajadores de Corea" en versiones anteriores de la propuesta, [42] y justificado como un símbolo de identificación en los mapas. [46] Como justificación de los caracteres propuestos para los nombres de los líderes, explicaron que los nombres de los líderes a menudo aparecen con un tamaño y un peso de fuente diferentes en las publicaciones norcoreanas con el propósito de enfatizar. [46] En una solicitud de seguimiento, los representantes de Corea del Sur del WG2 solicitaron pruebas, nombres en coreano y justificaciones para agregar algunos de estos caracteres, y observaron que ya existían versiones no enfatizadas de los caracteres para los nombres de los líderes. [48] En octubre de 2001 se convocó una reunión de representantes de Corea del Norte y Corea del Sur del WG2, que recomendó 47 de los caracteres de los símbolos para agregarlos a Unicode, y sugirió que los nombres de los líderes y los símbolos WPK se plantearan para un debate más profundo en el WG2. [49]

Un documento de comentarios posterior de febrero de 2002 sobre las adiciones propuestas por Corea del Norte solicitó que el símbolo "té" para una casa de té se aceptara como un símbolo más general de "bebida caliente", equiparándolo con los símbolos utilizados en guías para denotar bebidas calientes o no alcohólicas. También recomendó que el glifo de referencia para el punto de código existente para un paraguas sin lluvia se modificara para armonizarlo con el glifo de referencia propuesto para el paraguas con lluvia, equiparándolos con los símbolos de "mantener seco" utilizados en los envases, y planteó la cuestión de qué símbolos de advertencia de rayo y alto voltaje en las colecciones de símbolos existentes podrían unificarse con el carácter de "alto voltaje" propuesto. [50] Estos tres caracteres fueron aceptados en Unicode en la versión 4.0. [51] También recomendó que las fracciones con barras horizontales y las tijeras que apuntan hacia arriba a la izquierda se codificaran utilizando un selector de variación , ya que las tijeras no acompañaban a un par de tijeras con una orientación diferente, y ya que los puntos de código de fracciones Unicode existentes unificaban las formas sesgadas y horizontales. [50]

En noviembre de 2002, el organismo surcoreano publicó un conjunto de tablas de tres vías que asignaban caracteres entre las normas KPS 9566, KS X 1001 (como EUC-KR) e ISO/IEC 10646 tal como existían en 2000. Estas tablas se habían preparado sin la participación de Corea del Norte. [52]

En agosto de 2004, un par de tablas de mapeo entre KPS 9566-2003 y Unicode fueron enviadas al proyecto OpenOffice.org por un individuo que usaba el nombre "ooprojlover", quien declaró que representaban la versión actualizada del estándar KPS 9566 y solicitó que se añadiera soporte. [22] Estos archivos mapeaban los caracteres no disponibles en Unicode al Área de uso privado e incluían formas codificadas adicionales para otros bloques de sílabas fuera del plano principal ISO-IR-202. Una tabla de mapeo fue publicada posteriormente por el Consorcio Unicode en 2011, basada en estos datos de mapeo pero con errores corregidos con referencia a la tabla ISO-IR. [1]

Las copias de Red Star OS 3.0 incluyen fuentes para una edición más reciente de KPS 9566, que parece ser KPS 9566-2011. La tabla de mapeo utilizada internamente por Red Star OS se ha extraído con éxito. Además de agregar a Kim Jong Un a la lista de líderes, KPS 9566-2011 modifica las asignaciones de ciertas formas verticales en comparación con las asignaciones de 2003 (aprovechando el bloque de Formas Verticales agregado en Unicode 4.1), y también incluye varios símbolos y hanja adicionales codificados fuera del plano ISO-IR-202. Varios de estos símbolos adicionales también están asignados al Área de Uso Privado; sin embargo, se desconoce su identidad, ya que no se conocen nombres ni glifos de referencia para esos caracteres fuera de Corea del Norte. [3]

Impacto en Unicode hoy

Varios caracteres Unicode actuales se añadieron a Unicode 4.0 como resultado de las propuestas norcoreanas, aunque no siempre en los puntos de código propuestos originalmente. Estos incluyen BEBIDA CALIENTE (☕, propuesto como SÍMBOLO DEL TÉ), que se propuso como símbolo de mapa para marcar una casa de té , y los símbolos de bandera BANDERA BLANCA (⚐) y BANDERA NEGRA (⚑), que se propusieron como símbolos de mapa para sitios de batallas y victorias militares. [6] Estos caracteres se propusieron para los puntos de código provisionales U+270A, U+268E y U+268F respectivamente, [49] pero se codificaron en los puntos de código finales U+2615, U+2690 y U+2691 respectivamente. [53] También incluyen una serie de flechas direccionales en negrita en el rango U+2B05 a U+2B0D, [49] excluyendo una flecha hacia la derecha, que fue asignada a un carácter existente en el bloque Dingbats , [54] que se agregaron en los mismos puntos de código para los que fueron propuestas, además de que las flechas noreste y noroeste se intercambiaron en comparación con la propuesta. [55]

Otros caracteres pictográficos que se incluyeron en la propuesta norcoreana incluyen el paraguas con gotas de lluvia (☔), el rayo para alto voltaje (⚡) y el triángulo de advertencia (⚠). [49] Después de algunas discusiones sobre qué otros glifos de símbolos de alto voltaje en uso representaban el mismo carácter que el de la propuesta norcoreana, [50] y qué glifo sería mejor incluir en la tabla de códigos Unicode, [56] y después de la modificación del glifo de la tabla de códigos del carácter de paraguas existente sin lluvia (U+2602, ☂) para armonizar con el nuevo paraguas con gotas de lluvia de la propuesta norcoreana, [50] [58] estos caracteres también se agregaron en Unicode 4.0, al mismo tiempo que las banderas y el símbolo de bebida. [51] [53] [56] Aunque se propusieron los puntos de código provisionales U+2618, U+267F y U+267E, [49] se les dieron los puntos de código finales U+2614, U+26A1 y U+26A0 respectivamente. [53]

De estos caracteres, la bebida caliente, el paraguas con gotas de lluvia, el rayo y el triángulo de advertencia, y las flechas hacia arriba, hacia abajo y hacia la izquierda se seleccionaron posteriormente como asignaciones de los conjuntos de emojis celulares japoneses , [59] lo que hace un total de siete emojis Unicode actuales que se agregaron originalmente a Unicode a pedido de Corea del Norte. El paraguas con gotas de lluvia y las flechas hacia arriba, hacia abajo y hacia la izquierda también se unificaron con caracteres de las extensiones ARIB utilizadas en la radiodifusión japonesa, [60] que incluyen varios caracteres ahora clasificados como emoji, [61] y se asignaron a Unicode en Unicode 5.2. [62] Sin embargo, el par de banderas blancas y negras utilizadas como emoji o en secuencias de banderas regionales y de identidad de emoji es un conjunto diferente, "ondeando", agregado en Unicode 7.0 (U+1F3F3 🏳 y U+1F3F4 🏴), [63] [64] no el par norcoreano.

En 2018, todavía quedaban varios caracteres KPS 9566 que no están asignados a Unicode. Entre ellos se incluyen el símbolo WPK, cuatro marcas triangulares, un par de tijeras que apuntan hacia la izquierda (excluidas con el argumento de que no se había demostrado el uso contrastivo con las tijeras hacia la derecha en el bloque Dingbats ), una manícula que apunta hacia arriba en un círculo, formas de presentación verticales de signos de puntuación, variantes de corchetes de cierre que incorporan puntos , variantes con barras horizontales de fracciones vulgares codificadas por separado de sus versiones inclinadas y los nombres de los líderes. [65]

Una marca postal japonesa con un triángulo apuntando hacia abajo se incluyó en KPS 9566-97, pero se eliminó en KPS 9566-2003 [1] después de que el organismo norcoreano la retirara de su propuesta Unicode para su revisión [66] en respuesta a las solicitudes del organismo surcoreano de evidencia del uso del símbolo en Corea del Norte. [48] Esta marca se volvió a proponer en 2018 sobre la base de la compatibilidad con KPS 9566 y se identificó como una marca de conformidad eléctrica utilizada en Japón antes de su reemplazo por el diamante PSE . [67] Se agregó a Unicode en la versión 13.0, publicada en 2020.

Formularios codificados

La edición de 1997 de KPS 9566 se registró en el Registro Internacional de Conjuntos de Caracteres Codificados para su Uso con Secuencias de Escape como ISO-IR-202, [23] y, por lo tanto, se puede codificar utilizando ISO/IEC 2022. Es un conjunto G de múltiples bytes de 94 n , es decir, si se utiliza en un código ISO 2022 de 7 bits (análogo a ISO-2022-JP o ISO-2022-KR ), los caracteres se codificarán con pares de bytes entre 0x21 y 0x7E cuando estén en el modo apropiado.

Las asignaciones documentadas entre KPS 9566 y Unicode para las ediciones de 2003 [22] [1] y 2011 [3] de KPS 9566 utilizan una codificación que se asemeja a una adaptación del Código Hangul Unificado (UHC) para codificar KPS 9566 en lugar del código Wansung, con sus versiones actualizadas del plano ISO-IR-202 codificadas utilizando pares de bytes entre 0xA1 y 0xFE, y con otros códigos de dos bytes utilizados para sílabas no presentes en ISO-IR-202. El orden de las sílabas extendidas sigue el orden habitual de KPS 9566. De manera similar a UHC, utilizan bytes iniciales 0x81 y superiores, y bytes finales de los rangos 0x41–0x5A, 0x61–0x7A y 0x81–0xFE, excluyendo el rango 0xA1–0xFE si el byte inicial es 0xA1 o superior. [3]

La edición de 2011 también incluye varios Hanja adicionales y símbolos codificados fuera del plano ISO-IR-202, después del rango utilizado para los bloques de sílabas extendidas. [3] Este enfoque es similar al adoptado por GBK , pero con los bytes finales que permanecen en los rangos de estilo UHC: al igual que las sílabas extendidas con bytes iniciales 0xA1 y superiores, todas ellas utilizan los rangos de bytes finales 0x41–0x5A, 0x61–0x7A y 0x81–0xA0. Los Hanja extendidos se codifican con bytes iniciales entre 0xC8 y 0xDC, los símbolos extendidos se codifican utilizando bytes iniciales entre 0xE0 y 0xEA, y los códigos extendidos con bytes iniciales entre 0xEC y 0xFE se asignan, sin espacios, al Área de uso privado [3] (compare los rangos definidos por el usuario en GBK). Varios de los caracteres de la sección de símbolos extendidos y tres de la sección Hanja también están asignados al Área de uso privado Unicode; a diferencia de los símbolos asignados a PUA en el plano principal ISO-IR-202, se desconoce la identidad de estos caracteres. [3]

Byte principal

Este cuadro detalla la disposición general del plano principal del conjunto de caracteres KPS 9566 por byte inicial. [23] Para los bytes iniciales utilizados para caracteres distintos de las sílabas compuestas Chosŏn'gŭl o Hanja, se proporcionan enlaces a cuadros en esta página que enumeran los caracteres codificados bajo ese byte inicial. Para los bytes iniciales utilizados para Hanja, se proporcionan enlaces a la sección correspondiente del índice Hanja de Wikcionario .

Cuando se dan dos números hexadecimales, el valor inferior a 0x7F se utiliza en una codificación de 7 bits, [a] y el valor mayor (entre 0xA1 y 0xFE) se utiliza en una codificación de estilo EUC de 8 bits . [17] Las codificaciones de 8 bits de estilo UHC extendidas definidas a partir de la edición de 2003 también utilizan los valores de bytes mayores, entre 0xA1 y 0xFE inclusive, para el plano principal basado en ISO-IR-202. [1] [3]

Conjuntos no compuestos, no hanja, en el plano principal

Conjunto de caracteres 0x21/0xA1 (número de fila 1, puntuación y formas verticales)

Este conjunto contiene signos de puntuación de oraciones comunes, como corchetes, comillas, comas, etc., así como formas de presentación para su uso en escritura vertical. La puntuación ASCII (resaltada) se muestra a continuación asignada a los puntos de código de latín básico (en consonancia con los artículos sobre otros conjuntos de caracteres CJK, como KS X 1001 o JIS X 0208 ), pero se asigna al bloque de formas de ancho medio y ancho completo cuando se utiliza en una codificación que combina KPS 9566 con ASCII (como se define, por ejemplo, en la edición de 2003). [1]

En comparación con la asignación de 2003, la asignación de 2011 cambia las asignaciones Unicode de tres formas de presentación verticales para aprovechar el bloque de Formas Verticales introducido con Unicode 4.1. [3]

Conjunto de caracteres 0x22/0xA2 (número de fila 2, símbolos y operadores)

Este conjunto incluye operadores matemáticos y algunos otros símbolos como el ampersand , el pilcrow , la nota musical , etc. La puntuación ASCII (resaltada) se muestra a continuación asignada a los puntos de código del latín básico (en consonancia con los artículos sobre otros conjuntos de caracteres CJK), pero se asigna al bloque de formas de ancho medio y ancho completo cuando se utiliza en una codificación que combina KPS 9566 con ASCII . [1]

En esta fila se incluyen varios símbolos triangulares de "marcas de carretera" que indican montañas o pendientes próximas al frente o a un lado, pero actualmente no están incluidos en Unicode. Están asignados al Área de uso privado. [46]

Conjunto de caracteres 0x23/0xA3 (número de fila 3, dígitos y romanos)

Este conjunto incluye un subconjunto de ASCII , menos signos de puntuación y símbolos, que comprende números arábigos occidentales y ambos casos del alfabeto latino básico . Compare la fila 3 de JIS X 0208 , con la que esta fila coincide exactamente. Compare y contraste la fila 3 de KS X 1001 y GB 2312 , que incluyen sus variantes nacionales completas de ISO 646 en esta fila, en lugar de solo el subconjunto alfanumérico.

Los caracteres de esta fila se muestran a continuación asignados a puntos de código de latín básico (en consonancia con los artículos sobre otros conjuntos de caracteres), pero se asignan al bloque de formas de ancho medio y ancho completo cuando se utilizan en una codificación que combina KPS 9566 con ASCII . [1]

Conjunto de caracteres 0x24/0xA4 (fila número 4, Chosŏn'gŭl jamo y nombres de los líderes)

Este conjunto contiene Chosŏn'gŭl jamo , así como codificaciones especiales para los nombres de (a partir de 2003) los líderes norcoreanos Kim Il Sung y Kim Jong Il . El nombre de Kim Jong Un también está incluido a partir de la edición de 2011. [3] Compárese con la fila 4 de KS X 1001 .

Los jamo de esta fila que existen en el bloque Jamo de compatibilidad con Hangul Unicode (que contiene los caracteres independientes de la posición asignados desde KS X 1001) se asignan a ese bloque. Los jamo obsoletos que distinguen las sibilantes palatalizadas se asignan a los caracteres específicos de la posición en el bloque Jamo de Hangul . [1] Por el contrario, no todos los jamo obsoletos codificados por KS X 1001 están codificados en el plano principal de KPS 9566. En la edición de 2011 de KPS 9566, algunos de los otros jamo históricos de KS X 1001 se incluyen fuera del plano principal, con el byte inicial 0xEA. [3]

Las codificaciones especiales de los nombres de los líderes no están presentes en Unicode y se asignan al Área de uso privado. Se muestran a continuación simuladas con marcado.

Conjunto de caracteres 0x25/0xA5 (fila número 5, cirílico)

Este conjunto incluye ambos casos de 33 letras del alfabeto cirílico , suficientes para escribir el alfabeto ruso moderno y el alfabeto búlgaro , aunque otras formas del alfabeto cirílico requieren letras adicionales. [71]

Compare la fila 12 de KS X 1001 y la fila 7 de JIS X 0208 , que utilizan el mismo diseño (pero en una fila diferente).

Conjunto de caracteres 0x26/0xA6 (fila número 6, letras griegas y números romanos)

Este conjunto contiene números romanos y soporte básico para el alfabeto griego , sin diacríticos ni sigma final .

Compare y contraste la fila 5 de KS X 1001 (que utiliza los mismos caracteres pero con un diseño y una fila diferentes) y la fila 6 de JIS X 0208 (que utiliza el mismo diseño para las letras griegas, pero sin los números romanos).

Conjunto de caracteres 0x27/0xA7 (número de fila 7, encerrado en un círculo, superíndice, subíndice, fracciones)

Varios números en círculos en esta fila se asignaron a Unicode incorrectamente en la edición de 2003, debido al uso de puntos de código propuestos no finales. [1] Se corrigieron en la edición de 2011. [3]

Conjunto de caracteres 0x28/0xA8 (número de fila 8, unidad, cantidad y símbolos de moneda)

Este conjunto contiene símbolos para unidades de medida y moneda. Los que están en ASCII (resaltados) se muestran a continuación asignados a puntos de código de latín básico (en consonancia con los artículos sobre otros conjuntos de caracteres CJK), pero se asignan al bloque de formas de ancho medio y ancho completo cuando se utilizan en una codificación que combina KPS 9566 con ASCII . [1]

El símbolo Kelvin fue reemplazado por el símbolo del euro en la edición de 2003. [1] La edición de 2011 incluye una codificación alternativa del símbolo Kelvin en 0xE988. [3]

Compare y contraste con el repertorio de símbolos de unidad incluidos en la fila 7 de KS X 1001 .

Conjunto de caracteres 0x29/0xA9 (número de fila 9, dibujo del cuadro)

Conjunto de caracteres 0x2A/0xAA (número de fila 10, Hiragana)

Esta fila contiene Hiragana para usar en el idioma japonés .

Compare la fila 10 de KS X 1001 , que utiliza el mismo diseño. Compare y contraste la fila 4 de JIS X 0208 , que también utiliza el mismo diseño, pero en una fila diferente.

Conjunto de caracteres 0x2B/0xAB (número de fila 11, Katakana)

Esta fila contiene katakana para su uso en el idioma japonés . Sin embargo, la marca de vocal larga japonesa , que se utiliza en el texto katakana y se incluye en la fila 1 de JIS X 0208 , no está incluida (de manera similar a GB 2312 y KS X 1001), [72] aunque está incluida por KPS 9566-2011 fuera del plano principal, en 0xEA48. [3]

Compare la fila 11 de KS X 1001 , que utiliza el mismo diseño. Compare y contraste la fila 5 de JIS X 0208 , que también utiliza el mismo diseño, pero en una fila diferente.

Conjunto de caracteres 0x2C/0xAC (número de fila 12, símbolos y flechas varios)

Con el propósito de mapear esta fila a Unicode, la flecha en negrita hacia la derecha fue unificada con la flecha en negrita hacia la derecha de Zapf Dingbats (U+27A1), [54] aunque las tablas anteriores (que carecían de asignaciones para las otras flechas en negrita) la habían unificado con U+279E, un carácter de Zapf Dingbats ligeramente diferente. [52] Dado que las flechas correspondientes en otras direcciones no estaban incluidas en el bloque Dingbats , se codificaron flechas adicionales entre U+2B05 y U+2B0D para compatibilidad con KPS 9566. Estas se incorporaron a las tablas de códigos Unicode utilizando los glifos de referencia propuestos por el organismo nacional de Corea del Norte, mientras que U+27A1 mantuvo su glifo de referencia basado en Zapf Dingbats. [54] Estas flechas (U+2B05 a U+2B07, más U+27A1) fueron elegidas en Unicode 6.0 como las asignaciones para algunos de los caracteres de flecha en los conjuntos de emojis celulares . [59] Posteriormente, durante la adición del repertorio Wingdings 3 en Unicode 7.0, se revisó la cobertura Unicode de los caracteres de flecha, lo que dio como resultado que se agregara una flecha hacia la derecha adicional en U+2B95 con la intención de armonizar con los caracteres U+2B05 a U+2B0D (en la presentación de texto), ya que no se consideró apropiado cambiar el glifo de referencia para el carácter Zapf Dingbats. [54]

En ediciones anteriores de KPS 9566, como la edición de 1997, esta fila incluía tanto la marca postal simple de estilo japonés (〒) como una versión en un triángulo que apunta hacia abajo, [46] [23] que fue propuesta por el organismo nacional de Corea del Norte para su adición a Unicode junto con los otros caracteres faltantes de KPS 9566. [46] Una respuesta de un representante de Corea del Sur , entre otras solicitudes, solicitó evidencia del uso del símbolo en Corea del Norte, señalando que la marca postal de estilo japonés no se usa en Corea del Sur, que usa un 우 (es decir, ㉾) en un círculo para un propósito similar, y preguntó si una marca postal de estilo japonés estaba en uso en Corea del Norte. [48] Se celebró una reunión posterior para discutir esta propuesta, a la que asistieron representantes del WG2 de Corea del Norte y del Sur; el informe de la reunión señala que el organismo de Corea del Norte había decidido revisar el carácter antes de discutirlo más a fondo y, por lo tanto, no lo recomendó para su consideración por el WG2 en su conjunto. [66] El triángulo de la marca postal fue posteriormente eliminado del KPS 9566 en 2003, dejando solamente la marca postal sin cerrar. [1]

El triángulo de la marca postal se agregó finalmente a Unicode en la versión 13.0, tanto por compatibilidad con el carácter heredado KPS 9566-97, como después de que la marca se identificara como un símbolo que se había utilizado para la certificación de electrodomésticos en Japón (como predecesor del diamante PSE ). [67]

Ciertos caracteres KPS 9566 en esta fila, a saber, dos formas del emblema del Partido de los Trabajadores de Corea , un par de tijeras que apuntan en una dirección diferente a las del bloque Dingbats y una manícula que apunta hacia arriba dentro de un círculo , permanecen asignados al Área de uso privado . [1]

Las flechas blancas del noreste y noroeste utilizaron asignaciones Unicode intercambiadas incorrectas en la edición de 2003. [1] Esto se corrigió en las asignaciones de la edición de 2011. [3]

Conjunto de caracteres 0x2E/0xAE (número de fila 14, subconjunto Latin-1)

Los caracteres de este conjunto no estaban presentes en la versión de 1997 del conjunto de caracteres, pero se agregaron en la versión de 2003. [1] Constituyen un subconjunto del bloque Suplemento Latin-1 de Unicode (equivalente a la mitad superior del conjunto de caracteres ISO 8859-1 (Latin-1)). Esto incluye letras y símbolos romanos acentuados. Algunos de los símbolos que ya estaban incluidos se omiten, mientras que otros se duplican como contrapartes de medio ancho de las formas anteriores de ancho completo : por ejemplo, el signo no (¬, U+00AC) se representa como 0xAEAC, mientras que su forma de ancho completo (¬, U+FFE2) se representa como 0xA2D1 (en la fila 2). [1]

Esta fila se omite en la asignación para la edición 2011 del estándar, [3] lo que indica que puede haber sido eliminada en algún momento después de la edición 2003. En cambio, el signo del yen de medio ancho está codificado en 0xE98E en la edición 2011. [3]

El espacio requerido quedaría fuera del rango de 94 caracteres, lo que entraría en conflicto con el área utilizada para sílabas Chosŏn'gŭl extendidas cuando se utiliza una codificación de estilo UHC (específicamente, con la sílaba 쁲), [1] y se omite. Aunque la y con trema también queda fuera del rango de 94 caracteres, y el byte final 0xFF no se utiliza, el código 0xAEFF se asigna a él en KPS 9566-2003. [1]

Conjuntos Chosŏn'gŭl precompuestos (filas número 16 a 44)

A los grupos de sílabas precompuestos de Chosŏn'gŭl se les asignan puntos de código en un bloque ordenado continuo entre los puntos de código 16-01 y 44-47 inclusive. No a todos los grupos posibles se les asignan puntos de código. [73] Compare los diferentes ordenamientos y disponibilidad en KS X 1001 .

La forma codificada documentada para KPS 9566-2003 codifica el plano KPS 9566 en GR (0xA1-0xFE) y, además, codifica los grupos de sílabas restantes utilizando bytes iniciales en el rango 0x80-0xC2 y bytes finales en los rangos 0x41-0x5A, 0x61-0x7A y 0x81-0xFE (donde como máximo un byte está en el rango 0xA1-0xFE), [1] de manera similar al Código Hangul Unificado pero con los grupos omitidos y el orden de clasificación de KPS 9566, no de KS X 1001 .

Estadísticas de jamo

Conjuntos Hanja (filas número 45 a 94)

El Hanja en 69-09 (0xE5A9) está asignado a U+676Een todas las tablas documentadas; sin embargo, los caracteres están ordenados de acuerdo con sus lecturas, de lo que parece que se pretende que sea U+67FFen su lugar. [74]

Conjuntos ampliados de sílabas no hanja en KPS 9566-2011

A continuación se muestran gráficos para la sección no silábica y no hanja de KPS 9566-2011 fuera del plano principal. [3]

Conjunto de extensión 0xE0 (símbolos y pictogramas)

Conjuntos de extensión 0xE1, 0xE2, 0xE3 (desconocidos)

Todos los caracteres de estos conjuntos de extensiones se asignan al área de uso privado. Se desconoce su propósito. [3]

Conjunto de extensión 0xE4 (flechas)

Este conjunto incluye varias flechas, en su mayoría hacia la derecha, que se asignan al bloque Dingbats de Unicode y a otros lugares. [3]

Conjunto de extensión 0xE5 (superíndices y subíndices romanos)

Esta fila incluye varios superíndices romanos en minúscula con bytes finales correspondientes a sus equivalentes ASCII en mayúscula, y subíndices romanos en minúscula con bytes finales correspondientes a sus equivalentes ASCII en minúscula. [3]

Conjunto de extensión 0xE6 (superíndices y subíndices de griego y símbolos)

Conjunto de extensión 0xE7 (más marcadores de lista)

Conjunto de extensión 0xE8

Todos los caracteres de este conjunto de extensión se asignan al área de uso privado, excepto 0xE884 que se asigna a U+FE30FORMULARIO DE PRESENTACIÓN PARA LÍNEA VERTICAL DE DOS PUNTOS . [3]

Conjunto de extensión 0xE9 (símbolos y puntuación adicionales)

Este conjunto contiene símbolos de los palos de las cartas de juego, varios símbolos diversos y contrapartes de medio ancho para algunos de los símbolos monetarios en la fila 8. También se incluye el símbolo de Kelvin , [3] que ha sido reemplazado en la fila 8 por el símbolo del euro . [1]

Conjunto de extensión 0xEA (puntuación japonesa y jamo adicional)

Este conjunto contiene varios signos de puntuación utilizados en Japón y algunos caracteres del bloque Unicode Jamo de compatibilidad Hangul que aún no están incluidos en la fila 4. [3] Esto incluye algunos de los caracteres jamo presentes en KS X 1001 , pero anteriormente ausentes en KPS 9566.

Notas al pie

  1. ^ Por ejemplo, los encabezados del cuadro ISO-IR-202 muestran códigos binarios de 7 bits, así como códigos kuten/hang-yol para los caracteres). [23]
  2. ^ ab Como conjunto de 94 n caracteres compatible con ISO 2022 , el espacio simple y el carácter de eliminación siempre están disponibles como códigos de un solo byte en 0x20 y 0x7F (no 0xA0 y 0xFF) respectivamente.
  3. ^ O U+223COPERADOR TILDE . [52]
  4. ^ Otras asignaciones utilizan U+00AD SOFT HYPHEN , para que coincida con KS X 1001 01-09 . [52]
  5. ^ abcde Un carácter de ancho medio está presente en la fila 14, este es específicamente un carácter de ancho completo.
  6. ^ Forma vertical de la tilde. El archivo de mapeo proporcionado por el Consorcio Unicode reconoce la asignación por nombre a U+2E2F, [1] que es utilizado por Red Star OS , [7] pero señala que el carácter Unicode está destinado a un carácter significativamente diferente (un diacrítico alto de espaciado vertical-tilde) y también enumera la asignación U+F104 (en el Área de uso privado), [1] según los datos de mapeo que se habían enviado al proyecto OpenOffice.org en 2004. [22] Se muestra aquí mediante una imagen.
  7. ^ ab Un carácter que combina un punto con un corchete de cierre, asignado al Área de uso privado, que se muestra aquí sustituido.
  8. ^ O U+25E6BALA BLANCA . [52]
  9. ^ O U+2022BULLET . [52]
  10. ^ abc Asignado al área de uso privado, se muestra aquí usando una imagen.
  11. ^ Mac OS Korean (HangulTalk), una codificación del código Wansung más conjuntos de extensiones, codifica un carácter visualmente similar en 0xA79B, [68] que Apple asigna a la secuencia Unicode U+25B4+20E4 (▴⃤). [69] Sin embargo, no hay un uso documentado de esta asignación para el carácter KPS 9566.
  12. ^ Aceptado para su inclusión en Unicode 16.0. [70]
  13. ^ abcdefghi Un carácter en negrita/enfatizado del nombre de un líder norcoreano, asignado al Área de uso privado, que se muestra aquí simulado con marcado.
  14. ^ abcde Forma de una fracción con barra horizontal y disposición vertical, asignada al Área de Uso Privado, que aquí se muestra simulada.
  15. ^ Grados Kelvin en la versión de 1997 (algunas versiones del cuadro de códigos incluyen un signo de grado en el símbolo de la unidad). Euro en la versión de 2003.
  16. ^ ab Emblema del Partido de los Trabajadores de Corea , asignado al Área de Uso Privado, que se muestra aquí mediante una imagen.
  17. ^ O U+279EFLECHA CON PUNTA DE TRIÁNGULO PESADA HACIA LA DERECHA o U+2B95FLECHA NEGRA HACIA LA DERECHA : ver texto.
  18. ^ Incluido en las tablas de la versión de 1997 y en la propuesta Unicode N2374 de 2001. Eliminado en la versión de 2003.
  19. ^ Asignado a U+261E (☞) en la edición de 2003. [1] La edición de 2011, en cambio, lo asigna al carácter del Área de Uso Privado U+F13B. [3] El glifo de referencia es una manícula de revés, [23] [3] es decir, que coincide con U+1F449 (👉︎). Compárese con 0xE04D en KPS 9566-2011.
  20. ^ Manícula que apunta hacia arriba en un círculo , asignada al Área de uso privado, [1] mostrada aquí mediante una imagen. Una posible asignación no PUA sería a la secuencia U+1F446+20DD (👆︎⃝). [7]
  21. ^ Tijeras que apuntan hacia arriba a la izquierda, asignadas al Área de uso privado, que se muestran aquí usando una imagen.

Referencias

  1. ^ abcdefghijklmnopqrstu vwxyz aa ab "KPS 9566-2003 a Unicode". Consorcio Unicode.
  2. ^ abcdefghijkl Lunde, Ken (2009). Procesamiento de información CJKV: computación china, japonesa, coreana y vietnamita (2.ª ed.). Sebastopol, CA : O'Reilly . Págs. 148-151. ISBN. 978-0-596-51447-1.
  3. ^ abcdefghijklmnopqrstu vwxyz aa ab ac ad Chung, Jaemin (5 de enero de 2018). "Información sobre la versión más reciente de KPS 9566 (KPS 9566-2011?)" (PDF) . UTC L2/18-011.
  4. ^ abcd Cho, Chun-Hui (5 de julio de 2000). "Carta de la RPDC sobre los nombres de los caracteres y su ordenación en 10646-1:2000" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2231.
  5. ^ abc Lunde, Ken (25 de marzo de 2019). "Cuatro de un tipo: KS X 1001 y KPS 9566". Blog de tipografía CJK . Adobe Inc.
  6. ^ ab Ewell, Doug (15 de agosto de 2002). "Re: Scripts en Unicode 4.0". Archivo de listas de correo Unicode .
  7. ^ abcd West, Andrew (29 de mayo de 2015). "Asignaciones de KPS 9566 (antes Re: Dingbats de flecha)". Archivo de listas de correo Unicode .
  8. ^ abc Jennings, Thomas Daniel (17 de marzo de 2020) [1999]. «Una historia anotada de algunos códigos de caracteres o ASCII: Código estándar americano para la infiltración de información». Investigación sensible (SR-IX) . Archivado desde el original el 22 de mayo de 2016. Consultado el 17 de marzo de 2020 .
  9. ^ "Estándar ECMA-6: conjunto de caracteres codificados de 7 bits". Ecma International .
  10. ^ ab Lunde, Ken (2009). Procesamiento de información CJKV: computación china, japonesa, coreana y vietnamita (2.ª ed.). Sebastopol, CA : O'Reilly . pág. 89. ISBN 978-0-596-51447-1.
  11. ^ ECMA/TC 1 (1973). "Breve historia". Conjunto de caracteres codificados de entrada/salida de 7 bits (PDF) (4.ª ed.). ECMA . ECMA-6:1973.{{citation}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
  12. ^ ECMA (1994). Estructura del código de caracteres y técnicas de extensión (PDF) (6.ª ed.). ECMA-35:1994.
  13. ^ Lunde, Ken (2009). Procesamiento de información CJKV: computación china, japonesa, coreana y vietnamita (2.ª ed.). Sebastopol, CA : O'Reilly . Págs. 19-20, 581-582. ISBN. 978-0-596-51447-1.
  14. ^ Lunde, Ken (2009). Procesamiento de información CJKV: computación china, japonesa, coreana y vietnamita (2.ª ed.). Sebastopol, CA : O'Reilly . Págs. 84-85. ISBN. 978-0-596-51447-1.
  15. ^ ab "2.4: Conjuntos de caracteres gráficos de múltiples bytes". Registro internacional de conjuntos de caracteres codificados para su uso con secuencias de escape (ISO-IR) (PDF) . ITSCJ/ IPSJ . pág. 14.
  16. ^ abc Lunde, Ken (2009). Procesamiento de información CJKV: computación china, japonesa, coreana y vietnamita (2.ª ed.). Sebastopol, CA : O'Reilly . Págs. 94-147. ISBN 978-0-596-51447-1.
  17. ^ ab Lunde, Ken (2009). Procesamiento de información CJKV: computación china, japonesa, coreana y vietnamita (2.ª ed.). Sebastopol, CA : O'Reilly . Págs. 242–255. ISBN 978-0-596-51447-1.
  18. ^ abc Shin, Jungshik. "¿Qué son KS X 1001 (KS C 5601) y otros códigos Hangul?". Preguntas frecuentes sobre Hangul e Internet en Corea .
  19. ^ ab Hwang, Jinsang (2005). La conformación social de los estándares de las TIC: un caso de controversia sobre los estándares nacionales de conjuntos de caracteres codificados en Corea (PDF) . Universidad de Edimburgo.
  20. ^ Lunde, Ken (18 de diciembre de 1995). "3.3.6: Hangul de N bytes". CJK.INF Versión 1.9.
  21. ^ Comité de Normalización de la República Popular Democrática de Corea (CSK) (10 de agosto de 2000). "Evidencia de la disposición de los caracteres coreanos propuesta por el CSK" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2246.
  22. ^ abcd "Tablas de conversión entre KPS 9566-2003 (coreano del Norte) y Unicode". Apache OpenOffice (AOO) Bugzilla . 27 de agosto de 2004.
  23. ^ abcdefghi Comité de Normalización de la RPD de Corea (22 de junio de 1998). Conjunto de caracteres gráficos coreanos estándar de la RPDC para el intercambio de información (PDF) . ITSCJ/ IPSJ . ISO-IR -202.
  24. ^ Consorcio Unicode . "Historial de lanzamiento y fechas de publicación de Unicode".
  25. ^ West, Andrew (17 de junio de 2019) [5 de junio de 2007]. "Unicode e ISO/IEC 10646".
  26. ^ Murata, Makoto (14 de abril de 2000). "Perfil japonés XML". Notas del W3C . W3C .
  27. ^ van Kesteren, Ana. Estándar de codificación. QUÉ WG .
  28. ^ Lunde, Ken (1999). Procesamiento de información CJKV: computación china, japonesa, coreana y vietnamita. Sebastopol, CA : O'Reilly . pág. 116. ISBN. 1-56592-224-7.
  29. ^ abcd Bai, Yi; Sim, CheonHyeong (16 de octubre de 2022). "Propuesta para considerar la incorporación de compatibilidad con CodeCharts para glifos representativos de kIRG_KPSource en Unicode" (PDF) . UTC L2/22-238.
  30. ^ Cook, Richard. "P: ¿Por qué faltan los glifos de DPRK (Corea del Norte == kIRG_KPSource) en algunos gráficos de códigos CJK?". Preguntas frecuentes: chino y japonés . Consorcio Unicode . Archivado desde el original el 4 de octubre de 2022.{{cite web}}: CS1 maint: URL no apta ( enlace )
  31. ^ Jenkins, John H.; Cocinero, Richard; Lunde, Ken (5 de marzo de 2020). "Base de datos Unicode Han (Unihan)". kIRG_KPFuente. Anexo #38 del estándar Unicode.
  32. ^ Sim, CheonHyeong (19 de junio de 2022). "KPS 10721:2000 (Unicode KP1源) 文件重构 (修订版)" (PDF) (en chino simplificado).
  33. ^ Por ejemplo: "Ideogramas de compatibilidad CJK (§ Ideogramas de compatibilidad DPRK" (PDF) . Gráficos con versiones Unicode 15.0 (gráficos delta) . Consorcio Unicode . 2022.
  34. ^ Lunde, Ken (1 de noviembre de 2022). "35) L2/22-238: Propuesta para considerar la incorporación de compatibilidad con CodeCharts para glifos representativos de kIRG_KPSource" (PDF) . Recomendaciones del grupo CJK y Unihan para la reunión UTC n . ° 173 . UTC L2/22-247.
  35. ^ Lunde, Ken (7 de febrero de 2023). "Informe de actividad de EE. UU./Unicode para el IRG n.º 60" (PDF) . UTC L2/23-058, ISO/IEC JTC1/SC2 /WG2/ IRG N2599.
  36. ^ Yergeau, F. (1998). UTF-8, un formato de transformación de ISO 10646. IETF . doi : 10.17487/rfc2279 . RFC 2279.
  37. ^ "Políticas de estabilidad de la codificación de caracteres Unicode". Consorcio Unicode. 23 de junio de 2017.
  38. ^ Jo, Chun-Hui (10 de agosto de 1999). "Modificación de la parte que contiene los caracteres coreanos en la enmienda 5 de la norma ISO/IEC 10646-1:1998" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2056.
  39. ^ "Propuesta de nuevo elemento de trabajo (NP) para una enmienda de la parte coreana de la norma ISO/IEC 10646-1:1993". 1999-12-07. L2 /99-380, ISO/IEC JTC 1 N5999.
  40. ^ Karlsson, Kent (2 de marzo de 2000). "Comentarios sobre la propuesta de la RPDC de un nuevo trabajo sobre caracteres coreanos". ISO/IEC JTC 1/SC 2 /WG 2 N2167.
  41. ^ Comité de Normalización de la República Popular Democrática de Corea (CSK) (10 de agosto de 2000). "Propuesta para la incorporación de 14 alfabetos coreanos a la norma ISO/IEC 10646-1" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2243.
  42. ^ Comité de Normalización de la República Popular de Corea (CSK) (10 de agosto de 2000). "Propuesta para la adición de 82 símbolos a la norma ISO/IEC 10646-1" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2244.
  43. ^ Comité de Normalización de la República Popular Democrática de Corea (CSK) (10 de agosto de 2000). "Propuesta para cambiar el nombre actual de los caracteres coreanos en la norma ISO/IEC 10646-1" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2245.
  44. ^ Comité de Normalización de la RPD de Corea (CSK) (10 de agosto de 2000). "Propuesta para agregar la columna Hanja de la RPD de Corea en ISO/IEC 10646-1 (14938 ideogramas a CJK Unified Ideographs y 3181 ideogramas a su Extensión [sic] A)" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2247.
  45. ^ Grupo ad hoc sobre escritura coreana (21 de septiembre de 2000). "Informe de la reunión del grupo ad hoc sobre escritura coreana". ISO/IEC JTC 1/SC 2 /WG 2 N2282.
  46. ^ Comité abcdefg de normalización de la RPD de Corea (CSK) (3 de septiembre de 2001). Propuesta para agregar 70 símbolos a ISO/IEC 10646-1:2000 (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2374.
  47. ^ Comité de Normalización de la RPD de Corea (CSK) (3 de septiembre de 2001). Propuesta para añadir la tabla de códigos Hanja de compatibilidad 160 de la RPD de Corea a los ideogramas de compatibilidad CJK (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2375.
  48. ^ abc Gim, Gyeongseog (13 de octubre de 2001). Comentarios de la República de Corea sobre la propuesta de la RPDC, WG2 N 2374, de añadir 70 símbolos a la norma ISO/IEC 10646-1:2000 (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2390.
  49. ^ abcde Grupo ad hoc sobre escritura coreana (16 de octubre de 2001). Informe de la reunión del grupo ad hoc sobre escritura coreana del 15 de octubre de 2001 (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2392, UTC L2/01-388. Archivado desde el original (PDF) el 3 de agosto de 2020. Consultado el 29 de abril de 2020 .
  50. ^ abcd Freytag, Asmus (13 de febrero de 2002). "Notas sobre los símbolos propuestos por la RPDC" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2417, UTC L2/02-102.
  51. ^ ab Emojipedia . "Emojis Unicode 4.0". Emojipedia .
  52. ^ abcdef Kim, Kyongsok (30 de noviembre de 2002). "Posición de organismo nacional: tablas de referencia cruzada de tres vías: KS X 1001, KPS 9566 y UCS" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2564.[Nota: enlaces actualizados para las tablas que acompañan al documento: [1] Archivado el 3 de abril de 2021 en Wayback Machine [2] Archivado el 3 de abril de 2021 en Wayback Machine
  53. ^ abcd "Símbolos varios" (PDF) . Tablas de códigos delta de Unicode 4.0.0 . Consorcio Unicode .
  54. ^ abcd Whistler, Ken (28 de mayo de 2015). "Re: Dingbats de flechas". Archivo de listas de correo Unicode .
  55. ^ "Símbolos y flechas diversos" (PDF) . Gráficos de códigos delta de Unicode 4.0.0 . Consorcio Unicode .
  56. ^ ab Overington, William (24 de febrero de 2003). "Caracteres beta de Unicode 4.0".
  57. ^ "Símbolos varios" (PDF) . Tablas de códigos delta de Unicode 3.2.0 . Consorcio Unicode .
  58. ^ La tabla de códigos Unicode 4.0 muestra el glifo modificado, [53] mientras que la tabla de códigos Unicode 3.2 muestra el glifo anterior. [57]
  59. ^ ab Scherer, Markus; Davis, Marcos; Momoi, Kat; Tong, Darick; Kida, Yasuo; Edberg, Peter. "Símbolos emoji: datos básicos: datos básicos para la propuesta de codificación de símbolos emoji" (PDF) . UTCL2/10-132.
  60. ^ Suignard, Michel (18 de septiembre de 2007). "Símbolos de televisión japoneses" (PDF) . UTC L2/07-391, ISO/IEC JTC 1/SC 2 /WG 2 N3341.
  61. ^ Consorcio Unicode (2020). "Versiones y fuentes de emojis, v13.0".
  62. ^ Emojipedia . «Lista de emojis Unicode 5.2». Emojipedia .
  63. ^ Emojipedia . "Emoji de bandera blanca ondeando". Emojipedia .
  64. ^ Emojipedia . "Emoji de bandera negra ondeando". Emojipedia .
  65. ^ Marin Silva, Eduardo (2018). Propuesta para reconsiderar los símbolos de compatibilidad y puntuación utilizados en la RPDC (PDF) . UTC L2/18-004.
  66. ^ ab Grupo ad hoc de escritura coreana (16 de octubre de 2001). Informe de la reunión del grupo ad hoc de escritura coreana del 15 de octubre de 2001 (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2392, UTC L2/01-388. Archivado desde el original (PDF) el 3 de agosto de 2020. Consultado el 29 de abril de 2020. La RPD de Corea sugirió que revisarían este carácter con más cuidado antes de volver a discutirlo en el grupo ad hoc de escritura coreana o WG2.
  67. ^ ab Marín Silva, Eduardo (2018). Propuesta de codificación: SÍMBOLO PARA ELECTRÓNICA TIPO A (PDF) . UTC L2/18-184R.
  68. ^ Lunde, Ken (2009). "Apéndice E: Estándares de conjuntos de caracteres de proveedores" (PDF) . Procesamiento de información CJKV: computación china, japonesa, coreana y vietnamita (2.ª ed.). Sebastopol, CA : O'Reilly . ISBN 978-0-596-51447-1.
  69. ^ Apple (5 de abril de 2005). "Mapa (versión externa) de la codificación coreana de Mac OS a Unicode 3.2 y posteriores". Consorcio Unicode .
  70. ^ "Suplemento de símbolos para computación heredada" (PDF) . BORRADOR El estándar Unicode, versión 16.0 REVISIÓN BETA . Consorcio Unicode . Consultado el 27 de mayo de 2024 .
  71. ^ Czyborra, Roman (1998-11-30) [1998-05-25]. "La sopa de caracteres cirílicos". Archivado desde el original el 2016-12-03 . Consultado el 2016-12-03 .
  72. ^ Lunde, Ken (2009). "Caracteres aparentemente faltantes". Procesamiento de información CJKV: computación china, japonesa, coreana y vietnamita (2.ª ed.). Sebastopol, CA : O'Reilly . pág. 180. ISBN 978-0-596-51447-1.
  73. ^ Esta tabla se genera a partir de KPS9566.TXT. [1]
  74. ^ Chung, Jaemin (17 de marzo de 2021). "KP0-E5A9 debería asignarse a U+67FF en lugar de a U+676E" (PDF) . UTC L2/21-059.

Enlaces externos