stringtranslate.com

KPS 9566

KPS 9566 (" Conjunto de caracteres gráficos coreanos estándar de la RPDC para el intercambio de información ") [2] es un estándar norcoreano que especifica una codificación de caracteres para el sistema de escritura Chosŏn'gŭl (Hangul) utilizado para el idioma coreano . La edición de 1997 especificaba un juego de caracteres codificados de dos bytes de 94 × 94 compatible con ISO 2022 . Las ediciones posteriores han agregado caracteres codificados adicionales fuera del plano 94 × 94, de manera comparable a UHC o GBK . [3]

KPS 9566 difiere en enfoque de KS X 1001 , su contraparte surcoreana , en el uso de un orden diferente de Chosŏn'gŭl, [4] en la codificación de formas de puntuación de presentación vertical explícita, en no codificar Hanja duplicado para lecturas múltiples y en incluir varios caracteres específicos del sistema político norcoreano, incluidas codificaciones especiales para los nombres de los líderes pasados ​​y presentes del país ( Kim Il Sung , Kim Jong Il y Kim Jong Un ). [1] [2] [3] [5]

Aunque KPS 9566 fue la fuente original de varios caracteres agregados a Unicode , [6] no todos los caracteres KPS 9566 tienen equivalentes Unicode. Aquellos que no lo hacen se asignan a caracteres Unicode similares o al Área de uso privado . [7]

Antecedentes y otras normas

El conjunto de caracteres ASCII se originó en los Estados Unidos en 1963 y fue revisado en 1967 hasta alcanzar la forma que tiene hoy. [8] ASCII también fue aceptado como estándar internacional en 1967, convirtiéndose en ECMA-6, [8] designado ISO/IEC 646 por la Organización Internacional de Normalización . [9] Actualmente se denomina ANSI X3.4-1986 e ISO 646:1991. [10] ASCII era una codificación de un solo byte de 7 bits que incluía 94 caracteres gráficos, el espacio y 33 códigos de control , que proporcionaba soporte básico para representar texto en inglés americano como una serie de bytes. [8] [10]

La siguiente edición de ISO 646, publicada en 1972, revisó la norma para introducir el concepto de versiones nacionales del código, permitiendo a los países reemplazar algunos códigos menos utilizados con sus propios caracteres requeridos. Al mismo tiempo, se estaba trabajando en la definición de mecanismos de extensión para ASCII, con la intención de que fuera aplicable tanto a entornos de 7 como de 8 bits. Esto se completó en 1973 y se publicó como JIS X 0202 , ECMA-35 e ISO 2022 . [11] ISO 2022 especifica mecanismos para utilizar conjuntos de caracteres de un solo byte y de varios bytes con una determinada estructura en entornos de 7 y 8 bits, y para declarar y cambiar entre ellos de forma estándar utilizando códigos de desplazamiento y secuencias de escape. . [12]

Los países del este de Asia , debido al uso de grandes repertorios de caracteres chinos , introdujeron codificaciones estandarizadas de doble byte (DBCS) para sus sistemas de escritura, ya que la cantidad de caracteres representables en un código de un solo byte no era suficiente. En un DBCS compatible con ISO 2022, cada carácter se puede representar con dos bytes de caracteres de impresión ASCII; se puede hacer referencia a la ubicación de un carácter mediante estos valores de bytes, o mediante dos números del 1 al 94 (a kuten ), iguales a los bytes respectivos menos 32. [13] El primer DBCS registrado que cumple con ISO 2022 y el primer DBCS de Asia Oriental DBCS, que se estableció como estándar nacional, fue la primera edición de JIS X 0208 (Japón), publicada en 1978. [14] [15] A esta le siguió GB 2312 (China continental) en 1980, y el código Wansung (Sur Corea; designado por primera vez KS C 5601-1987) en 1987. [16] [15] Big5 (Taiwán), definido en 1984, no siguió la estructura ISO 2022. [16] Cuando se usaba en un entorno de 8 bits (en lugar de 7 bits), GB 2312 y el código Wansung generalmente se usaban con el octavo bit configurado, con ASCII o un SBCS similar usado con el octavo bit no configurado; estos esquemas de codificación se conocen como EUC-CN y EUC-KR , respectivamente. [17]

Aunque el sistema de escritura coreano incluye símbolos individuales ( jamo ) para consonantes y vocales, que sirven como alfabeto , el texto coreano está correctamente compuesto con estos símbolos compuestos en bloques para cada sílaba. El código Wansung incluía bloques de sílabas coreanas individuales por separado, tratándolos como un gran conjunto de caracteres de manera similar a Hanja , [18] y fue definido por primera vez en la tercera edición del estándar surcoreano KS C 5601. La primera edición había definido una codificación de sílabas individuales. jamo, que permitía codificar bloques de sílabas como secuencias, se denominó Hangul de N bytes y no se había adoptado tan ampliamente como se esperaba. [19] [20]

El código Wansung no codificaba todas las posibles sílabas coreanas modernas, sólo una selección de las 2350 más comunes, [2] aunque permitía especificarlas mediante secuencias combinadas, que a menudo no eran compatibles. [18] Se creó una codificación alternativa, también surcoreana, llamada Johab , que sirvió como competidor de Wansung durante algún tiempo. [19] Código Hangul Unificado (UHC), introducido por Microsoft con Windows 95 , EUC-KR extendido, que permite el uso de códigos EUC de doble byte no válidos para representar todas las demás sílabas disponibles en Johab. [18] La codificación GBK de chino continental adoptó un enfoque similar , ampliando GB 2312 con soporte para chino tradicional y caracteres chinos menos comunes codificándolos en códigos de doble byte no válidos en EUC-CN . [dieciséis]

Corea del Sur no fue el único país que desarrolló un DBCS ISO 2022 para coreano: el GB 12052 para chino continental se publicó en 1989. No estaba estrechamente relacionado con el código Wansung, aunque también incluía sílabas compuestas. En cambio, correspondía a GB 2312 con sílabas coreanas (y 94 hanja ) reemplazando los caracteres chinos, excepto por la inclusión de un signo de dólar en lugar de un signo de yuan. Fue desarrollado para uso de la minoría coreana en el noreste de China. [2]

Asimismo, Corea del Norte desarrolló KPS 9566. Aunque Corea del Norte y Corea del Sur utilizan el Chosŏn'gŭl (Hangul) coreano como su sistema de escritura principal, utilizan diferentes órdenes lexicográficos . [21] Por lo tanto, el orden de los caracteres difiere entre el código Wansung y KPS 9566. [4]

KPS 9566 ha pasado por varias revisiones, incluidas las ediciones de 1997 y 2003, [22] principalmente para mejorar la compatibilidad con Unicode . Normalmente se indican especificando el año (por ejemplo, KPS 9566-97, 9566-2003). La edición actual a partir del lanzamiento de Red Star OS 3.0 parece ser KPS 9566-2011, que agrega a Kim Jong Un a la lista de líderes. [3] El cuadro de códigos disponible públicamente para la edición de 1997 de KPS 9566 muestra un plano ISO 2022 94 × 94. [23] Las ediciones más recientes, a partir de qué fuentes de información están disponibles fuera de la propia Corea del Norte, parecen definir asignaciones adicionales fuera del plano EUC (de manera similar a GBK o UHC). [3]

Debido a los problemas de interoperabilidad que surgen del uso de múltiples codificaciones de caracteres patentadas estándar nacionales y específicas de plataformas o fuentes, el estándar Unicode se desarrolló con la intención de permitir que todo el texto representable se intercambie en un formato único y universal. La primera edición de Unicode se publicó en 1991 y 1992, [24] e ISO/IEC 10646 se estableció en sincronía con Unicode en 1993. [25] Los formatos Unicode son preferidos para uso internacional en la World Wide Web , donde las codificaciones de caracteres heredadas son tratados como codificaciones parciales de Unicode mediante archivos de mapeo. [26] [27]

Diseño

En principio, KPS 9566 es similar al conjunto de caracteres Wansung definido por el estándar surcoreano KS X 1001 , aunque ambos no son compatibles. Ambos codifican una sección de puntuación, símbolos, jamo , kana y caracteres alfabéticos, seguida de un subconjunto de las posibles sílabas Chosŏn'gŭl modernas, seguidas de una sección de Hanja . [2] Sin embargo, KPS 9566 utiliza un orden diferente de jamo y sílabas para cumplir con los estándares de ordenamiento lexicográfico de Corea del Norte . [4] KPS 9566 también incluye 28 caracteres de puntuación rotados explícitamente para tipografía vertical, lo que KS X 1001 no incluye, y codifica cada Hanja solo una vez, mientras que KS X 1001 codifica varios Hanja con múltiples lecturas varias veces. [2]

KPS 9566-97 codifica un total de 2679 sílabas Chosŏn'gŭl y 4653 Hanja. Esto proporciona una mejor cobertura que las 2350 sílabas codificadas por el código Wansung: por ejemplo, el carácter 똠 ​​usado en el nombre de 똠방각하 , una destacada obra literaria coreana, no tiene un punto de código Wansung asignado, pero tiene uno (38-02) en KPS 9566. [2] La sección Hanja incluye 4652 caracteres del Repertorio y Ordenamiento Unificados y uno de la Extensión A de Ideógrafos Unificados de CJK . La totalidad de la fila 15, la segunda mitad de la fila 44 (después del bloque de sílabas) y la segunda mitad de la fila 94 (después del bloque Hanja) se pueden utilizar para fines definidos por el usuario. [23] [2]

KPS 9566 se distingue especialmente por la inclusión de varios personajes especiales de la vida política de Corea del Norte. En concreto, incluye el emblema del martillo, la hoz y el cepillo del Partido de los Trabajadores de Corea , tanto sin círculos como con círculos [7] (puntos de código 12-01 y 12-02), [23] y dos grupos de tres caracteres con fines especiales. que detallan los nombres de los líderes norcoreanos Kim Il Sung ( 김일성 ) y Kim Jong Il ( 김정일 ) en una fuente decorativa especial (puntos de código 04-72 a 04-74 y 04-75 a 04-77, respectivamente). [28] Las sílabas de Kim e Il, que son idénticas en la ortografía de ambos nombres, están codificadas dos veces. KPS 9566-2011 incluye además el nombre de Kim Jong Un ( 김정은 ) como puntos de código 04-78 a 04-80. [3] [5]

Debido a estos caracteres especiales, actualmente no existe compatibilidad total de ida y vuelta entre KPS 9566 y Unicode, a menos que los caracteres no admitidos estén asignados al Área de uso privado . [1]

KPS 10721

Corea del Norte también desarrolló un segundo conjunto de caracteres, KPS 10721 " Código del conjunto Hanja coreano complementario para el intercambio de información ", que se publicó en 2000. KPS 10721 codifica un conjunto de al menos 19469 Hanja [2] adicionales a los incluidos en KPS 9566 A partir de 2009 , no todos tenían asignaciones a Unicode, pero incluían 10358 del Repertorio y Ordenamiento Unificado , 3187 de la Extensión A de Ideógrafos Unificados de CJK y 107 de los Ideógrafos de Compatibilidad de CJK (todos en el Plano Multilingüe Básico ), así como 5767. de la Extensión B de Ideógrafos Unificados de CJK y 50 del Suplemento de Ideógrafos de Compatibilidad de CJK (en el Plano Ideográfico Suplementario ). [2] Todos los KPS 9566 Hanja también están incluidos en KPS 10721, [29] que utiliza una estructura de codificación diferente, no relacionada con ISO 2022.

Además del mapeo de estos Hanja (excluidos los que también están en KPS 9566) [29] a Unicode, se sabía poco sobre el estándar KPS 10721 fuera de Corea del Norte [2] [5] antes de 2022. Se proporcionaron glifos de referencia de Corea del Norte solo para un subconjunto de estos Hanja en las tablas de códigos Unicode, debido a la falta de datos de fuentes adecuados disponibles para el Consorcio Unicode. [30] [29] Los caracteres Unicode Hanja con fuentes KPS 9566 o KPS 10721 tienen, no obstante, referencias cruzadas a sus códigos KPS en la base de datos Unihan con la clave kIRG_KPSource; los códigos fuente de Unihan utilizan "KP0" para referirse a KPS 9566 y "KP1" para KPS 10721. [31]

En 2022, se aisló una fuente Hanja de la aplicación de Android Okpyon de Corea del Norte , que se utilizó para corregir algunos errores en los datos cartográficos de KPS-10721 a Unicode y para proporcionar nuevos glifos de referencia de Corea del Norte para los gráficos de códigos Unicode; Al hacerlo, también se dedujeron las asignaciones de KPS 9566 Hanja a KPS 10721. [29] [32] Los glifos de referencia existentes se actualizaron en Unicode 15 en septiembre de 2022, [33] mientras que CJK y Unihan Group del Consorcio Unicode recomendaron en noviembre de 2022 que el Comité Técnico de Unicode incluyera los glifos de referencia adicionales en la próxima versión de Unicode. , [34] se incluirá en Unicode 15.1 en septiembre de 2023. [35]

Documentación y relación con Unicode

La cobertura inicial de Unicode de las sílabas coreanas , agregada en la versión 1.0, se basó en el código Wansung. En Unicode versión 2.0, se agregó un nuevo bloque de sílabas coreanas (el actual bloque de sílabas Hangul ), basado en el repertorio de sílabas disponible en Johab, y se eliminó el bloque anterior (ahora está ocupado por la Extensión A de Ideógrafos Unificados de CJK ). Esto se hizo bajo el supuesto de que aún no existían datos coreanos codificados en Unicode, pero se conoció como el "lío coreano", y los comités responsables se comprometieron a no realizar un cambio tan incompatible en el futuro, [36] una promesa codificada por el Política de estabilidad Unicode. [37]

La tabla de códigos para KPS 9566-97, publicada en abril de 1997, [2] se envió al Registro Internacional ISO de Juegos de Caracteres Codificados para su registro para su uso con ISO/IEC 2022 . Fue registrado en junio de 1998 con el número ISO-IR-202 . Este cuadro de códigos está disponible públicamente en la Sociedad de Procesamiento de Información de Japón . [23]

En agosto de 1999, el organismo nacional norcoreano presentó un documento al WG2 ( ISO/IEC JTC 1/SC 2 Working Group 2), organismo ISO responsable de ISO/IEC 10646 , la norma internacional correspondiente a Unicode . Este documento solicitaba la adición de los códigos KPS 9566 a las referencias cruzadas existentes de las tablas de ideogramas unificados de CJK , la adición de 80 caracteres de símbolo de KPS 9566 que no tenían asignaciones Unicode existentes, una resolución a la diferencia en el orden de clasificación entre KPS 9566 y Unicode (debido al orden de los caracteres en Unicode siguiendo las codificaciones de Corea del Sur) y la adición de 8 combinando jamo. También solicitó que el WG2 editara el carácter Unicode existente y los nombres de los bloques para utilizar el término "carácter coreano" en lugar de "Hangul". [38] En diciembre de 1999 se presentó como tema de trabajo una versión ampliada de esta propuesta, dividida en varios documentos. [39]

El representante sueco presentó una respuesta detallada en marzo de 2000, oponiéndose a varios de los puntos y explicando el voto de Suecia en contra de la propuesta. Esta respuesta afirmaba que volver a cambiar la codificación de los caracteres coreanos causaría una alteración importante, incluso más que la primera vez, lo que se hizo cuando existían comparativamente pocas implementaciones, pero que, en retrospectiva, no debería haberse hecho. Explicó que pocos o ninguno de los idiomas se pueden cotejar correctamente por valor de punto de código, y que para ese fin se debería utilizar una adaptación para el algoritmo de cotejo Unicode o ISO/IEC 14651 (en ese momento en redacción), y que los nombres normativos de los caracteres ya Los idiomas asignados no se pueden cambiar debido a la política de estabilidad, aunque se pueden emplear traducciones no normativas a otros idiomas. Sugirió que el propio organismo norcoreano podría proporcionar un archivo de mapeo legible por máquina entre Unicode y KPS 9566, y sería más útil que una referencia cruzada impresa en el documento estándar. Con respecto a los caracteres adicionales propuestos, la respuesta indicó que no deberían agregarse caracteres que tendrían descomposiciones de compatibilidad en Unicode y que no deberían agregarse logotipos, incluidos los de partidos políticos, ni caracteres especiales para nombres de personas en particular. [40]

En julio de 2000, el organismo norcoreano escribió al WG2, acusándolo de desarrollar ambas versiones de la codificación Unicode para coreano basándose únicamente en propuestas de Corea del Sur, sin consultar a Corea del Norte, acusándolo de poner en riesgo los intereses comerciales de las empresas y los temores de las autoridades internacionales. confusión sobre el respeto a la soberanía de Corea del Norte, y afirmando que Corea del Norte consideraría una mayor negativa a cambiar el nombre y el orden de los caracteres coreanos en Unicode como un insulto a su dignidad soberana y como un compromiso para las pretensiones de imparcialidad de la ISO . Reiteraron su demanda de que WG2 y Unicode "corrijan" el orden de los caracteres coreanos y "corrijan" los nombres "Hangul Jamo" y "Hangul Syllable" por "Alfabeto coreano" y "Sílaba coreana". [4]

En agosto de 2000, el organismo nacional norcoreano presentó una versión más detallada de sus solicitudes en una serie de cinco propuestas consecutivas. Estos solicitaron la adición de 14 caracteres jamo adicionales, [41] la adición de 82 caracteres simbólicos, [42] y el uso del término "alfabeto coreano" en lugar de "Hangul", [43] proporcionaron evidencia de respaldo para la recopilación de Corea del Norte. orden, [21] y solicitó la adición del repertorio norcoreano Hanja. [44] Estas propuestas fueron discutidas en dos reuniones entre representantes norcoreanos, surcoreanos , suecos y otros representantes del WG2 en septiembre de 2000, en las que se pidió al organismo norcoreano que proporcionara evidencia manuscrita de los caracteres jamo adicionales, para volver a presentar su propuesta de símbolos con se eliminaron los símbolos que ya habían sido aceptados en Unicode, y considerar el uso de ISO/IEC 14651 , entonces en la etapa de borrador final, para propósitos de cotejo. [45]

En septiembre de 2001, el organismo nacional de Corea del Norte presentó una serie revisada de propuestas solicitando la adición de varios caracteres KPS 9566 y KPS 10721, incluidos 70 caracteres de símbolo, a Unicode. [46] [47] En esta versión de la propuesta, se incluyó una sección de extractos de documentos que demuestran el uso de varios caracteres y breves explicaciones de su propósito. El símbolo del Partido de los Trabajadores de Corea fue denominado "Hoz, Martillo y Cepillo", [46] renombrado como "Marca del Partido de los Trabajadores de Corea" en versiones anteriores de la propuesta, [42] y se justificó su uso como símbolo. Símbolo de identificación en los mapas. [46] Como justificación de los caracteres propuestos para los nombres de los líderes, explicaron que los nombres de los líderes a menudo aparecen con un tamaño y peso de fuente diferente en las publicaciones de Corea del Norte con el fin de dar énfasis. [46] Un seguimiento realizado por representantes del WG2 de Corea del Sur solicitó evidencia, nombres en coreano y justificaciones para agregar algunos de estos caracteres, y señaló que ya existían versiones sin énfasis de los caracteres para los nombres de los líderes. [48] ​​En octubre de 2001 se convocó una reunión de representantes de Corea del Norte y del Sur del WG2, en la que se recomendó agregar 47 de los caracteres simbólicos a Unicode, y se sugirió que los nombres de los líderes y los símbolos del WPK se plantearan para una mayor discusión en el WG2. [49]

Un documento de comentarios posterior de febrero de 2002 sobre las adiciones propuestas por Corea del Norte solicitó que el símbolo de "té" para una casa de té fuera aceptado como un símbolo más general de "bebida caliente", equiparándolo con los símbolos utilizados en las guías para indicar bebidas calientes o no alcohólicas. bebidas. También recomendó que se modificara el glifo de referencia del punto de código existente para un paraguas sin lluvia a fin de armonizarlo con el glifo de referencia propuesto para el paraguas con lluvia, equiparándolos con los símbolos de "mantener seco" utilizados en los envases, y planteó la cuestión de cuáles Los símbolos de advertencia de rayo y alto voltaje en las colecciones de símbolos existentes podrían unificarse con el carácter propuesto de "alto voltaje". [50] Estos tres caracteres fueron aceptados en Unicode en la versión 4.0. [51] También recomendó que las fracciones con barras horizontales y las tijeras que apuntan hacia la izquierda se codificaran utilizando un selector de variación , ya que las tijeras no acompañaban a un par de tijeras orientadas de manera diferente, y dado que los puntos de código de fracción Unicode existentes unificaban las fracciones sesgadas. y formas horizontales. [50]

En noviembre de 2002, el organismo surcoreano publicó un conjunto de tablas de tres entradas que asignan caracteres entre las normas KPS 9566, KS X 1001 (como EUC-KR) e ISO/IEC 10646 tal como existían en 2000. Estas tablas se habían preparado sin aportes de Corea del Norte. [52]

En agosto de 2004, un individuo que usaba el nombre "ooprojlover" envió al proyecto OpenOffice.org un par de tablas de mapeo entre KPS 9566-2003 y Unicode , quien afirmó que representaban la versión actualizada del estándar KPS 9566 y solicitó que se agregue soporte. [22] Estos archivos asignaron los caracteres no disponibles en Unicode al Área de uso privado e incluyeron formas codificadas adicionales para otros bloques de sílabas fuera del plano principal ISO-IR-202. Posteriormente, el Consorcio Unicode publicó una tabla de mapeo en 2011, basada en estos datos de mapeo, pero con errores corregidos con referencia al gráfico ISO-IR. [1]

Las copias de Red Star OS 3.0 incluyen fuentes para una edición más reciente de KPS 9566, que parece ser KPS 9566-2011. La tabla de mapeo utilizada internamente por Red Star OS se ha extraído con éxito. Además de agregar a Kim Jong Un a la lista de líderes, KPS 9566-2011 modifica las asignaciones de ciertas formas verticales en comparación con las asignaciones de 2003 (aprovechando el bloque de Formas verticales agregado en Unicode 4.1), y también incluye varios Hanja y símbolos codificados adicionales. fuera del plano ISO-IR-202. Varios de estos símbolos adicionales también están asignados al Área de Uso Privado; sin embargo, se desconoce su identidad, ya que no se conocen nombres ni glifos de referencia para esos personajes fuera de Corea del Norte. [3]

Impacto en Unicode hoy

Se agregaron varios caracteres Unicode actuales a Unicode 4.0 como resultado de las propuestas de Corea del Norte, aunque no siempre en los puntos de código propuestos originalmente. Estos incluyen BEBIDA CALIENTE (☕, propuesta como SÍMBOLO DE TÉ), que se propuso como símbolo en el mapa para marcar una casa de té , y los símbolos de bandera BANDERA BLANCA (⚐) y BANDERA NEGRA (⚑), que se propusieron como símbolos en el mapa para sitios. de batallas y victorias militares. [6] Estos caracteres fueron propuestos para los puntos de código provisionales U+270A, U+268E y U+268F respectivamente, [49] pero codificados en los puntos de código finales U+2615, U+2690 y U+2691 respectivamente. [53] También incluyen una serie de flechas direccionales en negrita en el rango U+2B05 a U+2B0D, [49] excluyendo una flecha hacia la derecha, que se asignó a un carácter existente en el bloque Dingbats , [54] que se agregaron en los mismos puntos de código para los que fueron propuestos, además de que las flechas noreste y noroeste se intercambiaron en comparación con la propuesta. [55]

Otros personajes pictográficos que se incluyeron en la propuesta norcoreana incluyen el paraguas con gotas de lluvia (☔), el rayo de alto voltaje (⚡) y el triángulo de advertencia (⚠). [49] Después de una discusión sobre qué otros glifos de símbolos de alto voltaje en uso representaban el mismo carácter que el de la propuesta de Corea del Norte, [50] y qué glifo sería mejor incluirlo en el cuadro de códigos Unicode, [56] y tras la modificación del glifo del gráfico de códigos del carácter de paraguas existente sin lluvia (U+2602, ☂) para armonizar con el nuevo paraguas con gotas de lluvia de la propuesta de Corea del Norte, [50] [58] estos caracteres también se agregaron en Unicode 4.0 , al mismo tiempo que las banderas y el símbolo de la bebida. [51] [53] [56] Aunque se propusieron para los puntos de código provisionales U+2618, U+267F y U+267E, [49] se les asignaron los puntos de código finales U+2614, U+26A1 y U+26A0 respectivamente. . [53]

De estos caracteres, la bebida caliente, el paraguas con gotas de lluvia, el rayo y el triángulo de advertencia, y las flechas hacia arriba, hacia abajo y hacia la izquierda fueron seleccionados posteriormente como asignaciones de los conjuntos de emojis móviles japoneses , [59] haciendo un total de siete emoji Unicode actuales que se agregaron originalmente a Unicode a pedido de Corea del Norte. El paraguas con gotas de lluvia y las flechas hacia arriba, hacia abajo y hacia la izquierda también se unificaron con caracteres de las extensiones ARIB utilizadas en la radiodifusión japonesa, [60] que incluyen varios caracteres ahora clasificados como emoji, [61] y se asignó a Unicode en Unicode 5.2. [62] Sin embargo, el par de banderas blancas y negras utilizadas como emoji o en secuencias de banderas de identidad y regionales emoji es un conjunto diferente de "ondear" agregado en Unicode 7.0 (U+1F3F3 🏳 y U+1F3F4 🏴), [63] [64] no la pareja norcoreana.

En 2018, quedaban varios caracteres KPS 9566 que no están asignados a Unicode. Estos incluyen el símbolo WPK, cuatro marcas triangulares, un par de tijeras que apuntan hacia la izquierda (excluidas porque no se había demostrado el uso contrastante con las tijeras que apuntan hacia la derecha en el bloque Dingbats ), una manícula que apunta hacia arriba en un círculo, presentación vertical formas de signos de puntuación, variantes de corchetes de cierre que incorporan puntos , variantes con barras horizontales de fracciones vulgares codificadas por separado de sus versiones inclinadas, y los nombres de los líderes. [sesenta y cinco]

En KPS 9566-97 se incluyó una marca postal japonesa con un triángulo que apunta hacia abajo, pero se eliminó en KPS 9566-2003 [1] después de que el organismo norcoreano la retirara de su propuesta Unicode para revisión [66] en respuesta a solicitudes del Sur. organismo coreano en busca de pruebas del uso del símbolo en Corea del Norte. [48] ​​Esta marca se volvió a proponer en 2018 sobre la base de la compatibilidad con KPS 9566 y se identificó como una marca de conformidad eléctrica utilizada en Japón antes de su reemplazo por el diamante PSE . [67] Se agregó a Unicode en la versión 13.0, publicada en 2020.

Formas codificadas

La edición de 1997 de KPS 9566 se registró en el Registro internacional de conjuntos de caracteres codificados para uso con secuencias de escape como ISO-IR-202, [23] y, por lo tanto, se puede codificar utilizando ISO/IEC 2022 . Es un conjunto G de múltiples bytes de 94 n , es decir, si se usa en un código ISO 2022 de 7 bits (análogo a ISO-2022-JP o ISO-2022-KR ), los caracteres se codificarán con pares de bytes entre 0x21 y 0x7E cuando está en el modo apropiado.

Las asignaciones documentadas entre KPS 9566 y Unicode para las ediciones de 2003 [22] [1] y 2011 [3] de KPS 9566 utilizan una codificación que se asemeja a una adaptación del Código Hangul Unificado (UHC) para codificar KPS 9566 en lugar del código Wansung, con sus Las versiones actualizadas del plano ISO-IR-202 se codifican utilizando pares de bytes entre 0xA1 y 0xFE, y con otros códigos de dos bytes utilizados para sílabas que no están presentes en ISO-IR-202. El orden de las sílabas extendidas sigue el orden habitual de KPS 9566. De manera similar a UHC, utilizan bytes iniciales 0x81 y superiores, y bytes finales de los rangos 0x41–0x5A, 0x61–0x7A y 0x81–0xFE, excluyendo el rango 0xA1–0xFE si el byte principal es 0xA1 o superior. [3]

La edición de 2011 también incluye varios Hanja adicionales y símbolos codificados fuera del plano ISO-IR-202, después del rango utilizado para los bloques de sílabas extendidos. [3] Este enfoque es similar al adoptado por GBK , pero con los bytes finales que permanecen en los rangos de estilo UHC: al igual que las sílabas extendidas con bytes iniciales 0xA1 y superiores, todos usan los rangos de bytes finales 0x41–0x5A, 0x61– 0x7A y 0x81–0xA0. Los Hanja extendidos se codifican con bytes iniciales entre 0xC8 y 0xDC, los símbolos extendidos se codifican utilizando bytes iniciales entre 0xE0 y 0xEA, y los códigos extendidos con bytes iniciales entre 0xEC y 0xFE se asignan, sin espacios, al área de uso privado [3] (compárese los rangos definidos por el usuario en GBK). Varios de los caracteres de la sección de símbolos extendidos y tres de la sección Hanja también están asignados al Área de uso privado Unicode; A diferencia de los símbolos mapeados por PUA en el plano principal ISO-IR-202, se desconoce la identidad de estos caracteres. [3]

byte principal

Este gráfico detalla el diseño general del plano principal del conjunto de caracteres KPS 9566 por byte inicial. [23] Para los bytes iniciales utilizados para caracteres distintos de las sílabas Chosŏn'gŭl o Hanja compuestas, se proporcionan enlaces a cuadros en esta página que enumeran los caracteres codificados bajo ese byte inicial. Para los bytes iniciales utilizados para Hanja, se proporcionan enlaces a la sección correspondiente del índice Hanja de Wikcionario .

Cuando se proporcionan dos números hexadecimales, el valor inferior a 0x7F se utiliza en una codificación de 7 bits, [a] y el valor mayor (entre 0xA1 y 0xFE) se utiliza en una codificación de estilo EUC de 8 bits . [17] Las codificaciones extendidas de 8 bits estilo UHC definidas por la edición de 2003 en adelante también utilizan los valores de bytes más grandes, entre 0xA1 y 0xFE inclusive, para el plano principal basado en ISO-IR-202. [1] [3]

Conjuntos no compuestos ni de Hanja en el plano principal

Juego de caracteres 0x21/0xA1 (fila número 1, puntuación y formas verticales)

Este conjunto contiene puntuación de oraciones comunes, como corchetes, comillas, comas, etc., así como formas de presentación para usar en escritura vertical. La puntuación ASCII (resaltada) se muestra a continuación asignada a puntos de código latinos básicos (consistente con artículos sobre otros conjuntos de caracteres CJK, como KS X 1001 o JIS X 0208 ), pero se asigna al bloque Halfwidth y Fullwidth Forms cuando se usa en una codificación que combina KPS 9566 con ASCII (como se define, por ejemplo, en la edición de 2003). [1]

En comparación con la asignación de 2003, la asignación de 2011 cambia las asignaciones Unicode de tres formularios de presentación verticales para aprovechar el bloque de formularios verticales introducido con Unicode 4.1. [3]

Juego de caracteres 0x22/0xA2 (fila número 2, símbolos y operadores)

Este conjunto incluye operadores matemáticos y algunos otros símbolos como el signo comercial , el pilcrow , la nota musical , etc. La puntuación ASCII (resaltada) se muestra a continuación asignada a puntos de código latinos básicos (consistente con artículos sobre otros conjuntos de caracteres CJK), pero se asigna al bloque de formas de ancho medio y ancho completo cuando se usa en una codificación que combina KPS 9566 con ASCII . [1]

En esta fila se incluyen varios símbolos triangulares de "marcas de carretera" que denotan montañas próximas o pendientes hacia adelante o hacia un lado, pero actualmente no están incluidos en Unicode. Están asignados al Área de Uso Privado. [46]

Juego de caracteres 0x23/0xA3 (fila número 3, dígitos y romano)

Este conjunto incluye un subconjunto de ASCII , menos puntuación y símbolos, que comprende números arábigos occidentales y ambos casos del alfabeto latino básico . Compare la fila 3 de JIS X 0208 , que esta fila coincide exactamente. Compare y contraste la fila 3 de KS X 1001 y GB 2312 , que incluyen sus variantes nacionales completas de ISO 646 en esta fila, en lugar de solo el subconjunto alfanumérico.

Los caracteres de esta fila se muestran a continuación asignados a puntos de código de latín básico (consistente con los artículos sobre los otros conjuntos de caracteres), pero se asignan al bloque de formularios de ancho medio y ancho completo cuando se usan en una codificación que combina KPS 9566 con ASCII . [1]

Conjunto de caracteres 0x24/0xA4 (fila número 4, Chosŏn'gŭl jamo y nombres de los líderes)

Este conjunto contiene Chosŏn'gŭl jamo , así como codificaciones especiales para los nombres (a partir de 2003) de los líderes norcoreanos Kim Il Sung y Kim Jong Il . El nombre de Kim Jong Un también se incluye a partir de la edición de 2011. [3] Comparar con la fila 4 de KS X 1001 .

Los jamo de esta fila que existen en el bloque Jamo de compatibilidad Unicode Hangul (que contiene los caracteres independientes de la posición asignados desde KS X 1001) se asignan a ese bloque. El obsoleto jamo que distingue las sibilantes palatalizadas se asigna a los caracteres específicos de la posición en el bloque Hangul Jamo . [1] Por el contrario, no todos los jamo obsoletos codificados por KS X 1001 están codificados en el plano principal de KPS 9566. En la edición de 2011 de KPS 9566, algunos de los otros jamos históricos de KS X 1001 se incluyen fuera del plano principal. plano, con el byte inicial 0xEA. [3]

Las codificaciones especiales de los nombres de los líderes no están presentes en Unicode y están asignadas al Área de uso privado. Se muestran a continuación simulados con marcado.

Juego de caracteres 0x25/0xA5 (fila número 5, cirílico)

Este conjunto incluye ambos casos de 33 letras de la escritura cirílica , suficientes para escribir el alfabeto ruso moderno y el alfabeto búlgaro , aunque otras formas de cirílico requieren letras adicionales. [72]

Compare la fila 12 de KS X 1001 y la fila 7 de JIS X 0208 , que utilizan el mismo diseño (pero en una fila diferente).

Juego de caracteres 0x26/0xA6 (fila número 6, letras griegas y números romanos)

Este conjunto contiene números romanos y soporte básico para el alfabeto griego , sin signos diacríticos ni sigma final .

Compare y contraste la fila 5 de KS X 1001 (que usa los mismos caracteres pero en un diseño diferente y una fila diferente) y la fila 6 de JIS X 0208 (que usa el mismo diseño para las letras griegas, pero sin los números romanos).

Conjunto de caracteres 0x27/0xA7 (fila número 7, rodeada por un círculo, superíndice, subíndice, fracciones)

Varios números encerrados en un círculo en esta fila se asignaron incorrectamente a Unicode en la edición de 2003, debido al uso de puntos de código propuestos no finales. [1] Fueron corregidos en la edición de 2011. [3]

Conjunto de caracteres 0x28/0xA8 (fila número 8, unidad, cantidad y símbolos de moneda)

Este conjunto contiene símbolos para unidades de medida y moneda. Los presentes en ASCII (resaltados) se muestran a continuación asignados a puntos de código latinos básicos (consistentes con artículos sobre otros conjuntos de caracteres CJK), pero se asignan al bloque Halfwidth y Fullwidth Forms cuando se usan en una codificación que combina KPS 9566 con ASCII . [1]

El signo de Kelvin fue sustituido por el signo del euro en la edición de 2003. [1] La edición de 2011 incluye una codificación alternativa del signo Kelvin en 0xE988. [3]

Compare y contraste con el repertorio de símbolos de unidades incluidos en la fila 7 de KS X 1001 .

Conjunto de caracteres 0x29/0xA9 (fila número 9, dibujo de cuadro)

Juego de caracteres 0x2A/0xAA (fila número 10, Hiragana)

Esta fila contiene Hiragana para su uso en el idioma japonés .

Compare la fila 10 de KS X 1001 , que utiliza el mismo diseño. Compare y contraste la fila 4 de JIS X 0208 , que también utiliza el mismo diseño, pero en una fila diferente.

Juego de caracteres 0x2B/0xAB (fila número 11, Katakana)

Esta fila contiene Katakana para su uso en el idioma japonés . Sin embargo, la marca de vocal larga japonesa , que se utiliza en el texto katakana y se incluye en la fila 1 de JIS X 0208 , no está incluida (de manera similar a GB 2312 y KS X 1001), [73] aunque sí está incluida en KPS 9566- 2011 fuera del avión principal, en 0xEA48. [3]

Compárese la fila 11 de KS X 1001 , que utiliza el mismo diseño. Compare y contraste la fila 5 de JIS X 0208 , que también utiliza el mismo diseño, pero en una fila diferente.

Juego de caracteres 0x2C/0xAC (fila número 12, símbolos varios y flechas)

Con el fin de asignar esta fila a Unicode, la flecha en negrita hacia la derecha se unificó con la flecha en negrita hacia la derecha de Zapf Dingbats (U+27A1), [54] aunque las tablas anteriores (que carecían de asignaciones para las otras flechas en negrita) la habían unificado. con U+279E, un personaje de Zapf Dingbats ligeramente diferente. [52] Dado que las flechas correspondientes en otras direcciones no se incluyeron en el bloque Dingbats , se codificaron flechas adicionales entre U+2B05 y U+2B0D para compatibilidad con KPS 9566. Estas se incorporaron a los gráficos de códigos Unicode utilizando los glifos de referencia propuestos por Organismo nacional de Corea del Norte, mientras que U+27A1 conservó su glifo de referencia basado en Zapf Dingbats. [54] Estas flechas (U+2B05 a U+2B07, más U+27A1) se eligieron en Unicode 6.0 como asignaciones para algunos de los caracteres de flecha en conjuntos de emoji celulares . [59] Posteriormente, durante la adición del repertorio Wingdings 3 en Unicode 7.0, se revisó la cobertura Unicode de los caracteres de flecha, lo que resultó en la adición de una flecha adicional hacia la derecha en U+2B95 con la intención de armonizar con los caracteres U+2B05 a U. +2B0D (en presentación de texto), ya que no se consideró apropiado cambiar el glifo de referencia para el personaje Zapf Dingbats. [54]

En ediciones anteriores de KPS 9566, como la edición de 1997, esta fila incluía tanto la marca postal de estilo japonés simple (〒) como una versión en un triángulo que apunta hacia abajo, [46] [23] que fue propuesta por el norcoreano organismo nacional para su adición a Unicode junto con los otros caracteres KPS 9566 que faltan. [46] Una respuesta de un representante de Corea del Sur , entre otras solicitudes, solicitó pruebas del uso del símbolo en Corea del Norte, señalando que la marca postal de estilo japonés no se utiliza en Corea del Sur, que utiliza un círculo 우 (es decir, ㉾) para con un propósito similar y preguntando si en Corea del Norte se utilizaba una marca postal de estilo japonés. [48] ​​Se celebró una reunión posterior para discutir esta propuesta, a la que asistieron representantes del GT2 de Corea del Norte y del Sur; El informe de la reunión señala que el organismo norcoreano había decidido revisar el carácter antes de discutirlo más a fondo y, por lo tanto, no recomendó su consideración por parte del WG2 en su conjunto. [66] El triángulo de la marca postal se eliminó posteriormente de KPS 9566 en 2003, dejando sólo la marca postal sin incluir. [1]

El triángulo de la marca postal finalmente se agregó a Unicode en la versión 13.0, tanto por compatibilidad con el carácter heredado KPS 9566-97 como después de que la marca se identificara como un símbolo que se había utilizado para la certificación de aparatos eléctricos en Japón (como predecesor). al diamante PSE ). [67]

Ciertos caracteres de KPS 9566 en esta fila, a saber, dos formas del emblema del Partido de los Trabajadores de Corea , un par de tijeras que apuntan en una dirección diferente a las del bloque Dingbats y una manícula con un círculo que apunta hacia arriba , permanecen asignados a la Área de Uso Privado . [1]

Las flechas blancas noreste y noroeste utilizaron asignaciones Unicode intercambiadas incorrectamente en la edición de 2003. [1] Esto se corrigió en las asignaciones de la edición de 2011. [3]

Juego de caracteres 0x2E/0xAE (número de fila 14, subconjunto Latin-1)

Los personajes de este conjunto no estaban presentes en la versión de 1997 del conjunto de caracteres, pero se agregaron en la versión de 2003. [1] Constituyen un subconjunto del bloque Suplemento Latin-1 de Unicode (equivalente a la mitad superior del conjunto de caracteres ISO 8859-1 (Latin-1)). Esto incluye letras y símbolos romanos acentuados. Algunos de los símbolos que ya estaban incluidos se omiten, mientras que otros se duplican como contrapartes de ancho medio de las formas anteriores de ancho completo : por ejemplo, el signo no (¬, U+00AC) se representa como 0xAEAC, mientras que su forma de ancho completo (¬, U+FFE2) se representa como 0xA2D1 (en la fila 2). [1]

Esta fila se omite en el mapeo de la edición 2011 del estándar, [3] lo que indica que puede haber sido eliminada en algún momento después de la edición 2003. En cambio, el signo yen de ancho medio está codificado en 0xE98E en la edición de 2011. [3]

El espacio requerido quedaría fuera del rango de 94 caracteres, chocando con el área utilizada para las sílabas Chosŏn'gŭl extendidas cuando se usa una codificación de estilo UHC (específicamente, con la sílaba 쁲), [1] y se omite. Aunque la y con trema también queda fuera del rango de 94 caracteres y el byte de seguimiento 0xFF no se utiliza, el código 0xAEFF se le asigna en KPS 9566-2003. [1]

Conjuntos precompuestos de Chosŏn'gŭl (filas 16 a 44)

A los grupos de sílabas Chosŏn'gŭl precompuestos se les asignan puntos de código en un bloque ordenado continuo entre los puntos de código 16-01 y 44-47 inclusive. No a todos los grupos posibles se les asignan puntos de código. [74] Compare los diferentes pedidos y disponibilidad en KS X 1001 .

La forma codificada documentada para KPS 9566-2003 codifica el plano KPS 9566 en GR (0xA1-0xFE) y además codifica los grupos de sílabas restantes utilizando bytes iniciales en el rango 0x80-0xC2 y bytes finales en los rangos 0x41-0x5A, 0x61-0x7A. y 0x81-0xFE (donde como máximo un byte está en el rango 0xA1-0xFE), [1] de manera similar al Código Hangul Unificado pero con los clústeres omitidos y el orden de clasificación de KPS 9566, no KS X 1001 .

Conjuntos de Hanja (filas 45 a 94)

El Hanja en 69-09 (0xE5A9) está asignado a U+676Een todas las tablas documentadas; Sin embargo, los caracteres están ordenados según sus lecturas, por lo que parece que en su lugar está previsto que sea U+67FF. [75]

Conjuntos extendidos sin sílabas ni hanja en KPS 9566-2011

A continuación se muestran gráficos para la sección sin sílabas ni Hanja de KPS 9566-2011 fuera del plano principal. [3]

Conjunto de extensión 0xE0 (símbolos y pictografías)

Conjuntos de extensiones 0xE1, 0xE2, 0xE3 (desconocido)

Todos los caracteres de estos conjuntos de extensiones se asignan al área de uso privado. Se desconoce su propósito. [3]

Conjunto de extensión 0xE4 (flechas)

Este conjunto incluye varias flechas, en su mayoría hacia la derecha, que se asignan al bloque Unicode Dingbats y a otros lugares. [3]

Conjunto de extensiones 0xE5 (superíndices y subíndices romanos)

Esta fila incluye varios superíndices romanos en minúsculas con bytes de seguimiento correspondientes a sus equivalentes ASCII en mayúsculas, y subíndices romanos en minúsculas con bytes de seguimiento correspondientes a sus equivalentes ASCII en minúsculas. [3]

Conjunto de extensiones 0xE6 (superíndices y subíndices griegos y de símbolos)

Conjunto de extensiones 0xE7 (otros marcadores de lista)

Conjunto de extensión 0xE8

Todos los caracteres de este conjunto de extensiones se asignan al área de uso privado, excepto 0xE884, que se asigna a U+FE30FORMULARIO DE PRESENTACIÓN PARA LÍDER VERTICAL DE DOS PUNTOS . [3]

Conjunto de extensiones 0xE9 (símbolos y puntuación adicionales)

Este conjunto contiene símbolos de palos de naipes, varios símbolos diversos y contrapartes de ancho medio para algunos de los símbolos de moneda en la fila 8. También se incluye el signo de Kelvin , [3] que ha sido reemplazado en la fila 8 por el signo del euro . [1]

Conjunto de extensiones 0xEA (puntuación japonesa y jamo adicional)

Este conjunto contiene varios signos de puntuación utilizados en Japón y algunos caracteres del bloque Jamo Unicode de compatibilidad Hangul que aún no están incluidos en la fila 4. [3] Esto comprende algunos de los caracteres jamo presentes en KS X 1001 , pero que anteriormente no estaban en KPS. 9566.

Notas a pie de página

  1. ^ Por ejemplo, los encabezados del gráfico ISO-IR-202 muestran códigos binarios de 7 bits, así como códigos kuten/hang-yol, para los caracteres). [23]
  2. ^ ab Como conjunto de caracteres de 94 n compatible con ISO 2022 , el espacio simple y el carácter de eliminación siempre están disponibles como códigos de un solo byte en 0x20 y 0x7F (no 0xA0 y 0xFF) respectivamente.
  3. ^ O U+223COPERADOR TILDE . [52]
  4. ^ Otras asignaciones utilizan U+00AD SUAVE HYPHEN , para coincidir con KS X 1001 01-09 . [52]
  5. ^ abcde Un carácter de ancho medio está presente en la fila 14; este es específicamente un carácter de ancho completo.
  6. ^ Una forma vertical del guión de tilde. El archivo de mapeo proporcionado por Unicode Consortium reconoce el mapeo por nombre a U+2E2F, [1] que es utilizado por Red Star OS , [7] pero señala que el carácter Unicode está destinado a un carácter significativamente diferente (un espaciado vertical- tilde con diacrítico alto) y también enumera el mapeo U+F104 (en el área de uso privado), [1] basado en datos de mapeo que se enviaron al proyecto OpenOffice.org en 2004. [22] Se muestra aquí usando una imagen.
  7. ^ ab Un carácter que combina un punto con un corchete de cierre, asignado al Área de uso privado, que se muestra aquí sustituido.
  8. ^ O U+25E6BALA BLANCA . [52]
  9. ^ O U+2022BALA . [52]
  10. ^ abcd Asignado al área de uso privado, que se muestra aquí usando una imagen.
  11. ^ Mac OS Korean (HangulTalk), una codificación de código Wansung más conjuntos de extensiones, codifica un carácter visualmente similar en 0xA79B, [68] que Apple asigna a la secuencia Unicode U+25B4+20E4 (▴⃤). [69] Sin embargo, no existe un uso documentado de esta asignación para el carácter KPS 9566.
  12. ^ Aceptado para su inclusión en Unicode 16.0, [70] actualmente en trámite con el punto de código U+1CC81. [71]
  13. ^ abcdefghi Un carácter en negrita/enfatizado del nombre de un líder norcoreano, asignado al Área de uso privado, que se muestra aquí simulado con marcado.
  14. ^ abcde Forma de una fracción con una barra horizontal y disposición vertical, asignada al Área de uso privado, que se muestra aquí simulada.
  15. ^ Grados Kelvin en la versión de 1997 (algunas versiones de la tabla de códigos incluyen un signo de grado en el símbolo de la unidad). Euro a partir de la versión 2003.
  16. ^ ab Emblema del Partido de los Trabajadores de Corea , asignado al Área de Uso Privado, que se muestra aquí usando una imagen.
  17. ^ O U+279EFLECHA HACIA LA DERECHA CON CABEZA DE TRIÁNGULO PESADO o U+2B95FLECHA NEGRA HACIA LA DERECHA : ver texto.
  18. ^ Incluido en los gráficos de la versión de 1997 y en la propuesta Unicode N2374 de 2001. Eliminado en la versión de 2003.
  19. ^ Asignado a U+261E (☞) en la edición de 2003. [1] En cambio, la edición de 2011 lo asigna al carácter de Área de uso privado U+F13B. [3] El glifo de referencia es una manícula de revés, [23] [3] es decir, que coincide con U+1F449 (👉︎). Compare 0xE04D en KPS 9566-2011.
  20. ^ Manícula circular que apunta hacia arriba , asignada al Área de uso privado, [1] que se muestra aquí usando una imagen. Un posible mapeo que no sea PUA sería la secuencia U+1F446+20DD (👆︎⃝). [7]
  21. ^ Tijeras que apuntan hacia arriba a la izquierda, asignadas al Área de uso privado, que se muestran aquí usando una imagen.

Referencias

  1. ^ abcdefghijklmnopqrstu vwxyz aa ab "KPS 9566-2003 a Unicode". Consorcio Unicode.
  2. ^ abcdefghijkl Lunde, Ken (2009). Procesamiento de información CJKV: informática china, japonesa, coreana y vietnamita (2ª ed.). Sebastopol, California : O'Reilly . págs. 148-151. ISBN 978-0-596-51447-1.
  3. ^ abcdefghijklmnopqrstu vwxyz aa ab ac ad Chung, Jaemin (5 de enero de 2018). «Información sobre la versión más reciente de KPS 9566 (¿KPS 9566-2011?)» (PDF) . UTCL2/18-011.
  4. ^ abcd Cho, Chun-Hui (5 de julio de 2000). "Carta de la RPDC sobre nombres de personajes y pedidos en 10646-1: 2000" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2231.
  5. ^ abc Lunde, Ken (25 de marzo de 2019). "Cuatro iguales: KS X 1001 y KPS 9566". Blog tipo CJK . Adobe Inc.
  6. ^ ab Ewell, Doug (15 de agosto de 2002). "Re: secuencias de comandos en Unicode 4.0". Archivo de lista de correo Unicode .
  7. ^ abcd West, Andrew (29 de mayo de 2015). "Asignaciones de KPS 9566 (era Re: Arrow dingbats)". Archivo de listas de correo Unicode .
  8. ^ abc Jennings, Thomas Daniel (17 de marzo de 2020) [1999]. "Un historial comentado de algunos códigos de caracteres o ASCII: Código estándar americano para la infiltración de información". Investigación sensible (SR-IX) . Archivado desde el original el 22 de mayo de 2016 . Consultado el 17 de marzo de 2020 .
  9. ^ "Estándar ECMA-6: juego de caracteres codificados de 7 bits". ECMA Internacional .
  10. ^ ab Lunde, Ken (2009). Procesamiento de información CJKV: informática china, japonesa, coreana y vietnamita (2ª ed.). Sebastopol, California : O'Reilly . pag. 89.ISBN 978-0-596-51447-1.
  11. ^ ECMA/TC 1 (1973). "Breve historia". Juego de caracteres codificados de entrada/salida de 7 bits (PDF) (4ª ed.). ECMA . ECMA-6:1973.{{citation}}: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
  12. ^ ECMA (1994). Técnicas de extensión y estructura del código de caracteres (PDF) (6ª ed.). ECMA-35:1994.
  13. ^ Lunde, Ken (2009). Procesamiento de información CJKV: informática china, japonesa, coreana y vietnamita (2ª ed.). Sebastopol, California : O'Reilly . págs. 19–20, 581–582. ISBN 978-0-596-51447-1.
  14. ^ Lunde, Ken (2009). Procesamiento de información CJKV: informática china, japonesa, coreana y vietnamita (2ª ed.). Sebastopol, California : O'Reilly . págs. 84–85. ISBN 978-0-596-51447-1.
  15. ^ ab "2.4: Conjuntos de caracteres gráficos de varios bytes". Registro internacional de juegos de caracteres codificados para utilizar con secuencias de escape (ISO-IR) (PDF) . ITSCJ/ IPSJ . pag. 14.
  16. ^ abc Lunde, Ken (2009). Procesamiento de información CJKV: informática china, japonesa, coreana y vietnamita (2ª ed.). Sebastopol, California : O'Reilly . págs. 94-147. ISBN 978-0-596-51447-1.
  17. ^ ab Lunde, Ken (2009). Procesamiento de información CJKV: informática china, japonesa, coreana y vietnamita (2ª ed.). Sebastopol, California : O'Reilly . págs. 242-255. ISBN 978-0-596-51447-1.
  18. ^ abc Shin, Jungshik. "¿Qué son KS X 1001 (KS C 5601) y otros códigos Hangul?". Preguntas frecuentes sobre Hangul e Internet en Corea .
  19. ^ ab Hwang, Jinsang (2005). La configuración social de los estándares de TIC: un caso de controversia sobre estándares nacionales de conjuntos de caracteres codificados en Corea (PDF) . Universidad de Edimburgo.
  20. ^ Lunde, Ken (18 de diciembre de 1995). "3.3.6: Hangul de N bytes". CJK.INF Versión 1.9.
  21. ^ ab Comité de Normalización de la RPD de Corea (CSK) (10 de agosto de 2000). "Evidencia de la disposición de los caracteres coreanos propuesta por CSK" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2246.
  22. ^ abcd "Tablas de conversión entre KPS 9566-2003 (coreano norcoreano) y Unicode". Apache OpenOffice (AOO) Bugzilla . 2004-08-27.
  23. ^ Comité abcdefghi de normalización de la RPD de Corea (22 de junio de 1998). Conjunto de caracteres gráficos coreanos estándar de la RPDC para el intercambio de información (PDF) . ITSCJ/ IPSJ . ISO-IR -202.
  24. ^ Consorcio Unicode . "Historia de las fechas de publicación y lanzamiento de Unicode".
  25. ^ Oeste, Andrew (17 de junio de 2019) [5 de junio de 2007]. "Unicode e ISO/IEC 10646".
  26. ^ Murata, Makoto (14 de abril de 2000). "Perfil japonés XML". Notas del W3C . W3C .
  27. ^ van Kesteren, Ana. Estándar de codificación. QUÉ WG .
  28. ^ Lunde, Ken (1999). Procesamiento de información CJKV: informática china, japonesa, coreana y vietnamita. Sebastopol, California : O'Reilly . pag. 116.ISBN 1-56592-224-7.
  29. ^ abcdBai , Yi; Sim, CheonHyeong (16 de octubre de 2022). "Propuesta para considerar agregar compatibilidad con CodeCharts para los glifos representativos de kIRG_KPSource en Unicode" (PDF) . UTCL2 /22-238.
  30. ^ Cocinero, Richard. "P: ¿Por qué faltan glifos de la RPDC (Corea del Norte == kIRG_KPSource) en algunos cuadros de códigos CJK?". Preguntas frecuentes: chino y japonés . Consorcio Unicode . Archivado desde el original el 4 de octubre de 2022.{{cite web}}: Mantenimiento CS1: URL no apta ( enlace )
  31. ^ Jenkins, John H.; Cocinero, Richard; Lunde, Ken (5 de marzo de 2020). "Base de datos Unicode Han (Unihan)". kIRG_KPFuente. Anexo #38 del estándar Unicode.
  32. ^ Sim, CheonHyeong (19 de junio de 2022). "KPS 10721:2000 (Unicode KP1源) 文件重构 (修订版)" (PDF) (en chino simplificado).
  33. ^ Por ejemplo: "Ideógrafos de compatibilidad CJK (§ Ideógrafos de compatibilidad de la RPDC" (PDF) . Gráficos versionados Unicode 15.0 (gráficos delta) . Consorcio Unicode . 2022.
  34. ^ Lunde, Ken (1 de noviembre de 2022). "35) L2/22-238: Propuesta para considerar agregar compatibilidad con CodeCharts para los glifos representativos de kIRG_KPSource" (PDF) . "Recomendaciones del grupo CJK y Unihan para la reunión UTC #173" . UTCL2 /22-247.
  35. ^ Lunde, Ken (7 de febrero de 2023). "Informe de actividad de EE. UU./Unicode para el IRG n.º 60" (PDF) . UTC L2/23-058, ISO/IEC JTC1/SC2 /WG2/ IRG N2599.
  36. ^ Yergeau, F. (1998). UTF-8, un formato de transformación de ISO 10646. IETF . doi : 10.17487/rfc2279 . RFC 2279.
  37. ^ "Políticas de estabilidad de codificación de caracteres Unicode". Consorcio Unicode. 2017-06-23.
  38. ^ Jo, Chun-Hui (10 de agosto de 1999). "Enmienda de la parte que contiene los caracteres coreanos en ISO/IEC 10646-1:1998 enmienda 5" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2056.
  39. ^ "Propuesta de nuevo elemento de trabajo (NP) para una enmienda de la parte coreana de ISO/IEC 10646-1:1993". 1999-12-07. L2 /99-380, ISO/IEC JTC 1 N5999.
  40. ^ Karlsson, Kent (2 de marzo de 2000). "Comentarios sobre la propuesta de nuevo elemento de trabajo de la RPDC sobre caracteres coreanos". ISO/IEC JTC 1/SC 2 /WG 2 N2167.
  41. ^ Comité de Normalización de la RPD de Corea (CSK) (10 de agosto de 2000). "Propuesta para la adición de 14 alfabetos coreanos a ISO/IEC 10646-1" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2243.
  42. ^ ab Comité de Normalización de la RPD de Corea (CSK) (10 de agosto de 2000). "Propuesta para la adición de 82 símbolos a ISO/IEC 10646-1" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2244.
  43. ^ Comité de Normalización de la RPD de Corea (CSK) (10 de agosto de 2000). "Propuesta para cambiar el nombre existente de los caracteres coreanos en ISO/IEC 10646-1" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2245.
  44. ^ Comité de Normalización de la RPD de Corea (CSK) (10 de agosto de 2000). "Propuesta para agregar la columna Hanja de la RPD de Corea en ISO/IEC 10646-1 (14938 ideogramas a CJK Unified Ideographs y 3181 ideogramas a su Extensión [sic] A)" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2247.
  45. ^ Grupo ad hoc de escritura coreana (21 de septiembre de 2000). "Informe de la reunión del grupo ad hoc de escritura coreana". ISO/IEC JTC 1/SC 2 /WG 2 N2282.
  46. ^ Comité abcdefg de normalización de la RPD de Corea (CSK) (3 de septiembre de 2001). Propuesta para agregar 70 símbolos a ISO/IEC 10646-1:2000 (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2374.
  47. ^ Comité de Normalización de la RPD de Corea (CSK) (3 de septiembre de 2001). Propuesta para agregar la tabla de códigos Hanja de compatibilidad 160 de la RPD de Corea a los ideogramas de compatibilidad CJK (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2375.
  48. ^ abc Gim, Gyeongseog (13 de octubre de 2001). Comentarios de la República de Corea sobre la propuesta de la RPDC, WG2 N 2374, de agregar 70 símbolos a ISO/IEC 10646-1:2000 (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2390.
  49. ^ Grupo ad hoc de escritura coreana abcde (16 de octubre de 2001). Informe de la reunión del grupo ad hoc sobre escritura coreana el 15 de octubre de 2001 (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2392, UTC L2/01-388. Archivado desde el original (PDF) el 3 de agosto de 2020 . Consultado el 29 de abril de 2020 .
  50. ^ abcd Freytag, Asmus (13 de febrero de 2002). "Notas sobre los símbolos propuestos por la RPDC" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2417, UTC L2/02-102.
  51. ^ ab Emojipedia . "Emojis Unicode 4.0". Emojipedia .
  52. ^ abcdef Kim, Kyongsok (30 de noviembre de 2002). "Posición nacional del cuerpo: tablas de referencias cruzadas de tres vías: KS X 1001, KPS 9566 y UCS" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2564.[Nota: enlaces actualizados para las tablas que acompañan al documento: [1] Archivado el 3 de abril de 2021 en Wayback Machine [2] Archivado el 3 de abril de 2021 en Wayback Machine
  53. ^ abcd "Símbolos varios" (PDF) . Gráficos de códigos delta Unicode 4.0.0 . Consorcio Unicode .
  54. ^ abcd Whistler, Ken (28 de mayo de 2015). "Re: Flechas dingbats". Archivo de lista de correo Unicode .
  55. ^ "Símbolos y flechas varios" (PDF) . Gráficos de códigos delta Unicode 4.0.0 . Consorcio Unicode .
  56. ^ ab Overington, William (24 de febrero de 2003). "Caracteres beta de Unicode 4.0".
  57. ^ "Símbolos varios" (PDF) . Gráficos de códigos delta Unicode 3.2.0 . Consorcio Unicode .
  58. ^ El gráfico de códigos Unicode 4.0 muestra el glifo modificado, [53] mientras que el gráfico de códigos Unicode 3.2 muestra el glifo anterior. [57]
  59. ^ ab Scherer, Markus; Davis, Marcos; Momoi, Kat; Tong, Darick; Kida, Yasuo; Edberg, Peter. "Símbolos emoji: datos básicos: datos básicos para la propuesta de codificación de símbolos emoji" (PDF) . UTCL2/10-132.
  60. ^ Suignard, Michel (18 de septiembre de 2007). "Símbolos de la televisión japonesa" (PDF) . UTC L2/07-391, ISO/IEC JTC 1/SC 2 /WG 2 N3341.
  61. ^ Consorcio Unicode (2020). "Versiones y fuentes de Emoji, v13.0".
  62. ^ Emojipedia . "Lista de emojis Unicode 5.2". Emojipedia .
  63. ^ Emojipedia . "Emoji de bandera blanca ondeando". Emojipedia .
  64. ^ Emojipedia . "Emoji de bandera negra ondeando". Emojipedia .
  65. ^ Marín Silva, Eduardo (2018). Propuesta para reconsiderar la compatibilidad de los símbolos y la puntuación utilizados en la RPDC (PDF) . UTCL2/18-004.
  66. ^ ab grupo ad hoc de escritura coreana (16 de octubre de 2001). Informe de la reunión del grupo ad hoc sobre escritura coreana el 15 de octubre de 2001 (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2392, UTC L2/01-388. Archivado desde el original (PDF) el 3 de agosto de 2020 . Consultado el 29 de abril de 2020 . La RPD de Corea sugirió que revisarían este carácter más cuidadosamente antes de discutirlo nuevamente en el grupo ad hoc sobre escritura coreana o WG2.
  67. ^ ab Marín Silva, Eduardo (2018). Propuesta de codificación: SÍMBOLO PARA ELECTRÓNICA TIPO A (PDF) . UTCL2/18-184R.
  68. ^ Lunde, Ken (2009). "Apéndice E: Estándares de juego de caracteres del proveedor" (PDF) . Procesamiento de información CJKV: informática china, japonesa, coreana y vietnamita (2ª ed.). Sebastopol, California : O'Reilly . ISBN 978-0-596-51447-1.
  69. ^ Manzana (5 de abril de 2005). "Mapa (versión externa) de la codificación coreana de Mac OS a Unicode 3.2 y posteriores". Consorcio Unicode .
  70. ^ "Nuevos personajes propuestos: The Pipeline". Consorcio Unicode . 2024-01-31 . Consultado el 25 de febrero de 2024 .
  71. ^ Bettencourt, Rebeca; Bueno, Doug; Banffy, Ricardo; Everson, Michael ; Hietaniemi, Jarkko; Marín Silva, Eduardo; Martenson, Elías; Shoulson, Marcos; Steele, Shawn; Turner, Rebecca (24 de noviembre de 2021). "Propuesta para agregar más caracteres de computadoras heredadas y teletexto a la UCS" (PDF) . pag. 26.UTC L2 /21-235.
  72. ^ Czyborra, Roman (30 de noviembre de 1998) [25 de mayo de 1998]. "La sopa de caracteres cirílicos". Archivado desde el original el 3 de diciembre de 2016 . Consultado el 3 de diciembre de 2016 .
  73. ^ Lunde, Ken (2009). "Personajes aparentemente desaparecidos". Procesamiento de información CJKV: informática china, japonesa, coreana y vietnamita (2ª ed.). Sebastopol, California : O'Reilly . pag. 180.ISBN 978-0-596-51447-1.
  74. ^ Esta tabla se genera a partir de KPS9566.TXT. [1]
  75. ^ Chung, Jaemin (17 de marzo de 2021). "KP0-E5A9 debe asignarse a U+67FF en lugar de U+676E" (PDF) . UTCL2/21-059.

enlaces externos