Código Unix extendido

El código Unix extendido ( EUC ) es un sistema de codificación de caracteres multibyte que se utiliza principalmente para (caracteres) japonés , coreano y chino simplificado .

Los códigos EUC más comúnmente utilizados son codificaciones de longitud variable con un carácter que pertenece a un juego de caracteres codificados compatible con ISO/IEC 646 (como ASCII ) que ocupa un byte, y un carácter que pertenece a un juego de caracteres codificados de 94×94 (como GB 2312 ) representado en dos bytes. La forma EUC-CN de GB 2312 y EUC-KR son ejemplos de códigos EUC de dos bytes. EUC-JP incluye caracteres representados por hasta tres bytes, incluido un código de cambio inicial , mientras que un solo carácter en EUC-TW puede ocupar hasta cuatro bytes.

Es más probable que las aplicaciones modernas utilicen UTF-8 , que admite todos los glifos de los códigos EUC y más, y generalmente es más portátil con menos desviaciones y errores de proveedores. Sin embargo, EUC sigue siendo muy popular, especialmente EUC-KR para Corea del Sur.

Estructura de codificación

La estructura de EUC se basa en el estándar ISO/IEC 2022 , que especifica un sistema de juegos de caracteres gráficos que se pueden representar con una secuencia de 94 bytes de 7 bits 0x 21–7E, o alternativamente 0xA1–FE si es un octavo bit. está disponible. Esto permite conjuntos de 94 caracteres gráficos, o 8836 (94 ² ) caracteres, o 830584 (94 ³ ) caracteres. Aunque inicialmente 0x20 y 0x7F siempre fueron el carácter de espacio y eliminación y 0xA0 y 0xFF no se usaron, las ediciones posteriores de ISO/IEC 2022 permitieron el uso de los bytes 0xA0 y 0xFF (o 0x20 y 0x7F) dentro de conjuntos bajo ciertas circunstancias, permitiendo la inclusión de conjuntos de 96 caracteres. Los rangos 0x00–1F y 0x80–9F se utilizan para los códigos de control C0 y C1 .

EUC es una familia de perfiles de 8 bits de ISO/IEC 2022 , a diferencia de los perfiles de 7 bits como ISO-2022-JP . Como tal, solo los juegos de caracteres que cumplen con ISO 2022 pueden tener formularios EUC. Con el esquema EUC se pueden representar hasta cuatro juegos de caracteres codificados (denominados G0, G1, G2 y G3 o juegos de códigos 0, 1, 2 y 3). El conjunto G0 se establece en un conjunto de caracteres codificados que cumple con ISO/IEC 646 , como US-ASCII , ISO 646:KR ( KS X 1003 ) o ISO 646:JP (la mitad inferior de JIS X 0201 ) y se invoca a través de GL (es decir, 0x21–0x7E, con el bit más significativo borrado). ^[1] Si se utiliza US-ASCII, esto convierte el código en una codificación ASCII extendida ; La desviación más común de US-ASCII es que 0x5C ( barra invertida en US-ASCII) se usa a menudo para representar un signo de yen en EUC-JP (ver más abajo) y un signo de won en EUC-KR.

Los demás conjuntos de códigos se invocan a través de GR (es decir, con el conjunto de bits más significativo). Por lo tanto, para obtener la forma EUC de un carácter, se establece el bit más significativo de cada byte de codificación (equivalente a sumar 128 a cada byte de codificación de 7 bits, o sumar 160 a cada número en el código kuten ); esto permite que el software distinga fácilmente si un byte particular en una cadena de caracteres pertenece al código ISO 646 o al código extendido. Los caracteres en los conjuntos de códigos 2 y 3 tienen el prefijo de los códigos de control SS2 (0x8E) y SS3 (0x8F) respectivamente, y se invocan a través de GR. Además del código de cambio inicial, cualquier byte fuera del rango 0xA0–0xFF que aparezca en un carácter de los conjuntos de códigos 1 a 3 no es un código EUC válido. ^[1]

El código EUC en sí no utiliza las secuencias de anuncios y designaciones de ISO 2022 . ^[1] Sin embargo, la especificación del código es equivalente a la siguiente secuencia de cuatro secuencias de anuncios ISO 2022 , con significados desglosados de la siguiente manera. ^[1]

Formato de longitud fija

La codificación de longitud variable basada en ISO-2022 descrita anteriormente a veces se denomina formato empaquetado EUC , que es el formato de codificación generalmente etiquetado como EUC. Sin embargo, el procesamiento interno de datos EUC puede utilizar un formato de transformación de longitud fija llamado formato EUC completo de dos bytes . Esto representa: ^[2]

El código establece 0 como dos bytes en el rango 0x21–0x7E (excepto que el primero puede ser 0x00).
El código establece 1 como dos bytes en el rango 0xA0–0xFF (excepto que el primero puede ser 0x80).
El código establece 2 como un byte en el rango 0x21–0x7E (o 0x00) seguido de un byte en el rango 0xA0–0xFF.
El código establece 3 como un byte en el rango 0xA0–0xFF (o 0x80) seguido de un byte en el rango 0x21–0x7E.

Los bytes iniciales de 0x00 y 0x80 se utilizan en los casos en que el conjunto de códigos utiliza solo un byte. También existe un formato de longitud fija de cuatro bytes. ^[2] Estos formatos de codificación de longitud fija son adecuados para el procesamiento interno y normalmente no se encuentran en el intercambio.

EUC-JP está registrado ante la IANA en ambos formatos, el formato empaquetado como "EUC-JP" o "csEUCPkdFmtJapanese" y el formato de ancho fijo como "csEUCFixWidJapanese". ^[3] Solo el formato empaquetado se incluye en el estándar de codificación WHATWG utilizado por HTML5 . ^[4]

EUC-CN

EUC-CN ^[6] es la forma codificada habitual del estándar GB 2312 para caracteres chinos simplificados . A diferencia del caso de los japoneses JIS X 0208 e ISO-2022-JP , GB 2312 normalmente no se usa en una versión de código ISO 2022 de 7 bits , ^[a] aunque existe una forma variante llamada HZ (que delimita el texto GB 2312 con secuencias ASCII) A veces se usaba en USENET .

Un carácter ASCII se representa en su codificación habitual. Un carácter de GB 2312 está representado por dos bytes, ambos del rango 0xA1–0xFE.

código 748

Una codificación relacionada con EUC-CN es el código "748" utilizado en el sistema de composición tipográfica WITS desarrollado por Founder Technology de Beijing (ahora obsoleto por su nuevo sistema de composición tipográfica FITS). El código 748 contiene todo GB 2312 , pero no cumple con ISO 2022 y, por lo tanto, no es un verdadero código EUC. (Utiliza un byte inicial de 8 bits, pero distingue entre un segundo byte con su bit más significativo configurado y uno con su bit más significativo borrado y, por lo tanto, es más similar en estructura a Big5 y otros DBCS que no cumplen con ISO 2022. sistemas de codificación.) La parte del código 748 que no es GB2312 contiene caracteres tradicionales y de Hong Kong y otros glifos utilizados en la tipografía de periódicos.

Páginas de códigos IBM 1380, 1381, 1382 y 1383

La página de códigos IBM 1381 ( CCSID 1381) comprende la página de códigos de un solo byte 1115 (CPGID 1115 como CCSID 1115) y la página de códigos de doble byte 1380 (CPGID 1380 como CCSID 1380), ^[7] que codifica GB 2312 de la misma manera que EUC-CN, pero se desvía de la estructura EUC al extender el rango de bytes iniciales nuevamente a 0x8C, agregando 31 caracteres seleccionados por IBM en 0x8CE0 a 0x8CFE y agregando 1880 caracteres definidos por el usuario con bytes iniciales 0x8D a 0xA0. ^[8]

La página de códigos de IBM 1383 (CCSID 1383) comprende la página de códigos de un solo byte 367 y la página de códigos de doble byte 1382 (CPGID 1382 como CCSID 1382), ^[9] que se diferencia por ajustarse a la estructura EUC, agregando los 31 seleccionados por IBM caracteres en 0xFEE0 a 0xFEFE en su lugar, e incluye solo 1360 caracteres definidos por el usuario, intercalados en las posiciones no utilizadas por GB 2312. ^[10] El CCSID alternativo 5479 ^[11] se usa para la página de códigos EUC-CN puro: usa CCSID 9574 como su conjunto de doble byte, que utiliza CPGID 1382 pero excluye los caracteres seleccionados por IBM y definidos por el usuario. ^[12]

GBK y GB 18030

GBK es una extensión de GB 2312 . Define una forma extendida de la codificación EUC-CN capaz de representar una gama más amplia de caracteres CJK provenientes en gran medida de Unicode 1.1 , incluidos los caracteres chinos tradicionales y los caracteres utilizados sólo en japonés . Sin embargo, no es un código EUC verdadero, porque los bytes ASCII pueden aparecer como bytes finales (y los bytes C1 , sin limitarse a los desplazamientos individuales, pueden aparecer como bytes iniciales o finales), debido a que se requiere un espacio de codificación mayor.

Las variantes de GBK se implementan mediante la página de códigos 936 de Windows (la página de códigos de Microsoft Windows para chino simplificado) y mediante la página de códigos 1386 de IBM.

La codificación de caracteres GB 18030 basada en Unicode define una extensión de GBK capaz de codificar la totalidad de Unicode . Sin embargo, Unicode codificado como GB 18030 es una codificación de longitud variable que puede utilizar hasta cuatro bytes por carácter, debido a que se requiere un espacio de codificación aún mayor. Al ser una extensión de GBK, es un superconjunto de EUC-CN pero no es en sí mismo un verdadero código EUC. Al ser una codificación Unicode, su repertorio es idéntico al de otros formatos de transformación Unicode como UTF-8 .

Mac OS chino simplificado

Otras variantes de EUC-CN que se desvían del mecanismo EUC incluyen la escritura simplificada china de Mac OS (conocida como página de códigos 10008 o x-mac-chinesesimp). ^[13] Utiliza los bytes 0x80, 0x81, 0x82, 0xA0, 0xFD, 0xFE y 0xFF para la U con diéresis (ü), dos caracteres métricos de fuente especiales, el espacio sin separación , el signo de copyright (©), el signo de marca (™) y puntos suspensivos (…) respectivamente. ^[6] Esto difiere en lo que se considera un carácter de un solo byte versus el primer byte de un carácter de dos bytes tanto de EUC (donde, de ellos, 0xFD y 0xFE se definen como bytes iniciales) como de GBK (donde, de esos , 0x81, 0x82, 0xFD y 0xFE se definen como bytes iniciales).

Este uso de 0xA0, 0xFD, 0xFE y 0xFF coincide con la variante Shift_JIS de Apple .

Además de estos cambios en el rango de bytes iniciales, la otra característica distintiva de la porción de doble byte de Mac OS chino simplificado es la inclusión de dos extensiones al GB 2312-80 básico establecido en las filas 6 y 8. ^[6] Estas se consideran "extensiones estándar para GB 2312", ninguna de las cuales es propiedad de Apple: la extensión de la fila 8 se tomó de GB 6345.1 , ^[6] ambas extensiones están incluidas en GB/T 12345 (la variante china tradicional de GB 2312), ^{[14 ]} y ambas extensiones están incluidas en GB 18030 (el sucesor de GB 2312). ^[15]

EUC-JP

EUC-JP es una codificación de longitud variable que se utiliza para representar los elementos de tres estándares de juegos de caracteres japoneses , a saber, JIS X 0208 , JIS X 0212 y JIS X 0201 . Otros nombres para esta codificación incluyen JIS Unixized (o UJIS ) y AT&T JIS . ^[2] El 0,1% de todas las páginas web utilizan EUC-JP desde septiembre de 2022, ^[16] mientras que el 3,0% de los sitios web en japonés utilizan esta codificación ^[17] (menos utilizada que Shift JIS o UTF-8 ). IBM la llama página de códigos 954 . ^[18]^[19] Microsoft tiene dos números de página de códigos para esta codificación (51932 y 20932).

Este esquema de codificación permite mezclar fácilmente ASCII de 7 bits y japonés de 8 bits sin la necesidad de los caracteres de escape empleados por ISO-2022-JP , que se basa en los mismos estándares de juego de caracteres, y sin que los bytes ASCII aparezcan como bytes de seguimiento. (a diferencia de Shift JIS ).

Una codificación relacionada y parcialmente compatible, llamada EUC-JISx0213 o EUC-JIS-2004 , codifica JIS X 0201 y JIS X 0213^[20] (de manera similar a Shift_JISx0213 , su contraparte basada en Shift_JIS).

En comparación con EUC-CN o EUC-KR, EUC-JP no tuvo una adopción tan amplia en sistemas PC y Macintosh en Japón, que utilizaban Shift JIS o sus extensiones ( página de códigos de Windows 932 en Microsoft Windows y MacJapanese en Mac OS clásico ). , aunque llegó a ser muy utilizado por Unix o sistemas operativos similares a Unix (excepto HP-UX ). Por lo tanto, si los sitios web japoneses utilizan EUC-JP o Shift_JIS a menudo depende del sistema operativo que utilice el autor.

Los caracteres están codificados de la siguiente manera:

Como codificación compatible con EUC/ ISO 2022 , los caracteres de control C0 , el espacio y DEL se representan como en ASCII.
Un carácter gráfico de ASCII (conjunto de códigos 0) se representa como su representación habitual de un byte, en el rango 0x21 – 0x7E. Si bien algunas variantes de EUC-JP codifican aquí la mitad inferior de JIS X 0201 , la mayoría codifica ASCII, ^[21] incluido el estándar de codificación W3C/WHATWG utilizado por HTML5 , ^[22] al igual que EUC-JIS-2004. ^[20] Si bien esto significa que 0x5C generalmente se asigna a Unicode como U+005C REVERSE SOLIDUS (la barra invertida ASCII ), U+005C puede mostrarse como un signo Yen en ciertas fuentes locales japonesas, por ejemplo, en Microsoft Windows, por compatibilidad con la mitad inferior de JIS X 0201 . ^[23]^[24]
Un carácter de JIS X 0208 (conjunto de códigos 1) está representado por dos bytes, ambos en el rango 0xA1 – 0xFE. Esto se diferencia de la representación ISO-2022-JP en que tiene el bit alto configurado. Este conjunto de códigos también puede contener extensiones de proveedor en algunas variantes EUC-JP. En EUC-JIS-2004, el primer plano de JIS X 0213 está codificado aquí, que es efectivamente un superconjunto del estándar JIS X 0208 . ^[20]
Un carácter de la mitad superior de JIS X 0201 ( kana de medio ancho , conjunto de códigos 2) está representado por dos bytes, el primero es 0x8E y el segundo es la representación habitual de JIS X 0201 en el rango 0xA1 – 0xDF. Este conjunto puede contener extensiones de proveedores de IBM en algunas variantes.
Un carácter de JIS X 0212 (conjunto de códigos 3) se representa en EUC-JP mediante tres bytes, siendo el primero 0x8F y los dos siguientes en el rango 0xA1–0xFE, es decir, con el bit alto establecido. Además del estándar JIS X 0212 , el conjunto de códigos 3 de algunas variantes de EUC-JP también puede contener extensiones en las filas 83 y 84 para representar caracteres de las extensiones Shift JIS de IBM que carecen de asignaciones estándar JIS X 0212, que pueden codificarse en cualquiera de dos diseños, uno definido por la propia IBM y otro definido por OSF . ^[25]^[26] En EUC-JIS-2004, el segundo plano de JIS X 0213 está codificado aquí, ^[20] que no choca con las filas asignadas en el estándar JIS X 0212 . ^[27] Algunas implementaciones de EUC-JIS-2004, como la utilizada por Python , permiten caracteres del plano 2 JIS X 0212 y JIS X 0213 en este conjunto. ^[27]

Las extensiones de proveedores de EUC-JP (de, por ejemplo, Open Software Foundation , IBM o NEC ) a menudo se asignaban dentro de los conjuntos de códigos individuales, ^[25]^[26] en lugar de utilizar secuencias EUC no válidas (como en las extensiones populares de EUC -CN y EUC-KR).

Sin embargo, algunas codificaciones específicas de proveedores son parcialmente compatibles con EUC-JP, debido a la codificación JIS X 0208 sobre GR, pero no siguen la estructura EUC empaquetada. A menudo, estos no incluyen el uso de cambios únicos de EUC-JP y, por lo tanto, no son extensiones directas de EUC-JP, con la excepción de Super DEC Kanji.

DEC Kanji

Digital Equipment Corporation define dos variantes de EUC-JP que se ajustan sólo parcialmente al formato empaquetado EUC, pero que también guardan cierta semejanza con el formato completo de dos bytes. El formato general de la codificación "DEC Kanji" corresponde principalmente a EUC de longitud fija (dos bytes completos); sin embargo, no es necesario rellenar el conjunto de códigos 0 con bytes nulos a la izquierda (de forma similar al formato empaquetado). ^[28] JIS X 0208 se utiliza, como de costumbre, para el conjunto de códigos 1; el conjunto de códigos 2 (katakana de ancho medio) está ausente; El conjunto de códigos 3 está codificado como el formato de ancho fijo de dos bytes (es decir, sin un byte de desplazamiento y con solo el primer bit alto establecido), pero se usa para caracteres de dos bytes definidos por el usuario en lugar de especificarse para JIS X 0212. ^[28] En la codificación básica "DEC Kanji", sólo las primeras 31 filas del conjunto de códigos 3 se utilizan para caracteres definidos por el usuario: las filas 32 a 94 están reservadas, de manera similar a las filas no utilizadas en el conjunto de códigos 1. ^[29]

La codificación "Super DEC Kanji" acepta códigos tanto de la codificación "DEC Kanji" como de EUC en formato empaquetado, para un total de cinco conjuntos de códigos. ^[28] También permite que todo el conjunto de códigos definido por el usuario y las filas no utilizadas en los extremos de los conjuntos de códigos JIS X 0208 y JIS X 0212 (filas 85–94 y 78–94 respectivamente) se utilicen para códigos definidos por el usuario. caracteres. ^[29]

HP-16

Hewlett-Packard define una codificación denominada "HP-16". Esto acompaña a su codificación "HP-15", que es una variante de Shift JIS . HP-16 codifica JIS X 0208 usando los mismos bytes que en EUC-JP, pero no usa códigos de turno único (omitiendo así los conjuntos de códigos 2 y 3) y agrega tres regiones definidas por el usuario que no siguen el formato empaquetado. Estructura de la EUC: ^[28]

Bytes iniciales 0xA1–C2, bytes finales 0x21–7E
Bytes iniciales 0xC3–E3, bytes finales 0x21–3F
Bytes iniciales 0xC3–E1, bytes finales 0x40–64

ikis

La codificación IKIS (Sistema de información kanji interactivo) utilizada por Data General se parece a EUC-JP sin cambios simples, es decir, con solo los conjuntos de códigos 0 y 1. En cambio, los katakana de ancho medio se incluyen en la fila 8 de JIS X 0208 (que choca con el cuadro- caracteres de dibujo agregados al estándar en 1983). Las filas 9 a 12 de JIS X 0208 se utilizan para caracteres definidos por el usuario. ^[28]^[29]

Adaptaciones de EUC-JP para EBCDIC

KEIS (Sistema de información extendido de procesamiento de kanji) es una codificación EBCDIC utilizada por Hitachi , ^[29] con caracteres de doble byte (una codificación DBCS-Host) incluidos mediante secuencias de desplazamiento, lo que la convierte en una codificación con estado . Específicamente, la secuencia 0x0A 0x41cambia al modo de un solo byte y la secuencia 0x0A 0x42cambia al modo de doble byte. ^[b] Sin embargo, los caracteres JIS X 0208 se codifican utilizando las mismas secuencias de bytes utilizadas para codificarlos en EUC-JP. Esto da como resultado codificaciones duplicadas para el espacio ideográfico : 0x4040 según la estructura del código DBCS-Host y 0xA1A1 como en EUC-JP. Esto difiere de la codificación DBCS-Host de IBM para japonés, cuyo diseño se basa en versiones anteriores a JIS X 0208. El rango de bytes iniciales se extiende hasta 0x59, de los cuales los bytes iniciales 0x81–A0 se designan para caracteres definidos por el usuario, ^[28] y el resto se utiliza para caracteres definidos por la empresa, incluidos kanji y no kanji. ^[29]

JEF (función extendida de procesamiento japonés) ^[29] es una codificación EBCDIC utilizada en las computadoras centrales Fujitsu FACOM, en contraste con FMR (una variante de Shift JIS) utilizada en las PC Fujitsu. Al igual que KEIS, JEF es una codificación con estado, que cambia a un modo DBCS-Host de doble byte mediante secuencias de cambio (donde 0x29cambia al modo de un solo byte y 0x28cambia al modo de doble byte). ^[30] También de manera similar a KEIS, los códigos JIS X 0208 se representan de la misma manera que en EUC-JP. ^[28] El rango de bytes iniciales se extiende nuevamente a 0x41, con 0x80–0xA0 designado para la definición del usuario; A los bytes iniciales 0x41–0x7F se les asignan los números de fila del 101 al 163 para fines de Kuten , aunque la fila 162 (byte inicial 0x7E) no se utiliza. ^[28]^[29] Las filas 101 a 148 se usan para kanji extendidos, mientras que las filas 149 a 163 se usan para no kanji extendidos. ^[29]

EUC-KR

EUC-KR es una codificación de longitud variable para representar texto coreano utilizando dos conjuntos de caracteres codificados, KS X 1001 (anteriormente KS C 5601) ^[31]^[32] e ISO 646 :KR ( KS X 1003 , anteriormente KS C 5636 ) o US-ASCII , según la variante. KS X 2901 (anteriormente KS C 5861 ) estipula la codificación y RFC 1557 la denominó EUC-KR.

Un carácter extraído de KS X 1001 (G1, conjunto de códigos 1) se codifica como dos bytes en GR (0xA1–0xFE) y un carácter de KS X 1003 o US-ASCII (G0, conjunto de códigos 0) ocupa un byte en GL ( 0x21–0x7E).

Generalmente se le conoce como Wansung ( coreano : 완성 , romanizado : Wanseong , literalmente 'precompuesto ^[33] ') en la República de Corea . IBM se refiere al componente de doble byte como página de códigos 971 , ^[34] y a EUC-KR con ASCII como página de códigos 970 . ^[35]^[36]^[37] Microsoft lo implementa como página de códigos 20949 ("Korean Wansung") ^[38]^[39] y página de códigos 51949 ("EUC Korean"). ^[38]

En abril de 2024 ^[actualizar], menos del 0,08% de todas las páginas web a nivel mundial utilizan EUC-KR, ^[40] pero el 4,6% de las páginas web de Corea del Sur utilizan EUC-KR, ^[41] Incluyendo las extensiones, es la codificación de caracteres heredada más utilizada. en Corea en las tres plataformas principales ( macOS , otros sistemas operativos similares a Unix y Windows), pero su uso ha ido cambiando muy lentamente a UTF-8 a medida que gana popularidad, especialmente en Linux y macOS.

Como ocurre con la mayoría de las otras codificaciones, ahora se prefiere UTF-8 para nuevos usos, lo que resuelve problemas de coherencia entre plataformas y proveedores.

Código Hangul unificado

Una extensión común de EUC-KR es el Código Hangul Unificado ( 통합형 한글 코드 , Tonghabhyeong Hangeul Kodeu , ^[42] o 통합 완성형 , Tonghab Wansunghyung ), que es la página de códigos coreana predeterminada en Microsoft Windows. Microsoft le asigna el número de página de códigos 949 y IBM 1261 ^[43] o 1363 ^{[44] .}La página de códigos 949 de IBM es una extensión EUC-KR diferente y no relacionada.

El Código Hangul Unificado amplía EUC-KR mediante el uso de códigos que no se ajustan a la estructura EUC para incorporar bloques de sílabas adicionales, completando la cobertura de los bloques de sílabas compuestos disponibles en Johab y Unicode. El estándar de codificación W3C / WHATWG utilizado por HTML5 incorpora las extensiones del Código Hangul Unificado en su definición de EUC-KR. ^[45]

Mac OS coreano (HangulTalk)

Otras codificaciones que incorporan EUC-KR como subconjunto incluyen la escritura coreana de Mac OS (conocida como página de códigos 10003 o x-mac-korean), ^[13] que fue utilizada por HangulTalk (MacOS-KH), la localización coreana del Mac OS clásico . Fue desarrollado por Elex Computer ( 일렉스 ), quien en ese momento era el distribuidor autorizado de computadoras Apple Macintosh en Corea del Sur. ^[46]^[29]

HangulTalk agrega caracteres de extensión con bytes iniciales entre 0xA1 y 0xAD, tanto en espacio no utilizado dentro del plano EUC-KR GR (bytes finales 0xA1–0xFE) como utilizando códigos no EUC fuera de él (bytes finales 0x41–0xA0). Algunos de estos caracteres son dingbats estilizados independientes del estilo de fuente . ^[29] Muchos de estos caracteres no tienen asignaciones Unicode exactas, y el software de Apple asigna estos casos de diversas formas para combinar secuencias , para aproximar asignaciones con un carácter de uso privado adjunto como modificador para fines de ida y vuelta, o para caracteres de uso privado. . ^[47]

Apple también utiliza ciertos códigos de un solo byte fuera del plano EUC-KR para caracteres adicionales: 0x80 para un espacio requerido , 0x81 para un signo de won (₩), 0x82 para un guión final (–), 0x83 para un signo de copyright (© ), 0x84 para un guión bajo ancho (＿) y 0xFF para puntos suspensivos (…). ^[47] Aunque ninguno de estos códigos adicionales de un solo byte está dentro del rango de bytes iniciales de EUC-KR simple (a diferencia de las extensiones de Apple a EUC-CN, ver arriba), algunos están dentro del rango de bytes iniciales del Código Hangul Unificado (específicamente, 0x81, 0x82, 0x83 y 0x84).

EUC-KP

De manera similar a KS X 1001, el estándar norcoreano KPS 9566 se utiliza normalmente en formato EUC; en estos contextos, a veces se lo denomina EUC-KP. ^[48] Las ediciones más recientes del estándar amplían la representación EUC con caracteres que utilizan códigos de dos bytes no EUC, de manera similar al Código Hangul Unificado. ^[49]

EUC-TH

Aunque ciertas codificaciones de un solo byte, como la serie ISO/IEC 8859, técnicamente se ajustan a la estructura EUC, rara vez están etiquetadas como EUC. Sin embargo, eucTHse utiliza en Solaris como etiqueta para TIS-620 . ^[50]

EUC-TW

EUC-TW es una codificación de longitud variable que admite US-ASCII y 16 planos de CNS 11643 , cada uno de los cuales es de 94×94. Es una codificación poco utilizada para los caracteres chinos tradicionales como los que se utilizan en Taiwán . Las variantes de Big5 son mucho más comunes que EUC-TW, aunque Big5 solo codifica los dos primeros planos de CNS 11643 hanzi , mientras que UTF-8 se está volviendo más común.

Como codificación EUC/ ISO 2022 , los caracteres de control C0 , el espacio ASCII y DEL están codificados como en ASCII.
Un carácter gráfico de US-ASCII (G0, conjunto de códigos 0) está codificado en GL como su representación habitual de un solo byte (0x21–0x7E).
Un carácter del plano 1 de CNS 11643 (conjunto de códigos 1) se codifica como dos bytes en GR (0xA1–0xFE).
Un carácter en los planos 1 a 16 de CNS 11643 (conjunto de códigos 2) está codificado como cuatro bytes:
- El primer byte es siempre 0x8E (Single Shift 2).
- El segundo byte (0xA1–0xB0) indica el plano, cuyo número se obtiene restando 0xA0 de ese byte.
- El tercer y cuarto bytes están en GR (0xA1–0xFE).

Tenga en cuenta que el plano 1 de CNS 11643 está codificado dos veces como conjunto de códigos 1 y como parte del conjunto de códigos 2.

Ver también

Notas

^ Las versiones de código ISO 2022 de 7 bits que admiten GB 2312 incluyen ISO-2022-CN (con códigos de turno) e ISO-2022-JP-2 (sin códigos de turno), los cuales también admiten otros conjuntos que no son ASCII.
^ Estas secuencias coinciden con las formas hexadecimales mostradas por DEC ^[30] y las formas decimales ( 10 65y 10 66) enumeradas por Lunde. ^[28] Lunde enumera las formas hexadecimales para ambos como 0xA0 0x42, aparentemente por error.

Referencias

^ abcd IBM . "Arquitectura de representación de datos de caracteres (CDRA)". IBM . págs. 157-162.
^ abc Lunde, Ken (2008). Procesamiento de información CJKV: informática china, japonesa, coreana y vietnamita. O'Reilly. págs. 242-244. ISBN 9780596800925.
^ "Conjuntos de caracteres". IANA.
^ "4.2. Nombres y etiquetas". Estándar de codificación . QUÉ.
^ Zhu, Haifeng; Hu, Daoyuan; Wang, Zhiguan; Kao, Tien-cheu; Chang, Wen-chung; Crispin, Mark (marzo de 1996). Codificación de caracteres chinos para mensajes de Internet. Grupo de Trabajo de Red. doi : 10.17487/RFC1922 . RFC 1922. Informativo. segundo. 2.1: CN-GB).
^ abcd "Mapa (versión externa) de codificación simplificada china de Mac OS a Unicode 3.0 y posteriores". Apple Inc .
^ "Datos de PC S-Ch mixtos (IBM GB) que incluyen 1880 UDC, 31 caracteres seleccionados de IBM y 5 caracteres SAA SB". "Globalización de IBM: identificadores de juegos de caracteres codificados" . IBM . Archivado desde el original el 26 de marzo de 2016.
^ "Conjunto de caracteres gráficos en chino simplificado de IBM" (PDF) . IBM . 1993. CH 3-3220-130 1993-11.
^ "CCSID 1383: conjunto S-Ch EUC G0, conjunto ASCII G1, conjunto GB 2312-80 (1382)". "Globalización de IBM: identificadores de juegos de caracteres codificados" . IBM . Archivado desde el original el 28 de marzo de 2016.
^ "Conjunto de caracteres gráficos chinos simplificados de IBM para código UNIX extendido (EUC)" (PDF) . IBM . 1994. CH 3-3220-132 1994-06.
^ "CCSID 5479: conjunto S-Ch EUC G0, conjunto ASCII G1, conjunto GB 2312-80 (5478)". "Globalización de IBM: identificadores de juegos de caracteres codificados" . IBM . Archivado desde el original el 27 de marzo de 2016.
^ "CCSID 9574: conjunto S-Ch DBCS PC GB 2312-80, excluyendo 31 IBM seleccionados y 1360 UDC. También se utiliza en T-Ch 2022-CN TCP". "Globalización de IBM: identificadores de juegos de caracteres codificados" . IBM . Archivado desde el original el 27 de marzo de 2016.
^ ab "Propiedad Encoding.WindowsCodePage - .NET Framework (versión actual)". MSDN . Microsoft.
^ Lunde, Ken (1998). "Procesamiento de información CJKV". Apéndice F: GB/T 12345 (PDF) . Medios O'Reilly . ISBN 9781565922242.
^ Administración de Normalización de China (SAC) (18 de noviembre de 2005). GB 18030-2005: Tecnología de la información: juego de caracteres codificados en chino.
^ "Tendencias históricas en el uso de codificaciones de caracteres para sitios web". W3Techs.
^ "Distribución de codificaciones de caracteres entre sitios web que utilizan japonés". w3techs.com . Consultado el 1 de noviembre de 2023 .
^ "Documento informativo CCSID 954". Archivado desde el original el 27 de marzo de 2016.
^ Componentes internacionales para Unicode (ICU), ibm-954_P101-2007.ucm, 3 de diciembre de 2002
^ abcd "Tablas de asignación de códigos JIS X 0213". x0213.org.
^ "Ambigüedades en la conversión de EUC japonés a Unicode (no normativo)". Perfil japonés XML . W3C.
^ "Descodificador EUC-JP". Estándar de codificación . QUÉ."Si el byte es un byte ASCII, devuelve un punto de código cuyo valor es un byte".
^ "3.1.1 Detalles de los problemas". Problemas y soluciones para Unicode y caracteres definidos por el usuario/proveedor . El Grupo Abierto Japón. Archivado desde el original el 3 de febrero de 1999 . Consultado el 14 de agosto de 2019 .
^ Kaplan, Michael S. (17 de septiembre de 2005). "¿Cuándo una barra invertida no es una barra invertida?".
^ ab "4.2 Proceso de revisión de reglas para la conversión de conjuntos de códigos entre eucJP-open y UCS". Problemas y soluciones para Unicode y caracteres definidos por el usuario/proveedor . El Grupo Abierto Japón. Archivado desde el original el 3 de febrero de 1999 . Consultado el 14 de agosto de 2019 .
^ ab Lunde, Ken (13 de enero de 2009). "Apéndice J: Juegos de caracteres japoneses" (PDF) . Procesamiento de información CJKV (2ª ed.). ISBN 978-0-596-51447-1.
^ ab Chang, Hyeshik (8 de diciembre de 2021). "Léame para CJKCodecs". cPython . Fundación de software Python.
^ abcdefghi Lunde, Ken (13 de enero de 2009). "Apéndice F: Métodos de codificación de proveedores" (PDF) . Procesamiento de información CJKV (2ª ed.). ISBN 978-0-596-51447-1.
^ abcdefghij Lunde, Ken (2009). "Apéndice E: Estándares de juego de caracteres del proveedor" (PDF) . Procesamiento de información CJKV: informática china, japonesa, coreana y vietnamita (2ª ed.). Sebastopol, California : O'Reilly . ISBN 978-0-596-51447-1.
^ ab "2: Conjuntos de códigos y conversión de conjuntos de códigos". Referencia técnica de DIGITAL UNIX para el uso de funciones japonesas . Corporación de Equipos Digitales , Compaq .^{[ enlace muerto ]}
^ "KS X 1001:1992" (PDF) .
^ Oficina de Normas de Corea (1 de octubre de 1988). KS C 5601:1987 (PDF) . ITSCJ/ IPSJ . ISO-IR -149.
^ Lunde, Ken (2009). "Capítulo 3: Estándares del juego de caracteres". Procesamiento de Información CJKV . "O'Reilly Media, Inc.". pag. 146.ISBN 978-0596514471.
^ "Globalización de IBM - Identificadores de juegos de caracteres codificados - CCSID 971". Archivado desde el original el 30 de noviembre de 2014 . Consultado el 3 de septiembre de 2021 .
^ "CCSID 970". Globalización de IBM . IBM. Archivado desde el original el 1 de diciembre de 2014.
^ "ibm-970_P110_P110-2006_U2 (alias euc-kr)". Converter Explorer - Demostración de la UCI . Componentes internacionales para Unicode.
^ Componentes internacionales para Unicode (ICU), ibm-970_P110_P110-2006_U2.ucm, 2002-12-03
^ ab "Identificadores de página de códigos". Centro de desarrollo de Windows . Microsoft. 7 de enero de 2021.
^ Julliard, Alejandro. "dump_krwansung_codepage: cree una tabla Wansung coreana a partir del archivo KSX1001". make_unicode: genera archivos .c de página de códigos a partir de descripciones de ftp.unicode.org . Proyecto Vino .
^ "Estadísticas de uso y cuota de mercado de EUC-KR para sitios web, abril de 2024". w3techs.com . Consultado el 9 de abril de 2024 .
^ "Distribución de codificaciones de caracteres entre sitios web que utilizan .kr". w3techs.com . Consultado el 9 de abril de 2024 .
^ "한글 코드에 대하여" (en coreano). W3C. Archivado desde el original el 24 de mayo de 2013 . Consultado el 7 de enero de 2019 .
^ En ucnv_lmb.cpp, un archivo originado en IBM e incluido en el árbol fuente de componentes internacionales para Unicode , se comenta que el byte inicial 0x11 hace referencia a "coreano: ibm-1261" después de la definición de ULMBCS_GRP_KOy está asignado al "windows-949"códec ICU. en la OptGroupByteToCPNamematriz más adelante en el archivo.
^ "Identificadores de juegos de caracteres codificados: CCSID 1363", IBM Globalization , IBM, archivado desde el original el 29 de noviembre de 2014
^ "5. Índices (§ índice EUC-KR)", Estándar de codificación , WHATWG
^ Gil, Hojin. "HangulTalk: entorno Hangul estándar de facto para Mac". Guía para usar Hangul en Macintosh .
^ ab Apple (5 de abril de 2005). "Mapa (versión externa) de la codificación coreana de Mac OS a Unicode 3.2 y posteriores". Consorcio Unicode .
^ Kim, Kyongsok (30 de noviembre de 2002). "Tablas de referencias cruzadas de tres vías: KS X 1001, KPS 9566 y UCS" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 N2564.[Nota: enlaces actualizados para las tablas que acompañan al documento: [1] [2]]
^ Chung, Jaemin (5 de enero de 2018). «Información sobre la versión más reciente de KPS 9566 (¿KPS 9566-2011?)» (PDF) . UTCL2 /18-011.
^ IBM (7 de mayo de 2001). "solaris-eucTH-2.7". datos-uci . Consorcio Unicode / Componentes internacionales para Unicode .

enlaces externos

Tabla de conjuntos de códigos EUC-JP (menos ASCII y partes de medio ancho )
Identificadores de página de códigos
GB18030-2000: el nuevo estándar nacional chino (desde que se actualizó a GB18030 -2022, que es (ligeramente) incompatible)
La nueva generación de software de preimpresión en China: menciona el código 748
Descripción del código EUC-TW (en chino)
Página del manual de EUC-JISX0213 en el módulo Perl Encode
Registro internacional de juegos de caracteres codificados para uso con secuencias de escape – sección 2.4 (p. 14 y siguientes) con los juegos de caracteres codificados de China, Japón, Corea del Sur, Corea del Norte y Taiwán (ISO/IEC)
Estándares de juegos de caracteres y sistemas de codificación chinos, japoneses y coreanos