Codificación JIS

En informática, la codificación JIS hace referencia a varios estándares industriales japoneses para codificar el idioma japonés . ^[1] Estrictamente hablando, el término significa:

Un conjunto de caracteres codificados estándar para japonés, en particular:
- JIS X 0201 , la versión japonesa de ISO 646 ( ASCII ) que contiene los caracteres ASCII básicos de 7 bits (con algunas modificaciones) y 64 caracteres katakana de ancho medio.
- JIS X 0208 , el conjunto de caracteres kanji más común que contiene 6.879 caracteres, incluidos 6.355 kanji y otros 524 caracteres (un plano de 94 por 94)
- JIS X 0212 , un suplemento para JIS X 0208 que añade 5.801 kanji, totalizando 12.156 kanji (un segundo plano de 94 por 94)
- JIS X 0213 , que amplía JIS X 0208 (dos planos)
JIS X 0202 (también conocido como ISO-2022-JP), un conjunto de mecanismos de codificación para enviar datos de caracteres JIS a través de medios de transmisión que solo admiten datos de 7 bits.

En la práctica, "codificación JIS" generalmente se refiere a datos de caracteres JIS X 0208 codificados con JIS X 0202. Por ejemplo, la IANA usa la JIS_Encodingetiqueta para referirse a JIS X 0202 y la ISO-2022-JPetiqueta para referirse al perfil del mismo definido por RFC 1468. ^[2]

Otros mecanismos de codificación para caracteres JIS incluyen la codificación Shift JIS y EUC-JP . Shift JIS agrega los kanji, hiragana de ancho completo y katakana de ancho completo de JIS X 0208 a JIS X 0201 de forma compatible con versiones anteriores. ^[3] Shift JIS es quizás la codificación más utilizada en Japón, ya que la compatibilidad con el conjunto de caracteres JIS X 0201 de un solo byte hizo posible que los fabricantes de equipos electrónicos (como los fabricantes de cajas registradoras) ofrecieran una actualización de equipos más antiguos y baratos. que no era capaz de mostrar kanji en equipos más nuevos manteniendo la compatibilidad con el conjunto de caracteres.

EUC-JP se utiliza en sistemas UNIX , donde las codificaciones JIS son incompatibles con los estándares POSIX .

Una alternativa más reciente a los caracteres codificados JIS es Unicode ( caracteres codificados UCS ), particularmente en el mecanismo de codificación UTF-8 .

Comparación de codificación

La siguiente tabla compara las características de los tres esquemas de codificación principales para JIS X 0208.

^ es decir, no requiere transmisión limpia de 8 bits .
^ es decir, la secuencia utilizada para codificar un carácter determinado es siempre la misma, sin importar cuáles fueron los caracteres anteriores. Ver estado (informática) .
^ ab ISO-2022-JP es una codificación con estado : todos los conjuntos de caracteres están codificados en 0x21–7E y se cambian mediante escapes ANSI. Por lo tanto, aunque sea ASCII en su estado inicial, se pueden codificar secuencias enteras de caracteres no ASCII con bytes ASCII.
^ Los katakana JIS X 0201 están disponibles en JIS X 0202 e ISO 2022, pero no están incluidos en el perfil básico ISO-2022-JP, aunque son una extensión común.
^ JIS X 0212 está disponible en JIS X 0202 e ISO 2022, y se incluye en los perfiles ISO-2022-JP-1 e ISO-2022-JP-2, pero no en el perfil básico ISO-2022-JP.
^ Los caracteres de un solo byte 0x21–7E en Shift_JIS son correctamente ISO-646-JP , para ser un superconjunto de JIS X 0201 de 8 bits, pero a menudo se decodifican (no necesariamente se muestran) como ASCII, que difiere solo en dos lugares.
^ Algunos (no todos) bytes ASCII pueden aparecer como segundos bytes, pero no como primeros bytes, de caracteres de doble byte en Shift_JIS. Por lo tanto, en una secuencia de dos o más bytes ASCII, el segundo byte en adelante son necesariamente caracteres ASCII (o ISO-646-JP).
^ ab EUC de formato empaquetado se basa en mecanismos ISO 2022, con designaciones de juegos de caracteres preestablecidas. Se evitan los escapes de designación de conjuntos de caracteres y los cambios de bloqueo, mientras que el uso de turnos únicos se puede implementar de manera sin estado. No obstante, se siguen las limitaciones de la norma ISO 2022.
^ Los caracteres de un solo byte 0x21–7E en EUC-JP generalmente se consideran ASCII, pero a veces se tratan como ISO-646-JP .
^ A diferencia de Shift_JIS, EUC-JP no manejará entradas JIS X 0201 simples de 8 bits sin una conversión previa, debido a la representación diferente del katakana JIS X 0201 (con turnos únicos).
^ JIS X 0212 en EUC-JP no siempre se implementa.
^ Además de las propiedades de las codificaciones en sí, los formatos Unicode tienen otras ventajas derivadas del conjunto de caracteres subyacente: no se limitan a caracteres codificados JIS sino que pueden representar la totalidad de UCS (incluido el repertorio completo de caracteres codificados JIS) y, por lo tanto, son adecuado para uso internacional. También se ven menos afectados por la colisión de extensiones propietarias, debido a su mayor repertorio de base y áreas designadas de uso privado.
^ La mayoría de los cambios de cuadro bit a bit de texto codificado en UTF-8 producirán UTF-8 no válido, pero es posible construir secuencias de caracteres que sigan siendo UTF-8 válidos incluso cuando se realice un cambio de cuadro en uno o más bits.
^ Sólo por Microsoft.
^ Si bien GB 18030 y GBK son extensiones de la forma EUC-CN de GB/T 2312, no siguen las restricciones de EUC o ISO 2022, a diferencia de EUC-JP (o el EUC-CN original).
^ Aunque, en teoría, UTF-32 se autosincroniza solo en dwords de 32 bits, el uso de un valor de 32 bits para representar un valor de 21 bits significa que, en la práctica, UTF-32 contiene una ejecución continua de al menos al menos 11 bits cero en el extremo superior de cada carácter, que generalmente se pueden usar para alinear los límites de los caracteres, dependiendo de los puntos de código involucrados.

Ver también

Idioma japonés y computadoras.

Referencias

^ Haralambous, Yannis (2007). Fuentes y codificaciones . Medios O'Reilly . págs. 42–44. ISBN 9780596102425.
^ "Conjuntos de caracteres". IANA.
^ Lunde, Ken (2009). Procesamiento de Información CJKV . Medios O'Reilly . págs. 262–268. ISBN 9780596514471.