JIS X 0201 , un estándar industrial japonés desarrollado en 1969, fue el primer conjunto de caracteres electrónicos japonés que se utilizó ampliamente. El conjunto de caracteres se conocía inicialmente como JIS C 6220 antes de la reforma de la categoría JIS. Sus dos formas eran una codificación de 7 bits o una codificación de 8 bits, aunque la forma de 8 bits fue dominante hasta que Unicode (específicamente UTF-8 ) la reemplazó. El nombre completo de este estándar es conjuntos de caracteres codificados de 7 y 8 bits para el intercambio de información ( 7ビット及び8ビットの情報交換用符号化文字集合).
Los primeros 96 códigos comprenden una variante ISO 646 , en su mayoría siguiendo ASCII con algunas diferencias, mientras que los segundos códigos de 96 caracteres representan los signos fonéticos katakana japoneses . Dado que la codificación no proporciona ninguna forma de expresar hiragana o kanji , solo es capaz de expresar japonés escrito simplificado. Sin embargo, esta simplificación puede representar la gama completa de sonidos del idioma. En la década de 1970, esto era aceptable para medios como terminales de computadora en modo texto, telegramas, recibos u otros datos manejados electrónicamente.
JIS X 0201 fue suplantada por codificaciones posteriores como Shift JIS , que combina este estándar y JIS X 0208 , y posteriormente por Unicode .
El Comité Consultivo Internacional Telefónico y Telegráfico (CCITT) introdujo el código del Alfabeto Telegráfico Internacional No.2 (ITA2) como estándar internacional, que era la codificación latina de 5 bits. La mayoría de los países tienen sus propios estándares nacionales basados en esto. En Japón, la Agencia de Ciencia y Tecnología Industrial (AIST) lo estandarizó como los códigos de caracteres de 6 bits de JIS C 0803-1961 ( distribución de teclado y códigos para teleimpresores ), que se combinan con caracteres katakana. Sin embargo, no cumplía con los requisitos de la industria porque el mapa de caracteres era pequeño y el diseño del código no era práctico. La AIST consideró una codificación de caracteres práctica para reemplazar varios códigos utilizados en Japón. [1]
En 1963, ISO presentó un borrador de ISO R 646 ( juegos de caracteres codificados de 6 y 7 bits para el intercambio de procesamiento de información ). AIST comprometió la conjunción de ISO R 646 y el mapeo de katakana con la Sociedad de Procesamiento de Información de Japón (IPSJ). IPSJ formó el comité de estandarización del código. El comité no adoptó la forma de 6 bits del borrador de ISO porque el conjunto de katakana no podía encajar en su mapa de caracteres. El primer borrador de JIS mapeó pequeños caracteres katakana junto a cada uno de sus caracteres katakana normales. Se consideró conveniente clasificar por orden Gojūon (JIS X 0208:1978 eligió este orden). Algunos miembros del comité criticaron que complicaría la mecánica de los teclados que solo manejan caracteres katakana normales. El borrador posterior asignó pequeños caracteres katakana a las posiciones 0xA7-0xAF.
El borrador ISO de 1964 reservaba las posiciones 0x24 y 0x5c para el primer y segundo símbolo monetario asignado por cada país, pero se consideraba demasiado peligroso en las comunicaciones internacionales utilizar símbolos monetarios que pudieran localizarse. El comité ISO tenía dos opciones: utilizar un símbolo de moneda genérico (¤) o asignar los signos del dólar ($) y la libra (£) de forma permanente. Se acordó que el signo de dólar se asignaría a la posición 0x24 y el signo de libra a la posición 0x23. Esto último no era obligatorio en países que no necesitaban el signo de libra. [2] El comité JIS decidió poner el signo del yen (¥) en 0x5c (una de las posiciones de uso nacional).
JIS C 6220 ( Códigos para intercambio de información , 情報交換用符号) se publicó en 1969. Su número se cambió a JIS X 0201 debido a la reforma de la categoría JIS en 1987, y el nombre se cambió a codificado de 7 y 8 bits. conjuntos de caracteres para intercambio de información (7ビット及び8ビットの情報交換用符号化文字集合) en la edición de 1990.
El conjunto de caracteres de JIS X 0201 se había utilizado ampliamente en Japón. El Sistema Nacional de Comunicación de Datos Bancarios (全国銀行データ通信システム), el sistema de transferencia de fondos más grande de Japón, se estableció en 1973. Los mensajes de transacciones entre bancos utilizaron un subconjunto de JIS X 0201. El sistema se utilizó hasta 2018 y fue reemplazado. por el ZEDI (Sistema Nacional de Intercambio Electrónico de Datos Bancarios, 全銀EDIシステム) que podría manejar caracteres hiragana y kanji. [3] En 1978, se desarrolló el juego de caracteres de 2 bytes JIS C 6226 ( JIS X 0208 ) para expresar caracteres hiragana y kanji. Incluye caracteres katakana, pero sus códigos y diseño son diferentes de JIS X 0201. Los fabricantes de computadoras desarrollaron sus propias extensiones de JIS X 0208 para mantener la compatibilidad con JIS X 0201. En 1982, el esquema de codificación Kanji de Microsoft ( página de códigos 932 de MS-DOS ) y SJC26 de Digital Research (para CP/M-86 japonés ) se desarrollaron para combinar la codificación de un solo byte JIS X 0201 y la codificación de doble byte JIS X 0208 sin desplazamiento de caracteres . [4] Se llamaron Shift JIS , y se convirtieron en el estándar industrial para ordenadores personales.
La primera mitad (conjunto romano) de JIS X 0201 constituye una variante japonesa de ISO 646 , que equivale a ASCII con barra invertida (\) y tilde (~) reemplazadas por yen (¥) y línea superpuesta (‾), [5] mientras que la segunda la mitad (conjunto kana) se compone principalmente de katakana . Los caracteres de control se especifican en JIS X 0211 .
En el formato de 7 bits, el carácter de control de desplazamiento hacia afuera (0x0E) cambia al conjunto Kana y el desplazamiento hacia adentro (0x0F) cambia al conjunto romano. [6] [7] En el formato de 8 bits, que se muestra en el cuadro siguiente, los bytes con el bit más significativo configurado (es decir, 0x80–0xFF) se utilizan para el conjunto Kana y los bytes sin configurar (es decir, 0x00–0x7F) se usado de otra manera.
Los nombres utilizados específicamente para el conjunto romano de 7 bits incluyen "JISCII", [8] "JIS Roman", [9] "ISO646-JP", [10] [11] "JIS C6220-1969-ro", [11] [10] "Japonés-romano", [12] "Japón 7 bits latinos", [13] e "ISO-IR-14", [10] [11] [7] mientras que los nombres utilizados específicamente para los 7 bits El conjunto Kana incluye "ISO-IR-13", [6] [10] [11] "JIS C6220-1969-jp" [10] [11] y "x0201-7". [10] [11]
La sustitución del símbolo yen por barra invertida puede hacer que las rutas en computadoras basadas en DOS y Windows con soporte japonés se muestren de manera extraña, como "C:¥Archivos de programa¥", por ejemplo. [14] Otro problema similar son los caracteres de control de cadenas literales del lenguaje de programación C , como .printf("Hello, world.¥n");
La siguiente tabla es el conjunto de caracteres codificados de 8 bits original de JIS X 0201 (con el conjunto de kana indicado por bytes con el conjunto de bits alto). [15] [16]
A continuación se muestra el mapeo utilizado para JIS X 0201 como parte de Shift JIS , [17] [18], es decir, que muestra la forma de 8 bits de JIS X 0201 y asigna los caracteres Katakana al bloque de formas de ancho medio y ancho completo (que a su vez deriva su diseño kana de medio ancho de JIS X 0201).
El perfil básico ISO-2022-JP no permite el conjunto Kana de JIS X 0201, sólo el conjunto Roman y JIS X 0208 (aunque el propio ISO 2022 / JIS X 0202 lo permite). En consecuencia, al convertir katakana JIS X 0201 (o kana Unicode de ancho medio , que usa el mismo diseño) a ISO-2022-JP, a menudo se usa la siguiente asignación o transformación. [20] Esto permite convertir el kana a JIS X 0208.
En teoría, este mapeo es igualmente correcto, ya que JIS X 0201 en sí no especifica el ancho de visualización, aunque en la práctica (y especialmente en entornos de doble espacio ) JIS X 0201 se usa para katakana de medio ancho.
Para facilitar la comparación con el cuadro anterior, la asignación se muestra a continuación sobre la codificación katakana JIS X 0201 y con el bit alto establecido.
La página de códigos 897 es la implementación de IBM de la forma de 8 bits de JIS X 0201. Incluye varios caracteres gráficos adicionales en el área de caracteres de control C0 , y los puntos de código en cuestión pueden usarse como caracteres de control o caracteres gráficos dependiendo del contexto, [23] similar en concepto a OEM-US , pero con diferentes caracteres gráficos. Las filas C0 se muestran a continuación. IBM también designa JIS X 0201 puro de 8 bits sin estos reemplazos de códigos de control como página de códigos 1139 . [24] Otra variante, que incluye un subconjunto más pequeño de estos gráficos de reemplazo C0 (incluidos solo los caracteres de dibujo de cuadro en 0x01–06, 0x11, 0x15–17 y 0x19 y los caracteres de línea/flecha en 0x1B–1F), pero usando un diseño diferente. El estilo de flecha hacia arriba ( U+21E7 ⇧ FLECHA BLANCA HACIA ARRIBA ) en 0x1C, se designa como página de códigos 1086 . [25]
IBM también implementa el conjunto romano de 7 bits de JIS X 0201 como página de códigos 895 [31] y el conjunto Kana de 7 bits como página de códigos 896 para su uso como conjuntos de códigos ISO 2022 o EUC-JP . La página de códigos 896, además de las asignaciones estándar JIS X 0201, define cinco asignaciones adicionales, que se muestran a continuación. [32] Aunque el CCSID 896 asociado no permite el uso de estos caracteres extendidos , [33] sí lo permiten el CCSID 4992 alternativo. [34]
La página de códigos 1041 de IBM es una versión extendida de la página de códigos 897, que codifica estos cinco caracteres [35] extendidos de IBM en ubicaciones alternativas que son compatibles con Shift JIS (respectivamente 0x80, 0xA0, 0xFD, 0xFE y 0xFF). [36] La página de códigos 911 , otra implementación JIS X 0201 extendida de 8 bits (que utiliza los mismos gráficos de reemplazo C0 que la página de códigos 1086) codifica el signo de libra ( £ ) en 0xE1, de manera similar a la página de códigos 896 con los ocho conjunto de bits, pero difiere al codificar el signo de centavo ( ¢ ) en 0xE2 y el signo de no ( ¬ ) en 0xE3. [37]
La página de códigos 903 de IBM está codificada para su uso como componente de un solo byte de ciertas codificaciones de caracteres chinos simplificados , [38] que acompaña a la página de códigos 904 basada en ASCII utilizada con codificaciones de chino tradicional . [39] [40] A pesar de esto, la página de códigos 903 sigue ISO 646-JP / la mitad romana de JIS X 0201, en el sentido de que reemplaza la barra invertida ASCII 0x5C (en lugar del signo de dólar ASCII 0x24 como en GB 1988 / ISO 646- CN ) con el signo yen/yuan . También utiliza los mismos gráficos de reemplazo C0 que la página de códigos 897. [41] La página de códigos 1042 extiende la página de códigos 903 con el signo de libra (libra esterlina) en 0x80, y el signo de no, la barra invertida y la tilde en sus ubicaciones de la página de códigos 1041. [42]