JIS X 0201 , un estándar industrial japonés desarrollado en 1969, fue el primer conjunto de caracteres electrónicos japonés que se utilizó ampliamente. El conjunto de caracteres se conocía inicialmente como JIS C 6220 antes de la reforma de la categoría JIS. Sus dos formas eran una codificación de 7 bits o una codificación de 8 bits, aunque la forma de 8 bits fue dominante hasta que Unicode (específicamente UTF-8 ) la reemplazó. El nombre completo de este estándar es conjuntos de caracteres codificados de 7 y 8 bits para el intercambio de información ( 7ビット及び8ビットの情報交換用符号化文字集合).
Los primeros 96 códigos comprenden una variante ISO 646 , en su mayoría siguiendo ASCII con algunas diferencias, mientras que los segundos 96 códigos de caracteres representan los signos fonéticos katakana japoneses . Dado que la codificación no proporciona ninguna forma de expresar hiragana o kanji , solo es capaz de expresar japonés escrito simplificado. Sin embargo, esta simplificación puede representar la gama completa de sonidos del idioma. En la década de 1970, esto era aceptable para medios como terminales de computadora en modo texto , telegramas , recibos u otros datos manejados electrónicamente.
JIS X 0201 fue suplantado por codificaciones posteriores como Shift JIS , que combina este estándar y JIS X 0208 , y más tarde por Unicode .
El Comité Consultivo Internacional Telefónico y Telegráfico (CCITT) introdujo el código del Alfabeto Telegráfico Internacional N.º 2 (ITA2) como estándar internacional, que era la codificación latina de 5 bits. La mayoría de los países tienen sus propios estándares nacionales basados en esto. En Japón, la Agencia de Ciencia Industrial y Tecnología (AIST) lo estandarizó como los códigos de caracteres de 6 bits de JIS C 0803-1961 ( Disposición del teclado y códigos para teleimpresoras ), que se combinaban con caracteres katakana. Sin embargo, no cumplía con los requisitos de la industria porque el mapa de caracteres era pequeño y la disposición del código era poco práctica. La AIST consideró una codificación de caracteres práctica para reemplazar varios códigos utilizados en Japón. [1]
En 1963, la ISO presentó un borrador de la ISO R 646 ( conjuntos de caracteres codificados de 6 y 7 bits para el intercambio de procesamiento de información ). La AIST encomendó la conjunción de la ISO R 646 y la asignación de caracteres katakana a la Sociedad de Procesamiento de la Información de Japón (IPSJ). La IPSJ formó el comité de estandarización del código. El comité no adoptó la forma de 6 bits del borrador de la ISO porque el conjunto de caracteres katakana no cabía en su mapa de caracteres. El primer borrador de la JIS asignaba los caracteres katakana pequeños al lado de cada uno de sus caracteres katakana normales. Se consideró que era conveniente para la clasificación por orden Gojūon (JIS X 0208:1978 eligió este orden). Algunos miembros del comité criticaron que complicaría la mecánica de los teclados que solo manejaban caracteres katakana normales. El borrador posterior asignaba los caracteres katakana pequeños a las posiciones 0xA7-0xAF .
El borrador ISO de 1964 reservó las posiciones 0x24 y 0x5c para el primer y segundo símbolo monetario que asignaría cada país, pero se consideró demasiado peligroso en las comunicaciones internacionales utilizar símbolos monetarios que pudieran localizarse. El comité ISO tenía dos opciones: utilizar un símbolo monetario genérico (¤) o dar asignaciones permanentes a los signos de dólar ($) y libra (£). Se acordó que el signo de dólar se asignara a la posición 0x24 y el signo de libra a la posición 0x23 . Esto último no era necesario en los países que no necesitaban el signo de libra. [2] El comité JIS decidió poner el signo del yen (¥) en 0x5c (una de las posiciones de uso nacional).
JIS C 6220 ( Códigos para intercambio de información , 情報交換用符号) se publicó en 1969. Su número se cambió a JIS X 0201 debido a la reforma de la categoría JIS en 1987, y el nombre se cambió a codificado de 7 y 8 bits. conjuntos de caracteres para intercambio de información (7ビット及び8ビットの情報交換用符号化文字集合) en la edición de 1990.
El conjunto de caracteres de JIS X 0201 se había utilizado ampliamente en Japón. El Sistema Nacional de Comunicación de Datos Bancarios (全国銀行データ通信システム), el sistema de transferencia de fondos más grande de Japón, se estableció en 1973. Los mensajes de transacciones entre bancos utilizaron un subconjunto de JIS X 0201. El sistema se utilizó hasta 2018 y fue reemplazado. por el ZEDI (Sistema Nacional de Intercambio Electrónico de Datos Bancarios, 全銀EDIシステム) que podría manejar caracteres hiragana y kanji. [3] En 1978, se desarrolló el juego de caracteres de 2 bytes JIS C 6226 ( JIS X 0208 ) para expresar caracteres hiragana y kanji. Incluye caracteres katakana, pero sus códigos y diseño son diferentes a los de JIS X 0201. Los fabricantes de computadoras desarrollaron sus propias extensiones de JIS X 0208 para mantener la compatibilidad con JIS X 0201. En 1982, el esquema de codificación Kanji de Microsoft ( página de códigos 932 de MS-DOS) ) y SJC26 de Digital Research (para CP/M-86 japonés ) se desarrollaron para combinar la codificación de un solo byte JIS X 0201 y la codificación de doble byte JIS X 0208 sin desplazamiento de caracteres hacia afuera y hacia adentro . [4] Se denominaron Shift JIS , que se convirtió en el estándar industrial para las computadoras personales.
La primera mitad (conjunto romano) de JIS X 0201 constituye una variante japonesa de ISO 646 , que equivale a ASCII con barra invertida (\) y tilde (~) reemplazadas por yen (¥) y raya vertical (‾), [5] mientras que la segunda mitad (conjunto kana) consiste principalmente en katakana . Los caracteres de control se especifican en JIS X 0211 .
En el formato de 7 bits, el carácter de control de desplazamiento hacia afuera 0x0E cambia al conjunto Kana y el desplazamiento hacia adentro (0x0F) cambia al conjunto Roman. [6] [7] En el formato de 8 bits, que se muestra en el cuadro a continuación, los bytes con el bit más significativo establecido (es decir, 0x80–0xFF ) se utilizan para el conjunto Kana y los bytes con él no establecido (es decir, 0x00–0x7F ) se utilizan en caso contrario.
Los nombres utilizados específicamente para el conjunto romano de 7 bits incluyen "JISCII", [8] "JIS Roman", [9] "ISO646-JP", [10] [11] "JIS C6220-1969-ro", [11] [10] "Japanese-Roman", [12] "Japan 7-Bit Latin", [13] e "ISO-IR-14", [10] [11] [7] mientras que los nombres utilizados específicamente para el conjunto kana de 7 bits incluyen "ISO-IR-13", [6] [10] [11] "JIS C6220-1969-jp" [10] [11] y "x0201-7". [10] [11]
La sustitución del símbolo del yen por una barra invertida puede hacer que las rutas en computadoras basadas en DOS y Windows con soporte para japonés se muestren de manera extraña, como "C:¥Archivos de programa¥", por ejemplo. [14] Otro problema similar son los caracteres de control de los literales de cadena del lenguaje de programación C , como .printf("Hello, world.¥n");
La siguiente tabla es el conjunto de caracteres codificados de 8 bits original de JIS X 0201 (con el conjunto kana indicado por bytes con el bit alto establecido). [15] [16]
A continuación se muestra el mapeo utilizado para JIS X 0201 como parte de Shift JIS , [17] [18] es decir, muestra la forma de 8 bits de JIS X 0201 y mapea los caracteres Katakana al bloque de Formas de Ancho Medio y Ancho Completo (que a su vez deriva su diseño kana de ancho medio de JIS X 0201).
El perfil básico ISO-2022-JP no permite el conjunto kana de JIS X 0201, solo el conjunto romano y JIS X 0208 (aunque ISO 2022 / JIS X 0202 sí lo permite). Por consiguiente, al convertir katakana JIS X 0201 (o kana de ancho medio Unicode , que utilizan el mismo diseño) a ISO-2022-JP, a menudo se utiliza la siguiente asignación o transformación. [20] Esto permite convertir el kana a JIS X 0208.
En teoría, esta asignación es igualmente correcta, ya que JIS X 0201 en sí no especifica el ancho de visualización, aunque en la práctica (y especialmente en entornos duoespaciados ) JIS X 0201 se utiliza para katakana de ancho medio.
Para facilitar la comparación con el gráfico anterior, se muestra a continuación la asignación sobre la codificación katakana JIS X 0201 y con el bit alto establecido.
La página de códigos 897 es la implementación de IBM de la forma de 8 bits de JIS X 0201. Incluye varios caracteres gráficos adicionales en el área de caracteres de control C0 , y los puntos de código en cuestión pueden usarse como caracteres de control o caracteres gráficos según el contexto, [23] de manera similar en concepto a OEM-US , pero con caracteres gráficos diferentes. Las filas C0 se muestran a continuación. IBM también designa JIS X 0201 puro de 8 bits sin estos reemplazos de código de control como Página de códigos 1139 . [24] Otra variante, que incluye un subconjunto más pequeño de estos gráficos de reemplazo de C0 (incluidos solo los caracteres de dibujo de caja en 0x01–06, 0x10, 0x15–17 y 0x19 y los caracteres de línea/flecha en 0x1B–1F ), pero que utiliza un estilo diferente de flecha hacia arriba ( U+21E7 ⇧ FLECHA BLANCA HACIA ARRIBA ) en 0x1C , se designa Página de códigos 1086 . [25]
IBM también implementa el conjunto Roman de 7 bits de JIS X 0201 como página de códigos 895 [31] y el conjunto Kana de 7 bits como página de códigos 896 para su uso como conjuntos de códigos ISO 2022 o EUC-JP . La página de códigos 896, además de las asignaciones estándar de JIS X 0201, define cinco asignaciones adicionales, que se muestran a continuación. [32] Aunque el uso de estos caracteres extendidos no está permitido por el CCSID 896 asociado, [33] sí lo está por el CCSID alternativo 4992. [34]
La página de códigos 1041 de IBM es una versión extendida de la página de códigos 897, que codifica estos cinco caracteres extendidos de IBM [35] en ubicaciones alternativas que son compatibles con Shift JIS (respectivamente 0x80, 0xA0, 0xFD, 0xFE y 0xFF ). [36] La página de códigos 911 , otra implementación extendida de 8 bits de JIS X 0201 (que utiliza los mismos gráficos de reemplazo de C0 que la página de códigos 1086) codifica el signo de libra (esterlina) ( £ ) en 0xE1 , de manera similar a la página de códigos 896 con los ocho bits establecidos, pero difiere al codificar el signo de centavo ( ¢ ) en 0xE2 y el signo de no ( ¬ ) en 0xE3 . [37]
La página de códigos 903 de IBM está codificada para su uso como componente de un solo byte de ciertas codificaciones de caracteres chinos simplificados , [38] acompañando a la página de códigos 904 basada en ASCII utilizada con codificaciones chinas tradicionales . [39] [40] A pesar de esto, la página de códigos 903 sigue la norma ISO 646-JP / la mitad romana de JIS X 0201, en el sentido de que reemplaza la barra invertida ASCII 0x5C (en lugar del signo de dólar ASCII 0x24 como en GB 1988 / ISO 646-CN ) con el signo yen/yuan . También utiliza los mismos gráficos de reemplazo C0 que la página de códigos 897. [41] La página de códigos 1042 extiende la página de códigos 903 con el signo de libra (esterlina) en 0x80 , y el signo no, la barra invertida y la tilde en sus ubicaciones de la página de códigos 1041. [42]