stringtranslate.com

JIS X 0201

JIS X 0201 , un estándar industrial japonés desarrollado en 1969, fue el primer conjunto de caracteres electrónicos japonés que se utilizó ampliamente. El conjunto de caracteres se conocía inicialmente como JIS C 6220 antes de la reforma de la categoría JIS. Sus dos formas eran una codificación de 7 bits o una codificación de 8 bits, aunque la forma de 8 bits fue dominante hasta que Unicode (específicamente UTF-8 ) la reemplazó. El nombre completo de este estándar es conjuntos de caracteres codificados de 7 y 8 bits para el intercambio de información ( 7ビット及び8ビットの情報交換用符号化文字集合).

Los primeros 96 códigos comprenden una variante ISO 646 , que en su mayoría sigue el ASCII con algunas diferencias, mientras que los segundos 96 códigos de caracteres representan los signos fonéticos katakana japoneses . Dado que la codificación no proporciona ninguna forma de expresar hiragana o kanji , solo es capaz de expresar japonés escrito simplificado. Sin embargo, esta simplificación puede representar la gama completa de sonidos del idioma. En la década de 1970, esto era aceptable para medios como terminales de computadora en modo texto , telegramas , recibos u otros datos manejados electrónicamente.

JIS X 0201 fue suplantado por codificaciones posteriores como Shift JIS , que combina este estándar y JIS X 0208 , y más tarde por Unicode .

Historia

El Comité Consultivo Internacional Telefónico y Telegráfico (CCITT) introdujo el código del Alfabeto Telegráfico Internacional N.º 2 (ITA2) como estándar internacional, que era la codificación latina de 5 bits. La mayoría de los países tienen sus propios estándares nacionales basados ​​en esto. En Japón, la Agencia de Ciencia Industrial y Tecnología (AIST) lo estandarizó como los códigos de caracteres de 6 bits de JIS C 0803-1961 ( Disposición del teclado y códigos para teleimpresoras ), que se combinaban con caracteres katakana. Sin embargo, no cumplía con los requisitos de la industria porque el mapa de caracteres era pequeño y la disposición del código era poco práctica. La AIST consideró una codificación de caracteres práctica para reemplazar varios códigos utilizados en Japón. [1]

En 1963, la ISO presentó un borrador de la ISO R 646 ( conjuntos de caracteres codificados de 6 y 7 bits para el intercambio de procesamiento de información ). La AIST encomendó la conjunción de la ISO R 646 y la asignación de caracteres katakana a la Sociedad de Procesamiento de la Información de Japón (IPSJ). La IPSJ formó el comité de estandarización del código. El comité no adoptó la forma de 6 bits del borrador de la ISO porque el conjunto de caracteres katakana no cabía en su mapa de caracteres. El primer borrador de la JIS asignaba los caracteres katakana pequeños al lado de cada uno de sus caracteres katakana normales. Se consideró que era conveniente para la clasificación por orden Gojūon (JIS X 0208:1978 eligió este orden). Algunos miembros del comité criticaron que complicaría la mecánica de los teclados que solo manejaban caracteres katakana normales. El borrador posterior asignaba los caracteres katakana pequeños a las posiciones 0xA7-0xAF .

El borrador ISO de 1964 reservó las posiciones 0x24 y 0x5c para el primer y segundo símbolo monetario que asignaría cada país, pero se consideró demasiado peligroso en las comunicaciones internacionales utilizar símbolos monetarios que pudieran localizarse. El comité ISO tenía dos opciones: utilizar un símbolo monetario genérico (¤) o dar asignaciones permanentes a los signos de dólar ($) y libra (£). Se acordó que el signo de dólar se asignara a la posición 0x24 y el signo de libra a la posición 0x23 . Esto último no era necesario en los países que no necesitaban el signo de libra. [2] El comité JIS decidió poner el signo del yen (¥) en 0x5c (una de las posiciones de uso nacional).

JIS C 6220 ( Códigos para intercambio de información , 情報交換用符号) se publicó en 1969. Su número se cambió a JIS X 0201 debido a la reforma de la categoría JIS en 1987, y el nombre se cambió a codificado de 7 y 8 bits. conjuntos de caracteres para el intercambio de información (7ビット及び8ビットの情報交換用符号化文字集合) en la edición de 1990.

El conjunto de caracteres de JIS X 0201 se había utilizado ampliamente en Japón. El Sistema Nacional de Comunicación de Datos Bancarios (全国銀行データ通信システム), el sistema de transferencia de fondos más grande de Japón, se estableció en 1973. Los mensajes de transacciones entre bancos utilizaron un subconjunto de JIS X 0201. El sistema se utilizó hasta 2018 y fue reemplazado. por el ZEDI (Sistema Nacional de Intercambio Electrónico de Datos Bancarios, 全銀EDIシステム) que podría manejar caracteres hiragana y kanji. [3] En 1978, se desarrolló el juego de caracteres de 2 bytes JIS C 6226 ( JIS X 0208 ) para expresar caracteres hiragana y kanji. Incluye caracteres katakana, pero sus códigos y diseño son diferentes a los de JIS X 0201. Los fabricantes de computadoras desarrollaron sus propias extensiones de JIS X 0208 para mantener la compatibilidad con JIS X 0201. En 1982, el esquema de codificación Kanji de Microsoft ( página de códigos 932 de MS-DOS) ) y SJC26 de Digital Research (para CP/M-86 japonés ) se desarrollaron para combinar la codificación de un solo byte JIS X 0201 y la codificación de doble byte JIS X 0208 sin desplazamiento de caracteres hacia afuera y hacia adentro . [4] Se denominaron Shift JIS , que se convirtió en el estándar industrial para las computadoras personales.

Detalles de implementación

Conjunto de 7 bits romanos ( desplazamiento hacia adentro )
Conjunto Kana de 7 bits (desplazamiento hacia afuera)

La primera mitad (conjunto romano) de JIS X 0201 constituye una variante japonesa de ISO 646 , que equivale a ASCII con barra invertida (\) y tilde (~) reemplazadas por yen (¥) y raya vertical (‾), [5] mientras que la segunda mitad (conjunto kana) consiste principalmente en katakana . Los caracteres de control se especifican en JIS X 0211 .

En el formato de 7 bits, el carácter de control de desplazamiento hacia afuera 0x0E cambia al conjunto Kana y el desplazamiento hacia adentro (0x0F) cambia al conjunto Roman. [6] [7] En el formato de 8 bits, que se muestra en el cuadro a continuación, los bytes con el bit más significativo establecido (es decir, 0x80–0xFF ) se utilizan para el conjunto Kana y los bytes con él no establecido (es decir, 0x00–0x7F ) se utilizan en caso contrario.

Los nombres utilizados específicamente para el conjunto romano de 7 bits incluyen "JISCII", [8] "JIS Roman", [9] "ISO646-JP", [10] [11] "JIS C6220-1969-ro", [11] [10] "Japanese-Roman", [12] "Japan 7-Bit Latin", [13] e "ISO-IR-14", [10] [11] [7] mientras que los nombres utilizados específicamente para el conjunto kana de 7 bits incluyen "ISO-IR-13", [6] [10] [11] "JIS C6220-1969-jp" [10] [11] y "x0201-7". [10] [11]

La sustitución del símbolo del yen por una barra invertida puede hacer que las rutas en computadoras basadas en DOS y Windows con soporte para japonés se muestren de manera extraña, como "C:¥Archivos de programa¥", por ejemplo. [14] Otro problema similar son los caracteres de control de los literales de cadena del lenguaje de programación C , como .printf("Hello, world.¥n");

Disposición de la página de códigos

La siguiente tabla es el conjunto de caracteres codificados de 8 bits original de JIS X 0201 (con el conjunto kana indicado por bytes con el bit alto establecido). [15] [16]

  Diferencias con ASCII

Como parte de Shift JIS

A continuación se muestra el mapeo utilizado para JIS X 0201 como parte de Shift JIS , [17] [18] es decir, muestra la forma de 8 bits de JIS X 0201 y mapea los caracteres Katakana al bloque de Formas de Ancho Medio y Ancho Completo (que a su vez deriva su diseño kana de ancho medio de JIS X 0201).

  Primeros bytes de caracteres JIS Shift de doble byte. [4]

Mapeo alternativo de katakana

El perfil básico ISO-2022-JP no permite el conjunto kana de JIS X 0201, solo el conjunto romano y JIS X 0208 (aunque ISO 2022 / JIS X 0202 sí lo permite). Por consiguiente, al convertir katakana JIS X 0201 (o kana de ancho medio Unicode , que utilizan el mismo diseño) a ISO-2022-JP, a menudo se utiliza la siguiente asignación o transformación. [20] Esto permite convertir el kana a JIS X 0208.

En teoría, esta asignación es igualmente correcta, ya que JIS X 0201 en sí no especifica el ancho de visualización, aunque en la práctica (y especialmente en entornos duoespaciados ) JIS X 0201 se utiliza para katakana de ancho medio.

Para facilitar la comparación con el gráfico anterior, se muestra a continuación la asignación sobre la codificación katakana JIS X 0201 y con el bit alto establecido.

Variantes y extensiones

Cambiar JIS

Implementaciones de IBM

La página de códigos 897 es la implementación de IBM de la forma de 8 bits de JIS X 0201. Incluye varios caracteres gráficos adicionales en el área de caracteres de control C0 , y los puntos de código en cuestión pueden usarse como caracteres de control o caracteres gráficos según el contexto, [23] de manera similar en concepto a OEM-US , pero con caracteres gráficos diferentes. Las filas C0 se muestran a continuación. IBM también designa JIS X 0201 puro de 8 bits sin estos reemplazos de código de control como Página de códigos 1139 . [24] Otra variante, que incluye un subconjunto más pequeño de estos gráficos de reemplazo de C0 (incluidos solo los caracteres de dibujo de caja en 0x01–06, 0x10, 0x15–17 y 0x19 y los caracteres de línea/flecha en 0x1B–1F ), pero que utiliza un estilo diferente de flecha hacia arriba ( U+21E7FLECHA BLANCA HACIA ARRIBA ) en 0x1C , se designa Página de códigos 1086 . [25]

IBM también implementa el conjunto Roman de 7 bits de JIS X 0201 como página de códigos 895 [31] y el conjunto Kana de 7 bits como página de códigos 896 para su uso como conjuntos de códigos ISO 2022 o EUC-JP . La página de códigos 896, además de las asignaciones estándar de JIS X 0201, define cinco asignaciones adicionales, que se muestran a continuación. [32] Aunque el uso de estos caracteres extendidos no está permitido por el CCSID 896 asociado, [33] sí lo está por el CCSID alternativo 4992. [34]

La página de códigos 1041 de IBM es una versión extendida de la página de códigos 897, que codifica estos cinco caracteres extendidos de IBM [35] en ubicaciones alternativas que son compatibles con Shift JIS (respectivamente 0x80, 0xA0, 0xFD, 0xFE y 0xFF ). [36] La página de códigos 911 , otra implementación extendida de 8 bits de JIS X 0201 (que utiliza los mismos gráficos de reemplazo de C0 que la página de códigos 1086) codifica el signo de libra (esterlina) ( £ ) en 0xE1 , de manera similar a la página de códigos 896 con los ocho bits establecidos, pero difiere al codificar el signo de centavo ( ¢ ) en 0xE2 y el signo de no ( ¬ ) en 0xE3 . [37]

La página de códigos 903 de IBM está codificada para su uso como componente de un solo byte de ciertas codificaciones de caracteres chinos simplificados , [38] acompañando a la página de códigos 904 basada en ASCII utilizada con codificaciones chinas tradicionales . [39] [40] A pesar de esto, la página de códigos 903 sigue la norma ISO 646-JP / la mitad romana de JIS X 0201, en el sentido de que reemplaza la barra invertida ASCII 0x5C (en lugar del signo de dólar ASCII 0x24 como en GB 1988 / ISO 646-CN ) con el signo yen/yuan . También utiliza los mismos gráficos de reemplazo C0 que la página de códigos 897. [41] La página de códigos 1042 extiende la página de códigos 903 con el signo de libra (esterlina) en 0x80 , y el signo no, la barra invertida y la tilde en sus ubicaciones de la página de códigos 1041. [42]

Otros

Notas al pie

  1. ^ ab Los caracteres de control se especifican en JIS X 0211 .
  2. ^ Se asigna para corresponder al carácter JIS X 0208 (asignado a U+309B), no a la normalización de compatibilidad (que sería U+3099, la versión de combinación). [22]
  3. ^ Se asigna para corresponder al carácter JIS X 0208 (asignado a U+309C), no a la normalización de compatibilidad (que sería U+309A, la versión de combinación). [22]

Referencias

  1. ^ 行政管理庁 (La Agencia de Gestión Administrativa) (1968).行政における電子計算機の共同利用に関する調査研究報告書(en japonés). 行政事務機械化研究協会. págs. 108-113. OCLC  703804474.
  2. ^ Fischer, Eric N. (20 de junio de 2000). "La evolución de los códigos de caracteres, 1874-1968". ark:/13960/t07x23w8s . Consultado el 2 de noviembre de 2023 .
  3. ^ "経理部門の人材不足で悩む会社に朗報、金融EDI「ZEDI」が2018年稼働へ". Nikkei X-TECH . 2017-11-30 . Consultado el 24 de julio de 2019 .
  4. ^ ab 西田, 憲正 (19 de diciembre de 1983). "Unix 風の機能を持ち込んだ日本語MS-DOS 2.0の機能と内部構造".日経エレクトロニクス(en japonés). Nikkei McGraw-Hill : 165-190. ISSN  0385-1680.
  5. ^ "3.1.1 Detalles de los problemas". Problemas y soluciones para caracteres Unicode y definidos por el usuario o el proveedor . The Open Group Japan. Archivado desde el original el 1999-02-03 . Consultado el 2019-04-15 .
  6. ^ ab Comité de Normas Industriales Japonesas . ISO-IR-13: El conjunto gráfico de caracteres KATAKANA japoneses (PDF) . ITSCJ/ IPSJ .
  7. ^ ab Comité de Normas Industriales Japonesas . ISO-IR-14: El conjunto gráfico de caracteres romanos japoneses (PDF) . ITSCJ/ IPSJ .
  8. ^ "IBM-943 e IBM-932", Centro de conocimiento de IBM , IBM
  9. ^ "kUnicodeForceASCIIRangeMask", Documentación para desarrolladores de Apple , Apple Inc
  10. ^ abcdef RFC  1345
  11. ^ abcdef "Conjuntos de caracteres". IANA.
  12. ^ da Cruz, Frank (2 de abril de 2010), "Kermit y los nombres de conjuntos de caracteres MIME", Proyecto Kermit , Universidad de Columbia
  13. ^ "CP 00895", IBM Globalization — Code page identifiers , IBM , 9 de noviembre de 2020
  14. ^ Kaplan, Michael S. (17 de septiembre de 2005). "¿Cuándo una barra invertida no es una barra invertida?".
  15. ^ JIS X 0201-1997 (en japonés). Asociación Japonesa de Normas . 28 de febrero de 1997. pág. 17.
  16. ^ Consorcio Unicode (2015-12-02). «Tabla de JIS X 0201 (1976) a Unicode 1.1». unicode.org . Consultado el 2021-10-01 .
  17. ^ "ibm-943_P130-1999". Demostración de ICU - Explorador de convertidores . Componentes internacionales para Unicode .
  18. ^ Apple, Inc (5 de abril de 2005) [15 de abril de 1995]. "JAPANESE.TXT: Mapa (versión externa) de la codificación japonesa de Mac OS a Unicode 2.1 y posteriores". Consorcio Unicode .
  19. ^ van Kesteren, Anne (11 de febrero de 2019). "12.2.2. Codificador ISO-2022-JP". Estándar de codificación . QUÉ WG .
  20. ^ El estándar de codificación WHATWG , por ejemplo, lo utiliza como una transformación al codificar datos kana de ancho medio Unicode según ISO-2022-JP. [19]
  21. ^ van Kesteren, Anne (6 de enero de 2018). "Índice ISO-2022-JP Katakana". Estándar de codificación . QUÉ WG .
  22. ^ ab van Kesteren, Anne (11 de febrero de 2019). "5. Índices". Estándar de codificación . QUÉ WG .
  23. ^ "Identificadores de páginas de códigos - CP 00897". IBM Globalization . IBM. Archivado desde el original el 17 de marzo de 2016.
  24. ^ "Página de códigos 01139" (PDF) . IBM . Archivado desde el original (PDF) el 8 de julio de 2015 . Consultado el 22 de octubre de 2021 .
  25. ^ "Página de códigos 01086" (PDF) . IBM . Archivado desde el original (PDF) el 8 de julio de 2015 . Consultado el 22 de octubre de 2021 .
  26. ^ "CP00897.pdf" (PDF) . IBM.
  27. ^ "CP00897.txt". IBM.
  28. ^ "Explorador de convertidores - ibm-943_P130-1999". Demostración de la UCI . Componentes internacionales para Unicode.
  29. ^ "Identificadores de conjuntos de caracteres codificados - CCSID 943". IBM Globalization . IBM. Archivado desde el original el 15 de marzo de 2016.
  30. ^ Los gráficos se enumeran según CP00897.pdf y CP00897.txt proporcionados por IBM. [26] [27] Los controles se enumeran, en ausencia de función gráfica o cuando difieren de ASCII, según el códec ibm-943_P130-1999 proporcionado por IBM a International Components for Unicode [28] (IBM-943 es un superconjunto de la página de códigos 897). [29] SUB se asigna a 0x7F.
  31. ^ "CP00895.pdf" (PDF) . IBM.
  32. ^ desde "CP00896.pdf" (PDF) . IBM.
  33. ^ "Identificadores de conjuntos de caracteres codificados - CCSID 896". IBM Globalization . IBM. Archivado desde el original el 26 de marzo de 2016.
  34. ^ "Identificadores de conjuntos de caracteres codificados - CCSID 4992". IBM Globalization . IBM. Archivado desde el original el 27 de marzo de 2016.
  35. ^ "11.2 - Conjunto de caracteres gráficos japoneses IBM Extended SBCS" (PDF) . Conjunto de caracteres gráficos japoneses IBM para código UNIX extendido (EUC) . IBM. pág. 315.
  36. ^ "CP01041.pdf" (PDF) . IBM.
  37. ^ "Página de códigos 00911" (PDF) . IBM . Archivado desde el original (PDF) el 8 de julio de 2015 . Consultado el 22 de octubre de 2021 .
  38. ^ "Identificadores de páginas de códigos - CP 903". IBM Globalization . IBM. Archivado desde el original el 17 de marzo de 2016.
  39. ^ "Identificadores de conjuntos de caracteres codificados - CCSID 904". IBM Globalization . IBM. Archivado desde el original el 27 de marzo de 2016.
  40. ^ "CP00904.pdf" (PDF) . IBM.
  41. ^ "CP00903.pdf" (PDF) . IBM.
  42. ^ "Página de códigos 01042" (PDF) . IBM . Archivado (PDF) desde el original el 8 de julio de 2015.

Enlaces externos