stringtranslate.com

JIS X 0201

JIS X 0201 , un estándar industrial japonés desarrollado en 1969, fue el primer conjunto de caracteres electrónicos japonés que se utilizó ampliamente. El conjunto de caracteres se conocía inicialmente como JIS C 6220 antes de la reforma de la categoría JIS. Sus dos formas eran una codificación de 7 bits o una codificación de 8 bits, aunque la forma de 8 bits fue dominante hasta que Unicode (específicamente UTF-8 ) la reemplazó. El nombre completo de este estándar es conjuntos de caracteres codificados de 7 y 8 bits para el intercambio de información ( 7ビット及び8ビットの情報交換用符号化文字集合).

Los primeros 96 códigos comprenden una variante ISO 646 , en su mayoría siguiendo ASCII con algunas diferencias, mientras que los segundos códigos de 96 caracteres representan los signos fonéticos katakana japoneses . Dado que la codificación no proporciona ninguna forma de expresar hiragana o kanji , solo es capaz de expresar japonés escrito simplificado. Sin embargo, esta simplificación puede representar la gama completa de sonidos del idioma. En la década de 1970, esto era aceptable para medios como terminales de computadora en modo texto, telegramas, recibos u otros datos manejados electrónicamente.

JIS X 0201 fue suplantada por codificaciones posteriores como Shift JIS , que combina este estándar y JIS X 0208 , y posteriormente por Unicode .

Historia

El Comité Consultivo Internacional Telefónico y Telegráfico (CCITT) introdujo el código del Alfabeto Telegráfico Internacional No.2 (ITA2) como estándar internacional, que era la codificación latina de 5 bits. La mayoría de los países tienen sus propios estándares nacionales basados ​​en esto. En Japón, la Agencia de Ciencia y Tecnología Industrial (AIST) lo estandarizó como los códigos de caracteres de 6 bits de JIS C 0803-1961 ( distribución de teclado y códigos para teleimpresores ), que se combinan con caracteres katakana. Sin embargo, no cumplía con los requisitos de la industria porque el mapa de caracteres era pequeño y el diseño del código no era práctico. La AIST consideró una codificación de caracteres práctica para reemplazar varios códigos utilizados en Japón. [1]

En 1963, ISO presentó un borrador de ISO R 646 ( juegos de caracteres codificados de 6 y 7 bits para el intercambio de procesamiento de información ). AIST comprometió la conjunción de ISO R 646 y el mapeo de katakana con la Sociedad de Procesamiento de Información de Japón (IPSJ). IPSJ formó el comité de estandarización del código. El comité no adoptó la forma de 6 bits del borrador de ISO porque el conjunto de katakana no podía encajar en su mapa de caracteres. El primer borrador de JIS mapeó pequeños caracteres katakana junto a cada uno de sus caracteres katakana normales. Se consideró conveniente clasificar por orden Gojūon (JIS X 0208:1978 eligió este orden). Algunos miembros del comité criticaron que complicaría la mecánica de los teclados que solo manejan caracteres katakana normales. El borrador posterior asignó pequeños caracteres katakana a las posiciones 0xA7-0xAF.

El borrador ISO de 1964 reservaba las posiciones 0x24 y 0x5c para el primer y segundo símbolo monetario asignado por cada país, pero se consideraba demasiado peligroso en las comunicaciones internacionales utilizar símbolos monetarios que pudieran localizarse. El comité ISO tenía dos opciones: utilizar un símbolo de moneda genérico (¤) o asignar los signos del dólar ($) y la libra (£) de forma permanente. Se acordó que el signo de dólar se asignaría a la posición 0x24 y el signo de libra a la posición 0x23. Esto último no era obligatorio en países que no necesitaban el signo de libra. [2] El comité JIS decidió poner el signo del yen (¥) en 0x5c (una de las posiciones de uso nacional).

JIS C 6220 ( Códigos para intercambio de información , 情報交換用符号) se publicó en 1969. Su número se cambió a JIS X 0201 debido a la reforma de la categoría JIS en 1987, y el nombre se cambió a codificado de 7 y 8 bits. conjuntos de caracteres para intercambio de información (7ビット及び8ビットの情報交換用符号化文字集合) en la edición de 1990.

El conjunto de caracteres de JIS X 0201 se había utilizado ampliamente en Japón. El Sistema Nacional de Comunicación de Datos Bancarios (全国銀行データ通信システム), el sistema de transferencia de fondos más grande de Japón, se estableció en 1973. Los mensajes de transacciones entre bancos utilizaron un subconjunto de JIS X 0201. El sistema se utilizó hasta 2018 y fue reemplazado. por el ZEDI (Sistema Nacional de Intercambio Electrónico de Datos Bancarios, 全銀EDIシステム) que podría manejar caracteres hiragana y kanji. [3] En 1978, se desarrolló el juego de caracteres de 2 bytes JIS C 6226 ( JIS X 0208 ) para expresar caracteres hiragana y kanji. Incluye caracteres katakana, pero sus códigos y diseño son diferentes de JIS X 0201. Los fabricantes de computadoras desarrollaron sus propias extensiones de JIS X 0208 para mantener la compatibilidad con JIS X 0201. En 1982, el esquema de codificación Kanji de Microsoft ( página de códigos 932 de MS-DOS ) y SJC26 de Digital Research (para CP/M-86 japonés ) se desarrollaron para combinar la codificación de un solo byte JIS X 0201 y la codificación de doble byte JIS X 0208 sin desplazamiento de caracteres . [4] Se llamaron Shift JIS , y se convirtieron en el estándar industrial para ordenadores personales.

Detalles de implementacion

Conjunto romano de 7 bits ( cambio de entrada )
Conjunto Kana (desplazamiento) de 7 bits

La primera mitad (conjunto romano) de JIS X 0201 constituye una variante japonesa de ISO 646 , que equivale a ASCII con barra invertida (\) y tilde (~) reemplazadas por yen (¥) y línea superpuesta (‾), [5] mientras que la segunda la mitad (conjunto kana) se compone principalmente de katakana . Los caracteres de control se especifican en JIS X 0211 .

En el formato de 7 bits, el carácter de control de desplazamiento hacia afuera (0x0E) cambia al conjunto Kana y el desplazamiento hacia adentro (0x0F) cambia al conjunto romano. [6] [7] En el formato de 8 bits, que se muestra en el cuadro siguiente, los bytes con el bit más significativo configurado (es decir, 0x80–0xFF) se utilizan para el conjunto Kana y los bytes sin configurar (es decir, 0x00–0x7F) se usado de otra manera.

Los nombres utilizados específicamente para el conjunto romano de 7 bits incluyen "JISCII", [8] "JIS Roman", [9] "ISO646-JP", [10] [11] "JIS C6220-1969-ro", [11] [10] "Japonés-romano", [12] "Japón 7 bits latinos", [13] e "ISO-IR-14", [10] [11] [7] mientras que los nombres utilizados específicamente para los 7 bits El conjunto Kana incluye "ISO-IR-13", [6] [10] [11] "JIS C6220-1969-jp" [10] [11] y "x0201-7". [10] [11]

La sustitución del símbolo yen por barra invertida puede hacer que las rutas en computadoras basadas en DOS y Windows con soporte japonés se muestren de manera extraña, como "C:¥Archivos de programa¥", por ejemplo. [14] Otro problema similar son los caracteres de control de cadenas literales del lenguaje de programación C , como .printf("Hello, world.¥n");

Diseño de página de códigos

La siguiente tabla es el conjunto de caracteres codificados de 8 bits original de JIS X 0201 (con el conjunto de kana indicado por bytes con el conjunto de bits alto). [15] [16]

  Diferencias con ASCII

Como parte de Shift JIS

A continuación se muestra el mapeo utilizado para JIS X 0201 como parte de Shift JIS , [17] [18], es decir, que muestra la forma de 8 bits de JIS X 0201 y asigna los caracteres Katakana al bloque de formas de ancho medio y ancho completo (que a su vez deriva su diseño kana de medio ancho de JIS X 0201).

  Primeros bytes de caracteres Shift JIS de doble byte. [4]

Mapeo alternativo de katakana

El perfil básico ISO-2022-JP no permite el conjunto Kana de JIS X 0201, sólo el conjunto Roman y JIS X 0208 (aunque el propio ISO 2022 / JIS X 0202 lo permite). En consecuencia, al convertir katakana JIS X 0201 (o kana Unicode de ancho medio , que usa el mismo diseño) a ISO-2022-JP, a menudo se usa la siguiente asignación o transformación. [20] Esto permite convertir el kana a JIS X 0208.

En teoría, este mapeo es igualmente correcto, ya que JIS X 0201 en sí no especifica el ancho de visualización, aunque en la práctica (y especialmente en entornos de doble espacio ) JIS X 0201 se usa para katakana de medio ancho.

Para facilitar la comparación con el cuadro anterior, la asignación se muestra a continuación sobre la codificación katakana JIS X 0201 y con el bit alto establecido.

Variantes y ampliaciones

Cambiar JIS

Implementaciones de IBM

La página de códigos 897 es la implementación de IBM de la forma de 8 bits de JIS X 0201. Incluye varios caracteres gráficos adicionales en el área de caracteres de control C0 , y los puntos de código en cuestión pueden usarse como caracteres de control o caracteres gráficos dependiendo del contexto, [23] similar en concepto a OEM-US , pero con diferentes caracteres gráficos. Las filas C0 se muestran a continuación. IBM también designa JIS X 0201 puro de 8 bits sin estos reemplazos de códigos de control como página de códigos 1139 . [24] Otra variante, que incluye un subconjunto más pequeño de estos gráficos de reemplazo C0 (incluidos solo los caracteres de dibujo de cuadro en 0x01–06, 0x11, 0x15–17 y 0x19 y los caracteres de línea/flecha en 0x1B–1F), pero usando un diseño diferente. El estilo de flecha hacia arriba ( U+21E7FLECHA BLANCA HACIA ARRIBA ) en 0x1C, se designa como página de códigos 1086 . [25]

IBM también implementa el conjunto romano de 7 bits de JIS X 0201 como página de códigos 895 [31] y el conjunto Kana de 7 bits como página de códigos 896 para su uso como conjuntos de códigos ISO 2022 o EUC-JP . La página de códigos 896, además de las asignaciones estándar JIS X 0201, define cinco asignaciones adicionales, que se muestran a continuación. [32] Aunque el CCSID 896 asociado no permite el uso de estos caracteres extendidos , [33] sí lo permiten el CCSID 4992 alternativo. [34]

La página de códigos 1041 de IBM es una versión extendida de la página de códigos 897, que codifica estos cinco caracteres [35] extendidos de IBM en ubicaciones alternativas que son compatibles con Shift JIS (respectivamente 0x80, 0xA0, 0xFD, 0xFE y 0xFF). [36] La página de códigos 911 , otra implementación JIS X 0201 extendida de 8 bits (que utiliza los mismos gráficos de reemplazo C0 que la página de códigos 1086) codifica el signo de libra ( £ ) en 0xE1, de manera similar a la página de códigos 896 con los ocho conjunto de bits, pero difiere al codificar el signo de centavo ( ¢ ) en 0xE2 y el signo de no ( ¬ ) en 0xE3. [37]

La página de códigos 903 de IBM está codificada para su uso como componente de un solo byte de ciertas codificaciones de caracteres chinos simplificados , [38] que acompaña a la página de códigos 904 basada en ASCII utilizada con codificaciones de chino tradicional . [39] [40] A pesar de esto, la página de códigos 903 sigue ISO 646-JP / la mitad romana de JIS X 0201, en el sentido de que reemplaza la barra invertida ASCII 0x5C (en lugar del signo de dólar ASCII 0x24 como en GB 1988 / ISO 646- CN ) con el signo yen/yuan . También utiliza los mismos gráficos de reemplazo C0 que la página de códigos 897. [41] La página de códigos 1042 extiende la página de códigos 903 con el signo de libra (libra esterlina) en 0x80, y el signo de no, la barra invertida y la tilde en sus ubicaciones de la página de códigos 1041. [42]

Otros

Notas a pie de página

  1. ^ ab Los caracteres de control se especifican en JIS X 0211 .
  2. ^ Se asigna para corresponder al carácter JIS X 0208 (asignado a U+309B), no a la normalización de compatibilidad (que sería U+3099, la versión combinada). [22]
  3. ^ Se asigna para corresponder al carácter JIS X 0208 (asignado a U+309C), no a la normalización de compatibilidad (que sería U+309A, la versión combinada). [22]

Referencias

  1. ^ 行政管理庁 (La Agencia de Gestión Administrativa) (1968).行政における電子計算機の共同利用に関する調査研究報告書(en japonés).行政事務機械化研究協会. págs. 108-113. OCLC  703804474.
  2. ^ Fischer, Eric N. (20 de junio de 2000). "La evolución de los códigos de caracteres, 1874-1968". arca:/13960/t07x23w8s . Consultado el 2 de noviembre de 2023 .
  3. ^ "経理部門の人材不足で悩む会社に朗報、金融EDI「ZEDI」が2018年稼働へ". Nikkei X-TECH . 2017-11-30 . Consultado el 24 de julio de 2019 .
  4. ^ ab 西田, 憲正 (19 de diciembre de 1983). "Unix 風の機能を持ち込んだ日本語MS-DOS 2.0の機能と内部構造".日経エレクトロニクス(en japonés). Nikkei McGraw-Hill : 165-190. ISSN  0385-1680.
  5. ^ "3.1.1 Detalles de los problemas". Problemas y soluciones para Unicode y caracteres definidos por el usuario/proveedor . El Grupo Abierto Japón. Archivado desde el original el 3 de febrero de 1999 . Consultado el 15 de abril de 2019 .
  6. ^ ab Comité Japonés de Normas Industriales . ISO-IR-13: el conjunto gráfico de caracteres japonés KATAKANA (PDF) . ITSCJ/ IPSJ .
  7. ^ ab Comité Japonés de Normas Industriales . ISO-IR-14: el conjunto de caracteres gráficos romanos japoneses (PDF) . ITSCJ/ IPSJ .
  8. ^ "IBM-943 e IBM-932", Centro de conocimiento de IBM , IBM
  9. ^ "kUnicodeForceASCIIRangeMask", documentación para desarrolladores de Apple , Apple Inc
  10. ^ abcdefRFC  1345
  11. ^ abcdef "Conjuntos de caracteres". IANA.
  12. ^ da Cruz, Frank (2 de abril de 2010), "Nombres de conjuntos de caracteres Kermit y MIME", Proyecto Kermit , Universidad de Columbia
  13. ^ "CP 00895", Globalización de IBM: identificadores de página de códigos , IBM , 9 de noviembre de 2020
  14. ^ Kaplan, Michael S. (17 de septiembre de 2005). "¿Cuándo una barra invertida no es una barra invertida?".
  15. ^ JIS X 0201-1997 (en japonés). Asociación de Normas Japonesas . 28 de febrero de 1997. pag. 17.
  16. ^ Consorcio Unicode (2 de diciembre de 2015). "Tabla JIS X 0201 (1976) a Unicode 1.1". unicode.org . Consultado el 1 de octubre de 2021 .
  17. ^ "ibm-943_P130-1999". Demostración de la UCI: Explorador de convertidores . Componentes internacionales para Unicode .
  18. ^ Apple, Inc (5 de abril de 2005) [15 de abril de 1995]. "JAPANESE.TXT: Mapa (versión externa) de la codificación japonesa de Mac OS a Unicode 2.1 y posteriores". Consorcio Unicode .
  19. ^ van Kesteren, Anne (11 de febrero de 2019). "12.2.2. Codificador ISO-2022-JP". Estándar de codificación . QUÉ WG .
  20. ^ El estándar de codificación WHATWG , por ejemplo, lo utiliza como transformación al codificar datos kana de ancho medio Unicode a ISO-2022-JP. [19]
  21. ^ van Kesteren, Anne (6 de enero de 2018). "Índice ISO-2022-JP Katakana". Estándar de codificación . QUÉ WG .
  22. ^ ab van Kesteren, Anne (11 de febrero de 2019). "5. Índices". Estándar de codificación . QUÉ WG .
  23. ^ "Identificadores de página de códigos: CP 00897". Globalización de IBM . IBM. Archivado desde el original el 17 de marzo de 2016.
  24. ^ "Página de códigos 01139" (PDF) . IBM . Archivado desde el original (PDF) el 8 de julio de 2015 . Consultado el 22 de octubre de 2021 .
  25. ^ "Página de códigos 01086" (PDF) . IBM . Archivado desde el original (PDF) el 8 de julio de 2015 . Consultado el 22 de octubre de 2021 .
  26. ^ "CP00897.pdf" (PDF) . IBM.
  27. ^ "CP00897.txt". IBM.
  28. ^ "Explorador de convertidores: ibm-943_P130-1999". Demostración de la UCI . Componentes internacionales para Unicode.
  29. ^ "Identificadores de juego de caracteres codificados: CCSID 943". Globalización de IBM . IBM. Archivado desde el original el 15 de marzo de 2016.
  30. ^ Los gráficos se enumeran según CP00897.pdf y CP00897.txt proporcionados por IBM. [26] [27] Los controles se enumeran, en ausencia de función gráfica o cuando difieren de ASCII, según el códec ibm-943_P130-1999 proporcionado por IBM a International Components for Unicode [28] (IBM-943 es una página de códigos 897 superconjunto). [29] SUB está asignado a 0x7F.
  31. ^ "CP00895.pdf" (PDF) . IBM.
  32. ^ ab "CP00896.pdf" (PDF) . IBM.
  33. ^ "Identificadores de juego de caracteres codificados: CCSID 896". Globalización de IBM . IBM. Archivado desde el original el 26 de marzo de 2016.
  34. ^ "Identificadores de juegos de caracteres codificados: CCSID 4992". Globalización de IBM . IBM. Archivado desde el original el 27 de marzo de 2016.
  35. ^ "11.2 - Conjunto SBCS extendido de IBM" (PDF) . Conjunto de caracteres gráficos japoneses de IBM para código UNIX extendido (EUC) . IBM. pag. 315.
  36. ^ "CP01041.pdf" (PDF) . IBM.
  37. ^ "Página de códigos 00911" (PDF) . IBM . Archivado desde el original (PDF) el 8 de julio de 2015 . Consultado el 22 de octubre de 2021 .
  38. ^ "Identificadores de página de códigos: CP 903". Globalización de IBM . IBM. Archivado desde el original el 17 de marzo de 2016.
  39. ^ "Identificadores de juego de caracteres codificados: CCSID 904". Globalización de IBM . IBM. Archivado desde el original el 27 de marzo de 2016.
  40. ^ "CP00904.pdf" (PDF) . IBM.
  41. ^ "CP00903.pdf" (PDF) . IBM.
  42. ^ "Página de códigos 01042" (PDF) . IBM . Archivado desde el original (PDF) el 8 de julio de 2015.

enlaces externos