stringtranslate.com

JIS X 0208

JIS X 0208 es un conjunto de caracteres de 2 bytes especificado como estándar industrial japonés , que contiene 6879 caracteres gráficos adecuados para escribir texto, nombres de lugares, nombres personales, etc. en el idioma japonés . El título oficial del estándar actual es conjuntos KANJI codificados de doble byte de 7 y 8 bits para el intercambio de información ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Oyobi). no ni- Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō ) . Se estableció originalmente como JIS C 6226 en 1978 y se revisó en 1983, 1990 y 1997. IBM también la llama página de códigos 952. La versión de 1978 también la llama página de códigos 955 .

Ámbito de uso y compatibilidad

El conjunto de caracteres que establece la norma JIS X 0208 se utiliza principalmente para el intercambio de información (情報交換, jōhō kōkan ) entre sistemas de procesamiento de datos y los dispositivos conectados a ellos, o entre sistemas de comunicación de datos. Este conjunto de caracteres se puede utilizar para el procesamiento de datos y el procesamiento de texto.

Las implementaciones parciales del conjunto de caracteres no se consideran compatibles. Debido a que existen casos en los que han ocurrido cosas como que el comité de redacción original del primer estándar se ocupó de separar los caracteres entre el nivel 1 y el nivel 2 y que el segundo estándar luego barajó algunos caracteres variantes (異体字, itaiji ) entre los niveles, al menos en el primer y segundo estándar, se conjetura que en algún momento se consideraron para el desarrollo sistemas informáticos japoneses que no utilizaban kanji y que solo utilizaban el nivel 1. Sin embargo, dichas implementaciones nunca se han especificado como compatibles, aunque sí existieron ejemplos como el primer NEC PC-9801 . [1]

Aunque existen disposiciones en la norma JIS X 0208:1997 relativas a la compatibilidad, en la actualidad se considera generalmente que esta norma no certifica la compatibilidad ni es una norma de fabricación oficial que equivale a una declaración de autocompatibilidad. [2] En consecuencia, de facto , no se considera que existan productos "compatibles" con JIS X 0208. Terminología como "conforme" (準拠, junkyo ) y "compatible" (対応, taiō ) está incluida en JIS X 0208, pero la semántica de estos términos varía de persona a persona.

Gráficos de códigos

Byte principal

El primer byte de codificación corresponde al número de fila o celda más 0x20, o 32 en decimal (ver más abajo). Por lo tanto, el conjunto de códigos que comienza con 0x21 tiene un número de fila de 1, y su celda 1 tiene un byte de continuación de 0x21 (o 33), y así sucesivamente.

En el caso de los bytes iniciales utilizados para caracteres distintos de los kanji , se proporcionan enlaces a cuadros en esta página que enumeran los caracteres codificados bajo ese byte inicial. En el caso de los bytes iniciales utilizados para kanji, se proporcionan enlaces a la sección correspondiente del índice de kanji de Wikcionario .

Filas que no son kanji

Conjunto de caracteres 0x21 (fila número 1, caracteres especiales)

Algunos proveedores utilizan una asignación Unicode ligeramente diferente para este conjunto que la que se muestra a continuación. Por ejemplo, Microsoft asigna kuten 1-29 (JIS 0x213D) a U+2015 (barra horizontal), [3] mientras que Apple lo asigna a U+2014 (guión largo). [4] De manera similar, Microsoft asigna kuten 1-61 (JIS 0x215D) a U+FF0D [3] (la forma de ancho completo de U+002D guión-menos), y Apple lo asigna a U+2212 (signo menos). [4] La asignación Unicode de la raya ondulada también difiere entre proveedores. Consulte las celdas con notas al pie a continuación.

La puntuación ASCII y JISCII (mostrada aquí con un fondo amarillo) pueden usar asignaciones alternativas al bloque de formas de ancho medio y ancho completo si se usan en una codificación que combina JIS X 0208 con ASCII o con JIS X 0201 , como Shift JIS , EUC-JP o ISO 2022-JP .

Conjunto de caracteres 0x22 (fila número 2, caracteres especiales)

La mayoría de los caracteres de este conjunto se agregaron en 1983, excepto los caracteres 0x2221–0x222E (kuten 2-1 a 2-14, o la primera línea de la tabla siguiente), que se incluyeron en la versión original de 1978 del estándar.

Conjunto de caracteres 0x23 (fila número 3, dígitos y romanos)

Este conjunto incluye un subconjunto del conjunto invariante ISO 646 (y, por lo tanto, también un subconjunto tanto de ASCII como del conjunto romano JIS X 0201 ), menos puntuación y símbolos, que comprende números arábigos occidentales y ambos casos del alfabeto latino básico . Los caracteres de este conjunto pueden utilizar asignaciones Unicode alternativas al bloque de formas de ancho medio y ancho completo si se utilizan en una codificación que combina JIS X 0208 con ASCII o con JIS X 0201, como EUC-JP , Shift JIS o ISO 2022-JP .

Compare la fila 3 de KPS 9566 , que coincide exactamente con esta fila. Compare y contraste la fila 3 de KS X 1001 y de GB 2312 , que incluyen todas sus variantes nacionales de ISO 646 en esta fila, en lugar de solo el subconjunto alfanumérico.

Conjunto de caracteres 0x24 (fila número 4, Hiragana)

Esta fila contiene Hiragana japonés .

Compare la fila 4 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 10 de KPS 9566 y de KS X 1001 , que utilizan el mismo diseño, pero en una fila diferente.

Conjunto de caracteres 0x25 (fila número 5, Katakana)

Esta fila contiene Katakana japonés .

Compare la fila 5 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 11 de KPS 9566 y de KS X 1001 , que utilizan el mismo diseño, pero en una fila diferente. Compare el diseño Katakana considerablemente diferente utilizado por JIS X 0201 .

Conjunto de caracteres 0x26 (fila número 6, griego)

Esta fila contiene soporte básico para el alfabeto griego moderno , sin diacríticos ni sigma final .

Compare la fila 6 de GB 2312 y GB 12345 y la fila 6 de KPS 9566 , que incluyen las mismas letras griegas en el mismo diseño, aunque GB 12345 agrega formas de presentación verticales y KPS 9566 agrega números romanos. Compare y contraste la fila 5 de KS X 1001 , que desplaza las letras griegas para incluir primero los números romanos.

Conjunto de caracteres 0x27 (fila número 7, cirílico)

Esta fila contiene el alfabeto ruso moderno y no es necesariamente suficiente para representar otras formas de la escritura cirílica .

Compare la fila 7 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 12 de KS X 1001 y la fila 5 de KPS 9566 , que utilizan el mismo diseño (pero en una fila diferente).

Conjunto de caracteres 0x28 (número de fila 8, dibujo del cuadro)

Todos los caracteres de este conjunto se agregaron en 1983 y no estaban presentes en la revisión original del estándar de 1978.

Conjunto de caracteres de extensión 0x2D (número de fila 13, caracteres especiales NEC)

Las filas 9 a 15 de la norma JIS X 0208 se dejan vacías.

Sin embargo, la siguiente disposición para la fila 13, introducida por primera vez por NEC , es una extensión común. Se utiliza (con pequeñas variaciones, señaladas en las notas al pie) en Windows-932 [3] (que coincide con el estándar de codificación WHATWG utilizado por HTML5 ), en la variante PostScript (pero, desde la versión 7 de KanjiTalk , no la variante regular) [5] de MacJapanese y en JIS X 0213 (el sucesor de JIS X 0208). [5] [6] A diferencia de las otras extensiones realizadas por Windows-932/WHATWG y JIS X 0213, las dos coinciden en lugar de colisionar, por lo que la decodificación de la mayor parte de esta fila tiene un mejor soporte que las otras extensiones realizadas por JIS X 0213.

Filas de kanji

Estructura del código

Para representar los puntos de código , se utilizan números de columna o línea para códigos de un byte y números kuten para códigos de dos bytes. Para identificar un carácter sin depender de un código, se utilizan nombres de caracteres.

Códigos de un solo byte

Casi todos los códigos de caracteres gráficos JIS X 0208 se representan con dos bytes de al menos siete bits cada uno. Sin embargo, cada carácter de control , así como el espacio simple , aunque no el espacio ideográfico , se representa con un código de un byte. Para representar la combinación de bits (ビット組合せ, bitto kumiawase ) de un código de un byte, se utilizan dos números decimales: un número de columna y un número de línea . Tres bits de orden superior de siete o cuatro bits de orden superior de ocho, contando de cero a siete o de cero a quince respectivamente, forman el número de columna. Cuatro bits de orden inferior contando de cero a quince forman el número de línea. Cada número decimal corresponde a un dígito hexadecimal . Por ejemplo, la combinación de bits correspondiente al carácter gráfico "espacio" es 010 0000 como un número de 7 bits y 0010 0000 como un número de 8 bits. En notación de columna/línea, esto se representa como 2/0. Otras representaciones del mismo código de un solo byte incluyen 0x20 como hexadecimal o 32 como un solo número decimal.

Puntos de código y números de código

Los códigos de doble byte se disponen en 94 grupos numerados, cada uno llamado fila (, ku , lit. "sección") . Cada fila contiene 94 códigos numerados, cada uno llamado celda (, diez , lit. "punto") . [j] Esto hace un total de 8836 (94 × 94) puntos de código posibles (aunque no todos están asignados, vea más abajo); estos están dispuestos en el estándar en una tabla de códigos de 94 líneas y 94 columnas.

Un número de fila y un número de celda (cada uno numerado del 1 al 94, para un código JIS X 0208 estándar) forman un punto kuten (区点) , que se utiliza para representar puntos de código de doble byte. Un número de código o número kuten (区点番号, kuten bangō ) se expresa en la forma "fila-celda", y los números de fila y celda se separan mediante un guion . Por ejemplo, el carácter "" tiene un punto de código en la fila 16, celda 1, por lo que su número de código se representa como "16-01".

En JIS X 0208 de 7 bits (como se podría cambiar a JIS X 0202 / ISO-2022-JP ), ambos bytes deben ser del rango de 94 bytes de 0x 21 (usado para la fila o celda número 1) a 0x7E (usado para la fila o celda número 94), que corresponde exactamente al rango usado para caracteres de impresión ASCII de 7 bits, sin contar el espacio. En consecuencia, los bytes codificados se obtienen agregando 0x20 (32) a cada número. [7] Por ejemplo, el ejemplo anterior de 16-01 ("亜") estaría representado por los bytes . El EUC-JP0x30 0x21 de 8 bits , en cambio, usa el rango de 0xA1 a 0xFE (estableciendo el bit alto en 1), mientras que otras codificaciones como Shift JIS usan transformaciones más complicadas. Shift JIS incluye más espacio de codificación del que se necesita para JIS X 0208 en sí; Algunas extensiones específicas de Shift JIS a JIS X 0208 utilizan números de fila superiores a 94. [8]

Esta estructura también se utiliza en la GB 2312 de China continental , donde se conoce de forma nativa como区位; qūwèi , y en la KS C 5601 de Corea del Sur (actualmente KS X 1001 ), donde el ku y el ten se conocen respectivamente como hang [9] ( ;; haeng ) y yol [9] ( ;; yeol ). La posterior JIS X 0213 extiende esta estructura al tener más de un plano (, men , lit. "cara") de filas, que también es la estructura utilizada por CNS 11643 , y relacionada con la estructura utilizada por CCCII .

Puntos de código no asignados

Entre los códigos de 2 bytes, las filas 9 a 15 y 85 a 94 son puntos de código sin asignar (空き領域, aki ryōiki ) ; es decir, son puntos de código sin caracteres asignados. Además, algunas celdas en otras filas también son esencialmente puntos de código sin asignar.

Estas áreas vacías contienen puntos de código que básicamente no se deben utilizar. Salvo que exista un acuerdo previo entre las partes interesadas, no se deben asignar caracteres ( gaiji ) para el intercambio de información a los puntos de código no asignados.

Incluso cuando se asignan caracteres a puntos de código no asignados, no se les deben asignar caracteres gráficos definidos en el estándar, y el mismo carácter no se debe asignar a múltiples puntos de código no asignados; los caracteres no se deben duplicar en el conjunto.

Además, al asignar caracteres a puntos de código no asignados, es necesario tener cuidado con la unificación en lo que respecta a los glifos kanji. Por ejemplo, la celda 66 de la fila 25 corresponde al kanji que significa "alto" o "caro"; tanto la forma con un componente que se asemeja al carácter "boca" () en el medio () como la forma menos común con una construcción similar a una escalera en la misma ubicación () se incluyen en el mismo punto de código. En consecuencia, limitar los puntos 25-66 a la forma "boca" y asignar esta última forma "escalera" a un punto de código no asignado técnicamente violaría el estándar.

En la práctica, sin embargo, varias variantes de Shift JIS específicas del proveedor, incluidas Windows-932 y MacJapanese , codifican extensiones de proveedor en filas no asignadas del espacio de codificación para JIS X 0208. Además, la mayoría de los códigos no asignados en JIS X 0208 son asignados por el estándar más nuevo JIS X 0213 .

Nombres de personajes

Cada carácter JIS X 0208 recibe un nombre . Al utilizar el nombre de un carácter, es posible identificar caracteres sin depender de sus códigos. Los nombres de los caracteres se coordinan con otros estándares de conjuntos de caracteres, en particular el Conjunto de caracteres codificados universales (UCS/ Unicode ), por lo que esta es una posible fuente de asignaciones de caracteres a conjuntos de caracteres como Unicode. Por ejemplo, tanto el carácter de la columna 4, línea 1, de la versión de referencia internacional ISO/IEC 646 ( US-ASCII ) como el de la celda 33 de la fila 3 de JIS X 0208 tienen el nombre "LETRA A MAYÚSCULA LATINA". Por lo tanto, el carácter en 4/1 en ASCII y el carácter en 3-33 en JIS X 0208 pueden considerarse el mismo carácter (aunque, en la práctica, se utiliza una asignación alternativa para el carácter JIS X 0208 debido a que las codificaciones proporcionan ASCII por separado). Por el contrario, los caracteres ASCII 2/2 (comillas), 2/7 (apóstrofe), 2/13 (guión-menos) y 7/14 (tilde) pueden determinarse como caracteres que no existen en este estándar.

Los nombres de caracteres de caracteres no kanji utilizan letras romanas mayúsculas, espacios y guiones. A los caracteres no kanji se les da un nombre común en japonés (日本語通用名称, Nihongo tsūyō meishō ) , pero no existen algunas disposiciones para estos nombres. [k] Los nombres de los kanji, por otro lado, se establecen mecánicamente de acuerdo con la representación hexadecimal correspondiente de su código en UCS/Unicode. El nombre de un kanji se puede obtener anteponiendo el punto de código Unicode con "CJK UNIFIED IDEOGRAPH-". Por ejemplo, la fila 16 celda 1 () corresponde a U+4E9C en UCS, por lo que el nombre sería "CJK UNIFIED IDEOGRAPH-4E9C". Los kanji no reciben nombres comunes japoneses.

Conjunto de kanji

Descripción general

JIS X 0208 prescribe un conjunto de 6879 caracteres gráficos que corresponden a códigos de dos bytes con siete u ocho bits por byte; en JIS X 0208, esto se llama el conjunto kanji (漢字集合, kanji shūgō ) , que incluye 6355 kanji así como 524 no kanji (非漢字, hikanji ) , incluidos caracteres como letras latinas , kana , etc.

Caracteres especiales
Ocupa las filas 1 y 2. Hay 18 símbolos descriptores (記述記号, kijutsu kigō ) como el "espacio ideográfico" (), y la coma y el punto japoneses ; ocho signos diacríticos como dakuten y handakuten ; 10 caracteres para cosas que siguen a kana o kanji (仮名又は漢字に準じるもの, kana mata wa kanji ni junjiru mono ) , como la marca de iteración ; 22 símbolos entre corchetes (括弧記号, kakko kigō ) ; 45 símbolos matemáticos (学術記号, gakujutsu kigō ) ; y 32 símbolos unitarios , que incluyen el signo monetario y la marca postal , para un total de 147 caracteres.
Números
Ocupa parte de la fila 3. Los diez dígitos del "0" al "9".
Letras latinas
Ocupa parte de la fila 3. Las 26 letras del alfabeto inglés en forma mayúscula y minúscula para un total de 52.
Hiragana
Ocupa la fila 4. Contiene 48 kana sordos (incluidos los obsoletos wi y we ), 20 kana sonoros ( dakuten ), 5 kana semisonoros ( handakuten ), 10 kana pequeños para sonidos palatalizados y asimilados, para un total de 83 caracteres.
Katakana
Ocupa la fila 5. Hay 86 caracteres; además de los equivalentes katakana de los caracteres hiragana, el pequeño ka / ke kana (/) y el vu kana ().
Letras griegas
Ocupa la fila 6. Las 24 letras del alfabeto griego en mayúsculas y minúsculas (menos la sigma final ) para un total de 48.
Letras cirílicas
Ocupa la fila 7. Las 33 letras del alfabeto ruso en forma mayúscula y minúscula para un total de 66.
Personajes de dibujo de caja
Ocupa la fila 8. Segmentos delgados, segmentos gruesos y segmentos delgados y gruesos mixtos, 32 en total.
Kanji
Los 2965 caracteres del nivel 1 (第1水準, dai ichi suijun ) de la fila 16 a la fila 47, y los 3390 caracteres del nivel 2 (第2水準, dai ni suijun ) de la fila 48 a la fila 84 para un total de 6355.

Caracteres especiales, números y caracteres latinos

En cuanto a los caracteres especiales del conjunto kanji, algunos caracteres del conjunto de caracteres gráficos de la versión de referencia internacional (IRV) de ISO/IEC 646 :1991 (equivalente a ASCII ) no están presentes en JIS X 0208. Están los cuatro caracteres antes mencionados "COMILLAS", "APÓSTROFE", "GUIÓN-MINUS" y "TILDE". Los tres primeros están divididos en diferentes puntos de código en el conjunto kanji (Nishimura, 1978; estándar JIS X 0221-1:2001, Sección 3.8.7). La "TILDE" de IRV no tiene un carácter correspondiente en el conjunto kanji.

En la siguiente tabla, los caracteres IRV ISO/IEC 646:1991 en cuestión se comparan con sus múltiples equivalentes en JIS X 0208, excepto el carácter IRV "TILDE", que se compara con el "WAVE DASH" de JIS X 0208. Las entradas bajo las columnas "Símbolo" utilizan puntos de código UCS/Unicode, por lo que los detalles de visualización pueden diferir.

A los caracteres ASCII/IRV sin equivalentes exactos en JIS X 0208 se les asignaron posteriormente puntos de código en JIS X 0213; estos también se enumeran a continuación, al igual que la asignación de Microsoft de los cuatro caracteres.

  1. ^ ab De "Selección de extensiones de IBM de NEC". Ocupa un punto de código no asignado en JIS X 0208.
  2. ^ ab De "Extensiones IBM". Fuera del rango de JIS X 0208, pero codificable en Shift_JIS.
  3. ^ Microsoft trata el signo menos JIS como una forma de ancho completo del guión menos.
  4. ^ ab Wave Dash a veces se trata como una forma de ancho completo de la tilde, p. ej. por Microsoft (ver Tilde § Codificación Unicode y Shift JIS de wave dash ). La tilde ASCII / IRV es un punto de código ambiguo que puede aparecer como una marca de acento de tilde (˜) o como un guión con la misma curvatura (∼), aunque el guión es más común debido a que el acento de espaciado tiene un punto de código separado en Windows-1252 ; no hay ningún carácter JIS X 0208 para un acento de tilde. El carácter 1-2-18 en JIS X 0213 se muestra como un acento de tilde en la tabla de códigos. [6]

Esto significa que el conjunto kanji es el conjunto de caracteres no compatibles con versiones anteriores más extendido en el mundo y se considera uno de los puntos débiles de este estándar.

Incluso con los 90 caracteres especiales, números y letras latinas que el conjunto kanji y el conjunto IRV tienen en común, esta norma no sigue la disposición de ISO/IEC 646. Estos 90 caracteres se dividen entre las filas 1 (puntuación) y 3 (letras y números), aunque la fila 3 sigue la disposición de ISO 646 solo para las 62 letras y números (por ejemplo, 4/1("A") en ISO 646 se convierte en 2/3 4/1(es decir, 3-33) en JIS X 0208).

En cuanto a la causa de que estos números, letras latinas, etc. en el conjunto kanji sean "caracteres alfanuméricos de ancho completo" (全角英数字, zenkaku eisūji ) y cómo la implementación original surgió con una interpretación diferente en comparación con el IRV, se cree que se debe a estas incompatibilidades.

Desde el primer estándar, ha sido posible representar caracteres compuestos (合成, gōsei ) como números encerrados en un círculo , ligaduras para nombres de unidades de medida y números romanos ; [10] no se les asignaron puntos de código kuten independientes . Aunque las empresas individuales que fabrican sistemas de información pueden hacer un esfuerzo para representar estos caracteres como los clientes pueden requerir por la composición de los caracteres, ninguna ha solicitado que se agreguen al estándar, sino que ha optado por ofrecerlos de forma patentada como gaiji .

En la cuarta norma (1997), todos estos caracteres se definieron explícitamente como caracteres que acompañan un avance de la posición actual; es decir, son caracteres de espaciado . Además, se determinó que no debían ser formados por la composición de caracteres. Por esta razón, se prohibió la representación de caracteres latinos con diacríticos en absoluto, con posiblemente la única excepción del símbolo ångström ( Å ) en la fila 2 de la celda 82.

Hiragana y katakana

A diferencia de JIS X 0201, los hiragana y katakana incluidos en JIS X 0208 incluyen las marcas dakuten y handakuten como parte de un carácter. También se incluyen los caracteres katakana wi () y we () (ambos obsoletos en el japonés moderno), así como la minúscula wa () , que no se incluyen en JIS X 0201.

La disposición de kana en JIS X 0208 es diferente de la disposición de katakana en JIS X 0201. En JIS X 0201, el silabario comienza con wo () , seguido por el kana pequeño ordenado por orden de gojūon , seguido por el de tamaño completo. kana, también en orden gojūon (ヲァィゥェォャュョッーアイウエオ......ラリルレロワン). Por otro lado, en JIS X 0208, los kana se clasifican primero por orden de gojūon , luego en el orden de "kana pequeña, kana de tamaño completo, kana con dakuten y kana con handakuten", de modo que se agrupe el mismo kana fundamental. con sus derivados (ぁあぃいぅうぇえぉお......っつづ......はばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん). Se eligió este orden para facilitar más simplemente la clasificación de las búsquedas en diccionarios basados ​​en kana (Yasuoka, 2006). [l]

Como se mencionó anteriormente, en esta norma, el orden de katakana definido previamente en JIS X 0201 no se respetó en JIS X 0208. Se cree que el katakana de JIS X 0201, que es " kana de ancho medio ", surgió debido a la incompatibilidad con el katakana de esta norma. Este punto también es una de las debilidades de esta norma.

Kanji

En el cuarto estándar (1997) se explica en detalle cómo se eligieron los kanji de este estándar, de qué fuentes, por qué se dividen en nivel 1 y nivel 2 y cómo se organizan. Según esa explicación, los kanji incluidos en las siguientes cuatro listas de kanji se reflejaron en los 6349 caracteres del primer estándar (1978).

El comité de códigos kanji de la Sociedad de Procesamiento de Información de Japón compiló esta lista en 1971. En los "Resultados del análisis de correspondencia" que aparecen a continuación, aparecen 6086 caracteres.
Seleccionado por la Agencia de Gestión Administrativa de Japón en 1975, consta de 2817 caracteres. Para los datos con fines de selección, la Agencia elaboró ​​un informe que, comenzando con el "Listado de kanji para el código estándar (provisional)", contrastaba varios listados de kanji, los "Resultados del análisis de correspondencia y frecuencia de uso de kanji para el procesamiento de datos administrativos Utilice la selección de kanji normal" (行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果, Gyōsei Jōhō Shoriyō Kihon Kanji Sentei no Tame no Kanji no Shiyō Hindo Oyobi Taiō Bunseki Kekka ) , o "Resultados del análisis de correspondencia" (対応分析結果, Taiō Bunseki Kekka ) para abreviar.
Una de las listas de kanji que componen los "Resultados del análisis de correspondencias", compuesta por 3044 caracteres. Ya no existe. La lista original no existía para el comité de redacción original; esta lista de kanji se reflejó en el estándar que sigue a los "Resultados del análisis de correspondencias".
Uno de los listados de kanji que componen los "Resultados del análisis de correspondencias", que consta de 3251 caracteres. Son los kanji utilizados en la lista de todos los nombres de lugares administrativos compilada por el Centro de Datos Geográficos de Japón, la "Lista de distritos administrativos nacionales" (国土行政区画総覧, Kokudo Gyōsei Kukaku Sōran ) . El comité de redacción original no investigó la lista en sí; los kanji utilizados en esta lista siguieron los "Resultados del análisis de correspondencias".

En el segundo y tercer nivel, añadieron cuatro y dos caracteres al nivel 2, respectivamente, con lo que el total de kanjis ascendió a 6355. Además, en el segundo nivel, se cambiaron las formas de los caracteres, así como la transposición entre los niveles; en el tercer nivel también se cambiaron las formas de los caracteres. Estos se describen con más detalle a continuación.

Partición de niveles

Los 2.965 kanji de nivel 1 ocupan las filas 16 a 47. Los 3.390 kanji de nivel 2 ocupan las filas 48 a 84.

Para el nivel 1, se eligieron caracteres comunes a múltiples listados de glifos kanji, utilizando el kanji tōyō , el borrador de corrección del kanji tōyō y el kanji jinmeiyō como base. Además, se consultaron las normas JIS C 6260 ("Código de identificación de To-Do-Fu-Ken (prefectura)"; actualmente JIS X 0401) y JIS C 6261 ("Código de identificación de ciudades, pueblos y aldeas"; actualmente JIS X 0402); los kanji de casi todas las prefecturas , ciudades, distritos, barrios, pueblos, aldeas, etc. de Japón se colocaron intencionalmente en el nivel 1. [m] Además, se añadieron enmiendas de expertos.

El nivel 2 estaba dedicado a los kanji que aparecían en las cuatro listas principales mencionadas anteriormente pero que no fueron seleccionados para el nivel 1. Como se señala a continuación, los kanji del nivel 1 se ordenaron por su pronunciación, por lo que entre los kanji cuya pronunciación era difícil de determinar, hubo aquellos que se transfirieron del nivel 1 al nivel 2 sobre esa base (Nishimura, 1978).

Debido a estas decisiones, en su mayor parte, el nivel 1 contiene kanji de uso más frecuente, y el nivel 2 contiene kanji de uso menos frecuente, pero por supuesto, estos fueron juzgados según los estándares de la época; con el paso del tiempo, algunos kanji de nivel 2 se han vuelto más utilizados, como uno que significa "volar" () y otro que significa "brillar" (); e inversamente, algunos kanji de nivel 1 se han vuelto poco frecuentes, en particular los que significan "centímetro" () y "milímetro" (). De los kanji jōyō actuales , 30 caen en el nivel 2, [n] mientras que tres faltan por completo (塡󠄀, 剝󠄀 y 頰󠄀). [o] De los kanji jinmeiyō actuales , 192 están en el nivel 2, [p] mientras que 105 no son parte del estándar. [q]

Acuerdo

Los kanji del nivel 1 se ordenan según la "lectura representativa" de cada uno (es decir, una lectura canónica elegida solo para los fines de este estándar); la lectura de un kanji para esto puede ser una lectura on o una kun ; las lecturas se ordenan en orden gojūon . [r] Como regla general, la lectura on (sonido chino) se considera la lectura representativa; cuando un kanji tiene múltiples lecturas on , la lectura que se considera predominante en frecuencia de uso se utiliza como lectura representativa (estándar JIS C 6226-1978, Sección 3.4). Para el pequeño porcentaje de kanji que no tienen una lectura on o tienen una lectura on que es poco conocida y no es de uso común, se empleó la lectura kun como lectura representativa. Cuando se debe utilizar una lectura del verbo kun como lectura representativa, se utiliza la forma ren'yōkei (en lugar de la shūshikei ).

Por ejemplo, las celdas 1 a 41 en la fila 16 son 41 caracteres ordenados como comenzando con una lectura de a . Dentro de estos, 22 caracteres, incluidos 16-10 (: en la lectura " ki "; kun leyendo " aoi ") y 16-32 (: en las lecturas " zoku " y " shoku "; kun leyendo " awa ") están allí sobre la base de sus lecturas kun . 16-09 (: en la lectura " ", kun leyendo " a(i) ") y 16-23 (: en las lecturas " " y " kyū ", kun leyendo " atsuka(i) ") son solo dos ejemplos de verbos en forma ren'yōkei utilizados para la lectura representativa.

Cuando la lectura representativa es la misma entre diferentes kanji, el kanji que utiliza la lectura on se coloca antes del que utiliza la lectura kun . Cuando las lecturas on o kun son las mismas entre más de un kanji, se ordenan por su radical principal y número de trazos .

Ya sea en el nivel 1 o en el nivel 2, los itaiji se organizan para seguir directamente su forma ejemplar. Por ejemplo, en el nivel 2, justo después de la fila 49, celda 88 (), los caracteres inmediatamente siguientes se desvían de la regla general (número de trazos en este caso) para incluir tres variantes de 49 a 88 (,y). [s]

Los kanji del nivel 2 están ordenados según el radical primario y el número de trazos. Cuando estas dos propiedades son las mismas para distintos kanji, se ordenan por lectura.

Kanji de fuentes desconocidas

Se ha señalado que hay kanji en el conjunto de kanji que no se encuentran en diccionarios de kanji completos y completos, y que se desconocen las fuentes de los mismos. Por ejemplo, solo un año después de que se estableciera el primer estándar, Tajima (1979) informó que había confirmado 63 kanji que no se encontraban en Shinjigen (un gran diccionario de kanji publicado por Kadokawa Shoten ), ni en Dai Kan-Wa jiten , y que no tenían sentido como ryakuji de ningún tipo; señaló que sería preferible que los kanji que no estuvieran disponibles en los diccionarios de kanji se seleccionaran de fuentes definitivas. Estos kanji llegaron a conocerse como caracteres "fantasma" (幽霊文字, yūrei moji ) o "kanji fantasma" (幽霊漢字, yūrei kanji ) , entre otros nombres.

El comité de redacción de la cuarta versión de la norma también consideró que la existencia de kanji de fuentes desconocidas era un problema, por lo que realizó una investigación sobre el tipo de fuentes a las que hacía referencia el comité de redacción de la primera versión. Como resultado, se descubrió que el comité de redacción original se había basado en gran medida en los "Resultados del análisis de correspondencias" para recopilar los kanji. Cuando el comité de redacción investigó los "Resultados del análisis de correspondencias", quedó claro que muchos de los kanji incluidos en el conjunto de kanji pero que no se encontraban en diccionarios de kanji exhaustivos supuestamente provenían de las listas "Kanji de nombres de registro de personalidades japonesas" y "Kanji para la lista de distritos administrativos nacionales" mencionadas en los "Resultados del análisis de correspondencias".

Se confirmó que no existe ningún texto original para el "Kanji de nombres de registro de personalidades japonesas" al que se hace referencia en los "Resultados del análisis de correspondencia". Para la "Lista de distritos administrativos nacionales", Sasahara Hiroyuki, del comité de redacción de la cuarta versión, examinó los kanji que aparecían en las páginas de desarrollo en curso para la primera norma. El comité también consultó muchos escritos antiguos, así como muchos ejemplos de nombres personales en una base de datos de guías telefónicas de NTT .

Gracias a esta investigación exhaustiva, el comité pudo reducir el número de kanjis cuyo origen no se puede explicar con certeza a doce, que se muestran en la tabla adyacente. De estos, se conjetura que varios glifos surgieron debido a errores de copia. En particular, 妛 probablemente se creó cuando los impresores intentaron crear 𡚴 cortando y pegando 山 y 女 juntos. Una sombra de ese proceso se interpretó erróneamente como una línea, lo que dio como resultado 妛 (se puede encontrar una imagen de esto en el Jōyō kanji jiten ).

Unificación de variantes de kanji

Según las especificaciones del cuarto estándar (1997), la unificación (包摂, hōsetsu , no es el mismo término utilizado para la " unificación " de Unicode , aunque es casi el mismo concepto) es la acción de dar el mismo punto de código a un carácter sin tener en cuenta sus diferentes formas de carácter. En el cuarto estándar, los glifos permitidos son limitados; el grado en el que los glifos alográficos particulares se unifican en un punto de código grafémico está claramente definido.

Además, según las especificaciones de la norma, un glifo (字体, jitai , lit. "cuerpo del carácter";) es una noción abstracta en cuanto a la representación gráfica de un carácter gráfico; una forma de carácter (字形, jikei , lit. "forma del carácter"; también un "glifo" en cierto sentido, pero diferenciado en un nivel diferente para fines de estandarización) es la representación como una forma gráfica que un glifo toma en realidad (por ejemplo, debido a que un glifo está escrito a mano, impreso, mostrado en una pantalla, etc.). Para un solo glifo, existe una gama infinita de posibles formas de caracteres concretas y/o visiblemente diferentes. Una variación entre una forma de carácter de un glifo se denomina "diferencia de diseño" (デザインの差, dezain no sa ) .

El grado en el cual un glifo se unifica en un punto de código se determina de acuerdo con el "glifo de ejemplo" (例示字体, reiji jitai ) de ese punto de código y los "criterios de unificación" (包摂規準, hōsetsu kijun ) que se pueden aplicar a ese glifo de ejemplo; es decir, el glifo de ejemplo para un punto de código se aplica a ese punto de código, y cualquier glifo para el cual las partes que componen el glifo de ejemplo se reemplazan de acuerdo con los criterios de unificación también se aplican a ese punto de código.

Por ejemplo, el glifo de ejemplo en 33-46 () está compuesto por el radical 9 () y el kanji que eventualmente generó el kana so (). Además, en el criterio de unificación 101, se muestran tres kanji: el primero toma la forma que se ve con más frecuencia en japonés (); el segundo contiene una forma más tradicional () en la que los dos primeros trazos forman el radical 12 (el numeral kanji para el número 8:); y el tercero es como el segundo, excepto que el radical 12 está invertido (). En consecuencia, las tres permutaciones (,,) se aplican al punto de código en la línea 33, celda 46.

En la cuarta norma, incluida una de las erratas de la primera impresión, hay 186 criterios de unificación.

Cuando el glifo de ejemplo de un punto de código está compuesto por más de un glifo parcial, se pueden aplicar criterios de unificación a cada parte. Después de aplicar un criterio de unificación a un glifo parcial, no se pueden aplicar más criterios de unificación a esa parte. Además, no se permite aplicar un criterio de unificación si el glifo resultante coincidiría completamente con el de otro punto de código.

Un glifo de ejemplo no es más que un ejemplo para ese punto de código; no es un glifo "aprobado" por el estándar. Además, los criterios de unificación solo deben usarse para kanji de uso general y con el propósito de asignar elementos a los puntos de código de este estándar. El estándar solicita que no se creen kanji de uso general basados ​​en los glifos de ejemplo y los criterios de unificación.

Los kanji del conjunto de kanji no se eligen de forma completamente coherente según los criterios de unificación. Por ejemplo, aunque 41-7 corresponde a la forma en la que el tercer y cuarto trazo se cruzan () así como a la forma en la que no lo hacen () según el criterio de unificación 72, 20-73 solo corresponde a la forma en la que no se cruzan (), y 80-90 solo corresponde a la forma en la que sí lo hacen ().

Los términos "unificación", "criterios de unificación" y "glifo de ejemplo" se adoptaron en el cuarto estándar. Desde la primera hasta la tercera versión, los kanji y las relaciones entre kanji se agruparon en tres tipos: "independientes" (独立, dokuritsu ) , "compatibles" (対応, taiō ) y "equivalentes" (同値, dōchi ) ; se explicó que los caracteres reconocidos como equivalentes "se consolidan en un solo punto". La "equivalencia" incluía, además de los kanji con exactamente la misma forma, los kanji con diferencias debidas al estilo y los kanji en los que la diferencia en la forma del carácter es pequeña.

En la primera norma se estipula que "esta norma... no establece los detalles de las formas de los caracteres" (Sección 3.1); también se establece que "el objetivo de esta norma es establecer la idea general de los caracteres y sus códigos; el diseño de sus formas de caracteres y demás quedan fuera de su ámbito de aplicación". En la segunda y tercera normas también se indican que los diseños específicos de las formas de los caracteres quedan fuera de su ámbito de aplicación (nota sobre el punto 1). La cuarta norma también estipula que "Esta norma regula los caracteres gráficos, así como sus patrones de bits, y el uso, los diseños específicos de caracteres individuales, etc., no están dentro del ámbito de aplicación de esta norma" (JIS X 0208:1997, punto 1).

Criterios de unificación para la compatibilidad

En el cuarto estándar, se definen "criterios de unificación para mantener la compatibilidad con estándares anteriores" (過去の規格との互換性を維持するための包摂規準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun ) . Su aplicación se limita a 29 puntos de código cuyos glifos varían mucho entre los estándares JIS C 6226-1983 en adelante y JIS C 6226-1978. Para esos 29 puntos de código, los glifos de JIS C 6226-1983 en adelante se muestran como "A" y los glifos de JIS C 6226-1978 como "B". En cada uno de ellos se pueden aplicar tanto los glifos "A" como "B". Sin embargo, para poder afirmar la compatibilidad con el estándar, se debe indicar explícitamente si se ha utilizado la forma "A" o "B" para cada punto de código. .

Codificaciones de caracteres

Esquemas de codificación estipulados por JIS X 0208

En JIS X 0208:1997, el artículo 7 combinado con los apéndices 1 y 2 definen un total de ocho esquemas de codificación.

En las descripciones que se muestran a continuación, las regiones "CL" (izquierda de control), "GL" (izquierda de gráfico), "CR" (derecha de control) y "GR" (derecha de gráfico) son, respectivamente, en notación de columna/línea, de 0/0 a 1/15, de 2/1 a 7/14, de 8/0 a 9/15 y de 10/1 a 15/14. Para cada código, a 2/0 se le asigna el carácter gráfico "ESPACIO" y a 7/15 el carácter de control "ELIMINAR". Los caracteres de control C0 (definidos en JIS X 0211 y que coinciden con ISO/IEC 6429 ) se asignan a la región CL.

Codificación de 7 bits para kanji
Según lo estipula la propia norma, el conjunto de bytes dobles JIS X 0208 se asigna a la región GL.
Codificación de 8 bits para kanji
Se estipula en la propia norma. Igual que la codificación de 7 bits, pero definida en términos de bytes de 8 bits. La región CR puede no utilizarse o codificar los caracteres de control C1 de JIS X 0211. La región GR no se utiliza.
Versión de referencia internacional + codificación de 7 bits para kanji
Se estipula en la propia norma. El desplazamiento del carácter de control designa la IRV (versión de referencia internacional, equivalente a US-ASCII ) ISO/IEC 646 :1991 a la región GL. El desplazamiento hacia fuera designa el conjunto de bytes dobles JIS X 0208 a la misma región.
Caracteres latinos + codificación de 7 bits para kanji
Se estipula en la propia norma. Como en el caso de IRV+7-bit, pero con ISO/IEC 646:IRV reemplazado por ISO/IEC 646:JP (el conjunto romano de JIS X 0201 ).
Versión de referencia internacional + codificación de 8 bits para kanji
Se estipula en la propia norma. ISO/IEC 646:IRV se asigna a la región GL, JIS X 0208 a la región GR. Se trata, en efecto, de un subconjunto de EUC-JP , que excluye el katakana de ancho medio de JIS X 0201 y el kanji suplementario de JIS X 0212 .
Caracteres latinos + codificación de 8 bits para kanji
Se estipula en la propia norma. Como en el caso de IRV+8 bits, pero con la sustitución de ISO/IEC 646:IRV por ISO/IEC 646:JP.
Conjunto de caracteres codificados por mayúsculas
Estipulado en el Apéndice 1: "Representación codificada por turnos" (シフト符号化表現, Shifuto Fugōka Hyōgen ) . La definición autorizada de Shift JIS .
Conjunto de caracteres codificados según RFC 1468
Se estipula en el Apéndice 2: "Representación codificada RFC 1468" ( RFC 1468符号化表現, RFC 1468 Fugōka Hyōgen ) . Se parece a ISO-2022-JP (que se define de manera autorizada en RFC 1468) pero se define en términos de bytes de ocho bits, mientras que ISO-2022-JP se define en términos de bytes de siete bits.

Entre las codificaciones estipuladas en el cuarto estándar, solo el conjunto de caracteres codificados "Shift" está registrado por la IANA . [11] Sin embargo, algunas otras están estrechamente relacionadas con las codificaciones registradas por la IANA definidas en otros lugares (EUC-JP e ISO-2022-JP).

Secuencias de escape para JIS X 0202 / ISO 2022

JIS X 0208 puede utilizarse dentro de ISO 2022 /JIS X 0202 (de la cual ISO-2022-JP es un subconjunto). Las secuencias de escape para designar JIS X 0208 a cada uno de los cuatro conjuntos de códigos ISO 2022 se enumeran a continuación. Aquí, "ESC" se refiere al carácter de control " Escape " (0x1B o 1/11).

La secuencia de escape que comienza con ESC 2/4 selecciona un conjunto de caracteres multibyte. La secuencia de escape que comienza con ESC 2/6 especifica una revisión del próximo conjunto de caracteres seleccionado. JIS C 6226:1978 se identifica mediante el byte de identificador de conjunto multibyte-94 4/0 (que corresponde a ASCII @). JIS C 6226:1983 / JIS X 0208:1983 se identifica mediante el byte de identificador de conjunto multibyte-94 4/2 ( B). JIS X 0208:1990 también se identifica mediante el byte de identificador de conjunto multibyte-94 4/2, pero se puede distinguir con el identificador de revisión 4/0 ( @).

Codificaciones duplicadas de ASCII y JIS X 0201

Al utilizar el conjunto de kanji de esta norma con el conjunto de caracteres gráficos IRV ISO/IEC 646:1991 ( ASCII ) o con el conjunto de caracteres gráficos para caracteres latinos JIS X 0201 ( JIS-Roman ), el tratamiento de los caracteres comunes a ambos conjuntos se vuelve problemático. A menos que se tomen medidas especiales, los caracteres incluidos en ambos conjuntos no se asignan entre sí uno a uno, y a un solo carácter se le puede asignar más de un punto de código; es decir, puede causar una codificación duplicada.

JIS X 0208:1997, en lo que respecta a cuándo un carácter es común a ambos conjuntos, básicamente prohíbe el uso del punto de código en el conjunto kanji (que es uno de los dos puntos de código), eliminando las codificaciones duplicadas. Se considera que los caracteres que tienen el mismo nombre son el mismo carácter.

Por ejemplo, tanto el nombre del carácter correspondiente al patrón de bits 4/1 en ASCII como el nombre del carácter correspondiente a la celda 33 de la fila 3 del conjunto de kanji son "LETRA A MAYÚSCULA LATINA". En la versión de referencia internacional + código de 8 bits para kanji, ya sea por el patrón de bits 4/1 o por el patrón de bits correspondiente a la celda 33 de la fila 3 del conjunto de kanji (10/3 12/1), se representa la letra " A " (es decir, "LETRA A MAYÚSCULA LATINA"). El estándar prohíbe el uso del patrón de bits "10/3 12/1", en un intento de eliminar la codificación duplicada.

En consideración a las implementaciones que tratan los caracteres de los puntos de código del conjunto kanji como " caracteres de ancho completo " y los de ASCII o JIS-Roman como caracteres diferentes, el uso de los puntos de código del conjunto kanji está permitido únicamente por motivos de compatibilidad con versiones anteriores. Por ejemplo, a los efectos de compatibilidad con versiones anteriores, se permite considerar 10/3 12/1 en la Versión de Referencia Internacional + código de 8 bits para kanji para que corresponda a una "A" de ancho completo.

Si el conjunto de kanji se utiliza junto con ASCII o JIS-Roman, incluso si se respeta estrictamente el estándar, no se garantiza la codificación única de un carácter. Por ejemplo, en la versión de referencia internacional + código de 8 bits para kanji, es válido representar un guión con el patrón de bits 2/13 para el carácter "HYPHEN-MINUS", así como con la celda 30 de la fila 1 del conjunto de kanji (patrón de bits 10/1 11/14) para el carácter "HYPHEN". Además, el estándar no define cuál de los dos se debe utilizar para qué, por lo que al guión no se le asigna una codificación única. El mismo problema afecta al signo menos , las comillas , etc.

Además, incluso si el conjunto de kanji se utiliza como un código independiente, no hay garantía de que se implemente la codificación única de caracteres. Sin embargo, en muchos casos, el " ESPACIO IDEOGRÁFICO " de ancho completo en la celda 1 de la fila 1 y el espacio de ancho medio (2/0) coexisten. En qué deberían diferenciarse los dos no se explica por sí solo y no se especifica en el estándar.

Comparación de los esquemas de codificación utilizados en la práctica

  1. ^ ie no requiere transmisión limpia de 8 bits .
  2. ^ es decir, la secuencia utilizada para codificar un carácter determinado es siempre la misma, sin importar cuáles hayan sido los caracteres anteriores. Véase estado (informática) .
  3. ^ ab ISO-2022-JP es una codificación con estado : todos los conjuntos de caracteres se codifican sobre 0x21–7E y se alternan entre ellos mediante escapes ANSI. Por lo tanto, si bien es ASCII en su estado inicial, secuencias completas de caracteres no ASCII se pueden codificar con bytes ASCII.
  4. ^ Los katakana JIS X 0201 están disponibles en JIS X 0202 e ISO 2022, pero no están incluidos en el perfil básico ISO-2022-JP, aunque son una extensión común.
  5. ^ JIS X 0212 está disponible en JIS X 0202 e ISO 2022, y está incluido en los perfiles ISO-2022-JP-1 e ISO-2022-JP-2, pero no en el perfil básico ISO-2022-JP.
  6. ^ Los caracteres de un solo byte 0x21–7E en Shift_JIS son correctamente ISO-646-JP , para ser un superconjunto de JIS X 0201 de 8 bits, pero a menudo se decodifican (no necesariamente se muestran) como ASCII, que difiere solo en dos lugares.
  7. ^ Algunos bytes ASCII (no todos) pueden aparecer como segundos bytes, pero no primeros bytes, de caracteres de doble byte en Shift_JIS. Por lo tanto, en una secuencia de dos o más bytes ASCII, el segundo byte en adelante son necesariamente caracteres ASCII (o ISO-646-JP).
  8. ^ El formato empaquetado EUC se basa en los mecanismos ISO 2022, con designaciones de conjuntos de caracteres preestablecidas. Se evitan los escapes de designación de conjuntos de caracteres y los cambios de bloqueo, mientras que el uso de cambios simples se puede implementar de manera no estatal. No obstante, se respetan las restricciones de ISO 2022.
  9. ^ Los caracteres de un solo byte 0x21–7E en EUC-JP generalmente se consideran ASCII, pero a veces se tratan como ISO-646-JP .
  10. ^ A diferencia de Shift_JIS, EUC-JP no manejará una entrada JIS X 0201 simple de 8 bits sin una conversión previa, debido a la diferente representación del katakana JIS X 0201 (con cambios simples).
  11. ^ JIS X 0212 en EUC-JP no siempre se implementa.
  12. ^ Además de las propiedades de las codificaciones en sí, los formatos Unicode tienen otras ventajas derivadas del conjunto de caracteres subyacente: no se limitan a los caracteres codificados JIS, sino que pueden representar la totalidad de UCS (incluido el repertorio completo de caracteres codificados JIS) y, por lo tanto, son adecuados para el uso internacional. También se ven menos afectados por la colisión de extensiones propietarias, debido a su mayor repertorio base y a las áreas de uso privado designadas.
  13. ^ La mayoría de los desplazamientos de marco bit a bit de texto codificado en UTF-8 producirán UTF-8 no válido, pero es posible construir secuencias de caracteres que sigan siendo UTF-8 válidos incluso cuando se desplazan uno o más bits.
  14. ^ Sólo por Microsoft.
  15. ^ Si bien GB 18030 y GBK son extensiones del formato EUC-CN de GB/T 2312, no siguen las restricciones de EUC o ISO 2022, a diferencia de EUC-JP (o el EUC-CN original).
  16. ^ Aunque, en teoría, UTF-32 se sincroniza automáticamente solo en dwords de 32 bits, el uso de un valor de 32 bits para representar un valor de 21 bits significa que, en la práctica, UTF-32 contiene una serie continua de al menos 11 bits cero en el extremo superior de cada carácter, que generalmente se pueden usar para alinearse con los límites de los caracteres, dependiendo de los puntos de código involucrados.

Historia

Hasta que transcurran cinco años desde que se haya establecido, reafirmado o revisado una norma industrial japonesa, la norma anterior se somete a un proceso de reafirmación, revisión o retirada. Desde su establecimiento, la norma ha sido objeto de revisión tres veces y, en la actualidad, la cuarta norma es válida.

Primer estándar

La primera norma es JIS C 6226-1978 "Código de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) , establecida por el Ministro de Comercio Internacional e Industria japonés el 1 de enero de 1978. También se denomina 78JIS para abreviar. Por encargo de la Agencia de Ciencia y Tecnología Industrial, un comité de investigación y estudio de normalización de códigos kanji del JIPDEC elaboró ​​el borrador. El presidente del comité fue Moriguchi Shigeichi.

El código incluía 453 caracteres no kanji (incluidos hiragana, katakana, los alfabetos romano, griego y cirílico y la puntuación) y 6349 kanji (2965 kanji de nivel 1 y 3384 kanji de nivel 2) para un total de 6802 caracteres. [12] Todavía no incluía caracteres de dibujo de cajas . El estándar en sí se estableció en la tipografía Ishii Mincho de Shaken Co., Ltd.

Segundo estándar

La segunda norma JIS C 6226-1983 "Código de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) revisó la primera norma el 1 de septiembre de 1983. También se denomina 83JIS . Por encargo de la AIST, un comité JIS relacionado con el código kanji del JIPDEC elaboró ​​el borrador. El presidente del comité fue Motooka Tōru.

El borrador de la segunda norma se basó en la consideración de factores tales como la promulgación del kanji jōyō , la aplicación del kanji jinmeiyō y la estandarización del teletex en idioma japonés por parte del Ministerio de Correos y Telecomunicaciones ; además, se realizó la siguiente modificación para mantenerse al día con JIS C 6234-1983 (formatos de caracteres de impresora matricial de 24 píxeles; actualmente JIS X 9052).

Adición de caracteres especiales
Se añadieron 39 caracteres a los caracteres especiales. Entre estos 39, según las recomendaciones de JICST y de normas como JIS Z 8201-1981 (símbolos matemáticos) y JIS Z 8202-1982 (cantidad, unidad y símbolos químicos), se eligieron elementos que no se podían representar por composición.
Personajes de dibujo de caja recientemente agregados
Se agregaron 32 caracteres para dibujar cuadros .
Intercambio de puntos de código de Itaiji
Se intercambiaron los puntos de código para 22 pares de variantes de Kanji, de modo que la variante en el nivel 2 se movió al nivel 1 y viceversa. [12] [13] Por ejemplo, la celda 59 de la fila 36 (nivel 1) en el primer estándar () se movió a la celda 68 de la fila 52 (nivel 2); el punto originalmente en la celda 68 de la fila 52 () se movió a su vez a la celda 59 de la fila 36.
Adiciones al kanji de nivel 2
A tres caracteres del nivel 1 y a un carácter del nivel 2 se les asignaron nuevos puntos de código en puntos de código no asignados previamente en la fila 84 como kanji de nivel 2. Los Itaiji para cada uno de esos puntos de código se asignaron nuevamente a sus ubicaciones originales. [14] Por ejemplo, la celda 1 de la fila 84 en el segundo estándar () se movió allí para dar cabida a una forma diferente no incluida en el primer estándar en la celda 38 de la fila 22 como kanji de nivel 1 ().
Modificación de formas de caracteres
Se modificaron las formas de los caracteres de aproximadamente 300 kanji. [15]

Entre los cambios en esas 300 formas de caracteres kanji, muchos glifos de nivel 1 que estaban en el estilo del Diccionario Kangxi se cambiaron a variantes, y especialmente a formas más simplificadas (por ejemplo, ryakuji y shinjitai extendido ). Por ejemplo, un par de puntos de código que a menudo son objeto de críticas debido a que se cambiaron en gran medida son la fila 18, celda 10 (78JIS:, 83JIS:) y la fila 38, celda 34 (78JIS:, 83JIS:).

Hubo muchos cambios menores que se alejaron de las variantes del estilo Kangxi; por ejemplo, la celda 84 de la fila 25 () perdió parte de un trazo. Además, cuando algunos glifos para kanji de nivel 1 no eran formas del estilo Kangxi, hubo algunos cambios en sus formas del estilo Kangxi; por ejemplo, la celda 49 de la fila 80 () ganó parte de un trazo (es decir, la misma parte del trazo que perdieron las celdas 25-84).

Para esclarecer la intención original de la primera norma, estas terminaron cayendo dentro de los parámetros para los criterios de unificación de la cuarta norma. La diferencia de forma de los ejemplos mencionados anteriormente ("" y "") cae dentro de los parámetros para el criterio de unificación 42 (relativo al componente ""). [t]

La mayor parte de los cambios en las formas de los caracteres son diferencias entre los kanji de nivel 1 y nivel 2. En concreto, la simplificación se hizo con más frecuencia para los kanji de nivel 1 que para los de nivel 2; las simplificaciones aplicadas a los kanji de nivel 1 (por ejemplo, "" a "" y "" a "") no se aplicaron generalmente a los kanji de nivel 2 ("" se mantuvo como estaba). Los kanji 25-84 () y 80-49 () antes mencionados también recibieron un tratamiento diferente, ya que el primero está en el nivel 1 y el segundo en el nivel 2. Aun así, hubo algunos cambios independientemente del nivel; por ejemplo, los caracteres que contienen los componentes "puerta" () e "invierno" () se cambiaron sin un tratamiento diferente entre los kanji de nivel 1 y nivel 2.

Sin embargo, en 29 puntos de código (como los problemáticos 18-10 y 38-34 mencionados anteriormente), las formas heredadas por la cuarta norma contradicen la intención original de la primera. Para estos puntos de código existen criterios de unificación especiales para mantener la compatibilidad con las normas anteriores.

Cuando se introdujo la nueva categoría "X" para las normas industriales japonesas (para campos relacionados con la información), la segunda norma pasó a denominarse JIS X 0208-1983 [12] el 1 de marzo de 1987.

Tercera norma

El tercer estándar JIS X 0208-1990 "Código de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号, Jōhō Kōkan'yō Kanji Fugō ) revisó el segundo estándar el 1 de septiembre de 1990. También se lo denomina 90JIS para abreviar. Por encargo de la AIST, un comité de la Asociación Japonesa de Estándares para la revisión de JIS X 0208 creó el borrador. El presidente del comité fue Tajima Kazuo.

Se cambiaron 225 glifos kanji y se agregaron dos caracteres al nivel 2 (84-05 "" y 84-06 ""). Esto fue una desunificación de itaiji para dos caracteres ya incluidos (49-59 "" y 63-70 ""). Algunos de los cambios y las dos adiciones correspondieron a los 118 kanji jinmeiyō agregados en marzo de 1990. [12] El estándar en sí fue establecido en Heisei Mincho.

Cuarto estándar

El cuarto estándar JIS X 0208:1997 "Conjuntos KANJI codificados de doble byte de 7 y 8 bits para el intercambio de información" ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto). Oyobi Hachi-Bitto no Ni-Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō ) revisó el tercer estándar el 20 de enero de 1997. También se llama 97JIS para abreviar. Por encargo de la AIST, un comité de la JSA para la investigación y el estudio de conjuntos de caracteres codificados produjo el borrador. El presidente del comité era Shibano Kōji.

Las políticas básicas de esta revisión fueron no realizar cambios en el conjunto de caracteres, aclarar las disposiciones ambiguas y hacer que el estándar fuera relativamente más fácil de usar. No se realizaron adiciones, eliminaciones ni reorganizaciones de puntos de código y, sin excepción, los glifos de ejemplo también se dejaron sin cambios. Sin embargo, las estipulaciones del estándar se reescribieron y/o complementaron por completo. Mientras que el tercer estándar tenía 65 páginas sin las explicaciones, el cuarto estándar tenía 374 páginas sin las explicaciones.

Los puntos principales de la revisión son:

Definición de métodos de codificación
Hasta la tercera norma, solo se definía el método de codificación basado en la extensión de código JIS X 0202, algo inusual en lo que respecta a los conjuntos de caracteres codificados. En la cuarta norma se definieron métodos de codificación que no utilizan secuencias de escape con el fin de extender el código.
Definición de la prohibición general de uso de puntos de código no asignados y métodos de uso de puntos de código no asignados
La tercera norma, en una explicación que no formaba parte de la norma, describía las cosas como si hubiera lugares en los que, para algunos puntos de código no asignados, era aceptable asignar gaiji. En la cuarta norma, se aclaró que el uso de puntos de código no asignados está prohibido en general. Además, se especificaron las condiciones para el uso de puntos de código no asignados.
Eliminación general de codificaciones duplicadas
A cada carácter se le asignó un "nombre de carácter" que se corresponde con los de otras normas. Además, se especificaron métodos de codificación para utilizarlos junto con la versión de referencia internacional de ISO/IEC 646 o JIS X 0201. Cuando se utiliza JIS X 0208 junto con cualquiera de ellos, entre dos puntos de código asignados para caracteres con el mismo nombre, solo se permite uno; por lo tanto, se eliminaron generalmente las codificaciones duplicadas.
Investigación sobre las fuentes de los kanji
Se identificaron los caracteres incluidos en el estándar hasta el momento que no se encuentran ni en el Diccionario Kangxi ni en el Dai Kanwa Jiten . Por consiguiente, se investigó con qué propósito se incluyeron y de qué fuentes procedían estos kanji durante la compilación del primer estándar.
Definición de criterios de unificación de kanji
Basándose en elementos como los materiales para la elaboración del primer estándar, se intentó recuperar la intención del primer estándar en cuanto al alcance de los glifos que representa cada punto de código. Además, se definieron claramente los criterios para unificar los glifos kanji.
Inclusión de normas de facto
En el momento de la cuarta norma, los métodos de codificación Shift JIS e ISO-2022-JP se habían convertido en normas de facto para la informática personal y el correo electrónico, respectivamente. Estos métodos de codificación se incluyeron como "Representación codificada Shift" y "Representación codificada RFC 1468" (descritas anteriormente).

Sucesores

JIS X 0213 (kanji extendido) fue diseñado "con el objetivo de ofrecer un conjunto de caracteres suficiente para los propósitos de codificación del idioma japonés moderno que JIS X 0208 pretendía ser desde el principio"; [16] define un conjunto de caracteres que amplía el conjunto de kanji de JIS X 0208. Los redactores de JIS X 0213 recomiendan la migración de JIS X 0208 a JIS X 0213, entre las ventajas está la compatibilidad de JIS X 0213 con la Lista de glifos Hyōgai Kanji y con los kanji jinmeiyō más nuevos .

Contrariamente a las expectativas de los redactores, la adopción de la norma JIS X 0213 no ha sido nada rápida desde su promulgación en el año 2000. El comité de redacción de la norma JIS X 0213:2004 escribió (en el año 2004): "La situación en la que 'lo que la mayoría de los sistemas de información pueden utilizar en común es sólo la norma JIS X 0208' todavía continúa". (JIS X 0213:2000, Apéndice 1:2004, sección 2.9.7)

En el caso de Microsoft Windows , el sistema operativo predominante (y, por tanto, el entorno de escritorio predominante ) en el sector de la informática personal, el repertorio JIS X 0213 se ha incluido desde Windows Vista , lanzado en noviembre de 2006. Mac OS X ha sido compatible con JIS X 0213 desde la versión 10.1 (lanzada en 2001). Muchos sistemas similares a Unix, como Linux, pueden (opcionalmente) soportar JIS X 0213 si se desea. Por lo tanto, se cree que con el tiempo, la compatibilidad con JIS X 0213 en las computadoras personales no será un impedimento para su eventual adopción.

Entre los redactores de la norma JIS X 0213, hay quienes esperan ver una combinación de JIS X 0208 y JIS X 0213 antes de que se adopte la norma JIS X 0213 (Satō, 2004). Sin embargo, la norma JIS X 0208 sigue utilizándose en la actualidad y muchos predicen que seguirá siendo una norma. Hay barreras que deben superarse si se pretende que la norma JIS X 0213 sustituya a la JIS X 0208 en el uso común:

Implementaciones

Dado que JIS X 0208 / JIS C 6226 es principalmente un conjunto de caracteres y no una codificación de caracteres estrictamente definida , varias empresas han implementado sus propias codificaciones del conjunto de caracteres.

Varias de estas incorporan asignaciones de caracteres específicas del proveedor en lugar de regiones no asignadas del estándar. Entre ellas se incluyen Windows-932 y MacJapanese, así como la codificación de caracteres PC98 de NEC . Si bien IBM-932 e IBM-942 también incluyen asignaciones de proveedores, las incluyen fuera de la región utilizada para JIS X 0208.

Relación con otras normas

ISO/IEC 646 IRV y ASCII

Como se indicó anteriormente, el conjunto de kanji no es compatible con el conjunto de caracteres gráficos IRV (ASCII) ISO/IEC 646:1991. El conjunto de kanji y el conjunto de caracteres gráficos IRV se pueden utilizar juntos como se especifica en JIS X 0208 (IRV + código de 7 bits para kanji e IRV + código de 8 bits para kanji). También se pueden utilizar juntos en EUC-JP .

JIS X 0201

El conjunto de kanjis carece de tres caracteres incluidos en el conjunto de caracteres gráficos de JIS X 0201 para caracteres latinos: 2/2 (COMILLAS), 2/7 (APÓSTROFE) y 2/13 (GUIÓN-MENOS). El conjunto de kanjis contiene todos los caracteres incluidos en el conjunto de caracteres gráficos de JIS X 0201 para katakana.

El conjunto de kanji y el conjunto de caracteres gráficos para caracteres latinos se pueden utilizar juntos como se especifica en JIS X 0208 (caracteres latinos + código de 7 bits para kanji y caracteres latinos + código de 8 bits para kanji). El conjunto de kanji, el conjunto de caracteres gráficos para caracteres latinos y el conjunto de caracteres gráficos de JIS X 0201 para katakana se pueden utilizar juntos como se especifica en JIS X 0208 (el conjunto de caracteres codificados por desplazamiento; es decir, Shift JIS ). El conjunto de kanji y el conjunto de caracteres gráficos para katakana se pueden utilizar juntos en EUC-JP .

JIS X 0212

JIS X 0212 (kanji suplementario) define caracteres adicionales con puntos de código para fines de procesamiento de información que requieren caracteres que no se encuentran en JIS X 0208. En lugar de asignar caracteres dentro del conjunto principal de kanji JIS X 0208, define un segundo conjunto de kanji de 94 por 94 que contiene caracteres suplementarios.

JIS X 0212 se puede utilizar con JIS X 0208 en EUC-JP . Además, JIS X 0208 y JIS X 0212 son estándares fuente para la unificación Han de UCS/Unicode , lo que significa que los kanji de ambos conjuntos se pueden incluir en un documento con formato Unicode.

Entre los puntos de código que cambió la segunda versión de JIS X 0208, 28 puntos de código en JIS X 0212 reflejan las formas de caracteres de antes de los cambios. [17] Además, JIS X 0212 reasigna la " marca de cierre " que JIS X 0208 había asignado como un no kanji ( , en la fila 1, celda 26) como un kanji (, en la fila 16, celda 17). JIS X 0212 no tiene caracteres en común con JIS X 0208 aparte de estos. Por lo tanto, no es adecuado para uso general por sí solo.

Sin embargo, en la cuarta versión de JIS X 0208, la conexión con JIS X 0212 no se definió en absoluto. Se cree que esto se debe a que el comité de redacción de la cuarta norma JIS X 0208 tenía una opinión crítica sobre los métodos de selección e identificación de JIS X 0212. [18] Los significados de los caracteres y los fundamentos de la selección no se documentaron adecuadamente, lo que dificultaba identificar si los kanji deseados se correspondían con los de su repertorio. [19] El texto de la cuarta norma, además de señalar los puntos problemáticos de la selección de caracteres de JIS X 0212, afirma que "se cree que no solo es imposible la selección de caracteres, sino que también es imposible utilizarlos juntos; la conexión con JIS X 0212 no está definida en absoluto" (sección 3.3.1).

JIS X 0213

Diagrama de Euler que compara los repertorios de JIS X 0208, JIS X 0212 , JIS X 0213 , Windows-31J , el repertorio estándar de Microsoft y Unicode .

JIS X 0213 (extensión kanji) define un conjunto de kanji que amplía el conjunto de kanji de JIS X 0208. Según esta norma, está "diseñada con el objetivo de ofrecer un conjunto de caracteres suficiente para codificar el idioma japonés moderno que JIS X 0208 pretendía que fuera desde el principio". [16]

El conjunto de kanji de JIS X 0213 incorpora todos los caracteres que se pueden representar en el conjunto de kanji de JIS X 0208, con muchas adiciones. En total, JIS X 0213 define 1183 caracteres no kanji y 10 050 kanji (para un total de 11 233 caracteres), dentro de dos planos de 94 por 94 (, men ) . El primer plano (kanji no kanji y kanji de nivel 1–3) se basa en JIS X 0208, mientras que el segundo plano (kanji de nivel 4) está diseñado para encajar dentro de las filas no asignadas de JIS X 0212, lo que permite su uso en EUC-JP . [20] JIS X 0213 también define Shift_JISx0213 , una variante de Shift_JIS capaz de codificar la totalidad de JIS X 0213.

Para la mayoría de los efectos, el plano 1 de JIS X 0213 es un superconjunto de JIS X 0208. Sin embargo, se aplican diferentes criterios de unificación a algunos puntos de código en JIS X 0213 en comparación con JIS X 0208. En consecuencia, a algunos pares de glifos kanji que estaban representados por un punto de código JIS X 0208, debido a que estaban unificados, se les asignan puntos de código separados en JIS X 0213. Por ejemplo, el glifo en la fila 33, celda 46 de JIS X 0208 ("", descrito anteriormente) unifica algunas variantes debido a su componente de la derecha. En JIS X 0213, dos formas (las que contienen el componente "") están unificadas en el plano 1, fila 33, celda 46, y la otra (que contiene el componente "") está ubicada en el plano 1, fila 14, celda 41. Por lo tanto, no se puede determinar automáticamente si la celda 46 de la fila 33 de JIS X 0208 debe asignarse a la celda 46 de la fila 33 del plano 1 de JIS X 0213 o a la celda 41 de la fila 14 del plano 1. [u] Esto limita el grado en el que JIS X 0213 puede considerarse compatible con JIS X 0208, como lo admitió el comité de redacción de JIS X 0213. [21]

Sin embargo, en la mayoría de los casos, la fila m de la celda n en JIS X 0208 corresponde al plano 1 de la fila m de la celda n en JIS X 0213; por lo tanto, en la práctica no surge mucha confusión. Esto se debe a que la mayoría de los tipos de letra han llegado a utilizar los glifos ejemplificados en JIS X 0208 y la mayoría de los usuarios no son conscientes de los criterios de unificación.

ISO/IEC 10646 y Unicode

El conjunto de kanjis de JIS X 0208 se encuentra entre los estándares fuente originales para la unificación Han en ISO/IEC 10646 (UCS) y Unicode . Cada kanji en JIS X 0208 corresponde a su propio punto de código en el Plano Multilingüe Básico (BMP) de UCS/Unicode .

Los caracteres no kanji de JIS X 0208 también corresponden a sus propios puntos de código en el BMP. Sin embargo, para algunos caracteres especiales, algunos sistemas implementan correspondencias diferentes a las de UCS/Unicode (que se basan en los nombres de caracteres que figuran en JIS X 0208:1997).

Notas al pie

Explicativo

  1. ^ Faltan diacríticos griegos y sigma final .
  2. ^ abcd (Retirado)
  3. ^ JIS y Apple: U+2014.
    Unicode, [b] Microsoft y WHATWG: U+2015.
  4. ^ Microsoft y WHATWG: U+FF5E.
    Unicode, [b] JIS y Apple: U+301C.
  5. ^ Microsoft y WHATWG: U+2225.
    Unicode, [b] JIS y Apple: U+2016.
  6. ^ Microsoft: U+FF0D.
    Unicode, [b] JIS y Apple: U+2212.
    WHATWG: U+FF0D en decodificación, excepcionalmente ambos en codificación.
  7. ^ abcd Añadido en JIS X 0213
  8. ^ Ausente en la versión original de la extensión, anterior a la era Heisei . Posición del código seleccionada por NEC o Microsoft. [5] No disponible en Macintosh PostScript.
  9. ^ abcdefghi Duplicado por adiciones realizadas a la fila 2 en 1983. No codificado aquí (pero dejado sin asignar) en JIS X 0213, [5] pero codificado por duplicado aquí por Microsoft y WHATWG. En cuanto a la codificación PostScript de Macintosh, se agrega un Private Use U+F87F al formulario decodificado con las funciones de la biblioteca macOS para permitir el viaje de ida y vuelta.
  10. ^ Como se muestra en las tablas de códigos registradas en el Registro Internacional de Conjuntos de Caracteres Codificados para Usarse con Secuencias de Escape, antes de la cuarta norma (1997), el ku () y el ten () se llamaban "sección" y "posición" respectivamente en inglés. En cuanto al trasfondo del cambio en inglés, en la norma JIS X 0221-1995 (UCS) que tradujo la ISO/IEC 10646-1:1993, "grupo", "plano", "fila" y "celda" se pueden traducir como gun () , men () , ku () y ten () . Sin embargo, la fila y la celda de JIS X 0208 y la fila y la celda de la UCS son ideas diferentes.
  11. ^ Los nombres de los caracteres se dan en letras latinas y se utilizan a nivel internacional, por lo que pueden considerarse una convención internacional, algo así como los nombres científicos de los organismos vivos. En relación con esta analogía, los nombres comunes japoneses para los caracteres serían como usar nombres comunes para organismos.
  12. ^ Para una búsqueda o clasificación completa por orden de kana, se deben tener en cuenta las lecturas de palabras, las marcas de repetición, etc. La clasificación de cadenas de caracteres japoneses se prescribe en JIS X 4061 (Compilación de cadenas de caracteres japoneses).
  13. ^ Según Yasuoka (2001a), parece que hubo algunos descuidos accidentales. Señala, por ejemplo, que el ba (, 58-57) de Inba y el shi (, 61-89) de Shisui, Kumamoto, no forman parte del nivel 1.
  14. ^ Lista: 丼ceived ceived ڠ訃ڠ諧ceived
  15. ^ El kanji jōyō 𠮟󠄀 está incluido solo en su variante oficial 叱.
  16. ^ Lista: 乘ڠ亞ڠ佛ceived ڠ勳ڠ卷ceived ceived ڠ已ڠ帶♥♥♥♥♥♥♥♥♥ ceived ڠ收ڠ敍♥♥♥♥♥♥♥♥ ceived ceived ceived ceived ceived ceived ceived ڠ讓ڠ賣ceived ceived ceived
  17. ^ Lista: 焰ڠ鷗ڠ俠ceived ceived 💕薰ڠ諸ڠ賴ڠ郞ڠ都♥♥♥♥♥♥♥♥♥♥♥♥♥祈♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥祉ڠ視ceived卽♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥♥繁ڠ晚ceived練ڠ鍊♥♥♥♥♥♥♥朗ڠ懲
  18. ^ En las celdas 30 y 31 de la fila 19, se mezcla el orden de las lecturas representativas. Por consiguiente, cuando el orden correcto debería ser kaeru (, "rana") seguido de kaori (, "aroma") , se transponen sus posiciones de modo que kaori preceda a kaeru .
  19. ^ Además, la variante utilizada principalmente () está en la fila 23, celda 85, nivel 1, y se puede encontrar otra variante () agrupada como la que tiene el radical "oro" en la fila 78, celda 63, nivel 2.
  20. ^ La cuestión de qué glifos se utilizarán dentro de los criterios de unificación queda en manos del diseñador tipográfico. Dependiendo de eso (y de las circunstancias del usuario final), es posible que ninguno, ambos, uno u otro de estos dos sigan su forma de estilo Kangxi.
  21. ^ Esta es la misma incertidumbre sobre si el "GUIÓN-MENOS" en ISO/IEC 646 debe asignarse a "GUIÓN" o "SIGNO MENOS" en JIS X 0208.

Notas de referencia

  1. ^ "Por qué Japón no creó el iPod". Gatunka . 5 de mayo de 2008.
  2. ^ JIS X 0208 no fue una de las normas incluidas en la lista de sistemas de destino aplicables para la visualización de la nueva marca JIS anunciada por el Ministerio de Economía, Comercio e Industria el 17 de enero de 2007.
  3. ^ abc Steele, Shawn (15 de abril de 1998). "CP932.TXT: tabla de cp932 a Unicode". Microsoft.(códigos en formato Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  4. ^ ab "Mapa (versión externa) de la codificación japonesa de Mac OS a Unicode 2.1 y posteriores". Apple.(códigos en formato Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  5. ^ abcd Lunde, Ken (21 de marzo de 2019). "Una breve historia de las ligaduras de nombres de eras en Japón". Blog de tipos CJK . Adobe Inc .
  6. ^ abc Comité de Normas Industriales Japonesas . ISO-IR-233: Conjunto de caracteres gráficos japoneses para intercambio de información, plano 1 (actualización de ISO-IR 228) (PDF) . ITSCJ/ IPSJ .
  7. ^ Unicode, Inc. (14 de octubre de 2011). "JIS X 0208 (1990) a Unicode".
  8. ^ van Kesteren, Anne , "Índice jis0208", Estándar de codificación , WHATWG
  9. ^ por Jungshik Shin (14 de octubre de 2011). "KSX1001.TXT: tabla de KS X 1001 a Unicode". Unicode, Inc.
  10. ^ La norma JIS C 6225-1979 (códigos de caracteres de control para el intercambio de información en el conjunto de caracteres gráficos japoneses) proporcionaba caracteres de control para el comienzo y el final de la composición. La norma JIS C 6225 pasó a denominarse JIS X 0207 en 1987 y se retiró en 1997.
  11. ^ En los conjuntos de caracteres de IANA, Shift JIS se define haciendo referencia al Apéndice 1 de JIS X 0208:1997.
  12. ^ abcd "15. Historia de JIS X 0208" (PDF) , IBM Japanese Graphic Character Set for Extended UNIX Code (EUC) , IBM, p. 371, archivado (PDF) del original el 8 de diciembre de 2017 , consultado el 8 de diciembre de 2017
  13. ^ Lunde, Ken. "Apéndice Q § 78-vs-83-3". Procesamiento de información CJKV (material complementario) . O'Reilly.Tenga en cuenta la inclusión de códigos kuten con guión omitido.
  14. ^ Lunde, Ken. "Apéndice Q § 78-vs-83-2". Procesamiento de información CJKV (material complementario) . O'Reilly.Tenga en cuenta la inclusión de códigos kuten con guión omitido.
  15. ^ Según Nomura (1984), el número de formas de caracteres cambiadas, incluidos los movimientos entre puntos de código, es 294. Según Shibano (1997a) y el texto del cuarto estándar, el número de formas de caracteres cambiadas es 300.
  16. ^ ab Japonés original: 「JIS X 0208が当初符号化を意図していた現代日本語を符号化するために十分な文字集合を提供することを目的として設計された」
  17. ^ Lunde, Ken. "Apéndice Q § TJ2". Procesamiento de información CJKV (material complementario) . O'Reilly.Tenga en cuenta la inclusión de códigos kuten con guión omitido.
  18. ^ Por ejemplo, Shibano Kōji (1997a), quien se desempeñó como presidente del comité de redacción del cuarto estándar, afirmó lo siguiente sobre el método de selección: "Se basa en una comprensión superficial de la selección del juego de caracteres de JIS X 0208; es un comprensión errónea" (japonés original: 「JIS X 0208の文字集合選定の表層的理解に基づくものであり、間違った理解である」 ) y "Hay un gran problema al investigar todo un conjunto de caracteres que supera los 10000 caracteres ". (original japonés: 「1万字を越える水準の文字集合の検討としては、大きな問題がある」 )
  19. ^ Marukawa, Kazushi. «Conjuntos de caracteres JIS – JIS X 0212:1990». Archivado desde el original el 22 de mayo de 2005.
  20. ^ Chang, Hyeshik (31 de octubre de 2021). "Léame para CJKCodecs". cPython . Python Software Foundation.
  21. ^ JIS X 0213:2000 sección 5.3.2, JIS X 0213:2000 Apéndice 1:2004 sección 3.2.2

Véase también

Referencias

A los efectos de citación, estos nombres japoneses se presentan como si estuvieran en orden occidental cuando fueron romanizados, y mantienen el orden oriental cuando no lo fueron.

Enlaces externos