JIS X 0208 es un conjunto de caracteres de 2 bytes especificado como estándar industrial japonés , que contiene 6879 caracteres gráficos adecuados para escribir texto, nombres de lugares, nombres personales, etc. en el idioma japonés . El título oficial del estándar actual es conjuntos KANJI codificados de doble byte de 7 y 8 bits para el intercambio de información ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Oyobi no ni- Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō ) . Se estableció originalmente como JIS C 6226 en 1978 y se revisó en 1983, 1990 y 1997. IBM también la llama página de códigos 952. La versión de 1978 también la llama página de códigos 955 .
El conjunto de caracteres que establece la norma JIS X 0208 se utiliza principalmente para el intercambio de información (情報交換, jōhō kōkan ) entre sistemas de procesamiento de datos y los dispositivos conectados a ellos, o entre sistemas de comunicación de datos. Este conjunto de caracteres se puede utilizar para el procesamiento de datos y el procesamiento de texto.
Las implementaciones parciales del conjunto de caracteres no se consideran compatibles. Debido a que existen casos en los que han ocurrido cosas como que el comité de redacción original del primer estándar se ocupó de separar los caracteres entre el nivel 1 y el nivel 2 y que el segundo estándar luego barajó algunos caracteres variantes (異体字, itaiji ) entre los niveles, al menos en el primer y segundo estándar, se conjetura que en algún momento se consideraron para el desarrollo sistemas informáticos japoneses que no utilizaban kanji y que solo utilizaban el nivel 1. Sin embargo, dichas implementaciones nunca se han especificado como compatibles, aunque sí existieron ejemplos como el primer NEC PC-9801 . [1]
Aunque existen disposiciones en la norma JIS X 0208:1997 relativas a la compatibilidad, en la actualidad se considera generalmente que esta norma no certifica la compatibilidad ni es una norma de fabricación oficial que equivale a una declaración de autocompatibilidad. [2] En consecuencia, de facto , no se considera que existan productos "compatibles" con JIS X 0208. Terminología como "conforme" (準拠, junkyo ) y "compatible" (対応, taiō ) está incluida en JIS X 0208, pero la semántica de estos términos varía de persona a persona.
El primer byte de codificación corresponde al número de fila o celda más 0x20, o 32 en decimal (ver más abajo). Por lo tanto, el conjunto de códigos que comienza con 0x21 tiene un número de fila de 1, y su celda 1 tiene un byte de continuación de 0x21 (o 33), y así sucesivamente.
En el caso de los bytes iniciales utilizados para caracteres distintos de los kanji , se proporcionan enlaces a cuadros en esta página que enumeran los caracteres codificados bajo ese byte inicial. En el caso de los bytes iniciales utilizados para kanji, se proporcionan enlaces a la sección correspondiente del índice de kanji de Wikcionario .
Algunos proveedores utilizan una asignación Unicode ligeramente diferente para este conjunto que la que se muestra a continuación. Por ejemplo, Microsoft asigna kuten 1-29 (JIS 0x213D) a U+2015 (barra horizontal), [3] mientras que Apple lo asigna a U+2014 (guión largo). [4] De manera similar, Microsoft asigna kuten 1-61 (JIS 0x215D) a U+FF0D [3] (la forma de ancho completo de U+002D guión-menos), y Apple lo asigna a U+2212 (signo menos). [4] La asignación Unicode de la raya ondulada también difiere entre proveedores. Consulte las celdas con notas al pie a continuación.
La puntuación ASCII y JISCII (mostrada aquí con un fondo amarillo) pueden usar asignaciones alternativas al bloque de formas de ancho medio y ancho completo si se usan en una codificación que combina JIS X 0208 con ASCII o con JIS X 0201 , como Shift JIS , EUC-JP o ISO 2022-JP .
La mayoría de los caracteres de este conjunto se agregaron en 1983, excepto los caracteres 0x2221–0x222E (kuten 2-1 a 2-14, o la primera línea de la tabla siguiente), que se incluyeron en la versión original de 1978 del estándar.
Este conjunto incluye un subconjunto del conjunto invariante ISO 646 (y, por lo tanto, también un subconjunto tanto de ASCII como del conjunto romano JIS X 0201 ), menos puntuación y símbolos, que comprende números arábigos occidentales y ambos casos del alfabeto latino básico . Los caracteres de este conjunto pueden utilizar asignaciones Unicode alternativas al bloque de formas de ancho medio y ancho completo si se utilizan en una codificación que combina JIS X 0208 con ASCII o con JIS X 0201, como EUC-JP , Shift JIS o ISO 2022-JP .
Compare la fila 3 de KPS 9566 , que coincide exactamente con esta fila. Compare y contraste la fila 3 de KS X 1001 y de GB 2312 , que incluyen todas sus variantes nacionales de ISO 646 en esta fila, en lugar de solo el subconjunto alfanumérico.
Esta fila contiene Hiragana japonés .
Compare la fila 4 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 10 de KPS 9566 y de KS X 1001 , que utilizan el mismo diseño, pero en una fila diferente.
Esta fila contiene Katakana japonés .
Compare la fila 5 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 11 de KPS 9566 y de KS X 1001 , que utilizan el mismo diseño, pero en una fila diferente. Compare el diseño Katakana considerablemente diferente utilizado por JIS X 0201 .
Esta fila contiene soporte básico para el alfabeto griego moderno , sin diacríticos ni sigma final .
Compare la fila 6 de GB 2312 y GB 12345 y la fila 6 de KPS 9566 , que incluyen las mismas letras griegas en el mismo diseño, aunque GB 12345 agrega formas de presentación verticales y KPS 9566 agrega números romanos. Compare y contraste la fila 5 de KS X 1001 , que desplaza las letras griegas para incluir primero los números romanos.
Esta fila contiene el alfabeto ruso moderno y no es necesariamente suficiente para representar otras formas de la escritura cirílica .
Compare la fila 7 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 12 de KS X 1001 y la fila 5 de KPS 9566 , que utilizan el mismo diseño (pero en una fila diferente).
Todos los caracteres de este conjunto se agregaron en 1983 y no estaban presentes en la revisión original del estándar de 1978.
Las filas 9 a 15 de la norma JIS X 0208 se dejan vacías.
Sin embargo, la siguiente disposición para la fila 13, introducida por primera vez por NEC , es una extensión común. Se utiliza (con pequeñas variaciones, señaladas en notas al pie) en Windows-932 [3] (que coincide con el estándar de codificación WHATWG utilizado por HTML5 ), en la variante PostScript (pero, desde la versión 7 de KanjiTalk , no la variante regular) [5] de MacJapanese y en JIS X 0213 (el sucesor de JIS X 0208). [5] [6] A diferencia de las otras extensiones realizadas por Windows-932/WHATWG y JIS X 0213, las dos coinciden en lugar de colisionar, por lo que la decodificación de la mayor parte de esta fila tiene un mejor soporte que las otras extensiones realizadas por JIS X 0213.
Para representar los puntos de código , se utilizan números de columna o línea para códigos de un byte y números kuten para códigos de dos bytes. Para identificar un carácter sin depender de un código, se utilizan nombres de caracteres.
Casi todos los códigos de caracteres gráficos JIS X 0208 se representan con dos bytes de al menos siete bits cada uno. Sin embargo, cada carácter de control , así como el espacio simple , aunque no el espacio ideográfico , se representa con un código de un byte. Para representar la combinación de bits (ビット組合せ, bitto kumiawase ) de un código de un byte, se utilizan dos números decimales: un número de columna y un número de línea . Tres bits de orden superior de siete o cuatro bits de orden superior de ocho, contando de cero a siete o de cero a quince respectivamente, forman el número de columna. Cuatro bits de orden inferior contando de cero a quince forman el número de línea. Cada número decimal corresponde a un dígito hexadecimal . Por ejemplo, la combinación de bits correspondiente al carácter gráfico "espacio" es 010 0000 como un número de 7 bits y 0010 0000 como un número de 8 bits. En notación de columna/línea, esto se representa como 2/0. Otras representaciones del mismo código de un solo byte incluyen 0x20 como hexadecimal o 32 como un solo número decimal.
Los códigos de doble byte se disponen en 94 grupos numerados, cada uno llamado fila (区, ku , lit. "sección") . Cada fila contiene 94 códigos numerados, cada uno llamado celda (点, diez , lit. "punto") . [j] Esto hace un total de 8836 (94 × 94) puntos de código posibles (aunque no todos están asignados, vea más abajo); estos están dispuestos en el estándar en una tabla de códigos de 94 líneas y 94 columnas.
Un número de fila y un número de celda (cada uno numerado del 1 al 94, para un código JIS X 0208 estándar) forman un punto kuten (区点) , que se utiliza para representar puntos de código de doble byte. Un número de código o número kuten (区点番号, kuten bangō ) se expresa en la forma "fila-celda", y los números de fila y celda se separan mediante un guion . Por ejemplo, el carácter "亜" tiene un punto de código en la fila 16, celda 1, por lo que su número de código se representa como "16-01".
En JIS X 0208 de 7 bits (como se podría cambiar a JIS X 0202 / ISO-2022-JP ), ambos bytes deben ser del rango de 94 bytes de 0x 21 (usado para la fila o celda número 1) a 0x7E (usado para la fila o celda número 94), que corresponde exactamente al rango usado para caracteres de impresión ASCII de 7 bits, sin contar el espacio. En consecuencia, los bytes codificados se obtienen agregando 0x20 (32) a cada número. [7] Por ejemplo, el ejemplo anterior de 16-01 ("亜") estaría representado por los bytes . El EUC-JP0x30 0x21
de 8 bits , en cambio, usa el rango de 0xA1 a 0xFE (estableciendo el bit alto en 1), mientras que otras codificaciones como Shift JIS usan transformaciones más complicadas. Shift JIS incluye más espacio de codificación del que se necesita para JIS X 0208 en sí; Algunas extensiones específicas de Shift JIS a JIS X 0208 utilizan números de fila superiores a 94. [8]
Esta estructura también se utiliza en la GB 2312 de China continental , donde se conoce de forma nativa como区位; qūwèi , y en la KS C 5601 de Corea del Sur (actualmente KS X 1001 ), donde el ku y el ten se conocen respectivamente como hang [9] ( 행 ;行; haeng ) y yol [9] ( 열 ;列; yeol ). La posterior JIS X 0213 extiende esta estructura al tener más de un plano (面, men , lit. "cara") de filas, que también es la estructura utilizada por CNS 11643 , y relacionada con la estructura utilizada por CCCII .
Entre los códigos de 2 bytes, las filas 9 a 15 y 85 a 94 son puntos de código sin asignar (空き領域, aki ryōiki ) ; es decir, son puntos de código sin caracteres asignados. Además, algunas celdas en otras filas también son esencialmente puntos de código sin asignar.
Estas áreas vacías contienen puntos de código que básicamente no se deben utilizar. Salvo que exista un acuerdo previo entre las partes interesadas, no se deben asignar caracteres ( gaiji ) para el intercambio de información a los puntos de código no asignados.
Incluso cuando se asignan caracteres a puntos de código no asignados, no se les deben asignar caracteres gráficos definidos en el estándar, y el mismo carácter no se debe asignar a múltiples puntos de código no asignados; los caracteres no se deben duplicar en el conjunto.
Además, al asignar caracteres a puntos de código no asignados, es necesario tener cuidado con la unificación en lo que respecta a los glifos kanji. Por ejemplo, la celda 66 de la fila 25 corresponde al kanji que significa "alto" o "caro"; tanto la forma con un componente que se asemeja al carácter "boca" (口) en el medio (高) como la forma menos común con una construcción similar a una escalera en la misma ubicación (髙) se incluyen en el mismo punto de código. En consecuencia, limitar los puntos 25-66 a la forma "boca" y asignar esta última forma "escalera" a un punto de código no asignado técnicamente violaría el estándar.
En la práctica, sin embargo, varias variantes de Shift JIS específicas del proveedor, incluidas Windows-932 y MacJapanese , codifican extensiones de proveedor en filas no asignadas del espacio de codificación para JIS X 0208. Además, la mayoría de los códigos no asignados en JIS X 0208 son asignados por el estándar más nuevo JIS X 0213 .
Cada carácter JIS X 0208 recibe un nombre . Al utilizar el nombre de un carácter, es posible identificar caracteres sin depender de sus códigos. Los nombres de los caracteres se coordinan con otros estándares de conjuntos de caracteres, en particular el Conjunto de caracteres codificados universales (UCS/ Unicode ), por lo que esta es una posible fuente de asignaciones de caracteres a conjuntos de caracteres como Unicode. Por ejemplo, tanto el carácter de la columna 4, línea 1, de la versión de referencia internacional ISO/IEC 646 ( US-ASCII ) como el de la celda 33 de la fila 3 de JIS X 0208 tienen el nombre "LETRA A MAYÚSCULA LATINA". Por lo tanto, el carácter en 4/1 en ASCII y el carácter en 3-33 en JIS X 0208 pueden considerarse el mismo carácter (aunque, en la práctica, se utiliza una asignación alternativa para el carácter JIS X 0208 debido a que las codificaciones proporcionan ASCII por separado). Por el contrario, los caracteres ASCII 2/2 (comillas), 2/7 (apóstrofe), 2/13 (guión-menos) y 7/14 (tilde) pueden determinarse como caracteres que no existen en este estándar.
Los nombres de caracteres de caracteres no kanji utilizan letras romanas mayúsculas, espacios y guiones. A los caracteres no kanji se les da un nombre común en japonés (日本語通用名称, Nihongo tsūyō meishō ) , pero no existen algunas disposiciones para estos nombres. [k] Los nombres de los kanji, por otro lado, se establecen mecánicamente de acuerdo con la representación hexadecimal correspondiente de su código en UCS/Unicode. El nombre de un kanji se puede obtener anteponiendo el punto de código Unicode con "CJK UNIFIED IDEOGRAPH-". Por ejemplo, la fila 16 celda 1 (亜) corresponde a U+4E9C en UCS, por lo que el nombre sería "CJK UNIFIED IDEOGRAPH-4E9C". Los kanji no reciben nombres comunes japoneses.
JIS X 0208 prescribe un conjunto de 6879 caracteres gráficos que corresponden a códigos de dos bytes con siete u ocho bits por byte; en JIS X 0208, esto se llama el conjunto kanji (漢字集合, kanji shūgō ) , que incluye 6355 kanji así como 524 no kanji (非漢字, hikanji ) , incluidos caracteres como letras latinas , kana , etc.
En cuanto a los caracteres especiales del conjunto kanji, algunos caracteres del conjunto de caracteres gráficos de la versión de referencia internacional (IRV) de ISO/IEC 646 :1991 (equivalente a ASCII ) no aparecen en JIS X 0208. Están los cuatro caracteres antes mencionados "COMILLAS", "APÓSTROFE", "GUIÓN-MINUS" y "TILDE". Los tres primeros están divididos en diferentes puntos de código en el conjunto kanji (Nishimura, 1978; estándar JIS X 0221-1:2001, Sección 3.8.7). La "TILDE" de IRV no tiene un carácter correspondiente en el conjunto kanji.
En la siguiente tabla, los caracteres IRV ISO/IEC 646:1991 en cuestión se comparan con sus múltiples equivalentes en JIS X 0208, excepto el carácter IRV "TILDE", que se compara con el "WAVE DASH" de JIS X 0208. Las entradas bajo las columnas "Símbolo" utilizan puntos de código UCS/Unicode, por lo que los detalles de visualización pueden diferir.
A los caracteres ASCII/IRV sin equivalentes exactos en JIS X 0208 se les asignaron posteriormente puntos de código en JIS X 0213; estos también se enumeran a continuación, al igual que la asignación de Microsoft de los cuatro caracteres.
Esto significa que el conjunto kanji es el conjunto de caracteres no compatibles con versiones anteriores más extendido en el mundo y se considera uno de los puntos débiles de este estándar.
Incluso con los 90 caracteres especiales, números y letras latinas que el conjunto kanji y el conjunto IRV tienen en común, esta norma no sigue la disposición de ISO/IEC 646. Estos 90 caracteres se dividen entre las filas 1 (puntuación) y 3 (letras y números), aunque la fila 3 sí sigue la disposición de ISO 646 solo para las 62 letras y números (por ejemplo, 4/1
("A") en ISO 646 se convierte en 2/3 4/1
(es decir, 3-33) en JIS X 0208).
En cuanto a la causa de que estos números, letras latinas, etc. en el conjunto kanji sean "caracteres alfanuméricos de ancho completo" (全角英数字, zenkaku eisūji ) y cómo la implementación original surgió con una interpretación diferente en comparación con el IRV, se cree que se debe a estas incompatibilidades.
Desde el primer estándar, ha sido posible representar caracteres compuestos (合成, gōsei ) como números encerrados en un círculo , ligaduras para nombres de unidades de medida y números romanos ; [10] no se les asignaron puntos de código kuten independientes . Aunque las empresas individuales que fabrican sistemas de información pueden hacer un esfuerzo para representar estos caracteres como los clientes pueden requerir por la composición de los caracteres, ninguna ha solicitado que se agreguen al estándar, sino que ha optado por ofrecerlos de forma patentada como gaiji .
En la cuarta norma (1997), todos estos caracteres se definieron explícitamente como caracteres que acompañan un avance de la posición actual; es decir, son caracteres de espaciado . Además, se determinó que no debían ser formados por la composición de caracteres. Por esta razón, se prohibió la representación de caracteres latinos con diacríticos en absoluto, con posiblemente la única excepción del símbolo ångström ( Å ) en la fila 2 de la celda 82.
A diferencia de JIS X 0201, los hiragana y katakana incluidos en JIS X 0208 incluyen las marcas dakuten y handakuten como parte de un carácter. También se incluyen los caracteres katakana wi (ヰ) y we (ヱ) (ambos obsoletos en el japonés moderno), así como la minúscula wa (ヮ) , que no se incluyen en JIS X 0201.
La disposición de kana en JIS X 0208 es diferente de la disposición de katakana en JIS X 0201. En JIS X 0201, el silabario comienza con wo (ヲ) , seguido por el kana pequeño ordenado por orden de gojūon , seguido por el de tamaño completo. kana, también en orden gojūon (ヲァィゥェォャュョッーアイウエオ......ラリルレロワン). Por otro lado, en JIS X 0208, los kana se clasifican primero por orden de gojūon , luego en el orden de "kana pequeña, kana de tamaño completo, kana con dakuten y kana con handakuten", de modo que se agrupe el mismo kana fundamental. con sus derivados (ぁあぃいぅうぇえぉお......っつづ......はばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん). Este orden se eligió para facilitar más simplemente la clasificación de las búsquedas en diccionarios basados en kana (Yasuoka, 2006). [l]
Como se mencionó anteriormente, en esta norma, el orden de katakana definido previamente en JIS X 0201 no se respetó en JIS X 0208. Se cree que el katakana de JIS X 0201, que es " kana de ancho medio ", surgió debido a la incompatibilidad con el katakana de esta norma. Este punto también es una de las debilidades de esta norma.
En el cuarto estándar (1997) se explica en detalle cómo se eligieron los kanji de este estándar, de qué fuentes, por qué se dividen en nivel 1 y nivel 2 y cómo se organizan. Según esa explicación, los kanji incluidos en las siguientes cuatro listas de kanji se reflejaron en los 6349 caracteres del primer estándar (1978).
En el segundo y tercer nivel, añadieron cuatro y dos caracteres al nivel 2, respectivamente, con lo que el total de kanjis ascendió a 6355. Además, en el segundo nivel, se cambiaron las formas de los caracteres, así como la transposición entre los niveles; en el tercer nivel también se cambiaron las formas de los caracteres. Estos se describen con más detalle a continuación.
Los 2.965 kanji de nivel 1 ocupan las filas 16 a 47. Los 3.390 kanji de nivel 2 ocupan las filas 48 a 84.
Para el nivel 1, se eligieron caracteres comunes a múltiples listados de glifos kanji, utilizando el kanji tōyō , el borrador de corrección del kanji tōyō y el kanji jinmeiyō como base. Además, se consultaron las normas JIS C 6260 ("Código de identificación de To-Do-Fu-Ken (prefectura)"; actualmente JIS X 0401) y JIS C 6261 ("Código de identificación de ciudades, pueblos y aldeas"; actualmente JIS X 0402); los kanji de casi todas las prefecturas , ciudades, distritos, barrios, pueblos, aldeas, etc. de Japón se colocaron intencionalmente en el nivel 1. [m] Además, se añadieron enmiendas de expertos.
El nivel 2 estaba dedicado a los kanji que aparecían en las cuatro listas principales mencionadas anteriormente pero que no fueron seleccionados para el nivel 1. Como se señala a continuación, los kanji del nivel 1 se ordenaron por su pronunciación, por lo que entre los kanji cuya pronunciación era difícil de determinar, hubo aquellos que se transfirieron del nivel 1 al nivel 2 sobre esa base (Nishimura, 1978).
Debido a estas decisiones, en su mayor parte, el nivel 1 contiene kanji de uso más frecuente, y el nivel 2 contiene kanji de uso menos frecuente, pero por supuesto, estos fueron juzgados según los estándares de la época; con el paso del tiempo, algunos kanji de nivel 2 se han vuelto más utilizados, como uno que significa "volar" (翔) y otro que significa "brillar" (煌); e inversamente, algunos kanji de nivel 1 se han vuelto poco frecuentes, en particular los que significan "centímetro" (糎) y "milímetro" (粍). De los kanji jōyō actuales , 30 caen en el nivel 2, [n] mientras que tres faltan por completo (塡󠄀, 剝󠄀 y 頰󠄀). [o] De los kanji jinmeiyō actuales , 192 están en el nivel 2, [p] mientras que 105 no son parte del estándar. [q]
Los kanji del nivel 1 se ordenan según la "lectura representativa" de cada uno (es decir, una lectura canónica elegida solo para los fines de este estándar); la lectura de un kanji para esto puede ser una lectura on o una kun ; las lecturas se ordenan en orden gojūon . [r] Como regla general, la lectura on (sonido chino) se considera la lectura representativa; cuando un kanji tiene múltiples lecturas on , la lectura que se considera predominante en frecuencia de uso se utiliza como lectura representativa (estándar JIS C 6226-1978, Sección 3.4). Para el pequeño porcentaje de kanji que no tienen una lectura on o tienen una lectura on que es poco conocida y no es de uso común, se empleó la lectura kun como lectura representativa. Cuando se debe utilizar una lectura del verbo kun como lectura representativa, se utiliza la forma ren'yōkei (en lugar de la shūshikei ).
Por ejemplo, las celdas 1 a 41 en la fila 16 son 41 caracteres ordenados como comenzando con una lectura de a . Dentro de estos, 22 caracteres, incluidos 16-10 (葵: en la lectura " ki "; kun leyendo " aoi ") y 16-32 (粟: en las lecturas " zoku " y " shoku "; kun leyendo " awa ") están allí sobre la base de sus lecturas kun . 16-09 (逢: en la lectura " hō ", kun leyendo " a(i) ") y 16-23 (扱: en las lecturas " sō " y " kyū ", kun leyendo " atsuka(i) ") son solo dos ejemplos de verbos en forma ren'yōkei utilizados para la lectura representativa.
Cuando la lectura representativa es la misma entre diferentes kanji, el kanji que utiliza la lectura on se coloca antes del que utiliza la lectura kun . Cuando las lecturas on o kun son las mismas entre más de un kanji, se ordenan por su radical principal y número de trazos .
Ya sea en el nivel 1 o en el nivel 2, los itaiji se organizan para seguir directamente su forma ejemplar. Por ejemplo, en el nivel 2, justo después de la fila 49, celda 88 (劍), los caracteres inmediatamente siguientes se desvían de la regla general (número de trazos en este caso) para incluir tres variantes de 49 a 88 (劔,劒y剱). [s]
Los kanji del nivel 2 están ordenados según el radical primario y el número de trazos. Cuando estas dos propiedades son las mismas para distintos kanji, se ordenan por lectura.
Se ha señalado que hay kanji en el conjunto de kanji que no se encuentran en diccionarios de kanji completos y completos, y que se desconocen las fuentes de los mismos. Por ejemplo, solo un año después de que se estableciera el primer estándar, Tajima (1979) informó que había confirmado 63 kanji que no se encontraban en Shinjigen (un gran diccionario de kanji publicado por Kadokawa Shoten ), ni en Dai Kan-Wa jiten , y que no tenían sentido como ryakuji de ningún tipo; señaló que sería preferible que los kanji que no estuvieran disponibles en los diccionarios de kanji se seleccionaran de fuentes definitivas. Estos kanji llegaron a conocerse como caracteres "fantasma" (幽霊文字, yūrei moji ) o "kanji fantasma" (幽霊漢字, yūrei kanji ) , entre otros nombres.
El comité de redacción de la cuarta versión de la norma también consideró que la existencia de kanji de fuentes desconocidas era un problema, por lo que realizó una investigación sobre el tipo de fuentes a las que hacía referencia el comité de redacción de la primera versión. Como resultado, se descubrió que el comité de redacción original se había basado en gran medida en los "Resultados del análisis de correspondencias" para recopilar los kanji. Cuando el comité de redacción investigó los "Resultados del análisis de correspondencias", quedó claro que muchos de los kanji incluidos en el conjunto de kanji pero que no se encontraban en diccionarios de kanji exhaustivos supuestamente provenían de las listas "Kanji de nombres de registro de personalidades japonesas" y "Kanji para la lista de distritos administrativos nacionales" mencionadas en los "Resultados del análisis de correspondencias".
Se confirmó que no existe ningún texto original para el "Kanji de nombres de registro de personalidades japonesas" al que se hace referencia en los "Resultados del análisis de correspondencia". Para la "Lista de distritos administrativos nacionales", Sasahara Hiroyuki, del comité de redacción de la cuarta versión, examinó los kanji que aparecían en las páginas de desarrollo en curso para la primera norma. El comité también consultó muchos escritos antiguos, así como muchos ejemplos de nombres personales en una base de datos de guías telefónicas de NTT .
Gracias a esta investigación exhaustiva, el comité pudo reducir el número de kanjis cuyo origen no se puede explicar con certeza a doce, que se muestran en la tabla adyacente. De estos, se conjetura que varios glifos surgieron debido a errores de copia. En particular, 妛 probablemente se creó cuando los impresores intentaron crear 𡚴 cortando y pegando 山 y 女 juntos. Una sombra de ese proceso se interpretó erróneamente como una línea, lo que dio como resultado 妛 (se puede encontrar una imagen de esto en el Jōyō kanji jiten ).
Según las especificaciones del cuarto estándar (1997), la unificación (包摂, hōsetsu , no es el mismo término utilizado para la " unificación " de Unicode , aunque es casi el mismo concepto) es la acción de dar el mismo punto de código a un carácter sin tener en cuenta sus diferentes formas de carácter. En el cuarto estándar, los glifos permitidos son limitados; el grado en el que los glifos alográficos particulares se unifican en un punto de código grafémico está claramente definido.
Además, según las especificaciones del estándar, un glifo (字体, jitai , lit. "cuerpo del carácter";) es una noción abstracta en cuanto a la representación gráfica de un carácter gráfico; una forma de carácter (字形, jikei , lit. "forma del carácter"; también un "glifo" en cierto sentido, pero diferenciado en un nivel diferente para fines de estandarización) es la representación como una forma gráfica que un glifo toma en realidad (por ejemplo, debido a que un glifo está escrito a mano, impreso, mostrado en una pantalla, etc.). Para un solo glifo, existe una gama infinita de posibles formas de caracteres concretas y/o visiblemente diferentes. Una variación entre una forma de carácter de un glifo se denomina "diferencia de diseño" (デザインの差, dezain no sa ) .
El grado en el cual un glifo se unifica en un punto de código se determina de acuerdo con el "glifo de ejemplo" (例示字体, reiji jitai ) de ese punto de código y los "criterios de unificación" (包摂規準, hōsetsu kijun ) que se pueden aplicar a ese glifo de ejemplo; es decir, el glifo de ejemplo para un punto de código se aplica a ese punto de código, y cualquier glifo para el cual las partes que componen el glifo de ejemplo se reemplazan de acuerdo con los criterios de unificación también se aplican a ese punto de código.
Por ejemplo, el glifo de ejemplo en 33-46 (僧) está compuesto por el radical 9 (亻) y el kanji que eventualmente generó el kana so (曽). Además, en el criterio de unificación 101, se muestran tres kanji: el primero toma la forma que se ve con más frecuencia en japonés (曽); el segundo contiene una forma más tradicional (曾) en la que los dos primeros trazos forman el radical 12 (el numeral kanji para el número 8:八); y el tercero es como el segundo, excepto que el radical 12 está invertido (曾). En consecuencia, las tres permutaciones (僧,僧,僧) se aplican al punto de código en la línea 33, celda 46.
En la cuarta norma, incluida una de las erratas de la primera impresión, hay 186 criterios de unificación.
Cuando el glifo de ejemplo de un punto de código está compuesto por más de un glifo parcial, se pueden aplicar criterios de unificación a cada parte. Después de aplicar un criterio de unificación a un glifo parcial, no se pueden aplicar más criterios de unificación a esa parte. Además, no se permite aplicar un criterio de unificación si el glifo resultante coincidiría completamente con el de otro punto de código.
Un glifo de ejemplo no es más que un ejemplo para ese punto de código; no es un glifo "aprobado" por el estándar. Además, los criterios de unificación solo deben usarse para kanji de uso general y con el propósito de asignar elementos a los puntos de código de este estándar. El estándar solicita que no se creen kanji de uso general basados en los glifos de ejemplo y los criterios de unificación.
Los kanji del conjunto de kanji no se eligen de forma completamente coherente según el criterio de unificación. Por ejemplo, aunque 41-7 corresponde a la forma en la que el tercer y cuarto trazo se cruzan (彥) así como a la forma en la que no lo hacen (彦) según el criterio de unificación 72, 20-73 solo corresponde a la forma en la que no se cruzan (顔), y 80-90 solo corresponde a la forma en la que sí lo hacen (顏).
Los términos "unificación", "criterios de unificación" y "glifo de ejemplo" se adoptaron en el cuarto estándar. Desde la primera hasta la tercera versión, los kanji y las relaciones entre kanji se agruparon en tres tipos: "independientes" (独立, dokuritsu ) , "compatibles" (対応, taiō ) y "equivalentes" (同値, dōchi ) ; se explicó que los caracteres reconocidos como equivalentes "se consolidan en un solo punto". La "equivalencia" incluía, además de los kanji con exactamente la misma forma, los kanji con diferencias debidas al estilo y los kanji en los que la diferencia en la forma del carácter es pequeña.
En la primera norma se estipula que "esta norma... no establece los detalles de las formas de los caracteres" (Sección 3.1); también se establece que "el objetivo de esta norma es establecer la idea general de los caracteres y sus códigos; el diseño de sus formas de caracteres y demás quedan fuera de su ámbito de aplicación". En la segunda y tercera normas también se indican que los diseños específicos de las formas de los caracteres quedan fuera de su ámbito de aplicación (nota sobre el punto 1). La cuarta norma también estipula que "Esta norma regula los caracteres gráficos, así como sus patrones de bits, y el uso, los diseños específicos de caracteres individuales, etc., no están dentro del ámbito de aplicación de esta norma" (JIS X 0208:1997, punto 1).
En el cuarto estándar, se definen "criterios de unificación para mantener la compatibilidad con estándares anteriores" (過去の規格との互換性を維持するための包摂規準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun ) . Su aplicación se limita a 29 puntos de código cuyos glifos varían mucho entre los estándares JIS C 6226-1983 en adelante y JIS C 6226-1978. Para esos 29 puntos de código, los glifos de JIS C 6226-1983 en adelante se muestran como "A" y los glifos de JIS C 6226-1978 como "B". En cada uno de ellos se pueden aplicar tanto los glifos "A" como "B". Sin embargo, para poder afirmar la compatibilidad con el estándar, se debe indicar explícitamente si se ha utilizado la forma "A" o "B" para cada punto de código. .
En JIS X 0208:1997, el artículo 7 combinado con los apéndices 1 y 2 definen un total de ocho esquemas de codificación.
En las descripciones que se muestran a continuación, las regiones "CL" (izquierda de control), "GL" (izquierda de gráfico), "CR" (derecha de control) y "GR" (derecha de gráfico) son respectivamente, en notación de columna/línea, de 0/0 a 1/15, de 2/1 a 7/14, de 8/0 a 9/15 y de 10/1 a 15/14. Para cada código, a 2/0 se le asigna el carácter gráfico "ESPACIO" y a 7/15 el carácter de control "ELIMINAR". Los caracteres de control C0 (definidos en JIS X 0211 y que coinciden con ISO/IEC 6429 ) se asignan a la región CL.
Entre las codificaciones estipuladas en el cuarto estándar, solo el conjunto de caracteres codificados "Shift" está registrado por la IANA . [11] Sin embargo, algunas otras están estrechamente relacionadas con las codificaciones registradas por la IANA definidas en otros lugares (EUC-JP e ISO-2022-JP).
JIS X 0208 puede utilizarse dentro de ISO 2022 /JIS X 0202 (de la cual ISO-2022-JP es un subconjunto). Las secuencias de escape para designar JIS X 0208 a cada uno de los cuatro conjuntos de códigos ISO 2022 se enumeran a continuación. Aquí, "ESC" se refiere al carácter de control " Escape " (0x1B o 1/11).
La secuencia de escape que comienza con ESC 2/4 selecciona un conjunto de caracteres multibyte. La secuencia de escape que comienza con ESC 2/6 especifica una revisión del próximo conjunto de caracteres seleccionado. JIS C 6226:1978 se identifica mediante el byte de identificador de conjunto multibyte-94 4/0 (que corresponde a ASCII @
). JIS C 6226:1983 / JIS X 0208:1983 se identifica mediante el byte de identificador de conjunto multibyte-94 4/2 ( B
). JIS X 0208:1990 también se identifica mediante el byte de identificador de conjunto multibyte-94 4/2, pero se puede distinguir con el identificador de revisión 4/0 ( @
).
Al utilizar el conjunto de kanji de esta norma con el conjunto de caracteres gráficos IRV ISO/IEC 646:1991 ( ASCII ) o con el conjunto de caracteres gráficos para caracteres latinos JIS X 0201 ( JIS-Roman ), el tratamiento de los caracteres comunes a ambos conjuntos se vuelve problemático. A menos que se tomen medidas especiales, los caracteres incluidos en ambos conjuntos no se asignan entre sí uno a uno, y a un solo carácter se le puede asignar más de un punto de código; es decir, puede causar una codificación duplicada.
JIS X 0208:1997, en lo que respecta a cuándo un carácter es común a ambos conjuntos, básicamente prohíbe el uso del punto de código en el conjunto kanji (que es uno de los dos puntos de código), eliminando las codificaciones duplicadas. Se considera que los caracteres que tienen el mismo nombre son el mismo carácter.
Por ejemplo, tanto el nombre del carácter correspondiente al patrón de bits 4/1 en ASCII como el nombre del carácter correspondiente a la celda 33 de la fila 3 del conjunto de kanji son "LETRA A MAYÚSCULA LATINA". En la versión de referencia internacional + código de 8 bits para kanji, ya sea por el patrón de bits 4/1 o por el patrón de bits correspondiente a la celda 33 de la fila 3 del conjunto de kanji (10/3 12/1), se representa la letra " A " (es decir, "LETRA A MAYÚSCULA LATINA"). El estándar prohíbe el uso del patrón de bits "10/3 12/1", en un intento de eliminar la codificación duplicada.
En consideración a las implementaciones que tratan los caracteres de los puntos de código del conjunto kanji como " caracteres de ancho completo " y los de ASCII o JIS-Roman como caracteres diferentes, el uso de los puntos de código del conjunto kanji se permite únicamente por motivos de compatibilidad con versiones anteriores. Por ejemplo, a los efectos de compatibilidad con versiones anteriores, se permite considerar 10/3 12/1 en la Versión de Referencia Internacional + código de 8 bits para kanji para que corresponda a una "A" de ancho completo.
Si el conjunto de kanji se utiliza junto con ASCII o JIS-Roman, incluso si se respeta estrictamente el estándar, no se garantiza la codificación única de un carácter. Por ejemplo, en la versión de referencia internacional + código de 8 bits para kanji, es válido representar un guión con el patrón de bits 2/13 para el carácter "HYPHEN-MINUS", así como con la celda 30 de la fila 1 del conjunto de kanji (patrón de bits 10/1 11/14) para el carácter "HYPHEN". Además, el estándar no define cuál de los dos se debe utilizar para qué, por lo que al guión no se le asigna una codificación única. El mismo problema afecta al signo menos , las comillas , etc.
Además, incluso si el conjunto de kanji se utiliza como un código independiente, no hay garantía de que se implemente la codificación única de caracteres. Sin embargo, en muchos casos, el " ESPACIO IDEOGRÁFICO " de ancho completo en la celda 1 de la fila 1 y el espacio de ancho medio (2/0) coexisten. En qué deberían diferenciarse los dos no se explica por sí solo y no se especifica en el estándar.
Hasta que transcurran cinco años desde que se haya establecido, reafirmado o revisado una norma industrial japonesa, la norma anterior se somete a un proceso de reafirmación, revisión o retirada. Desde su establecimiento, la norma ha sido objeto de revisión tres veces y, en la actualidad, la cuarta norma es válida.
La primera norma es JIS C 6226-1978 "Código de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) , establecida por el Ministro de Comercio Internacional e Industria japonés el 1 de enero de 1978. También se denomina 78JIS para abreviar. Por encargo de la Agencia de Ciencia y Tecnología Industrial, un comité de investigación y estudio de normalización de códigos kanji del JIPDEC elaboró el borrador. El presidente del comité fue Moriguchi Shigeichi.
El código incluía 453 caracteres no kanji (incluidos hiragana, katakana, los alfabetos romano, griego y cirílico y la puntuación) y 6349 kanji (2965 kanji de nivel 1 y 3384 kanji de nivel 2) para un total de 6802 caracteres. [12] Todavía no incluía caracteres de dibujo de cajas . El estándar en sí se estableció en la tipografía Ishii Mincho de Shaken Co., Ltd.
La segunda norma JIS C 6226-1983 "Código de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) revisó la primera norma el 1 de septiembre de 1983. También se denomina 83JIS . Por encargo de la AIST, un comité JIS relacionado con el código kanji del JIPDEC elaboró el borrador. El presidente del comité fue Motooka Tōru.
El borrador de la segunda norma se basó en la consideración de factores tales como la promulgación del kanji jōyō , la aplicación del kanji jinmeiyō y la estandarización del teletex en idioma japonés por parte del Ministerio de Correos y Telecomunicaciones ; además, se realizó la siguiente modificación para mantenerse al día con JIS C 6234-1983 (formatos de caracteres de impresora matricial de 24 píxeles; actualmente JIS X 9052).
Entre los cambios en esas 300 formas de caracteres kanji, muchos glifos de nivel 1 que estaban en el estilo del Diccionario Kangxi se cambiaron a variantes, y especialmente a formas más simplificadas (por ejemplo, ryakuji y shinjitai extendido ). Por ejemplo, un par de puntos de código que a menudo son objeto de críticas debido a que se cambiaron en gran medida son la fila 18, celda 10 (78JIS:鷗, 83JIS:鴎) y la fila 38, celda 34 (78JIS:瀆, 83JIS:涜).
Hubo muchos cambios menores que se alejaron de las variantes del estilo Kangxi; por ejemplo, la celda 84 de la fila 25 (鵠) perdió parte de un trazo. Además, cuando algunos glifos para kanji de nivel 1 no eran formas del estilo Kangxi, hubo algunos cambios en sus formas del estilo Kangxi; por ejemplo, la celda 49 de la fila 80 (靠) ganó parte de un trazo (es decir, la misma parte del trazo que perdieron las celdas 25-84).
Para esclarecer la intención original de la primera norma, estas terminaron cayendo dentro de los parámetros para los criterios de unificación de la cuarta norma. La diferencia de forma de los ejemplos mencionados anteriormente ("鵠" y "靠") cae dentro de los parámetros para el criterio de unificación 42 (relativo al componente "告"). [t]
La mayor parte de los cambios en las formas de los caracteres son diferencias entre los kanji de nivel 1 y nivel 2. En concreto, la simplificación se hizo con más frecuencia para los kanji de nivel 1 que para los de nivel 2; las simplificaciones aplicadas a los kanji de nivel 1 (por ejemplo, "潑" a "溌" y "醱" a "醗") no se aplicaron generalmente a los kanji de nivel 2 ("撥" se mantuvo como estaba). Los kanji 25-84 (鵠) y 80-49 (靠) antes mencionados también recibieron un tratamiento diferente, ya que el primero está en el nivel 1 y el segundo en el nivel 2. Aun así, hubo algunos cambios independientemente del nivel; por ejemplo, los caracteres que contienen los componentes "puerta" (戸) e "invierno" (冬) se cambiaron sin un tratamiento diferente entre los kanji de nivel 1 y nivel 2.
Sin embargo, en 29 puntos de código (como los problemáticos 18-10 y 38-34 mencionados anteriormente), las formas heredadas por la cuarta norma contradicen la intención original de la primera. Para estos puntos de código existen criterios de unificación especiales para mantener la compatibilidad con las normas anteriores.
Cuando se introdujo la nueva categoría "X" para las normas industriales japonesas (para campos relacionados con la información), la segunda norma pasó a denominarse JIS X 0208-1983 [12] el 1 de marzo de 1987.
El tercer estándar JIS X 0208-1990 "Código de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号, Jōhō Kōkan'yō Kanji Fugō ) revisó el segundo estándar el 1 de septiembre de 1990. También se lo denomina 90JIS para abreviar. Por encargo de la AIST, un comité de la Asociación Japonesa de Estándares para la revisión de JIS X 0208 creó el borrador. El presidente del comité fue Tajima Kazuo.
Se cambiaron 225 glifos kanji y se agregaron dos caracteres al nivel 2 (84-05 "凜" y 84-06 "熙"). Esto fue una desunificación de itaiji para dos caracteres ya incluidos (49-59 "凛" y 63-70 "煕"). Algunos de los cambios y las dos adiciones correspondían a los 118 kanji jinmeiyō agregados en marzo de 1990. [12] El estándar en sí fue establecido en Heisei Mincho.
El cuarto estándar JIS X 0208:1997 "Conjuntos KANJI codificados de doble byte de 7 y 8 bits para el intercambio de información" ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto). Oyobi Hachi-Bitto no Ni-Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō ) revisó el tercer estándar el 20 de enero de 1997. También se llama 97JIS para abreviar. Por encargo de la AIST, un comité de la JSA para la investigación y el estudio de conjuntos de caracteres codificados produjo el borrador. El presidente del comité era Shibano Kōji.
Las políticas básicas de esta revisión fueron no realizar cambios en el conjunto de caracteres, aclarar las disposiciones ambiguas y hacer que el estándar fuera relativamente más fácil de usar. No se realizaron adiciones, eliminaciones ni reorganizaciones de puntos de código y, sin excepción, los glifos de ejemplo también se dejaron sin cambios. Sin embargo, las estipulaciones del estándar se reescribieron y/o complementaron por completo. Mientras que el tercer estándar tenía 65 páginas sin las explicaciones, el cuarto estándar tenía 374 páginas sin las explicaciones.
Los puntos principales de la revisión son:
JIS X 0213 (kanji extendido) fue diseñado "con el objetivo de ofrecer un conjunto de caracteres suficiente para los propósitos de codificación del idioma japonés moderno que JIS X 0208 pretendía ser desde el principio"; [16] define un conjunto de caracteres que amplía el conjunto de kanji de JIS X 0208. Los redactores de JIS X 0213 recomiendan la migración de JIS X 0208 a JIS X 0213, entre las ventajas está la compatibilidad de JIS X 0213 con la Lista de glifos Hyōgai Kanji y con los kanji jinmeiyō más nuevos .
Contrariamente a las expectativas de los redactores, la adopción de la norma JIS X 0213 no ha sido nada rápida desde su promulgación en el año 2000. El comité de redacción de la norma JIS X 0213:2004 escribió (en el año 2004): "La situación en la que 'lo que la mayoría de los sistemas de información pueden utilizar en común es sólo la norma JIS X 0208' todavía continúa". (JIS X 0213:2000, Apéndice 1:2004, sección 2.9.7)
En el caso de Microsoft Windows , el sistema operativo predominante (y, por tanto, el entorno de escritorio predominante ) en el sector de la informática personal, el repertorio JIS X 0213 se ha incluido desde Windows Vista , lanzado en noviembre de 2006. Mac OS X ha sido compatible con JIS X 0213 desde la versión 10.1 (lanzada en 2001). Muchos sistemas similares a Unix, como Linux, pueden (opcionalmente) soportar JIS X 0213 si se desea. Por lo tanto, se cree que con el tiempo, la compatibilidad con JIS X 0213 en las computadoras personales no será un impedimento para su eventual adopción.
Entre los redactores de la norma JIS X 0213, hay quienes esperan ver una combinación de JIS X 0208 y JIS X 0213 antes de que se adopte la norma JIS X 0213 (Satō, 2004). Sin embargo, la norma JIS X 0208 sigue utilizándose en la actualidad y muchos predicen que seguirá siendo una norma. Hay barreras que deben superarse si se pretende que la norma JIS X 0213 sustituya a la JIS X 0208 en el uso común:
Dado que JIS X 0208 / JIS C 6226 es principalmente un conjunto de caracteres y no una codificación de caracteres estrictamente definida , varias empresas han implementado sus propias codificaciones del conjunto de caracteres.
Varias de estas incorporan asignaciones de caracteres específicas del proveedor en lugar de regiones no asignadas del estándar. Entre ellas se incluyen Windows-932 y MacJapanese, así como la codificación de caracteres PC98 de NEC . Si bien IBM-932 e IBM-942 también incluyen asignaciones de proveedores, las incluyen fuera de la región utilizada para JIS X 0208.
Como se indicó anteriormente, el conjunto de kanji no es compatible con el conjunto de caracteres gráficos IRV (ASCII) ISO/IEC 646:1991. El conjunto de kanji y el conjunto de caracteres gráficos IRV se pueden utilizar juntos como se especifica en JIS X 0208 (IRV + código de 7 bits para kanji e IRV + código de 8 bits para kanji). También se pueden utilizar juntos en EUC-JP .
El conjunto de kanjis carece de tres caracteres incluidos en el conjunto de caracteres gráficos de JIS X 0201 para caracteres latinos: 2/2 (COMILLAS), 2/7 (APÓSTROFE) y 2/13 (GUIÓN-MENOS). El conjunto de kanjis contiene todos los caracteres incluidos en el conjunto de caracteres gráficos de JIS X 0201 para katakana.
El conjunto de kanji y el conjunto de caracteres gráficos para caracteres latinos se pueden utilizar juntos como se especifica en JIS X 0208 (caracteres latinos + código de 7 bits para kanji y caracteres latinos + código de 8 bits para kanji). El conjunto de kanji, el conjunto de caracteres gráficos para caracteres latinos y el conjunto de caracteres gráficos de JIS X 0201 para katakana se pueden utilizar juntos como se especifica en JIS X 0208 (el conjunto de caracteres codificados por desplazamiento; es decir, Shift JIS ). El conjunto de kanji y el conjunto de caracteres gráficos para katakana se pueden utilizar juntos en EUC-JP .
JIS X 0212 (kanji suplementario) define caracteres adicionales con puntos de código para fines de procesamiento de información que requieren caracteres que no se encuentran en JIS X 0208. En lugar de asignar caracteres dentro del conjunto principal de kanji JIS X 0208, define un segundo conjunto de kanji de 94 por 94 que contiene caracteres suplementarios.
JIS X 0212 se puede utilizar con JIS X 0208 en EUC-JP . Además, JIS X 0208 y JIS X 0212 son estándares fuente para la unificación Han de UCS/Unicode , lo que significa que los kanji de ambos conjuntos se pueden incluir en un documento con formato Unicode.
Entre los puntos de código que cambió la segunda versión de JIS X 0208, 28 puntos de código en JIS X 0212 reflejan las formas de caracteres de antes de los cambios. [17] Además, JIS X 0212 reasigna la " marca de cierre " que JIS X 0208 había asignado como un no kanji ( 〆 , en la fila 1, celda 26) como un kanji (乄, en la fila 16, celda 17). JIS X 0212 no tiene caracteres en común con JIS X 0208 aparte de estos. Por lo tanto, no es adecuado para uso general por sí solo.
Sin embargo, en la cuarta versión de JIS X 0208, la conexión con JIS X 0212 no se definió en absoluto. Se cree que esto se debe a que el comité de redacción de la cuarta norma JIS X 0208 tenía una opinión crítica sobre los métodos de selección e identificación de JIS X 0212. [18] Los significados de los caracteres y los fundamentos de la selección no se documentaron adecuadamente, lo que dificultaba identificar si los kanji deseados se correspondían con los de su repertorio. [19] El texto de la cuarta norma, además de señalar los puntos problemáticos de la selección de caracteres de JIS X 0212, afirma que "se cree que no solo es imposible la selección de caracteres, sino que también es imposible utilizarlos juntos; la conexión con JIS X 0212 no está definida en absoluto" (sección 3.3.1).
JIS X 0213 (extensión kanji) define un conjunto de kanji que amplía el conjunto de kanji de JIS X 0208. Según esta norma, está "diseñada con el objetivo de ofrecer un conjunto de caracteres suficiente para codificar el idioma japonés moderno que JIS X 0208 pretendía que fuera desde el principio". [16]
El conjunto de kanji de JIS X 0213 incorpora todos los caracteres que se pueden representar en el conjunto de kanji de JIS X 0208, con muchas adiciones. En total, JIS X 0213 define 1183 caracteres no kanji y 10 050 kanji (para un total de 11 233 caracteres), dentro de dos planos de 94 por 94 (面, men ) . El primer plano (kanji no kanji y kanji de nivel 1–3) se basa en JIS X 0208, mientras que el segundo plano (kanji de nivel 4) está diseñado para encajar dentro de las filas no asignadas de JIS X 0212, lo que permite su uso en EUC-JP . [20] JIS X 0213 también define Shift_JISx0213 , una variante de Shift_JIS capaz de codificar la totalidad de JIS X 0213.
Para la mayoría de los efectos, el plano 1 de JIS X 0213 es un superconjunto de JIS X 0208. Sin embargo, se aplican diferentes criterios de unificación a algunos puntos de código en JIS X 0213 en comparación con JIS X 0208. En consecuencia, a algunos pares de glifos kanji que estaban representados por un punto de código JIS X 0208, debido a que estaban unificados, se les asignan puntos de código separados en JIS X 0213. Por ejemplo, el glifo en la fila 33, celda 46 de JIS X 0208 ("僧", descrito anteriormente) unifica algunas variantes debido a su componente de la derecha. En JIS X 0213, dos formas (las que contienen el componente "丷") están unificadas en el plano 1, fila 33, celda 46, y la otra (que contiene el componente "八") está ubicada en el plano 1, fila 14, celda 41. Por lo tanto, no se puede determinar automáticamente si la celda 46 de la fila 33 de JIS X 0208 debe asignarse a la celda 46 de la fila 33 del plano 1 de JIS X 0213 o a la celda 41 de la fila 14 del plano 1. [u] Esto limita el grado en el que JIS X 0213 puede considerarse compatible con JIS X 0208, como lo admitió el comité de redacción de JIS X 0213. [21]
Sin embargo, en la mayoría de los casos, la fila m de la celda n en JIS X 0208 corresponde al plano 1 de la fila m de la celda n en JIS X 0213; por lo tanto, en la práctica no surge mucha confusión. Esto se debe a que la mayoría de los tipos de letra han llegado a utilizar los glifos ejemplificados en JIS X 0208 y la mayoría de los usuarios no son conscientes de los criterios de unificación.
El conjunto de kanjis de JIS X 0208 se encuentra entre los estándares fuente originales para la unificación Han en ISO/IEC 10646 (UCS) y Unicode . Cada kanji en JIS X 0208 corresponde a su propio punto de código en el Plano Multilingüe Básico (BMP) de UCS/Unicode .
Los caracteres no kanji de JIS X 0208 también corresponden a sus propios puntos de código en el BMP. Sin embargo, para algunos caracteres especiales, algunos sistemas implementan correspondencias diferentes a las de UCS/Unicode (que se basan en los nombres de caracteres que figuran en JIS X 0208:1997).
A los efectos de citación, estos nombres japoneses se presentan como si estuvieran en orden occidental cuando fueron romanizados, y mantienen el orden oriental cuando no lo fueron.