JIS X 0208 es un conjunto de caracteres de 2 bytes especificado como estándar industrial japonés , que contiene 6879 caracteres gráficos adecuados para escribir texto, nombres de lugares, nombres personales, etc. en el idioma japonés . El título oficial del estándar actual es conjuntos KANJI codificados de doble byte de 7 y 8 bits para el intercambio de información ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Oyobi Hachi-Bitto no Ni- Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō ) . Se estableció originalmente como JIS C 6226 en 1978 y se revisó en 1983, 1990 y 1997. IBM también la llama página de códigos 952 . IBM también llama a la versión de 1978 Página de códigos 955 .
El conjunto de caracteres que establece JIS X 0208 tiene como objetivo principal el intercambio de información (情報交換, jōhō kōkan ) entre los sistemas de procesamiento de datos y los dispositivos conectados a ellos, o entre sistemas de comunicación de datos. Este juego de caracteres se puede utilizar para procesamiento de datos y procesamiento de texto.
Las implementaciones parciales del juego de caracteres no se consideran compatibles. Porque hay lugares donde han sucedido cosas como que el comité de redacción original del primer estándar se encargó de separar los personajes entre el nivel 1 y el nivel 2 y el segundo estándar luego barajó algunos personajes variantes (異体字, itaiji ) entre los niveles, al menos en el primer y segundo estándar, se conjetura que en algún momento se consideraron para el desarrollo sistemas informáticos japoneses sin kanji y con implementación de nivel 1 únicamente. Sin embargo, tales implementaciones nunca se han especificado como compatibles, aunque sí existieron ejemplos como el primer NEC PC-9801 . [1]
Si bien existen disposiciones en la norma JIS X 0208:1997 en materia de compatibilidad, en la actualidad se considera generalmente que esta norma no certifica la compatibilidad ni es una norma oficial de fabricación que equivalga a una declaración de autocompatibilidad. [2] En consecuencia, de facto , no se considera que existan productos "compatibles" con JIS X 0208. Terminología como "conforme" (準拠, junkyo ) y "apoyo" (対応, taiō ) está incluida en JIS X 0208, pero la semántica de estos términos varía de persona a persona.
El primer byte de codificación corresponde al número de fila o celda más 0x20, o 32 en decimal (ver más abajo). Por lo tanto, el conjunto de códigos que comienza con 0x21 tiene un número de fila de 1 y su celda 1 tiene un byte de continuación de 0x21 (o 33), y así sucesivamente.
Para los bytes iniciales utilizados para caracteres distintos de kanji , se proporcionan enlaces a gráficos en esta página que enumeran los caracteres codificados bajo ese byte inicial. Para los bytes iniciales utilizados para los kanji, se proporcionan enlaces a la sección correspondiente del índice de kanji de Wikcionario .
Algunos proveedores utilizan una asignación Unicode ligeramente diferente para este conjunto que la siguiente. Por ejemplo, Microsoft asigna kuten 1-29 (JIS 0x213D) a U+2015 (Barra horizontal), [3] mientras que Apple lo asigna a U+2014 (Em Dash). [4] De manera similar, Microsoft asigna kuten 1-61 (JIS 0x215D) a U+FF0D [3] (la forma de ancho completo de U+002D Hyphen-Minus), y Apple lo asigna a U+2212 (signo menos). [4] El mapeo Unicode del guión ondulado también difiere entre proveedores. Vea las celdas con notas a pie de página a continuación.
La puntuación ASCII y JISCII (que se muestra aquí con un fondo amarillo) puede usar asignaciones alternativas al bloque de formas de ancho medio y ancho completo si se usa en una codificación que combina JIS X 0208 con ASCII o con JIS X 0201 , como Shift JIS , EUC-JP o ISO 2022-JP .
La mayoría de los caracteres de este conjunto se agregaron en 1983, excepto los caracteres 0x2221–0x222E (kuten 2-1 a 2-14, o la primera línea del cuadro a continuación), que se incluyeron en la versión original de 1978 del estándar.
Este conjunto incluye un subconjunto del conjunto invariante ISO 646 (y por lo tanto también un subconjunto tanto de ASCII como del conjunto romano JIS X 0201 ), menos puntuación y símbolos, que comprende números arábigos occidentales y ambos casos del alfabeto latino básico . Los caracteres de este conjunto pueden usar asignaciones Unicode alternativas al bloque de formularios de ancho medio y ancho completo si se usan en una codificación que combina JIS X 0208 con ASCII o con JIS X 0201, como EUC-JP , Shift JIS o ISO 2022-JP .
Compare la fila 3 de KPS 9566 , que esta fila coincide exactamente. Compare y contraste la fila 3 de KS X 1001 y GB 2312 , que incluyen sus variantes nacionales completas de ISO 646 en esta fila, en lugar de solo el subconjunto alfanumérico.
Esta fila contiene hiragana japonés .
Compare la fila 4 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 10 de KPS 9566 y de KS X 1001 , que usan el mismo diseño, pero en una fila diferente.
Esta fila contiene Katakana japonés .
Compare la fila 5 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 11 de KPS 9566 y de KS X 1001 , que usan el mismo diseño, pero en una fila diferente. Compare el diseño Katakana considerablemente diferente utilizado por JIS X 0201 .
Esta fila contiene soporte básico para el alfabeto griego moderno , sin signos diacríticos ni la sigma final .
Compare la fila 6 de GB 2312 y GB 12345 y la fila 6 de KPS 9566 , que incluyen las mismas letras griegas en el mismo diseño, aunque GB 12345 agrega formas de presentación verticales y KPS 9566 agrega números romanos. Compare y contraste la fila 5 de KS X 1001 , que desplaza las letras griegas para incluir primero los números romanos.
Esta fila contiene el alfabeto ruso moderno y no es necesariamente suficiente para representar otras formas de escritura cirílica .
Compare la fila 7 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 12 de KS X 1001 y la fila 5 de KPS 9566 , que usan el mismo diseño (pero en una fila diferente).
Todos los caracteres de este conjunto se agregaron en 1983 y no estaban presentes en la revisión original del estándar de 1978.
Las filas 9 a 15 del estándar JIS X 0208 se dejan vacías.
Sin embargo, el siguiente diseño para la fila 13, introducido por primera vez por NEC , es una extensión común. Es utilizado (con variaciones menores, anotadas en las notas a pie de página) por Windows-932 [3] (que coincide con el estándar de codificación WHATWG utilizado por HTML5 ), por la variante PostScript (pero, desde KanjiTalk versión 7, no por la variante normal) [5] de MacJapanese y por JIS X 0213 (el sucesor de JIS X 0208). [5] [6] A diferencia de las otras extensiones creadas por Windows-932/WHATWG y JIS X 0213, las dos coinciden en lugar de colisionar, por lo que la decodificación de la mayor parte de esta fila es mejor compatible que las otras extensiones creadas por JIS X 0213.
Para representar puntos de código , se utilizan números de columna/línea para códigos de un byte y números kuten para códigos de dos bytes. Como forma de identificar un personaje sin depender de un código, se utilizan nombres de personajes.
Casi todos los códigos de caracteres gráficos JIS X 0208 se representan con dos bytes de al menos siete bits cada uno. Sin embargo, cada carácter de control , así como el espacio plano –aunque no el espacio ideográfico– se representa con un código de un byte. Para representar la combinación de bits (ビット組合せ, bitto kumiawase ) de un código de un byte, se utilizan dos números decimales: un número de columna y un número de línea . Tres bits de orden superior de siete o cuatro bits de orden superior de ocho, contando de cero a siete o de cero a quince respectivamente, forman el número de columna. Cuatro bits de orden inferior contados de cero a quince forman el número de línea. Cada número decimal corresponde a un dígito hexadecimal . Por ejemplo, la combinación de bits correspondiente al carácter gráfico "espacio" es 010 0000 como número de 7 bits y 0010 0000 como número de 8 bits. En notación de columna/línea, esto se representa como 2/0. Otras representaciones del mismo código de un solo byte incluyen 0x20 como hexadecimal o 32 como un único número decimal.
Los códigos de doble byte están dispuestos en 94 grupos numerados, cada uno de los cuales se denomina fila (区, ku , literalmente "sección") . Cada fila contiene 94 códigos numerados, cada uno llamado celda (点, diez , iluminado. "punto") . [j] Esto hace un total de 8836 (94 × 94) puntos de código posibles (aunque no todos están asignados, ver más abajo); estos se establecen en el estándar en una tabla de códigos de 94 líneas y 94 columnas.
Un número de fila y un número de celda (cada uno numerado del 1 al 94, para un código JIS X 0208 estándar) forman un punto kuten (区点) , que se utiliza para representar puntos de código de doble byte. Un número de código o número kuten (区点番号, kuten bangō ) se expresa en la forma "fila-celda", estando separados los números de fila y de celda por un guión . Por ejemplo, el carácter "亜" tiene un punto de código en la fila 16, celda 1, por lo que su número de código se representa como "16-01".
En JIS X 0208 de 7 bits (como se podría cambiar en JIS X 0202/ ISO-2022-JP ), ambos bytes deben estar en el rango de 94 bytes de 0x 21 (utilizado para la fila o número de celda 1) hasta 0x7E ( utilizado para la fila o celda número 94): corresponde exactamente al rango utilizado para la impresión de caracteres ASCII de 7 bits, sin contar el espacio. En consecuencia, los bytes codificados se obtienen sumando 0x20 (32) a cada número. [7] Por ejemplo, el ejemplo anterior de 16-01 ("亜") estaría representado por los bytes 0x30 0x21
. En cambio, el EUC-JP de 8 bits utiliza el rango de 0xA1 a 0xFE (configurando el bit alto en 1), mientras que otras codificaciones como Shift JIS utilizan transformaciones más complicadas. Shift JIS incluye más espacio de codificación del necesario para el propio JIS X 0208; algunas extensiones específicas de Shift JIS para JIS X 0208 utilizan números de fila superiores a 94. [8]
Esta estructura también se utiliza en el chino continental GB 2312 , donde se la conoce de forma nativa como区位; qūwèi , y el surcoreano KS C 5601 (actualmente KS X 1001 ), donde el ku y el diez se conocen respectivamente como hang [9] ( 행 ;行; haeng ) y yol [9] ( 열 ;列; yeol ). El posterior JIS X 0213 amplía esta estructura al tener más de un plano (面, men , iluminado. "cara") de filas, que también es la estructura utilizada por CNS 11643 , y relacionada con la estructura utilizada por CCCII .
Entre los códigos de 2 bytes, las filas 9 a 15 y 85 a 94 son puntos de código no asignados (空き領域, aki ryōiki ) ; es decir, son puntos de código sin caracteres asignados. Además, algunas celdas de otras filas también son esencialmente puntos de código no asignados.
Estas áreas vacías contienen puntos de código que básicamente no deberían usarse. Excepto cuando exista acuerdo previo entre las partes relevantes, los caracteres ( gaiji ) para el intercambio de información no deben asignarse a los puntos de código no asignados.
Incluso al asignar caracteres a puntos de código no asignados, no se les deben asignar caracteres gráficos definidos en el estándar, y el mismo carácter no debe asignarse a múltiples puntos de código no asignados; Los caracteres no deben duplicarse en el conjunto.
Además, al asignar caracteres a puntos de código no asignados, es necesario tener cuidado con la unificación con respecto a los glifos kanji. Por ejemplo, la celda 66 de la fila 25 corresponde al kanji que significa "alto" o "caro"; tanto la forma con un componente que se asemeja al carácter de "boca" (口) en el medio (高) como la forma menos común con una construcción similar a una escalera en la misma ubicación (髙) se incluyen en el mismo punto de código. En consecuencia, limitar los puntos 25 a 66 a la forma de "boca" y asignar esta última forma de "escalera" a un punto de código no asignado sería técnicamente una violación de la norma.
En la práctica, sin embargo, varias variantes de Shift JIS específicas del proveedor , incluidas Windows-932 y MacJapanese , codifican extensiones de proveedor en filas no asignadas del espacio de codificación para JIS X 0208. Además, la mayoría de los códigos no asignados en JIS X 0208 son asignados por el El nuevo estándar JIS X 0213 .
Cada carácter JIS X 0208 recibe un nombre . Al utilizar el nombre de un personaje, es posible identificar personajes sin depender de sus códigos. Los nombres de los caracteres están coordinados con otros estándares de juegos de caracteres, en particular el Juego de caracteres codificados universal (UCS/ Unicode ), por lo que esta es una posible fuente de asignaciones de caracteres a juegos de caracteres como Unicode. Por ejemplo, tanto el carácter de ISO/IEC 646 Versión de referencia internacional ( US-ASCII ) columna 4 línea 1 como el de JIS X 0208 fila 3 celda 33 tienen el nombre "LETRA A MAYÚSCULA LATINA". Por lo tanto, el carácter 4/1 en ASCII y el carácter 3-33 en JIS X 0208 pueden considerarse el mismo carácter (aunque, en la práctica, se utiliza una asignación alternativa para el carácter JIS X 0208 debido a que las codificaciones proporcionan ASCII por separado). ). Por el contrario, se puede determinar que los caracteres ASCII 2/2 (comillas), 2/7 (apóstrofe), 2/13 (guión menos) y 7/14 (tilde) son caracteres que no existen en este estándar.
Los nombres de caracteres que no son kanji utilizan letras romanas mayúsculas, espacios y guiones. Los caracteres no kanji reciben un nombre común en japonés (日本語通用名称, Nihongo tsūyō meishō ) , pero no existen algunas disposiciones para estos nombres. [k] Los nombres de los kanji, por otro lado, se establecen mecánicamente según la representación hexadecimal correspondiente de su código en UCS/Unicode. Se puede llegar al nombre de un kanji anteponiendo al punto de código Unicode "CJK UNIFIED IDEOGRAPH-". Por ejemplo, la fila 16, celda 1 (亜) corresponde a U+4E9C en UCS, por lo que su nombre sería "CJK UNIFIED IDEOGRAPH-4E9C". Los kanji no reciben nombres comunes japoneses.
JIS X 0208 prescribe un conjunto de 6879 caracteres gráficos que corresponden a códigos de dos bytes con siete u ocho bits por byte; en JIS X 0208, esto se denomina conjunto de kanji (漢字集合, kanji shūgō ) , que incluye 6355 kanji y 524 no kanji (非漢字, hikanji ) , incluidos caracteres como letras latinas , kana , etc.
En cuanto a los caracteres especiales en el conjunto de kanji, algunos caracteres del conjunto de caracteres gráficos de la Versión de referencia internacional (IRV) de ISO/IEC 646 :1991 (equivalente a ASCII ) están ausentes en JIS X 0208. Existen los cuatro caracteres antes mencionados. "COMILLAS", "APÓSTROFO", "GUION MENOS" y "TILDE". Los tres primeros se dividen en diferentes puntos de código en el conjunto de kanji (Nishimura, 1978; estándar JIS X 0221-1:2001, Sección 3.8.7). El "TILDE" de IRV no tiene ningún carácter correspondiente en el conjunto de kanji.
En la siguiente tabla, los caracteres IRV ISO/IEC 646:1991 en cuestión se comparan con sus múltiples equivalentes en JIS X 0208, excepto el carácter IRV "TILDE", que se compara con el "WAVE DASH" de JIS X 0208. Las entradas bajo las columnas "Símbolo" utilizan puntos de código UCS/Unicode, por lo que los detalles de visualización pueden diferir.
A los caracteres ASCII/IRV sin equivalentes exactos de JIS X 0208 se les asignaron posteriormente puntos de código mediante JIS X 0213; estos también se enumeran a continuación, al igual que la asignación de Microsoft de los cuatro caracteres.
Esto significa que el conjunto de kanji es el conjunto de caracteres no compatibles con versiones posteriores más extendido del mundo; se cuenta como uno de los puntos débiles de esta norma.
Incluso con los 90 caracteres especiales, números y letras latinas que el conjunto kanji y el conjunto IRV tienen en común, este estándar no sigue la disposición de ISO/IEC 646. Estos 90 caracteres se dividen entre las filas 1 (puntuación) y 3 ( letras y números), aunque la fila 3 sigue la disposición ISO 646 solo para las 62 letras y números (por ejemplo, 4/1
("A") en ISO 646 se convierte en 2/3 4/1
(es decir, 3-33) en JIS X 0208).
En cuanto a la causa de cómo estos números, letras latinas, etc. en el conjunto de kanji son "caracteres alfanuméricos de ancho completo" (全角英数字, zenkaku eisūji ) y cómo la implementación original surgió con una interpretación diferente en comparación con la IRV, se piensa que se debe a estas incompatibilidades.
Desde el primer estándar, ha sido posible representar compuestos (合成, gōsei ) , como números rodeados por círculos , ligaduras para nombres de unidades de medida y números romanos ; [10] no recibieron puntos de código kuten independientes . Aunque las empresas individuales que fabrican sistemas de información pueden hacer un esfuerzo para representar estos caracteres según lo requieran los clientes según la composición de los caracteres, ninguna ha solicitado que se agreguen al estándar, optando en cambio por ofrecerlos de forma patentada como gaiji .
En el cuarto estándar (1997), todos estos personajes fueron definidos explícitamente como personajes que acompañan un avance de la posición actual; es decir, son caracteres espaciados . Además, se dictaminó que no debían realizarse mediante la composición de personajes. Por esta razón, no se permitió representar caracteres latinos con signos diacríticos , posiblemente con la única excepción del símbolo ångström ( Å ) en la fila 2, celda 82.
El hiragana y katakana en JIS X 0208, a diferencia de JIS X 0201 , incluyen marcas dakuten y handakuten como parte de un carácter. También se incluyen el katakana wi (ヰ) y we (ヱ) (ambos obsoletos en japonés moderno), así como el pequeño wa (ヮ) , que no está en JIS X 0201.
La disposición de kana en JIS X 0208 es diferente de la disposición de katakana en JIS X 0201. En JIS X 0201, el silabario comienza con wo (ヲ) , seguido por el kana pequeño ordenado por orden de gojūon , seguido por el de tamaño completo. kana, también en orden gojūon (ヲァィゥェォャュョッーアイウエオ......ラリルレロワン). Por otro lado, en JIS X 0208, los kana se clasifican primero por orden de gojūon , luego en el orden de "kana pequeña, kana de tamaño completo, kana con dakuten y kana con handakuten", de modo que se agrupe el mismo kana fundamental. con sus derivados (ぁあぃいぅうぇえぉお......っつづ......はばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん). Este orden se eligió para facilitar más simplemente la clasificación de las búsquedas en diccionarios basados en kana (Yasuoka, 2006). [l]
Como se mencionó anteriormente, en esta norma, el orden de katakana previamente definido en JIS X 0201 no fue seguido en JIS X 0208. Se piensa que el hecho de que el katakana JIS X 0201 sea " kana de medio ancho " surgió debido a la incompatibilidad con el katakana de esta norma. Este punto es también uno de los puntos débiles de esta norma.
En el cuarto estándar (1997) se explica en detalle cómo se eligieron los kanji de este estándar, de qué fuentes, por qué se dividen en nivel 1 y nivel 2, y cómo están organizados. Según esa explicación, los kanji incluidos en las siguientes cuatro listas de kanji se reflejaron en los 6349 caracteres del primer estándar (1978).
En el segundo y tercer estándar, agregaron cuatro y dos caracteres al nivel 2, respectivamente, elevando el total de kanji a 6355. Además, en el segundo estándar, se cambiaron las formas de los caracteres y la transposición entre los niveles; También en el tercer estándar se cambiaron las formas de los personajes. Estos se describen más adelante.
Los 2965 kanji de nivel 1 ocupan las filas 16 a 47. Los 3390 kanji de nivel 2 ocupan las filas 48 a 84.
Para el nivel 1, se eligieron caracteres comunes a múltiples listados de glifos kanji, utilizando el kanji tōyō , el borrador de corrección de kanji tōyō y el kanji jinmeiyō como base. Asimismo, se consultaron JIS C 6260 ("Código de identificación To-Do-Fu-Ken (Prefectura)"; actualmente JIS X 0401) y JIS C 6261 ("Código de identificación para ciudades, pueblos y aldeas"; actualmente JIS X 0402); Los kanji de casi todas las prefecturas , ciudades, distritos, distritos, pueblos, aldeas, etc. japoneses se colocaron intencionalmente en el nivel 1. [m] Además, se agregaron enmiendas realizadas por expertos.
El nivel 2 estaba dedicado a los kanji que aparecieron en los cuatro listados principales mencionados anteriormente pero que no fueron seleccionados para el nivel 1. Como se indica a continuación, los kanji del nivel 1 estaban ordenados por su pronunciación, por lo que entre los kanji cuya pronunciación era difícil de determinar, hubo aquellos que fueron transferidos del nivel 1 al nivel 2 sobre esa base (Nishimura, 1978).
Debido a estas decisiones, en su mayor parte, el nivel 1 contiene kanji usados con más frecuencia, y el nivel 2 contiene kanji usados con menor frecuencia, pero por supuesto, esos fueron juzgados según los estándares de la época; con el paso del tiempo, algunos kanji de nivel 2 se han utilizado con más frecuencia, como uno que significa "volar" (翔) y otro que significa "brillar" (煌); e inversamente, algunos kanji de nivel 1 se han vuelto poco frecuentes, en particular los que significan "centímetro" (糎) y "milimetro" (粍). De los kanji jōyō actuales , 30 caen en el nivel 2, [n] mientras que tres faltan por completo (塡ڠ, 剝ڠ y 頰ڠ). [o] De los kanji jinmeiyō actuales , 192 están en el nivel 2, [p] mientras que 105 no son parte del estándar. [q]
Los kanji en el nivel 1 están ordenados según la "lectura representativa" de cada uno (es decir, una lectura canónica elegida únicamente para los fines de este estándar); la lectura de un kanji para esto puede ser una lectura on o kun ; las lecturas están ordenadas en orden gojūon . [r] Como regla general, la lectura on (sonido chino) se considera la lectura representativa; cuando un kanji tiene múltiples lecturas , la lectura considerada predominante en la frecuencia de uso se utiliza para la lectura representativa (estándar JIS C 6226-1978, Sección 3.4). Para el pequeño porcentaje de kanji que no tienen una lectura activa o que tienen una lectura activa que es poco conocida y no de uso común, se empleó la lectura kun como lectura representativa. Cuando se debe utilizar una lectura verbal kun como lectura representativa, se utiliza la forma ren'yōkei (en lugar de shūshikei ).
Por ejemplo, las celdas 1 a 41 en la fila 16 tienen 41 caracteres ordenados comenzando con una lectura de . Dentro de estos, hay 22 caracteres, incluidos 16-10 (葵: al leer " ki "; kun al leer " aoi ") y 16-32 (粟: al leer " zoku " y " shoku "; kun al leer " awa ") en base a sus lecturas de kun . 16-09 (逢: sobre la lectura " hō ", kun leyendo " a(i) ") y 16-23 (扱: sobre las lecturas " sō " y " kyū ", kun leyendo " atsuka(i) ") son sólo dos Ejemplos de verbos en forma ren'yōkei utilizados para la lectura representativa.
Cuando la lectura representativa es la misma entre diferentes kanji, un kanji que usa una lectura on se coloca delante de uno que usa una lectura kun . Cuando las lecturas de on o kun son las mismas en más de un kanji, se ordenan por su radical principal y número de trazos .
Ya sea en el nivel 1 o en el nivel 2, los itaiji están dispuestos para seguir directamente su forma ejemplar. Por ejemplo, en el nivel 2, justo después de la fila 49, celda 88 (劍), los caracteres inmediatamente siguientes se desvían de la regla general (recuento de trazos en este caso) para incluir tres variantes de 49-88 (劔,劒y剱). [s]
Los kanji del nivel 2 están ordenados por radical primario y número de trazos. Cuando estas dos propiedades son las mismas para diferentes kanji, se ordenan por lectura.
Se ha señalado que hay kanji en el conjunto de kanji que no se encuentran en los diccionarios de kanji completos e íntegros, y que se desconocen sus fuentes. Por ejemplo, sólo un año después de que se estableciera el primer estándar, Tajima (1979) informó que había confirmado 63 kanji que no se encontraban en Shinjigen (un gran diccionario de kanji publicado por Kadokawa Shoten ), ni en Dai Kan-Wa jiten. , y no tenían sentido como ryakuji de ningún tipo; Señaló que sería preferible que los kanji que no estuvieran disponibles en los diccionarios de kanji se seleccionaran de fuentes definidas. Estos kanji llegaron a ser conocidos como caracteres "fantasmas" (幽霊文字, yūrei moji ) o "kanji fantasma" (幽霊漢字, yūrei kanji ) , entre otros nombres.
El comité de redacción de la cuarta versión del estándar también vio como un problema la existencia de kanji con fuentes desconocidas, por lo que investigó a qué tipo de fuentes hacía referencia el comité de redacción de la primera versión. Como resultado, se descubrió que el comité de redacción original se había basado en gran medida en los "Resultados del análisis de correspondencia" para recopilar kanji. Cuando el comité de redacción investigó los "Resultados del análisis de correspondencia", quedó claro que muchos de los kanji incluidos en el conjunto de kanji pero que no se encontraban en los diccionarios de kanji exhaustivos supuestamente provenían del "Kanji de nombre de registro de personalidad japonés" y del "Kanji para el distrito administrativo nacional". Listado" de listas mencionadas en los "Resultados del análisis de correspondencia".
Se confirmó que no existe ningún texto original para el "Kanji del nombre de registro de personalidad japonés" al que se hace referencia en los "Resultados del análisis de correspondencia". Para el "Listado de distritos administrativos nacionales", Sasahara Hiroyuki, del comité de redacción de la cuarta versión, examinó los kanji que aparecieron en las páginas de desarrollo en progreso del primer estándar. El comité también consultó muchos escritos antiguos, así como muchos ejemplos de nombres personales en una base de datos de guías telefónicas de NTT .
Gracias a esta investigación exhaustiva, el comité pudo reducir el número de kanji cuya fuente no se puede explicar con confianza a doce, como se muestra en la tabla adyacente. De estos, se conjetura que varios glifos surgieron debido a errores de copia. En particular, 妛 probablemente se creó cuando los impresores intentaron crear 𡚴 cortando y pegando 山 y 女 juntos. Una sombra de ese proceso se malinterpretó como una línea, lo que resultó en 妛 (se puede encontrar una imagen de esto en el Jōyō kanji jiten ).
Según las especificaciones del cuarto estándar (1997), la unificación (包摂, hōsetsu , no es el mismo término utilizado para la " unificación " de Unicode aunque es casi el mismo concepto) es la acción de dar el mismo punto de código a un carácter. sin tener en cuenta sus diferentes formas de carácter. En el cuarto estándar, los glifos permitidos son limitados; está claramente definido el grado en que determinados glifos alográficos se unifican en un punto de código grafémico .
Además, según las especificaciones de la norma, un glifo (字体, jitai , literalmente "cuerpo del personaje";) es una noción abstracta en cuanto a la representación gráfica de un carácter gráfico; una forma de carácter (字形, jikei , literalmente "forma de carácter"; también un "glifo" en cierto sentido, pero diferenciado en un nivel diferente para propósitos de estandarización) es la representación como una forma gráfica que un glifo toma en la actualidad (por ejemplo, debido a un glifo escrito a mano, impreso, mostrado en una pantalla, etc.). Para un solo glifo, existe una gama infinita de posibles formas de caracteres concreta y/o visiblemente diferentes. Una variación entre la forma de un carácter de un glifo se denomina "diferencia de diseño" (デザインの差, dezain no sa ) .
El grado en que un glifo se unifica a un punto de código se determina de acuerdo con el "glifo de ejemplo" de ese punto de código (例示字体, reiji jitai ) y los "criterios de unificación" (包摂規準, hōsetsu kijun ) que se pueden aplicar a ese ejemplo. glifo; es decir, el glifo de ejemplo para un punto de código se aplica a ese punto de código, y cualquier glifo para el cual las partes que componen el glifo de ejemplo se reemplazan de acuerdo con los criterios de unificación también se aplican a ese punto de código.
Por ejemplo, el glifo de ejemplo 33-46 (僧) está compuesto por el radical 9 (亻) y el kanji que eventualmente generó el so kana (曽). Además, en el criterio de unificación 101, se muestran tres kanji: el primero toma la forma que se ve con mayor frecuencia en japonés (曽); el segundo contiene una forma más tradicional (曾) en la que los dos primeros trazos forman el radical 12 (el número kanji del número 8:八); y el tercero es como el segundo, excepto que el radical 12 está invertido (曾). En consecuencia, las tres permutaciones (僧,僧,僧) se aplican al punto de código en la línea 33, celda 46.
En la cuarta norma, incluida una de las erratas de la primera impresión, hay 186 criterios de unificación.
Cuando el glifo de ejemplo de un punto de código se compone de más de un glifo de parte, se pueden aplicar criterios de unificación a cada parte. Después de que se aplica un criterio de unificación a un glifo de parte, a esa parte no se le pueden aplicar más criterios de unificación. Además, no se permite aplicar un criterio de unificación si el glifo resultante coincide completamente con el de otro punto de código.
Un glifo de ejemplo no es más que un ejemplo de ese punto de código; no es un glifo "respaldado" por la norma. Además, los criterios de unificación solo deben usarse para kanji de uso general y con el fin de asignar cosas a los puntos de código de este estándar. El estándar solicita que no se creen kanji generalmente no utilizados basándose en los glifos de ejemplo y los criterios de unificación.
Los kanji del conjunto de kanji no se eligen de forma totalmente coherente según los criterios de unificación. Por ejemplo, si bien 41-7 corresponde a la forma donde los trazos tercero y cuarto se cruzan (彥) así como a la forma donde no lo hacen (彦) según el criterio de unificación 72, 20-73 solo corresponde a la forma donde no cruzan (顔), y 80-90 solo corresponde a la forma donde lo hacen (顏).
Los términos "unificación", "criterios de unificación" y "glifo de ejemplo" fueron adoptados en el cuarto estándar. Desde la primera a la tercera versión, los kanji y las relaciones entre kanji se agruparon en tres tipos: "independientes" (独立, dokuritsu ) , "compatibles" (対応, taiō ) y "equivalentes" (同値, dōchi ) ; Se explicó que los caracteres reconocidos como equivalentes "se consolidan en un solo punto". Se incluyen "equivalencias", excepto kanji con exactamente la misma forma, kanji con diferencias debidas al estilo y kanji en los que la diferencia en la forma de los caracteres es pequeña.
En la primera norma se estipuló que "esta norma... no establece los detalles de las formas de los caracteres" (Sección 3.1); también establece que "el objetivo de esta norma es establecer la idea general de los personajes y sus códigos; el diseño de las formas de los personajes y demás quedan fuera de su alcance". También en las normas segunda y tercera se indica que determinados diseños de formas de personajes quedan fuera de su ámbito (nota sobre el punto 1). El cuarto estándar también estipula que "Este estándar regula los caracteres gráficos, así como sus patrones de bits, y el uso, diseños específicos de caracteres individuales, etc., no están dentro del alcance de este estándar" (JIS X 0208:1997, punto 1 ).
En el cuarto estándar, se definen "criterios de unificación para mantener la compatibilidad con estándares anteriores" (過去の規格との互換性を維持するための包摂規準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun ) . Su aplicación se limita a 29 puntos de código cuyos glifos varían mucho entre los estándares JIS C 6226-1983 en adelante y JIS C 6226-1978. Para esos 29 puntos de código, los glifos de JIS C 6226-1983 en adelante se muestran como "A" y los glifos de JIS C 6226-1978 como "B". En cada uno de ellos se podrán aplicar tanto los glifos "A" como los "B". Sin embargo, para afirmar la compatibilidad con el estándar, se debe indicar explícitamente si se ha utilizado la forma "A" o "B" para cada punto del código.
En JIS X 0208:1997, el artículo 7 combinado con los apéndices 1 y 2 definen un total de ocho esquemas de codificación.
En las descripciones siguientes, las regiones "CL" (control izquierdo), "GL" (gráfico izquierdo), "CR" (control derecho) y "GR" (gráfico derecho) son respectivamente, en notación de columna/línea, desde 0. /0 al 15/1, del 1/2 al 14/7, del 0/8 al 15/9 y del 1/10 al 15/14. Para cada código, al 2/0 se le asigna el carácter gráfico "ESPACIO" y al 7/15 el carácter de control "BORRAR". Los caracteres de control C0 (definidos en JIS X 0211 y coincidentes con ISO/IEC 6429 ) se asignan a la región CL.
Entre las codificaciones estipuladas en el cuarto estándar, la IANA sólo registra el conjunto de caracteres codificados "Shift" . [11] Sin embargo, algunas otras están estrechamente relacionadas con codificaciones registradas por la IANA definidas en otros lugares (EUC-JP e ISO-2022-JP).
JIS X 0208 se puede utilizar dentro de ISO 2022 /JIS X 0202 (del cual ISO-2022-JP es un subconjunto). Las secuencias de escape para designar JIS X 0208 para cada uno de los cuatro conjuntos de códigos ISO 2022 se enumeran a continuación. Aquí, "ESC" se refiere al carácter de control " Escape " (0x1B o 1/11).
La secuencia de escape que comienza ESC 2/4 selecciona un juego de caracteres multibyte. La secuencia de escape que comienza ESC 2/6 especifica una revisión de la próxima selección del juego de caracteres. JIS C 6226:1978 se identifica mediante el byte 4/0 del identificador multibyte-94-set (correspondiente a ASCII @
). JIS C 6226:1983 / JIS X 0208:1983 se identifica mediante el byte 4/2 del identificador multibyte-94-set ( B
). JIS X 0208:1990 también se identifica mediante el byte de identificador de 94 conjuntos 4/2, pero se puede distinguir con el identificador de revisión 4/0 ( @
).
Cuando se utiliza el conjunto de kanji de este estándar con el conjunto de caracteres gráficos IRV ( ASCII ) ISO/IEC 646:1991 o con el conjunto de caracteres gráficos JIS X 0201 para caracteres latinos ( JIS-Roman ), el tratamiento de los caracteres comunes a ambos conjuntos se vuelve problemático. A menos que se tomen medidas especiales, los caracteres incluidos en ambos conjuntos no se asignan entre sí uno a uno, y a un solo carácter se le puede asignar más de un punto de código; es decir, puede provocar una codificación duplicada.
JIS X 0208:1997, con respecto a cuándo un carácter es común a ambos conjuntos, básicamente prohíbe el uso del punto de código en el conjunto de kanji (que es uno de dos puntos de código), eliminando codificaciones duplicadas. Se considera que los personajes que tienen el mismo nombre son el mismo personaje.
Por ejemplo, tanto el nombre del carácter correspondiente al patrón de bits 4/1 en ASCII como el nombre del carácter correspondiente a la fila 3, celda 33 del conjunto de kanji son "LETRA A MAYÚSCULA LATINA". En la versión de referencia internacional + código de 8 bits para kanji, ya sea por el patrón de bits 4/1 o por el patrón de bits correspondiente a la fila 3 de la celda 33 del conjunto de kanji (10/3 12/1), la letra " A " (es decir Se representa "LETRA A MAYÚSCULA LATINA"). El estándar prohíbe el uso del patrón de bits "10/3 12/1", en un intento de eliminar la codificación duplicada.
Teniendo en cuenta las implementaciones que tratan los caracteres de los puntos de código del conjunto de kanji como " caracteres de ancho completo " y los de ASCII o JIS-Roman como caracteres diferentes, el uso de los puntos de código del conjunto de kanji se permite sólo por motivos de compatibilidad al revés. Por ejemplo, a efectos de compatibilidad con versiones anteriores, se permite considerar 10/3 12/1 en la versión de referencia internacional + código de 8 bits para que los kanji correspondan a una "A" de ancho completo.
Si el conjunto de kanji se utiliza junto con ASCII o JIS-Roman, incluso si se cumple estrictamente el estándar, no se garantiza la codificación única de un carácter. Por ejemplo, en la Versión de Referencia Internacional + código de 8 bits para kanji, es válido representar un guión con el patrón de bits 2/13 para el carácter "HYPHEN-MINUS", así como con la fila 1 celda 30 del conjunto de kanji. (patrón de bits 10/1 11/14) para el carácter "HIPHEN". Además, el estándar no define cuál de los dos usar para qué, por lo que al guión no se le asigna una codificación única. El mismo problema afecta al signo menos , las comillas , etc.
Además, incluso si el conjunto de kanji se utiliza como un código separado, no hay garantía de que se implemente la codificación única de caracteres. En muchos casos, sin embargo, coexisten el " ESPACIO IDEOGRÁFICO " de ancho completo en la fila 1, celda 1 y el espacio de medio ancho (2/0). La diferencia entre ambos no se explica por sí sola y no está especificada en la norma.
Hasta que hayan transcurrido cinco años después de que una norma industrial japonesa haya sido establecida, reafirmada o revisada, la norma anterior pasa por un proceso de reafirmación, revisión o retiro. Desde su creación, la norma ha sido objeto de revisiones tres veces y, en la actualidad, la cuarta norma es válida.
El primer estándar es JIS C 6226-1978 "Código de conjunto de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) , establecido por el Ministro japonés de Comercio Internacional e Industria el 1 de enero de 1978. También se llama 78JIS para abreviar. Por encargo de la Agencia de Ciencia y Tecnología Industrial, un comité de investigación y estudio de estandarización de códigos kanji de JIPDEC produjo el borrador. El presidente del comité era Moriguchi Shigeichi.
El código incluía 453 no kanji (incluidos hiragana, katakana, los alfabetos y puntuación romanos, griegos y cirílicos) y 6349 kanji (2965 kanji de nivel 1 y 3384 kanji de nivel 2) para un total de 6802 caracteres. [12] Aún no incluía personajes con dibujos de cuadros . El estándar en sí se estableció en el tipo de letra Ishii Mincho de Shaken Co., Ltd.
El segundo estándar JIS C 6226-1983 "Código de conjunto de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) revisó el primer estándar el 1 de septiembre de 1983. También se llama 83JIS . Por encargo de la AIST, un comité JIS relacionado con el código kanji de JIPDEC produjo el borrador. El presidente del comité fue Motooka Tōru.
El borrador del segundo estándar se basó en la consideración de factores como la promulgación del jōyō kanji , la aplicación del jinmeiyō kanji y la estandarización del Teletex en idioma japonés por parte del Ministerio de Correos y Telecomunicaciones ; Además, se realizó la siguiente modificación para seguir el ritmo de JIS C 6234-1983 (formas de caracteres de impresora matricial de 24 píxeles; actualmente JIS X 9052).
Entre los cambios en esas aproximadamente 300 formas de caracteres kanji, muchos glifos de nivel 1 que estaban en el estilo del Diccionario Kangxi fueron cambiados a variantes, y especialmente a formas más simplificadas (por ejemplo, ryakuji y shinjitai extendido ). Por ejemplo, un par de puntos de código que a menudo son objeto de críticas debido a que han cambiado mucho son la fila 18, celda 10 (78JIS:鷗, 83JIS:鴎) y la fila 38, celda 34 (78JIS:瀆, 83JIS:涜).
Hubo muchos cambios más pequeños aparte de las variantes de estilo Kangxi; por ejemplo, la fila 25, celda 84 (鵠) perdió parte de un trazo. Además, aunque algunos glifos para el kanji de nivel 1 no eran formas de estilo Kangxi, algunos se cambiaron a sus formas de estilo Kangxi; por ejemplo, la fila 80, celda 49 (靠) ganó parte de un trazo (es decir, la misma parte del trazo que perdió 25-84).
Para dilucidar la intención original del primer estándar, estos terminaron cayendo en parámetros de criterios de unificación en el cuarto estándar. La diferencia de forma en los ejemplos mencionados anteriormente ("鵠" y "靠") cae dentro de los parámetros del criterio de unificación 42 (relativo al componente "告"). [t]
La mayor parte de los cambios en las formas de los personajes son diferencias entre los kanji de nivel 1 y 2. Específicamente, la simplificación se realizó con más frecuencia para los kanji de nivel 1 que para los kanji de nivel 2; las simplificaciones aplicadas a los kanji de nivel 1 (por ejemplo, "潑" a "溌" y "醱" a "醗") generalmente no se aplicaron a los kanji de nivel 2 ("撥" permaneció como está). Los mencionados 25-84 (鵠) y 80-49 (靠) también recibieron un tratamiento diferente, ya que el primero está en el nivel 1 y el segundo en el nivel 2. Aun así, hubo algunos cambios sin importar el nivel; por ejemplo, los caracteres que contienen los componentes "puerta" (戸) e "invierno" (冬) se cambiaron sin tratamiento diferente entre los kanji de nivel 1 y 2.
Sin embargo, para 29 puntos del código (como los problemáticos 18-10 y 38-34 mencionados anteriormente), las formas heredadas por el cuarto estándar contradicen la intención original del primero. Para estos, existen criterios de unificación especiales para mantener la compatibilidad con los estándares anteriores en estos puntos del código.
Cuando se introdujo la nueva categoría "X" para las normas industriales japonesas (para campos relacionados con la información), la segunda norma pasó a denominarse JIS X 0208-1983 [12] el 1 de marzo de 1987.
El tercer estándar JIS X 0208-1990 "Código de conjunto de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号, Jōhō Kōkan'yō Kanji Fugō ) revisó el segundo estándar el 1 de septiembre de 1990. También se llama 90JIS para abreviar. Por encargo de la AIST, un comité de la Asociación Japonesa de Estándares para la revisión de JIS X 0208 creó el borrador. El presidente del comité era Tajima Kazuo.
Se cambiaron 225 glifos kanji y se agregaron dos caracteres al nivel 2 (84-05 "凜" y 84-06 "熙"). Esta fue una desunificación de itaiji para dos caracteres ya incluidos (49-59 "凛" y 63-70 "煕"). Algunos de los cambios y las dos adiciones correspondieron a los 118 kanji jinmeiyō agregados en marzo de 1990. [12] El estándar en sí se estableció en Heisei Mincho.
El cuarto estándar JIS X 0208:1997 "Conjuntos KANJI codificados de doble byte de 7 y 8 bits para el intercambio de información" ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto O yobi hachi-bitto no Ni-Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō ) revisó el tercer estándar el 20 de enero de 1997. También se llama 97JIS para abreviar. Por encargo de la AIST, un comité de la JSA para la investigación y el estudio de conjuntos de caracteres codificados produjo el borrador. El presidente del comité era Shibano Kōji.
Las políticas básicas de esta revisión fueron no realizar cambios en el conjunto de caracteres, aclarar disposiciones ambiguas y hacer que el estándar sea relativamente más fácil de usar. No se agregaron, eliminaron ni reorganizaron puntos de código y, sin excepción, los glifos de ejemplo tampoco se modificaron. Sin embargo, las disposiciones de la norma fueron completamente reescritas y/o completadas. Mientras que el tercer estándar tenía 65 páginas sin las explicaciones, el cuarto estándar tenía 374 páginas sin las explicaciones.
Los puntos principales de la revisión son:
JIS X 0213 (kanji extendido) fue diseñado "con el objetivo de ofrecer un conjunto de caracteres suficiente para codificar el idioma japonés moderno que JIS X 0208 pretendía ser desde el principio"; [16] define un conjunto de caracteres que amplía el conjunto de kanji de JIS X 0208. Los redactores de JIS X 0213 recomiendan la migración de JIS X 0208 a JIS X 0213, entre las ventajas se encuentra la compatibilidad de JIS X 0213 con la Lista de glifos de kanji de Hyōgai. y con kanji jinmeiyō más nuevos .
Contrariamente a las expectativas de los redactores, la adopción de JIS X 0213 no ha sido nada rápida desde su promulgación en el año 2000. El comité de redacción de JIS X 0213:2004 escribió (en el año 2004): "El estado donde 'cuál es el "La mayoría de los sistemas de información que podemos usar en común es sólo JIS X 0208", continúa. (JIS X 0213:2000, Apéndice 1:2004, sección 2.9.7)
Para Microsoft Windows , el sistema operativo predominante (y por tanto el entorno de escritorio predominante) en el sector de la informática personal, el repertorio JIS X 0213 se incluye desde Windows Vista , lanzado en noviembre de 2006. Mac OS X es compatible con JIS X 0213 desde la versión 10.1 (lanzada en 2001). Muchos sistemas Unix, como Linux, pueden (opcionalmente) admitir JIS X 0213 si lo desea. Por lo tanto, se piensa que con el tiempo, el soporte de JIS X 0213 en computadoras personales no será un impedimento para su eventual adopción.
Entre los redactores de JIS X 0213, hay quienes esperan ver una combinación de JIS X 0208 y JIS X 0213 antes de cualquier adopción de JIS X 0213 (Satō, 2004). Sin embargo, JIS X 0208 se sigue utilizando por el momento y muchos predicen que perdurará como estándar. Hay barreras que deben superarse para que JIS X 0213 sustituya a JIS X 0208 en el uso común:
Debido a que JIS X 0208/JIS C 6226 es principalmente un juego de caracteres y no una codificación de caracteres estrictamente definida , varias empresas han implementado sus propias codificaciones del juego de caracteres.
Varios de ellos incorporan asignaciones de caracteres específicas del proveedor en lugar de regiones no asignadas del estándar. Estos incluyen Windows-932 y MacJapanese, así como la codificación de caracteres PC98 de NEC . Si bien IBM-932 e IBM-942 también incluyen asignaciones de proveedores, las incluyen fuera de la región utilizada para JIS X 0208.
Como se señaló anteriormente, el conjunto de kanji no es compatible con el conjunto de caracteres gráficos ISO/IEC 646:1991 IRV (ASCII). El conjunto de kanji y el conjunto de caracteres gráficos IRV se pueden utilizar juntos como se especifica en JIS X 0208 (código IRV + 7 bits para kanji e IRV + código 8 bits para kanji). También se pueden utilizar juntos en EUC-JP .
El conjunto de kanji carece de tres caracteres incluidos en el conjunto de caracteres gráficos de JIS X 0201 para caracteres latinos: 2/2 (COMILLAS), 2/7 (APÓSTROFO) y 2/13 (GUÍÓN-MENOS). El conjunto de kanji contiene todos los caracteres incluidos en el conjunto de caracteres gráficos de JIS X 0201 para katakana.
El conjunto de kanji y el conjunto de caracteres gráficos para caracteres latinos se pueden utilizar juntos como se especifica en JIS X 0208 (caracteres latinos + código de 7 bits para kanji y caracteres latinos + código de 8 bits para kanji). El conjunto de kanji, el conjunto de caracteres gráficos para caracteres latinos y el conjunto de caracteres gráficos de JIS X 0201 para katakana se pueden usar juntos como se especifica en JIS X 0208 (el conjunto de caracteres codificados por desplazamiento; es decir, Shift JIS ). El conjunto de kanji y el conjunto de caracteres gráficos para katakana se pueden utilizar juntos en EUC-JP .
JIS X 0212 (kanji complementario) define caracteres adicionales con puntos de código para fines de procesamiento de información que requiere caracteres que no se encuentran en JIS X 0208. En lugar de asignar caracteres dentro del conjunto principal de kanji JIS X 0208, define un segundo kanji de 94 por Conjunto de 94 kanji que contiene caracteres suplementarios.
JIS X 0212 se puede utilizar con JIS X 0208 en EUC-JP . Además, JIS X 0208 y JIS X 0212 son estándares fuente para la unificación Han de UCS/Unicode , lo que significa que los kanji de ambos conjuntos se pueden incluir en un documento en formato Unicode.
Entre los puntos de código que cambió la segunda versión de JIS X 0208, 28 puntos de código en JIS X 0212 reflejan las formas de los caracteres anteriores a los cambios. [17] Además, JIS X 0212 reasigna la " marca de cierre " que JIS X 0208 había asignado como no kanji ( 〆 , en la fila 1, celda 26) como kanji (乄, en la fila 16, celda 17). JIS X 0212 no tiene caracteres en común con JIS X 0208 aparte de estos. Por lo tanto, por sí solo no es adecuado para uso general.
Sin embargo, en la cuarta versión de JIS X 0208, la conexión con JIS X 0212 no estaba definida en absoluto. Se cree que esto se debe a que el comité de redacción del cuarto estándar JIS X 0208 tuvo una opinión crítica sobre los métodos de selección e identificación de JIS X 0212. [18] Los significados de los caracteres y los fundamentos de la selección no estaban debidamente documentados, lo que dificultaba identificar si los kanji deseados correspondían a los de su repertorio. [19] El texto de la cuarta norma, además de señalar los puntos problemáticos de la selección de caracteres de JIS X 0212, afirma que "se piensa que no sólo es imposible la selección de caracteres, sino que también es imposible utilizarlos juntos; La conexión a JIS X 0212 no está definida en absoluto." (sección 3.3.1)
JIS X 0213 (kanji de extensión) define un conjunto de kanji que amplía el conjunto de kanji de JIS X 0208. Según este estándar, está "diseñado con el objetivo de ofrecer un conjunto de caracteres suficiente para codificar el idioma japonés moderno". que JIS X 0208 pretendía ser desde el principio." [dieciséis]
El conjunto de kanji de JIS X 0213 incorpora todos los caracteres que se pueden representar en el conjunto de kanji de JIS X 0208, con muchas adiciones. En total, JIS X 0213 define 1183 no kanji y 10 050 kanji (para un total de 11 233 caracteres), dentro de dos planos de 94 por 94 (面, hombres ) . El primer plano (kanji no kanji y de nivel 1 a 3) se basa en JIS X 0208, mientras que el segundo plano (kanji de nivel 4) está diseñado para encajar dentro de las filas no asignadas de JIS X 0212, lo que permite su uso en EUC-JP . [20] JIS X 0213 también define Shift_JISx0213 , una variante de Shift_JIS capaz de codificar la totalidad de JIS X 0213.
Para la mayoría de los efectos, JIS X 0213 plano 1 es un superconjunto de JIS X 0208. Sin embargo, se aplican diferentes criterios de unificación a algunos puntos de código en JIS X 0213 en comparación con JIS X 0208. En consecuencia, algunos pares de glifos kanji que estaban representados por un punto de código JIS X 0208, debido a que están unificados, reciben puntos de código separados en JIS X 0213. Por ejemplo, el glifo en la fila 33, celda 46 de JIS X 0208 ("僧", descrito anteriormente) unifica algunas variantes debido a su componente derecho. En JIS X 0213, dos formularios (los que contienen el componente "丷") están unificados en el plano 1 fila 33 celda 46, y el otro (que contiene el componente "八") está ubicado en el plano 1 fila 14 celda 41. Por lo tanto, No se puede determinar automáticamente si JIS X 0208 fila 33 celda 46 debe asignarse a JIS X 0213 plano 1 fila 33 celda 46 o plano 1 fila 14 celda 41. [u] Esto limita la medida en que JIS X 0213 puede considerarse compatible con JIS X 0208, según lo admitido por el comité de redacción de JIS X 0213. [21]
Sin embargo, en su mayor parte, la fila m celda n en JIS X 0208 corresponde al plano 1 fila m celda n en JIS X 0213; por lo tanto, en la práctica no surge mucha confusión. Esto se debe a que la mayoría de los tipos de letra han llegado a utilizar los glifos ejemplificados en JIS X 0208, y la mayoría de los usuarios no son conscientes de los criterios de unificación.
El conjunto de kanji de JIS X 0208 se encuentra entre los estándares fuente originales para la unificación Han en ISO/IEC 10646 (UCS) y Unicode . Cada kanji en JIS X 0208 corresponde a su propio punto de código en el plano multilingüe básico (BMP) de UCS/Unicode.
Los no kanji en JIS X 0208 también corresponden a sus propios puntos de código en BMP. Sin embargo, para algunos caracteres especiales, algunos sistemas implementan correspondencias diferentes a las de UCS/Unicode (que se basan en los nombres de caracteres proporcionados por JIS X 0208:1997).
A los efectos de la cita, estos nombres japoneses se presentan como si estuvieran en orden occidental cuando están romanizados y conservan el orden oriental cuando no.