stringtranslate.com

JIS X 0208

JIS X 0208 es un conjunto de caracteres de 2 bytes especificado como estándar industrial japonés , que contiene 6879 caracteres gráficos adecuados para escribir texto, nombres de lugares, nombres personales, etc. en el idioma japonés . El título oficial del estándar actual es conjuntos KANJI codificados de doble byte de 7 y 8 bits para el intercambio de información ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Oyobi Hachi-Bitto no Ni- Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō ) . Se estableció originalmente como JIS C 6226 en 1978 y se revisó en 1983, 1990 y 1997. IBM también la llama página de códigos 952 . IBM también llama a la versión de 1978 Página de códigos 955 .

Ámbito de uso y compatibilidad.

El conjunto de caracteres que establece JIS X 0208 tiene como objetivo principal el intercambio de información (情報交換, jōhō kōkan ) entre los sistemas de procesamiento de datos y los dispositivos conectados a ellos, o entre sistemas de comunicación de datos. Este juego de caracteres se puede utilizar para procesamiento de datos y procesamiento de texto.

Las implementaciones parciales del juego de caracteres no se consideran compatibles. Porque hay lugares donde han sucedido cosas como que el comité de redacción original del primer estándar se encargó de separar los personajes entre el nivel 1 y el nivel 2 y el segundo estándar luego barajó algunos personajes variantes (異体字, itaiji ) entre los niveles, al menos en el primer y segundo estándar, se conjetura que en algún momento se consideraron para el desarrollo sistemas informáticos japoneses sin kanji y con implementación de nivel 1 únicamente. Sin embargo, tales implementaciones nunca se han especificado como compatibles, aunque sí existieron ejemplos como el primer NEC PC-9801 . [1]

Si bien existen disposiciones en la norma JIS X 0208:1997 en materia de compatibilidad, en la actualidad se considera generalmente que esta norma no certifica la compatibilidad ni es una norma oficial de fabricación que equivalga a una declaración de autocompatibilidad. [2] En consecuencia, de facto , no se considera que existan productos "compatibles" con JIS X 0208. Terminología como "conforme" (準拠, junkyo ) y "apoyo" (対応, taiō ) está incluida en JIS X 0208, pero la semántica de estos términos varía de persona a persona.

Gráficos de códigos

byte principal

El primer byte de codificación corresponde al número de fila o celda más 0x20, o 32 en decimal (ver más abajo). Por lo tanto, el conjunto de códigos que comienza con 0x21 tiene un número de fila de 1 y su celda 1 tiene un byte de continuación de 0x21 (o 33), y así sucesivamente.

Para los bytes iniciales utilizados para caracteres distintos de kanji , se proporcionan enlaces a gráficos en esta página que enumeran los caracteres codificados bajo ese byte inicial. Para los bytes iniciales utilizados para los kanji, se proporcionan enlaces a la sección correspondiente del índice de kanji de Wikcionario .

Filas que no son kanji

Juego de caracteres 0x21 (fila número 1, caracteres especiales)

Algunos proveedores utilizan una asignación Unicode ligeramente diferente para este conjunto que la siguiente. Por ejemplo, Microsoft asigna kuten 1-29 (JIS 0x213D) a U+2015 (Barra horizontal), [3] mientras que Apple lo asigna a U+2014 (Em Dash). [4] De manera similar, Microsoft asigna kuten 1-61 (JIS 0x215D) a U+FF0D [3] (la forma de ancho completo de U+002D Hyphen-Minus), y Apple lo asigna a U+2212 (signo menos). [4] El mapeo Unicode del guión ondulado también difiere entre proveedores. Vea las celdas con notas a pie de página a continuación.

La puntuación ASCII y JISCII (que se muestra aquí con un fondo amarillo) puede usar asignaciones alternativas al bloque de formas de ancho medio y ancho completo si se usa en una codificación que combina JIS X 0208 con ASCII o con JIS X 0201 , como Shift JIS , EUC-JP o ISO 2022-JP .

Juego de caracteres 0x22 (fila número 2, caracteres especiales)

La mayoría de los caracteres de este conjunto se agregaron en 1983, excepto los caracteres 0x2221–0x222E (kuten 2-1 a 2-14, o la primera línea del cuadro a continuación), que se incluyeron en la versión original de 1978 del estándar.

Juego de caracteres 0x23 (fila número 3, dígitos y romano)

Este conjunto incluye un subconjunto del conjunto invariante ISO 646 (y por lo tanto también un subconjunto tanto de ASCII como del conjunto romano JIS X 0201 ), menos puntuación y símbolos, que comprende números arábigos occidentales y ambos casos del alfabeto latino básico . Los caracteres de este conjunto pueden usar asignaciones Unicode alternativas al bloque de formularios de ancho medio y ancho completo si se usan en una codificación que combina JIS X 0208 con ASCII o con JIS X 0201, como EUC-JP , Shift JIS o ISO 2022-JP .

Compare la fila 3 de KPS 9566 , que esta fila coincide exactamente. Compare y contraste la fila 3 de KS X 1001 y GB 2312 , que incluyen sus variantes nacionales completas de ISO 646 en esta fila, en lugar de solo el subconjunto alfanumérico.

Juego de caracteres 0x24 (fila número 4, Hiragana)

Esta fila contiene hiragana japonés .

Compare la fila 4 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 10 de KPS 9566 y de KS X 1001 , que usan el mismo diseño, pero en una fila diferente.

Conjunto de caracteres 0x25 (fila número 5, Katakana)

Esta fila contiene Katakana japonés .

Compare la fila 5 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 11 de KPS 9566 y de KS X 1001 , que usan el mismo diseño, pero en una fila diferente. Compare el diseño Katakana considerablemente diferente utilizado por JIS X 0201 .

Juego de caracteres 0x26 (fila número 6, griego)

Esta fila contiene soporte básico para el alfabeto griego moderno , sin signos diacríticos ni la sigma final .

Compare la fila 6 de GB 2312 y GB 12345 y la fila 6 de KPS 9566 , que incluyen las mismas letras griegas en el mismo diseño, aunque GB 12345 agrega formas de presentación verticales y KPS 9566 agrega números romanos. Compare y contraste la fila 5 de KS X 1001 , que desplaza las letras griegas para incluir primero los números romanos.

Juego de caracteres 0x27 (fila número 7, cirílico)

Esta fila contiene el alfabeto ruso moderno y no es necesariamente suficiente para representar otras formas de escritura cirílica .

Compare la fila 7 de GB 2312 , que coincide con esta fila. Compare y contraste la fila 12 de KS X 1001 y la fila 5 de KPS 9566 , que usan el mismo diseño (pero en una fila diferente).

Conjunto de caracteres 0x28 (fila número 8, dibujo de cuadro)

Todos los caracteres de este conjunto se agregaron en 1983 y no estaban presentes en la revisión original del estándar de 1978.

Juego de caracteres de extensión 0x2D (número de fila 13, caracteres especiales NEC)

Las filas 9 a 15 del estándar JIS X 0208 se dejan vacías.

Sin embargo, el siguiente diseño para la fila 13, introducido por primera vez por NEC , es una extensión común. Es utilizado (con variaciones menores, anotadas en las notas a pie de página) por Windows-932 [3] (que coincide con el estándar de codificación WHATWG utilizado por HTML5 ), por la variante PostScript (pero, desde KanjiTalk versión 7, no por la variante normal) [5] de MacJapanese y por JIS X 0213 (el sucesor de JIS X 0208). [5] [6] A diferencia de las otras extensiones creadas por Windows-932/WHATWG y JIS X 0213, las dos coinciden en lugar de colisionar, por lo que la decodificación de la mayor parte de esta fila es mejor compatible que las otras extensiones creadas por JIS X 0213.

Filas de kanjis

Estructura del código

Para representar puntos de código , se utilizan números de columna/línea para códigos de un byte y números kuten para códigos de dos bytes. Como forma de identificar un personaje sin depender de un código, se utilizan nombres de personajes.

Códigos de un solo byte

Casi todos los códigos de caracteres gráficos JIS X 0208 se representan con dos bytes de al menos siete bits cada uno. Sin embargo, cada carácter de control , así como el espacio plano –aunque no el espacio ideográfico– se representa con un código de un byte. Para representar la combinación de bits (ビット組合せ, bitto kumiawase ) de un código de un byte, se utilizan dos números decimales: un número de columna y un número de línea . Tres bits de orden superior de siete o cuatro bits de orden superior de ocho, contando de cero a siete o de cero a quince respectivamente, forman el número de columna. Cuatro bits de orden inferior contados de cero a quince forman el número de línea. Cada número decimal corresponde a un dígito hexadecimal . Por ejemplo, la combinación de bits correspondiente al carácter gráfico "espacio" es 010 0000 como número de 7 bits y 0010 0000 como número de 8 bits. En notación de columna/línea, esto se representa como 2/0. Otras representaciones del mismo código de un solo byte incluyen 0x20 como hexadecimal o 32 como un único número decimal.

Puntos de código y números de código

Los códigos de doble byte están dispuestos en 94 grupos numerados, cada uno de los cuales se denomina fila (, ku , literalmente "sección") . Cada fila contiene 94 códigos numerados, cada uno llamado celda (, diez , iluminado. "punto") . [j] Esto hace un total de 8836 (94 × 94) puntos de código posibles (aunque no todos están asignados, ver más abajo); estos se establecen en el estándar en una tabla de códigos de 94 líneas y 94 columnas.

Un número de fila y un número de celda (cada uno numerado del 1 al 94, para un código JIS X 0208 estándar) forman un punto kuten (区点) , que se utiliza para representar puntos de código de doble byte. Un número de código o número kuten (区点番号, kuten bangō ) se expresa en la forma "fila-celda", estando separados los números de fila y de celda por un guión . Por ejemplo, el carácter "" tiene un punto de código en la fila 16, celda 1, por lo que su número de código se representa como "16-01".

En JIS X 0208 de 7 bits (como se podría cambiar en JIS X 0202/ ISO-2022-JP ), ambos bytes deben estar en el rango de 94 bytes de 0x 21 (utilizado para la fila o número de celda 1) hasta 0x7E ( utilizado para la fila o celda número 94): corresponde exactamente al rango utilizado para la impresión de caracteres ASCII de 7 bits, sin contar el espacio. En consecuencia, los bytes codificados se obtienen sumando 0x20 (32) a cada número. [7] Por ejemplo, el ejemplo anterior de 16-01 ("亜") estaría representado por los bytes 0x30 0x21. En cambio, el EUC-JP de 8 bits utiliza el rango de 0xA1 a 0xFE (configurando el bit alto en 1), mientras que otras codificaciones como Shift JIS utilizan transformaciones más complicadas. Shift JIS incluye más espacio de codificación del necesario para el propio JIS X 0208; algunas extensiones específicas de Shift JIS para JIS X 0208 utilizan números de fila superiores a 94. [8]

Esta estructura también se utiliza en el chino continental GB 2312 , donde se la conoce de forma nativa como区位; qūwèi , y el surcoreano KS C 5601 (actualmente KS X 1001 ), donde el ku y el diez se conocen respectivamente como hang [9] ( ;; haeng ) y yol [9] ( ;; yeol ). El posterior JIS X 0213 amplía esta estructura al tener más de un plano (, men , iluminado. "cara") de filas, que también es la estructura utilizada por CNS 11643 , y relacionada con la estructura utilizada por CCCII .

Puntos de código no asignados

Entre los códigos de 2 bytes, las filas 9 a 15 y 85 a 94 son puntos de código no asignados (空き領域, aki ryōiki ) ; es decir, son puntos de código sin caracteres asignados. Además, algunas celdas de otras filas también son esencialmente puntos de código no asignados.

Estas áreas vacías contienen puntos de código que básicamente no deberían usarse. Excepto cuando exista acuerdo previo entre las partes relevantes, los caracteres ( gaiji ) para el intercambio de información no deben asignarse a los puntos de código no asignados.

Incluso al asignar caracteres a puntos de código no asignados, no se les deben asignar caracteres gráficos definidos en el estándar, y el mismo carácter no debe asignarse a múltiples puntos de código no asignados; Los caracteres no deben duplicarse en el conjunto.

Además, al asignar caracteres a puntos de código no asignados, es necesario tener cuidado con la unificación con respecto a los glifos kanji. Por ejemplo, la celda 66 de la fila 25 corresponde al kanji que significa "alto" o "caro"; tanto la forma con un componente que se asemeja al carácter de "boca" () en el medio () como la forma menos común con una construcción similar a una escalera en la misma ubicación () se incluyen en el mismo punto de código. En consecuencia, limitar los puntos 25 a 66 a la forma de "boca" y asignar esta última forma de "escalera" a un punto de código no asignado sería técnicamente una violación de la norma.

En la práctica, sin embargo, varias variantes de Shift JIS específicas del proveedor , incluidas Windows-932 y MacJapanese , codifican extensiones de proveedor en filas no asignadas del espacio de codificación para JIS X 0208. Además, la mayoría de los códigos no asignados en JIS X 0208 son asignados por el El nuevo estándar JIS X 0213 .

Nombres de personajes

Cada carácter JIS X 0208 recibe un nombre . Al utilizar el nombre de un personaje, es posible identificar personajes sin depender de sus códigos. Los nombres de los caracteres están coordinados con otros estándares de juegos de caracteres, en particular el Juego de caracteres codificados universal (UCS/ Unicode ), por lo que esta es una posible fuente de asignaciones de caracteres a juegos de caracteres como Unicode. Por ejemplo, tanto el carácter de ISO/IEC 646 Versión de referencia internacional ( US-ASCII ) columna 4 línea 1 como el de JIS X 0208 fila 3 celda 33 tienen el nombre "LETRA A MAYÚSCULA LATINA". Por lo tanto, el carácter 4/1 en ASCII y el carácter 3-33 en JIS X 0208 pueden considerarse el mismo carácter (aunque, en la práctica, se utiliza una asignación alternativa para el carácter JIS X 0208 debido a que las codificaciones proporcionan ASCII por separado). ). Por el contrario, se puede determinar que los caracteres ASCII 2/2 (comillas), 2/7 (apóstrofe), 2/13 (guión menos) y 7/14 (tilde) son caracteres que no existen en este estándar.

Los nombres de caracteres que no son kanji utilizan letras romanas mayúsculas, espacios y guiones. Los caracteres no kanji reciben un nombre común en japonés (日本語通用名称, Nihongo tsūyō meishō ) , pero no existen algunas disposiciones para estos nombres. [k] Los nombres de los kanji, por otro lado, se establecen mecánicamente según la representación hexadecimal correspondiente de su código en UCS/Unicode. Se puede llegar al nombre de un kanji anteponiendo al punto de código Unicode "CJK UNIFIED IDEOGRAPH-". Por ejemplo, la fila 16, celda 1 () corresponde a U+4E9C en UCS, por lo que su nombre sería "CJK UNIFIED IDEOGRAPH-4E9C". Los kanji no reciben nombres comunes japoneses.

conjunto de kanjis

Descripción general

JIS X 0208 prescribe un conjunto de 6879 caracteres gráficos que corresponden a códigos de dos bytes con siete u ocho bits por byte; en JIS X 0208, esto se denomina conjunto de kanji (漢字集合, kanji shūgō ) , que incluye 6355 kanji y 524 no kanji (非漢字, hikanji ) , incluidos caracteres como letras latinas , kana , etc.

Caracteres especiales
Ocupa las filas 1 y 2. Hay 18 símbolos descriptores (記述記号, kijutsu kigō ) como el "espacio ideográfico" (), y la coma y el punto japoneses ; ocho signos diacríticos como dakuten y handakuten ; 10 caracteres para cosas que siguen a kana o kanji (仮名又は漢字に準じるもの, kana mata wa kanji ni junjiru mono ) , como la marca de iteración ; 22 símbolos entre corchetes (括弧記号, kakko kigō ) ; 45 símbolos matemáticos (学術記号, gakujutsu kigō ) ; y 32 símbolos unitarios , que incluyen el signo de moneda y la marca postal , para un total de 147 caracteres.
Números
Ocupa parte de la fila 3. Los diez dígitos del "0" al "9".
letras latinas
Ocupa parte de la fila 3. Las 26 letras del alfabeto inglés en mayúsculas y minúsculas para un total de 52.
hiragana
Ocupa la fila 4. Contiene 48 kana sordos (incluidos los obsoletos wi y we ), 20 kana sonoros ( dakuten ), 5 kana semisonoros ( handakuten ), 10 kana pequeños para sonidos palatalizados y asimilados, para un total de 83 caracteres.
Katakana
Ocupa la fila 5. Hay 86 caracteres; además de los equivalentes katakana de los caracteres hiragana, el ka / ke kana pequeño (/) y el vu kana ().
letras griegas
Ocupa la fila 6. Las 24 letras del alfabeto griego en mayúsculas y minúsculas (menos la sigma final ) para un total de 48.
letras cirilicas
Ocupa la fila 7. Las 33 letras del alfabeto ruso en mayúsculas y minúsculas para un total de 66.
Personajes de dibujo de cajas
Ocupa la fila 8. Segmentos finos, segmentos gruesos y segmentos finos y gruesos mixtos, 32 en total.
kanji
Los 2965 caracteres del nivel 1 (第1水準, dai ichi suijun ) de la fila 16 a la fila 47, y los 3390 caracteres del nivel 2 (第2水準, dai ni suijun ) de la fila 48 a la fila 84 para un total de 6355.

Caracteres especiales, números y caracteres latinos

En cuanto a los caracteres especiales en el conjunto de kanji, algunos caracteres del conjunto de caracteres gráficos de la Versión de referencia internacional (IRV) de ISO/IEC 646 :1991 (equivalente a ASCII ) están ausentes en JIS X 0208. Existen los cuatro caracteres antes mencionados. "COMILLAS", "APÓSTROFO", "GUION MENOS" y "TILDE". Los tres primeros se dividen en diferentes puntos de código en el conjunto de kanji (Nishimura, 1978; estándar JIS X 0221-1:2001, Sección 3.8.7). El "TILDE" de IRV no tiene ningún carácter correspondiente en el conjunto de kanji.

En la siguiente tabla, los caracteres IRV ISO/IEC 646:1991 en cuestión se comparan con sus múltiples equivalentes en JIS X 0208, excepto el carácter IRV "TILDE", que se compara con el "WAVE DASH" de JIS X 0208. Las entradas bajo las columnas "Símbolo" utilizan puntos de código UCS/Unicode, por lo que los detalles de visualización pueden diferir.

A los caracteres ASCII/IRV sin equivalentes exactos de JIS X 0208 se les asignaron posteriormente puntos de código mediante JIS X 0213; estos también se enumeran a continuación, al igual que la asignación de Microsoft de los cuatro caracteres.

  1. ^ ab De "Selección NEC de extensiones de IBM". Ocupa un punto de código no asignado en JIS X 0208.
  2. ^ ab De "Extensiones de IBM". Fuera del rango de JIS X 0208, pero codificable en Shift_JIS.
  3. ^ Microsoft trata el signo menos JIS como una forma de ancho completo del guión menos.
  4. ^ ab Wave Dash a veces se trata como una forma de tilde de ancho completo, por ejemplo, por Microsoft (consulte Tilde § Unicode y codificación Shift JIS de wave dash ). La tilde ASCII/IRV es un punto de código ambiguo que puede aparecer como un acento de tilde (˜) o como un guión con la misma curvatura (∼), aunque el guión es más común debido a que el acento de espaciado tiene un punto de código separado. en Windows-1252 ; no existe ningún carácter JIS X 0208 para el acento de tilde. El carácter 1-2-18 en JIS X 0213 se muestra como un acento de tilde en el cuadro de códigos. [6]

Esto significa que el conjunto de kanji es el conjunto de caracteres no compatibles con versiones posteriores más extendido del mundo; se cuenta como uno de los puntos débiles de esta norma.

Incluso con los 90 caracteres especiales, números y letras latinas que el conjunto kanji y el conjunto IRV tienen en común, este estándar no sigue la disposición de ISO/IEC 646. Estos 90 caracteres se dividen entre las filas 1 (puntuación) y 3 ( letras y números), aunque la fila 3 sigue la disposición ISO 646 solo para las 62 letras y números (por ejemplo, 4/1("A") en ISO 646 se convierte en 2/3 4/1(es decir, 3-33) en JIS X 0208).

En cuanto a la causa de cómo estos números, letras latinas, etc. en el conjunto de kanji son "caracteres alfanuméricos de ancho completo" (全角英数字, zenkaku eisūji ) y cómo la implementación original surgió con una interpretación diferente en comparación con la IRV, se piensa que se debe a estas incompatibilidades.

Desde el primer estándar, ha sido posible representar compuestos (合成, gōsei ) , como números rodeados por círculos , ligaduras para nombres de unidades de medida y números romanos ; [10] no recibieron puntos de código kuten independientes . Aunque las empresas individuales que fabrican sistemas de información pueden hacer un esfuerzo para representar estos caracteres según lo requieran los clientes según la composición de los caracteres, ninguna ha solicitado que se agreguen al estándar, optando en cambio por ofrecerlos de forma patentada como gaiji .

En el cuarto estándar (1997), todos estos personajes fueron definidos explícitamente como personajes que acompañan un avance de la posición actual; es decir, son caracteres espaciados . Además, se dictaminó que no debían realizarse mediante la composición de personajes. Por esta razón, no se permitió representar caracteres latinos con signos diacríticos , posiblemente con la única excepción del símbolo ångström ( Å ) en la fila 2, celda 82.

Hiragana y katakana

El hiragana y katakana en JIS X 0208, a diferencia de JIS X 0201 , incluyen marcas dakuten y handakuten como parte de un carácter. También se incluyen el katakana wi () y we () (ambos obsoletos en japonés moderno), así como el pequeño wa () , que no está en JIS X 0201.

La disposición de kana en JIS X 0208 es diferente de la disposición de katakana en JIS X 0201. En JIS X 0201, el silabario comienza con wo () , seguido por el kana pequeño ordenado por orden de gojūon , seguido por el de tamaño completo. kana, también en orden gojūon (ヲァィゥェォャュョッーアイウエオ......ラリルレロワン). Por otro lado, en JIS X 0208, los kana se clasifican primero por orden de gojūon , luego en el orden de "kana pequeña, kana de tamaño completo, kana con dakuten y kana con handakuten", de modo que se agrupe el mismo kana fundamental. con sus derivados (ぁあぃいぅうぇえぉお......っつづ......はばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん). Este orden se eligió para facilitar más simplemente la clasificación de las búsquedas en diccionarios basados ​​en kana (Yasuoka, 2006). [l]

Como se mencionó anteriormente, en esta norma, el orden de katakana previamente definido en JIS X 0201 no fue seguido en JIS X 0208. Se piensa que el hecho de que el katakana JIS X 0201 sea " kana de medio ancho " surgió debido a la incompatibilidad con el katakana de esta norma. Este punto es también uno de los puntos débiles de esta norma.

kanji

En el cuarto estándar (1997) se explica en detalle cómo se eligieron los kanji de este estándar, de qué fuentes, por qué se dividen en nivel 1 y nivel 2, y cómo están organizados. Según esa explicación, los kanji incluidos en las siguientes cuatro listas de kanji se reflejaron en los 6349 caracteres del primer estándar (1978).

El comité de códigos kanji de la Sociedad de Procesamiento de la Información de Japón compiló esta lista en 1971. En los "Resultados del análisis de correspondencia" que aparecen a continuación, parece tener 6086 caracteres.
Seleccionado por la Agencia de Gestión Administrativa de Japón en 1975, consta de 2817 caracteres. Para los datos con fines de selección, la Agencia elaboró ​​un informe que, comenzando con el "Listado de kanji para el código estándar (provisional)", contrastó varios listados de kanji, los "Resultados del análisis de correspondencia y frecuencia de uso de kanji para el procesamiento administrativo de datos". Selección de kanji normal" (行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果, Gyōsei Jōhō Shoriyō Kihon Kanji Sentei no Tam e no Kanji no Shiyō Hindo Oyobi Taiō Bunseki Kekka ) , o "Resultados del análisis de correspondencia" (対応分析結果, Taiō Bunseki Kekka ) para abreviar.
Uno de los listados de kanji que componen los "Resultados del análisis de correspondencia", que consta de 3044 caracteres. Ya no existe. La lista original no existía para el comité de redacción original; Esta lista de kanji se reflejó en el estándar para seguir los "Resultados del análisis de correspondencia".
Uno de los listados de kanji que componen los "Resultados del análisis de correspondencia", que consta de 3251 caracteres. Son los kanji utilizados en la lista de todos los nombres de lugares administrativos compilada por el Centro de Datos Geográficos de Japón, el "Listado de Distritos Administrativos Nacionales" (国土行政区画総覧, Kokudo Gyōsei Kukaku Sōran ) . El comité de redacción original no investigó la inclusión en sí; los kanji utilizados en esta lista siguieron los "Resultados del análisis de correspondencia".

En el segundo y tercer estándar, agregaron cuatro y dos caracteres al nivel 2, respectivamente, elevando el total de kanji a 6355. Además, en el segundo estándar, se cambiaron las formas de los caracteres y la transposición entre los niveles; También en el tercer estándar se cambiaron las formas de los personajes. Estos se describen más adelante.

partición de nivel

Los 2965 kanji de nivel 1 ocupan las filas 16 a 47. Los 3390 kanji de nivel 2 ocupan las filas 48 a 84.

Para el nivel 1, se eligieron caracteres comunes a múltiples listados de glifos kanji, utilizando el kanji tōyō , el borrador de corrección de kanji tōyō y el kanji jinmeiyō como base. Asimismo, se consultaron JIS C 6260 ("Código de identificación To-Do-Fu-Ken (Prefectura)"; actualmente JIS X 0401) y JIS C 6261 ("Código de identificación para ciudades, pueblos y aldeas"; actualmente JIS X 0402); Los kanji de casi todas las prefecturas , ciudades, distritos, distritos, pueblos, aldeas, etc. japoneses se colocaron intencionalmente en el nivel 1. [m] Además, se agregaron enmiendas realizadas por expertos.

El nivel 2 estaba dedicado a los kanji que aparecieron en los cuatro listados principales mencionados anteriormente pero que no fueron seleccionados para el nivel 1. Como se indica a continuación, los kanji del nivel 1 estaban ordenados por su pronunciación, por lo que entre los kanji cuya pronunciación era difícil de determinar, hubo aquellos que fueron transferidos del nivel 1 al nivel 2 sobre esa base (Nishimura, 1978).

Debido a estas decisiones, en su mayor parte, el nivel 1 contiene kanji usados ​​con más frecuencia, y el nivel 2 contiene kanji usados ​​con menor frecuencia, pero por supuesto, esos fueron juzgados según los estándares de la época; con el paso del tiempo, algunos kanji de nivel 2 se han utilizado con más frecuencia, como uno que significa "volar" () y otro que significa "brillar" (); e inversamente, algunos kanji de nivel 1 se han vuelto poco frecuentes, en particular los que significan "centímetro" () y "milimetro" (). De los kanji jōyō actuales , 30 caen en el nivel 2, [n] mientras que tres faltan por completo (塡ڠ, 剝ڠ y 頰ڠ). [o] De los kanji jinmeiyō actuales , 192 están en el nivel 2, [p] mientras que 105 no son parte del estándar. [q]

Acuerdo

Los kanji en el nivel 1 están ordenados según la "lectura representativa" de cada uno (es decir, una lectura canónica elegida únicamente para los fines de este estándar); la lectura de un kanji para esto puede ser una lectura on o kun ; las lecturas están ordenadas en orden gojūon . [r] Como regla general, la lectura on (sonido chino) se considera la lectura representativa; cuando un kanji tiene múltiples lecturas , la lectura considerada predominante en la frecuencia de uso se utiliza para la lectura representativa (estándar JIS C 6226-1978, Sección 3.4). Para el pequeño porcentaje de kanji que no tienen una lectura activa o que tienen una lectura activa que es poco conocida y no de uso común, se empleó la lectura kun como lectura representativa. Cuando se debe utilizar una lectura verbal kun como lectura representativa, se utiliza la forma ren'yōkei (en lugar de shūshikei ).

Por ejemplo, las celdas 1 a 41 en la fila 16 tienen 41 caracteres ordenados comenzando con una lectura de . Dentro de estos, hay 22 caracteres, incluidos 16-10 (: al leer " ki "; kun al leer " aoi ") y 16-32 (: al leer " zoku " y " shoku "; kun al leer " awa ") en base a sus lecturas de kun . 16-09 (: sobre la lectura " ", kun leyendo " a(i) ") y 16-23 (: sobre las lecturas " " y " kyū ", kun leyendo " atsuka(i) ") son sólo dos Ejemplos de verbos en forma ren'yōkei utilizados para la lectura representativa.

Cuando la lectura representativa es la misma entre diferentes kanji, un kanji que usa una lectura on se coloca delante de uno que usa una lectura kun . Cuando las lecturas de on o kun son las mismas en más de un kanji, se ordenan por su radical principal y número de trazos .

Ya sea en el nivel 1 o en el nivel 2, los itaiji están dispuestos para seguir directamente su forma ejemplar. Por ejemplo, en el nivel 2, justo después de la fila 49, celda 88 (), los caracteres inmediatamente siguientes se desvían de la regla general (recuento de trazos en este caso) para incluir tres variantes de 49-88 (,y). [s]

Los kanji del nivel 2 están ordenados por radical primario y número de trazos. Cuando estas dos propiedades son las mismas para diferentes kanji, se ordenan por lectura.

Kanji de fuentes desconocidas

Se ha señalado que hay kanji en el conjunto de kanji que no se encuentran en los diccionarios de kanji completos e íntegros, y que se desconocen sus fuentes. Por ejemplo, sólo un año después de que se estableciera el primer estándar, Tajima (1979) informó que había confirmado 63 kanji que no se encontraban en Shinjigen (un gran diccionario de kanji publicado por Kadokawa Shoten ), ni en Dai Kan-Wa jiten. , y no tenían sentido como ryakuji de ningún tipo; Señaló que sería preferible que los kanji que no estuvieran disponibles en los diccionarios de kanji se seleccionaran de fuentes definidas. Estos kanji llegaron a ser conocidos como caracteres "fantasmas" (幽霊文字, yūrei moji ) o "kanji fantasma" (幽霊漢字, yūrei kanji ) , entre otros nombres.

El comité de redacción de la cuarta versión del estándar también vio como un problema la existencia de kanji con fuentes desconocidas, por lo que investigó a qué tipo de fuentes hacía referencia el comité de redacción de la primera versión. Como resultado, se descubrió que el comité de redacción original se había basado en gran medida en los "Resultados del análisis de correspondencia" para recopilar kanji. Cuando el comité de redacción investigó los "Resultados del análisis de correspondencia", quedó claro que muchos de los kanji incluidos en el conjunto de kanji pero que no se encontraban en los diccionarios de kanji exhaustivos supuestamente provenían del "Kanji de nombre de registro de personalidad japonés" y del "Kanji para el distrito administrativo nacional". Listado" de listas mencionadas en los "Resultados del análisis de correspondencia".

Se confirmó que no existe ningún texto original para el "Kanji del nombre de registro de personalidad japonés" al que se hace referencia en los "Resultados del análisis de correspondencia". Para el "Listado de distritos administrativos nacionales", Sasahara Hiroyuki, del comité de redacción de la cuarta versión, examinó los kanji que aparecieron en las páginas de desarrollo en progreso del primer estándar. El comité también consultó muchos escritos antiguos, así como muchos ejemplos de nombres personales en una base de datos de guías telefónicas de NTT .

Gracias a esta investigación exhaustiva, el comité pudo reducir el número de kanji cuya fuente no se puede explicar con confianza a doce, como se muestra en la tabla adyacente. De estos, se conjetura que varios glifos surgieron debido a errores de copia. En particular, 妛 probablemente se creó cuando los impresores intentaron crear 𡚴 cortando y pegando 山 y 女 juntos. Una sombra de ese proceso se malinterpretó como una línea, lo que resultó en 妛 (se puede encontrar una imagen de esto en el Jōyō kanji jiten ).

Unificación de variantes de kanji

Según las especificaciones del cuarto estándar (1997), la unificación (包摂, hōsetsu , no es el mismo término utilizado para la " unificación " de Unicode aunque es casi el mismo concepto) es la acción de dar el mismo punto de código a un carácter. sin tener en cuenta sus diferentes formas de carácter. En el cuarto estándar, los glifos permitidos son limitados; está claramente definido el grado en que determinados glifos alográficos se unifican en un punto de código grafémico .

Además, según las especificaciones de la norma, un glifo (字体, jitai , literalmente "cuerpo del personaje";) es una noción abstracta en cuanto a la representación gráfica de un carácter gráfico; una forma de carácter (字形, jikei , literalmente "forma de carácter"; también un "glifo" en cierto sentido, pero diferenciado en un nivel diferente para propósitos de estandarización) es la representación como una forma gráfica que un glifo toma en la actualidad (por ejemplo, debido a un glifo escrito a mano, impreso, mostrado en una pantalla, etc.). Para un solo glifo, existe una gama infinita de posibles formas de caracteres concreta y/o visiblemente diferentes. Una variación entre la forma de un carácter de un glifo se denomina "diferencia de diseño" (デザインの差, dezain no sa ) .

El grado en que un glifo se unifica a un punto de código se determina de acuerdo con el "glifo de ejemplo" de ese punto de código (例示字体, reiji jitai ) y los "criterios de unificación" (包摂規準, hōsetsu kijun ) que se pueden aplicar a ese ejemplo. glifo; es decir, el glifo de ejemplo para un punto de código se aplica a ese punto de código, y cualquier glifo para el cual las partes que componen el glifo de ejemplo se reemplazan de acuerdo con los criterios de unificación también se aplican a ese punto de código.

Por ejemplo, el glifo de ejemplo 33-46 () está compuesto por el radical 9 () y el kanji que eventualmente generó el so kana (). Además, en el criterio de unificación 101, se muestran tres kanji: el primero toma la forma que se ve con mayor frecuencia en japonés (); el segundo contiene una forma más tradicional () en la que los dos primeros trazos forman el radical 12 (el número kanji del número 8:); y el tercero es como el segundo, excepto que el radical 12 está invertido (). En consecuencia, las tres permutaciones (,,) se aplican al punto de código en la línea 33, celda 46.

En la cuarta norma, incluida una de las erratas de la primera impresión, hay 186 criterios de unificación.

Cuando el glifo de ejemplo de un punto de código se compone de más de un glifo de parte, se pueden aplicar criterios de unificación a cada parte. Después de que se aplica un criterio de unificación a un glifo de parte, a esa parte no se le pueden aplicar más criterios de unificación. Además, no se permite aplicar un criterio de unificación si el glifo resultante coincide completamente con el de otro punto de código.

Un glifo de ejemplo no es más que un ejemplo de ese punto de código; no es un glifo "respaldado" por la norma. Además, los criterios de unificación solo deben usarse para kanji de uso general y con el fin de asignar cosas a los puntos de código de este estándar. El estándar solicita que no se creen kanji generalmente no utilizados basándose en los glifos de ejemplo y los criterios de unificación.

Los kanji del conjunto de kanji no se eligen de forma totalmente coherente según los criterios de unificación. Por ejemplo, si bien 41-7 corresponde a la forma donde los trazos tercero y cuarto se cruzan () así como a la forma donde no lo hacen () según el criterio de unificación 72, 20-73 solo corresponde a la forma donde no cruzan (), y 80-90 solo corresponde a la forma donde lo hacen ().

Los términos "unificación", "criterios de unificación" y "glifo de ejemplo" fueron adoptados en el cuarto estándar. Desde la primera a la tercera versión, los kanji y las relaciones entre kanji se agruparon en tres tipos: "independientes" (独立, dokuritsu ) , "compatibles" (対応, taiō ) y "equivalentes" (同値, dōchi ) ; Se explicó que los caracteres reconocidos como equivalentes "se consolidan en un solo punto". Se incluyen "equivalencias", excepto kanji con exactamente la misma forma, kanji con diferencias debidas al estilo y kanji en los que la diferencia en la forma de los caracteres es pequeña.

En la primera norma se estipuló que "esta norma... no establece los detalles de las formas de los caracteres" (Sección 3.1); también establece que "el objetivo de esta norma es establecer la idea general de los personajes y sus códigos; el diseño de las formas de los personajes y demás quedan fuera de su alcance". También en las normas segunda y tercera se indica que determinados diseños de formas de personajes quedan fuera de su ámbito (nota sobre el punto 1). El cuarto estándar también estipula que "Este estándar regula los caracteres gráficos, así como sus patrones de bits, y el uso, diseños específicos de caracteres individuales, etc., no están dentro del alcance de este estándar" (JIS X 0208:1997, punto 1 ).

Criterios de unificación para la compatibilidad.

En el cuarto estándar, se definen "criterios de unificación para mantener la compatibilidad con estándares anteriores" (過去の規格との互換性を維持するための包摂規準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun ) . Su aplicación se limita a 29 puntos de código cuyos glifos varían mucho entre los estándares JIS C 6226-1983 en adelante y JIS C 6226-1978. Para esos 29 puntos de código, los glifos de JIS C 6226-1983 en adelante se muestran como "A" y los glifos de JIS C 6226-1978 como "B". En cada uno de ellos se podrán aplicar tanto los glifos "A" como los "B". Sin embargo, para afirmar la compatibilidad con el estándar, se debe indicar explícitamente si se ha utilizado la forma "A" o "B" para cada punto del código.

Codificaciones de caracteres

Esquemas de codificación estipulados por JIS X 0208

En JIS X 0208:1997, el artículo 7 combinado con los apéndices 1 y 2 definen un total de ocho esquemas de codificación.

En las descripciones siguientes, las regiones "CL" (control izquierdo), "GL" (gráfico izquierdo), "CR" (control derecho) y "GR" (gráfico derecho) son respectivamente, en notación de columna/línea, desde 0. /0 al 15/1, del 1/2 al 14/7, del 0/8 al 15/9 y del 1/10 al 15/14. Para cada código, al 2/0 se le asigna el carácter gráfico "ESPACIO" y al 7/15 el carácter de control "BORRAR". Los caracteres de control C0 (definidos en JIS X 0211 y coincidentes con ISO/IEC 6429 ) se asignan a la región CL.

Codificación de 7 bits para kanji
Estipulado en la propia norma. El conjunto de doble byte JIS X 0208 está asignado a la región GL.
Codificación de 8 bits para kanji
Estipulado en la propia norma. Igual que la codificación de 7 bits, pero definida en términos de bytes de 8 bits. La región CR puede no usarse o codificar los caracteres de control C1 de JIS X 0211. La región GR no puede usarse.
Versión de referencia internacional + codificación de 7 bits para kanji
Estipulado en la propia norma. El cambio en el carácter de control designa ISO/IEC 646 :1991 IRV (Versión de referencia internacional, equivalente a US-ASCII ) a la región GL. Shift out designa el doble byte JIS X 0208 establecido en la misma región.
Caracteres latinos + codificación de 7 bits para kanji
Estipulado en la propia norma. Como con IRV+7 bits, pero con ISO/IEC 646:IRV reemplazado por ISO/IEC 646:JP (el conjunto romano de JIS X 0201 ).
Versión de referencia internacional + codificación de 8 bits para kanji
Estipulado en la propia norma. ISO/IEC 646:IRV está asignado a la región GL, JIS X 0208 a la región GR. Este es efectivamente un subconjunto de EUC-JP , excluyendo el katakana de ancho medio de JIS X 0201 y el kanji suplementario de JIS X 0212 .
Caracteres latinos + codificación de 8 bits para kanji
Estipulado en la propia norma. Como con IRV+8 bits, pero con ISO/IEC 646:IRV reemplazado por ISO/IEC 646:JP.
Juego de caracteres codificados por mayúsculas
Estipulado en el Apéndice 1: "Representación codificada por turnos" (シフト符号化表現, Shifuto Fugōka Hyōgen ) . La definición autorizada de Shift JIS .
Juego de caracteres codificados RFC 1468
Estipulado en el Apéndice 2: "Representación codificada RFC 1468" ( RFC 1468符号化表現, RFC 1468 Fugōka Hyōgen ) . Se parece a ISO-2022-JP (que está definido con autoridad en RFC 1468) pero se define en términos de bytes de ocho bits, mientras que ISO-2022-JP se define en términos de bytes de siete bits.

Entre las codificaciones estipuladas en el cuarto estándar, la IANA sólo registra el conjunto de caracteres codificados "Shift" . [11] Sin embargo, algunas otras están estrechamente relacionadas con codificaciones registradas por la IANA definidas en otros lugares (EUC-JP e ISO-2022-JP).

Secuencias de escape para JIS X 0202 / ISO 2022

JIS X 0208 se puede utilizar dentro de ISO 2022 /JIS X 0202 (del cual ISO-2022-JP es un subconjunto). Las secuencias de escape para designar JIS X 0208 para cada uno de los cuatro conjuntos de códigos ISO 2022 se enumeran a continuación. Aquí, "ESC" se refiere al carácter de control " Escape " (0x1B o 1/11).

La secuencia de escape que comienza ESC 2/4 selecciona un juego de caracteres multibyte. La secuencia de escape que comienza ESC 2/6 especifica una revisión de la próxima selección del juego de caracteres. JIS C 6226:1978 se identifica mediante el byte 4/0 del identificador multibyte-94-set (correspondiente a ASCII @). JIS C 6226:1983 / JIS X 0208:1983 se identifica mediante el byte 4/2 del identificador multibyte-94-set ( B). JIS X 0208:1990 también se identifica mediante el byte de identificador de 94 conjuntos 4/2, pero se puede distinguir con el identificador de revisión 4/0 ( @).

Codificaciones duplicadas de ASCII y JIS X 0201

Cuando se utiliza el conjunto de kanji de este estándar con el conjunto de caracteres gráficos IRV ( ASCII ) ISO/IEC 646:1991 o con el conjunto de caracteres gráficos JIS X 0201 para caracteres latinos ( JIS-Roman ), el tratamiento de los caracteres comunes a ambos conjuntos se vuelve problemático. A menos que se tomen medidas especiales, los caracteres incluidos en ambos conjuntos no se asignan entre sí uno a uno, y a un solo carácter se le puede asignar más de un punto de código; es decir, puede provocar una codificación duplicada.

JIS X 0208:1997, con respecto a cuándo un carácter es común a ambos conjuntos, básicamente prohíbe el uso del punto de código en el conjunto de kanji (que es uno de dos puntos de código), eliminando codificaciones duplicadas. Se considera que los personajes que tienen el mismo nombre son el mismo personaje.

Por ejemplo, tanto el nombre del carácter correspondiente al patrón de bits 4/1 en ASCII como el nombre del carácter correspondiente a la fila 3, celda 33 del conjunto de kanji son "LETRA A MAYÚSCULA LATINA". En la versión de referencia internacional + código de 8 bits para kanji, ya sea por el patrón de bits 4/1 o por el patrón de bits correspondiente a la fila 3 de la celda 33 del conjunto de kanji (10/3 12/1), la letra " A " (es decir Se representa "LETRA A MAYÚSCULA LATINA"). El estándar prohíbe el uso del patrón de bits "10/3 12/1", en un intento de eliminar la codificación duplicada.

Teniendo en cuenta las implementaciones que tratan los caracteres de los puntos de código del conjunto de kanji como " caracteres de ancho completo " y los de ASCII o JIS-Roman como caracteres diferentes, el uso de los puntos de código del conjunto de kanji se permite sólo por motivos de compatibilidad al revés. Por ejemplo, a efectos de compatibilidad con versiones anteriores, se permite considerar 10/3 12/1 en la versión de referencia internacional + código de 8 bits para que los kanji correspondan a una "A" de ancho completo.

Si el conjunto de kanji se utiliza junto con ASCII o JIS-Roman, incluso si se cumple estrictamente el estándar, no se garantiza la codificación única de un carácter. Por ejemplo, en la Versión de Referencia Internacional + código de 8 bits para kanji, es válido representar un guión con el patrón de bits 2/13 para el carácter "HYPHEN-MINUS", así como con la fila 1 celda 30 del conjunto de kanji. (patrón de bits 10/1 11/14) para el carácter "HIPHEN". Además, el estándar no define cuál de los dos usar para qué, por lo que al guión no se le asigna una codificación única. El mismo problema afecta al signo menos , las comillas , etc.

Además, incluso si el conjunto de kanji se utiliza como un código separado, no hay garantía de que se implemente la codificación única de caracteres. En muchos casos, sin embargo, coexisten el " ESPACIO IDEOGRÁFICO " de ancho completo en la fila 1, celda 1 y el espacio de medio ancho (2/0). La diferencia entre ambos no se explica por sí sola y no está especificada en la norma.

Comparación de esquemas de codificación utilizados en la práctica.

  1. ^ es decir, no requiere transmisión limpia de 8 bits .
  2. ^ es decir, la secuencia utilizada para codificar un carácter determinado es siempre la misma, sin importar cuáles fueron los caracteres anteriores. Ver estado (informática) .
  3. ^ ab ISO-2022-JP es una codificación con estado : todos los conjuntos de caracteres están codificados en 0x21–7E y se cambian mediante escapes ANSI. Por lo tanto, aunque sea ASCII en su estado inicial, se pueden codificar secuencias enteras de caracteres no ASCII con bytes ASCII.
  4. ^ Los katakana JIS X 0201 están disponibles en JIS X 0202 e ISO 2022, pero no están incluidos en el perfil básico ISO-2022-JP, aunque son una extensión común.
  5. ^ JIS X 0212 está disponible en JIS X 0202 e ISO 2022, y se incluye en los perfiles ISO-2022-JP-1 e ISO-2022-JP-2, pero no en el perfil básico ISO-2022-JP.
  6. ^ Los caracteres de un solo byte 0x21–7E en Shift_JIS son correctamente ISO-646-JP , para ser un superconjunto de JIS X 0201 de 8 bits, pero a menudo se decodifican (no necesariamente se muestran) como ASCII, que difiere solo en dos lugares.
  7. ^ Algunos (no todos) bytes ASCII pueden aparecer como segundos bytes, pero no como primeros bytes, de caracteres de doble byte en Shift_JIS. Por lo tanto, en una secuencia de dos o más bytes ASCII, el segundo byte en adelante son necesariamente caracteres ASCII (o ISO-646-JP).
  8. ^ ab EUC de formato empaquetado se basa en mecanismos ISO 2022, con designaciones de juegos de caracteres preestablecidas. Se evitan los escapes de designación de conjuntos de caracteres y los cambios de bloqueo, mientras que el uso de turnos únicos se puede implementar de manera sin estado. No obstante, se siguen las limitaciones de la norma ISO 2022.
  9. ^ Los caracteres de un solo byte 0x21–7E en EUC-JP generalmente se consideran ASCII, pero a veces se tratan como ISO-646-JP .
  10. ^ A diferencia de Shift_JIS, EUC-JP no manejará entradas JIS X 0201 simples de 8 bits sin una conversión previa, debido a la representación diferente del katakana JIS X 0201 (con turnos únicos).
  11. ^ JIS X 0212 en EUC-JP no siempre se implementa.
  12. ^ Además de las propiedades de las codificaciones en sí, los formatos Unicode tienen otras ventajas derivadas del conjunto de caracteres subyacente: no se limitan a caracteres codificados JIS sino que pueden representar la totalidad de UCS (incluido el repertorio completo de caracteres codificados JIS) y, por lo tanto, son adecuado para uso internacional. También se ven menos afectados por la colisión de extensiones propietarias, debido a su mayor repertorio de base y áreas de uso privado designadas.
  13. ^ La mayoría de los cambios de cuadro bit a bit de texto codificado en UTF-8 producirán UTF-8 no válido, pero es posible construir secuencias de caracteres que sigan siendo UTF-8 válidos incluso cuando se realice un cambio de cuadro en uno o más bits.
  14. ^ Sólo por Microsoft.
  15. ^ Si bien GB 18030 y GBK son extensiones de la forma EUC-CN de GB/T 2312, no siguen las restricciones de EUC o ISO 2022, a diferencia de EUC-JP (o el EUC-CN original).
  16. ^ Aunque, en teoría, UTF-32 se autosincroniza solo en dwords de 32 bits, el uso de un valor de 32 bits para representar un valor de 21 bits significa que, en la práctica, UTF-32 contiene una ejecución continua de al menos al menos 11 bits cero en el extremo superior de cada carácter, que generalmente se pueden usar para alinear los límites de los caracteres, dependiendo de los puntos de código involucrados.

Historia

Hasta que hayan transcurrido cinco años después de que una norma industrial japonesa haya sido establecida, reafirmada o revisada, la norma anterior pasa por un proceso de reafirmación, revisión o retiro. Desde su creación, la norma ha sido objeto de revisiones tres veces y, en la actualidad, la cuarta norma es válida.

Primer estándar

El primer estándar es JIS C 6226-1978 "Código de conjunto de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) , establecido por el Ministro japonés de Comercio Internacional e Industria el 1 de enero de 1978. También se llama 78JIS para abreviar. Por encargo de la Agencia de Ciencia y Tecnología Industrial, un comité de investigación y estudio de estandarización de códigos kanji de JIPDEC produjo el borrador. El presidente del comité era Moriguchi Shigeichi.

El código incluía 453 no kanji (incluidos hiragana, katakana, los alfabetos y puntuación romanos, griegos y cirílicos) y 6349 kanji (2965 kanji de nivel 1 y 3384 kanji de nivel 2) para un total de 6802 caracteres. [12] Aún no incluía personajes con dibujos de cuadros . El estándar en sí se estableció en el tipo de letra Ishii Mincho de Shaken Co., Ltd.

Segundo estándar

El segundo estándar JIS C 6226-1983 "Código de conjunto de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) revisó el primer estándar el 1 de septiembre de 1983. También se llama 83JIS . Por encargo de la AIST, un comité JIS relacionado con el código kanji de JIPDEC produjo el borrador. El presidente del comité fue Motooka Tōru.

El borrador del segundo estándar se basó en la consideración de factores como la promulgación del jōyō kanji , la aplicación del jinmeiyō kanji y la estandarización del Teletex en idioma japonés por parte del Ministerio de Correos y Telecomunicaciones ; Además, se realizó la siguiente modificación para seguir el ritmo de JIS C 6234-1983 (formas de caracteres de impresora matricial de 24 píxeles; actualmente JIS X 9052).

Adición de caracteres especiales.
Se agregaron 39 caracteres a los caracteres especiales. Entre estos 39, según las recomendaciones de JICST, y de estándares como JIS Z 8201-1981 (símbolos matemáticos) y JIS Z 8202-1982 (cantidad, unidad y símbolos químicos), se eligieron cosas que no podían representarse por composición.
Personajes de dibujo de cuadros recién agregados
Se agregaron 32 personajes de dibujo de cajas .
Intercambio de puntos del código itaiji
Se intercambiaron puntos de código para 22 pares de variantes de Kanji, de modo que la variante en el nivel 2 se movió al nivel 1 y viceversa. [12] [13] Por ejemplo, la fila 36 de la celda 59 (nivel 1) en el primer estándar () se movió a la fila 52 de la celda 68 (nivel 2); el punto originalmente en la fila 52, celda 68 () se movió a su vez a la fila 36, ​​celda 59.
Adiciones al kanji de nivel 2
Tres personajes del nivel 1 y un personaje del nivel 2 recibieron nuevos puntos de código en puntos de código no asignados previamente en la fila 84 como kanji de nivel 2. Itaiji para cada uno de esos puntos de código fue asignado recientemente a sus ubicaciones originales. [14] Por ejemplo, la fila 84, celda 1 en el segundo estándar () se movió allí para acomodar una forma diferente no incluida en el primer estándar en la fila 22, celda 38 como kanji de nivel 1 ().
Modificación de formas de personajes.
Se modificaron las formas de los caracteres de aproximadamente 300 kanji. [15]

Entre los cambios en esas aproximadamente 300 formas de caracteres kanji, muchos glifos de nivel 1 que estaban en el estilo del Diccionario Kangxi fueron cambiados a variantes, y especialmente a formas más simplificadas (por ejemplo, ryakuji y shinjitai extendido ). Por ejemplo, un par de puntos de código que a menudo son objeto de críticas debido a que han cambiado mucho son la fila 18, celda 10 (78JIS:, 83JIS:) y la fila 38, celda 34 (78JIS:, 83JIS:).

Hubo muchos cambios más pequeños aparte de las variantes de estilo Kangxi; por ejemplo, la fila 25, celda 84 () perdió parte de un trazo. Además, aunque algunos glifos para el kanji de nivel 1 no eran formas de estilo Kangxi, algunos se cambiaron a sus formas de estilo Kangxi; por ejemplo, la fila 80, celda 49 () ganó parte de un trazo (es decir, la misma parte del trazo que perdió 25-84).

Para dilucidar la intención original del primer estándar, estos terminaron cayendo en parámetros de criterios de unificación en el cuarto estándar. La diferencia de forma en los ejemplos mencionados anteriormente ("" y "") cae dentro de los parámetros del criterio de unificación 42 (relativo al componente ""). [t]

La mayor parte de los cambios en las formas de los personajes son diferencias entre los kanji de nivel 1 y 2. Específicamente, la simplificación se realizó con más frecuencia para los kanji de nivel 1 que para los kanji de nivel 2; las simplificaciones aplicadas a los kanji de nivel 1 (por ejemplo, "" a "" y "" a "") generalmente no se aplicaron a los kanji de nivel 2 ("" permaneció como está). Los mencionados 25-84 () y 80-49 () también recibieron un tratamiento diferente, ya que el primero está en el nivel 1 y el segundo en el nivel 2. Aun así, hubo algunos cambios sin importar el nivel; por ejemplo, los caracteres que contienen los componentes "puerta" () e "invierno" () se cambiaron sin tratamiento diferente entre los kanji de nivel 1 y 2.

Sin embargo, para 29 puntos del código (como los problemáticos 18-10 y 38-34 mencionados anteriormente), las formas heredadas por el cuarto estándar contradicen la intención original del primero. Para estos, existen criterios de unificación especiales para mantener la compatibilidad con los estándares anteriores en estos puntos del código.

Cuando se introdujo la nueva categoría "X" para las normas industriales japonesas (para campos relacionados con la información), la segunda norma pasó a denominarse JIS X 0208-1983 [12] el 1 de marzo de 1987.

Tercer estándar

El tercer estándar JIS X 0208-1990 "Código de conjunto de caracteres gráficos japoneses para el intercambio de información" (情報交換用漢字符号, Jōhō Kōkan'yō Kanji Fugō ) revisó el segundo estándar el 1 de septiembre de 1990. También se llama 90JIS para abreviar. Por encargo de la AIST, un comité de la Asociación Japonesa de Estándares para la revisión de JIS X 0208 creó el borrador. El presidente del comité era Tajima Kazuo.

Se cambiaron 225 glifos kanji y se agregaron dos caracteres al nivel 2 (84-05 "" y 84-06 ""). Esta fue una desunificación de itaiji para dos caracteres ya incluidos (49-59 "" y 63-70 ""). Algunos de los cambios y las dos adiciones correspondieron a los 118 kanji jinmeiyō agregados en marzo de 1990. [12] El estándar en sí se estableció en Heisei Mincho.

Cuarto estándar

El cuarto estándar JIS X 0208:1997 "Conjuntos KANJI codificados de doble byte de 7 y 8 bits para el intercambio de información" ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto O yobi hachi-bitto no Ni-Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō ) revisó el tercer estándar el 20 de enero de 1997. También se llama 97JIS para abreviar. Por encargo de la AIST, un comité de la JSA para la investigación y el estudio de conjuntos de caracteres codificados produjo el borrador. El presidente del comité era Shibano Kōji.

Las políticas básicas de esta revisión fueron no realizar cambios en el conjunto de caracteres, aclarar disposiciones ambiguas y hacer que el estándar sea relativamente más fácil de usar. No se agregaron, eliminaron ni reorganizaron puntos de código y, sin excepción, los glifos de ejemplo tampoco se modificaron. Sin embargo, las disposiciones de la norma fueron completamente reescritas y/o completadas. Mientras que el tercer estándar tenía 65 páginas sin las explicaciones, el cuarto estándar tenía 374 páginas sin las explicaciones.

Los puntos principales de la revisión son:

Definición de métodos de codificación.
Hasta el tercer estándar, sólo se definía el método de codificación basado en la extensión de código JIS X 0202. Esto es algo inusual en lo que respecta a conjuntos de caracteres codificados. En el cuarto estándar, se definieron métodos de codificación que no utilizan secuencias de escape con fines de extensión del código.
Definición de la prohibición general del uso de puntos de código no asignados y métodos de uso para puntos de código no asignados
El tercer estándar, en una explicación que no era parte del estándar, describía cosas como si hubiera lugares donde, para algunos puntos de código no asignados, fuera aceptable asignar gaiji. En el cuarto estándar, se aclaró que el uso de puntos de código no asignados está generalmente prohibido. Además, se especificaron las condiciones para el uso de puntos de código no asignados.
Eliminación general de codificaciones duplicadas.
A cada personaje se le dio un "nombre de personaje" que se corresponde con los de otros estándares. Además, se especificaron métodos de codificación para utilizarlos junto con la versión de referencia internacional de ISO/IEC 646 o JIS X 0201. Cuando se utiliza JIS X 0208 junto con cualquiera de los dos, entre dos puntos de código asignados para caracteres con el mismo nombre, solo se permite uno; por tanto, en general se eliminaron las codificaciones duplicadas.
Investigación sobre las fuentes de los kanji
Se identificaron los caracteres incluidos en el estándar hasta ahora que no se encuentran ni en el Diccionario Kangxi ni en el Dai Kanwa Jiten . En consecuencia, durante la compilación del primer estándar se investigó exactamente con qué propósito incluirlos y de qué fuentes procedían estos kanji.
Definición de criterios de unificación de kanji
Con base en cosas como los materiales para la redacción del primer estándar, se intentó restaurar la intención del primer estándar para el alcance de los glifos que representa cada punto del código. Además, los criterios para unificar los glifos kanji estaban claramente definidos.
Inclusión de normas de facto
En el momento del cuarto estándar, los métodos de codificación Shift JIS e ISO-2022-JP se habían convertido en estándares de facto para la informática personal y el correo electrónico, respectivamente. Estos métodos de codificación se incluyeron como "Representación codificada por turnos" y "Representación codificada RFC 1468" (descritos anteriormente).

Sucesores

JIS X 0213 (kanji extendido) fue diseñado "con el objetivo de ofrecer un conjunto de caracteres suficiente para codificar el idioma japonés moderno que JIS X 0208 pretendía ser desde el principio"; [16] define un conjunto de caracteres que amplía el conjunto de kanji de JIS X 0208. Los redactores de JIS X 0213 recomiendan la migración de JIS X 0208 a JIS X 0213, entre las ventajas se encuentra la compatibilidad de JIS X 0213 con la Lista de glifos de kanji de Hyōgai. y con kanji jinmeiyō más nuevos .

Contrariamente a las expectativas de los redactores, la adopción de JIS X 0213 no ha sido nada rápida desde su promulgación en el año 2000. El comité de redacción de JIS X 0213:2004 escribió (en el año 2004): "El estado donde 'cuál es el "La mayoría de los sistemas de información que podemos usar en común es sólo JIS X 0208", continúa. (JIS X 0213:2000, Apéndice 1:2004, sección 2.9.7)

Para Microsoft Windows , el sistema operativo predominante (y por tanto el entorno de escritorio predominante) en el sector de la informática personal, el repertorio JIS X 0213 se incluye desde Windows Vista , lanzado en noviembre de 2006. Mac OS X es compatible con JIS X 0213 desde la versión 10.1 (lanzada en 2001). Muchos sistemas Unix, como Linux, pueden (opcionalmente) admitir JIS X 0213 si lo desea. Por lo tanto, se piensa que con el tiempo, el soporte de JIS X 0213 en computadoras personales no será un impedimento para su eventual adopción.

Entre los redactores de JIS X 0213, hay quienes esperan ver una combinación de JIS X 0208 y JIS X 0213 antes de cualquier adopción de JIS X 0213 (Satō, 2004). Sin embargo, JIS X 0208 se sigue utilizando por el momento y muchos predicen que perdurará como estándar. Hay barreras que deben superarse para que JIS X 0213 sustituya a JIS X 0208 en el uso común:

Implementaciones

Debido a que JIS X 0208/JIS C 6226 es principalmente un juego de caracteres y no una codificación de caracteres estrictamente definida , varias empresas han implementado sus propias codificaciones del juego de caracteres.

Varios de ellos incorporan asignaciones de caracteres específicas del proveedor en lugar de regiones no asignadas del estándar. Estos incluyen Windows-932 y MacJapanese, así como la codificación de caracteres PC98 de NEC . Si bien IBM-932 e IBM-942 también incluyen asignaciones de proveedores, las incluyen fuera de la región utilizada para JIS X 0208.

Relación con otras normas

ISO/IEC 646 IRV y ASCII

Como se señaló anteriormente, el conjunto de kanji no es compatible con el conjunto de caracteres gráficos ISO/IEC 646:1991 IRV (ASCII). El conjunto de kanji y el conjunto de caracteres gráficos IRV se pueden utilizar juntos como se especifica en JIS X 0208 (código IRV + 7 bits para kanji e IRV + código 8 bits para kanji). También se pueden utilizar juntos en EUC-JP .

JIS X 0201

El conjunto de kanji carece de tres caracteres incluidos en el conjunto de caracteres gráficos de JIS X 0201 para caracteres latinos: 2/2 (COMILLAS), 2/7 (APÓSTROFO) y 2/13 (GUÍÓN-MENOS). El conjunto de kanji contiene todos los caracteres incluidos en el conjunto de caracteres gráficos de JIS X 0201 para katakana.

El conjunto de kanji y el conjunto de caracteres gráficos para caracteres latinos se pueden utilizar juntos como se especifica en JIS X 0208 (caracteres latinos + código de 7 bits para kanji y caracteres latinos + código de 8 bits para kanji). El conjunto de kanji, el conjunto de caracteres gráficos para caracteres latinos y el conjunto de caracteres gráficos de JIS X 0201 para katakana se pueden usar juntos como se especifica en JIS X 0208 (el conjunto de caracteres codificados por desplazamiento; es decir, Shift JIS ). El conjunto de kanji y el conjunto de caracteres gráficos para katakana se pueden utilizar juntos en EUC-JP .

JIS X 0212

JIS X 0212 (kanji complementario) define caracteres adicionales con puntos de código para fines de procesamiento de información que requiere caracteres que no se encuentran en JIS X 0208. En lugar de asignar caracteres dentro del conjunto principal de kanji JIS X 0208, define un segundo kanji de 94 por Conjunto de 94 kanji que contiene caracteres suplementarios.

JIS X 0212 se puede utilizar con JIS X 0208 en EUC-JP . Además, JIS X 0208 y JIS X 0212 son estándares fuente para la unificación Han de UCS/Unicode , lo que significa que los kanji de ambos conjuntos se pueden incluir en un documento en formato Unicode.

Entre los puntos de código que cambió la segunda versión de JIS X 0208, 28 puntos de código en JIS X 0212 reflejan las formas de los caracteres anteriores a los cambios. [17] Además, JIS X 0212 reasigna la " marca de cierre " que JIS X 0208 había asignado como no kanji ( , en la fila 1, celda 26) como kanji (, en la fila 16, celda 17). JIS X 0212 no tiene caracteres en común con JIS X 0208 aparte de estos. Por lo tanto, por sí solo no es adecuado para uso general.

Sin embargo, en la cuarta versión de JIS X 0208, la conexión con JIS X 0212 no estaba definida en absoluto. Se cree que esto se debe a que el comité de redacción del cuarto estándar JIS X 0208 tuvo una opinión crítica sobre los métodos de selección e identificación de JIS X 0212. [18] Los significados de los caracteres y los fundamentos de la selección no estaban debidamente documentados, lo que dificultaba identificar si los kanji deseados correspondían a los de su repertorio. [19] El texto de la cuarta norma, además de señalar los puntos problemáticos de la selección de caracteres de JIS X 0212, afirma que "se piensa que no sólo es imposible la selección de caracteres, sino que también es imposible utilizarlos juntos; La conexión a JIS X 0212 no está definida en absoluto." (sección 3.3.1)

JIS X 0213

Diagrama de Euler que compara repertorios de JIS X 0208, JIS X 0212 , JIS X 0213 , Windows-31J , el repertorio estándar de Microsoft y Unicode .

JIS X 0213 (kanji de extensión) define un conjunto de kanji que amplía el conjunto de kanji de JIS X 0208. Según este estándar, está "diseñado con el objetivo de ofrecer un conjunto de caracteres suficiente para codificar el idioma japonés moderno". que JIS X 0208 pretendía ser desde el principio." [dieciséis]

El conjunto de kanji de JIS X 0213 incorpora todos los caracteres que se pueden representar en el conjunto de kanji de JIS X 0208, con muchas adiciones. En total, JIS X 0213 define 1183 no kanji y 10 050 kanji (para un total de 11 233 caracteres), dentro de dos planos de 94 por 94 (, hombres ) . El primer plano (kanji no kanji y de nivel 1 a 3) se basa en JIS X 0208, mientras que el segundo plano (kanji de nivel 4) está diseñado para encajar dentro de las filas no asignadas de JIS X 0212, lo que permite su uso en EUC-JP . [20] JIS X 0213 también define Shift_JISx0213 , una variante de Shift_JIS capaz de codificar la totalidad de JIS X 0213.

Para la mayoría de los efectos, JIS X 0213 plano 1 es un superconjunto de JIS X 0208. Sin embargo, se aplican diferentes criterios de unificación a algunos puntos de código en JIS X 0213 en comparación con JIS X 0208. En consecuencia, algunos pares de glifos kanji que estaban representados por un punto de código JIS X 0208, debido a que están unificados, reciben puntos de código separados en JIS X 0213. Por ejemplo, el glifo en la fila 33, celda 46 de JIS X 0208 ("", descrito anteriormente) unifica algunas variantes debido a su componente derecho. En JIS X 0213, dos formularios (los que contienen el componente "") están unificados en el plano 1 fila 33 celda 46, y el otro (que contiene el componente "") está ubicado en el plano 1 fila 14 celda 41. Por lo tanto, No se puede determinar automáticamente si JIS X 0208 fila 33 celda 46 debe asignarse a JIS X 0213 plano 1 fila 33 celda 46 o plano 1 fila 14 celda 41. [u] Esto limita la medida en que JIS X 0213 puede considerarse compatible con JIS X 0208, según lo admitido por el comité de redacción de JIS X 0213. [21]

Sin embargo, en su mayor parte, la fila m celda n en JIS X 0208 corresponde al plano 1 fila m celda n en JIS X 0213; por lo tanto, en la práctica no surge mucha confusión. Esto se debe a que la mayoría de los tipos de letra han llegado a utilizar los glifos ejemplificados en JIS X 0208, y la mayoría de los usuarios no son conscientes de los criterios de unificación.

ISO/IEC 10646 y Unicode

El conjunto de kanji de JIS X 0208 se encuentra entre los estándares fuente originales para la unificación Han en ISO/IEC 10646 (UCS) y Unicode . Cada kanji en JIS X 0208 corresponde a su propio punto de código en el plano multilingüe básico (BMP) de UCS/Unicode.

Los no kanji en JIS X 0208 también corresponden a sus propios puntos de código en BMP. Sin embargo, para algunos caracteres especiales, algunos sistemas implementan correspondencias diferentes a las de UCS/Unicode (que se basan en los nombres de caracteres proporcionados por JIS X 0208:1997).

Notas a pie de página

Explicativo

  1. ^ Faltan signos diacríticos griegos y sigma final .
  2. ^ abcd (retirado)
  3. ^ JIS y Apple: U+2014.
    Unicode, [b] Microsoft y WHATWG: U+2015.
  4. ^ Microsoft y WHATWG: U + FF5E.
    Unicode, [b] JIS y Apple: U+301C.
  5. ^ Microsoft y WHATWG: U+2225.
    Unicode, [b] JIS y Apple: U+2016.
  6. ^ Microsoft: U + FF0D.
    Unicode, [b] JIS y Apple: U+2212.
    WHATWG: U+FF0D en decodificación, excepcionalmente ambos en codificación.
  7. ^ abcd Agregado en JIS X 0213
  8. Ausente en la versión original de la extensión, que es anterior a la era Heisei . Posición del código seleccionada por NEC o Microsoft. [5] No en Macintosh PostScript.
  9. ^ abcdefghi Duplicado por adiciones realizadas a la fila 2 en 1983. No codificado aquí (pero no asignado) en JIS X 0213, [5] pero codificado duplicado aquí por Microsoft y WHATWG. En cuanto a la codificación PostScript de Macintosh, se añade un uso privado U+F87F al formulario descodificado con las funciones de la biblioteca de macOS para permitir la ida y vuelta.
  10. ^ Como se muestra en las tablas de códigos registradas en el Registro internacional de conjuntos de caracteres codificados para ser utilizados con secuencias de escape, antes del cuarto estándar (1997), el ku () y el diez () se denominaban "sección" y "posición". " respectivamente en inglés. En cuanto a los antecedentes del cambio en inglés, en el estándar JIS X 0221-1995 (UCS) que tradujo ISO/IEC 10646-1:1993, "grupo", "plano", "fila" y "celda" pueden traducirse a gun () , men () , ku () y diez () . Sin embargo, la fila y celda de JIS X 0208 y la fila y celda de UCS son ideas diferentes.
  11. ^ Los nombres de los personajes se dan en letras romanas y se usan internacionalmente, por lo que pueden considerarse una convención internacional, algo así como los nombres científicos de los organismos vivos. Con respecto a esta analogía, los nombres comunes japoneses para los personajes serían como usar nombres comunes para organismos.
  12. ^ Para realizar una búsqueda u clasificación por orden kana con todas las funciones, se deben tener en cuenta las lecturas de palabras, las marcas de repetición, etc. La clasificación de cadenas de caracteres japoneses está prescrita en JIS X 4061 (Clasificación de cadenas de caracteres japoneses).
  13. ^ Según Yasuoka (2001a), parece que hubo algunos descuidos accidentales. Señala, por ejemplo, que el ba (, 58-57) de Inba y el shi (, 61-89) de Shisui, Kumamoto no forman parte del nivel 1.
  14. ^ Lista: 丼aunt鬱ڠ璧♥♥♥♥♥♥♥ ڠ訃ڠ諧ceived
  15. ^ El jōyō kanji 𠮟ڠ se incluye solo en su variante oficial 叱.
  16. ^ Lista: 乘ڠ亞ڠ佛ceived勳ceived ceived已ڠ帶ceived ceived敍♥♥♥♥♥♥♥♥♥♥ ceived洸ceived ceived盡ceived ceived脩ceived ceived逞ceived ceived熙
  17. ^ Lista: 焰ڠ鷗ڠ俠ceived德ceived ceived漢ceived ceived巢ceived ceived淚ڠ類♥♥♥♥♥♥♥ ڠ瘦ڠ吞ceived
  18. ^ Para las celdas 30 y 31 de la fila 19, el orden se confunde para sus lecturas representativas. En consecuencia, donde el orden correcto debería ser kaeru (, "rana") seguido de kaori (, "aroma") , sus posiciones se transponen de modo que kaori preceda a kaeru .
  19. ^ Además, la variante utilizada principalmente () está en la fila 23, celda 85 en el nivel 1, y se puede encontrar otra variante () agrupada con el radical "oro" en la fila 78, celda 63 en el nivel 2.
  20. ^ La cuestión de qué glifos dentro de los criterios de unificación se utilizarán se deja en manos del diseñador tipográfico. Dependiendo de eso (y de las circunstancias del usuario final), es posible que ninguno de los dos, ni uno ni el otro, sigan su forma de estilo Kangxi.
  21. ^ Esta es la misma incertidumbre sobre si el "HIPHEN-MINUS" en ISO/IEC 646 debe asignarse a "HIPHEN" o "MINUS SIGN" en JIS X 0208.

Notas a pie de página

  1. ^ "Por qué Japón no creó el iPod". Gatunka . 5 de mayo de 2008.
  2. ^ JIS X 0208 no era uno de los estándares incluidos en la lista de sistemas de destino aplicables para la visualización de la nueva marca JIS anunciada por el Ministerio de Economía, Comercio e Industria el 17 de enero de 2007.
  3. ^ abc Steele, Shawn (15 de abril de 1998). "CP932.TXT: cp932 a tabla Unicode". Microsoft.(códigos en formato Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  4. ^ ab "Mapa (versión externa) de la codificación japonesa de Mac OS a Unicode 2.1 y posteriores". Manzana.(códigos en formato Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  5. ^ abcd Lunde, Ken (21 de marzo de 2019). "Una breve historia de las ligaduras de nombres de época en Japón". Blog tipo CJK . Adobe Inc.
  6. ^ Comité japonés de normas industriales abc . ISO-IR-233: Conjunto de caracteres gráficos japoneses para intercambio de información, plano 1 (actualización de ISO-IR 228) (PDF) . ITSCJ/ IPSJ .
  7. ^ Unicode, Inc. (14 de octubre de 2011). "JIS X 0208 (1990) a Unicode".
  8. ^ van Kesteren, Anne , "Índice jis0208", Estándar de codificación , WHATWG
  9. ^ ab Jungshik Shin (14 de octubre de 2011). "KSX1001.TXT: KS X 1001 a tabla Unicode". Unicode, Inc.
  10. ^ JIS C 6225-1979 (códigos de caracteres de control a los efectos del juego de caracteres gráficos japoneses para el intercambio de información) proporcionó caracteres de control para el principio y el final de la composición. JIS C 6225 pasó a denominarse JIS X 0207 en 1987 y se retiró en 1997.
  11. ^ En los juegos de caracteres de la IANA, Shift JIS se define consultando el Apéndice 1 de JIS X 0208:1997.
  12. ^ abcd "15. Historia de JIS X 0208" (PDF) , Conjunto de caracteres gráficos japoneses de IBM para código UNIX extendido (EUC) , IBM, p. 371, archivado (PDF) desde el original el 8 de diciembre de 2017 , recuperado 8 de diciembre 2017
  13. ^ Lund, Ken. "Apéndice Q § 78-vs-83-3". CJKV Procesamiento de Información (material complementario) . O'Reilly.Tenga en cuenta la inclusión de códigos kuten con guión omitido.
  14. ^ Lund, Ken. "Apéndice Q § 78-vs-83-2". CJKV Procesamiento de Información (material complementario) . O'Reilly.Tenga en cuenta la inclusión de códigos kuten con guión omitido.
  15. ^ Según Nomura (1984), el número de formas de caracteres cambiadas, incluidos los movimientos entre puntos de código, es 294. Según Shibano (1997a) y el texto del cuarto estándar, el número de formas de caracteres cambiadas es 300.
  16. ^ ab Japonés original: 「JIS X 0208が当初符号化を意図していた現代日本語を符号化するために十分な文字集合を.提供することを目的として設計された」
  17. ^ Lund, Ken. "Apéndice Q § TJ2". CJKV Procesamiento de Información (material complementario) . O'Reilly.Tenga en cuenta la inclusión de códigos kuten con guión omitido.
  18. ^ Por ejemplo, Shibano Kōji (1997a), quien se desempeñó como presidente del comité de redacción del cuarto estándar, afirmó lo siguiente sobre el método de selección: "Se basa en una comprensión superficial de la selección del juego de caracteres de JIS X 0208; es un comprensión errónea" (japonés original: 「JIS X 0208の文字集合選定の表層的理解に基づくものであり、間違った理解である」 ) y "Hay un gran problema al investigar todo un conjunto de caracteres que supera los 10000 caracteres ". (original japonés: 「1万字を越える水準の文字集合の検討としては、大きな問題がある」 )
  19. ^ Marukawa, Kazushi. "Conjuntos de caracteres JIS - JIS X 0212:1990". Archivado desde el original el 22 de mayo de 2005.
  20. ^ Chang, Hyeshik (31 de octubre de 2021). "Léame para CJKCodecs". cPython . Fundación de software Python.
  21. ^ JIS X 0213:2000 sección 5.3.2, JIS X 0213:2000 Apéndice 1:2004 sección 3.2.2

Ver también

Referencias

A los efectos de la cita, estos nombres japoneses se presentan como si estuvieran en orden occidental cuando están romanizados y conservan el orden oriental cuando no.

enlaces externos