Idioma japonés y computadoras.

En relación con el idioma japonés y las computadoras surgen muchos problemas de adaptación, algunos exclusivos del japonés y otros comunes a idiomas que tienen una gran cantidad de caracteres. El número de caracteres necesarios para escribir en inglés es bastante pequeño y, por lo tanto, es posible utilizar sólo un byte (2 ⁸ = 256 valores posibles) para codificar cada carácter en inglés. Sin embargo, el número de caracteres en japonés es mucho más de 256 y, por lo tanto, no se pueden codificar usando un solo byte; por lo tanto, el japonés se codifica usando dos o más bytes, en la codificación denominada de "doble byte" o "multibyte". Los problemas que surgen se relacionan con la transliteración y la romanización , la codificación de caracteres y la entrada de texto japonés.

Codificaciones de caracteres

Existen varios métodos estándar para codificar caracteres japoneses para su uso en una computadora, incluidos JIS , Shift-JIS , EUC y Unicode . Si bien mapear el conjunto de kana es una cuestión sencilla, los kanji han resultado más difíciles. A pesar de los esfuerzos, ninguno de los esquemas de codificación se ha convertido en el estándar de facto, y en la década de 2000 se utilizaban múltiples estándares de codificación. A partir de 2017, la proporción de tráfico UTF-8 en Internet se ha expandido a más del 90 % en todo el mundo, y solo el 1,2 % se utilizaba para utilizar Shift-JIS y EUC. Sin embargo, algunos sitios web populares, incluidos 2channel y kakaku.com, todavía utilizan Shift-JIS. ^[1]

Hasta la década de 2000, la mayoría de los correos electrónicos japoneses estaban en ISO-2022-JP ("codificación JIS") y las páginas web en Shift-JIS y los teléfonos móviles en Japón generalmente usaban alguna forma de código Unix extendido . ^[2] Si un programa no logra determinar el esquema de codificación empleado, puede causar mojibake (文字化け, "caracteres confusos/basura mal convertidos", literalmente "caracteres transformados") y, por lo tanto, texto ilegible en las computadoras.

La primera codificación que se utilizó ampliamente fue JIS X 0201 , que es una codificación de un solo byte que solo cubre caracteres ASCII estándar de 7 bits con extensiones katakana de medio ancho . Esto se usaba ampliamente en sistemas que no eran lo suficientemente potentes ni tenían el almacenamiento para manejar kanji (incluidos equipos antiguos integrados como cajas registradoras) porque la conversión Kana-Kanji requería un proceso complicado y la salida en kanji requería mucha memoria y alta resolución. Esto significa que esta técnica solo admitía katakana, no kanji. Algunas pantallas integradas todavía tienen esta limitación.

El desarrollo de las codificaciones kanji fue el comienzo de la división. Shift JIS admite kanji y fue desarrollado para ser completamente compatible con versiones anteriores de JIS X 0201 y, por lo tanto, se encuentra en muchos equipos electrónicos integrados. Sin embargo, Shift JIS tiene la desafortunada propiedad de que a menudo rompe cualquier analizador (software que lee el texto codificado) que no esté diseñado específicamente para manejarlo.

Por ejemplo, algunos caracteres Shift-JIS incluyen una barra invertida (0x5C "\") en el segundo byte, que se utiliza como carácter de escape en muchos lenguajes de programación.

Un analizador que no sea compatible con Shift JIS reconocerá 0x5C 0x82 como una secuencia de escape no válida y la eliminará. ^[3] Por lo tanto, la frase causa mojibake.

Esto puede suceder por ejemplo en el lenguaje de programación C , al tener Shift-JIS en cadenas de texto. No sucede en HTML ya que ASCII 0x00–0x3F (que incluye ", %, & y algunos otros caracteres de escape usados y separadores de cadenas) no aparecen como segundo byte en Shift-JIS, y la barra invertida no es un carácter de escape allí. Pero Puede suceder con JavaScript que puede estar incrustado en páginas HTML.

EUC , por otro lado, es manejado mucho mejor por analizadores que han sido escritos para ASCII de 7 bits (y por lo tanto, las codificaciones EUC se usan en UNIX, donde gran parte del código de manejo de archivos históricamente solo se escribía para codificaciones en inglés). Pero EUC no es compatible con JIS X 0201, la primera codificación japonesa importante. Surgen más complicaciones porque los estándares originales de correo electrónico de Internet sólo soportan protocolos de transferencia de 7 bits. Así, se desarrolló el RFC 1468 (" ISO-2022-JP ", a menudo llamado simplemente codificación JIS ) para enviar y recibir correos electrónicos.

En los estándares de juegos de caracteres como JIS , no se incluyen todos los caracteres requeridos, por lo que a veces se utilizan gaiji (外字"caracteres externos") para complementar el juego de caracteres. Gaiji puede venir en forma de paquetes de fuentes externos, donde los caracteres normales se han reemplazado con caracteres nuevos, o los nuevos caracteres se han agregado a posiciones de caracteres no utilizadas. Sin embargo, los gaiji no son prácticos en entornos de Internet ya que el conjunto de fuentes debe transferirse con el texto para utilizar el gaiji. Como resultado, dichos caracteres se escriben con caracteres similares o más simples, o es posible que sea necesario codificar el texto utilizando un conjunto de caracteres más grande (como Unicode) que admita el carácter requerido. ^[4]

Unicode estaba destinado a resolver todos los problemas de codificación en todos los idiomas. La codificación UTF-8 utilizada para codificar Unicode en páginas web no tiene las desventajas que tiene Shift-JIS. Unicode es compatible con software internacional y elimina la necesidad de gaiji. Sin embargo, todavía hay controversias. Para los japoneses, los caracteres kanji se han unificado con los chinos; es decir, a un carácter considerado igual tanto en japonés como en chino se le asigna un solo número, incluso si la apariencia es en realidad algo diferente, dejándose la apariencia precisa al uso de una fuente apropiada para la localidad. Este proceso, llamado unificación Han , ha causado controversia. ^{[ cita necesaria ]} Las codificaciones anteriores en Japón, el área de Taiwán , China continental y Corea solo han manejado un idioma y Unicode debería manejar todos. Sin embargo, el manejo de los kanji/chinos ha sido diseñado por un comité compuesto por representantes de los cuatro países/áreas. ^{[ cita necesaria ]}

Entrada de texto

El japonés escrito utiliza varias escrituras diferentes: kanji (caracteres chinos), 2 conjuntos de kana (sílabarios fonéticos) y letras romanas. Si bien las letras kana y romanas se pueden escribir directamente en una computadora, ingresar kanji es un proceso más complicado ya que hay muchos más kanji que teclas en la mayoría de los teclados. Para ingresar kanji en las computadoras modernas, generalmente se ingresa primero la lectura de los kanji, luego un editor de métodos de entrada (IME), también conocido a veces como procesador frontal, muestra una lista de kanji candidatos que coinciden fonéticamente y permite la usuario elegir el kanji correcto. Los IME más avanzados no funcionan por palabra sino por frase, lo que aumenta la probabilidad de obtener los caracteres deseados como primera opción presentada. La entrada de lecturas de kanji puede realizarse mediante romanización ( rōmaji nyūryoku, ローマ字入力) o entrada kana directa ( kana nyūryoku, かな入力). La entrada Romaji es más común en PC y otros teclados de tamaño completo (aunque la entrada directa también es ampliamente compatible), mientras que la entrada directa kana se utiliza normalmente en teléfonos móviles y dispositivos similares: cada uno de los 10 dígitos (1–9,0) corresponde a una de las 10 columnas en la tabla gojūon de kana, y al presionar varias veces se selecciona la fila.

Existen dos sistemas principales para la romanización del japonés, conocidos como Kunrei-shiki y Hepburn ; en la práctica, el "teclado romaji" (también conocido como wāpuro rōmaji o "procesador de textos romaji") generalmente permite una combinación flexible de ambos. Las implementaciones de IME pueden incluso manejar claves para letras no utilizadas en cualquier esquema de romanización, como L , convirtiéndolas al equivalente más apropiado. Con la entrada de kana, cada tecla del teclado corresponde directamente a un kana. El sistema de teclado JIS es el estándar nacional, pero existen alternativas, como el teclado con desplazamiento del pulgar , comúnmente utilizado entre los mecanógrafos profesionales.

dirección del texto

El japonés se puede escribir en dos direcciones . El estilo Yokogaki escribe de izquierda a derecha y de arriba a abajo, como en inglés. El estilo Tategaki escribe primero de arriba a abajo y luego se mueve de derecha a izquierda.

Para competir con Ichitaro , Microsoft proporcionó varias actualizaciones para las primeras versiones japonesas de Microsoft Word, incluida la compatibilidad con texto descendente, como Word 5.0 Power Up Kit y Word 98. ^[5]^[6]

QuarkXPress era el software DTP más popular en Japón en la década de 1990, aunque tuvo un largo ciclo de desarrollo. Sin embargo, debido a la falta de soporte para texto descendente, fue superado por Adobe InDesign , que tuvo un fuerte soporte para texto descendente a través de varias actualizaciones. ^[7]^[8]

En la actualidad, ^{[ ¿cuándo? ]} el manejo del texto descendente está incompleto. Por ejemplo, HTML no admite tategaki y los usuarios japoneses deben utilizar tablas HTML para simularlo. Sin embargo, el nivel 3 de CSS incluye una propiedad " writing-mode" que puede representar tategaki cuando se le da el valor " vertical-rl" (es decir, de arriba a abajo, de derecha a izquierda). Los procesadores de texto y el software DTP tienen un soporte más completo para ello.

Ver también

Referencias

^ "【やじうまWatch】ウェブサイトにおける文字コードの割合、UTF-8が90％超え。Shift_JISやEUC-JPは？ - INTERNET Watch". INTERNET Mirar . 2017-10-17 . Consultado el 11 de mayo de 2019 .
^ "文字コードについて". Corporación ASH. 2002 . Consultado el 14 de mayo de 2019 .
^ "Shift_JIS文字を含むソースコードをgccでコンパイル後、警告メッセージが表示される". Novell . 2006-02-10 . Consultado el 14 de mayo de 2019 .
^ 兵ちゃん (18 de febrero de 2016). "住基ネット統一文字コードによる外字の統一について". Archivado desde el original el 2020-08-02 . Consultado el 14 de mayo de 2019 .
^ "ASCII EXPRESS: マイクロソフトが「Access」と「Word 5.0 Power Up Kit」を発売". ASCII . 18 (1). 1994.
^ "Microsoft Office 97 con tecnología Word 98 製品情報". Microsoft . 2001-08-01. Archivado desde el original el 1 de agosto de 2001 . Consultado el 14 de mayo de 2019 .
^ エディット-U. "DTP って何よ (4) ［編集って何よ］" . Consultado el 14 de mayo de 2019 .
^ "アンチ Quark ユーザーが気になる QuarkXPress 8 の機能トップ 10 (3) 縦書きの組版が面倒だったけどどうな¿のよ?". Noticias de MyNavi . 2008-07-04 . Consultado el 14 de mayo de 2019 .

enlaces externos

Empresas de informática de propiedad japonesa en Estados Unidos
Una introducción completa a las codificaciones de caracteres japoneses desde 2003.
Estándares de juegos de caracteres y sistemas de codificación chinos, japoneses y coreanos desde 1996
Codificación de texto japonés
Diccionario japonés de lingüística en línea
Diccionario japonés en línea