stringtranslate.com

El idioma japonés y las computadoras

Un teclado kana japonés

En relación con el idioma japonés y las computadoras surgen muchos problemas de adaptación, algunos exclusivos del japonés y otros comunes a idiomas que tienen una gran cantidad de caracteres. El número de caracteres necesarios para escribir en inglés es bastante pequeño, por lo que es posible utilizar solo un byte (2 8 = 256 valores posibles) para codificar cada carácter inglés. Sin embargo, el número de caracteres en japonés es mucho mayor que 256 y, por lo tanto, no se puede codificar utilizando un solo byte; el japonés se codifica utilizando dos o más bytes, en una codificación denominada "de doble byte" o "multibyte". Los problemas que surgen están relacionados con la transliteración y la romanización , la codificación de caracteres y la entrada de texto en japonés.

Codificaciones de caracteres

Existen varios métodos estándar para codificar caracteres japoneses para su uso en una computadora, incluidos JIS , Shift-JIS , EUC y Unicode . Si bien mapear el conjunto de kana es una cuestión simple, el kanji ha demostrado ser más difícil. A pesar de los esfuerzos, ninguno de los esquemas de codificación se ha convertido en el estándar de facto, y múltiples estándares de codificación estaban en uso en la década de 2000. A partir de 2017, la proporción de tráfico UTF-8 en Internet se ha expandido a más del 90% en todo el mundo, y solo el 1,2% fue para usar Shift-JIS y EUC. Sin embargo, algunos sitios web populares, incluidos 2channel y kakaku.com, todavía usan Shift-JIS. [1]

Hasta la década de 2000, la mayoría de los correos electrónicos japoneses estaban en ISO-2022-JP ("codificación JIS") y las páginas web en Shift-JIS y los teléfonos móviles en Japón generalmente usaban alguna forma de Código Unix Extendido . [2] Si un programa no puede determinar el esquema de codificación empleado, puede causar mojibake (文字化け, "caracteres ilegibles/convertidos incorrectamente", literalmente "caracteres transformados") y, por lo tanto, texto ilegible en las computadoras.

Tarjeta ROM Kanji instalada en PC-98 , que almacenaba alrededor de 3000 glifos y permitía una visualización rápida. También tenía una RAM para almacenar gaiji.
Los dispositivos integrados todavía utilizan kana de medio ancho .

La primera codificación que se utilizó ampliamente fue JIS X 0201 , que es una codificación de un solo byte que solo cubre caracteres ASCII estándar de 7 bits con extensiones katakana de ancho medio . Esta codificación se utilizó ampliamente en sistemas que no eran lo suficientemente potentes ni tenían el almacenamiento para manejar kanji (incluidos los equipos integrados antiguos, como las cajas registradoras), porque la conversión de kana a kanji requería un proceso complicado y la salida en kanji requería mucha memoria y alta resolución. Esto significa que solo se admitía katakana, no kanji, utilizando esta técnica. Algunas pantallas integradas aún tienen esta limitación.

El desarrollo de las codificaciones kanji fue el comienzo de la división. Shift JIS admite kanji y se desarrolló para que fuera completamente compatible con JIS X 0201 , por lo que se encuentra en muchos equipos electrónicos integrados. Sin embargo, Shift JIS tiene la desafortunada propiedad de que a menudo estropea cualquier analizador (software que lee el texto codificado) que no esté diseñado específicamente para manejarlo.

Por ejemplo, algunos caracteres Shift-JIS incluyen una barra invertida (0x5C "\") en el segundo byte, que se utiliza como carácter de escape en muchos lenguajes de programación.

Un analizador sintáctico que no admita Shift JIS reconocerá 0x5C 0x82 como una secuencia de escape no válida y la eliminará. [3] Por lo tanto, la frase causa mojibake.

Esto puede suceder, por ejemplo, en el lenguaje de programación C , cuando se utiliza Shift-JIS en cadenas de texto. No sucede en HTML, ya que ASCII 0x00–0x3F (que incluye ", %, & y otros caracteres de escape y separadores de cadenas utilizados) no aparecen como segundo byte en Shift-JIS, y la barra invertida no es un carácter de escape allí. Pero puede suceder con JavaScript , que se puede incrustar en páginas HTML.

Por otro lado, el EUC se maneja mucho mejor con analizadores que se han escrito para ASCII de 7 bits (y por lo tanto, las codificaciones EUC se usan en UNIX, donde gran parte del código de manejo de archivos se escribió históricamente solo para codificaciones en inglés). Pero el EUC no es compatible con versiones anteriores de JIS X 0201, la primera codificación japonesa principal. Surgen más complicaciones porque los estándares originales de correo electrónico de Internet solo admiten protocolos de transferencia de 7 bits. Por lo tanto, el RFC  1468 (" ISO-2022-JP ", a menudo llamado simplemente codificación JIS ) se desarrolló para enviar y recibir correos electrónicos.

Gaiji se utiliza en los subtítulos de las transmisiones de televisión japonesas.

En los estándares de conjuntos de caracteres como JIS , no se incluyen todos los caracteres necesarios, por lo que a veces se utilizan gaiji (外字, "caracteres externos") para complementar el conjunto de caracteres. Los gaiji pueden presentarse en forma de paquetes de fuentes externos, en los que los caracteres normales se han reemplazado por caracteres nuevos, o los caracteres nuevos se han añadido a posiciones de caracteres no utilizados. Sin embargo, los gaiji no son prácticos en entornos de Internet , ya que el conjunto de fuentes debe transferirse con texto para utilizarlos. Como resultado, dichos caracteres se escriben con caracteres similares o más simples en su lugar, o puede ser necesario codificar el texto utilizando un conjunto de caracteres más grande (como Unicode) que admita el carácter requerido. [4]

Unicode fue pensado para resolver todos los problemas de codificación en todos los idiomas. La codificación UTF-8 utilizada para codificar Unicode en páginas web no tiene las desventajas que tiene Shift-JIS. Unicode es compatible con software internacional y elimina la necesidad de gaiji. Sin embargo, todavía hay controversias. Para el japonés, los caracteres kanji se han unificado con el chino; es decir, a un carácter considerado igual tanto en japonés como en chino se le asigna un solo número, incluso si la apariencia es en realidad algo diferente, y la apariencia precisa se deja al uso de una fuente apropiada para la configuración regional. Este proceso, llamado unificación Han , ha causado controversia. [ cita requerida ] Las codificaciones anteriores en Japón, Taiwán , China continental y Corea solo manejaban un idioma y Unicode debería manejar todos. Sin embargo, el manejo de kanji/chino ha sido diseñado por un comité compuesto por representantes de los cuatro países/áreas. [ cita requerida ]

Entrada de texto

El japonés escrito utiliza varios sistemas de escritura diferentes: kanji (caracteres chinos), dos conjuntos de kana (silabarios fonéticos) y letras latinas. Si bien los kana y las letras latinas se pueden escribir directamente en una computadora, ingresar kanji es un proceso más complicado, ya que hay muchos más kanji que teclas en la mayoría de los teclados. Para ingresar kanji en las computadoras modernas, generalmente se ingresa primero la lectura del kanji y luego un editor de métodos de entrada (IME), también conocido a veces como procesador frontal, muestra una lista de kanji candidatos que coinciden fonéticamente y permite al usuario elegir el kanji correcto. Los IME más avanzados no funcionan por palabra sino por frase, lo que aumenta la probabilidad de obtener los caracteres deseados como la primera opción presentada. La entrada de lecturas de kanji se puede realizar mediante romanización ( rōmaji nyūryoku, ローマ字入力) o mediante entrada directa de kana ( kana nyūryoku, かな入力). La entrada de romaji es más común en PC y otros teclados de tamaño completo (aunque la entrada directa también es ampliamente compatible), mientras que la entrada directa de kana se usa típicamente en teléfonos móviles y dispositivos similares: cada uno de los 10 dígitos (1–9,0) corresponde a una de las 10 columnas en la tabla gojūon de kana, y al presionar varias veces se selecciona la fila.

Existen dos sistemas principales para la romanización del japonés, conocidos como Kunrei-shiki y Hepburn ; en la práctica, el "romaji de teclado" (también conocido como wāpuro rōmaji o "romaji de procesador de textos") generalmente permite una combinación flexible de ambos. Las implementaciones de IME pueden incluso manejar teclas para letras no utilizadas en ningún esquema de romanización, como L , convirtiéndolas al equivalente más apropiado. Con la entrada de kana, cada tecla del teclado corresponde directamente a un kana. El sistema de teclado JIS es el estándar nacional, pero existen alternativas, como el teclado con cambio de pulgar , comúnmente utilizado entre mecanógrafos profesionales.

Dirección del texto

LibreOffice Writer admite la opción de texto hacia abajo.

El japonés se puede escribir en dos direcciones . El estilo Yokogaki escribe de izquierda a derecha y de arriba hacia abajo, como en inglés. El estilo Tategaki escribe primero de arriba hacia abajo y luego de derecha a izquierda.

Para competir con Ichitaro , Microsoft proporcionó varias actualizaciones para las primeras versiones japonesas de Microsoft Word , incluido soporte para texto hacia abajo, como Word 5.0 Power Up Kit y Word 98. [5] [6]

QuarkXPress fue el software de maquetación más popular en Japón en la década de 1990, a pesar de que tuvo un largo ciclo de desarrollo. Sin embargo, debido a la falta de compatibilidad con texto hacia abajo, fue superado por Adobe InDesign , que tenía una sólida compatibilidad con texto hacia abajo a través de varias actualizaciones. [7] [8]

En la actualidad, [¿ cuándo? ] el manejo del texto hacia abajo es incompleto. Por ejemplo, HTML no admite tategaki y los usuarios japoneses deben usar tablas HTML para simularlo. Sin embargo, el nivel 3 de CSS incluye una propiedad " writing-mode" que puede representar tategaki cuando se le da el valor " vertical-rl" (es decir, de arriba a abajo, de derecha a izquierda). Los procesadores de texto y el software de DTP tienen un soporte más completo para ello.

Véase también

Referencias

  1. ^ "【やじうまWatch】 ウェブサイトにおける文字コードの割合、UTF-8が90%超え。Shift_JISやEUC-JPは? - INTERNET Watch". INTERNET Mirar . 2017-10-17 . Consultado el 11 de mayo de 2019 .
  2. ^ "文字 コ ー ド に つ い て". Corporación ASH. 2002 . Consultado el 14 de mayo de 2019 .
  3. ^ "Shift_JIS文字を含むソースコードをgccでコンパイル後、警告メッセージが表示される". Novell . 2006-02-10 . Consultado el 14 de mayo de 2019 .
  4. ^ 兵 ち ゃ ん (18 de febrero de 2016). "住基ネット統一文字コードによる外字の統一について". Archivado desde el original el 2020-08-02 . Consultado el 14 de mayo de 2019 .
  5. ^ "ASCII EXPRESS: マイクロソフトが「Access」と「Word 5.0 Power Up Kit」を発売". ASCII . 18 (1). 1994.
  6. ^ "Microsoft Office 97 con tecnología Word 98 製品情報". Microsoft . 2001-08-01. Archivado desde el original el 1 de agosto de 2001 . Consultado el 14 de mayo de 2019 .
  7. ^ エディット-U. "DTP っ て 何 よ (4) [ 編 集 っ て 何 よ]" . Consultado el 14 de mayo de 2019 .
  8. ^ "ア ン チ Quark ユ ー ザ ー が 気 に な る QuarkXPress 8 の 機 能 ト ッ プ 10 (3) 縦 書 き の 組 版 が 面 倒 だ っ た け ど ど う な¿のよ?". Noticias de MyNavi . 2008-07-04 . Consultado el 14 de mayo de 2019 .

Enlaces externos