stringtranslate.com

Codificación de caracteres chinos

En informática, las codificaciones de caracteres chinos se pueden utilizar para representar texto escrito en los idiomas CJK (chino , japonés , coreano ) y (raramente) en el obsoleto vietnamita , todos los cuales utilizan caracteres chinos . Varias codificaciones de caracteres de uso general admiten caracteres chinos, y algunas de ellas se desarrollaron específicamente para el chino.

Además de Unicode (con el conjunto de ideogramas unificados CJK ), existen sistemas de codificación locales. El sistema chino Guobiao (o GB, "estándar nacional") se utiliza en China continental y Singapur , y el sistema Big5 (principalmente) taiwanés se utiliza en Taiwán , Hong Kong y Macao como los dos principales sistemas de codificación local "heredados". Guobiao generalmente se muestra utilizando caracteres simplificados y Big5 generalmente se muestra utilizando caracteres tradicionales . Sin embargo, no existe una conexión obligatoria entre el sistema de codificación y la fuente utilizada para mostrar los caracteres; la fuente y la codificación generalmente están vinculadas por razones prácticas.

La cuestión de qué codificación utilizar también puede tener implicaciones políticas, ya que GB es el estándar oficial de la República Popular China y Big5 es el estándar de facto de Taiwán .

A diferencia de lo que ocurre con el japonés , ha habido relativamente poca oposición abierta a Unicode, lo que resuelve muchos de los problemas relacionados con GB y Big5. Unicode es ampliamente considerado como políticamente neutral, tiene un buen soporte tanto para caracteres simplificados como tradicionales, y se puede convertir fácilmente hacia y desde GB y Big5. Además, Unicode tiene la ventaja de no estar limitado únicamente al chino, ya que contiene códigos de caracteres para (casi) todos los idiomas.

Guobiao

La línea de codificaciones de caracteres Guobiao (GB) comienza con el conjunto de caracteres chino simplificado GB 2312 publicado en 1980. Existían dos esquemas de codificación para GB 2312: una codificación EUC-CN de 8 bits de uno o dos bytes de uso común y una codificación de 7 bits llamada HZ [1] para publicaciones de Usenet. [2] : 94  Una variante tradicional llamada GB/T 12345 se publicó en 1990.

La forma EUC-CN se amplió posteriormente a GBK para incluir todos los ideogramas CJK de Unicode 1.1 en 1993, abandonando el modelo ISO-2022. De este modo, GBK incluye caracteres chinos tradicionales además de los simplificados de GB2312. [3] GBK ganó popularidad a través de la implementación generalizada de la página de códigos 936 que se encuentra en Microsoft Windows 95.

En 2000, se publicó GB 18030 como sucesora de GBK. Esta nueva codificación incluye un UTF de cuatro bytes que codifica todos los puntos de código Unicode no codificados anteriormente. [4] En 2005, se publicó GB 18030 para contener glifos de referencia para las escrituras utilizadas por las minorías étnicas en China , así como glifos de CJK Unified Ideographs Extension B debido a la actualización de Unicode .

Adobe-GB1 es el conjunto de caracteres PostScript correspondiente para las codificaciones GB.

Cinco grandes

La familia de codificaciones de caracteres Big5 comienza con la definición inicial por parte del consorcio de cinco empresas de Taiwán que la desarrolló. [5] Es un conjunto de caracteres de doble byte (DBCS) de alguna manera similar a Shift JIS , a menudo combinado con un MBCS como ASCII . Existen bastantes proveedores, así como extensiones oficiales, de las cuales ETEN, HKSCS (Hong Kong) y Big5-2003 (como parte de CNS 11643 de Taiwán) son las más conocidas. [6] Adobe-CNS1 es el conjunto de caracteres PostScript correspondiente a la familia de codificaciones Big5.

Conversión

Antes de GBK , que incluye caracteres tradicionales y simplificados, la conversión entre los conjuntos de caracteres del chino tradicional y el chino simplificado se complicaba por la necesidad de transcribir texto entre las dos variantes del chino, ya que un conjunto de caracteres cubre muchos de los caracteres del otro solo en su propia variante. La conversión entre el chino tradicional y el simplificado suele ser problemática, porque la simplificación de algunas formas tradicionales fusiona dos o más caracteres diferentes en una forma simplificada. La conversión de tradicional a simplificado (de muchos a uno) es técnicamente simple. La conversión opuesta a menudo da como resultado una pérdida de datos cuando se convierte a GB 2312 : al mapear uno a muchos al asignar glifos tradicionales a los glifos simplificados, algunos caracteres inevitablemente serán las opciones incorrectas en algunos de los usos. Por lo tanto, la conversión de simplificado a tradicional a menudo requiere contexto de uso o listas de frases comunes para resolver conflictos. Este problema es menor con estándares más nuevos como GBK, GB 18030 y Unicode, que tienen puntos de código separados para caracteres simplificados y tradicionales. [ cita requerida ]

Otro problema es que a muchos de los sistemas de codificación les faltan caracteres. Si bien los caracteres que faltan suelen ser literarios y no se usan comúnmente en textos ordinarios, esto se convierte en un problema porque los nombres de las personas a menudo contienen estos caracteres. Un ejemplo del problema es el político taiwanés Wang Chien-shien , cuyo nombre tiene un carácter xuān () que no está en algunos sistemas de caracteres, y el ex primer ministro chino Zhu Rongji , cuyo carácter róng () no está en GB 2312. El estándar GB más reciente, GB 18030, tiene el repertorio completo de caracteres de Unicode 4.0, incluidas las extensiones Unihan en el plano ideográfico suplementario . [2] : 105 

Véase también

Referencias

  1. ^ RFC  1843
  2. ^ ab Lunde, Ken (diciembre de 2008). Procesamiento de información CJKV. O'Reilly Media, Inc. ISBN 978-0-596-51447-1. Recuperado el 11 de septiembre de 2016 .
  3. ^ "GB18030-2000 - La nueva norma nacional china - GB 18030". 25 de agosto de 2012. Archivado desde el original el 25 de agosto de 2012. Consultado el 13 de octubre de 2016 .{{cite web}}: CS1 maint: bot: estado de URL original desconocido ( enlace )
  4. ^ Tabla de correspondencias autorizada entre GB18030-2000 y Unicode. ICU – International Components for Unicode. 2001-02-21. Consultado el 2016-10-13.
  5. ^ "[Mac chino] Conjuntos de caracteres". chinesemac.org . Consultado el 13 de octubre de 2016 .
  6. ^ "Variantes de Big5 en Mozilla: Mozilla 系列與 Big5 中文字碼". moztw.org . Consultado el 13 de octubre de 2016 .

Lectura adicional

Enlaces externos