stringtranslate.com

Conjunto de caracteres suplementarios de Hong Kong

El conjunto de caracteres suplementarios de Hong Kong (香港增補字符集; comúnmente abreviado como HKSCS ) es un conjunto de caracteres chinos (4702 en total en la versión inicial) utilizados en cantonés , así como al escribir los nombres de algunos lugares de Hong Kong (ya sea en cantonés escrito o en oraciones escritas en chino estándar ). [1]

Se desarrolló a partir del conjunto de caracteres chinos gubernamentales (政府通用字庫) o GCCS , que lo precedió . El GCCS es un conjunto de caracteres chinos complementarios codificados en las áreas definidas por el usuario del conjunto de caracteres Big5 . Originalmente se utilizó en el gobierno de Hong Kong y luego lo utilizó el público. Más tarde, evolucionó al conjunto de caracteres complementarios de Hong Kong cuando los caracteres del conjunto se sometieron a la norma ISO-10646 para su codificación.

Historia

Debido a las diferencias inherentes entre el chino escrito estándar y el cantonés escrito , el Gobierno de Hong Kong reconoció la necesidad de un conjunto estandarizado de caracteres propios que permitiera agilizar la comunicación electrónica; en ese momento, el sistema de codificación chino Big5 no contenía una gran mayoría de estos caracteres (algunos se incluían erróneamente en la lista junto con caracteres similares).

El Gobierno desarrolló el conjunto de caracteres chinos (政府通用字庫) o GCCS, que consta de caracteres chinos de uso común en Hong Kong. Algunos caracteres son específicos del cantonés , mientras que otros son formas alternativas de caracteres. El conjunto no está bien organizado y los caracteres no se examinan en profundidad.

Posteriormente, se desarrolló la especificación HKSCS-1999 (HKSCS 1999). Tras su aceptación, se publicaron revisiones más nuevas en 2001 (añadiendo 116 caracteres nuevos) y en 2004 (añadiendo 123 caracteres nuevos), con un total de 4.941 caracteres. Se eliminaron 106 caracteres GCCS en HKSCS-1999 como resultado de la unificación, y sus puntos de código Big5 se reservan para compatibilidad. [2] [3] Los caracteres GCCS "no verificables" retirados se encuentran en UTC Sources (UTC-00877–UTC-00898), [4] donde se obtienen de Adobe-CNS1-1, [5] un suplemento de Adobe-CNS1 implementado para soportar GCCS. [6]

El HKSCS está codificado en Big5 (Big5-HKSCS, [7] big5hk [8] ) e ISO 10646 ( Unicode ). A partir de HKSCS-2004, todos los caracteres que anteriormente utilizaban la sección Área de uso privado de Unicode se reasignan, y muchos de ellos se reasignan al Bloque de extensión B o al Bloque de compatibilidad del plano ideográfico suplementario. [9] Sin embargo, para preservar la compatibilidad con los programas que generaron puntos de código PUA, los puntos de código asignados se reservan y no se asignarán nuevos caracteres a PUA .

Desde aproximadamente 2005, muchos sitios web de Hong Kong y Macao cambiaron la codificación de Big5-HKSCS a Unicode, incluido HKGolden .

De manera similar a la situación de Hong Kong, también hay caracteres que necesita Macao pero que no están incluidos ni en Big5 ni en HKSCS, por lo que se desarrolló el Conjunto de caracteres suplementarios de Macao , basándose en HKSCS con caracteres adicionales asignados a Unicode. El primer lote de 121 caracteres MSCS se presentó para su incorporación o extensión horizontal en Unicode (según corresponda) en 2009 [10] , y la primera versión final de MSCS se estableció en 2020 [11].

Versiones

El HKSCS ha pasado por varias iteraciones. [12]

La última edición de HKSCS que codificó todos sus caracteres en Big5 fue HKSCS-2008, mientras que los caracteres agregados en HKSCS-2016 se asignan solo a Unicode (como una extensión de glifo horizontal de ideogramas unificados CJK cuando corresponde). [11]

Compatibilidad

Sistemas operativos

En Microsoft Windows 98, NT 4.0, 2000, XP, la compatibilidad con HKSCS se puede habilitar mediante el parche de Microsoft. En la implementación de Microsoft, la aplicación que utiliza la página de códigos 950 utiliza automáticamente una tabla de página de códigos oculta 951 para la codificación Big5 de las extensiones HKSCS. La tabla admite todos los puntos de código en HKSCS-2001, excepto los puntos de código de compatibilidad especificados por el estándar. [13] Además, la fuente MingLiU se modifica mediante el parche de Microsoft. Se sabe que este parche crea conflictos en aplicaciones como Microsoft Office o cualquier aplicación que utilice fuentes que admitan caracteres chinos simplificados (por ejemplo: SimSun ). Si el entorno de destino contiene una fuente personalizada asignada a los puntos de código afectados por el parche de Microsoft, las fuentes personalizadas pueden deshacer el parche de Microsoft. Además, el parche rompe el editor EUDC suministrado con las versiones afectadas de Windows. [14] A partir de Windows Vista , los caracteres HKSCS-2004 solo se admiten como Unicode 4.1 o posterior; Sin embargo, los caracteres HKSCS-2001 y HKSCS-1999 se admiten como Big5-HKSCS y Unicode, pero Big5-HKSCS solo está disponible si se establece "Idioma para programas no Unicode" en "Hong Kong" o "Macau". [15] [16] A todos los caracteres se les asignan puntos de código estándar, no PUA . Los caracteres se muestran con la fuente MingLiU y estos caracteres se pueden ingresar a través del teclado. El parche que proporciona la codificación Big5 de HKSCS no es compatible con Windows Vista y versiones posteriores. Hay disponible una utilidad proporcionada por Microsoft para convertir caracteres HKSCS y Unicode codificados con PUA a la versión Unicode 4.1. [17] En 2010, Microsoft publicó un parche HKSCS-2004 para Windows XP y Windows Server 2003. [18] Reemplaza la versión de Windows XP de MingLiU, PMingLiU y MingLiU_HKSCS (si se aplicó el parche HKSCS-2001) con la versión de Windows 7 de MingLiU, PMingLiU y MingLiU_HKSCS. Además, las fuentes MingLiU-ExtB, MingLiU_HKSCS-ExtB y PMingLiU-ExtB se agregarán al sistema de destino. Sin embargo, IME no se actualiza como en el caso del parche HKSCS-2001, y las fuentes son de la versión previa al lanzamiento de Windows 7. Para versiones anteriores del sistema operativo, la compatibilidad con HKSCS requiere el uso del parche de Microsoft o las utilidades Digital 21 del gobierno de Hong Kong.

IBM asigna el CCSID 5471 a la página de códigos HKSCS-2001 Big5 (con CPGID 1374 como CCSID 5470 como componente de doble byte), [19] [20] el CCSID 9567 a la página de códigos HKSCS-2004 (con CPGID 1374 como CCSID 9566 como componente de doble byte), [21] y el CCSID 13663 a la página de códigos HKSCS-2008 (con CPGID 1374 como CCSID 13662 como componente de doble byte), [22] mientras que el CCSID 1375 (con CPGID 1374 como CCSID 1374 como su componente de doble byte) se asigna a una página de códigos HKSCS en crecimiento, actualmente equivalente al CCSID 13663. [23]

El soporte para HKSCS se agregó a glibc en 2000, pero no se ha actualizado desde entonces. El soporte para HKSCS-2004 se maneja como Unicode 4.1 y posteriores. Para la configuración de freedesktop.org , la fuente AR PL ShanHeiSun Uni es totalmente compatible con HKSCS-2004 desde 0.1-0.dot.1, con la última revisión de HKSCS-2004 compatible en la versión 0.1.20060903-1. Las distribuciones de escritorio modernas (por ejemplo, Ubuntu) incluyen las fuentes UKai y UMing compatibles con HKSCS de Arphic Technology listas para usar cuando se selecciona el soporte para el idioma chino tradicional durante la instalación. También se pueden instalar manualmente en un momento posterior.

Mac OS X 10.0–10.2 es compatible con HKSCS-1999. 10.3–10.4 es compatible con HKSCS-2001. Algunas de las letras agregadas a HKSCS-2004 son compatibles a través de la aplicación de usuario única Unicode en OS X 10.4. A partir de OS X 10.5, todos los caracteres HKSCS-2004 son compatibles a través de los puntos de código Unicode 4.1 estándar.

Aplicaciones y la Web

Mozilla 1.5 y versiones posteriores son compatibles con HKSCS, y se ha añadido compatibilidad con HKSCS-2004 en el código base de Gecko 1.8.1. [24] A diferencia del parche mencionado anteriormente, Mozilla utiliza su propia tabla de páginas de códigos. Sin embargo, la corrección del error 343129 no admite caracteres asignados a puntos de código por encima del plano multilingüe básico. [25]

Las aplicaciones basadas en QT 3.x (por ejemplo, KDE ) sólo admiten caracteres asignados a puntos de código FFFF o inferiores. En QT4, los caracteres que no sean BMP se admiten a través de sustitutos. Big5-HKSCS Text Codec admite HKSCS-1999 en Qt-2.3.x, pero era demasiado tarde en el cronograma de desarrollo de Qt para incluirse oficialmente en la serie Qt-2.3.x, por lo que se admitió oficialmente en Qt-3.0.1. La compatibilidad con HKSCS-2001 se agregó en Qt-3.0.5. [26]

GNOME admite caracteres HKSCS en rangos Unicode, excepto aquellos asignados al bloque de compatibilidad del plano multilingüe básico. Los parches para admitir caracteres asignados al plano multilingüe básico anterior se introdujeron durante Pango 1.1. [27]

El estándar de codificación WHATWG (usado por HTML5 ) incluye HKSCS en su definición de Big5 (usado incluso con la etiqueta Big5 simple). Sin embargo, solo su decodificador usa todas las extensiones HKSCS, mientras que su codificador excluye explícitamente aquellas con bytes iniciales por debajo de 0xA1 (excluyendo así la mayoría de las extensiones HKSCS pero incluyendo, por ejemplo, aquellas heredadas de Big5 ETEN ). [28] Los navegadores más nuevos siguen este estándar, incluido Firefox .

Véase también

Referencias

  1. ^ Preguntas frecuentes sobre los servicios en línea de GovHK: otras preguntas técnicas y solución de problemas
  2. ^ "Big5CMP.txt". Archivado desde el original el 13 de septiembre de 2016.Encontrado en la tabla de mapeo - HKSCS-2008
  3. ^ "HKSCS-2004 Anexo IV. Puntos de compatibilidad para el GCCS" (PDF) . Archivado desde el original (PDF) el 30 de septiembre de 2016 . Consultado el 29 de septiembre de 2016 .
  4. ^ "Grupo: Big5-GCCS外字" . Consultado el 30 de septiembre de 2016 .
  5. ^ "Glifos de U-source" (PDF) . Consultado el 30 de septiembre de 2016 .
  6. ^ "La colección de caracteres Adobe-CNS1-6" (PDF) . Consultado el 30 de septiembre de 2016 .
  7. ^ "Conjuntos de caracteres". IANA.
  8. ^ "Componentes del SDK".
  9. ^ "Grandes 5-HKSCS:2004".
  10. ^ Grupo de trabajo de codificación de caracteres chinos por computadora (12 de junio de 2009). "Envío de caracteres del conjunto de caracteres de los sistemas de información de Macao" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 IRGN 1580. Archivado desde el original (PDF) el 4 de enero de 2015.
  11. ^ ab Gobierno de la Región Administrativa Especial de Macao (11 de junio de 2020). "Presentación de la extensión vertical de Macao (caracteres UNC), la extensión horizontal y el registro de IVSes para MSCS" (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 IRGN 2430.
  12. ^ "OGCIO - Desarrollo de HKSCS". Archivado desde el original el 22 de agosto de 2017 . Consultado el 21 de agosto de 2017 .
  13. ^ Steele, Shawn. "CP 951 y HKSCS". No soy un klingon . Blog de desarrollo de MS . Consultado el 13 de septiembre de 2016 .
  14. ^ 華通資訊網: 小心!有人悄悄換掉了你的Windows系統字型
  15. ^ Microsoft: Conjunto de caracteres complementarios de Hong Kong: compatibilidad con la plataforma Windows
  16. ^ "Big5-HKSCS編碼初探(上)-黑暗執行緒". blog.darkthread.net . 27 de febrero de 2014 . Consultado el 3 de septiembre de 2024 .
  17. ^ Rutinas de conversión de códigos de caracteres de Microsoft para HKSCS-2004
  18. ^ Paquete de fuentes de Windows XP compatible con la norma ISO 10646:2003 + Enmienda 1 Compatibilidad con chino tradicional
  19. ^ "CCSID 5471: extensión mixta Big-5 para HKSCS-2001". IBM Globalization - Identificadores de conjuntos de caracteres codificados . IBM . Archivado desde el original el 29 de noviembre de 2014.
  20. ^ Componentes internacionales para Unicode (ICU), ibm-5471_P100-2006.ucm, 9 de mayo de 2007
  21. ^ "CCSID 9567: extensión mixta Big-5 para HKSCS-2004". IBM Globalization - Identificadores de conjuntos de caracteres codificados . IBM . Archivado desde el original el 29 de noviembre de 2014.
  22. ^ "CCSID 13663: extensión mixta Big-5 para HKSCS-2008". IBM Globalization - Identificadores de conjuntos de caracteres codificados . IBM . Archivado desde el original el 29 de noviembre de 2014.
  23. ^ "CCSID 1375: extensión mixta Big-5 para HKSCS". IBM Globalization - Identificadores de conjuntos de caracteres codificados . IBM . Archivado desde el original el 29 de noviembre de 2014.
  24. ^ Mozilla.org: Error 343129 – Big5-HKSCS 2004 <==> Actualización de la tabla Unicode
  25. ^ Error 162431: se agrega compatibilidad con Unicode no BMP (plano 1 y superiores, sustituto) al codificador/decodificador de conjuntos de caracteres
  26. ^ "Qt 4.7: Códec de texto Big5-HKSCS". Archivado desde el original el 4 de marzo de 2016 . Consultado el 10 de noviembre de 2011 .
  27. ^ Error 101081: No se admiten los personajes que no sean BMP (plano 1 al plano 16)
  28. ^ van Kesteren, Ana . "Estándar de codificación". QUÉ WG .

Enlaces externos