Conjunto de caracteres de Windows para chino tradicional
La página de códigos 950 es la página de códigos utilizada en Microsoft Windows para el chino tradicional . Es la implementación de Microsoft de la codificación de caracteres Big5, estándar de facto . La página de códigos no está registrada en la IANA [1] y, por lo tanto, no es un estándar para comunicar información a través de Internet, aunque normalmente se la etiqueta simplemente como , incluso por las funciones de biblioteca de Microsoft. [2]big5
Terminología y variantes
La principal diferencia entre la página de códigos 950 de Windows y la Big5 "común" (no específica del proveedor) es la incorporación de un subconjunto de las extensiones ETEN a Big5 en 0x F9D6 a 0xF9FE (que comprende los siete caracteres chinos碁, 銹, 裏, 墻, 恒, 粧 y 嫺, seguidos de 34 caracteres de dibujo de caja y elementos de bloque ). Los rangos utilizados por algunos de los otros caracteres extendidos ETEN se definen en cambio como caracteres definidos por el usuario final (uso privado) . [3]
El CCSID 950 de IBM comprende la página de códigos de un solo byte 1114 (CCSID 1114) y la página de códigos de doble byte 947 (CCSID 947), [4] [5] [6] y, aunque también es una variante de Big5, es algo diferente de la página de códigos 950 de Microsoft, incorporando algunas de las extensiones ETEN para los bytes iniciales 0xA3, [7] 0xC6, [3] [8] 0xC7 [9] y 0xC8, [3] [10] mientras omite aquellos con el byte inicial 0xF9 (que Microsoft incluye), asignándolos en su lugar al Área de uso privado como caracteres definidos por el usuario. [3] [11] También incluye dos regiones de extensión que no son ETEN con bytes finales 0x81–A0, es decir, fuera del rango de bytes finales Big5 habitual pero similar al rango de bytes finales Big5+: el área 5 tiene bytes iniciales 0xF2–F9 y contiene caracteres seleccionados por IBM, mientras que el área 9 tiene bytes iniciales 0x81–8C y es una región definida por el usuario. [12]
Microsoft actualizó su versión de la página de códigos 950 en 2000, añadiendo el símbolo del euro (€) en el código de doble byte 0xA3E1. IBM se refiere a la actualización del símbolo del euro de su variante Big-5 como CCSID 1370 (que incluye símbolos del euro de un solo byte (0x80) y de doble byte). [13] Comprende la página de códigos de un solo byte 1114 (CCSID 5210) y la página de códigos de doble byte 947 (CCSID 21427). [13] [14] [15]
Para una mejor compatibilidad con la variante de Microsoft en IBM Db2 , IBM también define la página de códigos de doble byte puro 1372 [16] y el CCSID de ancho variable asociado 1373 , que incluye solo el símbolo del euro de doble byte [17] y coincide con el comportamiento de Microsoft en el que se incluyen las regiones de extensión. [18] [19] [20] [21] [22]
Códigos de un solo byte
Los siguientes son los caracteres gráficos de un solo byte incluidos por IBM. Los códigos 0x00 a 0x1F y 0x7F pueden usarse como códigos de control C0 , según el contexto (compare la página de códigos 437 y la página de códigos 897 ). Como se indicó anteriormente, el símbolo del euro de un solo byte en 0x80 no está incluido en los CCSID 950 o 1373 de IBM ni tampoco por Microsoft.
El resto son partes de una secuencia de doble byte.
Uso del Área de Uso Privado
Esta asignación también se utiliza en HKSCS donde un glifo determinado aún no se encuentra en la revisión Unicode especificada. [27]
Véase también
Referencias
- ^ "Conjuntos de caracteres". IANA — Registros de protocolo .
- ^ "Propiedad Encoding.WindowsCodePage - .NET Framework (versión actual)". MSDN . Microsoft.
- ^ abcd Zhu, HF.; Hu, DY.; Wang, ZG.; Kao, TC.; Chang, WCH.; Crispin, M. (1996). "Codificación de caracteres chinos para mensajes de Internet". Solicitudes de comentarios . IETF . doi : 10.17487/rfc1922 . RFC 1922.
- ^ "Documento informativo del CCSID 950". Archivado desde el original el 2 de diciembre de 2014.
- ^ "Documento informativo del CCSID 1114". Archivado desde el original el 27 de marzo de 2016.
- ^ "Documento informativo del CCSID 947". Archivado desde el original el 1 de diciembre de 2014.
- ^ "Byte inicial A3: ibm-950_P110-1999". Demostración de la UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte inicial C6: ibm-950_P110-1999". Demostración de la UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte inicial C7: ibm-950_P110-1999". Demostración de la UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte inicial C8: ibm-950_P110-1999". Demostración de la UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte inicial F9: ibm-950_P110-1999". Demostración de la UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Conjunto de caracteres gráficos chinos tradicionales de IBM para código IBM BIG-5" (PDF) . IBM . 1999. CH 3-3220-131 1999-04.
- ^ ab "Documento informativo del CCSID 1370". Archivado desde el original el 27 de marzo de 2016.
- ^ "Documento informativo del CCSID 5210". Archivado desde el original el 29 de noviembre de 2014.
- ^ "Documento informativo del CCSID 21427". Archivado desde el original el 27 de marzo de 2016.
- ^ "CPGID 01372: MS T-Chinese Big-5 (especial para DB2)". IBM Globalization - Identificadores de páginas de códigos . Archivado desde el original el 17 de marzo de 2016.
- ^ "ibm-1373_P100-2002". Demostración de ICU - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte inicial A3: ibm-1373_P100-2002". Demostración de la UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte inicial C6: ibm-1373_P100-2002". Demostración de la UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte inicial C7: ibm-1373_P100-2002". Demostración de la UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte inicial C8: ibm-1373_P100-2002". Demostración de la UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte inicial F9: ibm-1373_P100-2002". Demostración de la UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ Página de códigos CPGID 01114 (pdf) (PDF) , IBM
- ^ Página de códigos CPGID 01114 (txt), IBM
- ^ "Gráfico de mejor ajuste de Windows: CP950". unicode.org . Consultado el 13 de septiembre de 2016 .
- ^ "Big5". Base de datos de kanji . Consultado el 13 de septiembre de 2016 .
- ^ "Big5-HKSCS:2008". Archivado desde el original el 13 de septiembre de 2016.
Enlaces externos
- Referencia de Microsoft para la página de códigos 950
- Asignación de la página de código 950 a Unicode
- Archivos de mapeo de componentes internacionales para Unicode (ICU): windows-950-2000.ucm, ibm-950_P110-1999.ucm, ibm-1373_P100-2002.ucm