Conjunto de caracteres de doble byte

Un conjunto de caracteres de doble byte ( DBCS ) es una codificación de caracteres en la que todos los caracteres (incluidos los caracteres de control ) se codifican en dos bytes, o simplemente cada carácter gráfico no representable por un conjunto de caracteres de un solo byte ( SBCS ) que lo acompañe se codifica en dos bytes ( los caracteres Han generalmente comprenderían la mayoría de estos caracteres de dos bytes). Un DBCS admite idiomas nacionales que contienen muchos caracteres o símbolos únicos (el número máximo de caracteres que se pueden representar con un byte es de 256 caracteres, mientras que dos bytes pueden representar hasta 65.536 caracteres). Algunos ejemplos de dichos idiomas son el japonés y el chino . Hangul no contiene tantos caracteres, pero KS X 1001 admite tanto Hangul como Hanja , y utiliza dos bytes por carácter.

En informática CJK

El término DBCS se refiere tradicionalmente a una codificación de caracteres donde cada carácter gráfico está codificado en dos bytes.

En un código de 8 bits, como Big-5 o Shift JIS , un carácter del DBCS se representa con un byte inicial (primer) con el bit más significativo establecido (es decir, mayor que siete bits) y emparejado con un conjunto de caracteres de un solo byte (SBCS). Por la razón práctica de mantener la compatibilidad con software comercial sin modificar, el SBCS se asocia con caracteres de ancho medio y el DBCS con caracteres de ancho completo . En un código de 7 bits como ISO-2022-JP , se utilizan secuencias de escape o códigos de desplazamiento para cambiar entre el SBCS y el DBCS.

En ocasiones, el uso del término "DBCS" puede implicar una estructura subyacente que no cumple con la norma ISO 2022. Por ejemplo, "DBCS" a veces puede significar una codificación de doble byte que no es específicamente el Código Unix Extendido (EUC).

Este significado original de DBCS es diferente de lo que algunos consideran un uso correcto en la actualidad. Algunos insisten en que estas codificaciones de caracteres se denominan correctamente conjuntos de caracteres multibyte (MBCS) o codificaciones de ancho variable , porque las codificaciones de caracteres como EUC-JP , EUC-KR , EUC-TW , GB 18030 y UTF-8 utilizan más de dos bytes para algunos caracteres y admiten un byte para otros.

Ambigüedad

Algunas personas utilizan DBCS para referirse a las codificaciones UTF-16 y UTF-8 , mientras que otras personas utilizan el término DBCS para referirse a codificaciones de caracteres más antiguas (pre- Unicode ) que utilizan más de un byte por carácter. Shift JIS , GB 2312 y Big5 son algunas codificaciones de caracteres que pueden contener más de un byte por carácter, pero incluso el uso del término DBCS para estas codificaciones de caracteres es una terminología incorrecta porque estas codificaciones de caracteres son realmente codificaciones de ancho variable (como lo son tanto UTF-16 como UTF-8). Algunos mainframes IBM tienen verdaderas páginas de códigos DBCS, que contienen solo la parte de doble byte de una página de códigos de varios bytes.

Si una persona utiliza el término "habilitación DBCS" para la internacionalización de software , está utilizando una terminología ambigua. O bien quiere decir que quiere escribir software para los mercados del este de Asia utilizando tecnología más antigua con páginas de códigos, o bien está planeando utilizar Unicode. A veces, este término también implica la traducción a un idioma del este de Asia. Por lo general, "habilitación Unicode" significa internacionalizar software mediante el uso de Unicode, y "habilitación DBCS" significa utilizar codificaciones de caracteres incompatibles que existen entre los diversos países del este de Asia para internacionalizar software. Dado que Unicode, a diferencia de muchas otras codificaciones de caracteres, admite todos los idiomas principales del este de Asia, generalmente es más fácil habilitar y mantener software que utiliza Unicode. La habilitación DBCS (no Unicode) generalmente solo se desea cuando los sistemas operativos o aplicaciones mucho más antiguos no admiten Unicode.

TBC

Un conjunto de caracteres de triple byte (TBCS) es una codificación de caracteres en la que los caracteres (incluidos los caracteres de control) se codifican en tres bytes.

Véase también

Codificación de ancho variable (también conocida como MBCS: conjunto de caracteres multibyte)
Dos/V

Enlaces externos

Definición de Microsoft de "conjunto de caracteres de doble byte"
Definición de IBM de "conjunto de caracteres de doble byte" en Wayback Machine (archivada el 18 de octubre de 2018)