T.51/ISO/IEC 6937

T.51 / ISO/IEC 6937:2001 , Tecnología de la información — Conjunto de caracteres gráficos codificados para comunicación de texto — Alfabeto latino , es una extensión multibyte de ASCII , o más precisamente ISO/IEC 646 -IRV. ^[1] Fue desarrollado en común con ITU-T (entonces CCITT ) para servicios telemáticos bajo el nombre de T.51 , y se convirtió por primera vez en un estándar ISO en 1983. Ciertos códigos de bytes se utilizan como bytes iniciales para letras con diacríticos . El valor del byte inicial a menudo indica qué diacrítico tiene la letra, y el byte siguiente tiene entonces el valor ASCII para la letra en la que se encuentra el diacrítico.

Los arquitectos de la norma ISO/IEC 6937 fueron Hugh McGregor Ross , Peter Fenwick, Bernard Marti y Loek Zeckendorf.

La norma ISO6937/2 define 327 caracteres que se encuentran en los idiomas europeos modernos que utilizan el alfabeto latino . Los caracteres europeos no latinos, como el cirílico y el griego , no están incluidos en la norma. Además, algunos diacríticos utilizados con el alfabeto latino, como la coma rumana , no están incluidos, y se utiliza la cedilla en su lugar, ya que en ese momento no se hacía distinción entre la cedilla y la coma debajo.

La IANA ha registrado los nombres de conjuntos de caracteres ISO_6937-2-25 e ISO_6937-2-add para dos versiones (más antiguas) de este estándar (más los códigos de control). Pero en la práctica, esta codificación de caracteres no se utiliza en Internet.

Caracteres de un solo byte

El conjunto primario (primera mitad) originalmente seguía la norma ISO 646-IRV antes de la revisión ISO/IEC 646:1991 , es decir, seguía en su mayor parte ASCII pero con el carácter 0x24 todavía denotado como un " signo de moneda internacional " (¤) en lugar del signo de dólar ($). La edición de 1992 de ITU T.51 permite que los servicios CCITT existentes continúen interpretando 0x24 como el signo de moneda internacional, pero estipula que las nuevas aplicaciones de telecomunicaciones deberían usarlo para el signo de dólar (es decir, siguiendo la norma ISO 646-IRV actual) y, en su lugar, representar el signo de moneda internacional utilizando el conjunto complementario. ^[2]

El conjunto complementario (segunda mitad) contiene una selección de caracteres gráficos con y sin espaciado, símbolos adicionales y algunas ubicaciones reservadas para una futura estandarización.

Ambos son conjuntos de caracteres gráficos ISO/IEC 2022 , siendo el conjunto primario un conjunto de 94 códigos y el conjunto secundario un conjunto de 96 códigos. En contextos donde no se utilizan técnicas de extensión de código ISO 2022, el conjunto primario se designa como el conjunto G0 y se invoca sobre GL ( 0x 20..0x7F), mientras que el conjunto suplementario se designa como el conjunto G2 y se invoca sobre GR (0xA0..0xFF) en un entorno de 8 bits, o utilizando el código de control 0x19 como un desplazamiento simple en un entorno de 7 bits. ^[3] Esta codificación del código Single Shift Two coincide con su ubicación en ISO-IR -106. ^[4]

La secuencia de escape ISO/IEC 2022 para designar el conjunto suplementario de ISO/IEC 6937 como el conjunto G2 es ESC . R(hex 1B 2E 52). ^[2]^[5]^[6] El conjunto suplementario ISO 6937/2:1983 más antiguo está registrado como un conjunto de 94 códigos y se designa como G2 con ESC * l(hex 1B 2A 6C). ^[5]^[7]

Caracteres de dos bytes

Las letras acentuadas a las que no se les asigna un código único en el conjunto primario o complementario se codifican utilizando dos bytes. El primer byte, el "signo diacrítico sin espaciado", va seguido de una letra del conjunto base, por ejemplo:

e minúscula con acento agudo (é) = [Aguda]+e

La norma ITU T.51 asigna la columna 4 del conjunto suplementario (es decir, 0x C0–CF cuando se utiliza en formato de 8 bits) a caracteres diacríticos sin espaciado. ^[2] Sin embargo, la norma ISO/IEC 6937 define un repertorio de caracteres completamente especificado, asignando una lista de secuencias de composición a nombres de caracteres ISO/IEC 10646 que coinciden con los definidos en Unicode. Los bytes sin espaciado aislados no están incluidos en este repertorio, aunque sí se incluyen variantes de espaciado de los diacríticos que no están presentes de otro modo en ASCII, siendo el espacio ASCII el byte final. ^[5]^[8] Por lo tanto, solo ciertas combinaciones de byte inicial y byte siguiente se ajustan a la norma ISO/IEC.

Este repertorio también se incluye en la versión ITU de la especificación como Anexo A, aunque la versión ITU no lo menciona en el texto principal. Se describe como un "superconjunto unificado" de los repertorios de caracteres de la escritura latina. ^[2] Se corresponde con el repertorio de ISO/IEC 10367 cuando se utilizan los conjuntos ASCII, Latin-1 (o Latin-5 ), Latin-2 y conjuntos latinos suplementarios . ^[5]

Este sistema también se diferencia del sistema de combinación de caracteres Unicode en que el código diacrítico precede a la letra (en lugar de seguirla), lo que lo hace más similar a ANSEL .

Una pequeña anomalía es que la G minúscula latina con cedilla se codifica como si fuera con acento agudo, es decir, con byte inicial 0xC2, ya que debido a que su descendente interfiere con una cedilla, la letra minúscula suele ir con coma girada encima: Ģ ģ .

En total, los caracteres seleccionados del conjunto primario pueden seguir 13 signos diacríticos:

Disposición de la página de códigos

La referencia a la combinación de caracteres en el rango U+0300—U+036F para los códigos en el rango 0xC1—0xCF que se muestran a continuación está sujeta a las advertencias mencionadas anteriormente; no se pueden asignar simplemente a los puntos de código enumerados. Además, Unicode distingue 0xE2 en D mayúscula con trazo y Eth mayúscula , que generalmente se ven diferentes para las letras minúsculas (0xF2 y 0xF3).

La edición anterior de 1988 de la ITU T.51 definió dos versiones del conjunto suplementario, y la primera versión carece del espacio indivisible , el guión suave , el signo de no ( ¬ ) y la barra discontinua ( ¦ ) presentes en la segunda versión. La primera versión se definió como una extensión del conjunto suplementario T.61 , y la segunda versión como una extensión de la primera versión. ^[9] La edición actual (1992) solo incluye la segunda versión, desaprueba ciertos caracteres y actualiza el conjunto primario al actual ISO-646-IRV ( ASCII ), aunque se permite que los servicios telemáticos existentes conserven el comportamiento anterior. ^[2]

Diferencias con T.61

Versión en videotexto

Las versiones del conjunto suplementario utilizadas por la norma ITU T.101 para Videotex se basan en el primer conjunto suplementario de la edición de 1988 de T.51.

El conjunto G2 predeterminado para la sintaxis de datos 2 agrega un ΅ en 0xC0, para combinarlo con códigos de un conjunto primario griego . ^[10]

El conjunto complementario para la sintaxis de datos 3 agrega marcas sin espaciado para una "barra superior vectorial" y una barra sólida y varios caracteres semigráficos . ^[11]

Versión ETS 300 706

El estándar ETS 300 706 para el teletexto del sistema mundial basa su conjunto G2 en la norma ISO 6937. ^[12] Es un superconjunto del conjunto suplementario de T.61 y un superconjunto del primer conjunto suplementario de la edición de 1988 de T.51, pero colisiona con la edición actual de T.51 en ciertas posiciones. Los códigos diacríticos en la versión ETS se especifican como "para asociación con" caracteres del conjunto G0 en uso , ^[12] como US-ASCII o BS_viewdata . Esta versión se muestra en el gráfico siguiente.

Diferencias con T.51

Véase también

UIT T.50
ITU T.61 , una codificación de caracteres estrechamente relacionada para uso teletex

Notas al pie

^ Se permite el uso continuado de ¤ únicamente para los servicios CCITT existentes. ^[2]
^ ab Permitido únicamente para los servicios CCITT existentes, de lo contrario se debe utilizar la representación ASCII. ^[2]
^ Se indica en la versión ITU de la norma que ya se utiliza para texto subrayado , en combinación con cualquier otro carácter, incluidos los caracteres acentuados. Aunque la edición ITU de 1988 incluye este código, ^[9] la edición ITU de 1992 desaconseja el envío de este código en favor de secuencias de escape ANSI , aunque sí menciona que debe interpretarse correctamente cuando lo reciban los sistemas aplicables. ^[2] Las ediciones anteriores de la versión ISO/IEC de la norma también permitían combinar este código con cualquier carácter del repertorio definido, ^[7] mientras que las revisiones más recientes no incluyen este código. ^[5]
^ Un borrador inicial colocó ȷ en esta posición.

Referencias

^ "T.51: Conjuntos de caracteres codificados basados en el latín para servicios telemáticos". www.itu.int . Archivado desde el original el 8 de octubre de 2019 . Consultado el 14 de noviembre de 2019 .
^ abcdefgh CCITT (18 de septiembre de 1992). Conjuntos de caracteres codificados basados en el latín para servicios telemáticos (edición de 1992). Recomendación T.51.
^ UIT-T (11 de agosto de 1995). Recomendación T.51 (1992) Enmienda 1.
^ UIT (1985-08-01). Conjunto primario de funciones de control del teletex (PDF) . ITSCJ/ IPSJ . ISO-IR -106.
^ abcde ISO/IEC JTC 1/SC 2/WG 3 (15 de abril de 1998). WD 6937, Conjunto de caracteres gráficos codificados para comunicación de texto - Alfabeto latino (PDF) . JTC1/SC2/N454.{{citation}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
^ ISO/IEC JTC 1/SC 2/WG 3 (15 de diciembre de 1991). Conjunto complementario de ISO/IEC 6937:1992 (PDF) . ITSCJ/ IPSJ . ISO-IR -156.{{citation}}: CS1 maint: nombres numéricos: lista de autores ( enlace )(El lado izquierdo es US-ASCII).
^ ab ISO/TC97/SC2/WG4 (1985-01-10). Conjunto suplementario de caracteres gráficos alfabéticos y no alfabéticos latinos (PDF) . ITSCJ/ IPSJ . ISO-IR -90.{{citation}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
^ Petersen, JK (29 de mayo de 2002). Diccionario ilustrado de telecomunicaciones. CRC Press. pág. 888. ISBN 978-1-4200-4067-8.
^ ab CCITT (1988). Conjuntos de caracteres codificados para servicios telemáticos (edición de 1988). Recomendación T.51.
^ CCITT (1988-11-01). Conjunto complementario de caracteres gráficos para videotex (PDF) . ITSCJ/ IPSJ . ISO-IR -70.
^ CCITT (30 de noviembre de 1986). Conjunto complementario de caracteres gráficos para la Recomendación T.101 del CCITT, Sintaxis de datos III (PDF) . ITSCJ/ IPSJ . ISO-IR -128.
^ abc ETSI (1997). "15.6.3 Latin G2 Set". Especificación de teletexto mejorado (PDF) (PDF) . pág. 116. ETS 300 706.

Enlaces externos

Recomendación UIT T.51
Páginas ISO: ISO 6937-1:1983, ISO 6937-2:1983, ISO 6937-2:1983/Add 1:1989, ISO/IEC 6937:1994, ISO/IEC 6937:2001
WD 6937, Conjunto de caracteres gráficos codificados para la comunicación de texto: alfabeto latino (revisión de ISO/IEC 6937:1994) (borrador de ISO/IEC 6937:1994)
ISO-IR-156 ( Registro ISO-IR de la parte derecha)