T.51 / ISO/IEC 6937:2001 , Tecnología de la información — Conjunto de caracteres gráficos codificados para comunicación de texto — Alfabeto latino , es una extensión multibyte de ASCII , o más precisamente ISO/IEC 646 -IRV. [1] Fue desarrollado en común con ITU-T (entonces CCITT ) para servicios telemáticos bajo el nombre de T.51 , y se convirtió por primera vez en un estándar ISO en 1983. Ciertos códigos de bytes se utilizan como bytes iniciales para letras con diacríticos . El valor del byte inicial a menudo indica qué diacrítico tiene la letra, y el byte siguiente tiene entonces el valor ASCII para la letra en la que se encuentra el diacrítico.
Los arquitectos de la norma ISO/IEC 6937 fueron Hugh McGregor Ross , Peter Fenwick, Bernard Marti y Loek Zeckendorf.
La norma ISO6937/2 define 327 caracteres que se encuentran en los idiomas europeos modernos que utilizan el alfabeto latino . Los caracteres europeos no latinos, como el cirílico y el griego , no están incluidos en la norma. Además, algunos diacríticos utilizados con el alfabeto latino, como la coma rumana , no están incluidos, y se utiliza la cedilla en su lugar, ya que en ese momento no se hacía distinción entre la cedilla y la coma debajo.
La IANA ha registrado los nombres de conjuntos de caracteres ISO_6937-2-25 e ISO_6937-2-add para dos versiones (más antiguas) de este estándar (más los códigos de control). Pero en la práctica, esta codificación de caracteres no se utiliza en Internet.
El conjunto primario (primera mitad) originalmente seguía la norma ISO 646-IRV antes de la revisión ISO/IEC 646:1991 , es decir, seguía en su mayor parte ASCII pero con el carácter 0x24 todavía denotado como un " signo de moneda internacional " (¤) en lugar del signo de dólar ($). La edición de 1992 de ITU T.51 permite que los servicios CCITT existentes continúen interpretando 0x24 como el signo de moneda internacional, pero estipula que las nuevas aplicaciones de telecomunicaciones deberían usarlo para el signo de dólar (es decir, siguiendo la norma ISO 646-IRV actual) y, en su lugar, representar el signo de moneda internacional utilizando el conjunto complementario. [2]
El conjunto complementario (segunda mitad) contiene una selección de caracteres gráficos con y sin espaciado, símbolos adicionales y algunas ubicaciones reservadas para una futura estandarización.
Ambos son conjuntos de caracteres gráficos ISO/IEC 2022 , siendo el conjunto primario un conjunto de 94 códigos y el conjunto secundario un conjunto de 96 códigos. En contextos donde no se utilizan técnicas de extensión de código ISO 2022, el conjunto primario se designa como el conjunto G0 y se invoca sobre GL ( 0x 20..0x7F), mientras que el conjunto suplementario se designa como el conjunto G2 y se invoca sobre GR (0xA0..0xFF) en un entorno de 8 bits, o utilizando el código de control 0x19 como un desplazamiento simple en un entorno de 7 bits. [3] Esta codificación del código Single Shift Two coincide con su ubicación en ISO-IR -106. [4]
La secuencia de escape ISO/IEC 2022 para designar el conjunto suplementario de ISO/IEC 6937 como el conjunto G2 es ESC . R
(hex 1B 2E 52
). [2] [5] [6] El conjunto suplementario ISO 6937/2:1983 más antiguo está registrado como un conjunto de 94 códigos y se designa como G2 con ESC * l
(hex 1B 2A 6C
). [5] [7]
Las letras acentuadas a las que no se les asigna un código único en el conjunto primario o complementario se codifican utilizando dos bytes. El primer byte, el "signo diacrítico sin espaciado", va seguido de una letra del conjunto base, por ejemplo:
e minúscula con acento agudo (é) = [Aguda]+e
La norma ITU T.51 asigna la columna 4 del conjunto suplementario (es decir, 0x C0–CF cuando se utiliza en formato de 8 bits) a caracteres diacríticos sin espaciado. [2] Sin embargo, la norma ISO/IEC 6937 define un repertorio de caracteres completamente especificado, asignando una lista de secuencias de composición a nombres de caracteres ISO/IEC 10646 que coinciden con los definidos en Unicode. Los bytes sin espaciado aislados no están incluidos en este repertorio, aunque sí se incluyen variantes de espaciado de los diacríticos que no están presentes de otro modo en ASCII, siendo el espacio ASCII el byte final. [5] [8] Por lo tanto, solo ciertas combinaciones de byte inicial y byte siguiente se ajustan a la norma ISO/IEC.
Este repertorio también se incluye en la versión ITU de la especificación como Anexo A, aunque la versión ITU no lo menciona en el texto principal. Se describe como un "superconjunto unificado" de los repertorios de caracteres de la escritura latina. [2] Se corresponde con el repertorio de ISO/IEC 10367 cuando se utilizan los conjuntos ASCII, Latin-1 (o Latin-5 ), Latin-2 y conjuntos latinos suplementarios . [5]
Este sistema también se diferencia del sistema de combinación de caracteres Unicode en que el código diacrítico precede a la letra (en lugar de seguirla), lo que lo hace más similar a ANSEL .
Una pequeña anomalía es que la G minúscula latina con cedilla se codifica como si fuera con acento agudo, es decir, con byte inicial 0xC2, ya que debido a que su descendente interfiere con una cedilla, la letra minúscula suele ir con coma girada encima: Ģ ģ .
En total, los caracteres seleccionados del conjunto primario pueden seguir 13 signos diacríticos:
La referencia a la combinación de caracteres en el rango U+0300—U+036F para los códigos en el rango 0xC1—0xCF que se muestran a continuación está sujeta a las advertencias mencionadas anteriormente; no se pueden asignar simplemente a los puntos de código enumerados. Además, Unicode distingue 0xE2 en D mayúscula con trazo y Eth mayúscula , que generalmente se ven diferentes para las letras minúsculas (0xF2 y 0xF3).
La edición anterior de 1988 de la ITU T.51 definió dos versiones del conjunto suplementario, y la primera versión carece del espacio indivisible , el guión suave , el signo de no ( ¬ ) y la barra discontinua ( ¦ ) presentes en la segunda versión. La primera versión se definió como una extensión del conjunto suplementario T.61 , y la segunda versión como una extensión de la primera versión. [9] La edición actual (1992) solo incluye la segunda versión, desaprueba ciertos caracteres y actualiza el conjunto primario al actual ISO-646-IRV ( ASCII ), aunque se permite que los servicios telemáticos existentes conserven el comportamiento anterior. [2]
Las versiones del conjunto suplementario utilizadas por la norma ITU T.101 para Videotex se basan en el primer conjunto suplementario de la edición de 1988 de T.51.
El conjunto G2 predeterminado para la sintaxis de datos 2 agrega un ΅ en 0xC0, para combinarlo con códigos de un conjunto primario griego . [10]
El conjunto complementario para la sintaxis de datos 3 agrega marcas sin espaciado para una "barra superior vectorial" y una barra sólida y varios caracteres semigráficos . [11]
El estándar ETS 300 706 para el teletexto del sistema mundial basa su conjunto G2 en la norma ISO 6937. [12] Es un superconjunto del conjunto suplementario de T.61 y un superconjunto del primer conjunto suplementario de la edición de 1988 de T.51, pero colisiona con la edición actual de T.51 en ciertas posiciones. Los códigos diacríticos en la versión ETS se especifican como "para asociación con" caracteres del conjunto G0 en uso , [12] como US-ASCII o BS_viewdata . Esta versión se muestra en el gráfico siguiente.
{{citation}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{citation}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )(El lado izquierdo es US-ASCII).{{citation}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )