ISO/CEI 8859

ISO/IEC 8859 es una serie conjunta de estándares ISO e IEC para codificaciones de caracteres de 8 bits . La serie de normas consta de partes numeradas, como ISO/IEC 8859-1 , ISO/IEC 8859-2 , etc. Hay 15 partes, excluyendo la abandonada ISO/IEC 8859-12 . ^[1] El grupo de trabajo ISO que mantenía esta serie de normas ha sido disuelto.

ISO/IEC 8859 partes 1, 2, 3 y 4 eran originalmente el estándar ECMA-94 de Ecma International .

Introducción

Si bien los patrones de bits de los 95 caracteres ASCII imprimibles son suficientes para intercambiar información en inglés moderno , la mayoría de los demás idiomas que utilizan alfabetos latinos necesitan símbolos adicionales no cubiertos por ASCII. ISO/IEC 8859 buscó remediar este problema utilizando el octavo bit en un byte de 8 bits para permitir posiciones para otros 96 caracteres imprimibles. Las primeras codificaciones estaban limitadas a 7 bits debido a restricciones de algunos protocolos de transmisión de datos y en parte por razones históricas. Sin embargo, se necesitaban más caracteres de los que cabían en una única codificación de caracteres de 8 bits, por lo que se desarrollaron varias asignaciones, incluidas al menos diez adecuadas para varios alfabetos latinos.

Las partes del estándar ISO/IEC 8859 solo definen caracteres imprimibles, aunque explícitamente separan los rangos de bytes 0x00–1F y 0x7F–9F como "combinaciones que no representan caracteres gráficos" (es decir, que están reservadas para su uso como caracteres de control ) de acuerdo con ISO/IEC 4873 ; fueron diseñados para usarse junto con un estándar separado que define las funciones de control asociadas con estos bytes, como ISO 6429 o ISO 6630 . ^[2] Para ello una serie de codificaciones registradas en la IANA añaden el conjunto de control C0 (caracteres de control asignados a los bytes 0 al 31) de ISO 646 y el conjunto de control C1 (caracteres de control asignados a los bytes 128 a 159) de ISO 6429. , lo que da como resultado mapas de caracteres completos de 8 bits con la mayoría, si no todos, los bytes asignados. Estos conjuntos tienen ISO-8859- n como su nombre MIME preferido o, en los casos en que no se especifica un nombre MIME preferido, su nombre canónico. Mucha gente utiliza los términos ISO/IEC 8859- n e ISO-8859- n indistintamente. A ISO/IEC 8859-11 no se le asignó dicho juego de caracteres, presumiblemente porque era casi idéntico a TIS 620 .

Caracteres

El estándar ISO/IEC 8859 está diseñado para el intercambio de información confiable, no para la tipografía ; el estándar omite los símbolos necesarios para una tipografía de alta calidad, como ligaduras opcionales, comillas, guiones, etc. Como resultado, los sistemas tipográficos de alta calidad a menudo utilizan extensiones patentadas o idiosincrásicas además de los estándares ASCII e ISO /IEC 8859. , o utilice Unicode en su lugar.

Una regla inexacta basada en la experiencia práctica establece que si un carácter o símbolo no formaba ya parte de un conjunto de caracteres de procesamiento de datos ampliamente utilizado y tampoco aparecía normalmente en los teclados de las máquinas de escribir para un idioma nacional, no entraba. Se incluyeron las comillas dobles « y » utilizadas para algunos idiomas europeos, pero no las comillas dobles direccionales “ y ” utilizadas para el inglés y algunos otros idiomas.

El francés no obtuvo sus ligaduras œ y Œ porque podían escribirse como 'oe'. Del mismo modo, también se eliminó Ÿ , necesario para el texto en mayúsculas. ^[3]^[4]^[5] Aunque bajo diferentes puntos de código, estos tres caracteres se reintrodujeron posteriormente con ISO/IEC 8859-15 en 1999, que también introdujo el nuevo carácter del signo del euro €. Del mismo modo, los holandeses no recibieron las letras ĳ y Ĳ , porque los hablantes de holandés se habían acostumbrado a escribirlas como dos letras.

El rumano no obtuvo inicialmente sus letras Ș / ș y Ț / ț ( con coma ), porque estas letras fueron inicialmente unificadas con Ş / ş y Ţ / ţ ( con cedilla ) por el Consorcio Unicode , considerando que las formas con coma debajo eran Variantes glíficas de las formas con cedilla. Sin embargo, las letras con coma explícita a continuación se agregaron posteriormente al estándar Unicode y también están en ISO/IEC 8859-16 .

La mayoría de las codificaciones ISO/IEC 8859 proporcionan signos diacríticos necesarios para varios idiomas europeos que utilizan la escritura latina. Otros proporcionan alfabetos no latinos: griego , cirílico , hebreo , árabe y tailandés . La mayoría de las codificaciones contienen sólo caracteres de espaciado , aunque las tailandesas, hebreas y árabes también contienen caracteres combinados .

La norma no contempla las escrituras de las lenguas de Asia Oriental ( CJK ), ya que sus sistemas de escritura ideográfica requieren muchos miles de puntos de código. Aunque utiliza caracteres latinos, el vietnamita tampoco cabe en 96 posiciones (sin utilizar signos diacríticos combinados como en Windows-1258 ). Cada alfabeto silábico japonés (hiragana o katakana, ver Kana ) encajaría, como en JIS X 0201 , pero como muchos otros alfabetos del mundo, no están codificados en el sistema ISO/IEC 8859.

Las partes de ISO/IEC 8859

ISO/IEC 8859 se divide en las siguientes partes:

Cada parte de ISO/IEC 8859 está diseñada para admitir idiomas que a menudo se toman prestados entre sí, por lo que los caracteres necesarios para cada idioma generalmente se incluyen en una sola parte. Sin embargo, hay algunos caracteres y combinaciones de idiomas que no se admiten sin transcripciones. Se hicieron esfuerzos para que las conversiones fueran lo más fluidas posible. Por ejemplo, el alemán tiene sus siete caracteres especiales en las mismas posiciones en todas las variantes latinas (1–4, 9, 10, 13–16), y en muchas posiciones los caracteres solo difieren en los signos diacríticos entre los conjuntos. En particular, las variantes 1 a 4 se diseñaron conjuntamente y tienen la propiedad de que cada carácter codificado aparece en una posición determinada o no aparece en absoluto.

Mesa

puntos de código no asignados.
nuevas incorporaciones en las versiones ISO/IEC 8859-7:2003 e ISO/IEC 8859-8:1999 , no asignadas previamente.

Relación con Unicode y UCS

Desde 1991, el Consorcio Unicode ha estado trabajando con ISO e IEC para desarrollar el estándar Unicode e ISO/IEC 10646: el conjunto de caracteres universal (UCS) en conjunto. Las ediciones más recientes de ISO/IEC 8859 expresan caracteres en términos de sus nombres Unicode/UCS y la notación U+nnnn , lo que efectivamente hace que cada parte de ISO/IEC 8859 sea un esquema de codificación de caracteres Unicode/UCS que asigna un subconjunto muy pequeño del UCS a bytes individuales de 8 bits. Los primeros 256 caracteres en Unicode y UCS son idénticos a los de ISO/IEC-8859-1 ( Latin-1 ).

Los juegos de caracteres de un solo byte, incluidas las partes de ISO/IEC 8859 y sus derivados, fueron favorecidos a lo largo de la década de 1990, ya que tienen la ventaja de estar bien establecidos y ser más fáciles de implementar en software: la ecuación de un byte a un carácter es simple y adecuada para la mayoría de las aplicaciones de un solo idioma y no se pueden combinar caracteres ni formas variantes. A medida que los sistemas operativos compatibles con Unicode se generalizaron, ISO/IEC 8859 y otras codificaciones heredadas se volvieron menos populares. Si bien los restos de ISO 8859 y los modelos de caracteres de un solo byte siguen arraigados en muchos sistemas operativos, lenguajes de programación, sistemas de almacenamiento de datos, aplicaciones de red, hardware de visualización y software de aplicaciones de usuario final, la mayoría de las aplicaciones informáticas modernas utilizan Unicode internamente y dependen de la conversión. tablas para mapear hacia y desde otras codificaciones, cuando sea necesario.

Estado actual

El estándar ISO/IEC 8859 fue mantenido por el Comité Técnico Conjunto 1 de ISO/IEC, Subcomité 2, Grupo de Trabajo 3 (ISO/IEC JTC 1/SC 2/WG 3). En junio de 2004, el WG 3 se disolvió y las tareas de mantenimiento se transfirieron al SC 2 . El estándar no se está actualizando actualmente, ya que el único grupo de trabajo restante del Subcomité, WG 2, se está concentrando en el desarrollo del conjunto de caracteres codificados universales de Unicode .

El estándar de codificación WHATWG , que especifica las codificaciones de caracteres permitidas en HTML5 que deben admitir los navegadores compatibles, ^[7] incluye la mayoría de las partes de ISO/IEC 8859, ^[8] excepto las partes 1, 9 y 11, que en cambio se interpretan como Windows- 1252 , Windows-1254 y Windows-874 respectivamente. ^[9] Los autores de nuevas páginas y los diseñadores de nuevos protocolos deben utilizar UTF-8 en su lugar. ^[9]

Ver también

Lista de juegos de caracteres de computadora
Formas numéricas
Juego de caracteres RPL (un superconjunto ISO/IEC 8859-1 en las calculadoras HP, también denominado "ECMA-94")
Conjunto de caracteres multinacionales (MCS) de DEC
Conjunto de caracteres de reemplazo nacional de DEC (NRCS)

Notas

^ Faltan varias vocales acentuadas, incluidas Ǿ y ǿ . Éstas pueden sustituirse por vocales no acentuadas a costa de una mayor ambigüedad.
^ Sólo falta la Ĳ/ĳ (letra IJ) , que suele representarse como IJ.
^ ab Los caracteres que faltan están en ISO/IEC 8859-15.
^ La edición de 1985 incluye sólo una versión de ISO-8859-1.
^ La edición de 1986 define KOI8-E , que es una codificación completamente diferente.
^ 8859-5 omite la letra Ґ/ґ , que se reintrodujo en el alfabeto ucraniano en 1990.
^ Publicado en 1995, registrado en 1996. ^[6]

Referencias

^ Chaudhuri, Arindam; Mandaviya, Krupa; Badelia, Pratixa; Ghosh, Soumya K. (24 de diciembre de 2016), "Sistemas ópticos de reconocimiento de caracteres para el idioma francés", Sistemas ópticos de reconocimiento de caracteres para diferentes idiomas con informática suave , Cham: Springer International Publishing, págs. 109-136, doi :10.1007/ 978-3-319-50252-6_5, ISBN 978-3-319-50251-9, recuperado el 4 de diciembre de 2023
^ ISO/IEC JTC 1/SC 2/WG 3 (12 de febrero de 1998). Texto final de DIS 8859-1, juegos de caracteres gráficos codificados de un solo byte de 8 bits: Parte 1: Alfabeto latino n.º 1 (PDF) . ISO / IEC FDIS 8859-1:1998; JTC1/SC2/N2988; GT3/N411. Este conjunto de caracteres gráficos codificados puede considerarse como una versión de un código de 8 bits según ISO/IEC 2022 o ISO/IEC 4873 en el nivel 1. […] Las posiciones sombreadas en la tabla de códigos corresponden a combinaciones de bits que no representar personajes gráficos. Su uso está fuera del alcance de ISO/IEC 8859; se especifica en otras normas internacionales, por ejemplo ISO/IEC 6429. {{citation}}: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
^ Haralambous, Yannis (septiembre de 2007). Fuentes y codificaciones . Traducido por Horne, P. Scott (1ª ed.). Sebastopol, California, EE.UU.: O'Reilly Media, Inc. págs. 37–38. ISBN 978-0-596-10242-5. […] Según una leyenda urbana, el delegado francés estaba enfermo el día en que se sometió a votación la norma y tuvo que hacer que su homólogo belga actuara como su representante. De hecho, el delegado francés era un ingeniero que estaba convencido de que esta ligadura era inútil, y los representantes suizos y alemanes presionaron mucho para que se incluyeran los símbolos matemáticos × y ÷ en las posiciones donde lógicamente aparecerían Œ y œ . […]
^ André, Jacques (15 de octubre de 2003) [2 de octubre de 2003]. André, Bernard; Barón, Georges-Louis; Bruillard, Éric (eds.). "Histoire d'Œ, histoire d'@ des rumeurs typographiques et de leurs enseignements". Traitement de Texte et Production de Documents INRP/GEDIAPS (en francés): 19–34. Archivado desde el original el 8 de diciembre de 2016 . Consultado el 9 de diciembre de 2016 .
^ André, Jacques (noviembre de 1996). "ISO Latin-1, norma de codificación de caracteres europeos? ¡Tres caracteres franceses en sont absents!" (PDF) . Cahiers GUTenberg (en francés) (25): 65–77. Archivado desde el original (PDF) el 30 de noviembre de 2008.
^ Lazhintseva, Katya (3 de mayo de 1996). "Registro de nuevo juego de caracteres MIME: Windows-1257". IANA.
^ "8.2.2.3. Codificaciones de caracteres". HTML 5.1 2ª edición . W3C . Los agentes de usuario deben admitir las codificaciones definidas en el estándar de codificación WHATWG, que incluyen, entre otras, […]
^ van Kesteren, Ana . "Codificaciones heredadas de un solo byte". Estándar de codificación . QUÉ WG .
^ ab van Kesteren, Anne . "Nombres y etiquetas". Estándar de codificación . QUÉ WG .

Las versiones publicadas de cada parte de ISO/IEC 8859 están disponibles, mediante pago, en el sitio del catálogo ISO y en la tienda web de IEC.
Las versiones en PDF de los borradores finales de algunas partes de ISO/IEC 8859 presentadas al ISO/IEC JTC 1/SC 2/WG 3 para su revisión y publicación están disponibles en el sitio web del WG 3:
- ISO/IEC 8859-1:1998 - Juegos de caracteres gráficos codificados de un solo byte de 8 bits, Parte 1: Alfabeto latino n.° 1 (borrador de fecha 12 de febrero de 1998, publicado el 15 de abril de 1998)
- ISO/IEC 8859-4:1998 - Juegos de caracteres gráficos codificados de un solo byte de 8 bits, Parte 4: Alfabeto latino n.° 4 (borrador de fecha 12 de febrero de 1998, publicado el 1 de julio de 1998)
- ISO/IEC 8859-7:1999 - Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits, Parte 7: Alfabeto latino/griego (borrador de fecha 10 de junio de 1999; reemplazado por ISO/IEC 8859-7:2003, publicado el 10 de octubre de 2003)
- ISO/IEC 8859-10:1998 - Juegos de caracteres gráficos codificados de un solo byte de 8 bits, Parte 10: Alfabeto latino n.° 6 (borrador de fecha 12 de febrero de 1998, publicado el 15 de julio de 1998)
- ISO/IEC 8859-11:1999 - Juegos de caracteres gráficos codificados de un solo byte de 8 bits, Parte 11: Juego de caracteres latinos/tailandeses (borrador de fecha 22 de junio de 1999; reemplazado por ISO/IEC 8859-11:2001, publicado el 15 de diciembre 2001)
- ISO/IEC 8859-13:1998 - Juegos de caracteres gráficos codificados de un solo byte de 8 bits, Parte 13: Alfabeto latino n.° 7 (borrador de fecha 15 de abril de 1998, publicado el 15 de octubre de 1998)
- ISO/IEC 8859-15:1998 - Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits, Parte 15: Alfabeto latino n.° 9 (borrador de fecha 1 de agosto de 1997; reemplazado por ISO/IEC 8859-15:1999, publicado el 15 de marzo , 1999)
- ISO/IEC 8859-16:2000 - Juegos de caracteres gráficos codificados de un solo byte de 8 bits, Parte 16: Alfabeto latino n.° 10 (borrador de fecha 15 de noviembre de 1999; reemplazado por ISO/IEC 8859-16:2001, publicado el 15 de julio , 2001)
Los estándares ECMA , que corresponden exactamente a los estándares de juego de caracteres ISO/IEC 8859, se pueden encontrar en:
- Estándar ECMA-94: conjuntos de caracteres gráficos codificados de un solo byte de 8 bits: alfabetos latinos n.° 1 a n.° 4, segunda edición (junio de 1986)
- Estándar ECMA-113: conjuntos de caracteres gráficos codificados de un solo byte de 8 bits: alfabeto latino/cirílico, tercera edición (diciembre de 1999)
- Estándar ECMA-114: conjuntos de caracteres gráficos codificados de un solo byte de 8 bits - Alfabeto latino/árabe, segunda edición (diciembre de 2000)
- Estándar ECMA-118: conjuntos de caracteres gráficos codificados de un solo byte de 8 bits: alfabeto latino/griego (diciembre de 1986)
- Estándar ECMA-121: conjuntos de caracteres gráficos codificados de un solo byte de 8 bits - Alfabeto latino/hebreo, segunda edición (diciembre de 2000)
- Estándar ECMA-128: conjuntos de caracteres gráficos codificados de un solo byte de 8 bits - Alfabeto latino n.º 5, segunda edición (diciembre de 1999)
- Estándar ECMA-144: conjuntos de caracteres codificados de un solo byte de 8 bits - Alfabeto latino n.º 6, tercera edición (diciembre de 2000)
Las tablas de asignación de ISO/IEC 8859-1 a Unicode como archivos de texto sin formato se encuentran en el sitio FTP de Unicode.
Descripciones informales y tablas de códigos para la mayoría de los estándares ISO/IEC 8859 están disponibles en Sopa de letras ISO/IEC 8859 (espejo)