stringtranslate.com

ISO/IEC 8859

ISO/IEC 8859 es una serie conjunta de normas ISO e IEC para codificaciones de caracteres de 8 bits . La serie de normas consta de partes numeradas, como ISO/IEC 8859-1 , ISO/IEC 8859-2 , etc. Hay 15 partes, excluyendo la abandonada ISO/IEC 8859-12 . [1] El grupo de trabajo ISO que mantenía esta serie de normas ha sido disuelto.

Las partes 1, 2, 3 y 4 de ISO/IEC 8859 eran originalmente el estándar internacional ECMA-94 de Ecma .

Introducción

Aunque los patrones de bits de los 95 caracteres ASCII imprimibles son suficientes para intercambiar información en inglés moderno , la mayoría de los demás idiomas que utilizan alfabetos latinos necesitan símbolos adicionales que no están contemplados en ASCII. La norma ISO/IEC 8859 intentó solucionar este problema utilizando el octavo bit de un byte de 8 bits para permitir posiciones para otros 96 caracteres imprimibles. Las primeras codificaciones estaban limitadas a 7 bits debido a las restricciones de algunos protocolos de transmisión de datos y, en parte, por razones históricas. Sin embargo, se necesitaban más caracteres de los que cabían en una única codificación de caracteres de 8 bits, por lo que se desarrollaron varias asignaciones, incluidas al menos diez adecuadas para varios alfabetos latinos.

Las partes del estándar ISO/IEC 8859 solo definen caracteres imprimibles, aunque explícitamente separan los rangos de bytes 0x00–1F y 0x7F–9F como "combinaciones que no representan caracteres gráficos" (es decir, que están reservados para su uso como caracteres de control ) de acuerdo con ISO/IEC 4873 ; fueron diseñados para ser utilizados junto con un estándar separado que define las funciones de control asociadas con estos bytes, como ISO 6429 o ISO 6630. [ 2] Para este fin, una serie de codificaciones registradas en la IANA agregan el conjunto de control C0 (caracteres de control asignados a los bytes 0 a 31) de ISO 646 y el conjunto de control C1 (caracteres de control asignados a los bytes 128 a 159) de ISO 6429, lo que da como resultado mapas de caracteres completos de 8 bits con la mayoría, si no todos, los bytes asignados. Estos conjuntos tienen como nombre MIME preferido ISO-8859- n o, en los casos en los que no se especifica un nombre MIME preferido, su nombre canónico. Muchas personas utilizan los términos ISO/IEC 8859- n e ISO-8859- n indistintamente. ISO/IEC 8859-11 no obtuvo un conjunto de caracteres de este tipo, probablemente porque era casi idéntico a TIS 620 .

Personajes

El estándar ISO/IEC 8859 está diseñado para el intercambio confiable de información, no para la tipografía ; el estándar omite los símbolos necesarios para la tipografía de alta calidad, como ligaduras opcionales, comillas, guiones, etc. Como resultado, los sistemas de composición tipográfica de alta calidad a menudo utilizan extensiones propietarias o idiosincrásicas sobre los estándares ASCII e ISO/IEC 8859, o utilizan Unicode en su lugar.

Una regla inexacta basada en la experiencia práctica establece que si un carácter o símbolo no formaba parte de un conjunto de caracteres de procesamiento de datos ampliamente utilizado y tampoco se proporcionaba habitualmente en los teclados de las máquinas de escribir de un idioma nacional, no se incluía. Por lo tanto, se incluyeron las comillas dobles direccionales « y » utilizadas para algunos idiomas europeos, pero no las comillas dobles direccionales « y » utilizadas para el inglés y algunos otros idiomas.

El francés no adoptó las ligaduras œ y Œ porque podían escribirse como 'oe'. Del mismo modo, Ÿ , necesaria para texto en mayúsculas, también se eliminó. [3] [4] [5] Aunque bajo diferentes puntos de código, estos tres caracteres se reintrodujeron más tarde con ISO/IEC 8859-15 en 1999, que también introdujo el nuevo símbolo del euro €. Del mismo modo, el holandés no adoptó las letras ij y IJ , porque los hablantes de holandés se habían acostumbrado a escribirlas como dos letras.

El rumano no obtuvo inicialmente sus letras Ș / ș y Ț / ț ( con coma ), porque estas letras fueron unificadas inicialmente con Ş / ş y Ţ / ţ ( con cedilla ) por el Consorcio Unicode , considerando las formas con coma debajo como variantes de glifo de las formas con cedilla. Sin embargo, las letras con coma explícita debajo se agregaron más tarde al estándar Unicode y también están en ISO/IEC 8859-16 .

La mayoría de las codificaciones ISO/IEC 8859 proporcionan los signos diacríticos necesarios para varios idiomas europeos que utilizan el alfabeto latino. Otras proporcionan alfabetos no latinos: griego , cirílico , hebreo , árabe y tailandés . La mayoría de las codificaciones contienen solo caracteres de espaciado , aunque las del tailandés, hebreo y árabe también contienen caracteres de combinación .

El estándar no contempla los sistemas de escritura de las lenguas del este asiático ( CJK ), ya que sus sistemas de escritura ideográfica requieren miles de puntos de código. Aunque utiliza caracteres basados ​​en el latín, el vietnamita tampoco cabe en 96 posiciones (sin utilizar diacríticos combinados como en Windows-1258 ). Todos los alfabetos silábicos japoneses (hiragana o katakana, véase Kana ) encajarían, como en JIS X 0201 , pero al igual que muchos otros alfabetos del mundo, no están codificados en el sistema ISO/IEC 8859.

Las partes de la norma ISO/IEC 8859

La norma ISO/IEC 8859 se divide en las siguientes partes:

Cada parte de la norma ISO/IEC 8859 está diseñada para admitir idiomas que a menudo toman prestado de otros, por lo que los caracteres que necesita cada idioma suelen estar incluidos en una sola parte. Sin embargo, hay algunos caracteres y combinaciones de idiomas que no se pueden incluir sin transcripciones. Se hicieron esfuerzos para que las conversiones fueran lo más fluidas posible. Por ejemplo, el alemán tiene sus siete caracteres especiales en las mismas posiciones en todas las variantes latinas (1–4, 9, 10, 13–16), y en muchas posiciones los caracteres solo difieren en los diacríticos entre los conjuntos. En particular, las variantes 1–4 se diseñaron conjuntamente y tienen la propiedad de que cada carácter codificado aparece en una posición determinada o no aparece en absoluto.

Mesa

  puntos de código no asignados.
  Nuevas incorporaciones en las versiones ISO/IEC 8859-7:2003 e ISO/IEC 8859-8:1999 , anteriormente no asignadas.

Relación con Unicode y el UCS

Desde 1991, el Consorcio Unicode ha estado trabajando con ISO e IEC para desarrollar el Estándar Unicode y la ISO/IEC 10646: el Conjunto Universal de Caracteres (UCS) en conjunto. Las ediciones más nuevas de ISO/IEC 8859 expresan los caracteres en términos de sus nombres Unicode/UCS y la notación U+nnnn , lo que hace que cada parte de ISO/IEC 8859 sea efectivamente un esquema de codificación de caracteres Unicode/UCS que asigna un subconjunto muy pequeño del UCS a bytes individuales de 8 bits. Los primeros 256 caracteres en Unicode y el UCS son idénticos a los de ISO/IEC-8859-1 ( Latin-1 ).

Los conjuntos de caracteres de un solo byte que incluyen partes de la norma ISO/IEC 8859 y sus derivados fueron los preferidos durante la década de 1990, ya que tenían la ventaja de estar bien establecidos y de ser más fáciles de implementar en el software: la ecuación de un byte a un carácter es simple y adecuada para la mayoría de las aplicaciones monolingües, y no hay caracteres combinables ni formas variantes. A medida que los sistemas operativos compatibles con Unicode se hicieron más comunes, la ISO/IEC 8859 y otras codificaciones heredadas se volvieron menos populares. Si bien los remanentes de la ISO 8859 y los modelos de caracteres de un solo byte siguen arraigados en muchos sistemas operativos, lenguajes de programación, sistemas de almacenamiento de datos, aplicaciones de redes, hardware de visualización y software de aplicación para el usuario final, la mayoría de las aplicaciones informáticas modernas utilizan Unicode internamente y se basan en tablas de conversión para mapear hacia y desde otras codificaciones, cuando es necesario.

Estado actual

El estándar ISO/IEC 8859 fue mantenido por el Comité Técnico Conjunto ISO/IEC 1, Subcomité 2, Grupo de Trabajo 3 (ISO/IEC JTC 1/SC 2/WG 3). En junio de 2004, el WG 3 se disolvió y las tareas de mantenimiento fueron transferidas al SC 2. El estándar no se está actualizando actualmente, ya que el único grupo de trabajo restante del Subcomité , el WG 2, se está concentrando en el desarrollo del Conjunto de Caracteres Codificados Universales de Unicode .

El estándar de codificación WHATWG , que especifica las codificaciones de caracteres permitidas en HTML5 que los navegadores compatibles deben soportar, [12] incluye la mayoría de las partes de ISO/IEC 8859, [13] excepto las partes 1, 9 y 11, que se interpretan como Windows-1252 , Windows-1254 y Windows-874 respectivamente. [14] Se indica a los autores de nuevas páginas y a los diseñadores de nuevos protocolos que utilicen UTF-8 en su lugar. [14]

Véase también

Notas

  1. ^ Faltan varias vocales acentuadas, entre ellas Ǿ y ǿ . Se pueden reemplazar por vocales no acentuadas, lo que aumenta la ambigüedad.
  2. ^ Las codificaciones ISO 8859 tratan a IJ como un dígrafo. Algunas otras codificaciones lo tratan como una letra.
  3. ^ ab Los caracteres que faltan están en ISO/IEC 8859-15.
  4. ^ La edición de 1985 incluye sólo una versión de ISO-8859-1.
  5. ^ La edición de 1986 define KOI8-E , que es una codificación completamente diferente.
  6. ^ 8859-5 falta la letra Ґ/ґ , que fue reintroducida en el alfabeto ucraniano en 1990.
  7. ^ Publicado en 1995, registrado en 1996. [11]

Referencias

  1. ^ Chaudhuri, Arindam; Mandaviya, Krupa; Badelia, Pratixa; Ghosh, Soumya K. (24 de diciembre de 2016), "Sistemas de reconocimiento óptico de caracteres para el idioma francés", Sistemas de reconocimiento óptico de caracteres para diferentes idiomas con soft computing , Cham: Springer International Publishing, págs. 109-136, doi :10.1007/978-3-319-50252-6_5, ISBN 978-3-319-50251-9, consultado el 4 de diciembre de 2023
  2. ^ ISO/IEC JTC 1/SC 2/WG 3 (12 de febrero de 1998). Texto final de DIS 8859-1, Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits: Parte 1: Alfabeto latino n.º 1 (PDF) . ISO / IEC FDIS 8859-1:1998; JTC1/SC2/N2988; WG3/N411. Este conjunto de caracteres gráficos codificados puede considerarse una versión de un código de 8 bits según ISO/IEC 2022 o ISO/IEC 4873 en el nivel 1. [...] Las posiciones sombreadas en la tabla de códigos corresponden a combinaciones de bits que no representan caracteres gráficos. Su uso está fuera del alcance de ISO/IEC 8859; se especifica en otras normas internacionales, por ejemplo ISO/IEC 6429. {{citation}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
  3. ^ Haralambous, Yannis (septiembre de 2007). Fuentes y codificaciones . Traducido por Horne, P. Scott (1.ª ed.). Sebastopol, California, EE. UU.: O'Reilly Media, Inc., págs. 37-38. ISBN 978-0-596-10242-5Según una leyenda urbana, el delegado francés se encontraba enfermo el día en que se sometió a votación la norma y tuvo que pedirle a su homólogo belga que actuara como su representante. De hecho, el delegado francés era un ingeniero que estaba convencido de que esta ligadura era inútil, y los representantes suizos y alemanes presionaron mucho para que se incluyeran los símbolos matemáticos × y ÷ en las posiciones en las que lógicamente aparecerían Œ y œ .
  4. ^ André, Jacques (15 de octubre de 2003) [2 de octubre de 2003]. André, Bernard; Barón, Georges-Louis; Bruillard, Éric (eds.). "Histoire d'Œ, histoire d'@ des rumeurs typographiques et de leurs enseignements". Traitement de Texte et Production de Documents INRP/GEDIAPS (en francés): 19–34. Archivado desde el original el 8 de diciembre de 2016 . Consultado el 9 de diciembre de 2016 .
  5. ^ André, Jacques (noviembre de 1996). "ISO Latin-1, norma de codificación de caracteres europeos? ¡Tres caracteres franceses en sont absents!" (PDF) . Cahiers GUTenberg (en francés) (25): 65–77. Archivado desde el original (PDF) el 30 de noviembre de 2008.
  6. ^ Everson, Michael. "Propuesta ISO 8859-12 (posteriormente 14)".
  7. ^ Czyborra, Roman (12 de octubre de 1997). "La sopa de letras de la norma ISO 8859". Archivado desde el original el 17 de agosto de 2000.(NB. Nota "celta" en la antigua página de Czyborra.)
  8. ^ Jarnefors, Olle (11 de abril de 1996). «ISO-8859-10; registro de nuevos valores de conjunto de caracteres; error en el borrador MIME». Instituto Real de Tecnología (KTH). Archivado desde el original el 4 de febrero de 2012.(NB. Nota sobre la próxima parte del estándar "Devanagari" en la lista de correo de conjuntos de caracteres de la IETF).
  9. ^ "Resoluciones de la 12.ª reunión del grupo de trabajo ISO/IEC JTC 1/SC 2/WG 3, Iraklion-Creta, Grecia, 4 de julio de 1997, 07" (PDF) . Iraklion-Creta, Grecia: ISO/IEC JTC 1/SC 2 N 2933, ISO/IEC JTC 1/SC 2/WG 3 N 401. 4 de julio de 1997. Archivado desde el original (PDF) el 7 de junio de 2011. El grupo de trabajo 3 resuelve suspender cualquier actividad sobre este tema hasta que se obtenga un acuerdo general sobre la combinación de caracteres y hasta que se reciban más contribuciones.
  10. ^ Czyborra, Roman (1998-12-01). "La sopa de letras ISO 8859". Archivado desde el original el 20 de marzo de 2016.(NB. Nota "ISCII" en la nueva página de Czyborra.)
  11. ^ Lazhintseva, Katya (3 de mayo de 1996). "Registro del nuevo conjunto de caracteres MIME: Windows-1257". IANA.
  12. ^ "8.2.2.3. Codificaciones de caracteres". HTML 5.1 2.ª edición . W3C . Los agentes de usuario deben admitir las codificaciones definidas en el estándar de codificación WHATWG, incluidas, entre otras, [...]
  13. ^ van Kesteren, Ana . "Codificaciones heredadas de un solo byte". Estándar de codificación . QUÉ WG .
  14. ^ ab van Kesteren, Anne . "Nombres y etiquetas". Estándar de codificación . QUÉ WG .

Lectura adicional