ISO/IEC 8859-1

ISO/IEC 8859-1:1998 , Tecnología de la información: Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits : Parte 1: Alfabeto latino n.º 1 , forma parte de la serie ISO/IEC 8859 de codificaciones de caracteres estándar basadas en ASCII , cuya primera edición se publicó en 1987. ISO/IEC 8859-1 codifica lo que denomina " alfabeto latino n.º 1 ", que consta de 191 caracteres del alfabeto latino . Este esquema de codificación de caracteres se utiliza en todo el continente americano , Europa occidental , Oceanía y gran parte de África . Es la base de algunos conjuntos de caracteres de 8 bits populares y de los dos primeros bloques de caracteres de Unicode .

A partir de julio de 2024 ^[actualizar], el 1,2% de todos los sitios web utilizan ISO/IEC 8859-1 . ^[1]^[2] Es la codificación de caracteres de un solo byte más declarada, pero como los navegadores web y el estándar HTML5 ^[3] los interpretan como el superconjunto Windows-1252 , estos documentos pueden incluir caracteres de ese conjunto. Dependiendo del país o el idioma, el uso de sitios web puede ser superior al promedio mundial, en Brasil es del 3,4%, ^[4] y en Alemania del 2,7%. ^[5]^[6]

ISO-8859-1 era (según el estándar, al menos) la codificación predeterminada de los documentos entregados a través de HTTP con un tipo MIME que comenzaba con text/, la codificación predeterminada de los valores de ciertos encabezados HTTP descriptivos y definía el repertorio de caracteres permitidos en los documentos HTML 3.2. Está especificada por muchos otros estándares. ^{[ ejemplo necesario ]} En la práctica, la codificación de superconjunto Windows-1252 es la codificación predeterminada efectiva más probable ^[7] y es cada vez más común que los estándares (al menos de manera no oficial) ^{[ aclaración necesaria ]} establezcan de manera predeterminada UTF-8 .

ISO-8859-1 es el nombre preferido de IANA para este estándar cuando se complementa con los códigos de control C0 y C1 de ISO/IEC 6429. Los siguientes otros alias están registrados: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . La página de códigos 28591, también conocida como Windows-28591, se utiliza para este estándar en Windows. ^[8] IBM lo llama página de códigos 819 o CP819 ( CCSID 819 ). ^[9]^[10]^[11]^[12] Oracle lo llama WE8ISO8859P1 . ^[13]

Cobertura

Cada carácter se codifica como un único valor de código de ocho bits. Estos valores de código se pueden utilizar en casi cualquier sistema de intercambio de datos para comunicarse en los siguientes idiomas (aunque pueden excluirse las comillas correctas , como en muchos idiomas, incluidos el alemán y el islandés ):

Idiomas modernos con cobertura completa

Notas

^ Ortografía clásica básica
^ Escritura de Rumi
^ Bokmål y Nynorsk
^ Europea y brasileña

Idiomas con cobertura incompleta

La norma ISO-8859-1 se utilizaba comúnmente ^{[ cita requerida ]} para ciertos idiomas, aunque carecía de caracteres utilizados por estos idiomas. En la mayoría de los casos, solo faltan algunas letras o se utilizan raramente, y se pueden reemplazar con caracteres que están en la norma ISO-8859-1 utilizando alguna forma de aproximación tipográfica . La siguiente tabla enumera dichos idiomas.

La letra ÿ , que en francés aparece muy raramente, sobre todo en nombres de ciudades como L'Haÿ-les-Roses y nunca al principio de palabras, se incluye únicamente en minúscula. El lugar correspondiente a su mayúscula lo ocupa la letra ß minúscula del idioma alemán, que no tenía mayúscula en el momento de la creación de la norma.

Comillas

En algunos idiomas mencionados anteriormente, faltan las comillas« » tipográficas correctas, ya que solo se incluyen , " "y ' '. Además, este esquema no permite comillas simples o dobles orientadas (en forma de 6 o 9). Algunas fuentes mostrarán el acento grave de espaciado (0x60) y el apóstrofo (0x27) como un par coincidente de comillas simples orientadas (consulte Comillas § Máquinas de escribir y primeras computadoras ), pero esto no se considera parte del estándar moderno.

Historia

La norma ISO 8859-1 se basó en el conjunto de caracteres multinacionales (MCS) utilizado por Digital Equipment Corporation (DEC) en el popular terminal VT220 en 1983. Se desarrolló en el seno de la Asociación Europea de Fabricantes de Ordenadores (ECMA) y se publicó en marzo de 1985 como ECMA-94 , ^[14] nombre por el que todavía se la conoce a veces. La segunda edición de ECMA-94 (junio de 1986) ^[15] también incluía las normas ISO 8859-2 , ISO 8859-3 e ISO 8859-4 como parte de la especificación.

El borrador original de la norma ISO 8859-1 colocaba las letras francesas Œ y œ en los puntos de código 215 (0xD7) y 247 (0xF7), como en el MCS. Sin embargo, el delegado de Francia, que no era ni lingüista ni tipógrafo, afirmó falsamente que no se trataba de letras francesas independientes por sí mismas, sino de simples ligaduras (como ﬁ o ﬂ ), con el apoyo del equipo de delegados de Bull Publishing Company, que no solía imprimir el francés con Œ/œ en su estilo de la casa en ese momento. Un delegado anglófono de Canadá insistió en conservar Œ/œ, pero fue rechazado por el delegado francés y el equipo de Bull. Estos puntos de código se rellenaron pronto con × y ÷ por sugerencia de la delegación alemana. El apoyo al francés se redujo aún más cuando se afirmó nuevamente falsamente que la letra ÿ "no es francesa", lo que dio como resultado la ausencia de la mayúscula Ÿ . De hecho, la letra ÿ se encuentra en varios nombres propios franceses, y la letra mayúscula se ha utilizado en diccionarios y enciclopedias. ^[16] Estos caracteres se agregaron a la norma ISO/IEC 8859-15:1999 . BraSCII coincide con el borrador original.

En 1985, Commodore adoptó ECMA-94 para su nuevo sistema operativo AmigaOS . ^[17] La impresora matricial de impacto Seikosha MP-1300AI, utilizada con el Amiga 1000, incluía esta codificación. ^{[ cita requerida ]}

En 1990, la primera versión de Unicode utilizó los puntos de código de ISO-8859-1 como los primeros 256 puntos de código Unicode.

En 1992, la IANA registró el mapa de caracteres ISO_8859-1:1987 , más conocido por su nombre MIME preferido de ISO-8859-1 (nótese el guión adicional sobre ISO 8859-1), un superconjunto de ISO 8859-1, para su uso en Internet . Este mapa asigna los códigos de control C0 y C1 a los valores de código no asignados, por lo que proporciona 256 caracteres a través de cada valor posible de 8 bits.

Diseño de la página de códigos

Conjuntos de caracteres similares

ISO/IEC 8859-15

La norma ISO/IEC 8859-15 se desarrolló en 1999 como una actualización de la norma ISO/IEC 8859-1. Proporciona algunos caracteres para texto en francés y finlandés y el símbolo del euro , que no se encuentran en la norma ISO/IEC 8859-1. Esto requirió la eliminación de algunos caracteres poco utilizados de la norma ISO/IEC 8859-1, incluidos los símbolos de fracción y los diacríticos sin letras: ¤, ¦, ¨, ´, ¸, ¼, ½, y ¾. Irónicamente, tres de los caracteres recientemente agregados ( Œ, œ, y Ÿ) ya estaban presentes en el Conjunto de caracteres multinacionales (MCS) de DEC de 1983 , el predecesor de la norma ISO/IEC 8859-1 (1987). Dado que sus puntos de código originales ahora se reutilizaban para otros fines, los caracteres tuvieron que reintroducirse bajo puntos de código diferentes y menos lógicos.

ISO-IR-204, una modificación menor (llamada página de códigos 61235 por FreeDOS), ^[18] había sido registrada en 1998, alterando ISO-8859-1 al reemplazar el signo monetario universal (¤) con el signo del euro ^[19] (la misma sustitución realizada por ISO-8859-15).

Ventanas-1252

El popular conjunto de caracteres Windows-1252 agrega todos los caracteres faltantes provistos por ISO/IEC 8859-15 , más una cantidad de símbolos tipográficos, reemplazando los controles C1 raramente utilizados en el rango 128 a 159 ( hexadecimal 80 a 9F). Es muy común etiquetar incorrectamente el texto Windows-1252 como si estuviera en ISO-8859-1. Un resultado común fue que todas las comillas y apóstrofos (producidos por "comillas inteligentes" en el software de procesamiento de textos) fueron reemplazados por signos de interrogación o cuadros en sistemas operativos que no eran Windows, lo que dificulta la lectura del texto. Muchos navegadores web y clientes de correo electrónico interpretarán los códigos de control ISO-8859-1 como caracteres Windows-1252, y ese comportamiento se estandarizó más tarde en HTML5 . ^[20]

Macromántico

En 1984, la computadora Apple Macintosh introdujo una codificación de caracteres llamada Mac Roman , que estaba pensada para ser adecuada para la autoedición en Europa occidental . Es un superconjunto de ASCII y tiene la mayoría de los caracteres que están en ISO-8859-1 y todos los caracteres adicionales de Windows-1252, pero en una disposición totalmente diferente. Los pocos caracteres imprimibles que están en ISO/IEC 8859-1, pero no en este conjunto, suelen ser una fuente de problemas al editar texto en sitios web que utilizan navegadores Macintosh más antiguos, incluida la última versión de Internet Explorer para Mac .

Otro

DOS tiene la página de códigos 850 , que tiene todos los caracteres imprimibles que tiene ISO-8859-1, aunque en una disposición totalmente diferente, además de los caracteres gráficos más utilizados de la página de códigos 437 .

Entre 1989 ^[21] y 2015, Hewlett-Packard utilizó otro superconjunto de ISO-8859-1 en muchas de sus calculadoras. Este conjunto de caracteres propietario también se conocía a veces simplemente como "ECMA-94". ^[21] HP también tiene la página de códigos 1053 , que agrega el tono medio (▒, U+2592) en 0x7F. ^[22]

Varias páginas de códigos EBCDIC fueron diseñadas deliberadamente para tener el mismo conjunto de caracteres que ISO-8859-1, para permitir una fácil conversión entre ellos.

Véase también

Referencias

^ "Tendencias históricas en las estadísticas de uso de codificaciones de caracteres para sitios web, julio de 2024". W3Techs . Archivado desde el original el 4 de abril de 2024 . Consultado el 19 de julio de 2024 .
^ Cowan, John; Soltano, Sam (agosto de 2014). "¿Fuente de las estadísticas de codificación de caracteres?". W3Techs . Archivado desde el original el 4 de abril de 2024.
^ "Codificación". WHATWG . 27 de enero de 2015. sec. 5.2 Nombres y etiquetas. Archivado desde el original el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
^ "Distribución de codificaciones de caracteres entre sitios web que utilizan Brasil". W3Techs . Archivado desde el original el 4 de abril de 2024 . Consultado el 19 de julio de 2024 .
^ "Distribución de codificaciones de caracteres entre sitios web que utilizan .de". W3Techs . Archivado desde el original el 4 de abril de 2024 . Consultado el 19 de julio de 2024 .
^ "Distribución de codificaciones de caracteres entre sitios web que utilizan el alemán". W3Techs . Archivado desde el original el 4 de abril de 2024 . Consultado el 16 de enero de 2023 .
^ "c++ - ¿Cuál es la codificación nativa de cadenas estrechas en Windows?". Stack Overflow . Enero de 2011 . Consultado el 16 de febrero de 2023 .
^ "Identificadores de páginas de códigos". Microsoft Corporation . Consultado el 19 de diciembre de 2010 .
^ "Documento informativo de la página de códigos 819". Archivado desde el original el 16 de enero de 2017.
^ "Documento informativo del CCSID 819". Archivado desde el original el 27 de marzo de 2016.
^ Página de códigos CPGID 00819 (pdf) (PDF) , IBM
^ Página de códigos CPGID 00819 (txt), IBM
^ Baird, Cathy; Chiba, Dan; Chu, Winson; Fan, Jessica; Ho, Claire; Law, Simon; Lee, Geoff; Linsley, Peter; Matsuda, Keni; Oscroft, Tamzin; Takeda, Shige; Tanaka, Linus; Tozawa, Makoto; Trute, Barry; Tsujimoto, Mayumi; Wu, Ying; Yau, Michael; Yu, Tim; Wang, Chao; Wong, Simon; Zhang, Weiran; Zheng, Lei; Zhu, Yan; Moore, Valarie (2002) [1996]. "Apéndice A: Datos de configuración regional". Guía de soporte de globalización de bases de datos Oracle9i (PDF) (edición de la versión 2 (9.2)). Oracle Corporation . Oracle A96529-01. Archivado (PDF) desde el original el 2017-02-14 . Consultado el 2017-02-14 .
^ ab Estándar ECMA-94: Juego de caracteres gráficos codificados de un solo byte de 8 bits (PDF) (1 ed.). Asociación Europea de Fabricantes de Computadoras (ECMA). Marzo de 1985 [1984-12-14]. Archivado (PDF) desde el original el 2016-12-02 . Consultado el 2016-12-01 . […] Desde 1982, la urgencia de la necesidad de un juego de caracteres codificados de un solo byte de 8 bits fue reconocida en ECMA así como en ANSI/X3L2 y se intercambiaron numerosos documentos de trabajo entre los dos grupos. En febrero de 1984, ECMA TC1 presentó a ISO/TC97/SC2 una propuesta para dicho juego de caracteres codificados. En su reunión de abril de 1984, SC decidió presentar a TC97 una propuesta para un nuevo elemento de trabajo para este tema. Las discusiones técnicas durante y después de esta reunión llevaron a TC1 a adoptar el esquema de codificación propuesto por X3L2. La Parte 1 del Proyecto de Norma Internacional DTS 8859 se basa en esta propuesta conjunta ANSI/ECMA. […] Adoptada como Norma ECMA por la Asamblea General del 13 y 14 de diciembre de 1984. […]
^ "Segunda edición de ECMA-94 (junio de 1986)" (PDF) .
^ André, Jacques (1996). "ISO Latin-1, norma de codificación de caracteres europeos? ¡Tres caracteres franceses en sont absents!" (PDF) . Cahiers GUTenberg (en francés) (25): 65–77. doi :10.5802/cg.205.
^ Malyshev, Michael (10 de enero de 2003). "Registro de un nuevo conjunto de caracteres [Amiga-1251]". ATO-RU (Organización de traducción de Amiga - Departamento de ruso). Archivado desde el original el 5 de diciembre de 2016. Consultado el 5 de diciembre de 2016 .
^ "Cpi/CPIISO/Codepage.TXT en master · FDOS/Cpi". GitHub .
^ Normalización de la tecnología de la información ITS (16 de septiembre de 1998). Conjunto complementario para la alternativa Latin-1 con el signo del euro (PDF) . ITSCJ/ IPSJ . ISO-IR -204.
^ van Kesteren, Anne (27 de enero de 2015). «5.2 Nombres y etiquetas». Estándar de codificación . WHATWG . Archivado desde el original el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
^ ab Impresora infrarroja HP 82240B (1.ª edición). Corvallis, OR, EE. UU.: Hewlett-Packard . Agosto de 1989. Número de pedido de HP 82240-90014.
^ "Página de códigos 1053" (PDF) . Archivado desde el original (PDF) el 21 de enero de 2013.

Enlaces externos

ISO/IEC 8859-1:1998
ISO/IEC FDIS 8859-1:1998 Archivado el 30 de septiembre de 2020 en Wayback Machine — Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits, Parte 1: Alfabeto latino n.º 1 (borrador con fecha del 12 de febrero de 1998, publicado el 15 de abril de 1998)
Norma ECMA-94: Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits: alfabetos latinos n.º 1 a n.º 4, 2.ª edición (junio de 1986)
ISO-IR 100 Parte derecha del alfabeto latino n.º 1 (1 de febrero de 1986)
La base de datos de cartas
Czyborra, Roman (1998-12-01). "La sopa de letras ISO 8859". Archivado desde el original el 2016-12-01 . Consultado el 2016-12-01 .[1] [2]