ISO/IEC 8859-1:1998 , Tecnología de la información. Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits . Parte 1: Alfabeto latino n.° 1 , es parte de la serie ISO/IEC 8859 de codificaciones de caracteres estándar basadas en ASCII , primero. edición publicada en 1987. ISO/IEC 8859-1 codifica lo que denomina "alfabeto latino n.º 1", que consta de 191 caracteres de la escritura latina . Este esquema de codificación de caracteres se utiliza en América , Europa occidental , Oceanía y gran parte de África . Es la base de algunos conjuntos de caracteres populares de 8 bits y de los dos primeros bloques de caracteres en Unicode .
ISO-8859-1 era (al menos según el estándar) la codificación predeterminada de los documentos entregados a través de HTTP con un tipo MIME que comenzaba con text/
. En diciembre de 2023 [actualizar], el 1,3% de todos los sitios web (y 14 de los 1000 principales [1] ) utilizan ISO/IEC 8859-1 . [2] [3] Es la codificación de caracteres de un solo byte más declarada , pero como los navegadores web y el estándar HTML5 [4] los interpretan como el superconjunto Windows-1252 , estos documentos pueden incluir caracteres de ese conjunto.
Dependiendo del país o idioma, el uso (al menos en sitios web) puede ser mucho mayor que el promedio mundial, por ejemplo (incluido Windows-1252). En Brasil, según el uso de sitios web, el uso es del 3,8% [ 5] y en Alemania. al 3,2%. [6] [7]
ISO-8859-1 era la codificación predeterminada de los valores de ciertos encabezados HTTP descriptivos, definía el repertorio de caracteres permitidos en los documentos HTML 3.2 y está especificado por muchos otros estándares. Rara vez se supone que sea la codificación de texto en los sistemas operativos (aunque era muy común en el pasado), aunque si se usa una codificación de 8 bits, lo más probable es que se use su codificación de superconjunto Windows-1252, en Microsoft Windows si no hay marca de orden de bytes (BOM); [8] esto solo se está cambiando gradualmente a UTF-8 .
ISO-8859-1 es el nombre preferido de la IANA para este estándar cuando se complementa con los códigos de control C0 y C1 de ISO/IEC 6429 . Están registrados los siguientes otros alias: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . La página de códigos 28591, también conocida como Windows-28591, se utiliza en Windows. [9] IBM la llama página de códigos 819 o CP819 ( CCSID 819). [10] [11] [12] [13] Oracle lo llama WE8ISO8859P1 . [14]
Cada carácter está codificado como un único valor de código de ocho bits. Estos valores de código se pueden utilizar en casi cualquier sistema de intercambio de datos para comunicarse en los siguientes idiomas (aunque pueden excluir las comillas correctas , como en muchos idiomas, incluidos el alemán y el islandés):
ISO-8859-1 se usaba comúnmente [ cita necesaria ] para ciertos idiomas, aunque carece de los caracteres utilizados por estos idiomas. En la mayoría de los casos, solo faltan unas pocas letras o se usan raramente, y se pueden reemplazar con caracteres que están en ISO-8859-1 usando alguna forma de aproximación tipográfica . La siguiente tabla enumera dichos idiomas.
La letra ÿ , que aparece muy raramente en francés, principalmente en nombres de ciudades como L'Haÿ-les-Roses y nunca al principio de las palabras, se incluye únicamente en minúsculas. El espacio correspondiente a su forma mayúscula lo ocupa la letra minúscula ß del idioma alemán, que no tenía forma mayúscula en el momento en que se creó el estándar.
Para algunos de los idiomas enumerados anteriormente, faltan las comillas tipográficas correctas, ya que solo se incluyen « »
, " "
y . ' '
Además, este esquema no prevé comillas simples o dobles orientadas (en forma de 6 o 9). Algunas fuentes mostrarán el acento grave espaciado (0x60) y el apóstrofe (0x27) como un par coincidente de comillas simples orientadas (consulte Comillas § Máquinas de escribir y las primeras computadoras ), pero esto no se considera parte del estándar moderno.
ISO 8859-1 se basó en el conjunto de caracteres multinacional (MCS) utilizado por Digital Equipment Corporation (DEC) en el popular terminal VT220 en 1983. Fue desarrollado dentro de la Asociación Europea de Fabricantes de Computadoras (ECMA) y publicado en marzo de 1985 como ECMA. -94 , [15] por cuyo nombre todavía se le conoce a veces. La segunda edición de ECMA-94 (junio de 1986) [16] también incluyó ISO 8859-2 , ISO 8859-3 e ISO 8859-4 como parte de la especificación.
El borrador original de ISO 8859-1 colocó el francés Œ y œ en los puntos de código 215 (0xD7) y 247 (0xF7), como en el MCS. Sin embargo, el delegado de Francia, que no era ni lingüista ni tipógrafo, afirmó falsamente que no se trata de letras francesas independientes en sí mismas, sino meras ligaduras (como fi o fl ), apoyadas por el equipo de delegados de Bull Publishing Company, que regularmente no imprimía francés con Œ/œ en el estilo de su casa en ese momento. Un delegado anglófono de Canadá insistió en conservar Œ/œ pero fue rechazado por el delegado francés y el equipo de Bull. Estos puntos de código pronto se llenaron con × y ÷ por sugerencia de la delegación alemana. El apoyo al francés se redujo aún más cuando nuevamente se afirmó falsamente que la letra ÿ "no es francesa", lo que resultó en la ausencia de la Ÿ mayúscula . De hecho, la letra ÿ se encuentra en varios nombres propios franceses y la letra mayúscula se ha utilizado en diccionarios y enciclopedias. [17] Estos caracteres se agregaron a ISO/IEC 8859-15:1999 . BraSCII coincide con el borrador original.
En 1985, Commodore adoptó ECMA-94 para su nuevo sistema operativo AmigaOS . [18] La impresora matricial de impacto Seikosha MP-1300AI, utilizada con el Amiga 1000, incluía esta codificación. [ cita necesaria ]
En 1990, la primera versión de Unicode utilizó los puntos de código ISO-8859-1 como los primeros 256 puntos de código Unicode.
En 1992, la IANA registró el mapa de caracteres ISO_8859-1:1987 , más comúnmente conocido por su nombre MIME preferido de ISO-8859-1 (tenga en cuenta el guión adicional sobre ISO 8859-1), un superconjunto de ISO 8859-1, por uso en Internet . Este mapa asigna los códigos de control C0 y C1 a los valores de código no asignados, por lo que proporciona 256 caracteres a través de cada valor posible de 8 bits.
ISO/IEC 8859-15 se desarrolló en 1999, como una actualización de ISO/IEC 8859-1. Proporciona algunos caracteres para texto en francés y finlandés y el signo del euro , que faltan en ISO/IEC 8859-1. Esto requirió la eliminación de algunos caracteres utilizados con poca frecuencia de ISO/IEC 8859-1, incluidos símbolos de fracciones y signos diacríticos sin letras: ¤
, ¦
, ¨
, ´
, ¸
, ¼
, ½
y ¾
. Irónicamente, tres de los caracteres recién agregados ( Œ
, œ
y Ÿ
) ya estaban presentes en el Conjunto de Caracteres Multinacional (MCS) de DEC de 1983, el predecesor de ISO/IEC 8859-1 (1987). Dado que sus puntos de código originales ahora se reutilizaban para otros fines, los caracteres tuvieron que reintroducirse bajo puntos de código diferentes y menos lógicos.
ISO-IR-204, una modificación menor, se registró en 1998, alterando ISO-8859-1 reemplazando el signo de moneda universal (¤) por el signo del euro [19] (la misma sustitución realizada por ISO-8859-15 ).
El popular juego de caracteres Windows-1252 agrega todos los caracteres faltantes proporcionados por ISO/IEC 8859-15 , además de una serie de símbolos tipográficos, reemplazando los controles C1 raramente utilizados en el rango de 128 a 159 ( hexadecimal 80 a 9F). Es muy común etiquetar incorrectamente el texto de Windows-1252 como si estuviera en ISO-8859-1. Un resultado común fue que todas las comillas y apóstrofes (producidos por "comillas tipográficas" en el software de procesamiento de textos) fueron reemplazados por signos de interrogación o cuadros en sistemas operativos distintos de Windows, lo que dificultaba la lectura del texto. Muchos navegadores web y clientes de correo electrónico interpretarán los códigos de control ISO-8859-1 como caracteres Windows-1252, y ese comportamiento se estandarizó posteriormente en HTML5 . [20]
La computadora Apple Macintosh introdujo una codificación de caracteres llamada Mac Roman en 1984. Estaba destinada a ser adecuada para la autoedición en Europa occidental . Es un superconjunto de ASCII y tiene la mayoría de los caracteres que están en ISO-8859-1 y todos los caracteres adicionales de Windows-1252, pero en una disposición totalmente diferente. Los pocos caracteres imprimibles que están en ISO/IEC 8859-1, pero que no están en este conjunto, suelen ser una fuente de problemas al editar texto en sitios web que utilizan navegadores Macintosh más antiguos, incluida la última versión de Internet Explorer para Mac .
DOS tiene la página de códigos 850 , que tiene todos los caracteres imprimibles que tiene ISO-8859-1, aunque en una disposición totalmente diferente, además de los caracteres gráficos más utilizados de la página de códigos 437 .
Entre 1989 [21] y 2015, Hewlett-Packard utilizó otro superconjunto de ISO-8859-1 en muchas de sus calculadoras. A veces, este conjunto de caracteres patentado también se denominaba simplemente "ECMA-94". [21] HP también tiene la página de códigos 1053 , que agrega el tono medio (▒, U+2592) en 0x7F. [22]
Varias páginas de códigos EBCDIC se diseñaron específicamente para tener el mismo conjunto de caracteres que ISO-8859-1, para permitir una fácil conversión entre ellas.
[…] Desde 1982, la ECMA y ANSI/X3L2 reconocieron la urgencia de la necesidad de un juego de caracteres codificados de un solo byte de 8 bits y se intercambiaron numerosos documentos de trabajo entre los dos grupos.
En febrero de 1984, ECMA TC1 presentó a ISO/TC97/SC2 una propuesta para dicho conjunto de caracteres codificados.
En su reunión de abril de 1984, el SC decidió presentar al TC97 una propuesta para un nuevo tema de trabajo para este tema.
Las discusiones técnicas durante y después de esta reunión llevaron al TC1 a adoptar el esquema de codificación propuesto por X3L2.
La Parte 1 del Proyecto de Norma Internacional DTS 8859 se basa en esta propuesta conjunta ANSI/ECMA.
[…] Adoptado como estándar ECMA por la Asamblea General del 13 al 14 de diciembre de 1984. […]