stringtranslate.com

ISO/CEI 8859-1

ISO/IEC 8859-1:1998 , Tecnología de la información. Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits . Parte 1: Alfabeto latino n.° 1 , es parte de la serie ISO/IEC 8859 de codificaciones de caracteres estándar basadas en ASCII , primero. edición publicada en 1987. ISO/IEC 8859-1 codifica lo que denomina "alfabeto latino n.º 1", que consta de 191 caracteres de la escritura latina . Este esquema de codificación de caracteres se utiliza en América , Europa occidental , Oceanía y gran parte de África . Es la base de algunos conjuntos de caracteres populares de 8 bits y de los dos primeros bloques de caracteres en Unicode .

ISO-8859-1 era (al menos según el estándar) la codificación predeterminada de los documentos entregados a través de HTTP con un tipo MIME que comenzaba con text/. En diciembre de 2023 , el 1,3% de todos los sitios web (y 14 de los 1000 principales [1] ) utilizan ISO/IEC 8859-1 . [2] [3] Es la codificación de caracteres de un solo byte más declarada , pero como los navegadores web y el estándar HTML5 [4] los interpretan como el superconjunto Windows-1252 , estos documentos pueden incluir caracteres de ese conjunto.

Dependiendo del país o idioma, el uso (al menos en sitios web) puede ser mucho mayor que el promedio mundial, por ejemplo (incluido Windows-1252). En Brasil, según el uso de sitios web, el uso es del 3,8% [ 5] y en Alemania. al 3,2%. [6] [7]

ISO-8859-1 era la codificación predeterminada de los valores de ciertos encabezados HTTP descriptivos, definía el repertorio de caracteres permitidos en los documentos HTML  3.2 y está especificado por muchos otros estándares. Rara vez se supone que sea la codificación de texto en los sistemas operativos (aunque era muy común en el pasado), aunque si se usa una codificación de 8 bits, lo más probable es que se use su codificación de superconjunto Windows-1252, en Microsoft Windows si no hay marca de orden de bytes (BOM); [8] esto solo se está cambiando gradualmente a UTF-8 .

ISO-8859-1 es el nombre preferido de la IANA para este estándar cuando se complementa con los códigos de control C0 y C1 de ISO/IEC 6429 . Están registrados los siguientes otros alias: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . La página de códigos 28591, también conocida como Windows-28591, se utiliza en Windows. [9] IBM la llama página de códigos 819 o CP819 ( CCSID 819). [10] [11] [12] [13] Oracle lo llama WE8ISO8859P1 . [14]

Cobertura

Cada carácter está codificado como un único valor de código de ocho bits. Estos valores de código se pueden utilizar en casi cualquier sistema de intercambio de datos para comunicarse en los siguientes idiomas (aunque pueden excluir las comillas correctas , como en muchos idiomas, incluidos el alemán y el islandés):

Idiomas modernos con cobertura completa.

Notas
  1. ^ Ortografía clásica básica
  2. ^ Guión Rumi
  3. ^ Bokmål y Nynorsk
  4. ^ Europeo y brasileño

Idiomas con cobertura incompleta

ISO-8859-1 se usaba comúnmente [ cita necesaria ] para ciertos idiomas, aunque carece de los caracteres utilizados por estos idiomas. En la mayoría de los casos, solo faltan unas pocas letras o se usan raramente, y se pueden reemplazar con caracteres que están en ISO-8859-1 usando alguna forma de aproximación tipográfica . La siguiente tabla enumera dichos idiomas.

La letra ÿ , que aparece muy raramente en francés, principalmente en nombres de ciudades como L'Haÿ-les-Roses y nunca al principio de las palabras, se incluye únicamente en minúsculas. El espacio correspondiente a su forma mayúscula lo ocupa la letra minúscula ß del idioma alemán, que no tenía forma mayúscula en el momento en que se creó el estándar.

Comillas

Para algunos de los idiomas enumerados anteriormente, faltan las comillas tipográficas correctas, ya que solo se incluyen « », " "y . ' 'Además, este esquema no prevé comillas simples o dobles orientadas (en forma de 6 o 9). Algunas fuentes mostrarán el acento grave espaciado (0x60) y el apóstrofe (0x27) como un par coincidente de comillas simples orientadas (consulte Comillas § Máquinas de escribir y las primeras computadoras ), pero esto no se considera parte del estándar moderno.

Historia

ISO 8859-1 se basó en el conjunto de caracteres multinacional (MCS) utilizado por Digital Equipment Corporation (DEC) en el popular terminal VT220 en 1983. Fue desarrollado dentro de la Asociación Europea de Fabricantes de Computadoras (ECMA) y publicado en marzo de 1985 como ECMA. -94 , [15] por cuyo nombre todavía se le conoce a veces. La segunda edición de ECMA-94 (junio de 1986) [16] también incluyó ISO 8859-2 , ISO 8859-3 e ISO 8859-4 como parte de la especificación.

El borrador original de ISO 8859-1 colocó el francés Œ y œ en los puntos de código 215 (0xD7) y 247 (0xF7), como en el MCS. Sin embargo, el delegado de Francia, que no era ni lingüista ni tipógrafo, afirmó falsamente que no se trata de letras francesas independientes en sí mismas, sino meras ligaduras (como o ), apoyadas por el equipo de delegados de Bull Publishing Company, que regularmente no imprimía francés con Œ/œ en el estilo de su casa en ese momento. Un delegado anglófono de Canadá insistió en conservar Œ/œ pero fue rechazado por el delegado francés y el equipo de Bull. Estos puntos de código pronto se llenaron con × y ÷ por sugerencia de la delegación alemana. El apoyo al francés se redujo aún más cuando nuevamente se afirmó falsamente que la letra ÿ "no es francesa", lo que resultó en la ausencia de la Ÿ mayúscula . De hecho, la letra ÿ se encuentra en varios nombres propios franceses y la letra mayúscula se ha utilizado en diccionarios y enciclopedias. [17] Estos caracteres se agregaron a ISO/IEC 8859-15:1999 . BraSCII coincide con el borrador original.

En 1985, Commodore adoptó ECMA-94 para su nuevo sistema operativo AmigaOS . [18] La impresora matricial de impacto Seikosha MP-1300AI, utilizada con el Amiga 1000, incluía esta codificación. [ cita necesaria ]

En 1990, la primera versión de Unicode utilizó los puntos de código ISO-8859-1 como los primeros 256 puntos de código Unicode.

En 1992, la IANA registró el mapa de caracteres ISO_8859-1:1987 , más comúnmente conocido por su nombre MIME preferido de ISO-8859-1 (tenga en cuenta el guión adicional sobre ISO 8859-1), un superconjunto de ISO 8859-1, por uso en Internet . Este mapa asigna los códigos de control C0 y C1 a los valores de código no asignados, por lo que proporciona 256 caracteres a través de cada valor posible de 8 bits.

Diseño de página de códigos

Conjuntos de caracteres similares

ISO/CEI 8859-15

ISO/IEC 8859-15 se desarrolló en 1999, como una actualización de ISO/IEC 8859-1. Proporciona algunos caracteres para texto en francés y finlandés y el signo del euro , que faltan en ISO/IEC 8859-1. Esto requirió la eliminación de algunos caracteres utilizados con poca frecuencia de ISO/IEC 8859-1, incluidos símbolos de fracciones y signos diacríticos sin letras: ¤, ¦, ¨, ´, ¸, ¼, ½y ¾. Irónicamente, tres de los caracteres recién agregados ( Œ, œy Ÿ) ya estaban presentes en el Conjunto de Caracteres Multinacional (MCS) de DEC de 1983, el predecesor de ISO/IEC 8859-1 (1987). Dado que sus puntos de código originales ahora se reutilizaban para otros fines, los caracteres tuvieron que reintroducirse bajo puntos de código diferentes y menos lógicos.

ISO-IR-204, una modificación menor, se registró en 1998, alterando ISO-8859-1 reemplazando el signo de moneda universal (¤) por el signo del euro [19] (la misma sustitución realizada por ISO-8859-15 ).

Windows-1252

El popular juego de caracteres Windows-1252 agrega todos los caracteres faltantes proporcionados por ISO/IEC 8859-15 , además de una serie de símbolos tipográficos, reemplazando los controles C1 raramente utilizados en el rango de 128 a 159 ( hexadecimal 80 a 9F). Es muy común etiquetar incorrectamente el texto de Windows-1252 como si estuviera en ISO-8859-1. Un resultado común fue que todas las comillas y apóstrofes (producidos por "comillas tipográficas" en el software de procesamiento de textos) fueron reemplazados por signos de interrogación o cuadros en sistemas operativos distintos de Windows, lo que dificultaba la lectura del texto. Muchos navegadores web y clientes de correo electrónico interpretarán los códigos de control ISO-8859-1 como caracteres Windows-1252, y ese comportamiento se estandarizó posteriormente en HTML5 . [20]

mac romano

La computadora Apple Macintosh introdujo una codificación de caracteres llamada Mac Roman en 1984. Estaba destinada a ser adecuada para la autoedición en Europa occidental . Es un superconjunto de ASCII y tiene la mayoría de los caracteres que están en ISO-8859-1 y todos los caracteres adicionales de Windows-1252, pero en una disposición totalmente diferente. Los pocos caracteres imprimibles que están en ISO/IEC 8859-1, pero que no están en este conjunto, suelen ser una fuente de problemas al editar texto en sitios web que utilizan navegadores Macintosh más antiguos, incluida la última versión de Internet Explorer para Mac .

Otro

DOS tiene la página de códigos 850 , que tiene todos los caracteres imprimibles que tiene ISO-8859-1, aunque en una disposición totalmente diferente, además de los caracteres gráficos más utilizados de la página de códigos 437 .

Entre 1989 [21] y 2015, Hewlett-Packard utilizó otro superconjunto de ISO-8859-1 en muchas de sus calculadoras. A veces, este conjunto de caracteres patentado también se denominaba simplemente "ECMA-94". [21] HP también tiene la página de códigos 1053 , que agrega el tono medio (▒, U+2592) en 0x7F. [22]

Varias páginas de códigos EBCDIC se diseñaron específicamente para tener el mismo conjunto de caracteres que ISO-8859-1, para permitir una fácil conversión entre ellas.

Ver también

Referencias

  1. ^ "Encuesta de uso de codificaciones de caracteres desglosada por clasificación". w3techs.com . Consultado el 1 de diciembre de 2023 .
  2. ^ "Tendencias históricas en las estadísticas de uso de codificaciones de caracteres para sitios web, diciembre de 2023". w3techs.com . Consultado el 1 de diciembre de 2023 .
  3. ^ "¿Fuente de las estadísticas de codificación de caracteres?". w3techs.com .
  4. ^ "Codificación". QUÉ WG . 27 de enero de 2015. sec. 5.2 Nombres y etiquetas. Archivado desde el original el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
  5. ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan Brasil". w3techs.com . Consultado el 1 de diciembre de 2023 .
  6. ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan .de". w3techs.com . Consultado el 1 de diciembre de 2023 .
  7. ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan el alemán". w3techs.com . Consultado el 16 de enero de 2023 .
  8. ^ "c++: ¿Cuál es la codificación de cadena estrecha nativa en Windows?". Desbordamiento de pila . Consultado el 16 de febrero de 2023 .
  9. ^ "Identificadores de página de códigos". Corporación Microsoft . Consultado el 19 de diciembre de 2010 .
  10. ^ "Documento informativo de la página de códigos 819". Archivado desde el original el 16 de enero de 2017.
  11. ^ "Documento informativo CCSID 819". Archivado desde el original el 27 de marzo de 2016.
  12. ^ Página de códigos CPGID 00819 (pdf) (PDF) , IBM
  13. ^ Página de códigos CPGID 00819 (txt), IBM
  14. ^ Baird, Cathy; Chiba, Dan; Chu, Winson; Fanático, Jessica; Hola, Claire; Ley, Simón; Lee, Geoff; Linsley, Peter; Matsuda, Keni; Oscroft, Tamzin; Takeda, Shige; Tanaka, Linus; Tozawa, Makoto; Cierto, Barry; Tsujimoto, Mayumi; Wu, Ying; Yau, Michael; Yu, Tim; Wang, Chao; Wong, Simón; Zhang, Weiran; Zheng, Lei; Zhu, Yan; Moore, Valarie (2002) [1996]. "Apéndice A: Datos locales". Guía de soporte para la globalización de la base de datos Oracle9i (PDF) (versión 2 (9.2) ed.). Corporación Oráculo . Oráculo A96529-01. Archivado (PDF) desde el original el 14 de febrero de 2017 . Consultado el 14 de febrero de 2017 .
  15. ^ ab Estándar ECMA-94: conjunto de caracteres gráficos codificados de un solo byte de 8 bits (PDF) (1 ed.). Asociación Europea de Fabricantes de Computadoras (ECMA). Marzo de 1985 [14 de diciembre de 1984]. Archivado (PDF) desde el original el 2 de diciembre de 2016 . Consultado el 1 de diciembre de 2016 . […] Desde 1982, la ECMA y ANSI/X3L2 reconocieron la urgencia de la necesidad de un juego de caracteres codificados de un solo byte de 8 bits y se intercambiaron numerosos documentos de trabajo entre los dos grupos. En febrero de 1984, ECMA TC1 presentó a ISO/TC97/SC2 una propuesta para dicho conjunto de caracteres codificados. En su reunión de abril de 1984, el SC decidió presentar al TC97 una propuesta para un nuevo tema de trabajo para este tema. Las discusiones técnicas durante y después de esta reunión llevaron al TC1 a adoptar el esquema de codificación propuesto por X3L2. La Parte 1 del Proyecto de Norma Internacional DTS 8859 se basa en esta propuesta conjunta ANSI/ECMA. […] Adoptado como estándar ECMA por la Asamblea General del 13 al 14 de diciembre de 1984. […]
  16. ^ "Segunda edición de ECMA-94 (junio de 1986)" (PDF) .
  17. ^ Jacques, André (1996). "ISO Latin-1, norma de codificación de caracteres europeos? ¡Tres caracteres franceses en sont absents!" (PDF) . Cahiers GUTenberg (25): 65–77.
  18. ^ Malyshev, Michael (10 de enero de 2003). "Registro de nuevo juego de caracteres [Amiga-1251]". ATO-RU (Organización de traducción Amiga - Departamento de Rusia). Archivado desde el original el 5 de diciembre de 2016 . Consultado el 5 de diciembre de 2016 .
  19. ^ Estandarización de tecnologías de la información ITS (16 de septiembre de 1998). Conjunto complementario para alternativa Latin-1 con SIGNO EURO (PDF) . ITSCJ/ IPSJ . ISO-IR -204.
  20. ^ van Kesteren, Anne (27 de enero de 2015). "5.2 Nombres y etiquetas". Estándar de codificación . QUÉ WG . Archivado desde el original el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
  21. ^ ab Impresora infrarroja HP ​​82240B (1 ed.). Corvallis, Oregón, Estados Unidos: Hewlett-Packard . Agosto de 1989. Número de pedido de HP 82240-90014 . Consultado el 1 de agosto de 2016 .
  22. ^ "Página de códigos 1053" (PDF) . Archivado desde el original (PDF) el 21 de enero de 2013.

enlaces externos