stringtranslate.com

ISO/IEC 8859-2

ISO/IEC 8859-2:1999 , Tecnología de la información — Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits — Parte 2: Alfabeto latino n.º 2 , es parte de la serie ISO/IEC 8859 de codificaciones de caracteres estándar basadas en ASCII , primera edición publicada en 1987. Se la conoce informalmente como "Latin-2". Generalmente está destinada a idiomas de Europa central [1] o "Europa del este" que se escriben en alfabeto latino. Tenga en cuenta que ISO/IEC 8859-2 es muy diferente de la página de códigos 852 (MS-DOS Latin 2, PC Latin 2), que también se conoce como "Latin-2" en las regiones checa y eslovaca. [2] Casi la mitad del uso de la codificación es para polaco, y es la principal codificación heredada para polaco, mientras que prácticamente todo su uso ha sido reemplazado por UTF-8 (en la web).

ISO-8859-2 es el nombre de conjunto de caracteres preferido por la IANA para este estándar cuando se complementa con los códigos de control C0 y C1 de ISO/IEC 6429. Menos del 0,04 % de todas las páginas web utilizan ISO-8859-2 a octubre de 2022. [3] [4] Microsoft ha asignado la página de códigos 28592, también conocida como Windows-28592 , a ISO-8859-2 en Windows. IBM asignó la página de códigos 912 a ISO 8859-2, [5] hasta que esa página de códigos se amplió en 1999. [6] La página de códigos 1111 es similar, pero reemplaza el byte B0 ° (signo de grado) con U+02DA ˚ (anillo de arriba).

Windows-1250 es similar a ISO-8859-2 y tiene todos los caracteres imprimibles de este último y más. Sin embargo, algunos de ellos están reorganizados (a diferencia de Windows-1252 , que mantiene todos los caracteres imprimibles de ISO-8859-1 en el mismo lugar).

Cobertura lingüística

Estos valores de código se pueden utilizar para los siguientes idiomas:

  1. ^ La letra faltante Å es oficialmente parte del alfabeto finlandés , sin embargo no tiene un uso nativo y su uso está limitado únicamente a nombres extranjeros.
  2. ^ En 2017, el Consejo de Ortografía Alemana agregó oficialmente una ẞ mayúscula , pero en realidad no es necesaria ya que se puede usar SS en su lugar.
  3. ^ Este conjunto de caracteres unifica Ș y Ț (S, T con comas debajo) con Ş y Ţ (S, T con cedillas ), como lo hicieron virtualmente todos los demás conjuntos de caracteres, incluido Windows-1250 de Microsoft y la primera versión de Unicode . Sin embargo, Unicode los desunificó posteriormente, lo que complicó el procesamiento de datos rumanos; los datos y métodos de entrada preexistentes aún contendrían los puntos de código cedillas más antiguos, lo que complicaba la búsqueda de texto. [ cita requerida ]

Diseño de la página de códigos

Las diferencias con ISO-8859-1 tienen el número de punto de código Unicode debajo.

Véase también

Referencias

  1. ^ "Codificaciones de mensajes de Microsoft Outlook". 10 de enero de 2017.
  2. ^ "Explicación del lío en la codificación de caracteres checos y eslovacos". luki.sdf-eu.org . Consultado el 27 de febrero de 2022 .
  3. ^ "Estadísticas de uso y cuota de mercado de la norma ISO-8859-2 para sitios web, octubre de 2022". w3techs.com . Consultado el 23 de octubre de 2022 .
  4. ^ "Tendencias históricas en las estadísticas de uso de codificaciones de caracteres para sitios web, febrero de 2022".
  5. ^ "Icu-data/Charset/Data/XML/Ibm-912_P100-1995.XML en main · unicode-org/Icu-data". GitHub .
  6. ^ "Icu-data/Charset/Data/Ucm/Ibm-912_P100-1999.ucm en principal · unicode-org/Icu-data". GitHub .

Enlaces externos