ISO/CEI 8859-2

ISO/IEC 8859-2:1999 , Tecnología de la información. Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits. Parte 2: Alfabeto latino n.º 2. Es parte de la serie ISO/IEC 8859 de codificaciones de caracteres estándar basadas en ASCII . edición publicada en 1987. Se le conoce informalmente como "Latin-2". Generalmente está destinado a idiomas centrales ^[1] u "de Europa del Este" que están escritos en escritura latina. Tenga en cuenta que ISO/IEC 8859-2 es muy diferente de la página de códigos 852 (MS-DOS Latin 2, PC Latin 2), que también se conoce como "Latin-2" en las regiones checa y eslovaca. ^[2] La página de códigos 912 es una extensión. Casi la mitad del uso de la codificación es para polaco, y es la principal codificación heredada para polaco, mientras que prácticamente todo su uso ha sido reemplazado por UTF-8 (en la web).

ISO-8859-2 es el nombre de juego de caracteres preferido de la IANA para este estándar cuando se complementa con los códigos de control C0 y C1 de ISO/IEC 6429 . Menos del 0,04% de todas las páginas web utilizan ISO-8859-2 en octubre de 2022. ^[3]^[4] Microsoft ha asignado la página de códigos 28592, también conocida como Windows-28592 , a ISO-8859-2 en Windows. IBM asignó la página de códigos 1111 a ISO 8859-2.

Windows-1250 es similar a ISO-8859-2 y tiene todos los caracteres imprimibles que tiene y más. Sin embargo, algunos de ellos están reorganizados (a diferencia de Windows-1252 , que mantiene todos los caracteres imprimibles de ISO-8859-1 en el mismo lugar).

Cobertura de idiomas

Estos valores de código se pueden utilizar para los siguientes idiomas:

^ La letra A que falta es oficialmente parte del alfabeto finlandés , sin embargo, no tiene uso nativo y su uso se limita únicamente a nombres extranjeros.
^ En 2017, el Consejo de Ortografía Alemana añadió oficialmente una ẞ mayúscula , pero en realidad no es necesaria ya que se puede utilizar SS en su lugar.
^ Este conjunto de caracteres unifica Ș y Ț (S,T con comas debajo) con Ş y Ţ (S, T con cedillas ), al igual que prácticamente todos los demás conjuntos de caracteres, incluido Windows-1250 de Microsoft y la primera versión de Unicode . Posteriormente, Unicode los desunificó, sin embargo, Unicode señala a partir de 2014 ^{[ cita necesaria ]} que desunificar las letras con coma a continuación fue un error, lo que provocó corrupciones de los datos rumanos: los datos y métodos de entrada preexistentes aún contendrían los puntos de código de cedilla más antiguos, lo que complicaría la búsqueda de texto.

Diseño de página de códigos

Las diferencias con ISO-8859-1 tienen el número de punto de código Unicode debajo.

Ver también

Referencias

^ "Codificaciones de mensajes de Microsoft Outlook".
^ "Explicación del lío de codificación de caracteres checos y eslovacos". luki.sdf-eu.org . Consultado el 27 de febrero de 2022 .
^ "Estadísticas de uso y cuota de mercado de ISO-8859-2 para sitios web, octubre de 2022". w3techs.com . Consultado el 23 de octubre de 2022 .
^ "Tendencias históricas en las estadísticas de uso de codificaciones de caracteres para sitios web, febrero de 2022".

enlaces externos

ISO/CEI 8859-2:1999
Estándar ECMA-94: conjuntos de caracteres gráficos codificados de un solo byte de 8 bits: alfabetos latinos n.° 1 a n.° 4, segunda edición (junio de 1986)
ISO-IR 101 Parte derecha del alfabeto latino No.2 (1 de febrero de 1986)
Recursos ISO 8859-2 (Latín 2)