Juego de caracteres de Windows para el alfabeto cirílico
Windows-1251 es una codificación de caracteres de 8 bits , diseñada para abarcar idiomas que utilizan la escritura cirílica, como el ruso , el ucraniano , el bielorruso , el búlgaro , el cirílico serbio , el macedonio y otros idiomas.
En la web, es la segunda codificación de caracteres de un solo byte más utilizada (o la tercera codificación de caracteres más utilizada en general) y la más utilizada de las codificaciones de un solo byte que admiten cirílico. En enero de 2024 [actualizar], el 0,3% de todos los sitios web utilizan Windows-1251. [1] [2] Con diferencia, se utiliza principalmente para ruso, mientras que una pequeña minoría de sitios web rusos lo utiliza, y el 94,6% de los sitios web rusos (.ru) utilizan UTF-8 , [3] [4] [5] y el La codificación heredada de 8 bits ocupa un distante segundo lugar. En Linux, la codificación se conoce como cp1251. [6] IBM utiliza la página de códigos 1251 ( CCSID 1251 y CCSID extendido con el signo del euro 5347) para Windows-1251. [7] [8] [9] [10] [11] [12] [13]
Windows-1251 y KOI8-R (o su variante ucraniana KOI8-U ) se utilizan mucho más comúnmente que ISO 8859-5 (que utilizan menos del 0,0004% de los sitios web). [14] A diferencia de Windows-1252 e ISO 8859-1 , Windows-1251 no está estrechamente relacionado con ISO 8859-5.
Se prefiere Unicode (por ejemplo, UTF-8) a Windows-1251 u otras codificaciones cirílicas en aplicaciones modernas, especialmente en Internet, lo que convierte a UTF-8 en la codificación dominante para páginas web. (Para obtener más información sobre la cobertura completa de Unicode, de 436 letras/puntos de código cirílicos, incluido el cirílico antiguo , y cómo las codificaciones de caracteres de un solo byte, como Windows-1251 y KOI8-R , no pueden proporcionar esto, consulte Escritura cirílica en Unicode . )
Conjunto de caracteres
La siguiente tabla muestra Windows-1251. Cada carácter se muestra con su equivalente Unicode y su código Alt .
Variantes kazajas
Una versión modificada de Windows-1251 se estandarizó en Kazajstán como estándar kazajo STRK1048 y se conoce con la etiqueta KZ-1048
. Se diferencia en las filas que se muestran a continuación:
Diferencias con Windows-1251
La página de códigos 1174 es otra variante creada para el idioma kazajo , que coincide con Windows-1251 para el subconjunto ruso de letras cirílicas. Se diferencia del KZ-1048 en que mueve la letra cirílica Shha de 8E/9E a 8A/9A.
Diferente de Windows-1251
Variante Amiga
Los sistemas rusos Amiga OS utilizaron una versión de la página de códigos 1251 que coincide con Windows-1251 para el subconjunto ruso de letras cirílicas, pero por lo demás sigue principalmente ISO-8859-1 . Esta versión se conoce como Amiga-1251 , [18] bajo cuyo nombre está registrada ante la IANA . [19]
Diferente de Windows-1251 para coincidir con ISO-8859-1
Diferente tanto de Windows-1251 como de ISO-8859-1
- ^ Coincidencia ISO-8859-15 ; en una ubicación diferente que en Windows-1251
- ^ Presente en Windows-1251, pero en una ubicación diferente (ausente en ISO-8859-1/15)
Referencias
Ver también
Referencias
- ^ "Tendencias históricas en el uso de codificaciones de caracteres, enero de 2024" . Consultado el 1 de enero de 2024 .
- ^ "Preguntas frecuentes".
- ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan .ru". w3techs.com . Consultado el 1 de enero de 2024 .
- ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan ruso". w3techs.com . Consultado el 16 de enero de 2023 .
- ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan la Federación de Rusia". w3techs.com . Consultado el 5 de noviembre de 2021 .
- ^ "cp1251(7) - página del manual de Linux". man7.org . Consultado el 1 de julio de 2018 .
- ^ "Documento informativo de la página de códigos 1251". Archivado desde el original el 3 de marzo de 2016.
- ^ "Documento informativo CCSID 1251". Archivado desde el original el 29 de noviembre de 2014.
- ^ "Documento informativo CCSID 5347". Archivado desde el original el 29 de noviembre de 2014.
- ^ Página de códigos CPGID 01251 (pdf) (PDF) , IBM
- ^ Página de códigos CPGID 01251 (txt), IBM
- ^ Componentes internacionales para Unicode (ICU), ibm-1251_P100-1995.ucm, 3 de diciembre de 2002
- ^ Componentes internacionales para Unicode (ICU), ibm-5347_P100-1998.ucm, 3 de diciembre de 2002
- ^ "Estadísticas de uso de codificaciones de caracteres para sitios web". w3techs.com . Archivado desde el original el 30 de mayo de 2012.
- ^ Steele, Shawn (1998). CP1251 a la tabla Unicode. Consorcio Unicode . CP1251.TXT.
- ^ Whistler, Ken (2007). KZ-1048 a Unicode. Consorcio Unicode . KZ1048.TXT.
- ^ ibm-1174_X100-2007.ucm, IBM
- ^ ab Malyshev, Michael (2003). "Tabla Amiga-1251 a Unicode". Registro de nuevo juego de caracteres [Amiga-1251]. IANA.
- ^ "Conjuntos de caracteres". IANA.
Otras lecturas
- Kornai, Andras; Birnbaum, David J.; da Cruz, Frank; Davis, Bur; cazador, George; Paine, Richard B.; Paperno, Slava; Simonsen, Keld J.; Thobe, Glenn E.; Vulis, Dimitri; van Wingen, Johan W. (13 de marzo de 1993). "Preguntas frecuentes sobre CODIFICACIÓN CIRÍLICA Versión 1.3" . Consultado el 24 de junio de 2020 .
enlaces externos
- Cuadro de referencia de Windows 1251
- Registro de nombres de caracteres de la IANA
- Asignaciones Unicode de Windows 1251 con "mejor ajuste"
- Decodificador cirílico universal, un programa en línea que puede ayudar a recuperar textos cirílicos ilegibles con Windows-1251 roto u otras codificaciones de caracteres .