stringtranslate.com

Windows-1252

Windows-1252 o CP-1252 ( página de códigos 1252) es una codificación de caracteres de un solo byte del alfabeto latino que se usaba de forma predeterminada en Microsoft Windows para inglés y muchos idiomas romances y germánicos , incluidos español, portugués, francés y alemán (aunque faltan mayúsculas ẞ ). Este esquema de codificación de caracteres se utiliza en América , Europa occidental , Oceanía y gran parte de África .

Es la codificación de caracteres de un solo byte más utilizada en el mundo. A diciembre de 2023 , el 1,3% [2] de todos los sitios web declaran ISO 8859-1 , que todos los navegadores modernos tratan como Windows-1252 (como lo exige el estándar HTML5 [3] ), más el 0,3% de todos los sitios web declaran su uso. de Windows-1252, [2] [4] para un total del 1,6% (y sólo 14 de los 1000 sitios web principales [5] ).

Dependiendo del país o idioma, en 2023, el uso (al menos en sitios web) puede ser mucho mayor que el promedio mundial, por ejemplo (incluido Windows-1252), para Brasil, según el uso de sitios web, el uso es del 3,8%, [6] y en Alemania con el 3,2%. [7] [8] (estas son las sumas de las declaraciones ISO-8859-1 y CP-1252).

Detalles

Esta codificación de caracteres es un superconjunto de ISO 8859-1 en términos de caracteres imprimibles, pero difiere de la ISO-8859-1 de IANA al agregar caracteres adicionales en el rango 0x80 a 0x9F ( hexadecimal ) (los estándares ISO reservan este rango para caracteres de control). ). Los caracteres adicionales notables incluyen comillas y todos los caracteres imprimibles de ISO 8859-15 . Windows lo conoce por el número de página de códigos 1252 y por el nombre aprobado por la IANA "windows-1252".

A partir de la década de 1990, muchos productos de Microsoft que podían producir HTML incluían caracteres exclusivos de Windows-1252, pero marcaban la codificación como ISO-8859-1, ASCII o no declarada. [ cita necesaria ] Los caracteres exclusivos de Windows-1252 a menudo se representaban incorrectamente en sistemas operativos que no eran Windows (a menudo como signos de interrogación, espacios en blanco o cuadros). [9] [10] En particular, las citas de los tipógrafos (variantes rizadas de los apóstrofos rectos estándar y las comillas en US-ASCII) se usaban comúnmente en archivos producidos en aplicaciones de Windows como Microsoft Word debido a la función de comillas tipográficas , que puede convierte automáticamente apóstrofes rectos y comillas a variantes rizadas. [11] Para solucionar este problema, en el año 2000 la mayoría de los navegadores web y clientes de correo electrónico trataban los conjuntos de caracteres ISO-8859-1 y US-ASCII como Windows-1252 [ cita necesaria ] ; este comportamiento ahora es requerido por la especificación HTML5. [3] También se supone que los juegos de caracteres no declarados en HTML son Windows-1252. [12]

Históricamente, la frase "página de códigos ANSI" se usaba en Windows para referirse a codificaciones que no eran de DOS; la intención era que la mayoría de estos fueran estándares ANSI como ISO-8859-1 . Aunque Windows-1252 fue la primera y, con diferencia, la más popular página de códigos denominada así en el lenguaje de Microsoft Windows, la página de códigos nunca ha sido un estándar ANSI. Microsoft explica: "El término ANSI utilizado para referirse a las páginas de códigos de Windows es una referencia histórica, pero hoy en día es un nombre inapropiado que continúa persistiendo en la comunidad de Windows". [13]

En los paquetes de LaTeX , CP-1252 se denomina "ansinew".

IBM utiliza la página de códigos 1252 ( CCSID 1252 y CCSID extendido con el signo del euro 5348) para Windows-1252. [14] [15] [16]

Oracle lo llama "WE8MSWIN1252" . [17]

Diseño de página de códigos

La siguiente tabla muestra Windows-1252. Las diferencias con ISO-8859-1 tienen el número de punto de código Unicode debajo del carácter, según la asignación de Unicode.org de Windows-1252 con "mejor ajuste". Una información sobre herramientas, generalmente disponible solo cuando se apunta inmediatamente a la izquierda del carácter, muestra el nombre del punto del código Unicode y el código Alt decimal .

  Según la información contenida en los sitios web de Microsoft y Unicode Consortium, las posiciones 81, 8D, 8F, 90 y 9D no se utilizan; sin embargo, la API de Windows MultiByteToWideCharlos asigna a los códigos de control C1 correspondientes . El mapeo de "mejor ajuste" también documenta este comportamiento. [18]

Historia

Extensiones OS/2

El sistema operativo OS/2 admite una codificación con el nombre de Página de códigos 1004 ( CCSID 1004) o "Windows Extended". [23] [24] Esto coincide principalmente con la página de códigos 1252, con la excepción de ciertos caracteres de control C0 que se reemplazan por caracteres diacríticos .

Extensiones de MSDOS [raras]

Hay una página de códigos extendidos de gráficos 1252, que rara vez se usa, pero es útil, donde los códigos 0x00 a 0x1f permiten dibujar cuadros como se usa en aplicaciones como MSDOS Edit y Codeview. Una de las aplicaciones para utilizar esta página de códigos fue una utilidad de imagen de disco de instalación/recuperación de Intel Corporation de mediados o finales de 1995. Estos programas fueron escritos para sus máquinas del Programa de prueba de usuario P6 (ejemplo de EE. UU. [29] ). Se utilizó exclusivamente en su entonces región EMEA (Europa, Medio Oriente y África). Con el tiempo, los programas se cambiaron para utilizar la página de códigos 850 .

Variante de Palm OS

Cada dispositivo Palm OS admite un único idioma y una única codificación de caracteres, según su configuración regional. [30]

Para idiomas como inglés y francés, Palm OS utiliza una codificación de caracteres personalizada basada en Windows-1252. Para el japonés, utiliza una codificación de caracteres multibyte basada en la página de códigos 932 . Independientemente de la configuración regional del sistema, se garantiza que todos los caracteres en el rango 0x00 a 0x7F serán iguales, excepto 0x5D, que es el signo del yen en japonés y una barra invertida en todos los demás. [30]

Palm OS 3.1 introdujo varios cambios en la codificación de caracteres para alinearse mejor con Windows-1252: [31]

La siguiente es la variante de Windows-1252 utilizada por Palm OS 3.3 en adelante para inglés y varias otras configuraciones regionales. [32] Python le da la palmosetiqueta, describiéndola como la codificación para Palm OS 3.5. [34] [35] Las diferencias con Windows-1252 tienen su punto de código Unicode.

  1. ^ Antes de Palm OS 3.1, el carácter en el punto de código 0x80 era U+2007 ESPACIO NUMÉRICO; A partir de Palm OS 3.1, 0x80 es el signo del euro y 0x19 es U+2007 ESPACIO NUMÉRICO. [32]
  2. ^ A partir de Palm OS 3.1, este carácter también está duplicado en 0x18. [31] [32]
  3. ^ Antes de Palm OS 3.3, este punto de código era el carácter "atajo" exclusivo de Palm OS; A partir de Palm OS 3.3, este punto de código no está definido. [31] [32]
  4. ^ Antes de Palm OS 3.3, este punto de código era el carácter "golpe de comando" exclusivo de Palm OS; A partir de Palm OS 3.3, este punto de código no está definido. [31] [32]

Ver también

Referencias

  1. ^ Conjuntos de caracteres, Autoridad de números asignados de Internet (IANA), 12 de diciembre de 2018
  2. ^ ab "Tendencias históricas en las estadísticas de uso de codificaciones de caracteres para sitios web, diciembre de 2023". w3techs.com . Consultado el 1 de diciembre de 2023 .
  3. ^ ab "Codificación". QUÉ WG . 27 de enero de 2015. sec. 5.2 Nombres y etiquetas. Archivado desde el original el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
  4. ^ "Preguntas frecuentes". w3techs.com .
  5. ^ "Encuesta de uso de codificaciones de caracteres desglosada por clasificación". w3techs.com . Consultado el 1 de diciembre de 2023 .
  6. ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan Brasil". w3techs.com . Consultado el 1 de diciembre de 2023 .
  7. ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan .de". w3techs.com . Consultado el 1 de diciembre de 2023 .
  8. ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan el alemán". w3techs.com . Consultado el 16 de enero de 2023 .
  9. ^ Texin, Texas. "Comparación de caracteres en Windows-1252, ISO-8859-1, ISO-8859-15". I18nQA.com .
  10. ^ van Emden, Eva (28 de enero de 2011). "Cómo hacer citas de tipógrafos en HTML". vancouvereditor.com . Consultado el 7 de enero de 2024 . Si utiliza citas de tipógrafos sin especificar la codificación de caracteres correcta para su archivo HTML, algunos de sus espectadores verán signos de interrogación, cuadros u otros símbolos extravagantes en lugar de las hermosas citas rizadas que usted pretendía que vieran.
  11. ^ "Comillas tipográficas en Word". Soporte de Microsoft . Microsoft . Consultado el 7 de enero de 2024 .
  12. ^ "Búsqueda web de NetWare: comprensión de las codificaciones de juegos de caracteres". Documentación Novell . Novell. Si un documento no contiene un valor de codificación CHARSET, la codificación predeterminada para los documentos HTML es ISO-8859-1, también conocida como Latin1. La codificación predeterminada para documentos de texto sin formato es US-ASCII.
  13. ^ Wissink, Cathy (5 de abril de 2002). "Unicode y Windows XP" (PDF) . Microsoft . pag. 1. Archivado desde el original (PDF) el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
  14. ^ "Documento informativo de la página de códigos 1252". IBM. 30 de septiembre de 1997. Archivado desde el original el 3 de marzo de 2016.
  15. ^ "Documento informativo CCSID 1252". IBM. Archivado desde el original el 26 de marzo de 2016.
  16. ^ "Documento informativo CCSID 5348". IBM. Archivado desde el original el 29 de noviembre de 2014.
  17. ^ "Guía de instalación del cliente de base de datos". Oráculo . Consultado el 14 de febrero de 2021 .
  18. ^ ab "Asignaciones Unicode de Windows-1252 con 'Best Fit'". Unicódigo . Archivado desde el original el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
  19. ^ Página de códigos 01252 (PDF) , IBM, 1998, archivado (PDF) del original el 27 de octubre de 2023
  20. ^ Página de códigos (CPGID) 01252 (txt) , IBM, 1998, archivado desde el original el 8 de abril de 2023
  21. ^ Componentes internacionales para Unicode (ICU), ibm-1252_P100-2000.ucm, 3 de diciembre de 2002
  22. ^ Componentes internacionales para Unicode (ICU), ibm-5348_P100-1997.ucm, 3 de diciembre de 2002
  23. ^ "Documento informativo de la página de códigos 1004". Archivado desde el original el 25 de junio de 2015.
  24. ^ "Documento informativo CCSID 1004". Archivado desde el original el 26 de marzo de 2016.
  25. ^ "Página de códigos 01004" (PDF) . IBM . Archivado desde el original (PDF) el 8 de julio de 2015.(versión basada en la versión Windows 3.1 de Windows-1252)
  26. ^ Página de códigos CPGID 01004 (pdf) (PDF) , IBM
  27. ^ Página de códigos CPGID 01004 (txt), IBM
  28. ^ Borgendale, Ken (2001). "Página de códigos 1004: Windows extendido". Páginas de códigos de OS/2 por número . Archivado desde el original el 13 de mayo de 2018 . Consultado el 13 de mayo de 2018 .(versión basada en la versión actual de Windows-1252)
  29. ^ Storaasli, Olaf (1996). "Rendimiento de los solucionadores de ecuaciones de la NASA en aplicaciones de mecánica computacional" (PDF) . Rendimiento de los solucionadores de ecuaciones de la NASA en aplicaciones de mecánica computacional . NASA. doi :10.2514/6.1996-1505. S2CID  15711051. Archivado desde el original (PDF) el 3 de mayo de 2019.
  30. ^ ab "Capítulo 13: Aplicaciones localizadas". Compañero del programador de Palm OS (PDF) . Plataforma informática Palm. 16 de marzo de 2000. pág. 321.
  31. ^ abcdefg "Apéndice B: Guía de compatibilidad". Referencia del SDK de Palm OS (PDF) . Plataforma informática Palm. 16 de marzo de 2000. págs. 1181-1182.
  32. ^ abcdefghi Walleij, Linus. "Conjuntos de caracteres de Palm Pilot y asignaciones Unicode". Recodificación GNU . Datorföreningen vid Lunds Universitet och Lunds Tekniska Högskola . Consultado el 10 de octubre de 2023 .
  33. ^ abc Parker, Greg. "Fuentes integradas de Palm OS". Software Sealie . Consultado el 10 de octubre de 2023 .
  34. ^ "códecs: registro de códecs y clases base (§ Codificaciones de texto)". Biblioteca estándar de Python: documentación de Python 3.9.4 . Fundación de software Python .
  35. ^ ab Mullender, Sjoerd (13 de julio de 2002). "Códec de asignación de caracteres de Python para Palm OS 3.5". Árbol fuente de CPython . Fundación de software Python . Consultado el 9 de diciembre de 2021 .

enlaces externos