stringtranslate.com

Windows-1252

Windows-1252 o CP-1252 ( página de códigos de Windows 1252) es una codificación de caracteres heredada de un solo byte [2] que se utiliza de forma predeterminada (como la "página de códigos ANSI") en Microsoft Windows en América , Europa Occidental , Oceanía , y gran parte de África . [ cita necesaria ]

Inicialmente igual que ISO 8859-1 , comenzó a divergir a partir de Windows 2.0 agregando caracteres adicionales en el rango 0x80 a 0x9F ( hexadecimal ) (los estándares ISO reservan este rango para códigos de control C1 ). Los caracteres adicionales notables incluyen comillas y todos los caracteres imprimibles de ISO 8859-15 .

Es la codificación de caracteres de un solo byte más utilizada en el mundo. Aunque casi todos los sitios web utilizan ahora la codificación de caracteres multibyte UTF-8 , en julio de 2024, el 1,2% [3] de los sitios web declararon ISO 8859-1 , que todos los navegadores modernos tratan como Windows-1252 (como lo exige el estándar HTML5). [4] ), más un 0,3% declarado directamente Windows-1252, [3] [5] para un total de 1,5%. Algunos países o idiomas muestran un uso mayor que el promedio mundial, en 2024 Brasil según el uso del sitio web, el uso es del 3,4%, [6] y en Alemania del 2,7%. [7] [8] (estas son las sumas de las declaraciones ISO-8859-1 y CP-1252).

Nombre

Windows lo conoce por el número de página de códigos 1252 y por el nombre aprobado por la IANA "windows-1252".

Históricamente, la frase "página de códigos ANSI" se usaba en Windows para referirse a codificaciones que no eran de DOS; la intención era que la mayoría de estos fueran estándares ANSI como ISO-8859-1 . Aunque Windows-1252 fue la primera y, con diferencia, la más popular página de códigos denominada así en el lenguaje de Microsoft Windows, la página de códigos nunca ha sido un estándar ANSI. Microsoft explica: "El término ANSI utilizado para referirse a las páginas de códigos de Windows es una referencia histórica, pero hoy en día es un nombre inapropiado que continúa persistiendo en la comunidad de Windows". [9]

LateX puede ingresar Windows-1252 usando inputenc.sty con el parámetro ansinew (y más recientemente cp1252 ). [10] [11]

IBM utiliza la página de códigos 1252 ( CCSID 1252 y CCSID extendido con el signo del euro 5348) para Windows-1252. [12] [13] [14]

Oracle Database lo llama "WE8MSWIN1252" . [15]

Historia

A partir de la década de 1990, muchos productos de Microsoft que podían producir HTML incluían caracteres exclusivos de Windows-1252, pero marcaban la codificación como ISO-8859-1, ASCII o no declarada. [ cita necesaria ] Los caracteres exclusivos de Windows-1252 se representarían incorrectamente en sistemas operativos que no sean Windows (a menudo como signos de interrogación). [16] [17] En particular, las comillas de los tipógrafos (variantes rizadas de los apóstrofes rectos estándar y las comillas en US-ASCII) se usaban comúnmente en archivos producidos en aplicaciones de Windows como Microsoft Word debido a la función de comillas tipográficas , que puede convierte automáticamente apóstrofes rectos y comillas a variantes rizadas. [18] Para solucionar este problema, en el año 2000 la mayoría de los navegadores web y clientes de correo electrónico trataban los conjuntos de caracteres ISO-8859-1 y US-ASCII como Windows-1252 [ cita necesaria ] ; este comportamiento ahora es requerido por la especificación HTML5. [4] También se supone que los juegos de caracteres no declarados en HTML son Windows-1252. [19] [20]

Aunque Windows NT admitía Unicode e intentaba animar a los programas a utilizarlo, sólo proporcionaba las unidades de código de 16 bits UCS-2 / UTF-16 , a pesar del soporte existente para otras codificaciones de caracteres multibyte. Como muchas aplicaciones preferían usar cadenas de 8 bits, Windows-1252 siguió siendo la codificación más popular en Windows incluso después de agregar soporte para UTF-16. La compatibilidad con Unicode en Windows ha mejorado con el tiempo y la compatibilidad con UTF-8 está disponible a partir de Windows 10 .

Diseño de página de códigos

La siguiente tabla muestra Windows-1252. Las diferencias con ISO-8859-1 tienen el número de punto de código Unicode debajo del carácter, según la asignación de Unicode.org de Windows-1252 con "mejor ajuste". Una información sobre herramientas, generalmente disponible solo cuando se apunta inmediatamente a la izquierda del carácter, muestra el nombre del punto del código Unicode y el código Alt decimal .

  Según la información contenida en los sitios web de Microsoft y Unicode Consortium, las posiciones 81, 8D, 8F, 90 y 9D no se utilizan; sin embargo, la API de Windows MultiByteToWideCharlos asigna a los códigos de control C1 correspondientes . El mapeo de "mejor ajuste" también documenta este comportamiento. [21]

Codificaciones relacionadas

Extensiones OS/2

El sistema operativo OS/2 admite una codificación con el nombre de Página de códigos 1004 ( CCSID 1004) o "Windows Extended". [26] [27] Esto coincide principalmente con la página de códigos 1252, con la excepción de ciertos caracteres de control C0 que se reemplazan por caracteres diacríticos .

Extensiones de MS-DOS (raras)

Hay una página de códigos extendidos de gráficos 1252, que rara vez se usa, pero es útil, donde los códigos 0x00 a 0x1f permiten dibujar cuadros como se usa en aplicaciones como MSDOS Edit y Codeview. Una de las aplicaciones para utilizar esta página de códigos fue una utilidad de imagen de disco de instalación/recuperación de Intel Corporation de mediados o finales de 1995. Estos programas fueron escritos para sus máquinas del Programa de prueba de usuario P6 (ejemplo de EE. UU. [32] ). Se utilizó exclusivamente en su entonces región EMEA (Europa, Medio Oriente y África). Con el tiempo, los programas se cambiaron para utilizar la página de códigos 850 .

Variante de Palm OS

Cada dispositivo Palm OS admite un único idioma y una única codificación de caracteres, según su configuración regional. [33]

Para idiomas como inglés y francés, Palm OS utiliza una codificación de caracteres personalizada basada en Windows-1252. Para el japonés, utiliza una codificación de caracteres multibyte basada en la página de códigos 932 . Independientemente de la configuración regional del sistema, se garantiza que todos los caracteres en el rango 0x00 a 0x7F serán iguales, excepto 0x5D, que es el signo del yen en japonés y una barra invertida en todos los demás. [33]

Palm OS 3.1 introdujo varios cambios en la codificación de caracteres para alinearse mejor con Windows-1252: [34]

La siguiente es la variante de Windows-1252 utilizada por Palm OS 3.3 en adelante para inglés y varias otras configuraciones regionales. [35] Python le da la palmosetiqueta, describiéndola como la codificación para Palm OS 3.5. [37] [38] Las diferencias con Windows-1252 tienen su punto de código Unicode.

Ver también

Notas

  1. ^ Antes de Palm OS 3.1, el carácter en el punto de código 0x80 era U+2007 ESPACIO NUMÉRICO; A partir de Palm OS 3.1, 0x80 es el signo del euro y 0x19 es U+2007 ESPACIO NUMÉRICO. [35]
  2. ^ A partir de Palm OS 3.1, este carácter también está duplicado en 0x18. [34] [35]
  3. ^ Antes de Palm OS 3.3, este punto de código era el carácter "atajo" exclusivo de Palm OS; A partir de Palm OS 3.3, este punto de código no está definido. [34] [35]
  4. ^ Antes de Palm OS 3.3, este punto de código era el carácter "golpe de comando" exclusivo de Palm OS; A partir de Palm OS 3.3, este punto de código no está definido. [34] [35]

Referencias

  1. ^ Conjuntos de caracteres, Autoridad de números asignados de Internet (IANA), 12 de diciembre de 2018
  2. ^ "Codificación. Nivel de vida". QUÉ WG . 13 de junio de 2024. § 9. Codificaciones heredadas de un solo byte . Consultado el 28 de junio de 2024 .
  3. ^ ab "Tendencias históricas en las estadísticas de uso de codificaciones de caracteres para sitios web, diciembre de 2023". w3techs.com . Consultado el 19 de julio de 2024 .
  4. ^ ab "Codificación". QUÉ WG . 27 de enero de 2015. sec. 5.2 Nombres y etiquetas. Archivado desde el original el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
  5. ^ "Preguntas frecuentes". w3techs.com .
  6. ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan Brasil". W3Techs . Archivado desde el original el 4 de abril de 2024 . Consultado el 19 de julio de 2024 .
  7. ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan .de". W3Techs . Archivado desde el original el 4 de abril de 2024 . Consultado el 19 de julio de 2024 .
  8. ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan el alemán". w3techs.com . Consultado el 16 de enero de 2023 .
  9. ^ Wissink, Cathy (5 de abril de 2002). "Unicode y Windows XP" (PDF) . Microsoft . pag. 1. Archivado desde el original (PDF) el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
  10. ^ "LaTeX News, número 28" (PDF; 379 KB) . El proyecto Látex. Abril de 2018 . Consultado el 27 de julio de 2024 .
  11. ^ "Inputenc: acepta diferentes codificaciones de entrada". El proyecto Látex. 2024-02-08 . Consultado el 27 de julio de 2024 .
  12. ^ "Documento informativo de la página de códigos 1252". IBM. 30 de septiembre de 1997. Archivado desde el original el 3 de marzo de 2016.
  13. ^ "Documento informativo CCSID 1252". IBM. Archivado desde el original el 26 de marzo de 2016.
  14. ^ "Documento informativo CCSID 5348". IBM. Archivado desde el original el 29 de noviembre de 2014.
  15. ^ "Guía de instalación del cliente de base de datos". Oráculo . Consultado el 14 de febrero de 2021 .
  16. ^ Texin, Texas. "Comparación de caracteres en Windows-1252, ISO-8859-1, ISO-8859-15". I18nQA.com .
  17. ^ van Emden, Eva (28 de enero de 2011). "Cómo hacer citas de tipógrafos en HTML". vancouvereditor.com . Consultado el 7 de enero de 2024 . Si utiliza citas de tipógrafos sin especificar la codificación de caracteres correcta para su archivo HTML, algunos de sus espectadores verán signos de interrogación, cuadros u otros símbolos extravagantes en lugar de las hermosas citas rizadas que usted pretendía que vieran.
  18. ^ "Comillas tipográficas en Word". Soporte de Microsoft . Microsoft . Consultado el 7 de enero de 2024 .
  19. ^ "Búsqueda web de NetWare: comprensión de las codificaciones de juegos de caracteres". Documentación Novell . Novell. Si un documento no contiene un valor de codificación CHARSET, la codificación predeterminada para los documentos HTML es ISO-8859-1, también conocida como Latin1. La codificación predeterminada para documentos de texto sin formato es US-ASCII.
  20. ^ Comportamiento observado en Chrome; puede ser UTF-8 en algunos navegadores. [ ¿investigacion original? ]
  21. ^ ab "Asignaciones Unicode de Windows-1252 con 'Best Fit'". Unicódigo . Archivado desde el original el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
  22. ^ Página de códigos 01252 (PDF) , IBM, 1998, archivado (PDF) del original el 27 de octubre de 2023
  23. ^ Página de códigos (CPGID) 01252 (txt) , IBM, 1998, archivado desde el original el 8 de abril de 2023
  24. ^ Componentes internacionales para Unicode (ICU), ibm-1252_P100-2000.ucm, 3 de diciembre de 2002
  25. ^ Componentes internacionales para Unicode (ICU), ibm-5348_P100-1997.ucm, 3 de diciembre de 2002
  26. ^ "Documento informativo de la página de códigos 1004". Archivado desde el original el 25 de junio de 2015.
  27. ^ "Documento informativo CCSID 1004". Archivado desde el original el 26 de marzo de 2016.
  28. ^ "Página de códigos 01004" (PDF) . IBM . Archivado desde el original (PDF) el 8 de julio de 2015.(versión basada en la versión Windows 3.1 de Windows-1252)
  29. ^ Página de códigos CPGID 01004 (pdf) (PDF) , IBM
  30. ^ Página de códigos CPGID 01004 (txt), IBM
  31. ^ Borgendale, Ken (2001). "Página de códigos 1004: Windows extendido". Páginas de códigos de OS/2 por número . Archivado desde el original el 13 de mayo de 2018 . Consultado el 13 de mayo de 2018 .(versión basada en la versión actual de Windows-1252)
  32. ^ Storaasli, Olaf (1996). "Rendimiento de los solucionadores de ecuaciones de la NASA en aplicaciones de mecánica computacional" (PDF) . Rendimiento de los solucionadores de ecuaciones de la NASA en aplicaciones de mecánica computacional . NASA. doi :10.2514/6.1996-1505. S2CID  15711051. Archivado desde el original (PDF) el 3 de mayo de 2019.
  33. ^ ab "Capítulo 13: Aplicaciones localizadas". Compañero del programador de Palm OS (PDF) . Plataforma informática Palm. 16 de marzo de 2000. p. 321.
  34. ^ abcdefg "Apéndice B: Guía de compatibilidad". Referencia del SDK de Palm OS (PDF) . Plataforma informática Palm. 16 de marzo de 2000. págs. 1181-1182.
  35. ^ abcdefghi Walleij, Linus. "Conjuntos de caracteres de Palm Pilot y asignaciones Unicode". Recodificación GNU . Datorföreningen vid Lunds Universitet och Lunds Tekniska Högskola . Consultado el 10 de octubre de 2023 .
  36. ^ abc Parker, Greg. "Fuentes integradas de Palm OS". Software Sealie . Consultado el 10 de octubre de 2023 .
  37. ^ "códecs: registro de códecs y clases base (§ Codificaciones de texto)". Biblioteca estándar de Python: documentación de Python 3.9.4 . Fundación de software Python .
  38. ^ ab Mullender, Sjoerd (13 de julio de 2002). "Códec de asignación de caracteres de Python para Palm OS 3.5". Árbol fuente de CPython . Fundación de software Python . Consultado el 9 de diciembre de 2021 .

enlaces externos