stringtranslate.com

KOI8-RU

KOI8-RU es una codificación de caracteres de 8 bits diseñada para cubrir los idiomas ruso , ucraniano y bielorruso , que utilizan un alfabeto cirílico . Está estrechamente relacionada con KOI8-R , que cubre el ruso y el búlgaro , pero reemplaza diez caracteres de dibujo de caja con cinco letras ucranianas y bielorrusas Ґ , Є , І , Ї y Ў, tanto en mayúsculas como en minúsculas. Está incluso más relacionada con KOI8-U , que no incluye Ў, pero por lo demás hace los mismos reemplazos de letras. Las asignaciones de letras adicionales coinciden con KOI8-E , excepto Ґ, que se agrega a KOI8-F .

En IBM , a KOI8-RU se le asigna la página de códigos/ CCSID 1167. [1] [2]

KOI8 sigue siendo mucho más utilizado que ISO 8859-5 , que nunca llegó a popularizarse. Otra codificación de caracteres cirílicos común es Windows-1251 . En el futuro, ambas podrían acabar dando paso a Unicode .

KOI8 significa Código para el intercambio de información , 8 bits ( ‹Ver Tfd› en ruso : К од о бмена и нформацией, 8 бит ) que significa "Código para el intercambio de información, 8 bits" .

Los conjuntos de caracteres KOI8 tienen la propiedad de que las letras del alfabeto cirílico ruso están en orden pseudorromano en lugar del orden alfabético cirílico natural, como en la norma ISO 8859-5. Aunque esto puede parecer poco natural, tiene la propiedad útil de que si se elimina el octavo bit, el texto puede leerse (o al menos descifrarse) en transliteración con mayúsculas y minúsculas invertidas en un terminal ASCII normal. Por ejemplo, "Код Обмена Информацией" en KOI8-RU se convierte en kOD oBMENA iNFORMACIEJ (el significado ruso del acrónimo "KOI") si se elimina el octavo bit.

Conjunto de caracteres

La siguiente tabla muestra la codificación KOI8-RU. Cada carácter se muestra con su punto de código Unicode equivalente .

  Diferencias con KOI8-R
  1. ^ abc Cambiado en relación a KOI8-R para que coincida con Windows-1251 .
  2. ^ abcdefgh Cambiado en relación a KOI8-R para que coincida con KOI8-U .
  3. ^ abcdefgh Cambiado en relación a KOI8-R para que coincida con KOI8-E .

Aunque RFC 2319 dice que el carácter 0x95 debe ser U+2219 (∙), también puede ser U+2022 (•) para que coincida con el carácter de viñeta en Windows-1251 .

Algunas referencias tienen un error tipográfico y afirman incorrectamente que el carácter 0xB4 es U+0403, en lugar del correcto U+0404. Este error tipográfico está presente en el Apéndice A de RFC 2319 (pero la tabla en el texto principal de RFC proporciona la asignación correcta).

Véase también

Referencias

  1. ^ "Documento informativo de la página de códigos 1167". Archivado desde el original el 16 de enero de 2017.
  2. ^ "Documento informativo del CCSID 1167". Archivado desde el original el 27 de marzo de 2016.
  3. ^ Leisher, Mark (20 de diciembre de 1999), Tabla de correspondencia entre el cirílico bielorruso y ucraniano KOI8-RU y Unicode 2.1, KOI8RU.TXT
  4. ^ Página de códigos CPGID 01167 (pdf) (PDF) , IBM
  5. ^ Página de códigos CPGID 01167 (txt), IBM

Enlaces externos