stringtranslate.com

MARC-8

El juego de caracteres MARC-8 es un estándar MARC utilizado en los registros de biblioteca MARC-21 . [1] Los formatos MARC son estándares para la representación y comunicación de información bibliográfica y relacionada en forma legible por máquina, y se utilizan con frecuencia en los sistemas de bases de datos de las bibliotecas . La codificación de caracteres ahora conocida como MARC-8 se introdujo en 1968 como parte del formato MARC. Originalmente basado en el alfabeto latino , de 1979 a 1983 la iniciativa JACKPHY ​​amplió el repertorio para incluir caracteres japoneses, árabes, chinos y hebreos (entre otros), con la posterior incorporación de escrituras cirílica y griega. Si un carácter no es representable en MARC-8 de un registro MARC-21, se debe utilizar UTF-8 en su lugar. UTF-8 admite muchos más caracteres que MARC-8, que rara vez se utiliza fuera de los datos de la biblioteca.

Detalles técnicos

MARC-8 utiliza una variante de la codificación ISO-2022 . Utiliza caracteres de escape para representar caracteres más allá del rango de caracteres ASCII de 7 bits .

Generalmente utiliza el mismo ordenamiento lógico BiDi que Unicode .

Los caracteres combinados y los caracteres base están en un orden diferente al utilizado en Unicode. Los siguientes son algunos ejemplos. Los caracteres combinados no siempre se almacenan en orden inverso como la normalización Unicode . El estándar MARC-21 describe con más detalle los problemas de conversión de MARC-8 Unicode.

Estructura del código

La codificación ISO/IEC 2022 especifica un mapeo de dos capas entre los códigos de caracteres y los caracteres mostrados. En MARC-8, los códigos de caracteres del rango gráfico ASCII de 7 bits (0x20–0x7F) se denominan códigos "G0", mientras que los códigos del rango "ASCII alto" (0xA0–0xFF) se denominan códigos "G1". "códigos. Los conjuntos de caracteres gráficos se designan e invocan mediante una secuencia de escape de múltiples bytes que consta del carácter de escape, una secuencia de caracteres intermedia y un carácter final con el formato ESC I F.

La siguiente tabla muestra el byte intermedio después del byte ESC (hexadecimal 1B) y los caracteres ASCII correspondientes.

La siguiente tabla muestra los bytes finales en hexadecimal y los caracteres ASCII correspondientes después de los bytes intermedios.

EACC es la única codificación multibyte de MARC-8; codifica cada carácter CJK en tres bytes ASCII.

Por ejemplo, para codificar el carácter U+4EBA CJK (人) necesitará los siguientes bytes

\x1B\x24\x31\x21\x30\x64

El \x1B\x24\x31 cambia a EACC/CJK, y el \x21\x30\x64 corresponde al U+4EBA.

Extensión de conjunto personalizado

Además de los juegos de caracteres ISO-2022, también están disponibles los siguientes juegos personalizados. La designación del byte sigue al byte de escape (hexadecimal 1B). No hay ningún byte intermedio.

Códigos de control C0

MARC 21 utiliza GS (0x1D) como terminador de registro, RS (0x1E) como terminador de campo y US (0x1F) como delimitador de subcampo. [3]

Códigos de control C1

El siguiente conjunto de códigos de control C1 alternativo está definido para aplicaciones bibliográficas como sistemas de biblioteca . Se ocupa principalmente de la clasificación de cadenas y del marcado de campos bibliográficos. Variantes ligeramente diferentes se definen en la norma alemana DIN 31626 [4] (publicada en 1978 y retirada desde entonces) [5] y en la norma ISO ISO 6630 , [6] [7] la última de las cuales también ha sido adoptada en Alemania como DIN. ISO 6630 . [8] Cuando difieren, se indica en la siguiente tabla, cuando corresponda. MARC-8 utiliza la codificación de NSB y NSE de este conjunto y agrega algunos efectores de formato adicionales en ubicaciones no utilizadas por la versión ISO; sin embargo, MARC 21 utiliza este conjunto de controles sólo en registros MARC-8, no en registros en formato Unicode. [3]

Si se utiliza el mecanismo de extensión ISO/IEC 2022 , el conjunto DIN 31626 se designa como el conjunto de caracteres de control C1 activo con la secuencia 0x1B 0x22 0x45( ESC " E), [4] y el conjunto ISO 6630 / DIN ISO 6630 se designa con la secuencia 0x1B 0x22 0x42( ESC " B). [6] La expansión de 1985 del conjunto ISO 6630 también se puede especificar explícitamente utilizando la secuencia 0x1B 0x26 0x40 0x1B 0x22 0x42( ESC & @ ESC " B). [7]

Notas

  1. ^ No es lo mismo que el comando del sistema operativo (OSC) en el conjunto de códigos ISO/IEC 6429 C1.
  2. ^ Se escribe "Sílaba [ sic ]" en el documento ISO-IR-040, junto con "sílaba" escrita como "sílaba [ sic ]" en la descripción. Seguramente se trata de errores tipográficos.

Referencias

  1. ^ "Conjuntos de caracteres: Introducción: Especificaciones MARC 21 para estructura de registros, conjuntos de caracteres y medios de intercambio (Biblioteca del Congreso)". Biblioteca del Congreso .
  2. ^ abc "Conjuntos de caracteres: entorno de codificación MARC-8: especificaciones MARC 21 para estructura de registros, conjuntos de caracteres y medios de intercambio (Biblioteca del Congreso)". Biblioteca del Congreso .
  3. ^ abcdef "Códigos de función de control". Especificaciones MARC 21 para estructura de registros, conjuntos de caracteres y medios de intercambio . Biblioteca del Congreso . 2007-12-04.
  4. ^ abc DIN (15 de julio de 1979). Códigos de Control Adicionales para Uso Bibliográfico según Norma Alemana DIN 31626 (PDF) . ITSCJ/ IPSJ . ISO-IR -40.
  5. ^ "Procesamiento de información; caracteres de control bibliográfico". Beuth: editorial DIN. DIN 31626:1978-12.
  6. ^ abcdeISO/TC 46 (1 de junio de 1983). Códigos de Control Adicionales para Uso Bibliográfico según Norma Internacional ISO 6630 (PDF) . ITSCJ/ IPSJ . ISO-IR -67.{{citation}}: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
  7. ^ abcdeISO/TC 46 (1 de febrero de 1986). Códigos de Control Adicionales para Uso Bibliográfico según Norma Internacional ISO 6630 (PDF) . ITSCJ/ IPSJ . ISO-IR -124.{{citation}}: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
  8. ^ "DIN ISO 6630 diciembre de 1997". Tienda Online de Ediciones AFNOR .
  9. ^ abcd "Tabla de códigos latinos extendidos (ANSEL)". Especificaciones MARC 21 para estructura de registros, conjuntos de caracteres y medios de intercambio . Biblioteca del Congreso . 2007-12-05.

enlaces externos