stringtranslate.com

WARC (formato de archivo)

El formato de archivo WARC (Web ARChive) especifica un método para combinar múltiples recursos digitales en un archivo agregado junto con información relacionada. El formato WARC es una revisión del formato de archivo ARC_IA de Internet Archive [4] que se ha utilizado tradicionalmente para almacenar " rastreos web " como secuencias de bloques de contenido recopilados de la World Wide Web . El formato WARC generaliza el formato anterior para respaldar mejor las necesidades de recopilación, acceso e intercambio de las organizaciones de archivos. Además del contenido principal registrado actualmente, la revisión incluye contenido secundario relacionado, como metadatos asignados , eventos de detección de duplicados abreviados (consulte §7.6 "revisitar") y transformaciones de fecha posterior. [5] El formato WARC está inspirado en las transmisiones HTTP/1.0, con un encabezado similar y el uso de CRLF como delimitadores, lo que lo hace muy propicio para las implementaciones de rastreadores.

Especificado por primera vez en 2008, [6] WARC ahora es reconocido por la mayoría de los sistemas bibliotecarios nacionales como el estándar a seguir para el archivo web. [7]

Software

Referencias

  1. ^ "aplicación/warc" . Consultado el 17 de marzo de 2018 .
  2. ^ "Introducción". FuenteForge . Consultado el 5 de marzo de 2015 .
  3. ^ "Información y documentación: formato de archivo WARC" . Consultado el 16 de marzo de 2018 .
  4. ^ "ARC_IA, formato de archivo ARC de Internet Archive". www.preservacióndigital.gov . 14 de febrero de 2008 . Consultado el 9 de mayo de 2015 .
  5. ^ "WARC, formato de archivo Web ARChive". www.preservacióndigital.gov . 31 de agosto de 2009 . Consultado el 9 de mayo de 2015 .
  6. ^ Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael (5 de julio de 2008). "El formato de archivo WARC". IETF . Consultado el 29 de abril de 2021 .
  7. ^ Allegrezza, Stefano (21 de abril de 2016). "Nuevas perspectivas para el archivo web: estándar ISO 28500 (formato WARC) e ISO/TR 14873 sobre la calidad del archivo web". Digitalia . 2015 : 49–61.
  8. ^ Scrivano, Giuseppe (6 de agosto de 2012). "Lanzamiento de GNU wget 1.14". Lanzamiento de GNU wget 1.14 . Fundación de Software Libre, Inc. Consultado el 25 de febrero de 2016 .

enlaces externos