Formato de archivo
El formato de archivo WARC (Web ARChive) especifica un método para combinar múltiples recursos digitales en un archivo agregado junto con información relacionada. Estos recursos combinados se guardan como un archivo WARC que se puede reproducir en el software adecuado o utilizar en sitios web de archivos como Wayback Machine .
El formato WARC es una revisión del formato de archivo ARC_IA de Internet Archive [4] que se ha utilizado tradicionalmente para almacenar " rastreos web " como secuencias de bloques de contenido extraídos de la World Wide Web . El formato WARC generaliza el formato anterior para respaldar mejor las necesidades de recolección, acceso e intercambio de las organizaciones de archivo. Además del contenido principal registrado actualmente, la revisión admite contenido secundario relacionado, como metadatos asignados , eventos de detección de duplicados abreviados (consulte §7.6 "revisit") y transformaciones de fecha posterior. [5] El formato WARC está inspirado en los flujos HTTP/1.0, con un encabezado similar y el uso de CRLF como delimitadores, lo que lo hace muy propicio para las implementaciones de rastreadores.
WARC , especificado por primera vez en 2008, [6] ahora es reconocido por la mayoría de los sistemas de bibliotecas nacionales como el estándar a seguir para el archivo web. [7]
Software
Véase también
Referencias
- ^ "application/warc" . Consultado el 17 de marzo de 2018 .
- ^ "Introducción". SourceForge . Consultado el 5 de marzo de 2015 .
- ^ "Información y documentación - Formato de archivo WARC" . Consultado el 16 de marzo de 2018 .
- ^ "ARC_IA, formato de archivo ARC de Internet Archive". www.digitalpreservation.gov . 14 de febrero de 2008 . Consultado el 9 de mayo de 2015 .
- ^ "WARC, formato de archivo Web ARChive". www.digitalpreservation.gov . 31 de agosto de 2009 . Consultado el 9 de mayo de 2015 .
- ^ Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael (5 de julio de 2008). "El formato de archivo WARC". IETF . Consultado el 29 de abril de 2021 .
- ^ Allegrezza, Stefano (21 de abril de 2016). "Nuevas perspectivas para el archivo web: estándar ISO 28500 (formato WARC) e ISO/TR 14873 sobre la calidad del archivo web". Digitalia . 2015 : 49–61.
- ^ Scrivano, Giuseppe (6 de agosto de 2012). «GNU wget 1.14 released». GNU wget 1.14 released . Free Software Foundation, Inc. Consultado el 25 de febrero de 2016 .
- ^ "Introducción a las coníferas". Rizoma . 2020-06-11 . Consultado el 2024-10-16 .
Enlaces externos
- Especificaciones del formato de archivo WARC
- Formato de archivo WARC (ISO 28500): información, mantenimiento, borradores
- WARC, formato de archivo Web ARChive
- Directrices de implementación de WARC
- Bienvenido
- 13. Archivos ARC de Internet Archive
- El ecosistema WARC