stringtranslate.com

Heritrix

Heritrix es un rastreador web diseñado para el archivado web . Fue escrito por Internet Archive . Está disponible bajo una licencia de software libre y escrito en Java . Se puede acceder a la interfaz principal mediante un navegador web y hay una herramienta de línea de comandos que se puede utilizar opcionalmente para iniciar rastreos.

Heritrix fue desarrollado conjuntamente por Internet Archive y las bibliotecas nacionales nórdicas sobre especificaciones escritas a principios de 2003. El primer lanzamiento oficial fue en enero de 2004, y los empleados de Internet Archive y otras partes interesadas lo han mejorado continuamente.

Durante muchos años, Heritrix no fue el principal rastreador utilizado para rastrear el contenido de la colección web de Internet Archive. [2] El mayor contribuyente a la colección, a partir de 2011, es Alexa Internet . [2] Alexa rastrea la web para sus propios fines, [2] utilizando un rastreador llamado ia_archiver . Luego, Alexa dona el material a Internet Archive. [2] El propio Internet Archive realizó parte de su propio rastreo utilizando Heritrix, pero sólo a menor escala. [2]

A partir de 2008, Internet Archive comenzó a mejorar el rendimiento para realizar su propio rastreo a gran escala y ahora recopila la mayor parte de su contenido. [3] [ verificación fallida ]

Proyectos que utilizan Heritrix

Varias organizaciones y bibliotecas nacionales están utilizando Heritrix, entre ellas: [ cita necesaria ]

Archivos de arco

Las versiones anteriores de Heritrix almacenaban de forma predeterminada los recursos web que rastreaba en un archivo Arc. Este formato de archivo no tiene ninguna relación con ARC (formato de archivo) . Este formato ha sido utilizado por Internet Archive desde 1996 para almacenar sus archivos web. Más recientemente, guarda de forma predeterminada en el formato de archivo WARC , que es similar a ARC pero especificado con mayor precisión y más flexible. Heritrix también se puede configurar para almacenar archivos en un formato de directorio similar al rastreador Wget que usa la URL para nombrar el directorio y el nombre de archivo de cada recurso.

Un archivo Arc almacena varios recursos archivados en un solo archivo para evitar administrar una gran cantidad de archivos pequeños. El archivo consta de una secuencia de registros URL, cada uno con un encabezado que contiene metadatos sobre cómo se solicitó el recurso seguido del encabezado HTTP y la respuesta. Los archivos Arc oscilan entre 100 y 600 MB. [ cita necesaria ]

Ejemplo:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 texto/plain 76 1 1 URL de InternetArchive Dirección IP Fecha de archivo Tipo de contenido Longitud de archivohttp://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP / 1.1  200  OK Fecha :  jueves, 22 de junio de 2006 19:01:15 GMT Servidor :  Apache Última modificación :  sábado, 10 de junio 2006 22:33:11 GMT Longitud del contenido :  30 Tipo de contenido :  texto/html<html> _ _¡¡¡Hola Mundo!!!</html> _ _

Herramientas para procesar archivos Arc

Heritrix incluye una herramienta de línea de comandos llamada arcreader que se puede utilizar para extraer el contenido de un archivo Arc. El siguiente comando enumera todas las URL y metadatos almacenados en el archivo Arc determinado (en formato CDX):

lector de arco IA-2006062.arc

El siguiente comando extrae hello.html del ejemplo anterior suponiendo que el registro comienza en el desplazamiento 140:

arcreader -o 140 -f volcar IA-2006062.arc

Otras herramientas:

Herramientas de línea de comandos

Heritrix viene con varias herramientas de línea de comandos:

Hay más herramientas disponibles como parte del proyecto warctools de Internet Archive. [6]

Ver también

Referencias

A partir de esta edición, este artículo utiliza contenido de "Re: ¿Control sobre Internet Archive además de "No permitir /"?" , cuya licencia permite la reutilización según la licencia Creative Commons Attribution-ShareAlike 3.0 Unported , pero no según la GFDL . Se deben seguir todos los términos relevantes.

  1. ^ "Versión 3.4.0-20220727". 28 de julio de 2022 . Consultado el 5 de octubre de 2022 .
  2. ^ abcde Kris (6 de septiembre de 2011). "Re: ¿Control sobre Internet Archive además de 'No permitir /'?". Intercambio de pila para webmasters profesionales . Intercambio de pila, Inc. Consultado el 7 de enero de 2013 .
  3. ^ "Wayback Machine: ahora con 240.000.000.000 de URL: blogs de Internet Archive". blog.archive.org . Consultado el 11 de septiembre de 2017 .
  4. ^ "Acerca de - Archivo web (Biblioteca del Congreso)". www.loc.gov . Consultado el 29 de octubre de 2017 .
  5. ^ "Aspectos técnicos del archivo web - Koninklijke Bibliotheek". www.kb.nl. _ Consultado el 11 de septiembre de 2017 .
  6. ^ "herramientas de guerra". 25 de agosto de 2017 . Consultado el 11 de septiembre de 2017 a través de GitHub.
  1. Quemador, M. (1997). "Arrastrándose hacia la eternidad: construyendo un archivo de la World Wide Web". Técnicas Web . 2 (5). Archivado desde el original el 1 de enero de 2008.
  2. Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Introducción a Heritrix, un rastreador web con calidad de archivo" (PDF) . Actas del cuarto taller internacional de archivo web (IWAW'04) . Archivado desde el original (PDF) el 12 de junio de 2011 . Consultado el 9 de marzo de 2007 .{{cite conference}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  3. Sigurðsson, K. (2005). "Rastreo incremental con Heritrix" (PDF) . Actas del quinto taller internacional de archivo web (IWAW'05) . Archivado desde el original (PDF) el 12 de junio de 2011 . Consultado el 23 de junio de 2006 .

enlaces externos

Herramientas de Internet Archive:

Enlaces a herramientas relacionadas: