El archivo web es el proceso de recopilar partes de la World Wide Web para garantizar que la información se conserve en un archivo para futuros investigadores, historiadores y el público. Los archiveros web suelen emplear rastreadores web para la captura automatizada debido al enorme tamaño y cantidad de información en la Web. La organización de archivo web más grande basada en un enfoque de rastreo masivo es Wayback Machine , que se esfuerza por mantener un archivo de toda la Web.
La creciente porción de la cultura humana creada y registrada en la web hace inevitable que cada vez más bibliotecas y archivos tengan que enfrentar los desafíos del archivo web. [1] Las bibliotecas nacionales , los archivos nacionales y varios consorcios de organizaciones también participan en el archivo de contenidos web de importancia cultural.
El software y los servicios comerciales de archivo web también están disponibles para las organizaciones que necesitan archivar su propio contenido web con fines legales, regulatorios o de patrimonio corporativo.
Si bien la conservación y organización de la web ha prevalecido desde mediados y finales de la década de 1990, uno de los primeros proyectos de archivo web a gran escala fue Internet Archive , una organización sin fines de lucro creada por Brewster Kahle en 1996. [2] Internet Archive lanzó su propio motor de búsqueda para ver contenido web archivado, Wayback Machine , en 2001. [2] En 2018, Internet Archive albergaba 40 petabytes de datos. [3] Internet Archive también desarrolló muchas de sus propias herramientas para recopilar y almacenar sus datos, incluido PetaBox para almacenar grandes cantidades de datos de manera eficiente y segura, y Heritrix , un rastreador web desarrollado en conjunto con las bibliotecas nacionales nórdicas. [2] Otros proyectos lanzados casi al mismo tiempo incluyeron un proyecto de archivo web de la Biblioteca Nacional de Canadá , Pandora de Australia , archivos web de Tasmania y Kulturarw3 de Suecia. [4] [5]
De 2001 a 2010, [ verificación fallida ] el Taller Internacional de Archivado Web (IWAW) proporcionó una plataforma para compartir experiencias e intercambiar ideas. [6] [7] El Consorcio Internacional para la Preservación de Internet (IIPC), establecido en 2003, ha facilitado la colaboración internacional en el desarrollo de estándares y herramientas de código abierto para la creación de archivos web. [8]
La ahora desaparecida Internet Memory Foundation fue fundada en 2004 y fundada por la Comisión Europea para archivar la web en Europa. [2] Este proyecto desarrolló y lanzó muchas herramientas de código abierto, como "captura de medios enriquecidos, análisis de coherencia temporal, evaluación de spam y detección de evolución terminológica". [2] Los datos de la fundación ahora se encuentran en Internet Archive, pero actualmente no son accesibles al público. [9]
A pesar de que no existe una responsabilidad centralizada para su preservación, el contenido web se está convirtiendo rápidamente en un registro oficial. Por ejemplo, en 2017, el Departamento de Justicia de Estados Unidos afirmó que el gobierno trata los tuits del presidente como declaraciones oficiales. [10]
Los archiveros web generalmente archivan varios tipos de contenido web, incluidas páginas web HTML , hojas de estilo , JavaScript , imágenes y vídeos . También archiva metadatos sobre los recursos recopilados, como el tiempo de acceso, el tipo MIME y la longitud del contenido. Estos metadatos son útiles para establecer la autenticidad y la procedencia de la colección archivada.
El archivado transaccional es un enfoque basado en eventos, que recopila las transacciones reales que tienen lugar entre un servidor web y un navegador web . Se utiliza principalmente como un medio para preservar evidencia del contenido que realmente se vio en un sitio web en particular , en una fecha determinada. Esto puede ser particularmente importante para las organizaciones que necesitan cumplir con requisitos legales o reglamentarios para divulgar y conservar información. [11]
Un sistema de archivo transaccional normalmente funciona interceptando cada solicitud HTTP y respuesta del servidor web, filtrando cada respuesta para eliminar contenido duplicado y almacenando permanentemente las respuestas como flujos de bits.
Los archivos web que dependen del rastreo web como medio principal para recopilar la Web se ven influenciados por las dificultades del rastreo web:
Sin embargo, es importante tener en cuenta que un archivo web en formato nativo, es decir, un archivo web totalmente navegable, con enlaces funcionales, medios, etc., sólo es posible utilizando tecnología de rastreo.
La Web es tan grande que rastrear una parte importante de ella requiere una gran cantidad de recursos técnicos. Además, la Web está cambiando tan rápido que partes de un sitio web pueden sufrir modificaciones antes de que un rastreador haya terminado de rastrearlo.
Algunos servidores web están configurados para devolver páginas diferentes a las solicitudes del archivador web que las que devolverían en respuesta a las solicitudes habituales del navegador. Por lo general, esto se hace para engañar a los motores de búsqueda para que dirijan más tráfico de usuarios a un sitio web y, a menudo, se hace para evitar la responsabilidad o para proporcionar contenido mejorado sólo a aquellos navegadores que pueden mostrarlo.
Los archiveros web no sólo deben enfrentar los desafíos técnicos del archivo web, sino que también deben lidiar con las leyes de propiedad intelectual. Peter Lyman [12] afirma que "aunque la Web se considera popularmente como un recurso de dominio público , tiene derechos de autor ; por lo tanto, los archiveros no tienen ningún derecho legal a copiar la Web". Sin embargo, las bibliotecas nacionales de algunos países [13] tienen el derecho legal de copiar partes de la web bajo una extensión de depósito legal .
Algunos archivos web privados sin fines de lucro que se hacen accesibles al público, como WebCite , Internet Archive o Internet Memory Foundation, permiten a los propietarios de contenido ocultar o eliminar contenido archivado al que no quieren que el público tenga acceso. A otros archivos web solo se puede acceder desde determinadas ubicaciones o tienen un uso regulado. WebCite cita una demanda reciente contra el almacenamiento en caché de Google, que ganó Google . [14]
En 2017, la Autoridad Reguladora de la Industria Financiera, Inc. (FINRA), una organización reguladora financiera de los Estados Unidos, publicó un aviso indicando que todas las empresas que realizan comunicaciones digitales deben mantener un registro. Esto incluye datos del sitio web, publicaciones en redes sociales y mensajes. [15] Algunas leyes de derechos de autor pueden inhibir el archivo web. Por ejemplo, los archivos académicos de Sci-Hub quedan fuera de los límites de la ley de derechos de autor contemporánea. El sitio proporciona acceso duradero a trabajos académicos, incluidos aquellos que no tienen una licencia de acceso abierto y, por lo tanto, contribuye al archivo de investigaciones científicas que de otro modo podrían perderse. [16] [17]