Archivado web

El archivado web es el proceso de recopilar, preservar y proporcionar acceso a material de la World Wide Web . El objetivo es garantizar que la información se conserve en un formato de archivo para la investigación y el público. ^[1]

Los archivistas web suelen emplear rastreadores web automatizados para capturar la enorme cantidad de información que hay en la Web. El servicio de archivo web más conocido es Wayback Machine , administrado por Internet Archive .

La creciente porción de cultura humana creada y registrada en la web hace inevitable que cada vez más bibliotecas y archivos tengan que enfrentar los desafíos del archivado web. ^[2] Las bibliotecas nacionales , los archivos nacionales y varios consorcios de organizaciones también participan en el archivo de contenido web culturalmente importante.

También hay software y servicios de archivado web comercial disponibles para organizaciones que necesitan archivar su propio contenido web con fines corporativos, regulatorios o legales.

Historia y desarrollo

Si bien la curación y organización de la web ha prevalecido desde mediados y fines de la década de 1990, uno de los primeros proyectos de archivo web a gran escala fue Internet Archive , una organización sin fines de lucro creada por Brewster Kahle en 1996. ^[3] Internet Archive lanzó su propio motor de búsqueda para ver contenido web archivado, Wayback Machine , en 2001. ^[3] En 2018, Internet Archive albergaba 40 petabytes de datos. ^[4] Internet Archive también desarrolló muchas de sus propias herramientas para recopilar y almacenar sus datos, incluido PetaBox para almacenar grandes cantidades de datos de manera eficiente y segura, y Heritrix , un rastreador web desarrollado en conjunto con las bibliotecas nacionales nórdicas. ^[3] Otros proyectos lanzados aproximadamente al mismo tiempo incluyeron un proyecto de archivo web de la Biblioteca Nacional de Canadá , Pandora de Australia , archivos web de Tasmania y Kulturarw3 de Suecia. ^[5]^[6]

^Entre 2001 y 2010, el ^{Taller Internacional de Archivado Web (IWAW) proporcionó una plataforma para compartir experiencias e}^intercambiar ideas. ^[7]^[8] El Consorcio Internacional para la Preservación de Internet (IIPC), establecido en 2003, ha facilitado la colaboración internacional en el desarrollo de estándares y herramientas de código abierto para la creación de archivos web. ^[9]

La ahora extinta Internet Memory Foundation fue fundada en 2004 por la Comisión Europea con el objetivo de archivar la web en Europa. ^[3] Este proyecto desarrolló y publicó muchas herramientas de código abierto, como "captura de contenido multimedia, análisis de coherencia temporal, evaluación de spam y detección de evolución de terminología". ^[3] Los datos de la fundación ahora están alojados en Internet Archive, pero actualmente no son de acceso público. ^[10]

A pesar de que no existe una responsabilidad centralizada para su conservación, el contenido web se está convirtiendo rápidamente en el registro oficial. Por ejemplo, en 2017, el Departamento de Justicia de los Estados Unidos afirmó que el gobierno trata los tuits del presidente como declaraciones oficiales. ^[11]

Métodos de recolección

Los archivistas web generalmente archivan varios tipos de contenido web, incluidas páginas web HTML , hojas de estilo , JavaScript , imágenes y videos . También archivan metadatos sobre los recursos recopilados, como el tiempo de acceso, el tipo MIME y la longitud del contenido. Estos metadatos son útiles para establecer la autenticidad y la procedencia de la colección archivada.

Archivado transaccional

El archivado transaccional es un enfoque basado en eventos que recopila las transacciones reales que tienen lugar entre un servidor web y un navegador web . Se utiliza principalmente como un medio para preservar evidencia del contenido que realmente se vio en un sitio web en particular , en una fecha determinada. Esto puede ser particularmente importante para las organizaciones que necesitan cumplir con los requisitos legales o reglamentarios para divulgar y conservar información. ^[12]

Un sistema de archivado transaccional normalmente funciona interceptando cada solicitud HTTP y respuesta del servidor web, filtrando cada respuesta para eliminar contenido duplicado y almacenando permanentemente las respuestas como flujos de bits.

Dificultades y limitaciones

Rastreadores

Los archivos web que dependen del rastreo web como su principal medio de recopilación de información web se ven afectados por las dificultades del rastreo web:

El protocolo de exclusión de robots puede solicitar a los rastreadores que no accedan a partes de un sitio web. Algunos archivistas web pueden ignorar la solicitud y rastrear esas partes de todos modos.
Grandes partes de un sitio web pueden estar ocultas en la Deep Web . Por ejemplo, la página de resultados detrás de un formulario web puede estar en la Deep Web si los rastreadores no pueden seguir un enlace a la página de resultados.
Las trampas de rastreadores (por ejemplo, calendarios) pueden hacer que un rastreador descargue una cantidad infinita de páginas, por lo que los rastreadores generalmente se configuran para limitar la cantidad de páginas dinámicas que rastrean.
La mayoría de las herramientas de archivado no capturan la página tal como está. Se observa que, a menudo, los banners publicitarios y las imágenes se pasan por alto durante el archivado.

Sin embargo, es importante tener en cuenta que un archivo web en formato nativo, es decir, un archivo web completamente navegable, con enlaces, medios, etc. que funcionen, solo es realmente posible utilizando tecnología de rastreo.

La Web es tan grande que rastrear una parte importante de ella requiere una gran cantidad de recursos técnicos. Además, la Web cambia tan rápido que partes de un sitio web pueden sufrir modificaciones antes de que un rastreador haya terminado de rastrearlas.

Limitaciones generales

Algunos servidores web están configurados para devolver a las solicitudes de archivadores web páginas distintas de las que devolverían en respuesta a las solicitudes normales del navegador. Esto se hace normalmente para engañar a los motores de búsqueda para que dirijan más tráfico de usuarios a un sitio web y, a menudo, se hace para evitar la responsabilidad o para proporcionar contenido mejorado solo a los navegadores que pueden mostrarlo.

Los archivistas web no sólo deben enfrentarse a los retos técnicos del archivado web, sino que también deben enfrentarse a las leyes de propiedad intelectual. Peter Lyman ^[13] afirma que "aunque la Web se considera popularmente un recurso de dominio público , está protegida por derechos de autor ; por lo tanto, los archivistas no tienen derecho legal a copiar la Web". Sin embargo, las bibliotecas nacionales de algunos países ^[14] tienen derecho legal a copiar partes de la Web en virtud de una extensión de un depósito legal .

Algunos archivos web privados sin fines de lucro que se hacen accesibles al público, como WebCite , Internet Archive o Internet Memory Foundation, permiten a los propietarios de contenido ocultar o eliminar contenido archivado al que no quieren que el público tenga acceso. Otros archivos web solo son accesibles desde ciertas ubicaciones o tienen un uso regulado. WebCite cita una demanda reciente contra el almacenamiento en caché de Google, que Google ganó. ^[15]

Leyes

En 2017, la Autoridad Reguladora de la Industria Financiera, Inc. (FINRA), una organización reguladora financiera de los Estados Unidos, publicó un aviso que establece que todas las empresas que realizan comunicaciones digitales deben mantener un registro. Esto incluye datos de sitios web, publicaciones en redes sociales y mensajes. ^[16] Algunas leyes de derechos de autor pueden inhibir el archivo web. Por ejemplo, el archivo académico de Sci-Hub queda fuera de los límites de la ley de derechos de autor contemporánea. El sitio proporciona acceso duradero a trabajos académicos, incluidos aquellos que no tienen una licencia de acceso abierto , y por lo tanto contribuye al archivo de investigaciones científicas que de otro modo podrían perderse. ^[17]^[18]

Véase también

Bibliografía general

Brown, A. (2006). Archivado de sitios web: una guía práctica para profesionales de la gestión de la información . Londres: Facet Publishing. ISBN 978-1-85604-553-7.
Brügger, N. (2005). Archivado de sitios web. Consideraciones generales y estrategias. Aarhus: Centro de investigación de Internet. ISBN 978-87-990507-0-3. Archivado desde el original el 29 de enero de 2009.
Day, M. (2003). "Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives" (PDF) . Investigación y tecnología avanzada para bibliotecas digitales . Apuntes de clase en informática. Vol. 2769. págs. 461–472. doi :10.1007/978-3-540-45175-4_42. ISBN 978-3-540-40726-3.
Eysenbach, G. y Trudel, M. (2005). "Seguimos, seguimos, seguimos ahí: uso del servicio WebCite para archivar permanentemente las páginas web citadas". Journal of Medical Internet Research . 7 (5): e60. doi : 10.2196/jmir.7.5.e60 . PMC 1550686 . PMID 16403724.
Fitch, Kent (2003). «Archivado de sitios web: un enfoque para registrar cada respuesta materialmente diferente producida por un sitio web». Ausweb 03. Archivado desde el original el 20 de julio de 2003. Consultado el 27 de septiembre de 2006 .
Jacoby, Robert (19 de agosto de 2010). «Archivar una página web». Archivado desde el original el 3 de enero de 2011. Consultado el 23 de octubre de 2010 .
Lyman, P. (2002). "Archivar la World Wide Web". Elaboración de una estrategia nacional para la conservación: cuestiones relacionadas con el archivo de medios digitales .
Masanès, J.), ed. (2006). Archivado web . Berlín: Springer-Verlag . ISBN. 978-3-540-23338-1.
Pennock, Maureen (2013). Archivado web . Informes de vigilancia tecnológica de la DPC. Gran Bretaña: Digital Preservation Coalition . doi :10.7207/twr13-01. ISSN 2048-7916.
Toyoda, M.; Kitsuregawa, M. (2012). "La historia del archivado web". Actas del IEEE . 100 (número especial del centenario): 1441–1443. doi : 10.1109/JPROC.2012.2189920 .

Referencias

^ "Archivado web". Netpreserve - Consorcio Internacional para la Preservación de Internet . 14 de agosto de 2024. Archivado desde el original el 12 de julio de 2024.
^ Truman, Gail (2016). "Web Archiving Environmental Scan". Biblioteca de Harvard .
^ abcde Toyoda, M.; Kitsuregawa, M. (mayo de 2012). "La historia del archivado web". Actas del IEEE . 100 (Número especial del centenario): 1441–1443. doi : 10.1109/JPROC.2012.2189920 . ISSN 0018-9219.
^ "Dentro de Wayback Machine, la cápsula del tiempo de Internet". The Hustle . 28 de septiembre de 2018. sec. Wayyyy back . Consultado el 21 de julio de 2020 .
^ Costa, Miguel; Gomes, Daniel; Silva, Mário J. (septiembre de 2017). "La evolución del archivado web". Revista Internacional de Bibliotecas Digitales . 18 (3): 191–205. doi :10.1007/s00799-016-0171-9. S2CID 24303455.
^ Consalvo, Mia; Ess, Charles, eds. (abril de 2011). "Archivado web: entre el pasado, el presente y el futuro". The Handbook of Internet Studies (1.ª ed.). Wiley. págs. 24–42. doi :10.1002/9781444314861. ISBN 978-1-4051-8588-2.
^ "IWAW 2010: El 10.º taller internacional sobre archivado web". www.wikicfp.com . Consultado el 19 de agosto de 2019 .
^ "IWAW - Talleres internacionales de archivado web". bibnum.bnf.fr . Archivado desde el original el 20 de noviembre de 2012 . Consultado el 19 de agosto de 2019 .
^ "Acerca del IIPC". IIPC . Consultado el 17 de abril de 2022 .
^ "Internet Memory Foundation: Web libre: descarga, préstamo y transmisión gratuitos". archive.org . Internet Archive . Consultado el 21 de julio de 2020 .
^ Regis, Camille (4 de junio de 2019). "Archivado web: ¿Cree que la Web es permanente? Piénselo de nuevo". History Associates . Consultado el 14 de julio de 2019 .
^ Brown, Adrian (10 de enero de 2016). Archivado de sitios web: una guía práctica para profesionales de la gestión de la información . Facet. ISBN 978-1-78330-053-2.OCLC 1064574312 .
^ Lyman (2002)
^ "Depósito legal | IIPC". netpreserve.org . Archivado desde el original el 16 de marzo de 2017 . Consultado el 31 de enero de 2017 .
^ "Preguntas frecuentes sobre WebCite". Webcitation.org . Consultado el 20 de septiembre de 2018 .
^ "Redes sociales y comunicaciones digitales" (PDF) . finra.org . FINRA.
^ Claburn, Thomas (10 de septiembre de 2020). "Las revistas de acceso abierto están desapareciendo de la web, Internet Archive está listo para llenar los vacíos". The Register .
^ Laakso, Mikael; Matthias, Lisa; Jahn, Najko (2021). "El acceso abierto no es para siempre: un estudio de las revistas de acceso abierto desaparecidas". Revista de la Asociación de Ciencia y Tecnología de la Información . 72 (9): 1099–1112. arXiv : 2008.11933 . doi :10.1002/ASI.24460. S2CID 221340749.

Enlaces externos

Recursos de la biblioteca sobre
archivado web

Libros en línea
Recursos en tu biblioteca
Recursos en otras bibliotecas

Consorcio Internacional para la Preservación de Internet (IIPC): consorcio internacional cuya misión es adquirir, preservar y hacer accesible el conocimiento y la información de Internet para las generaciones futuras.
Biblioteca Nacional de Australia: Preservación del acceso a la información digital (PADI)
Biblioteca del Congreso: archivo web