El Australian Web Archive ( AWA ) es una base de datos en línea disponible públicamente de sitios web australianos archivados, alojada por la Biblioteca Nacional de Australia (NLA) en su plataforma Trove , un agregador de bases de datos de bibliotecas en línea. Comprende el archivo PANDORA de la NLA , el Archivo Web del Gobierno de Australia (AGWA) y las colecciones de dominio ".au" de la Biblioteca Nacional de Australia . El acceso se realiza a través de una única interfaz en Trove, que está disponible públicamente. [1] [2] [3] El Australian Web Archive se creó en marzo de 2019, [4] y es uno de los archivos web más grandes del mundo. [5] Su propósito es proporcionar un recurso para historiadores e investigadores, ahora y en el futuro. [5]
El servicio PANDORA empezó a archivar sitios web en octubre de 1996. [6]
En 2005, la NLA comenzó a archivar instantáneas anuales de todo el dominio web australiano ( URL con el sufijo . ".au" [4] ), [7] recopiladas mediante grandes rastreos . [8] Posteriormente, los primeros sitios web del dominio web .au, que datan de 1996, se obtuvieron de Internet Archive . En 2019, este contenido se hizo público por primera vez a través de Trove. [9]
La infraestructura de PANDORA, que funciona bien para un archivado selectivo a pequeña escala, no se adapta a la "recolección masiva" de contenido web a gran escala, por lo que se tuvo que desarrollar un nuevo sistema técnico mediante el cual se creó un servicio de archivado web que integraría la entrega de sitios web archivados. dentro de una interfaz de sitio web en vivo que entrega los sitios web archivados sin problemas al usuario, lo cual es difícil de lograr técnicamente. [10]
Los sitios web del gobierno australiano son registros de la Commonwealth y, por lo tanto, son publicaciones que deben gestionarse de conformidad con la Ley de Archivos de 1983 . [11]
El Archivo Web del Gobierno de Australia (AGWA) consiste en un archivo masivo de sitios web del Gobierno de la Commonwealth . La NLA comenzó a recopilar periódicamente los sitios web en junio de 2011, [12] después de que se superara un obstáculo importante con un acuerdo administrativo celebrado en mayo de 2010 que permitía a la NLA recopilar, preservar y hacer accesibles sitios web gubernamentales sin tener que solicitar permiso previo para cada uno. sitio web o documento, como era el caso antes de eso. El servicio utiliza el rastreador web Heritrix para la recolección, archivos WARC para el almacenamiento y Open Wayback para la prestación del servicio. Hay una enorme cantidad de publicaciones por parte del gobierno, pero muchos desafíos que superar para intentar preservar el contenido, como su repentina desaparición. En marzo de 2014, la AGWA se hizo públicamente accesible. [10]
La AGWA cumple con los requisitos de preservación y retención para sitios web como material "conservado como archivos nacionales" (RNA) según la Ley de Archivos ; sin embargo, los videos y archivos de documentos (como PDF o documentos de Word ) no siempre se capturan, por lo que deben administrarse por separado. [11]
A principios de 2015, la AGWA incluía contenidos que databan de 2005, que ascendían a unos 144 millones de archivos que ocupaban 15 terabytes . Solo incluía sitios web del Gobierno de la Commonwealth recopilados mediante cosechas masivas de casi 1.000 URL iniciales. La programación de las cosechas aún no estaba establecida de manera rutinaria, pero las cosechas se realizaban aproximadamente tres veces al año. [10]
En 2017, el archivo AGWA y PANDORA se fusionaron con las otras colecciones de archivos web para formar la colección de archivos web Trove. [9] Después de un mayor desarrollo y la creación del Archivo Web de Australia, los sitios web gubernamentales archivados a través de AGWA y ahora incluidos en AWA aún se pueden buscar por separado utilizando la opción "Búsqueda avanzada". [9]
La NLA describe un archivo web como una "colección de instantáneas de sitios web capturadas mientras son accesibles en la web y luego preservadas en una copia estática". La colección archivada en la AWA es "relevante para la vida y las actividades culturales, sociales, políticas, de investigación y comerciales de Australia y los australianos". Recopila material web a través del archivado programado de sitios web y publicaciones seleccionados, así como de algunas recopilaciones ad hoc relacionadas con eventos importantes. [9]
En marzo de 2019, cuando comenzó, AWA ya contenía alrededor de 600 terabytes de datos, con 9 mil millones de registros. [5] [13] Contiene más funciones que Wayback Machine , alojada en Internet Archive , lo que permite la búsqueda de texto completo utilizando un motor de búsqueda integrado. Los desarrolladores también idearon técnicas para filtrar "ruido" no deseado. Los datos permanecen en los servidores de la Biblioteca, aunque en el futuro se prevé un traslado a la nube , a medida que crezca el contenido. [5] La usabilidad para una amplia gama de usuarios y, en particular, la funcionalidad de búsqueda, fueron los puntos principales durante el desarrollo. [9]
El archivo se puede buscar completamente, basándose en una combinación de técnicas utilizadas por los desarrolladores. Cada equipo creó un algoritmo de búsqueda único y complejo , adaptando una versión del algoritmo de clasificación de páginas de Google (basado en la frecuencia de clics en una página), modificado para generar recursos mejores y de alta calidad. Otras tecnologías incluyen un filtro bayesiano (de hecho, un filtro de spam ), un clasificador No seguro para el trabajo de Yahoo y aprendizaje automático . [14]
Hay una opción "Limitar al dominio web gov.au" antes de realizar la búsqueda, [15] y los sitios web gubernamentales archivados a través de AGWA aún se pueden buscar por separado utilizando la opción "Búsqueda avanzada". [9] Otras opciones en la Búsqueda avanzada son limitar por período de tiempo las instantáneas, dominio y tipo de archivo. [dieciséis]
Ahora que muchos de los sitios web anteriores de la década de 1990 se han perdido, principalmente debido al cambio frecuente de plataformas web, el Australian Web Archive es una iniciativa importante que ayudará a salvar páginas web actuales y futuras, especialmente contenido australiano. [4] Se seguirá agregando material al Archivo y otro material en línea recopilado de acuerdo con la Ley de Biblioteca Nacional de 1960 , las disposiciones de depósito legal de la Ley de Copyright de 1968 y la política de selección de colecciones digitales de la NLA . [9]
Los sitios web de la región de Asia Pacífico no están incluidos en la AWA, pero la NLA se asocia con Internet Archive para recopilar y preservar "sitios web seleccionados de Asia y el Pacífico relacionados con eventos o grupos sociopolíticos específicos". [17]