Wayback Machine es un archivo digital de la World Wide Web fundado por Internet Archive , una organización estadounidense sin fines de lucro con sede en San Francisco , California . Creado en 1996 y lanzado al público en 2001, permite a los usuarios volver "al pasado" para ver cómo lucían los sitios web en el pasado. Sus fundadores, Brewster Kahle y Bruce Gilliat , desarrollaron Wayback Machine para proporcionar "acceso universal a todo el conocimiento" mediante la preservación de copias archivadas de páginas web desaparecidas. [2]
Lanzada el 10 de mayo de 1996, Wayback Machine había guardado más de 38,2 mil millones de páginas web hasta finales de 2009. En noviembre de 2024, Wayback Machine ha archivado más de 916 mil millones de páginas web y más de 100 petabytes de datos. [3] [4]
Internet Archive comenzó a archivar páginas web almacenadas en caché en 1996. Una de las primeras páginas conocidas se archivó el 10 de mayo de 1996 en( UTC ). [5]
Los fundadores de Internet Archive, Brewster Kahle y Bruce Gilliat, lanzaron Wayback Machine en San Francisco , California , [6] en octubre de 2001, [7] [8] principalmente para abordar el problema de la desaparición de contenido web cada vez que se modifica o cuando se cierra un sitio web. [9] El servicio permite a los usuarios ver versiones archivadas de páginas web a lo largo del tiempo, lo que el archivo llama un "índice tridimensional". [10] Kahle y Gilliat crearon la máquina con la esperanza de archivar todo Internet y proporcionar "acceso universal a todo el conocimiento". [11] El nombre "Wayback Machine" es una referencia a un dispositivo ficticio de viaje en el tiempo en la caricatura animada Las aventuras de Rocky y Bullwinkle y sus amigos de la década de 1960. [12] [13] [14] En un segmento de la caricatura titulado "La improbable historia de Peabody", los personajes Mister Peabody y Sherman usan la " Wayback Machine " para viajar en el tiempo para presenciar y participar en eventos históricos famosos. [15]
Desde 1996 hasta 2001, la información se mantuvo en cinta digital, y Kahle permitió ocasionalmente a los investigadores y científicos acceder a la "torpe" base de datos . [16] Cuando el archivo llegó a su quinto aniversario en 2001, se dio a conocer y abrió al público en una ceremonia en la Universidad de California, Berkeley . [17] Cuando se lanzó Wayback Machine, ya contenía más de 10 mil millones de páginas archivadas. [18] Los datos se almacenan en el gran clúster de nodos Linux de Internet Archive. [11] Revisa y archiva nuevas versiones de sitios web en ocasiones (ver detalles técnicos a continuación). [19] Los sitios también se pueden capturar manualmente ingresando la URL de un sitio web en el cuadro de búsqueda, siempre que el sitio web permita a Wayback Machine " rastrearlo " y guardar los datos. [20]
El 30 de octubre de 2020, Wayback Machine comenzó a verificar contenidos. [21] A partir de enero de 2022, los dominios de los servidores de anuncios no podrán realizar capturas de datos. [22]
En mayo de 2021, con motivo del 25º aniversario de Internet Archive, Wayback Machine presentó la «Wayforward Machine», que permite a los usuarios «viajar a Internet en 2046, donde el conocimiento está bajo asedio ». [23] [24]
El software de Wayback Machine ha sido desarrollado para " rastrear " la Web y descargar toda la información y los archivos de datos de acceso público en las páginas web, la jerarquía Gopher , el sistema de tablón de anuncios Netnews (Usenet) y el software descargable. [25] La información recopilada por estos "rastreadores" no incluye toda la información disponible en Internet, ya que gran parte de los datos están restringidos por el editor o almacenados en bases de datos a las que no se puede acceder. Para superar las inconsistencias en los sitios web parcialmente almacenados en caché, Archive-It.org fue desarrollado en 2005 por Internet Archive como un medio para permitir a las instituciones y a los creadores de contenido recolectar y preservar voluntariamente colecciones de contenido digital y crear archivos digitales. [26]
Los rastreos provienen de varias fuentes, algunas importadas de terceros y otras generadas internamente por el Archivo. [19] Por ejemplo, los rastreos son aportados por la Fundación Sloan y Alexa , rastreos ejecutados por Internet Archive en nombre de NARA y la Fundación para la Memoria de Internet , espejos de Common Crawl . [19] Los "Rastreos de la Worldwide Web" se llevan a cabo desde 2010 y capturan la Web global. [19] [27] En septiembre de 2020, Internet Archive anunció una asociación con Cloudflare , un proveedor de servicios de red de distribución de contenido estadounidense , para indexar automáticamente los sitios web atendidos a través de sus servicios "Siempre en línea". [28]
Los documentos y recursos se almacenan con URL con marca de tiempo, como 20241124103401
. Los recursos individuales de las páginas, como imágenes, hojas de estilo y scripts, así como los hipervínculos salientes , se vinculan con la marca de tiempo de la página que se está viendo actualmente, por lo que se redirigen automáticamente a sus capturas individuales más cercanas en el tiempo. [29]
La frecuencia de las capturas de instantáneas varía según el sitio web. [19] Los sitios web en los "Rastreos de la Worldwide Web" se incluyen en una "lista de rastreo", y el sitio se archiva una vez por rastreo. [19] Un rastreo puede tardar meses o incluso años en completarse, según el tamaño. [19] Por ejemplo, el "Rastreo amplio número 13" comenzó el 9 de enero de 2015 y se completó el 11 de julio de 2016. [30] Sin embargo, puede haber múltiples rastreos en curso en un momento dado, y un sitio puede estar incluido en más de una lista de rastreo, por lo que la frecuencia con la que se rastrea un sitio varía ampliamente. [19]
En octubre de 2013 se puso a disposición una función de archivado llamada "Guardar página ahora", [31] accesible en la parte inferior derecha de la página principal de Wayback Machine. [32] Una vez que se introduce y se guarda una URL de destino, la página web pasará a formar parte de Wayback Machine. [31] A través de la dirección de Internet web.archive.org, [33] los usuarios pueden cargar en Wayback Machine una gran variedad de contenidos, incluidos formatos de archivos PDF y de compresión de datos . Wayback Machine crea una URL local permanente del contenido cargado, a la que se puede acceder en la web, incluso si no aparece en la lista al realizar una búsqueda en el sitio web oficial https://archive.org. [ jerga ]
A partir de octubre de 2019, los usuarios quedaron limitados a 15 solicitudes y recuperaciones de archivos por minuto. [34]
A medida que la tecnología se ha ido desarrollando a lo largo de los años, la capacidad de almacenamiento de Wayback Machine ha ido creciendo. En 2003, tras sólo dos años de acceso público, Wayback Machine crecía a un ritmo de 12 terabytes al mes. Los datos se almacenan en sistemas de bastidores PetaBox diseñados a medida por el personal de Internet Archive. El primer bastidor de 100 TB entró en pleno funcionamiento en junio de 2004, aunque pronto quedó claro que necesitarían mucho más almacenamiento. [35] [36]
Internet Archive migró su arquitectura de almacenamiento personalizada a Sun Open Storage en 2009 y alberga un nuevo centro de datos en un Sun Modular Datacenter en el campus de Sun Microsystems en California. [37] En 2009 [actualizar], Wayback Machine contenía aproximadamente tres petabytes de datos y crecía a un ritmo de 100 terabytes cada mes. [38]
En 2011 se puso a disposición del público una nueva versión mejorada de Wayback Machine, con una interfaz actualizada y un índice más actualizado de contenido archivado, en la que las capturas aparecen en un diseño de calendario con círculos cuyo ancho visualiza el número de rastreos cada día, pero sin marcado de duplicados con asteriscos o una página de búsqueda avanzada. [39] [40] Se agregó una barra de herramientas superior para facilitar la navegación entre capturas. Un gráfico de barras visualiza la frecuencia de capturas por mes a lo largo de los años. [41] Posteriormente se agregaron características como "Cambios", "Resumen" y un mapa gráfico del sitio.
En marzo de ese año, se dijo en el foro de Wayback Machine que "la versión Beta de la nueva Wayback Machine tiene un índice más completo y actualizado de todo el material rastreado hasta 2010, y seguirá actualizándose regularmente. El índice que impulsaba la Wayback Machine clásica sólo tiene un poco de material posterior a 2008, y no se planean más actualizaciones del índice, ya que se eliminará gradualmente este año". [42] También en 2011, Internet Archive instaló su sexto par de bastidores PetaBox que aumentaron la capacidad de almacenamiento de Wayback Machine en 700 terabytes. [43]
En enero de 2013, la compañía anunció un hito de 240 mil millones de URL. [44]
En octubre de 2013, la compañía introdujo la función "Guardar una página", que permite a cualquier usuario de Internet archivar el contenido de una URL y generar rápidamente un enlace permanente , a diferencia de la función liveweb anterior . [45] [46]
En diciembre de 2014, la Wayback Machine contenía 435 mil millones de páginas web (casi nueve petabytes de datos) y crecía a un ritmo de unos 20 terabytes por semana. [18] [47] [48]
En julio de 2016, se informó que Wayback Machine contenía alrededor de 15 petabytes de datos. [49] En octubre de 2016, se anunció que se cambiaría la forma en que se contabilizan las páginas web, lo que daría como resultado la disminución de los recuentos de páginas archivadas que se muestran. Los objetos incrustados, como imágenes, videos, hojas de estilo y JavaScript, ya no se cuentan como una "página web", mientras que los documentos HTML, PDF y de texto sin formato siguen contándose. [50]
En septiembre de 2018, la Wayback Machine contenía más de 25 petabytes de datos. [51] [52] En diciembre de 2020, la Wayback Machine contenía más de 70 petabytes de datos. [53]
El servicio Wayback Machine ofrece tres API públicas: SavePageNow, Availability y CDX. [56] SavePageNow se puede utilizar para archivar páginas web. La API Availability sirve para comprobar el estado de disponibilidad del archivo de una página web, [57] para comprobar si existe o no un archivo para la página web. La API CDX sirve para realizar consultas, filtrado y análisis complejos de los datos capturados. [58] [59]
Históricamente, Wayback Machine ha respetado el estándar de exclusión de robots (robots.txt) para determinar si un sitio web sería rastreado o, si ya lo estaba, si sus archivos serían visibles públicamente. Los propietarios de sitios web tenían la opción de optar por no participar en Wayback Machine mediante el uso de robots.txt. Se aplicaban las reglas de robots.txt de forma retroactiva; si un sitio bloqueaba Internet Archive, cualquier página archivada previamente del dominio también dejaba de estar disponible de inmediato. Además, Internet Archive afirmó que "a veces, el propietario de un sitio web se pone en contacto con nosotros directamente y nos pide que dejemos de rastrear o archivar un sitio. Nosotros cumplimos con estas solicitudes". [60] Además, el sitio web dice: "Internet Archive no está interesado en preservar u ofrecer acceso a sitios web u otros documentos de Internet de personas que no quieren que sus materiales estén en la colección". [61] [62]
El 17 de abril de 2017, aparecieron informes de sitios que habían dejado de funcionar y se habían convertido en dominios estacionados que usaban robots.txt para excluirse de los motores de búsqueda, lo que resultó en que se los excluyera inadvertidamente de Wayback Machine. [63] Después de esto, Internet Archive cambió la política para requerir una solicitud de exclusión explícita para eliminar sitios de Wayback Machine. [29]
La política de exclusión retroactiva de Wayback se basa en parte en las Recomendaciones para gestionar solicitudes de eliminación y preservar la integridad de los archivos , conocidas como la Política de Archivos de Oakland , publicada por la Escuela de Gestión de la Información y Sistemas de la Universidad de California, Berkeley en 2002, que otorga al propietario de un sitio web el derecho a bloquear el acceso a los archivos del sitio. [64] Wayback ha cumplido con esta política para ayudar a evitar litigios costosos. [65]
La política de exclusión retroactiva de Wayback comenzó a relajarse en 2017, cuando dejó de respetar a los robots en los sitios web del gobierno y del ejército de los EE. UU. tanto por rastrear como por mostrar páginas web. A partir de abril de 2017, Wayback ignora el archivo robots.txt de manera más amplia, no solo en los sitios web del gobierno de los EE. UU. [66] [67] [68] [69]
Desde su lanzamiento público en 2001, Wayback Machine ha sido estudiada por académicos tanto por las formas en que almacena y recopila datos como por las páginas reales contenidas en su archivo. Hasta 2013, los académicos habían escrito alrededor de 350 artículos en Wayback Machine, principalmente de los campos de la tecnología de la información , la bibliotecología y las ciencias sociales . Los académicos de las ciencias sociales han utilizado Wayback Machine para analizar cómo el desarrollo de sitios web desde mediados de la década de 1990 hasta la actualidad ha afectado al crecimiento de la empresa. [18]
Cuando Wayback Machine archiva una página, normalmente incluye la mayoría de los hipervínculos, con lo que mantiene activos esos enlaces que fácilmente podrían haberse roto debido a la inestabilidad de Internet. Investigadores de la India estudiaron la eficacia de la capacidad de Wayback Machine para guardar hipervínculos en publicaciones académicas en línea y descubrieron que guardaba algo más de la mitad de ellos. [70]
"Los periodistas utilizan Wayback Machine para ver sitios web muertos, informes de noticias anticuados y cambios en los contenidos de los sitios web. Su contenido se ha utilizado para responsabilizar a los políticos y exponer mentiras en el campo de batalla". [71] En 2014, una página de redes sociales archivada de Igor Girkin , un líder rebelde separatista en Ucrania, lo mostró alardeando de que sus tropas habían derribado un supuesto avión militar ucraniano antes de que se supiera que el avión en realidad era un avión civil de Malaysian Airlines ( Vuelo 17 de Malaysia Airlines ), después de lo cual eliminó la publicación y culpó al ejército de Ucrania por derribar el avión. [71] [72] En 2017, la Marcha por la Ciencia se originó a partir de una discusión en Reddit que indicaba que alguien había visitado Archive.org y descubrió que todas las referencias al cambio climático habían sido eliminadas del sitio web de la Casa Blanca. En respuesta, un usuario comentó: "Es necesario que haya una Marcha de los científicos en Washington". [73] [74] [75]
El sitio se utiliza mucho para verificación, proporcionando acceso a referencias y creación de contenido por parte de los editores de Wikipedia . [76] Cuando se agregan nuevas URL a Wikipedia, Internet Archive las ha estado archivando. [76]
En septiembre de 2020, se anunció una asociación con Cloudflare para archivar automáticamente los sitios web atendidos a través de su servicio "Always Online", lo que también le permitirá dirigir a los usuarios a su copia del sitio si no puede comunicarse con el host original. [77]
En 2014, había un retraso de seis meses entre el momento en que se rastreaba un sitio web y el momento en que estaba disponible para su visualización en Wayback Machine. [78] A partir de 2024, el retraso es de entre 3 y 10 horas. [29] Wayback Machine ofrece solo funciones de búsqueda limitadas. Su función "Búsqueda de sitios" permite a los usuarios encontrar un sitio basándose en palabras que lo describen, en lugar de palabras que se encuentran en las propias páginas web. [79]
Wayback Machine no incluye todas las páginas web creadas debido a las limitaciones de su rastreador web. Wayback Machine no puede archivar por completo las páginas web que contienen funciones interactivas como plataformas Flash y formularios escritos en JavaScript y aplicaciones web progresivas , porque esas funciones requieren interacción con el sitio web anfitrión. Esto significa que, desde aproximadamente el 9 de julio de 2013, Wayback Machine no ha podido mostrar los comentarios de YouTube al guardar las páginas de reproducción de los videos, ya que, según el Equipo de Archivo, los comentarios ya no se "cargan dentro de la página misma". [80] El rastreador web de Wayback Machine tiene dificultades para extraer cualquier cosa que no esté codificada en HTML o una de sus variantes, lo que a menudo puede resultar en hipervínculos rotos e imágenes faltantes. Debido a esto, el rastreador web no puede archivar "páginas huérfanas" que no estén vinculadas a otras páginas. [79] [81] El rastreador de Wayback Machine solo sigue una cantidad predeterminada de hipervínculos en función de un límite de profundidad preestablecido, por lo que no puede archivar todos los hipervínculos en cada página. [27]
En un caso de 2009, Netbula, LLC v. Chordiant Software Inc. , el demandado Chordiant presentó una moción para obligar a Netbula a deshabilitar el archivo robots.txt en su sitio web que estaba causando que Wayback Machine eliminara retroactivamente el acceso a versiones anteriores de páginas que había archivado del sitio de Netbula, páginas que Chordiant creía que respaldarían su caso. [82]
Netbula se opuso a la moción con el argumento de que los demandados estaban pidiendo modificar el sitio web de Netbula y que deberían haber citado directamente a Internet Archive para que publicara las páginas. [83] Sin embargo, un empleado de Internet Archive presentó una declaración jurada en apoyo de la moción de Chordiant, afirmando que no podía producir las páginas web por ningún otro medio "sin una carga, un gasto y una interrupción considerables de sus operaciones". [82]
El juez magistrado Howard Lloyd del Distrito Norte de California, División de San José, rechazó los argumentos de Netbula y les ordenó desactivar temporalmente el bloqueo de robots.txt para permitir que Chordiant recuperara las páginas archivadas que buscaban. [82]
En un caso de octubre de 2004, Telewizja Polska USA, Inc. v. Echostar Satellite , No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (ND Ill. 15 de octubre de 2004), un litigante intentó utilizar los archivos de Wayback Machine como fuente de evidencia admisible, quizás por primera vez. Telewizja Polska es el proveedor de TVP Polonia y EchoStar opera la red Dish Network . Antes de los procedimientos del juicio, EchoStar indicó que tenía la intención de ofrecer instantáneas de Wayback Machine como prueba del contenido pasado del sitio web de Telewizja Polska. Telewizja Polska presentó una moción in limine para suprimir las instantáneas sobre la base de rumores y fuente no autenticada, pero el juez magistrado Arlander Keys rechazó la afirmación de Telewizja Polska de rumores y denegó la moción in limine de TVP para excluir la evidencia en el juicio. [84] [85] Sin embargo, en el juicio, el juez de primera instancia Ronald Guzmán, juez del Tribunal de Distrito, revocó las conclusiones del magistrado Keys y sostuvo que ni la declaración jurada del empleado de Internet Archive ni las páginas subyacentes (es decir, el sitio web de Telewizja Polska) eran admisibles como prueba. El juez Guzmán razonó que la declaración jurada del empleado contenía tanto testimonios de oídas como declaraciones de apoyo no concluyentes, y que la supuesta página web y las impresiones no eran auto-autenticables. [86] [87]
La Oficina de Patentes y Marcas de los Estados Unidos y la Oficina Europea de Patentes aceptan las fechas de publicación del Archivo de Internet como prueba de cuándo una página web determinada estuvo accesible al público. Estas fechas se utilizan para determinar si una página web está disponible como técnica anterior , por ejemplo, al examinar una solicitud de patente. [88]
Existen limitaciones técnicas para archivar un sitio web y, como consecuencia, las partes contrarias en un litigio pueden hacer un uso indebido de los resultados proporcionados por los archivos de sitios web. Este problema puede verse exacerbado por la práctica de presentar capturas de pantalla de páginas web en quejas, respuestas o informes de testigos expertos cuando los enlaces subyacentes no están expuestos y, por lo tanto, pueden contener errores. Por ejemplo, los archivos como Wayback Machine no completan formularios y, por lo tanto, no incluyen el contenido de bases de datos de comercio electrónico que no sean RESTful en sus archivos. [89]
En Europa, Wayback Machine podría interpretarse como una violación de las leyes de derechos de autor . Sólo el creador de contenidos puede decidir dónde se publica o se duplica su contenido, por lo que el Archivo tendría que eliminar páginas de su sistema a petición del creador. [90] Las políticas de exclusión de Wayback Machine se pueden encontrar en la sección de preguntas frecuentes del sitio. [91]
Se han presentado algunos casos contra Internet Archive específicamente por sus esfuerzos de archivado de Wayback Machine.
A finales de 2002, el Archivo de Internet eliminó de Wayback Machine varios sitios que criticaban a la Cienciología . [92] Un mensaje de error indicaba que esto se debía a una "solicitud del propietario del sitio". [93] Más tarde, se aclaró que los abogados de la Iglesia de la Cienciología habían exigido la eliminación y que los propietarios del sitio no querían que se eliminara su material. [94]
En 2003, Harding Earley Follmer & Frailey defendió a un cliente de una disputa de marca registrada utilizando la Wayback Machine del Archive. Los abogados pudieron demostrar que las reclamaciones realizadas por el demandante no eran válidas, basándose en el contenido de su sitio web de varios años antes. El demandante, Healthcare Advocates, modificó su demanda para incluir al Internet Archive, acusando a la organización de infracción de derechos de autor, así como de violaciones de la DMCA y la Ley de Abuso y Fraude Informático . Healthcare Advocates afirmó que, dado que habían instalado un archivo robots.txt en su sitio web, incluso si después de que se presentó la demanda inicial, el Archive debería haber eliminado todas las copias anteriores del sitio web del demandante de la Wayback Machine, sin embargo, algunos materiales continuaron siendo visibles públicamente en Wayback. [95] La demanda se resolvió fuera de los tribunales después de que Wayback solucionara el problema. [96]
La activista Suzanne Shell presentó una demanda en diciembre de 2005, exigiendo a Internet Archive que le pagara 100.000 dólares estadounidenses por archivar su sitio web profane-justice.org entre 1999 y 2004. [97] [98] Internet Archive presentó una acción de juicio declaratorio en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California el 20 de enero de 2006, buscando una determinación judicial de que Internet Archive no violó los derechos de autor de Shell . Shell respondió y presentó una contrademanda contra Internet Archive por archivar su sitio, lo que, según ella, viola sus términos de servicio . [99] El 13 de febrero de 2007, un juez del Tribunal de Distrito de los Estados Unidos para el Distrito de Colorado desestimó todas las contrademandas excepto la de incumplimiento de contrato . [98] Internet Archive no solicitó desestimar las reclamaciones por infracción de derechos de autor que Shell afirmaba que surgieron de sus actividades de copia, que también seguirían adelante. [100]
El 25 de abril de 2007, Internet Archive y Suzanne Shell anunciaron conjuntamente el acuerdo de su demanda. [97] Internet Archive afirmó que "...no tiene interés en incluir en Wayback Machine materiales de personas que no desean que su contenido web se archive. Reconocemos que la Sra. Shell tiene un derecho de autor válido y exigible sobre su sitio web y lamentamos que la inclusión de su sitio web en Wayback Machine haya dado lugar a este litigio". Shell afirmó: "Respeto el valor histórico del objetivo de Internet Archive. Nunca tuve la intención de interferir con ese objetivo ni causarle ningún daño". [101]
Entre 2013 y 2016, un actor porno llamado Daniel Davydiuk intentó eliminar imágenes archivadas de sí mismo del archivo de Wayback Machine, primero enviando múltiples solicitudes DMCA al archivo y luego apelando al Tribunal Federal de Canadá . [102] [103] [104] Las imágenes fueron eliminadas del sitio web en 2017.
En 2018, los archivos del sitio web de la aplicación de stalkerware FlexiSpy fueron eliminados de Wayback Machine. La empresa afirmó haberse puesto en contacto con Internet Archive, presumiblemente para eliminar los archivos de su sitio web. [105]
Archive.org está bloqueado en China . [106] [107] [108] Internet Archive fue bloqueado en su totalidad en Rusia en 2015-16, aparentemente por albergar un video de divulgación de la Jihad. [71] [109] [110] Desde 2016, el sitio web ha vuelto a estar disponible en su totalidad, aunque en 2016 los lobbystas comerciales rusos demandaron a Internet Archive para prohibirlo por motivos de derechos de autor. [111]
En marzo de 2015, se publicó que los investigadores de seguridad se dieron cuenta de la amenaza que representaba el alojamiento involuntario por parte del servicio de archivos binarios maliciosos desde sitios archivados. [112] [113]
Alison Macrina , directora del Library Freedom Project , señala que "si bien los bibliotecarios valoramos profundamente la privacidad individual, también nos oponemos firmemente a la censura". [71]
Hay al menos un caso en el que un artículo fue eliminado del archivo poco después de haber sido eliminado de su sitio web original. Un reportero del Daily Beast había escrito un artículo que revelaba que varios atletas olímpicos eran homosexuales en 2016 después de que el reportero hubiera creado un perfil falso haciéndose pasar por un hombre gay en una aplicación de citas. El Daily Beast eliminó el artículo después de que fuera recibido con furor generalizado; poco después, el Internet Archive pronto hizo lo mismo, pero declaró enfáticamente que lo hicieron sin ninguna otra razón que proteger la seguridad de los atletas revelados. [71]
Otras amenazas incluyen desastres naturales, [114] destrucción (tanto remota como física), [115] manipulación de los contenidos del archivo, leyes de derechos de autor problemáticas, [116] y vigilancia de los usuarios del sitio. [117]
Alexander Rose, director ejecutivo de la Long Now Foundation , sospecha que en el largo plazo de varias generaciones "casi nada" sobrevivirá de manera útil, y afirma: "Si tenemos continuidad en nuestra civilización tecnológica, sospecho que muchos de los datos desnudos seguirán siendo localizables y buscables. Pero sospecho que casi nada del formato en el que se entregaron será reconocible" porque los sitios "con sistemas de gestión de contenido profundos como Drupal, Ruby y Django" son más difíciles de archivar. [118]
En 2016, en un artículo que reflexiona sobre la preservación del conocimiento humano, The Atlantic comentó que Internet Archive, que se describe a sí mismo como construido para el largo plazo, [119] "está trabajando frenéticamente para capturar datos antes de que desaparezcan sin ninguna infraestructura a largo plazo de la que hablar". [120]
En septiembre de 2024, Internet Archive sufrió una filtración de datos que expuso 31 millones de registros que contenían información personal, incluidas direcciones de correo electrónico y contraseñas cifradas . [ cita requerida ] El 9 de octubre de 2024, el sitio dejó de funcionar debido a un ataque distribuido de denegación de servicio . [121] [122] El 14 de octubre, el sitio volvió a estar en línea, pero permaneció en modo de solo lectura hasta el 4 de noviembre. "Guardar página ahora" fue deshabilitado y reemplazado por un banner "Temporalmente no disponible". [123]
Hemos agregado la capacidad de archivar una página instantáneamente y recuperar una URL permanente para esa página en Wayback Machine. Este servicio permite que cualquier persona (editores de Wikipedia, académicos, profesionales legales, estudiantes o cocineros caseros como yo) cree una URL estable para citar, compartir o marcar como favorita cualquier información a la que desee seguir teniendo acceso en el futuro.
1) Se CONCEDE la moción de Internet Archive para desestimar la contrademanda de Shell por conversión y hurto civil (Segunda Causa de Acción), 2) Se DENIEGA la moción de Internet Archive para desestimar la contrademanda de Shell por incumplimiento de contrato (Tercera Causa de Acción); 3) Se CONCEDE la moción de Internet Archive para desestimar la contrademanda de Shell por crimen organizado en virtud de RICO y COCCA (Cuarta Causa de Acción).
Las computadoras pueden celebrar contratos en nombre de las personas. La Ley Uniforme de Transacciones Electrónicas (UETA) dice que "un contrato puede formarse mediante la interacción de agentes electrónicos de las partes, incluso si ningún individuo estaba al tanto o revisó las acciones de los agentes electrónicos o los términos y acuerdos resultantes".
Más importante aún, sostuvo el tribunal, la mera copia por parte de Internet Archive del sitio de Shell y su exhibición en su base de datos no constituyó el ejercicio requerido de dominio y control sobre la propiedad de la demandada. Es importante destacar que, señaló el tribunal, la demandada en todo momento fue propietaria y operó su propio sitio. Dijo el Tribunal: 'Shell no ha alegado hechos que demuestren que Internet Archive ejerció dominio o control sobre su sitio web, ya que la demanda de Shell establece explícitamente que ella continuó siendo propietaria y operando el sitio web mientras estaba archivado en Wayback Machine. Shell no identifica ninguna autoridad que respalde la noción de que copiar documentos es en sí mismo una privación de uso suficiente para respaldar la conversión. Por el contrario, numerosos circuitos han determinado que no lo es.'
Ambas partes lamentan sinceramente cualquier confusión que la demanda pueda haber causado a la otra. Ni Internet Archive ni la Sra. Shell toleran ninguna conducta que pueda haber causado daño a cualquiera de las partes como resultado de la atención pública a esta demanda. Las partes no han incurrido en tal conducta y solicitan que la respuesta pública a la resolución amistosa de este litigio sea coherente con sus deseos de que no se cause más daño o confusión a ninguna de las partes.
2015-03-25: Las últimas URL alojadas en esta dirección IP detectadas por al menos un escáner de URL o un conjunto de datos de URL malintencionados. ... 2/62 2015-03-25 16:14:12 [URL completa redactada]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [URL completa redactada]/CBLightSetup.exe
2015-03-25: Parte de este sitio fue incluido en la lista de actividades sospechosas 138 veces durante los últimos 90 días. ... ¿Qué sucedió cuando Google visitó este sitio? ... De las 42410 páginas que probamos en el sitio durante los últimos 90 días, 450 páginas resultaron en la descarga e instalación de software malicioso sin el consentimiento del usuario. La última vez que Google visitó este sitio fue el 2015-03-25, y la última vez que se encontró contenido sospechoso en este sitio fue el 2015-03-25. ... El software malicioso incluye 169 troyanos, 126 virus y 43 puertas traseras.
Die Betreiber des Archives fürchten neben Zensur und Manipulation der digitalen Aufzeichnungen demnach auch die Überwachung der Archive-Nutzer. [Los operadores del archivo temen no sólo la censura y la manipulación de las grabaciones digitales, sino también la vigilancia de los usuarios del archivo].