Internet Archive es una organización estadounidense sin fines de lucro fundada en 1996 por Brewster Kahle que administra un sitio web de biblioteca digital , archive.org. [2] [3] [4] Proporciona acceso gratuito a colecciones de medios digitalizados, incluidos sitios web , aplicaciones de software , música , materiales audiovisuales e impresos. El Archivo también aboga por una Internet libre y abierta . Su misión es comprometerse a proporcionar "acceso universal a todo el conocimiento". [5]
Internet Archive permite al público cargar y descargar material digital a su clúster de datos, pero la mayor parte de sus datos son recopilados automáticamente por sus rastreadores web , que trabajan para preservar la mayor parte posible de la web pública. Su archivo web , Wayback Machine , contiene cientos de miles de millones de capturas web. [6] [7] El Archivo también supervisa numerosos proyectos de digitalización de libros, colectivamente uno de los esfuerzos de digitalización de libros más grandes del mundo.
Brewster Kahle fundó el Archivo en mayo de 1996, casi al mismo tiempo que comenzó la empresa de rastreo web con fines de lucro Alexa Internet . [8] [9] La primera página archivada conocida en el sitio fue guardada el 10 de mayo de 1996, a las 2:42 pm UTC (7:42 am PDT ). Para octubre de ese año, el Archivo de Internet había comenzado a archivar y preservar la World Wide Web en grandes cantidades. [10] [11] [12] [13] [14] El contenido archivado se volvió más fácilmente disponible para el público en general en 2001, a través de Wayback Machine .
A finales de 1999, el Archivo amplió sus colecciones más allá del archivo web, comenzando con los Archivos Prelinger . Ahora, el Archivo de Internet incluye textos, audio, imágenes en movimiento y software . Alberga una serie de otros proyectos: el Archivo de Imágenes de la NASA , el servicio de rastreo por contrato Archive-It y el catálogo de bibliotecas y el sitio de información de libros editables en wiki Open Library . Poco después, el Archivo comenzó a trabajar para proporcionar servicios especializados relacionados con las necesidades de acceso a la información de las personas con discapacidades de lectura; los libros de acceso público se pusieron a disposición en un formato protegido de Sistema de Información Accesible Digital (DAISY). [15]
Según su sitio web: [16]
La mayoría de las sociedades dan importancia a la conservación de los objetos de su cultura y su patrimonio. Sin ellos, la civilización no tiene memoria ni mecanismos para aprender de sus éxitos y fracasos. Nuestra cultura produce cada vez más objetos en formato digital. La misión del Archivo es ayudar a preservar esos objetos y crear una biblioteca en Internet para investigadores, historiadores y académicos.
En agosto de 2012, el Archivo anunció [17] que había añadido BitTorrent a sus opciones de descarga de archivos para más de 1,3 millones de archivos existentes y todos los archivos nuevos cargados. [18] [19] Este método es el medio más rápido para descargar archivos multimedia del Archivo, ya que los archivos se sirven desde dos centros de datos del Archivo, además de otros clientes de torrent que han descargado y continúan sirviendo los archivos. [18] [20]
El 6 de noviembre de 2013, la sede de Internet Archive en el Distrito Richmond de San Francisco se incendió, [21] destruyendo equipos y dañando algunos apartamentos cercanos. [22] Según el Archivo, perdió un edificio lateral que albergaba uno de sus 30 centros de escaneo; cámaras, luces y equipos de escaneo valorados en cientos de miles de dólares; y "tal vez 20 cajas de libros y películas, algunas irremplazables, la mayoría ya digitalizadas, y algunas reemplazables". [23] El Archivo, una organización sin fines de lucro, buscó donaciones para cubrir los daños estimados en 600.000 dólares. [24]
En noviembre de 2014 se lanzó una versión beta del sitio y el diseño heredado se eliminó en marzo de 2016. [25] [26]
En noviembre de 2016, Kahle anunció que Internet Archive estaba construyendo el Internet Archive de Canadá, una copia del Archivo que se instalaría en algún lugar de Canadá . El anuncio recibió una amplia cobertura debido a la implicación de que la decisión de construir un archivo de respaldo en un país extranjero se debía a la próxima presidencia de Donald Trump . [27] [28] [29]
A partir de 2017, OCLC e Internet Archive han colaborado para que los registros de libros digitalizados del Archivo estén disponibles en WorldCat . [30]
Desde 2018, la residencia de artes visuales de Internet Archive, organizada por Amir Saber Esfahani y Andrew McClintock, ayuda a conectar a los artistas con los más de 48 petabytes [31] de materiales digitalizados del Archivo. A lo largo de la residencia de un año, los artistas visuales crean un conjunto de trabajos que culminan en una exposición. La esperanza es conectar la historia digital con las artes y crear algo para que las generaciones futuras aprecien en línea o fuera de ella. [32] Entre los artistas residentes anteriores se encuentran Taravat Talepasand , Whitney Lynn y Jenny Odell . [33]
Internet Archive adquiere la mayoría de los materiales a partir de donaciones, [34] como cientos de miles de discos de 78 rpm de la Biblioteca Pública de Boston en 2017, [35] una donación de 250.000 libros de la Universidad de Trent en 2018, [36] y toda la colección de la biblioteca de Marygrove College después de su cierre en 2020. [37] Luego, todo el material se digitaliza y se conserva en un almacenamiento digital, mientras que una copia digital se devuelve al titular original y la copia de Internet Archive, si no es de dominio público, se presta a usuarios de todo el mundo uno a la vez bajo la teoría de préstamos digitales controlados (CDL) de la doctrina de la primera venta . [38]
El 1 de junio de 2020, cuatro grandes editoriales ( Hachette Book Group , Penguin Random House , HarperCollins y John Wiley ) presentaron una demanda contra Internet Archive ante el Tribunal de Distrito de los Estados Unidos para el Distrito Sur de Nueva York , alegando que la práctica de Internet Archive de préstamos digitales controlados constituía una infracción de los derechos de autor . El 25 de marzo de 2023, el tribunal falló a favor de las editoriales. La sentencia negociada del 11 de agosto de 2023 prohibió a Internet Archive prestar digitalmente libros de los que se venden copias electrónicas .
También el 11 de agosto de 2023, los gigantes de la industria musical Universal Music Group , Sony Music y Concord (junto con sus respectivos sellos Capitol Records , Arista Records y CMGI Recorded Music Assets) demandaron a Internet Archive ante el mismo Tribunal de Distrito de los Estados Unidos para el Distrito Sur de Nueva York por el Proyecto Great 78 de Internet Archive por 621 millones de dólares en daños por supuesta infracción de derechos de autor. [39] [40] [41]
En septiembre de 2024, Google e Internet Archive firmaron una asociación para permitir que las personas vean versiones anteriores de sitios web en la Búsqueda de Google que usa Wayback Machine, sin vincular todavía el caché de Google . [42]
Durante la semana del 27 de mayo de 2024, Internet Archive sufrió una serie de ataques distribuidos de denegación de servicio (DDoS) que hicieron que sus servicios no estuvieran disponibles de forma intermitente, a veces durante horas, durante un período de varios días. [43] [44] [45] El ataque fue reivindicado el 28 de mayo por un grupo de piratas informáticos llamado SN_BLACKMETA , [46] [47] con posibles vínculos con Anonymous Sudan . [48] El incidente generó una comparación con el ciberataque de la Biblioteca Británica de 2023 , que afectó al Archivo Web del Reino Unido . [49]
A partir del 9 de octubre de 2024, el equipo de Internet Archive, incluido el archivista Jason Scott y el investigador de seguridad Scott Helme, confirmó ataques DDoS, desfiguración del sitio y una violación de datos. El supuesto grupo hacktivista SN_BLACKMETA nuevamente se atribuyó la responsabilidad. [50] Una ventana emergente en el sitio desfigurado afirmó que hubo una violación de seguridad "catastrófica" , indicando "¿Alguna vez has sentido que Internet Archive funciona con memorias y está constantemente al borde de sufrir una violación de seguridad catastrófica? Acaba de suceder. ¡Vean a 31 millones de ustedes en HIBP !" [51] [47] Se informó que alrededor de 31 millones de cuentas de usuario se vieron afectadas y comprometidas en un archivo llamado "ia_users.sql", con fecha del 28 de septiembre de 2024. [50] [52] Los atacantes robaron las direcciones de correo electrónico de los usuarios y las contraseñas con hash Bcrypt . [53] Al 15 de octubre de 2024, el sitio web todavía estaba mayoritariamente fuera de línea por "priorizar la seguridad de los datos a expensas de la disponibilidad del servicio". [54] El 11 de octubre, Kahle dijo que los datos están seguros y que el servicio volverá a la normalidad "en días, no en semanas". [55] [56] [57] El 13 de octubre, Wayback Machine se restauró en formato de solo lectura, mientras que el archivado de páginas web se deshabilitó temporalmente. [58] El 14 de octubre, Brewster Kahle dijo que "el volumen [de Wayback Machine] volvió a la normalidad: 1500 solicitudes por segundo". [59] El 20 de octubre, los actores de amenazas robaron tokens API no rotados y violaron Internet Archive en su plataforma de soporte por correo electrónico Zendesk ; también se atribuyeron la responsabilidad de las otras violaciones, pero afirmaron que SN_BLACKMETA estaba detrás solo de los ataques DDoS. [60] [61] El 21 de octubre, Internet Archive volvió a estar en línea en modo de solo lectura. [62] El 22 de octubre, todos los servicios de Internet Archive se desconectaron temporalmente, [63] [64] pero más tarde ese mismo día, solo Wayback Machine, Archive-It y blog.archive.org volvieron a funcionar. [ cita requerida ] El 23 de octubre, archive.org, Wayback Machine, Archive-It y los servicios de Open Library se reanudaron, pero algunas funciones, como el inicio de sesión, todavía no estaban disponibles hasta que el personal anunció que volverían a estar disponibles en el siguiente día o dos. [65]
El Archivo es una organización sin fines de lucro 501(c)(3) que opera en los Estados Unidos. En 2019, tenía un presupuesto anual de $37 millones, derivado de los ingresos de sus servicios de rastreo web, varias asociaciones, subvenciones, donaciones y la Fundación Kahle-Austin . [66] El Archivo de Internet también administra campañas de financiación periódicas. Por ejemplo, una campaña de diciembre de 2019 tenía como objetivo alcanzar los $6 millones en donaciones. [67] Utiliza Ubuntu como su sistema operativo de elección para los servidores del sitio web. [68]
El Archivo tiene su sede en San Francisco , California. De 1996 a 2009, su sede estuvo en el Presidio de San Francisco , una antigua base militar estadounidense. Desde 2009, su sede ha estado en 300 Funston Avenue en San Francisco, una antigua Iglesia de la Ciencia Cristiana . En un momento, la mayoría de su personal trabajó en sus centros de escaneo de libros ; a partir de 2019, el escaneo lo realizan 100 operadores pagos en todo el mundo. [69] El Archivo también tiene centros de datos en tres ciudades de California: San Francisco, Redwood City y Richmond . Para reducir el riesgo de pérdida de datos, el Archivo crea copias de partes de su colección en ubicaciones más distantes, incluida la Biblioteca Alejandrina [70] [71] en Egipto y una instalación en Ámsterdam . [72]
El Archivo es miembro del Consorcio Internacional para la Preservación de Internet [73] y fue designado oficialmente como biblioteca por el estado de California en 2007. [74] [75]
Wayback Machine es un servicio que permite buscar y acceder a archivos de la World Wide Web. [76] Se puede utilizar para ver cómo eran las versiones anteriores de los sitios web o para visitar sitios web que ya no existen. Wayback Machine se creó como un esfuerzo conjunto entre Alexa Internet (propiedad de Amazon.com ) e Internet Archive. [77] Cientos de miles de millones de sitios web y sus datos asociados (imágenes, código fuente, documentos, etc.) se guardan en una base de datos. Al 5 de septiembre de 2024 [actualizar], Internet Archive tenía más de 866 mil millones de páginas web, más de 42,5 millones de materiales impresos, 13 millones de vídeos, 3 millones de noticias de televisión, 1,2 millones de programas de software, 14 millones de archivos de audio, 5 millones de imágenes y 272.660 conciertos en su Wayback Machine. [5]
Creado a principios de 2006, Archive-It [78] es un servicio de suscripción de archivo web que permite a instituciones e individuos crear y preservar colecciones de contenido digital y crear archivos digitales. Archive-It permite al usuario personalizar la captura o exclusión de contenido web que desea preservar por razones de patrimonio cultural. A través de una aplicación web, los socios de Archive-It pueden recopilar, catalogar, administrar, explorar, buscar y ver sus colecciones archivadas. [79]
En términos de accesibilidad, los sitios web archivados se pueden buscar en su texto completo dentro de los siete días posteriores a su captura. [80] El contenido recopilado a través de Archive-It se captura y almacena como un archivo WARC . Una copia principal y una de respaldo se almacenan en los centros de datos de Internet Archive. Se puede entregar una copia del archivo WARC a las instituciones asociadas suscritas para fines de conservación y almacenamiento georredundantes según sus estándares de mejores prácticas. [81] Periódicamente, los datos capturados a través de Archive-It se indexan en el archivo general de Internet Archive.
En marzo de 2014 [actualizar], Archive-It contaba con más de 275 instituciones asociadas en 46 estados de EE. UU. y 16 países que han capturado más de 7400 millones de URL para más de 2444 colecciones públicas. [ cita requerida ] Los socios de Archive-It son universidades y bibliotecas universitarias, archivos estatales, instituciones federales, museos, bibliotecas jurídicas y organizaciones culturales, entre las que se incluyen la Organización de Literatura Electrónica , los Archivos y la Biblioteca Estatal de Carolina del Norte, la Universidad de Stanford , la Universidad de Columbia , la Universidad Americana de El Cairo , la Biblioteca de Derecho de Georgetown y muchas otras. [ cita requerida ]
En septiembre de 2020, Internet Archive anunció una nueva iniciativa para archivar y preservar revistas académicas de acceso abierto , llamada Internet Archive Scholar . [82] [83] [84] Su índice de búsqueda de texto completo incluye más de 25 millones de artículos de investigación y otros documentos académicos preservados en Internet Archive. La colección abarca desde copias digitalizadas de revistas del siglo XVIII hasta las últimas actas de congresos de acceso abierto y preimpresiones extraídas de la World Wide Web. [ cita requerida ]
En 2021, Internet Archive anunció la versión inicial del Índice General , un índice disponible públicamente para una colección de 107 millones de artículos de revistas académicas . [85] [86]
El Archivo almacena archivos dentro de los llamados elementos, que son similares a los directorios en el sentido de que pueden contener múltiples archivos, pero pueden tener metadatos adicionales como una descripción y etiquetas que los hacen más fáciles de buscar.
Algunos tipos de archivos se pueden previsualizar directamente en el sitio, mientras que otros deben descargarse para poder abrirse. Si existen varios archivos multimedia en un elemento, el sitio web genera una lista de reproducción para archivos de video o audio, o una presentación de diapositivas para imágenes. Si un elemento contiene al menos un video o una imagen, el Archivo genera una vista previa en miniatura que se puede ver en las páginas de la colección y en las búsquedas. Los elementos pueden contener datos mixtos, como archivos de música con una imagen de la portada de un álbum, en cuyo caso la imagen se utiliza como miniatura. [87] [88] [89] [90]
Los miembros del personal del Archivo de Internet organizan los artículos colocándolos en las llamadas colecciones, que son páginas que enumeran múltiples artículos. [91]
El escaneo que realiza Internet Archive está financiado por bibliotecas y fundaciones. [92] En noviembre de 2008 [actualizar], cuando había aproximadamente 1 millón de textos, la colección completa era mayor a 0,5 petabytes, que incluía imágenes de cámara sin procesar, imágenes recortadas y sesgadas, archivos PDF y datos OCR sin procesar . [93]
En julio de 2013 [actualizar], Internet Archive operaba 33 centros de escaneo en cinco países, digitalizando alrededor de 1000 libros por día para un total de más de 2 millones de libros, en una colección total de 4,4 millones de libros, incluido material digitalizado por otros y alimentado al Internet Archive; en ese momento, los usuarios realizaban más de 15 millones de descargas por mes. [94]
El material digitalizado por otros incluye más de 300.000 libros que fueron aportados a la colección, entre aproximadamente 2006 y 2008, por Microsoft a través de su proyecto Live Search Books , que también incluyó apoyo financiero y equipos de escaneo donados directamente al Internet Archive. [95] El 23 de mayo de 2008, Microsoft anunció que pondría fin a su proyecto Live Book Search y que ya no escanearía libros, donando su equipo de escaneo restante a sus antiguos socios. [95]
Alrededor de octubre de 2007, los usuarios del Archivo comenzaron a cargar libros de dominio público desde Google Book Search . [96] En noviembre de 2013 [actualizar], había más de 900.000 libros digitalizados por Google en la colección del Archivo; [97] los libros son idénticos a las copias encontradas en Google, excepto sin las marcas de agua de Google, y están disponibles para uso y descarga sin restricciones. [a] Brewster Kahle reveló en 2013 que este esfuerzo de archivo fue coordinado por Aaron Swartz , quien, con un "grupo de amigos", descargó los libros de dominio público de Google lo suficientemente lento y desde suficientes computadoras para mantenerse dentro de las restricciones de Google. Hicieron esto para garantizar el acceso público al dominio público . El Archivo se aseguró de que los artículos fueran atribuidos y vinculados a Google, que nunca se quejó, mientras que las bibliotecas "se quejaron". Según Kahle, este es un ejemplo del "genio" de Swartz para trabajar en lo que podría dar más al bien público para millones de personas. [98]
Además de los libros, el Archivo ofrece acceso público gratuito y anónimo a más de cuatro millones de opiniones judiciales, escritos jurídicos o anexos cargados desde el sistema de documentos electrónicos PACER de los Tribunales Federales de los Estados Unidos a través del complemento RECAP para navegadores web. Estos documentos se habían guardado tras un muro de pago de los tribunales federales. En el Archivo, más de seis millones de personas habían accedido a ellos en 2013. [98]
La aplicación web BookReader del Archivo , [99] integrada en su sitio web, tiene características como modos de página única, dos páginas y miniatura ; modo de pantalla completa; zoom de página de imágenes de alta resolución ; y animación de página pasada . [99] [100]
En octubre de 2024, el Archivo de Internet llegó a un acuerdo con la Biblioteca de la Universidad de Leiden para aceptar las copias en papel de 400.000 tesis extranjeras no catalogadas que se conservaban en la Biblioteca y que iban a ser eliminadas del catálogo, con el fin de digitalizarlas y hacerlas accesibles en línea. La colección incluye tesis de Niels Bohr , Marie Curie , Émile Durkheim , Albert Einstein , Otto Hahn , Carl Jung , J. Robert Oppenheimer , Max Planck , Luigi Pirandello , Gustav Stresemann y Max Weber . [101]
La Open Library es otro proyecto del Internet Archive. El proyecto busca incluir una página web para cada libro publicado: posee 25 millones de registros de catálogo de ediciones. También busca ser una biblioteca pública accesible a través de la web: contiene los textos completos de aproximadamente 1.600.000 libros de dominio público (de los más de cinco millones de la colección de textos principal), así como libros impresos y con derechos de autor, [102] muchos de los cuales son totalmente legibles, descargables [103] [104] y con posibilidad de búsqueda de texto completo ; [105] ofrece un préstamo de dos semanas de libros electrónicos en su programa de préstamo digital controlado para más de 647.784 libros que no son de dominio público, en asociación con más de 1.000 socios bibliotecarios de seis países [94] [106] después de un registro gratuito en el sitio web. Open Library es un proyecto de software libre y de código abierto , con su código fuente disponible gratuitamente en GitHub .
La Biblioteca Abierta enfrenta objeciones de algunos autores y de la Sociedad de Autores , quienes sostienen que el proyecto está distribuyendo libros sin autorización y, por lo tanto, viola las leyes de derechos de autor, [107] y cuatro importantes editoriales iniciaron una demanda por infracción de derechos de autor contra Internet Archive en junio de 2020 para detener el proyecto de la Biblioteca Abierta. [108]
Muchos patrocinadores institucionales importantes han ayudado a Internet Archive a proporcionar millones de publicaciones escaneadas (elementos de texto). [109] Algunos patrocinadores que han digitalizado grandes cantidades de textos incluyen la Biblioteca Robarts de la Universidad de Toronto , las Bibliotecas de la Universidad de Alberta , la Universidad de Ottawa , la Biblioteca del Congreso , las bibliotecas miembros del Consorcio de Bibliotecas de Boston , la Biblioteca Pública de Boston , la Biblioteca del Seminario Teológico de Princeton y muchos otros. [110]
En 2017, el MIT Press autorizó al Internet Archive a digitalizar y prestar libros del catálogo anterior de la editorial , [111] con el apoyo financiero del Arcadia Fund . [112] [113] Un año después, el Internet Archive recibió más fondos del Arcadia Fund para invitar a otras editoriales universitarias a asociarse con el Internet Archive para digitalizar libros, un proyecto llamado "Unlocking University Press Books". [114] [115]
La Biblioteca del Congreso creó numerosos identificadores del sistema Handle que apuntaban a libros digitalizados gratuitos en el Archivo de Internet. [116] El Archivo de Internet y la Biblioteca Abierta aparecen en el sitio web de la Biblioteca del Congreso como fuente de libros electrónicos. [117]
Además de los archivos web, Internet Archive mantiene extensas colecciones de contenido multimedia digital que, según el autor de la publicación, son de dominio público en los Estados Unidos o que cuentan con una licencia que permite su redistribución, como las licencias Creative Commons . [ cita requerida ] Los contenidos multimedia se organizan en colecciones por tipo de contenido (imágenes en movimiento, audio, texto, etc.) y en subcolecciones según diversos criterios. Cada una de las colecciones principales incluye una subcolección "Comunidad" (anteriormente denominada "Código abierto") donde se almacenan las contribuciones generales del público. [ cita requerida ]
El Archivo de Audio incluye música, audiolibros , transmisiones de noticias, programas de radio antiguos , podcasts y una amplia variedad de otros archivos de audio. A partir de enero de 2023 [actualizar], hay más de 15 000 000 de grabaciones digitales gratuitas en la colección. Las subcolecciones incluyen audiolibros y poesía, podcasts, audio en otros idiomas y muchos otros. [118] Las colecciones de sonido están curadas por B. George , director del ARChive of Contemporary Music . [119]
Un proyecto para preservar grabaciones de transmisiones de radioaficionados, con financiación de la Fundación de Comunicaciones Digitales de Radio Amateur. [120] [121]
La subcolección Live Music Archive incluye más de 170.000 grabaciones de conciertos de músicos independientes, así como de artistas y conjuntos musicales más establecidos con reglas permisivas sobre la grabación de sus conciertos, como Grateful Dead y, más recientemente, The Smashing Pumpkins . Además, Jordan Zevon ha permitido que Internet Archive albergue una colección definitiva de las grabaciones de conciertos de su padre, Warren Zevon . La colección de Zevon abarca desde 1976 hasta 2001 y contiene 126 conciertos que incluyen 1.137 canciones. [122]
El proyecto Great 78 tiene como objetivo digitalizar 250.000 sencillos de 78 rpm (500.000 canciones) del periodo comprendido entre 1880 y 1960, donados por diversos coleccionistas e instituciones. Se ha desarrollado en colaboración con el Archive of Contemporary Music y George Blood Audio, responsable de la digitalización del audio. [119]
El Archivo cuenta con una colección de música de libre distribución que se transmite en streaming y está disponible para su descarga a través de su servicio Netlabels . La música de esta colección generalmente tiene catálogos de sellos discográficos virtuales con licencia Creative Commons. [123] [124]
Esta colección contiene más de 3,5 millones de artículos. [125] Cover Art Archive , Metropolitan Museum of Art – Gallery Images, NASA Images, Occupy Wall Street Flickr Archive y USGS Maps son algunas subcolecciones de la colección de imágenes. [ cita requerida ]
Cover Art Archive es un proyecto conjunto entre Internet Archive y MusicBrainz , cuyo objetivo es crear imágenes de portadas de libros en Internet. A fecha de abril de 2021, [actualizar]esta colección contiene más de 1.400.000 artículos. [126]
Las imágenes de esta colección proceden del Museo Metropolitano de Arte . Esta colección contiene más de 140.000 piezas. [127]
El archivo de imágenes de la NASA se creó a través de un acuerdo de la Ley Espacial entre Internet Archive y la NASA para brindar acceso público a las colecciones de imágenes, videos y audio de la NASA en un único recurso con capacidad de búsqueda. El equipo de Imágenes de la NASA de Internet Archive trabajó en estrecha colaboración con todos los centros de la NASA para seguir agregando elementos a la colección en constante crecimiento. [128] El sitio nasaimages.org se lanzó en julio de 2008 y tenía más de 100.000 elementos en línea al final de su período de alojamiento en 2012.
Esta colección contiene fotografías con licencia Creative Commons de Flickr relacionadas con el movimiento Occupy Wall Street . Esta colección contiene más de 15.000 artículos. [129]
Esta colección contiene más de 59.000 elementos del Proyecto Mapa Libre . [130]
Una de las subcolecciones del Archivo de Video de Internet Archive es el Archivo Machinima . Esta pequeña sección alberga muchos videos de Machinima. Machinima es una forma de arte digital en la que se utilizan juegos de computadora , motores de juegos o motores de software en un modo similar a un sandbox para crear películas, recrear obras de teatro o incluso publicar presentaciones o discursos de apertura. El archivo recopila una variedad de películas Machinima de editores de Internet como Rooster Teeth y Machinima.com , así como de productores independientes. La subcolección es un esfuerzo colaborativo entre Internet Archive, el proyecto de investigación How They Got Game de la Universidad de Stanford, la Academia de Artes y Ciencias Machinima y Machinima.com. [131]
Esta colección contiene aproximadamente 160.000 elementos microfilmados de una variedad de bibliotecas, incluidas las bibliotecas de la Universidad de Chicago , la Universidad de Illinois en Urbana-Champaign , la Universidad de Alberta , la Biblioteca Pública del Condado de Allen y el Servicio Nacional de Información Técnica . [132] [133]
Internet Archive posee una colección de aproximadamente 3.863 largometrajes. [134] Además, la colección de imágenes en movimiento de Internet Archive incluye: noticieros , dibujos animados clásicos, propaganda a favor y en contra de la guerra , The Video Cellar Collection, la colección "AV Geeks" de Skip Elsheimer, programas de televisión antiguos y material efímero de Prelinger Archives , como películas publicitarias , educativas e industriales, así como colecciones de películas caseras y de aficionados. [ cita requerida ]
Las subcategorías de esta colección incluyen:
Open Educational Resources es una colección digital en archive.org. Esta colección contiene cientos de cursos gratuitos, videoconferencias y materiales complementarios de universidades de Estados Unidos y China . Los colaboradores de esta colección son ArsDigita University , Hewlett Foundation , MIT , Monterey Institute y Naropa University . [137]
En septiembre de 2012, el Internet Archive lanzó el servicio TV News Search & Borrow para buscar programas de noticias nacionales de EE. UU. [138] El servicio se basa en transcripciones de subtítulos y permite a los usuarios buscar y transmitir videoclips de 30 segundos. En el momento del lanzamiento, el servicio contenía "350.000 programas de noticias recopilados durante 3 años de redes y estaciones nacionales de EE. UU. en San Francisco y Washington DC" [139] Según Kahle, el servicio se inspiró en el Vanderbilt Television News Archive , una biblioteca similar de programas de noticias de la red televisada. [140] A diferencia de Vanderbilt, que limita el acceso a la transmisión de video a personas asociadas con universidades y colegios suscritos, TV News Search & Borrow permite el acceso abierto a sus videoclips en streaming. En 2013, el Archivo recibió una donación adicional de "aproximadamente 40.000 cintas bien organizadas" del patrimonio de una mujer de Filadelfia , Marion Stokes . Stokes "había grabado más de 35 años de noticias de televisión en Filadelfia y Boston con sus máquinas VHS y Betamax ". [141]
La colección del Museo de Brooklyn contiene aproximadamente 3000 artículos del Museo de Brooklyn . [142] En diciembre de 2020, la biblioteca de investigación cinematográfica de Lillian Michelson fue donada al archivo. [143]
Kahle , que ha expresado su enérgica reacción ante la idea de que los libros se desechen sin más, e inspirado por el Banco Mundial de Semillas de Svalbard , ahora prevé recolectar una copia de cada libro que se haya publicado. "No vamos a llegar a ese punto, pero ese es nuestro objetivo", afirmó. Junto con los libros, Kahle planea almacenar los viejos servidores del Internet Archive, que fueron reemplazados en 2010. [144]
Internet Archive tiene "la colección más grande de software histórico en línea en el mundo", que abarca 50 años de historia de la informática en terabytes de revistas y periódicos informáticos, libros, discos shareware , sitios FTP, videojuegos , etc. Internet Archive ha creado un archivo de lo que describe como "software antiguo", como una forma de preservarlos. [145] El proyecto abogó por una exención de la Ley de Derechos de Autor del Milenio Digital de los Estados Unidos para permitirles eludir la protección de copia , que la Oficina de Derechos de Autor de los Estados Unidos aprobó en 2003 por un período de tres años. [146] El Archivo no ofrece el software para descargar, ya que la exención es únicamente "para el propósito de preservación o reproducción de archivo de obras digitales publicadas por una biblioteca o archivo". [147] La Biblioteca del Congreso renovó la exención en 2006, y en 2009 la extendió indefinidamente en espera de más reglamentaciones. [148] La Biblioteca reiteró la exención como una "Regla Final" sin fecha de vencimiento en 2010. [149] En 2013, el Archivo de Internet comenzó a proporcionar videojuegos seleccionados que se podían jugar en el navegador a través de MESS , por ejemplo, el juego de Atari 2600 ET the Extra-Terrestrial . [150] Desde el 23 de diciembre de 2014, el Archivo de Internet presenta, a través de una emulación DOSBox basada en navegador , miles de juegos DOS / PC [151] [152] [153] [154] solo para "fines académicos y de investigación". [155] [156] [157] En noviembre de 2020, el Archivo presentó un nuevo emulador para Adobe Flash llamado Ruffle , y comenzó a archivar animaciones y juegos Flash antes del final de la vida útil del complemento Flash el 31 de diciembre de 2020 en todos los sistemas informáticos. [158]
Se ha desarrollado un sistema combinado de hardware y software que realiza un método seguro de digitalización de contenido. [159] [160]
Desde 2012 hasta noviembre de 2015, Internet Archive operó la Internet Archive Federal Credit Union, una cooperativa de crédito federal con sede en New Brunswick, Nueva Jersey , con el objetivo de brindar acceso a personas de ingresos bajos y medios. A lo largo de su corta existencia, la IAFCU experimentó conflictos significativos con la Administración Nacional de Cooperativas de Crédito , que limitó severamente la cartera de préstamos de la IAFCU y las preocupaciones sobre el servicio a las empresas de Bitcoin . En el momento de su disolución, constaba de 395 miembros y valía $ 2.5 millones. [161] [162]
Desde 2019, [163] Internet Archive organiza un evento llamado Decentralized Web Camp (DWeb Camp). Se trata de un campamento anual que reúne a una comunidad global diversa de colaboradores en un entorno natural. El campamento tiene como objetivo abordar los desafíos del mundo real que enfrenta la web y cocrear tecnologías descentralizadas para una mejor Internet. Su objetivo es fomentar la colaboración, el aprendizaje y la diversión, al tiempo que promueve los principios de confianza, iniciativa humana, respeto mutuo y conciencia ecológica. [164]
El 30 de septiembre de 2021, como parte de la celebración de su 25.º aniversario, Internet Archive lanzó "Wayforward Machine", un sitio web satírico y ficticio repleto de ventanas emergentes que solicitaban información personal. El sitio tenía como objetivo representar una cronología distópica ficticia de eventos del mundo real que conducían a ese futuro, como la derogación de la Sección 230 del Código de los Estados Unidos en 2022 y la introducción de implantes publicitarios en 2041. [165] [166]
La Gran Sala del Internet Archive cuenta con una colección de más de 100 figuras de cerámica que representan a los empleados del Internet Archive, y la estatua número 100 inmortaliza a Aaron Swartz . Esta colección, inspirada en las estatuas de los guerreros Xian en China , fue encargada por Brewster Kahle, esculpida por Nuala Creed y, a partir de 2014, sigue en pie. [167]
La residencia de artes visuales del Internet Archive, [168] organizada por Amir Saber Esfahani, está diseñada para conectar a artistas emergentes y de mediana carrera con los millones de colecciones del Archivo y para mostrar lo que es posible cuando el acceso abierto a la información se cruza con las artes. Durante esta residencia de un año, los artistas seleccionados desarrollan un conjunto de trabajos que responden a las colecciones del Archivo y las utilizan en su propia práctica. [169]
El 8 de mayo de 2008, se reveló que Internet Archive había desafiado con éxito una carta de seguridad nacional del FBI que solicitaba registros de un usuario no revelado. [173] [174]
El 28 de noviembre de 2016, se reveló que se había impugnado con éxito una segunda carta de seguridad nacional del FBI que solicitaba registros de otro usuario no revelado. [175]
El 18 de enero de 2012, Internet Archive bloqueó su sitio web durante 12 horas en protesta contra los proyectos de ley Stop Online Piracy Act y PROTECT IP Act , dos proyectos de ley en el Congreso de los Estados Unidos que, según afirmaron, "afectarían negativamente al ecosistema de publicación web que llevó al surgimiento de Internet Archive". Esto ocurrió junto con el bloqueo de Wikipedia en inglés , así como con numerosas otras protestas en Internet. [176]
Internet Archive es miembro de la Open Book Alliance , que ha sido una de las principales críticas al acuerdo Google Book Settlement . El Archivo aboga por un proyecto de biblioteca digital alternativa. [177]
El 9 de octubre de 2016, el Internet Archive fue bloqueado temporalmente en Turquía después de que fue utilizado (entre otros servicios de alojamiento de archivos) por piratas informáticos para alojar 17 GB de correos electrónicos gubernamentales filtrados. [178] [179]
Debido a que Internet Archive solo modera ligeramente las cargas, incluye recursos que pueden ser valorados por extremistas y el sitio puede ser utilizado por ellos para evadir la lista de bloqueo . En febrero de 2018, el Proyecto Contra el Extremismo dijo que el Archivo albergaba videos terroristas, incluida la decapitación de Alan Henning , y se había negado a responder a las solicitudes sobre los videos. [180] En mayo de 2018, un informe publicado por la empresa de seguridad cibernética Flashpoint declaró que el Estado Islámico estaba utilizando Internet Archive para compartir su propaganda. [181] Chris Butler, del Internet Archive, respondió que hablaban regularmente con los gobiernos de EE. UU. y la UE sobre compartir información sobre terrorismo. [181] En abril de 2019, Europol , actuando por recomendación de la policía francesa, solicitó a Internet Archive que eliminara 550 sitios de "propaganda terrorista". [182] El Archivo rechazó la solicitud, diciendo que los informes estaban equivocados sobre el contenido al que apuntaban o eran demasiado amplios para que la organización los cumpliera. [182] El 14 de julio de 2021, Internet Archive celebró un "Día de acción de remisión" conjunto con Europol para atacar los vídeos terroristas. [183]
Un artículo de 2021 decía que los yihadistas usaban regularmente el Archivo de Internet para " entregar " vídeos terroristas. [184] En enero de 2022, se subió al Archivo de Internet un manifiesto de 800 páginas de un ex profesor de la UCLA , que contenía ideas racistas y amenazas contra el personal de la UCLA. [185] El manifiesto fue eliminado por el Archivo de Internet después de una semana, en medio de una discusión sobre si los archivistas deberían conservar o no dichos documentos. [185] Otro artículo de 2022 encontró "un volumen alarmante de material terrorista, extremista y racista en el Archivo de Internet". [186] Un artículo de 2023 informó que los neonazis recopilan enlaces a recursos en línea disponibles públicamente para compartirlos con nuevos reclutas. Como el Archivo de Internet alberga textos cargados que no están permitidos en otros sitios web, los libros nazis y neonazis del Archivo (por ejemplo, The Turner Diaries ) aparecen con frecuencia en estas listas. Estas listas también presentan material de dominio público más antiguo creado cuando las opiniones de la supremacía blanca eran más comunes. [187]
En medio de la pandemia de COVID-19 que cerró muchas escuelas, universidades y bibliotecas, el Archivo anunció el 24 de marzo de 2020 que estaba creando la Biblioteca Nacional de Emergencia eliminando las restricciones de préstamo que tenía establecidas para 1,4 millones de libros digitalizados en su Biblioteca Abierta, pero limitando de otro modo a los usuarios a la cantidad de libros que podían retirar y haciendo cumplir su devolución; normalmente, el sitio solo permitiría un préstamo digital por cada copia física del libro que tuvieran, mediante el uso de un archivo cifrado que se volvería inutilizable una vez completado el período de préstamo. [4] Esta Biblioteca permanecería como tal hasta al menos el 30 de junio de 2020, o hasta que terminara la emergencia nacional de EE. UU., lo que ocurriera más tarde. [188] En el lanzamiento, el Archivo de Internet permitió a los autores y titulares de derechos enviar solicitudes de exclusión voluntaria para que sus obras se omitieran de la Biblioteca Nacional de Emergencia. [189] [190] [191]
El Archivo de Internet afirmó que la Biblioteca Nacional de Emergencias atendía una "necesidad global e inmediata sin precedentes de acceso a material de lectura e investigación" debido al cierre de bibliotecas físicas en todo el mundo. [192] Justificaron la medida de varias maneras. Legalmente, dijeron que estaban promoviendo el acceso a esos recursos inaccesibles, lo que, según afirmaron, era un ejercicio de principios de uso justo . El Archivo continuó implementando su política de préstamos digitales controlados que precedió a la Biblioteca Nacional de Emergencias, lo que significa que todavía encriptaban las copias prestadas y que no era más fácil para los usuarios crear nuevas copias de los libros que antes. La determinación final de si la Biblioteca Nacional de Emergencias constituía o no un uso justo solo podía ser realizada por un tribunal. Moralmente, también señalaron que el Archivo de Internet era una biblioteca registrada como cualquier otra, que pagaban los libros ellos mismos o los recibían como donaciones, y que los préstamos a través de bibliotecas eran anteriores a las restricciones de derechos de autor. [189] [193]
El Archivo ya había sido criticado por autores y editores por su enfoque anterior de préstamos, y tras el anuncio de la Biblioteca Nacional de Emergencia, los autores, editores y grupos que representan a ambos cuestionaron aún más al Archivo y su proyecto de Biblioteca Abierta , equiparando la medida a la infracción de derechos de autor y la piratería digital, y utilizando la pandemia de COVID-19 como una razón para ampliar los límites de los derechos de autor. [191] [194] [195] [196] Después de que las obras de algunos de estos autores fueran ridiculizadas en las respuestas, Jason Scott del Archivo de Internet solicitó que los partidarios de la Biblioteca Nacional de Emergencia no denigraran los libros de nadie: "Me doy cuenta de que hay un fuerte debate y desacuerdo aquí, pero los libros dan vida y cambian la vida y estos escritores los hicieron". [197]
En noviembre de 2005, las descargas gratuitas de conciertos de Grateful Dead fueron eliminadas del sitio, luego de lo que parecían ser desacuerdos entre algunos de los ex miembros de la banda. John Perry Barlow identificó a Bob Weir , Mickey Hart y Bill Kreutzmann como los instigadores del cambio, según un artículo en The New York Times . [198] Phil Lesh , un miembro fundador de la banda, comentó sobre el cambio en una publicación del 30 de noviembre de 2005 en su sitio web personal:
Me enteré de que todos los shows de Grateful Dead fueron eliminados de Archive.org justo antes del Día de Acción de Gracias . No fui parte de este proceso de toma de decisiones y no me notificaron que los shows iban a ser eliminados. Siento que la música es el legado de Grateful Dead y espero que de una manera u otra todo esté disponible para aquellos que lo quieran. [199]
En un mensaje publicado en un foro el 30 de noviembre, Brewster Kahle resumió lo que parecía ser el acuerdo alcanzado entre los miembros de la banda. Las grabaciones de la audiencia se podían descargar o transmitir, pero las grabaciones de la mesa de sonido solo se podían transmitir. Desde entonces, se han vuelto a agregar los conciertos. [200]
En febrero de 2016, los usuarios de Internet Archive comenzaron a archivar copias digitales de Nintendo Power , la revista oficial de Nintendo para sus juegos y productos, que se publicó entre 1988 y 2012. Se habían recopilado los primeros 140 números, antes de que Nintendo eliminara el archivo el 8 de agosto de 2016. En respuesta a la eliminación, Nintendo le dijo al sitio web de juegos Polygon : "[Nintendo] debe proteger nuestros propios personajes, marcas comerciales y otro contenido. El uso no aprobado de la propiedad intelectual de Nintendo puede debilitar nuestra capacidad para protegerla y preservarla, o posiblemente usarla para nuevos proyectos". [201]
En agosto de 2017, el Departamento de Telecomunicaciones del Gobierno de la India bloqueó el Internet Archive junto con otros sitios web de intercambio de archivos, de conformidad con dos órdenes judiciales emitidas por el Tribunal Superior de Madrás , [202] citando preocupaciones de piratería después de que supuestamente se compartieran copias de dos películas de Bollywood a través del servicio. [203] La versión HTTP del Archivo fue bloqueada, pero siguió siendo accesible mediante el protocolo HTTPS . [202]
En 2023, Internet Archive se convirtió en un sitio popular para que los indios vieran el primer episodio de India: The Modi Question , [204] un documental de la BBC lanzado el 17 de enero y prohibido en India el 20 de enero. [205] [206] Se informó que el archivo había eliminado el video el 23 de enero. [204] Luego, Internet Archive declaró, el 27 de enero, que habían eliminado el video en respuesta a una solicitud de la BBC bajo la Ley de Derechos de Autor del Milenio Digital . [207]
El funcionamiento de la Biblioteca Nacional de Emergencias fue parte de una demanda interpuesta contra Internet Archive por cuatro importantes editoriales de libros (Hachette, HarperCollins, John Wiley & Sons y Penguin Random House) en junio de 2020, cuestionando la validez de los derechos de autor del programa de préstamos digitales controlados. [4] [108] [208] En respuesta, Internet Archive cerró la Biblioteca Nacional de Emergencias el 16 de junio de 2020, en lugar del 30 de junio de 2020 previsto, debido a la demanda. [209] [210] Los demandantes, apoyados por la Copyright Alliance , [211] afirmaron en su demanda que las acciones de Internet Archive constituían una "infracción masiva deliberada de los derechos de autor". [212]
El juez Koeltl dictó sentencia el 24 de marzo de 2023 en contra de Internet Archive en el caso, diciendo que el concepto de Biblioteca Nacional de Emergencia no era un uso justo, por lo que el Archivo infringió sus derechos de autor al prestar los libros sin la restricción de la lista de espera. Luego se llegó a un acuerdo para que Internet Archive pagara una cantidad no revelada a los editores. [213] Internet Archive apeló la sentencia. [214] [215] El 4 de septiembre de 2024, el Tribunal de Apelaciones de los Estados Unidos para el Segundo Circuito confirmó la sentencia del tribunal de distrito, calificando de "poco convincente" el argumento de Internet Archive de que estaban protegidos por la doctrina del uso justo. [216]
En agosto de 2023, las corporaciones de la industria musical Universal Music Group (UMG), Sony Music y Concord demandaron a Internet Archive por su Proyecto Great 78, afirmando que el proyecto estaba involucrado en una infracción de derechos de autor. El Proyecto Great 78 almacena versiones digitalizadas de canciones y álbumes anteriores a 1972 de discos fonográficos de 78 rpm , para "la preservación, investigación y descubrimiento de discos de 78 rpm". El proyecto había comenzado en 2016, cuando las grabaciones anteriores a 1972 no estaban protegidas por derechos de autor; en 2018, el Congreso de los EE. UU. aprobó la Ley de Modernización de la Música (MMA) que permitió recursos legales para el uso no autorizado de grabaciones anteriores a 1972 hasta 2067, cubriéndolas así efectivamente con derechos de autor. [217]
UMG y Sony habían sido las dos empresas más grandes de este sector durante más de una década, con cuotas de mercado respectivas del 31,8% y el 22,1% en 2023. [218] Concord era una empresa musical en rápida expansión estrechamente asociada con UMG desde su transformación en Concord Music Group en 2004 [219] y respaldada desde al menos 2000 por JP Morgan . [220] Fue la primera empresa musical en realizar una titulización respaldada por activos , liderada por Apollo Global Management , en diciembre de 2022. Sus activos consistían en más de 1 millón de derechos de autor de música con más de 18 meses de antigüedad. [221] [222] Según su director ejecutivo Bob Valentine, Concord obtuvo alrededor del 85% de sus ingresos "del catálogo, en lugar de la música de nuevo desarrollo". Como afirmó Valentine en su primera entrevista, "El fenómeno de la propiedad intelectual de los artistas nunca ha sido más líquido; ahora es una clase de activo real y probada. Los banqueros de inversión se centran en ella, los financieros la financian y luego hay entidades como nosotros, que sabemos cómo comprar derechos, pero también sabemos cómo gestionarlos y tenemos las relaciones para hacerlo". [219] La participación de la música de catálogo en el consumo total equivalente a álbumes en los Estados Unidos aumentó del 62,8% al 72,6% entre 2019 y 2023. [223]
Los editores están pidiendo daños legales por casi 4.142 canciones nombradas en la demanda, con una multa máxima posible de $621 millones. [224] El Internet Archive ha argumentado que la calidad de sonido primitiva de las grabaciones originales cae dentro de la doctrina de "uso justo" para digitalizar para preservación, que el número de descargas es tan pequeño que casi no tiene impacto en los ingresos de los editores, y más del 95% de la colección no está disponible en ningún otro lugar. [224] Los demandantes dijeron en respuesta, "si alguna vez hubo una teoría de uso justo inventada para litigio, es esta". [225] Según una fuente legal en Mayer Brown , el caso de los editores de música podría ser impugnado por inconstitucional , ya que la concesión de derechos de autor a obras anteriores a 1972 en la MMA solo benefició a las compañías discográficas sin tener un efecto sistémico. [217]
Los editores presentaron una demanda. Poseer un libro significa algo diferente ahora.
Durante más de ochenta años, MIT Press ha publicado títulos aclamados en ciencia, tecnología, arte y arquitectura. Ahora, gracias a una nueva asociación entre Internet Archive y MIT Press, los lectores podrán pedir prestados estos clásicos en línea por primera vez.
Desde que se convirtió en directora [de MIT Press] en 2015, hay pocas cosas que Brand no haya reinventado en la editorial. En 2017, la editorial se asoció con Internet Archive para poner a disposición de las bibliotecas su extenso catálogo de obras anteriores de forma gratuita, resucitando libros que no habían visto la luz del día en generaciones.
Internet Archive ha recibido una subvención de un millón de dólares de Arcadia, un fondo benéfico de Lisbet Rausing y Peter Baldwin, para digitalizar títulos de colecciones de prensa universitaria y ponerlos a disposición a través de préstamos digitales controlados.
Los libros se pueden leer en línea o descargar y leer en una variedad de formatos. Los libros electrónicos de Internet Archive también se pueden encontrar a través de Open Library, una iniciativa de Internet Archive dedicada a los textos.Y: Hohman, J. Cheyenne; Mughal, Yasmeen (2017) [abril de 2011]. "Dispositivos y formatos: cómo encontrar libros electrónicos: una guía: bibliografías, guías de investigación y herramientas de búsqueda de la Biblioteca del Congreso (programas y servicios virtuales)". Biblioteca del Congreso . Archivado desde el original el 12 de febrero de 2021. Consultado el 25 de noviembre de 2020. Las publicaciones de la Biblioteca del Congreso están disponibles para su descarga gratuita en Kindle desde Internet Archive .
... El iPad se puede utilizar como lector electrónico a través de aplicaciones como iBooks, que admiten los formatos ePub (.epub) y PDF (.pdf). Ambos formatos están disponibles en Internet Archive.
Internet Archive tiene una enorme colección de música descargable gratis en su categoría NetLabels...
Brewster Kahle, el hombre detrás de un proyecto para archivar todas las páginas web, ahora quiere reunir una copia de cada libro publicado
Programas informáticos y videojuegos distribuidos en formatos que se han vuelto obsoletos y que requieren el medio o hardware original como condición de acceso, cuando la elusión se lleva a cabo con el propósito de conservación o reproducción de archivo de obras digitales publicadas por una biblioteca o archivo. Un formato se considerará obsoleto si la máquina o el sistema necesario para hacer perceptible una obra almacenada en ese formato ya no se fabrica o ya no está razonablemente disponible en el mercado comercial.
El acceso a las colecciones de Internet Archive se proporciona sin costo alguno para usted y se otorga únicamente con fines académicos y de investigación.