El Índice General es una base de datos de uso gratuito que, cuando está comprimida, ocupa 8,5 terabytes. Fue creada por el tecnólogo Carl Malamud y su fundación sin fines de lucro Public Resource. En 2021 [actualizar], contiene palabras y frases de más de 107 millones de artículos académicos. [1] [2]
Consiste en una tabla de n-gramas (una secuencia contigua de n elementos) derivados del texto completo de los artículos junto con tablas de palabras clave y metadatos asociados. [3] Su objetivo es facilitar el análisis informatizado de la literatura científica, que se ha visto obstaculizado por las restricciones generalizadas de derechos de autor que limitan el acceso de los investigadores al texto completo.
La versión inicial, que incluye las tablas de la base de datos sin ningún motor de búsqueda , fue publicada por Internet Archive el 7 de octubre de 2021. [1]
Sitio web oficial