CiteSeer X (anteriormente llamado CiteSeer ) es un motor de búsqueda público y una biblioteca digital para artículos científicos y académicos, principalmente en los campos de la informática y la ciencia de la información .
El objetivo de CiteSeer es mejorar la difusión y el acceso a la literatura académica y científica. Como servicio sin fines de lucro que puede ser utilizado libremente por cualquier persona, se lo ha considerado parte del movimiento de acceso abierto que intenta cambiar la publicación académica y científica para permitir un mayor acceso a la literatura científica. CiteSeer proporcionó de forma gratuita metadatos de la Iniciativa de Archivos Abiertos de todos los documentos indexados y, cuando es posible, vincula los documentos indexados a otras fuentes de metadatos, como DBLP y el Portal ACM . Para promover los datos abiertos , CiteSeer X comparte sus datos con fines no comerciales bajo una licencia Creative Commons . [1]
CiteSeer se considera un predecesor de herramientas de búsqueda académica como Google Scholar y Microsoft Academic Search . [2] Los motores y archivos similares a CiteSeer generalmente solo recopilan documentos de sitios web disponibles públicamente y no rastrean los sitios web de las editoriales. Por este motivo, los autores cuyos documentos están disponibles gratuitamente tienen más probabilidades de estar representados en el índice.
CiteSeer cambió su nombre a ResearchIndex en un momento y luego lo cambió nuevamente. [3]
CiteSeer fue creado por los investigadores Lee Giles , Kurt Bollacker y Steve Lawrence en 1997 mientras trabajaban en el Instituto de Investigación NEC (ahora NEC Labs ), Princeton, Nueva Jersey , EE. UU. El objetivo de CiteSeer era rastrear y recopilar activamente documentos académicos y científicos en la web y utilizar la indexación de citas autónoma para permitir la consulta por cita o por documento, clasificándolos por impacto de citación . En un momento, se llamó ResearchIndex.
CiteSeer se hizo público en 1998 y contaba con muchas funciones nuevas que no estaban disponibles en los motores de búsqueda académicos en ese momento. Entre ellas se encontraban:
El 11 de septiembre de 2001, CiteSeer obtuvo la patente estadounidense n.° 6289342, titulada " Indexación de citas autónoma y exploración de literatura utilizando el contexto de citas ". La patente se presentó el 20 de mayo de 1998 y tiene prioridad hasta el 5 de enero de 1998. Se presentó una patente de continuación (patente estadounidense n.° 6738780) el 16 de mayo de 2001 y se concedió el 18 de mayo de 2004. [ cita requerida ]
Después de NEC, en 2004 se alojó como CiteSeer.IST en la World Wide Web en la Facultad de Ciencias de la Información y Tecnología de la Universidad Estatal de Pensilvania , y tenía más de 700.000 documentos. Para mejorar el acceso, el rendimiento y la investigación, se brindaron versiones similares de CiteSeer en universidades como el Instituto Tecnológico de Massachusetts , la Universidad de Zúrich y la Universidad Nacional de Singapur . Sin embargo, estas versiones de CiteSeer resultaron difíciles de mantener y ya no están disponibles. Debido a que CiteSeer solo indexa artículos disponibles de forma gratuita en la web y no tiene acceso a metadatos de editores, devuelve menos recuentos de citas que sitios, como Google Scholar , que tienen metadatos de editores.
CiteSeer no se había actualizado de manera exhaustiva desde 2005 debido a limitaciones en el diseño de su arquitectura. Contaba con una muestra representativa de documentos de investigación en informática y ciencias de la información, pero su cobertura era limitada porque se limitaba a artículos que están disponibles públicamente, generalmente en la página de inicio de un autor, o aquellos enviados por un autor. Para superar algunas de estas limitaciones, se diseñó una arquitectura modular y de código abierto para CiteSeer: CiteSeer X.
CiteSeer X reemplazó a CiteSeer y todas las consultas a CiteSeer fueron redirigidas. CiteSeer X [4] es un motor de búsqueda público y una biblioteca digital y repositorio para artículos científicos y académicos, principalmente con un enfoque en la informática y la ciencia de la información . [4] Sin embargo, recientemente CiteSeer X se ha expandido a otros dominios académicos como la economía, la física y otros. Lanzado en 2008, se basó libremente en el motor de búsqueda y la biblioteca digital CiteSeer anteriores y está construido con una nueva infraestructura de código abierto , SeerSuite, y nuevos algoritmos y sus implementaciones. Fue desarrollado por los investigadores Isaac Councill y C. Lee Giles en la Facultad de Ciencias de la Información y Tecnología , Universidad Estatal de Pensilvania . Sigue apoyando los objetivos delineados por CiteSeer de rastrear y recolectar activamente documentos académicos y científicos en la web pública y utilizar una consulta de citas por citas y una clasificación de documentos por el impacto de las citas. Actualmente, Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen y Shuyi Zheng están o han estado activamente involucrados en su desarrollo. Recientemente, se introdujo una función de búsqueda de tablas. [5] Ha sido financiado por la National Science Foundation , la NASA y Microsoft Research .
CiteSeer X continúa siendo clasificado como uno de los principales repositorios del mundo, y fue clasificado como el número 1 en julio de 2010. [6] Actualmente tiene más de 6 millones de documentos con casi 6 millones de autores únicos y 120 millones de citas. [ ¿periodo de tiempo? ]
CiteSeer X también comparte su software, datos, bases de datos y metadatos con otros investigadores, actualmente por Amazon S3 y por rsync . [7] Su nueva arquitectura modular de código abierto y software (disponible anteriormente en SourceForge pero ahora en GitHub ) está construido sobre Apache Solr y otras herramientas Apache y de código abierto, lo que le permite ser un banco de pruebas para nuevos algoritmos en recolección de documentos, clasificación, indexación y extracción de información.
CiteSeer X almacena en caché algunos archivos PDF que ha escaneado. Por ello, cada página incluye un enlace DMCA que se puede utilizar para denunciar infracciones de derechos de autor. [8]
CiteSeer X utiliza herramientas de extracción de información automatizadas , generalmente basadas en métodos de aprendizaje automático como ParsCit, para extraer metadatos de documentos académicos, como título, autores, resumen, citas, etc. Por ello, a veces hay errores en los autores y títulos. Otros motores de búsqueda académicos tienen errores similares.
CiteSeer X rastrea documentos académicos disponibles públicamente principalmente desde las páginas web de los autores y otros recursos abiertos, y no tiene acceso a los metadatos de los editores. Por ello, los recuentos de citas en CiteSeer X suelen ser menores que los de Google Scholar y Microsoft Academic Search, que tienen acceso a los metadatos de los editores.
CiteSeer X tiene casi un millón de usuarios en todo el mundo según direcciones IP únicas y recibe millones de visitas diarias. Las descargas anuales de documentos en formato PDF fueron de casi 200 millones en 2015.
Los datos de CiteSeer X se comparten periódicamente bajo una licencia Creative Commons BY-NC-SA con investigadores de todo el mundo y se han utilizado y se utilizan en muchos experimentos y competiciones.
Gracias a su punto final OAI-PMH , [9] CiteSeerX es un archivo abierto y su contenido está indexado como un repositorio institucional en motores de búsqueda académicos , por ejemplo BASE y los consumidores Unpaywall .
El modelo CiteSeer se había ampliado para incluir documentos académicos en el ámbito empresarial con SmealSearch y en el ámbito del comercio electrónico con eBizSearch. Sin embargo, sus patrocinadores no se encargaban del mantenimiento de estos sistemas. En BizSeer.IST se podía encontrar una versión anterior de ambos, pero ya no está en servicio.
Se han creado otros sistemas de búsqueda y repositorio similares a Seer para química, Chem X Seer, y para arqueología, ArchSeer. Se ha creado otro para la búsqueda de archivos robots.txt, BotSeer . Todos ellos se basan en la herramienta de código abierto SeerSuite, que utiliza el indexador de código abierto Lucene .
El documento con el identificador "10.1.1.604.4916" ha sido eliminado debido a un aviso de eliminación de DMCA. Si cree que la eliminación ha sido un error, comuníquese con nosotros a través de la página de comentarios, junto con el identificador mencionado en esta página.