stringtranslate.com

CiteSeerX

CiteSeer X (anteriormente llamado CiteSeer ) es un motor de búsqueda público y una biblioteca digital para artículos científicos y académicos, principalmente en los campos de la informática y las ciencias de la información .

El objetivo de CiteSeer es mejorar la difusión y el acceso a la literatura académica y científica. Como servicio sin fines de lucro que cualquier persona puede utilizar libremente, se ha considerado parte del movimiento de acceso abierto que intenta cambiar las publicaciones académicas y científicas para permitir un mayor acceso a la literatura científica. CiteSeer proporcionó gratuitamente metadatos de la Iniciativa de Archivos Abiertos de todos los documentos indexados y vincula los documentos indexados cuando es posible a otras fuentes de metadatos como DBLP y el Portal ACM . Para promover los datos abiertos , CiteSeer X comparte sus datos con fines no comerciales bajo una licencia Creative Commons . [1]

CiteSeer se considera un predecesor de herramientas de búsqueda académica como Google Scholar y Microsoft Academic Search . [2] Los motores y archivos similares a CiteSeer generalmente solo recopilan documentos de sitios web disponibles públicamente y no rastrean los sitios web de los editores. Por esta razón, es más probable que los autores cuyos documentos estén disponibles gratuitamente estén representados en el índice.

CiteSeer cambió su nombre a ResearchIndex en un momento y luego lo volvió a cambiar. [3]

Historia

CiteSeer y CiteSeer.IST

CiteSeer fue creado por los investigadores Lee Giles , Kurt Bollacker y Steve Lawrence en 1997 mientras estaban en el Instituto de Investigación NEC (ahora NEC Labs ), Princeton, Nueva Jersey , EE. UU. El objetivo de CiteSeer era rastrear y recopilar activamente documentos académicos y científicos en la web y utilizar la indexación de citas autónoma para permitir consultas por cita o por documento, clasificándolos según el impacto de la cita . En un momento, se llamó ResearchIndex.

CiteSeer se hizo público en 1998 y tenía muchas funciones nuevas que no estaban disponibles en los motores de búsqueda académicos en ese momento. Estos incluyeron:

A CiteSeer se le concedió una patente estadounidense n.º 6289342, titulada " Indización de citas autónoma y exploración de literatura utilizando contexto de citas ", el 11 de septiembre de 2001. La patente se presentó el 20 de mayo de 1998 y tiene prioridad hasta el 5 de enero de 1998. La patente (patente estadounidense n.º 6738780) se presentó el 16 de mayo de 2001 y se concedió el 18 de mayo de 2004. [ cita necesaria ]

Después de NEC, en 2004 se alojó como CiteSeer.IST en la World Wide Web de la Facultad de Ciencias y Tecnología de la Información de la Universidad Estatal de Pensilvania , y tenía más de 700.000 documentos. Para mejorar el acceso, el rendimiento y la investigación, se admitieron versiones similares de CiteSeer en universidades como el Instituto de Tecnología de Massachusetts , la Universidad de Zürich y la Universidad Nacional de Singapur . Sin embargo, estas versiones de CiteSeer resultaron difíciles de mantener y ya no están disponibles. Debido a que CiteSeer solo indexa artículos disponibles gratuitamente en la web y no tiene acceso a los metadatos del editor, arroja menos recuentos de citas que sitios, como Google Scholar , que tienen metadatos del editor.

CiteSeer no se había actualizado completamente desde 2005 debido a limitaciones en el diseño de su arquitectura. Tenía una muestra representativa de documentos de investigación en informática y ciencias de la información, pero su cobertura era limitada porque se limitaba a artículos que están disponibles públicamente, generalmente en la página de inicio de un autor, o aquellos enviados por un autor. Para superar algunas de estas limitaciones, se diseñó una arquitectura modular y de código abierto para CiteSeer: CiteSeer X.

CiteSeer X

CiteSeer X reemplazó a CiteSeer y todas las consultas a CiteSeer fueron redirigidas. CiteSeer X [4] es un motor de búsqueda público y una biblioteca y repositorio digital de artículos científicos y académicos, principalmente centrados en la informática y las ciencias de la información . [4] Sin embargo, recientemente CiteSeer X se ha expandido a otros dominios académicos como la economía, la física y otros. Lanzado en 2008, se basó libremente en el motor de búsqueda y la biblioteca digital CiteSeer anterior y está construido con una nueva infraestructura de código abierto , SeerSuite, y nuevos algoritmos y sus implementaciones. Fue desarrollado por los investigadores Isaac Councill y C. Lee Giles de la Facultad de Ciencias y Tecnología de la Información de la Universidad Estatal de Pensilvania . Continúa respaldando los objetivos descritos por CiteSeer de rastrear y recopilar activamente documentos académicos y científicos en la web pública y utilizar una consulta de citas por citas y una clasificación de documentos según el impacto de las citas. Actualmente, Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen y Shuyi Zheng están o han estado activamente involucrados en su desarrollo. Recientemente, se introdujo una función de búsqueda en tablas. [5] Ha sido financiado por la National Science Foundation , la NASA y Microsoft Research .

CiteSeer X sigue estando clasificado como uno de los principales repositorios del mundo y fue clasificado como el número 1 en julio de 2010. [6] Actualmente cuenta con más de 6 millones de documentos con casi 6 millones de autores únicos y 120 millones de citas. [ ¿ periodo de tiempo? ]

CiteSeer X también comparte su software, datos, bases de datos y metadatos con otros investigadores, actualmente a través de Amazon S3 y rsync . [7] Su nueva arquitectura y software modular de código abierto (disponible anteriormente en SourceForge pero ahora en GitHub ) se basa en Apache Solr y otras herramientas de Apache y de código abierto, lo que le permite ser un banco de pruebas para nuevos algoritmos en la recopilación, clasificación y indexación y extracción de información.

CiteSeer X almacena en caché algunos archivos PDF que ha escaneado. Como tal, cada página incluye un enlace DMCA que puede usarse para informar violaciones de derechos de autor. [8]

Características actuales

Extracción de información automatizada

CiteSeer X utiliza herramientas automatizadas de extracción de información , generalmente basadas en métodos de aprendizaje automático como ParsCit, para extraer metadatos de documentos académicos como títulos, autores, resúmenes, citas, etc. Como tal, a veces hay errores en los autores y los títulos. Otros motores de búsqueda académicos tienen errores similares.

rastreo enfocado

CiteSeer X rastrea documentos académicos disponibles públicamente principalmente desde páginas web de autores y otros recursos abiertos, y no tiene acceso a los metadatos del editor. Como tal, el recuento de citas en CiteSeer X suele ser menor que el de Google Scholar y Microsoft Academic Search, que tienen acceso a los metadatos del editor.

Uso

CiteSeer X tiene casi un millón de usuarios en todo el mundo según direcciones IP únicas y millones de visitas diarias. Las descargas anuales de documentos PDF fueron casi 200 millones en 2015.

Datos

Los datos de CiteSeer X se comparten periódicamente bajo una licencia Creative Commons BY-NC-SA con investigadores de todo el mundo y se han utilizado y se utilizan en muchos experimentos y concursos.

Gracias a su punto final OAI-PMH , [9] CiteSeerX es un archivo abierto y su contenido está indexado como un repositorio institucional en motores de búsqueda académicos , por ejemplo, consumidores BASE y Unpaywall .

Otros motores de búsqueda basados ​​en SeerSuite

El modelo CiteSeer se había ampliado para abarcar documentos académicos en los negocios con SmealSearch y en el comercio electrónico con eBizSearch. Sin embargo, estos no fueron mantenidos por sus patrocinadores. Una vez se pudo encontrar una versión anterior de ambos en BizSeer.IST, pero ya no está en servicio.

Se han construido otros sistemas de búsqueda y depósito similares a Seer para química, Chem X Seer , y para arqueología, ArchSeer. Se había creado otro para la búsqueda de archivos robots.txt, BotSeer . Todos estos se basan en la herramienta de código abierto SeerSuite, que utiliza el indexador de código abierto Lucene .

Ver también

Referencias

  1. ^ ab "Política de datos de CiteSeerX". Archivado desde el original el 5 de enero de 2012 . Consultado el 10 de noviembre de 2015 .
  2. ^ Kodakateri Pudhiyaveetil, Ajith; Gauch, Susan; Luong, Hiep; Eno, Josh (2009). "Sistema de recomendación conceptual para CiteSeerX". Actas de la Tercera Conferencia ACM sobre Sistemas de Recomendación - RecSys '09 . Nueva York, Nueva York, Estados Unidos: ACM Press: 241. doi :10.1145/1639714.1639758. ISBN 978-1-60558-435-5. S2CID  13900679.
  3. ^ Lawrence, Steve (2001). "ResearchIndex: Dentro del índice de literatura científica de texto completo gratuito más grande del mundo". Actas de la conferencia internacional sobre captura de conocimiento - K-CAP 2001 . pag. 3. doi :10.1145/500737.500740. ISBN 1-58113-380-4. S2CID  19592721.
  4. ^ ab "Acerca de CiteSeerX". Archivado desde el original el 22 de julio de 2010 . Consultado el 7 de mayo de 2010 .
  5. ^ "El equipo de CiteSeerX". Universidad del Estado de Pensilvania. Archivado desde el original el 26 de julio de 2018 . Consultado el 1 de mayo de 2018 .
  6. ^ "Ranking Web of World Repositories: Top 800 repositorios". Laboratorio de Cibermetría. Julio de 2010. Archivado desde el original el 24 de julio de 2010 . Consultado el 24 de julio de 2010 .
  7. ^ "Acerca de los datos de CiteSeerX". Universidad del Estado de Pensilvania. Archivado desde el original el 5 de enero de 2012 . Consultado el 25 de enero de 2012 .
  8. ^ Por ejemplo, "CiteSeerx - Aviso DMCA". CiteSeerX 10.1.1.604.4916 . Archivado desde el original el 18 de marzo de 2022. El documento con el identificador "10.1.1.604.4916" se eliminó debido a un aviso de eliminación de la DMCA. Si cree que la eliminación se realizó por error, comuníquese con nosotros a través de la página de comentarios, junto con el identificador mencionado en esta página. 
  9. ^ Hirst, Tony (8 de diciembre de 2011). "Uso de OAI-PMH como interfaz de consulta de nivel de registro único para Citeseer". Archivado desde el original el 24 de noviembre de 2020 . Consultado el 25 de abril de 2020 .

Otras lecturas

enlaces externos