CiteSeerX

CiteSeer ^X (anteriormente llamado CiteSeer ) es un motor de búsqueda público y una biblioteca digital para artículos científicos y académicos, principalmente en los campos de la informática y la ciencia de la información .

El objetivo de CiteSeer es mejorar la difusión y el acceso a la literatura académica y científica. Como servicio sin fines de lucro que puede ser utilizado libremente por cualquier persona, se lo ha considerado parte del movimiento de acceso abierto que intenta cambiar la publicación académica y científica para permitir un mayor acceso a la literatura científica. CiteSeer proporcionó de forma gratuita metadatos de la Iniciativa de Archivos Abiertos de todos los documentos indexados y, cuando es posible, vincula los documentos indexados a otras fuentes de metadatos, como DBLP y el Portal ACM . Para promover los datos abiertos , CiteSeer ^X comparte sus datos con fines no comerciales bajo una licencia Creative Commons . ^[1]

CiteSeer se considera un predecesor de herramientas de búsqueda académica como Google Scholar y Microsoft Academic Search . ^[2] Los motores y archivos similares a CiteSeer generalmente solo recopilan documentos de sitios web disponibles públicamente y no rastrean los sitios web de las editoriales. Por este motivo, los autores cuyos documentos están disponibles gratuitamente tienen más probabilidades de estar representados en el índice.

CiteSeer cambió su nombre a ResearchIndex en un momento y luego lo cambió nuevamente. ^[3]

Historia

CiteSeer y CiteSeer.IST

CiteSeer fue creado por los investigadores Lee Giles , Kurt Bollacker y Steve Lawrence en 1997 mientras trabajaban en el Instituto de Investigación NEC (ahora NEC Labs ), Princeton, Nueva Jersey , EE. UU. El objetivo de CiteSeer era rastrear y recopilar activamente documentos académicos y científicos en la web y utilizar la indexación de citas autónoma para permitir la consulta por cita o por documento, clasificándolos por impacto de citación . En un momento, se llamó ResearchIndex.

CiteSeer se hizo público en 1998 y contaba con muchas funciones nuevas que no estaban disponibles en los motores de búsqueda académicos en ese momento. Entre ellas se encontraban:

La indexación de citas autónoma crea automáticamente un índice de citas que puede utilizarse para la búsqueda y evaluación de literatura.
Las estadísticas de citas y los documentos relacionados se calcularon para todos los artículos citados en la base de datos, no solo para los artículos indexados.
Vinculación de referencias, que permite navegar por la base de datos utilizando enlaces de citas.
El contexto de cita muestra el contexto de las citas de un artículo determinado, lo que permite a un investigador ver rápida y fácilmente lo que otros investigadores tienen para decir sobre un artículo de interés.
Los documentos relacionados se muestran utilizando medidas basadas en citas y palabras, y se muestra una bibliografía activa y continuamente actualizada para cada documento.

El 11 de septiembre de 2001, CiteSeer obtuvo la patente estadounidense n.° 6289342, titulada " Indexación de citas autónoma y exploración de literatura utilizando el contexto de citas ". La patente se presentó el 20 de mayo de 1998 y tiene prioridad hasta el 5 de enero de 1998. Se presentó una patente de continuación (patente estadounidense n.° 6738780) el 16 de mayo de 2001 y se concedió el 18 de mayo de 2004. ^{[ cita requerida ]}

Después de NEC, en 2004 se alojó como CiteSeer.IST en la World Wide Web en la Facultad de Ciencias de la Información y Tecnología de la Universidad Estatal de Pensilvania , y tenía más de 700.000 documentos. Para mejorar el acceso, el rendimiento y la investigación, se brindaron versiones similares de CiteSeer en universidades como el Instituto Tecnológico de Massachusetts , la Universidad de Zúrich y la Universidad Nacional de Singapur . Sin embargo, estas versiones de CiteSeer resultaron difíciles de mantener y ya no están disponibles. Debido a que CiteSeer solo indexa artículos disponibles de forma gratuita en la web y no tiene acceso a metadatos de editores, devuelve menos recuentos de citas que sitios, como Google Scholar , que tienen metadatos de editores.

CiteSeer no se había actualizado de manera exhaustiva desde 2005 debido a limitaciones en el diseño de su arquitectura. Contaba con una muestra representativa de documentos de investigación en informática y ciencias de la información, pero su cobertura era limitada porque se limitaba a artículos que están disponibles públicamente, generalmente en la página de inicio de un autor, o aquellos enviados por un autor. Para superar algunas de estas limitaciones, se diseñó una arquitectura modular y de código abierto para CiteSeer: CiteSeer ^X.

CiteSeerincógnita

CiteSeer ^X reemplazó a CiteSeer y todas las consultas a CiteSeer fueron redirigidas. CiteSeer ^X^[4] es un motor de búsqueda público y una biblioteca digital y repositorio para artículos científicos y académicos, principalmente con un enfoque en la informática y la ciencia de la información . ^[4] Sin embargo, recientemente CiteSeer ^X se ha expandido a otros dominios académicos como la economía, la física y otros. Lanzado en 2008, se basó libremente en el motor de búsqueda y la biblioteca digital CiteSeer anteriores y está construido con una nueva infraestructura de código abierto , SeerSuite, y nuevos algoritmos y sus implementaciones. Fue desarrollado por los investigadores Isaac Councill y C. Lee Giles en la Facultad de Ciencias de la Información y Tecnología , Universidad Estatal de Pensilvania . Sigue apoyando los objetivos delineados por CiteSeer de rastrear y recolectar activamente documentos académicos y científicos en la web pública y utilizar una consulta de citas por citas y una clasificación de documentos por el impacto de las citas. Actualmente, Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen y Shuyi Zheng están o han estado activamente involucrados en su desarrollo. Recientemente, se introdujo una función de búsqueda de tablas. ^[5] Ha sido financiado por la National Science Foundation , la NASA y Microsoft Research .

CiteSeer ^X continúa siendo clasificado como uno de los principales repositorios del mundo, y fue clasificado como el número 1 en julio de 2010. ^[6] Actualmente tiene más de 6 millones de documentos con casi 6 millones de autores únicos y 120 millones de citas. ^{[ ¿periodo de tiempo? ]}

CiteSeer ^X también comparte su software, datos, bases de datos y metadatos con otros investigadores, actualmente por Amazon S3 y por rsync . ^[7] Su nueva arquitectura modular de código abierto y software (disponible anteriormente en SourceForge pero ahora en GitHub ) está construido sobre Apache Solr y otras herramientas Apache y de código abierto, lo que le permite ser un banco de pruebas para nuevos algoritmos en recolección de documentos, clasificación, indexación y extracción de información.

CiteSeer ^X almacena en caché algunos archivos PDF que ha escaneado. Por ello, cada página incluye un enlace DMCA que se puede utilizar para denunciar infracciones de derechos de autor. ^[8]

Características actuales

Extracción automatizada de información

CiteSeer ^X utiliza herramientas de extracción de información automatizadas , generalmente basadas en métodos de aprendizaje automático como ParsCit, para extraer metadatos de documentos académicos, como título, autores, resumen, citas, etc. Por ello, a veces hay errores en los autores y títulos. Otros motores de búsqueda académicos tienen errores similares.

Gateo enfocado

CiteSeer ^X rastrea documentos académicos disponibles públicamente principalmente desde las páginas web de los autores y otros recursos abiertos, y no tiene acceso a los metadatos de los editores. Por ello, los recuentos de citas en CiteSeer ^X suelen ser menores que los de Google Scholar y Microsoft Academic Search, que tienen acceso a los metadatos de los editores.

Uso

CiteSeer ^X tiene casi un millón de usuarios en todo el mundo según direcciones IP únicas y recibe millones de visitas diarias. Las descargas anuales de documentos en formato PDF fueron de casi 200 millones en 2015.

Datos

Los datos de CiteSeer ^X se comparten periódicamente bajo una licencia Creative Commons BY-NC-SA con investigadores de todo el mundo y se han utilizado y se utilizan en muchos experimentos y competiciones.

Gracias a su punto final OAI-PMH , ^[9] CiteSeerX es un archivo abierto y su contenido está indexado como un repositorio institucional en motores de búsqueda académicos , por ejemplo BASE y los consumidores Unpaywall .

Otros motores de búsqueda basados en SeerSuite

El modelo CiteSeer se había ampliado para incluir documentos académicos en el ámbito empresarial con SmealSearch y en el ámbito del comercio electrónico con eBizSearch. Sin embargo, sus patrocinadores no se encargaban del mantenimiento de estos sistemas. En BizSeer.IST se podía encontrar una versión anterior de ambos, pero ya no está en servicio.

Se han creado otros sistemas de búsqueda y repositorio similares a Seer para química, Chem _X Seer, y para arqueología, ArchSeer. Se ha creado otro para la búsqueda de archivos robots.txt, BotSeer . Todos ellos se basan en la herramienta de código abierto SeerSuite, que utiliza el indexador de código abierto Lucene .

Véase también

Minero de red
arXiv
Colección de bibliografías sobre informática
DBLP (Proyecto de bibliografía y biblioteca digital)
Repositorio disciplinario
Google Académico
Lista de bases de datos y motores de búsqueda académicos
Microsoft Académico
Documentos de investigación en economía (RePEc)
Académico semántico

Referencias

^ ab "Política de datos de CiteSeerX". Archivado desde el original el 5 de enero de 2012. Consultado el 10 de noviembre de 2015 .
^ Kodakateri Pudhiyaveetil, Ajith; Gauch, Susan; Luong, Hiep; Eno, Josh (2009). "Sistema de recomendación conceptual para CiteSeerX". Actas de la tercera conferencia de la ACM sobre sistemas de recomendación . Nueva York, Nueva York, EE. UU.: ACM Press. pág. 241. doi :10.1145/1639714.1639758. ISBN 978-1-60558-435-5. Número de identificación del sujeto 13900679.
^ Lawrence, Steve (2001). "ResearchIndex: Inside the world's largest free full-text index of scientific literature". Actas de la conferencia internacional sobre captura de conocimiento - K-CAP 2001. p. 3. doi :10.1145/500737.500740. ISBN 1-58113-380-4.S2CID 19592721 .
^ ab "Acerca de CiteSeerX". Archivado desde el original el 22 de julio de 2010. Consultado el 7 de mayo de 2010 .
^ "El equipo de CiteSeerX". Universidad Estatal de Pensilvania. Archivado desde el original el 26 de julio de 2018. Consultado el 1 de mayo de 2018 .
^ "Ranking Web of World Repositories: Top 800 Repositories". Cybermetrics Lab. Julio de 2010. Archivado desde el original el 24 de julio de 2010. Consultado el 24 de julio de 2010 .
^ "Acerca de los datos de CiteSeerX". Universidad Estatal de Pensilvania. Archivado desde el original el 5 de enero de 2012. Consultado el 25 de enero de 2012 .
^ Por ejemplo, "CiteSeerx – Aviso DMCA". CiteSeerX 10.1.1.604.4916 . Archivado desde el original el 18 de marzo de 2022. El documento con el identificador "10.1.1.604.4916" ha sido eliminado debido a un aviso de eliminación de DMCA. Si cree que la eliminación ha sido un error, comuníquese con nosotros a través de la página de comentarios, junto con el identificador mencionado en esta página.
^ Hirst, Tony (8 de diciembre de 2011). "Uso de OAI-PMH como interfaz de consulta a nivel de registro único para Citeseer". Archivado desde el original el 24 de noviembre de 2020. Consultado el 25 de abril de 2020 .

Lectura adicional

Giles, C. Lee; Bollacker, Kurt D.; Lawrence, Steve (1998). "CiteSeer: un sistema automático de indexación de citas". Actas de la Tercera Conferencia de la ACM sobre Bibliotecas Digitales . págs. 89–98. CiteSeerX 10.1.1.30.6847 . doi :10.1145/276675.276685. ISBN . 978-0-89791-965-4. Número de identificación del sujeto 514080.

Enlaces externos

Wikidata tiene la propiedad:

Identificador de artículo de CiteSeerX (esquema anterior) (P3784) (ver usos )

Sitio web oficial