Semantic Scholar es una herramienta de investigación de literatura científica impulsada por inteligencia artificial . Se desarrolló en el Instituto Allen de IA y se publicó públicamente en noviembre de 2015. [2] Semantic Scholar utiliza técnicas modernas de procesamiento del lenguaje natural para respaldar el proceso de investigación, por ejemplo, proporcionando resúmenes de artículos académicos generados automáticamente. [3] El equipo de Semantic Scholar está investigando activamente el uso de la inteligencia artificial en el procesamiento del lenguaje natural , el aprendizaje automático , la interacción persona-computadora y la recuperación de información . [4]
Semantic Scholar comenzó como una base de datos para temas de informática , geociencia y neurociencia . [5] En 2017, el sistema comenzó a incluir literatura biomédica en su corpus. [5] A septiembre de 2022 [actualizar], incluye más de 200 millones de publicaciones de todos los campos de la ciencia. [6]
Semantic Scholar proporciona un resumen de una oración de la literatura científica . Uno de sus objetivos era abordar el desafío de leer numerosos títulos y resúmenes extensos en dispositivos móviles. [7] También busca garantizar que los tres millones de artículos científicos que se publican anualmente lleguen a los lectores, ya que se estima que sólo la mitad de esta literatura se lee alguna vez. [8]
La inteligencia artificial se utiliza para captar la esencia de un papel, generándola mediante una técnica "abstractiva". [3] El proyecto utiliza una combinación de aprendizaje automático , procesamiento de lenguaje natural y visión artificial para agregar una capa de análisis semántico a los métodos tradicionales de análisis de citas y para extraer figuras, tablas , entidades y lugares relevantes de los artículos. [9] [10]
Otra característica clave impulsada por la IA es Research Feeds, un recomendador de investigaciones adaptativo que utiliza IA para aprender rápidamente qué artículos les interesa leer a los usuarios y recomienda las últimas investigaciones para ayudar a los académicos a mantenerse actualizados. Utiliza un modelo de incrustación de papel de última generación entrenado mediante aprendizaje contrastivo para encontrar documentos similares a los de cada carpeta de la Biblioteca. [11]
Semantic Scholar también ofrece Semantic Reader, un lector aumentado con el potencial de revolucionar la lectura científica haciéndola más accesible y rica en contexto. [12] Semantic Reader proporciona tarjetas de citas en línea que permiten a los usuarios ver citas con resúmenes TLDR mientras leen y hojean aspectos destacados que capturan puntos clave de un artículo para que los usuarios puedan digerirlo más rápido.
A diferencia de Google Scholar y PubMed , Semantic Scholar está diseñado para resaltar los elementos más importantes e influyentes de un artículo. [13] La tecnología de IA está diseñada para identificar conexiones y vínculos ocultos entre temas de investigación. [14] Al igual que los motores de búsqueda citados anteriormente, Semantic Scholar también explota estructuras gráficas, que incluyen Microsoft Academic Knowledge Graph , Springer Nature's SciGraph y Semantic Scholar Corpus (originalmente un corpus de 45 millones de artículos en informática, neurociencia y biomedicina). [15] [16]
A cada artículo alojado en Semantic Scholar se le asigna un identificador único llamado Semantic Scholar Corpus ID (abreviado S2CID). La siguiente entrada es un ejemplo:
Liu, Ying; Gayle, Albert A; Wilder-Smith, Annelies; Rocklöv, Joacim (marzo de 2020). "El número reproductivo de COVID-19 es mayor en comparación con el coronavirus del SARS". Revista de medicina de viajes . 27 (2). doi : 10.1093/jtm/taaa021. PMID 32052846. S2CID 211099356.
Semantic Scholar es de uso gratuito y, a diferencia de motores de búsqueda similares (es decir, Google Scholar ), no busca material que esté detrás de un muro de pago . [5] [ cita necesaria ]
Un estudio comparó el alcance del índice de Semantic Scholar con el de Google Scholar y encontró que para los artículos citados por estudios secundarios en ciencias de la computación, los dos índices tenían una cobertura comparable y a cada uno solo le faltaban un puñado de artículos. [17]
En enero de 2018, tras un proyecto de 2017 que agregó artículos biomédicos y resúmenes de temas, el corpus de Semantic Scholar incluía más de 40 millones de artículos de informática y biomedicina . [18] En marzo de 2018, Doug Raymond, quien desarrolló iniciativas de aprendizaje automático para la plataforma Amazon Alexa , fue contratado para liderar el proyecto Semantic Scholar. [19] En agosto de 2019 [actualizar], la cantidad de metadatos de artículos incluidos (no los archivos PDF reales) había aumentado a más de 173 millones [20] después de la adición de los registros de Microsoft Academic Graph . [21] En 2020, una asociación entre Semantic Scholar y University of Chicago Press Journals hizo que todos los artículos publicados bajo University of Chicago Press estuvieran disponibles en el corpus de Semantic Scholar. [22] A finales de 2020, Semantic Scholar había indexado 190 millones de artículos. [23] En 2020, Semantic Scholar alcanzó los siete millones de usuarios por mes. [7]
...el corpus disponible públicamente compilado por Semantic Scholar, una herramienta creada en 2015 por el Instituto Allen de Inteligencia Artificial en Seattle, Washington, que asciende a alrededor de 200 millones de artículos, incluidos los preprints.