Semantic Scholar es una herramienta de investigación de literatura científica impulsada por inteligencia artificial . Fue desarrollada en el Instituto Allen de IA y se lanzó al público en noviembre de 2015. [2] Semantic Scholar utiliza técnicas modernas de procesamiento del lenguaje natural para respaldar el proceso de investigación, por ejemplo, brindando resúmenes generados automáticamente de artículos académicos. [3] El equipo de Semantic Scholar está investigando activamente el uso de inteligencia artificial en el procesamiento del lenguaje natural , el aprendizaje automático , la interacción entre humanos y computadoras y la recuperación de información . [4]
Semantic Scholar comenzó como una base de datos para los temas de informática , geociencia y neurociencia . [5] En 2017, el sistema comenzó a incluir literatura biomédica en su corpus. [5] A septiembre de 2022 [actualizar], incluye más de 200 millones de publicaciones de todos los campos de la ciencia. [6]
Semantic Scholar ofrece un resumen de la literatura científica en una sola frase . Uno de sus objetivos era abordar el desafío de leer numerosos títulos y resúmenes extensos en dispositivos móviles. [7] También busca garantizar que los tres millones de artículos científicos publicados anualmente lleguen a los lectores, ya que se estima que solo la mitad de esta literatura se lee alguna vez. [8]
La inteligencia artificial se utiliza para capturar la esencia de un artículo, generándolo a través de una técnica "abstractiva". [3] El proyecto utiliza una combinación de aprendizaje automático , procesamiento del lenguaje natural y visión artificial para agregar una capa de análisis semántico a los métodos tradicionales de análisis de citas y para extraer figuras, tablas , entidades y lugares relevantes de los artículos. [9] [10]
Otra característica clave impulsada por IA es Research Feeds, un recomendador de investigación adaptativo que utiliza IA para aprender rápidamente qué artículos les interesan a los usuarios y recomienda las últimas investigaciones para ayudar a los académicos a mantenerse actualizados. Utiliza un modelo de incorporación de artículos de última generación entrenado mediante aprendizaje contrastivo para encontrar artículos similares a los de cada carpeta de la Biblioteca. [11]
Semantic Scholar también ofrece Semantic Reader, un lector aumentado con el potencial de revolucionar la lectura científica al hacerla más accesible y ricamente contextualizada. [12] Semantic Reader proporciona tarjetas de citas en línea que permiten a los usuarios ver citas con resúmenes breves generados automáticamente a medida que leen y reseñas que capturan los puntos clave de un artículo para que los usuarios puedan digerirlo más rápido.
A diferencia de Google Scholar y PubMed , Semantic Scholar está diseñado para resaltar los elementos más importantes e influyentes de un artículo. [13] La tecnología de IA está diseñada para identificar conexiones y vínculos ocultos entre temas de investigación. [14] Al igual que los motores de búsqueda citados anteriormente, Semantic Scholar también explota estructuras de gráficos, que incluyen Microsoft Academic Knowledge Graph , Springer Nature's SciGraph y Semantic Scholar Corpus (originalmente un corpus de 45 millones de artículos en informática, neurociencia y biomedicina). [15] [16]
A cada artículo alojado por Semantic Scholar se le asigna un identificador único llamado Semantic Scholar Corpus ID (abreviado como S2CID). La siguiente entrada es un ejemplo:
Liu, Ying; Gayle, Albert A; Wilder-Smith, Annelies; Rocklöv, Joacim (marzo de 2020). "El número de reproducción de COVID-19 es mayor en comparación con el coronavirus del SARS". Journal of Travel Medicine . 27 (2). doi :10.1093/jtm/taaa021. PMID 32052846. S2CID 211099356.
Semantic Scholar es de uso gratuito y, a diferencia de motores de búsqueda similares (por ejemplo, Google Scholar ), no busca material que esté detrás de un muro de pago . [5] [ cita requerida ]
Un estudio comparó el alcance del índice de Semantic Scholar con el de Google Scholar y descubrió que, en el caso de los artículos citados por estudios secundarios en informática, los dos índices tenían una cobertura comparable y cada uno solo omitía un puñado de artículos. [17]
En enero de 2018, tras un proyecto de 2017 que añadió artículos biomédicos y resúmenes de temas, el corpus de Semantic Scholar incluía más de 40 millones de artículos de informática y biomedicina . [18] En marzo de 2018, Doug Raymond, que desarrolló iniciativas de aprendizaje automático para la plataforma Amazon Alexa , fue contratado para dirigir el proyecto Semantic Scholar. [19] En agosto de 2019 [actualizar], la cantidad de metadatos de artículos incluidos (no los PDF reales) había aumentado a más de 173 millones [20] después de la adición de los registros de Microsoft Academic Graph . [21] En 2020, una asociación entre Semantic Scholar y University of Chicago Press Journals hizo que todos los artículos publicados bajo University of Chicago Press estuvieran disponibles en el corpus de Semantic Scholar. [22] A fines de 2020, Semantic Scholar había indexado 190 millones de artículos. [23] En 2020, Semantic Scholar alcanzó los siete millones de usuarios por mes. [7]
...el corpus disponible públicamente compilado por Semantic Scholar, una herramienta creada en 2015 por el Instituto Allen de Inteligencia Artificial en Seattle, Washington, que asciende a alrededor de 200 millones de artículos, incluidas las preimpresiones.