DBpedia (de "DB" para " base de datos ") es un proyecto que tiene como objetivo extraer contenido estructurado de la información creada en el proyecto Wikipedia . Esta información estructurada está disponible en la World Wide Web mediante OpenLink Virtuoso . [1] [2] DBpedia permite a los usuarios consultar semánticamente relaciones y propiedades de los recursos de Wikipedia, incluidos enlaces a otros conjuntos de datos relacionados . [3]
En 2008, Tim Berners-Lee describió DBpedia como "una de las piezas más famosas" del esfuerzo descentralizado de Linked Data . [4]
El proyecto fue iniciado por personas de la Universidad Libre de Berlín y la Universidad de Leipzig [5] en colaboración con OpenLink Software, y ahora lo mantienen personas de la Universidad de Mannheim y la Universidad de Leipzig. [6] [7] El primer conjunto de datos disponible públicamente se publicó en 2007. [5] Los datos están disponibles bajo licencias gratuitas ( CC BY-SA ), lo que permite a otros reutilizar el conjunto de datos; Sin embargo, no utiliza una licencia de datos abiertos para renunciar a los derechos sui generis de la base de datos . [ cita necesaria ]
Los artículos de Wikipedia constan principalmente de texto libre, pero también incluyen información estructurada incrustada en los artículos, como tablas de " cuadros de información " (los paneles desplegables que aparecen en la parte superior derecha de la vista predeterminada de muchos artículos de Wikipedia, o al comienzo de las versiones móviles ), información de categorización, imágenes, coordenadas geográficas y enlaces a páginas web externas . Esta información estructurada se extrae y se coloca en un conjunto de datos uniforme que se puede consultar.
La publicación de 2016-04 del conjunto de datos DBpedia describe 6,0 millones de entidades, de las cuales 5,2 millones están clasificadas en una ontología consistente , incluidas 1,5 millones de personas, 810.000 lugares, 135.000 álbumes de música, 106.000 películas, 20.000 videojuegos, 275.000 organizaciones, 301.000 especies y 5.000 enfermedades. [8] DBpedia utiliza el Marco de descripción de recursos (RDF) para representar la información extraída y consta de 9.500 millones de triples RDF , de los cuales 1.300 millones se extrajeron de la edición en inglés de Wikipedia y 5.000 millones de ediciones en otros idiomas. [8]
De este conjunto de datos se puede extraer información distribuida en varias páginas. Por ejemplo, la autoría de un libro se puede generar a partir de páginas sobre la obra o el autor. [ Se necesita más explicación ]
Uno de los desafíos al extraer información de Wikipedia es que los mismos conceptos se pueden expresar usando diferentes parámetros en el cuadro de información y otras plantillas, como |birthplace=
y |placeofbirth=
. Debido a esto, las consultas sobre dónde nacieron las personas tendrían que buscar ambas propiedades para obtener resultados más completos. Como resultado, se ha desarrollado DBpedia Mapping Language para ayudar a asignar estas propiedades a una ontología y al mismo tiempo reducir la cantidad de sinónimos. Debido a la gran diversidad de cuadros de información y propiedades que se utilizan en Wikipedia, el proceso de desarrollo y mejora de estos mapeos se ha abierto a contribuciones públicas. [9]
La versión 2014 se lanzó en septiembre de 2014. [10] Un cambio principal desde las versiones anteriores fue la forma en que se extrajeron los textos resúmenes. Específicamente, ejecutar un espejo local de Wikipedia y recuperar resúmenes renderizados hizo que los textos extraídos fueran considerablemente más limpios. Además, se introdujo un nuevo conjunto de datos extraídos de Wikimedia Commons .
En junio de 2021, DBPedia contiene más de 850 millones de triples. [11]
DBpedia extrae información objetiva de las páginas de Wikipedia, lo que permite a los usuarios encontrar respuestas a preguntas donde la información se distribuye en varios artículos de Wikipedia. Se accede a los datos mediante un lenguaje de consulta similar a SQL para RDF llamado SPARQL .
Por ejemplo, si uno estuviera interesado en la serie japonesa de manga shōjo Tokyo Mew Mew y quisiera encontrar los géneros de otras obras escritas por su ilustradora Mia Ikumi. DBpedia combina información de las entradas de Wikipedia sobre Tokyo Mew Mew , Mia Ikumi y sobre obras de este autor como Super Doll Licca-chan y Koi Cupid . Dado que DBpedia normaliza la información en una única base de datos, se puede realizar la siguiente consulta sin necesidad de saber exactamente qué entrada contiene cada fragmento de información y enumerará géneros relacionados:
PREFIJO dbprop : <http://dbpedia.org/ontology/> PREFIJO db : <http://dbpedia.org/resource/> SELECCIONE ?quién , ?TRABAJO , ?género DONDE { db : Tokyo_Mew_Mew dbprop : autor ?quién . ?TRABAJO dbprop : autor ?quién . OPCIONAL { ?TRABAJO dbprop : género ?género } . }
DBpedia tiene una amplia gama de entidades que cubren diferentes áreas del conocimiento humano . Esto lo convierte en un centro natural para conectar conjuntos de datos, donde los conjuntos de datos externos podrían vincularse a sus conceptos. [12] El conjunto de datos DBpedia está interconectado a nivel RDF con varios otros conjuntos de datos de Datos Abiertos en la Web. Esto permite que las aplicaciones enriquezcan los datos de DBpedia con datos de estos conjuntos de datos. En septiembre de 2013 [actualizar], existen más de 45 millones de interconexiones entre DBpedia y conjuntos de datos externos, incluidos: Freebase , OpenCyc , UMBEL , GeoNames , MusicBrainz , CIA World Fact Book , DBLP , Project Gutenberg , DBtune Jamendo , Eurostat , UniProt , Bio2RDF y US. Datos del censo . [13] [14] La iniciativa OpenCalais de Thomson Reuters , el proyecto Linked Open Data de The New York Times , la API Zemanta [15] y DBpedia Spotlight también incluyen enlaces a DBpedia. [16] [17] [18] La BBC utiliza DBpedia para ayudar a organizar su contenido. [19] [20] Faviki utiliza DBpedia para el etiquetado semántico. [21] Samsung también incluye DBpedia en su "Plataforma de intercambio de conocimientos".
Una fuente tan rica de conocimiento estructurado entre dominios es un terreno fértil para los sistemas de inteligencia artificial . DBpedia se utilizó como una de las fuentes de conocimiento en Jeopardy! de IBM Watson . sistema ganador [22]
Amazon proporciona un conjunto de datos públicos DBpedia que se puede integrar en las aplicaciones de servicios web de Amazon . [23]
Los datos sobre creadores de DBpedia se pueden utilizar para enriquecer las observaciones de ventas de obras de arte. [24]
La empresa de software de crowdsourcing , Ushahidi , construyó un prototipo de su software que aprovechó DBpedia para realizar anotaciones semánticas en informes generados por ciudadanos. El prototipo incorporaba el servicio "YODIE" (Yet another Open Data Information Extraction system) [25] desarrollado por la Universidad de Sheffield , que utiliza DBpedia para realizar las anotaciones. El objetivo de Ushahidi era mejorar la velocidad y la facilidad con la que se podían validar los informes entrantes. [26]
DBpedia Spotlight es una herramienta para anotar menciones de recursos de DBpedia en texto. Esto permite vincular fuentes de información no estructuradas a la nube de Linked Open Data a través de DBpedia. DBpedia Spotlight realiza extracción de entidades con nombre , incluida la detección de entidades y la resolución de nombres (en otras palabras, desambiguación). También se puede utilizar para el reconocimiento de entidades con nombre y otras tareas de extracción de información . DBpedia Spotlight pretende ser personalizable para muchos casos de uso. En lugar de centrarse en unos pocos tipos de entidades, el proyecto se esfuerza por admitir la anotación de los 3,5 millones de entidades y conceptos de más de 320 clases en DBpedia. El proyecto comenzó en junio de 2010 en el Grupo de Sistemas Basados en Web de la Universidad Libre de Berlín.
DBpedia Spotlight está disponible públicamente como un servicio web para pruebas y una API Java / Scala con licencia a través de la licencia Apache . La distribución DBpedia Spotlight incluye un complemento jQuery que permite a los desarrolladores anotar páginas en cualquier lugar de la Web agregando una línea a su página. [27] Los clientes también están disponibles en Java o PHP . [28] La herramienta maneja varios idiomas a través de su página de demostración [29] y servicios web. La internacionalización es compatible con cualquier idioma que tenga una edición de Wikipedia. [30]
A partir de 2020, el proyecto DBpedia proporciona una base de datos actualizada periódicamente de ontologías accesibles desde la web escritas en el lenguaje de ontología OWL . [31] Archivo también proporciona un esquema de calificación de cuatro estrellas para las ontologías que extrae, basado en accesibilidad, calidad y criterios relacionados de idoneidad para su uso. Por ejemplo, el cumplimiento de SHACL para datos basados en gráficos se evalúa cuando corresponde. Las ontologías también deben contener metadatos sobre sus características y especificar una licencia pública que describa sus términos de uso. [32] [33] A junio de 2021, [actualizar]la base de datos del Archivo contiene 1368 entradas.
DBpedia fue iniciada en 2007 por Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann , Richard Cyganiak y Zachary Ives. [5]
Wikipedia tiene un gemelo de datos vinculados llamado DBpedia.
DBpedia tiene la misma información estructurada que Wikipedia, pero traducida a un formato legible por máquina.
Zemanta apoya plenamente la iniciativa Linking Open Data.
Es la primera API que devuelve entidades sin ambigüedades vinculadas a dbPedia, Freebase, MusicBrainz y Semantic Crunchbase.
Dbpedia es una versión de base de datos de Wikipedia.
Se utiliza en muchos proyectos por una amplia gama de razones diferentes.
En la BBC lo utilizamos para etiquetar contenido.