DBpedia

DBpedia (de "DB" para " base de datos ") es un proyecto que tiene como objetivo extraer contenido estructurado de la información creada en el proyecto Wikipedia . Esta información estructurada está disponible en la World Wide Web mediante OpenLink Virtuoso . ^[1]^[2] DBpedia permite a los usuarios consultar semánticamente relaciones y propiedades de los recursos de Wikipedia, incluidos enlaces a otros conjuntos de datos relacionados . ^[3]

En 2008, Tim Berners-Lee describió DBpedia como "una de las piezas más famosas" del esfuerzo descentralizado de Linked Data . ^[4]

Fondo

El proyecto fue iniciado por personas de la Universidad Libre de Berlín y la Universidad de Leipzig ^[5] en colaboración con OpenLink Software, y ahora lo mantienen personas de la Universidad de Mannheim y la Universidad de Leipzig. ^[6]^[7] El primer conjunto de datos disponible públicamente se publicó en 2007. ^[5] Los datos están disponibles bajo licencias gratuitas ( CC BY-SA ), lo que permite a otros reutilizar el conjunto de datos; Sin embargo, no utiliza una licencia de datos abiertos para renunciar a los derechos sui generis de la base de datos . ^{[ cita necesaria ]}

Los artículos de Wikipedia constan principalmente de texto libre, pero también incluyen información estructurada incrustada en los artículos, como tablas de " cuadros de información " (los paneles desplegables que aparecen en la parte superior derecha de la vista predeterminada de muchos artículos de Wikipedia, o al comienzo de las versiones móviles ), información de categorización, imágenes, coordenadas geográficas y enlaces a páginas web externas . Esta información estructurada se extrae y se coloca en un conjunto de datos uniforme que se puede consultar.

Conjunto de datos

La publicación de 2016-04 del conjunto de datos DBpedia describe 6,0 millones de entidades, de las cuales 5,2 millones están clasificadas en una ontología consistente , incluidas 1,5 millones de personas, 810.000 lugares, 135.000 álbumes de música, 106.000 películas, 20.000 videojuegos, 275.000 organizaciones, 301.000 especies y 5.000 enfermedades. ^[8] DBpedia utiliza el Marco de descripción de recursos (RDF) para representar la información extraída y consta de 9.500 millones de triples RDF , de los cuales 1.300 millones se extrajeron de la edición en inglés de Wikipedia y 5.000 millones de ediciones en otros idiomas. ^[8]

De este conjunto de datos se puede extraer información distribuida en varias páginas. Por ejemplo, la autoría de un libro se puede generar a partir de páginas sobre la obra o el autor. ^{[ Se necesita más explicación ]}

Uno de los desafíos al extraer información de Wikipedia es que los mismos conceptos se pueden expresar usando diferentes parámetros en el cuadro de información y otras plantillas, como |birthplace=y |placeofbirth=. Debido a esto, las consultas sobre dónde nacieron las personas tendrían que buscar ambas propiedades para obtener resultados más completos. Como resultado, se ha desarrollado DBpedia Mapping Language para ayudar a asignar estas propiedades a una ontología y al mismo tiempo reducir la cantidad de sinónimos. Debido a la gran diversidad de cuadros de información y propiedades que se utilizan en Wikipedia, el proceso de desarrollo y mejora de estos mapeos se ha abierto a contribuciones públicas. ^[9]

La versión 2014 se lanzó en septiembre de 2014. ^[10] Un cambio principal desde las versiones anteriores fue la forma en que se extrajeron los textos resúmenes. Específicamente, ejecutar un espejo local de Wikipedia y recuperar resúmenes renderizados hizo que los textos extraídos fueran considerablemente más limpios. Además, se introdujo un nuevo conjunto de datos extraídos de Wikimedia Commons .

En junio de 2021, DBPedia contiene más de 850 millones de triples. ^[11]

Ejemplos

DBpedia extrae información objetiva de las páginas de Wikipedia, lo que permite a los usuarios encontrar respuestas a preguntas donde la información se distribuye en varios artículos de Wikipedia. Se accede a los datos mediante un lenguaje de consulta similar a SQL para RDF llamado SPARQL .

Por ejemplo, si uno estuviera interesado en la serie japonesa de manga shōjo Tokyo Mew Mew y quisiera encontrar los géneros de otras obras escritas por su ilustradora Mia Ikumi. DBpedia combina información de las entradas de Wikipedia sobre Tokyo Mew Mew , Mia Ikumi y sobre obras de este autor como Super Doll Licca-chan y Koi Cupid . Dado que DBpedia normaliza la información en una única base de datos, se puede realizar la siguiente consulta sin necesidad de saber exactamente qué entrada contiene cada fragmento de información y enumerará géneros relacionados:

PREFIJO  dbprop :  <http://dbpedia.org/ontology/> PREFIJO  db :  <http://dbpedia.org/resource/> SELECCIONE  ?quién ,  ?TRABAJO ,  ?género  DONDE  {  db : Tokyo_Mew_Mew  dbprop : autor  ?quién  .  ?TRABAJO  dbprop : autor  ?quién  .  OPCIONAL  {  ?TRABAJO  dbprop : género  ?género  }  . }

Casos de uso

DBpedia tiene una amplia gama de entidades que cubren diferentes áreas del conocimiento humano . Esto lo convierte en un centro natural para conectar conjuntos de datos, donde los conjuntos de datos externos podrían vincularse a sus conceptos. ^[12] El conjunto de datos DBpedia está interconectado a nivel RDF con varios otros conjuntos de datos de Datos Abiertos en la Web. Esto permite que las aplicaciones enriquezcan los datos de DBpedia con datos de estos conjuntos de datos. En septiembre de 2013 ^[actualizar], existen más de 45 millones de interconexiones entre DBpedia y conjuntos de datos externos, incluidos: Freebase , OpenCyc , UMBEL , GeoNames , MusicBrainz , CIA World Fact Book , DBLP , Project Gutenberg , DBtune Jamendo , Eurostat , UniProt , Bio2RDF y US. Datos del censo . ^[13]^[14] La iniciativa OpenCalais de Thomson Reuters , el proyecto Linked Open Data de The New York Times , la API Zemanta ^[15] y DBpedia Spotlight también incluyen enlaces a DBpedia. ^[16]^[17]^[18] La BBC utiliza DBpedia para ayudar a organizar su contenido. ^[19]^[20] Faviki utiliza DBpedia para el etiquetado semántico. ^[21]Samsung también incluye DBpedia en su "Plataforma de intercambio de conocimientos".

Una fuente tan rica de conocimiento estructurado entre dominios es un terreno fértil para los sistemas de inteligencia artificial . DBpedia se utilizó como una de las fuentes de conocimiento en Jeopardy! de IBM Watson . sistema ganador ^[22]

Amazon proporciona un conjunto de datos públicos DBpedia que se puede integrar en las aplicaciones de servicios web de Amazon . ^[23]

Los datos sobre creadores de DBpedia se pueden utilizar para enriquecer las observaciones de ventas de obras de arte. ^[24]

La empresa de software de crowdsourcing , Ushahidi , construyó un prototipo de su software que aprovechó DBpedia para realizar anotaciones semánticas en informes generados por ciudadanos. El prototipo incorporaba el servicio "YODIE" (Yet another Open Data Information Extraction system) ^[25] desarrollado por la Universidad de Sheffield , que utiliza DBpedia para realizar las anotaciones. El objetivo de Ushahidi era mejorar la velocidad y la facilidad con la que se podían validar los informes entrantes. ^[26]

Destacado DBpedia

DBpedia Spotlight es una herramienta para anotar menciones de recursos de DBpedia en texto. Esto permite vincular fuentes de información no estructuradas a la nube de Linked Open Data a través de DBpedia. DBpedia Spotlight realiza extracción de entidades con nombre , incluida la detección de entidades y la resolución de nombres (en otras palabras, desambiguación). También se puede utilizar para el reconocimiento de entidades con nombre y otras tareas de extracción de información . DBpedia Spotlight pretende ser personalizable para muchos casos de uso. En lugar de centrarse en unos pocos tipos de entidades, el proyecto se esfuerza por admitir la anotación de los 3,5 millones de entidades y conceptos de más de 320 clases en DBpedia. El proyecto comenzó en junio de 2010 en el Grupo de Sistemas Basados en Web de la Universidad Libre de Berlín.

DBpedia Spotlight está disponible públicamente como un servicio web para pruebas y una API Java / Scala con licencia a través de la licencia Apache . La distribución DBpedia Spotlight incluye un complemento jQuery que permite a los desarrolladores anotar páginas en cualquier lugar de la Web agregando una línea a su página. ^[27] Los clientes también están disponibles en Java o PHP . ^[28] La herramienta maneja varios idiomas a través de su página de demostración ^[29] y servicios web. La internacionalización es compatible con cualquier idioma que tenga una edición de Wikipedia. ^[30]

Base de datos de ontología de archivo

A partir de 2020, el proyecto DBpedia proporciona una base de datos actualizada periódicamente de ontologías accesibles desde la web escritas en el lenguaje de ontología OWL . ^[31] Archivo también proporciona un esquema de calificación de cuatro estrellas para las ontologías que extrae, basado en accesibilidad, calidad y criterios relacionados de idoneidad para su uso. Por ejemplo, el cumplimiento de SHACL para datos basados en gráficos se evalúa cuando corresponde. Las ontologías también deben contener metadatos sobre sus características y especificar una licencia pública que describa sus términos de uso. ^[32]^[33] A junio de 2021, ^[actualizar]la base de datos del Archivo contiene 1368 entradas.

Historia

DBpedia fue iniciada en 2007 por Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann , Richard Cyganiak y Zachary Ives. ^[5]

Ver también

Referencias

^ Bizer, cristiano; Lehmann, Jens; Kobilarov, Georgi; Auer, Soren; Becker, cristiano; Cyganiak, Richard; Hellmann, Sebastián (septiembre de 2009). "DBpedia: un punto de cristalización de la Web de datos" (PDF) . Semántica web: ciencia, servicios y agentes en la World Wide Web . 7 (3): 154–165. CiteSeerX 10.1.1.150.4898 . doi :10.1016/j.websem.2009.07.002. ISSN 1570-8268. Archivado desde el original (PDF) el 10 de agosto de 2017 . Consultado el 11 de diciembre de 2015 .
^ "Acerca de DBpedia". DBpedia . Consultado el 14 de enero de 2024 .
^ "Komplett verlinkt - Datos vinculados" (en alemán). 3 sáb . 19 de junio de 2009. Archivado desde el original el 6 de enero de 2013 . Consultado el 10 de noviembre de 2009 .
^ "Sir Tim Berners-Lee habla con Talis sobre la web semántica". Talis. 7 de febrero de 2008. Archivado desde el original el 10 de mayo de 2013.
^ abc DBpedia: un núcleo para una red de datos abiertos , disponible en [1], [2] o [3]
^ "Créditos". DBpedia. Archivado desde el original el 21 de septiembre de 2014 . Consultado el 9 de septiembre de 2014 .
^ "Inicio".
^ ab "¡SÍ! Lo hicimos de nuevo;) - Nueva versión de DBpedia 2016-04". DBpedia. 19 de octubre de 2016 . Consultado el 9 de enero de 2019 .
^ "Asignaciones de DBpedia". mapeos.dbpedia.org . Consultado el 3 de abril de 2010 .
^ "Registro de cambios". DBpedia. Septiembre de 2014 . Consultado el 9 de septiembre de 2014 .
^ Holze, Julia (23 de julio de 2021). "Anuncio: versión 2021-06 de la instantánea de DBpedia". Asociación DBpedia . Consultado el 28 de julio de 2021 .
^ E. Curry, A. Freitas y S. O'Riáin, "El papel de la conservación de datos impulsada por la comunidad para las empresas", archivado el 23 de enero de 2012 en Wayback Machine en la vinculación de datos empresariales, D. Wood, Ed. Boston, MA: Springer US, 2010, págs. 25-47.
^ "Estadísticas sobre vínculos entre conjuntos de datos", Proyecto comunitario SWEO: vinculación de datos abiertos en la web semántica , W3C , consultado el 24 de noviembre de 2009
^ "Estadísticas sobre conjuntos de datos", Proyecto comunitario SWEO: vinculación de datos abiertos en la web semántica , W3C , consultado el 24 de noviembre de 2009
^ "API de Zemanta". dev.zemanta.com . Consultado el 26 de julio de 2021 .
^ Sandhaus, Evan; Larson, Rob (29 de octubre de 2009). "Primeras 5000 etiquetas lanzadas a Linked Data Cloud". Blogs del New York Times . Consultado el 10 de noviembre de 2009 .
^ "La vida en la nube de datos vinculados". opencalais.com. Archivado desde el original el 24 de noviembre de 2009 . Consultado el 10 de noviembre de 2009 . Wikipedia tiene un gemelo de datos vinculados llamado DBpedia. DBpedia tiene la misma información estructurada que Wikipedia, pero traducida a un formato legible por máquina.
^ "Zemanta habla de datos vinculados con SDK y API comercial". ZDNet. Archivado desde el original el 28 de febrero de 2010 . Consultado el 10 de noviembre de 2009 . Zemanta apoya plenamente la iniciativa Linking Open Data. Es la primera API que devuelve entidades sin ambigüedades vinculadas a dbPedia, Freebase, MusicBrainz y Semantic Crunchbase.
^ "Conferencia europea sobre web semántica 2009: Georgi Kobilarov, Tom Scott, Yves Raimond, Silver Oliver, Chris Sizemore, Michael Smethurst, Christian Bizer y Robert Lee. Los medios se encuentran con la web semántica: cómo la BBC utiliza DBpedia y los datos vinculados para establecer conexiones". eswc2009.org. Archivado desde el original el 8 de junio de 2009 . Consultado el 10 de noviembre de 2009 .
^ "BBC Learning - Open Lab - Referencia". BBC. Archivado desde el original el 25 de agosto de 2009 . Consultado el 10 de noviembre de 2009 . Dbpedia es una versión de base de datos de Wikipedia. Se utiliza en muchos proyectos por una amplia gama de razones diferentes. En la BBC lo utilizamos para etiquetar contenido.
^ "Etiquetado semántico con Faviki". readwriteweb.com. Archivado desde el original el 29 de enero de 2010.
^ David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer y Chris Welty "Construyendo Watson: una descripción general de el Proyecto DeepQA." Archivado el 6 de noviembre de 2020 en Wayback Machine en la revista AI de otoño de 2010. Asociación para el Avance de la Inteligencia Artificial (AAAI).
^ "Comunidad de desarrolladores de servicios web de Amazon: DBpedia". desarrollador.amazonwebservices.com. Archivado desde el original el 13 de febrero de 2010 . Consultado el 10 de noviembre de 2009 .
^ Filipiak, Dominik; Filipowska, Agata (2 de diciembre de 2015). "DBpedia en el mercado del arte". Talleres de Sistemas de Información Empresarial . Apuntes de conferencias sobre procesamiento de información empresarial. vol. 228, págs. 321–331. doi :10.1007/978-3-319-26762-3_28. ISBN 978-3-319-26761-6.
^ "GATE.ac.uk - aplicaciones/yodie.html". gate.ac.uk. _ Consultado el 11 de mayo de 2020 .
^ "ushahidi / camaradas de plataforma". GitHub . 30 de junio de 2019 . Consultado el 9 de marzo de 2020 .
^ Mendes, Pablo. "Complemento jQuery de DBpedia Spotlight". Complementos de jQuery . Archivado desde el original el 3 de abril de 2011 . Consultado el 15 de septiembre de 2011 .
^ DiCiuccio, Rob (25 de septiembre de 2016). "Cliente PHP para DBpedia Spotlight". GitHub .
^ "Demostración de DBpedia Spotlight" . Consultado el 8 de septiembre de 2013 .
^ "Internacionalización de DBpedia Spotlight". GitHub . Consultado el 8 de septiembre de 2013 .
↑ «DBpedia Archivo» . Consultado el 8 de julio de 2021 .
^ Frey, Johannes; Streitmatter, Denis; Götz, Fabián; Hellmann, Sebastián; Arndt, Natanael (27 de octubre de 2020). "DBpedia Archivo: una interfaz a escala web para el archivo de ontologías bajo aspectos orientados al consumidor". En Sure-Vetter, York; Saco, Harald; Cudré-Mauroux, Philippe; Maleshkova, María; Pellegrini, Tassilo; Acosta, Maribel (eds.). Sistemas semánticos: el poder de la IA y los gráficos de conocimiento . Cham, Suiza: Springer. doi :10.1007/978-3-030-59833-4_2. ISBN 978-3-030-59832-7. S2CID 219939266. Descárgalo como PDF o ePUB.
^ Frey, Johannes; Streitmatter, Denis; Götz, Fabián; Hellmann, Sebastián; Arndt, Natanael (10 de septiembre de 2020). DBpedia Archivo: una interfaz a escala web para el archivo de ontologías bajo aspectos orientados al consumidor. Leipzig, Alemania: Institut für Angewandte Informatik (InfAI) . Consultado el 8 de julio de 2021 . Vídeo de YouTube 00:10:38.

enlaces externos

Wikimedia Commons tiene medios relacionados con DBpedia .

Página web oficial