Las bases de datos agnósticas de esquemas o independientes del vocabulario tienen como objetivo ayudar a los usuarios a abstraerse de la representación de los datos, lo que favorece la correspondencia semántica automática entre consultas y bases de datos . El agnosticismo de esquemas es la propiedad de una base de datos de mapear una consulta emitida con la terminología y la estructura del usuario, asignándola automáticamente al vocabulario del conjunto de datos.
El aumento del tamaño y de la heterogeneidad semántica de los esquemas de bases de datos genera nuevos requisitos para los usuarios que consultan y buscan datos estructurados . A esta escala, puede resultar inviable para los consumidores de datos familiarizarse con la representación de los datos para poder consultarlos. En el centro de este debate se encuentra la brecha semántica entre los usuarios y las bases de datos, que se vuelve más central a medida que aumenta la escala y la complejidad de los datos.
La evolución de los entornos de datos hacia el consumo de datos de múltiples fuentes de datos y el crecimiento del tamaño , la complejidad , la dinamicidad y la descentralización de los esquemas (SCoDD) [1] [2] [3] aumenta la complejidad de la gestión de datos contemporánea. La tendencia SCoDD surge como una preocupación central de la gestión de datos en escenarios de Big Data , donde los usuarios y las aplicaciones tienen una demanda de datos más completos, producidos por fuentes de datos independientes, bajo diferentes supuestos semánticos y contextos de uso, que es el escenario típico para las aplicaciones de datos de la Web Semántica .
La evolución de las bases de datos hacia entornos de datos heterogéneos tiene un fuerte impacto en la usabilidad, la semiótica y los supuestos semánticos que sustentan los métodos de accesibilidad de datos existentes, como las consultas estructuradas, la búsqueda basada en palabras clave y los sistemas de consulta visual. Con bases de datos sin esquema que contienen potencialmente millones de atributos que cambian dinámicamente, resulta inviable para algunos usuarios conocer el "esquema" o vocabulario para poder consultar la base de datos. A esta escala, el esfuerzo por comprender el esquema para crear una consulta estructurada puede resultar prohibitivo.
Las consultas independientes de esquemas pueden definirse como métodos de consulta sobre bases de datos estructuradas que permiten a los usuarios satisfacer necesidades de información complejas sin comprender la representación (esquema) de la base de datos. De manera similar, Tran et al. [4] las define como "métodos de búsqueda que no requieren que los usuarios conozcan el esquema subyacente a los datos". Métodos como la búsqueda basada en palabras clave sobre bases de datos permiten a los usuarios consultar bases de datos sin emplear consultas estructuradas. Sin embargo, como lo analiza Tran et al.: "A partir de estos puntos, los usuarios deben realizar una navegación y exploración adicionales para abordar necesidades de información complejas. A diferencia de la búsqueda por palabras clave que se utiliza en la Web, que se centra en necesidades simples, la búsqueda por palabras clave que se elabora aquí se utiliza para obtener resultados más complejos. En lugar de un único conjunto de recursos, el objetivo es calcular conjuntos complejos de recursos y sus relaciones".
El desarrollo de enfoques para soportar interfaces de lenguaje natural (NLI) sobre bases de datos ha apuntado hacia el objetivo de consultas agnósticas de esquema. Complementariamente, algunos enfoques basados en búsqueda de palabras clave han apuntado a consultas basadas en palabras clave que expresan necesidades de información más complejas. Otros enfoques han explorado la construcción de consultas estructuradas sobre bases de datos donde las restricciones de esquema pueden ser relajadas. Todos estos enfoques (lenguaje natural, búsqueda basada en palabras clave y consultas estructuradas) han apuntado a diferentes grados de sofisticación para abordar el problema de soportar una correspondencia semántica flexible entre consultas y datos, que varían desde la ausencia total de la preocupación semántica hasta modelos semánticos más basados en principios. Si bien la demanda de agnosticismo de esquema ha sido un requisito implícito en los sistemas de búsqueda semántica y consulta de lenguaje natural sobre datos estructurados, no está suficientemente individualizado como concepto y como requisito necesario para los sistemas de gestión de bases de datos contemporáneos. Trabajos recientes han comenzado a definir y modelar los aspectos semánticos involucrados en consultas agnósticas de esquema. [1] [5] [6]
Consisten en consultas independientes del esquema que siguen la sintaxis de un estándar estructurado (por ejemplo, SQL , SPARQL ). Se conserva la sintaxis y la semántica de los operadores, aunque se utilizan terminologías diferentes.
SELECCIONAR ?y { Bill Clinton tiene hija ?x . ?x casadoCon ?y .}
que se asigna a la siguiente consulta SPARQL en el vocabulario del conjunto de datos:
PREFIJO : <http://dbpedia.org/resource/> PREFIJO dbpedia2 : <http://dbpedia.org/property/> PREFIJO dbpedia : <http://dbpedia.org/ontology/> PREFIJO skos : <http://www.w3.org/2004/02/skos/core#> PREFIJO dbo : <http://dbpedia.org/ontology/>SELECCIONAR ?y { : Bill_Clinton dbpedia : hijo ?x . ?x dbpedia2 : cónyuge ?y . }
SELECCIONAR ?x { ?x es un libro . ?x de William_Goldman . ?x tiene_páginas ?p . FILTRO ( ?p > 300 ) }
que se asigna a la siguiente consulta SPARQL en el vocabulario del conjunto de datos:
PREFIJO rdf : <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIJO : <http://dbpedia.org/resource/> PREFIJO dbpedia2 : <http://dbpedia.org/property/> PREFIJO dbpedia : <http://dbpedia.org/ontology/> SELECCIONAR ?x { ?x rdf : tipo dbpedia : Libro . ?x dbpedia2 : autor : William_Goldman . ?x dbpedia : numeroDePáginas ?p . FILTRO ( ?p > 300 ) }
Consisten en consultas independientes del esquema que utilizan consultas de palabras clave. En este caso, la sintaxis y la semántica de los operadores son diferentes de la sintaxis de la consulta estructurada.
"La hija de Bill Clinton se casó con"
"Libros de William Goldman con más de 300 páginas"
A partir de 2016, el concepto de consultas agnósticas de esquema se ha desarrollado principalmente en el ámbito académico. La mayoría de los sistemas de consulta agnósticos de esquema se han investigado en el contexto de las interfaces de lenguaje natural sobre bases de datos o sobre la Web semántica . [7] Estos trabajos exploran la aplicación de técnicas de análisis semántico sobre bases de datos grandes, heterogéneas y sin esquema. Más recientemente, la individualización del concepto de sistemas de consulta y bases de datos agnósticos de esquema ha aparecido de forma más explícita en la literatura. [1] [5] [6] Freitas et al. [8] proporcionan un modelo probabilístico sobre la complejidad semántica del mapeo de consultas agnósticas de esquema.