La recuperación XML , o recuperación de información XML , es la recuperación basada en contenido de documentos estructurados con XML (lenguaje de marcado extensible). Como tal, se utiliza para calcular la relevancia de los documentos XML. [1]
La mayoría de los enfoques de recuperación XML se basan en técnicas del área de recuperación de información (IR), por ejemplo, calculando la similitud entre una consulta que consta de palabras clave (términos de consulta) y el documento. Sin embargo, en la recuperación XML, la consulta también puede contener sugerencias estructurales . Las llamadas consultas de "contenido y estructura" (CAS) permiten a los usuarios especificar qué estructura puede o debe tener el contenido solicitado.
Aprovechar la estructura autodescriptiva de los documentos XML puede mejorar significativamente la búsqueda de documentos XML. Esto incluye el uso de consultas CAS, la ponderación diferente de los distintos elementos XML y la recuperación enfocada de subdocumentos.
La clasificación en la recuperación XML puede incorporar tanto la relevancia del contenido como la similitud estructural, que es la semejanza entre la estructura dada en la consulta y la estructura del documento. Además, las unidades de recuperación resultantes de una consulta XML pueden no ser siempre documentos completos, sino cualquier elemento XML profundamente anidado, es decir, documentos dinámicos. El objetivo es encontrar la unidad de recuperación más pequeña que sea altamente relevante. La relevancia se puede definir de acuerdo con la noción de especificidad, que es el grado en que una unidad de recuperación se centra en el tema de la solicitud. [2]
Se encuentra disponible una descripción general de dos enfoques potenciales. [3] [4] La Iniciativa para la Evaluación de la Recuperación de XML ( INEX ) se fundó en 2002 y proporciona una plataforma para evaluar dichos algoritmos . [2] Tres áreas diferentes influyen en la Recuperación de XML: [5]
Los lenguajes de consulta como el estándar XQuery del W3C [6] ofrecen consultas complejas, pero sólo buscan coincidencias exactas. Por lo tanto, es necesario ampliarlos para permitir una búsqueda imprecisa con cálculo de relevancia. La mayoría de los enfoques centrados en XML implican un conocimiento bastante exacto de los esquemas de los documentos . [7]
Los sistemas de bases de datos clásicos han adoptado la posibilidad de almacenar datos semiestructurados [5] y han dado lugar al desarrollo de bases de datos XML . A menudo, son muy formales, se concentran más en la búsqueda que en la clasificación y son utilizadas por usuarios experimentados capaces de formular consultas complejas.
Los modelos clásicos de recuperación de información, como el modelo de espacio vectorial, proporcionan una clasificación por relevancia, pero no incluyen la estructura del documento; solo admiten consultas planas. Además, aplican un concepto de documento estático, por lo que las unidades de recuperación suelen ser documentos completos. [7] Se pueden ampliar para considerar la información estructural y la recuperación dinámica de documentos. Hay ejemplos de enfoques que extienden los modelos de espacio vectorial: utilizan subárboles de documentos (términos de índice más estructura) como dimensiones del espacio vectorial. [8]
Para los conjuntos de datos XML centrados en datos, el método de búsqueda de palabras clave único y distinto, es decir, XDMA [9] para bases de datos XML, está diseñado y desarrollado con base en la indexación dual y la suma mutua.