Recuperación de XML

La recuperación XML , o recuperación de información XML , es la recuperación basada en contenido de documentos estructurados con XML (lenguaje de marcado extensible). Como tal, se utiliza para calcular la relevancia de los documentos XML. ^[1]

Consultas

La mayoría de los enfoques de recuperación XML se basan en técnicas del área de recuperación de información (IR), por ejemplo, calculando la similitud entre una consulta que consta de palabras clave (términos de consulta) y el documento. Sin embargo, en la recuperación XML, la consulta también puede contener sugerencias estructurales . Las llamadas consultas de "contenido y estructura" (CAS) permiten a los usuarios especificar qué estructura puede o debe tener el contenido solicitado.

Explotación de la estructura XML

Aprovechar la estructura autodescriptiva de los documentos XML puede mejorar significativamente la búsqueda de documentos XML. Esto incluye el uso de consultas CAS, la ponderación diferente de los distintos elementos XML y la recuperación enfocada de subdocumentos.

Categoría

La clasificación en la recuperación XML puede incorporar tanto la relevancia del contenido como la similitud estructural, que es la semejanza entre la estructura dada en la consulta y la estructura del documento. Además, las unidades de recuperación resultantes de una consulta XML pueden no ser siempre documentos completos, sino cualquier elemento XML profundamente anidado, es decir, documentos dinámicos. El objetivo es encontrar la unidad de recuperación más pequeña que sea altamente relevante. La relevancia se puede definir de acuerdo con la noción de especificidad, que es el grado en que una unidad de recuperación se centra en el tema de la solicitud. ^[2]

Motores de búsqueda XML existentes

Se encuentra disponible una descripción general de dos enfoques potenciales. ^[3]^[4] La Iniciativa para la Evaluación de la Recuperación de XML ( INEX ) se fundó en 2002 y proporciona una plataforma para evaluar dichos algoritmos . ^[2] Tres áreas diferentes influyen en la Recuperación de XML: ^[5]

Lenguajes de consulta XML tradicionales

Los lenguajes de consulta como el estándar XQuery del W3C ^[6] ofrecen consultas complejas, pero sólo buscan coincidencias exactas. Por lo tanto, es necesario ampliarlos para permitir una búsqueda imprecisa con cálculo de relevancia. La mayoría de los enfoques centrados en XML implican un conocimiento bastante exacto de los esquemas de los documentos . ^[7]

Bases de datos

Los sistemas de bases de datos clásicos han adoptado la posibilidad de almacenar datos semiestructurados ^[5] y han dado lugar al desarrollo de bases de datos XML . A menudo, son muy formales, se concentran más en la búsqueda que en la clasificación y son utilizadas por usuarios experimentados capaces de formular consultas complejas.

Recuperación de información

Los modelos clásicos de recuperación de información, como el modelo de espacio vectorial, proporcionan una clasificación por relevancia, pero no incluyen la estructura del documento; solo admiten consultas planas. Además, aplican un concepto de documento estático, por lo que las unidades de recuperación suelen ser documentos completos. ^[7] Se pueden ampliar para considerar la información estructural y la recuperación dinámica de documentos. Hay ejemplos de enfoques que extienden los modelos de espacio vectorial: utilizan subárboles de documentos (términos de índice más estructura) como dimensiones del espacio vectorial. ^[8]

Conjuntos de datos XML centrados en datos

Para los conjuntos de datos XML centrados en datos, el método de búsqueda de palabras clave único y distinto, es decir, XDMA ^[9] para bases de datos XML, está diseñado y desarrollado con base en la indexación dual y la suma mutua.

Véase también

Referencias

^ Winter, Judith; Drobnik, Oswald (9 de noviembre de 2007). "Una arquitectura para la recuperación de información XML en un entorno de igual a igual" (PDF) . ACM . Consultado el 10 de febrero de 2009 .
^ ab Malik, Saadia; Trotman, Andrew; Lalmas, Mounia; Fuhr, Norbert (2007). "Descripción general de INEX 2006" (PDF) . Actas del quinto taller de la Iniciativa para la evaluación de la recuperación de XML . Archivado desde el original (PDF) el 16 de octubre de 2008 . Consultado el 10 de febrero de 2009 .
^ Amer-Yahia, Sihem; Lalmas, Mounia (2006). "Búsqueda XML: idiomas, INEX y puntuación" (PDF) . SIGMOD Rec . 35 (4). doi :10.1145/1228268.1228271. S2CID 17300151. Consultado el 10 de febrero de 2009 . ^{[ enlace muerto ]}
^ Pal, Sukomal (30 de junio de 2006). "Recuperación de XML: una encuesta". CiteSeerX 10.1.1.109.5986 .
^ ab Fuhr, Norbert; Gövert, N.; Kazai, Gabriella; Lalmas, Mounia (2003). "INEX: Iniciativa para la evaluación de la recuperación de XML" (PDF) . Actas del primer taller INEX, Dagstuhl, Alemania, 2002. Actas del taller ERCIM, Francia. Archivado desde el original (PDF) el 21 de noviembre de 2008. Consultado el 10 de febrero de 2009 .
^ Boag, Scott; Chamberlín, Don; Fernández, María F.; Florescu, Daniela; Robie, Jonathan; Siméon, Jérôme (23 de enero de 2007). "XQuery 1.0: un lenguaje de consulta XML". Recomendación del W3C . Consorcio World Wide Web . Consultado el 10 de febrero de 2009 .
^ ab Schlieder, Torsten; Meuss, Holger (2002). "Consulta y clasificación de documentos XML". Revista de la Sociedad Estadounidense de Ciencias de la Información y Tecnología . 53 (6): 489–503. doi :10.1002/asi.10060. Archivado desde el original el 10 de junio de 2007. Consultado el 10 de febrero de 2009 .
^ Liu, Shaorong; Zou, Qinghua; Chu, Wesley W. (2004). "Indexación y clasificación configurables para la recuperación de información XML" (PDF) . SIGIR'04 . ACM . Consultado el 10 de febrero de 2009 .
^ Selvaganesan, S.; Haw, Su-Cheng; Soon, Lay-Ki (2014). "XDMA: Un algoritmo de búsqueda de palabras clave basado en suma mutua e indexación dual para bases de datos XML". Revista internacional de ingeniería de software e ingeniería del conocimiento . 24 (4): 591–615. doi :10.1142/s0218194014500223.