Coincidencia de esquemas

Los términos coincidencia de esquemas y mapeo se utilizan a menudo indistintamente para un proceso de base de datos . Para este artículo, diferenciamos los dos de la siguiente manera: la coincidencia de esquemas es el proceso de identificar que dos objetos están relacionados semánticamente (alcance de este artículo) mientras que el mapeo se refiere a las transformaciones entre los objetos. Por ejemplo, en los dos esquemas DB1.Student (Name, SSN, Level, Major, Marks) y DB2.Grad-Student (Name, ID, Major, Grades); las posibles coincidencias serían: DB1.Student ≈ DB2.Grad-Student; DB1.SSN = DB2.ID etc. y las posibles transformaciones o mapeos serían: DB1.Marks a DB2.Grades (100–90 A; 90–80 B: etc.).

La automatización de estos dos enfoques ha sido una de las tareas fundamentales de la integración de datos . En general, no es posible determinar de forma totalmente automática las diferentes correspondencias entre dos esquemas, principalmente debido a la semántica diferente y a menudo no explicada o documentada de los dos esquemas.

Obedimentos

Entre otros, los desafíos comunes para automatizar la correspondencia y el mapeo se han clasificado previamente en ^[1] , especialmente para los esquemas de bases de datos relacionales; y en ^[2] , una lista bastante completa de heterogeneidad que no se limita al modelo relacional que reconoce las diferencias/heterogeneidad esquemáticas frente a las semánticas. La mayoría de estas heterogeneidades existen porque los esquemas utilizan diferentes representaciones o definiciones para representar la misma información (conflictos de esquemas); O diferentes expresiones, unidades y precisión dan como resultado representaciones conflictivas de los mismos datos (conflictos de datos). ^[1] La investigación en correspondencia de esquemas busca proporcionar soporte automatizado al proceso de búsqueda de coincidencias semánticas entre dos esquemas. Este proceso se vuelve más difícil debido a las heterogeneidades en los siguientes niveles ^[3]

Heterogeneidad sintáctica: diferencias en el lenguaje utilizado para representar los elementos.
Heterogeneidad estructural: diferencias en los tipos y estructuras de los elementos.
Heterogeneidad de modelos/representación: diferencias en los modelos subyacentes (bases de datos, ontologías) o sus representaciones (pares clave-valor, relacionales, documentos, XML, JSON, triples, gráficos, RDF, OWL)
Heterogeneidad semántica : cuando la misma entidad del mundo real se representa utilizando términos diferentes o viceversa

Coincidencia de esquemas

^[4]^[5]^[6]^[7]^[8]

Metodología

Se analiza una metodología genérica para la tarea de integración de esquemas o las actividades involucradas. ^[5] Según los autores, se puede ver la integración.

Preintegración: se lleva a cabo un análisis de los esquemas antes de la integración para decidir sobre alguna política de integración. Esto rige la elección de los esquemas que se integrarán, el orden de integración y una posible asignación de preferencias a esquemas completos o partes de esquemas.
Comparación de esquemas: los esquemas se analizan y comparan para determinar las correspondencias entre conceptos y detectar posibles conflictos. Al comparar esquemas, se pueden descubrir propiedades entre esquemas.
Conformidad de esquemas — Una vez detectados los conflictos, se hace un esfuerzo para resolverlos de manera que sea posible la fusión de varios esquemas.
Fusión y reestructuración: ahora los esquemas están listos para superponerse, dando lugar a algunos esquemas integrados intermedios. Los resultados intermedios se analizan y, si es necesario, se reestructuran para lograr varias cualidades deseables.

Aproches

Los enfoques para la integración de esquemas se pueden clasificar en términos generales como aquellos que explotan solo la información del esquema o la información a nivel de esquema e instancia. ^[4]^[5]

Los comparadores a nivel de esquema solo consideran la información del esquema, no los datos de instancia. La información disponible incluye las propiedades habituales de los elementos del esquema, como nombre, descripción, tipo de datos, tipos de relación (parte de, es un, etc.), restricciones y estructura del esquema. Al trabajar a nivel de elemento (elementos atómicos como atributos de objetos) o de estructura (combinaciones coincidentes de elementos que aparecen juntos en una estructura), estas propiedades se utilizan para identificar elementos coincidentes en dos esquemas. Los comparadores lingüísticos o basados en lenguaje utilizan nombres y texto (es decir, palabras u oraciones) para encontrar elementos de esquema semánticamente similares. Los comparadores basados en restricciones explotan las restricciones que a menudo contienen los esquemas. Dichas restricciones se utilizan para definir tipos de datos y rangos de valores, unicidad, opcionalidad, tipos de relación y cardinalidades, etc. Las restricciones en dos esquemas de entrada se comparan para determinar la similitud de los elementos del esquema.

Los comparadores a nivel de instancia utilizan datos a nivel de instancia para recopilar información importante sobre el contenido y el significado de los elementos del esquema. Por lo general, se utilizan además de las coincidencias a nivel de esquema para aumentar la confianza en los resultados de las coincidencias, más aún cuando la información disponible a nivel de esquema es insuficiente. Los comparadores a este nivel utilizan la caracterización lingüística y basada en restricciones de las instancias. Por ejemplo, utilizando técnicas lingüísticas, podría ser posible observar las instancias Dept, DeptName y EmpName para concluir que DeptName es un mejor candidato para la coincidencia de Dept que EmpName. Las restricciones como que los códigos postales deben tener 5 dígitos o el formato de los números de teléfono pueden permitir la coincidencia de este tipo de datos de instancia. ^[9]

Los comparadores híbridos combinan directamente varios métodos de comparación para determinar candidatos a la coincidencia en función de múltiples criterios o fuentes de información. La mayoría de estas técnicas también emplean información adicional, como diccionarios, tesauros e información de coincidencia o desajuste proporcionada por el usuario ^[10].

Reutilización de la información de coincidencia Otra iniciativa ha sido la de reutilizar la información de coincidencia anterior como información auxiliar para futuras tareas de coincidencia. La motivación de este trabajo es que las estructuras o subestructuras a menudo se repiten, por ejemplo en esquemas del dominio del comercio electrónico. Sin embargo, esta reutilización de coincidencias anteriores debe ser una elección cuidadosa. Es posible que dicha reutilización tenga sentido solo para alguna parte de un nuevo esquema o solo en algunos dominios. Por ejemplo, el salario y los ingresos pueden considerarse idénticos en una aplicación de nóminas, pero no en una aplicación de informes fiscales. Existen varios desafíos abiertos en dicha reutilización que merecen más trabajo.

Prototipos de muestra Por lo general, la implementación de estas técnicas de emparejamiento se puede clasificar como sistemas basados en reglas o basados en el aprendizaje. La naturaleza complementaria de estos diferentes enfoques ha dado lugar a una serie de aplicaciones que utilizan una combinación de técnicas según la naturaleza del dominio o la aplicación en cuestión. ^[4]^[5]

Relaciones identificadas

Los tipos de relaciones entre objetos que se identifican al final de un proceso de comparación son típicamente aquellos con semántica establecida como superposición, disyunción, exclusión, equivalencia o subsunción. Las codificaciones lógicas de estas relaciones son lo que significan. Entre otros, se presentó un intento temprano de usar lógicas de descripción para la integración de esquemas e identificar tales relaciones. ^[11] Varias herramientas de comparación de última generación en la actualidad ^[4]^[7] y aquellas evaluadas en la Iniciativa de Evaluación de Alineación de Ontología ^[12] son capaces de identificar muchas de estas coincidencias simples (coincidencias a nivel de elemento 1:1 / 1:n / n:1) y complejas (coincidencias a nivel de elemento o estructura n:1 / n:m) entre objetos.

Evaluación de la calidad

La calidad de la correspondencia de esquemas se mide comúnmente por la precisión y la recuperación . Mientras que la precisión mide la cantidad de pares correctamente emparejados de todos los pares emparejados, la recuperación mide cuántos de los pares reales han sido emparejados.

Véase también

Referencias

^ ab Kim, W. y Seo, J. (diciembre de 1991). "Clasificación de la heterogeneidad esquemática y de datos en sistemas multibase de datos". Computer 24, 12 .
^ Sheth, AP y Kashyap, V. (1993). "So Far (Schematically) yet So Near (Semantically)" (Hasta ahora (esquemáticamente) pero tan cerca (semánticamente)). En Actas de la Conferencia de semántica de bases de datos del grupo de trabajo 2.6 de la IFIP sobre sistemas de bases de datos interoperables .
^ Sheth, AP (1999). "Cambio de enfoque en la interoperabilidad en los sistemas de información: desde el sistema, la sintaxis y la estructura hasta la semántica". En Interoperating Geographic Information Systems. MF Goodchild, MJ Egenhofer, R. Fegeas y CA Kottman (eds.), Kluwer, Academic Publishers .
^ abcd Rahm, E. y Bernstein, P (2001). "Un estudio de los enfoques para la correspondencia automática de esquemas". The VLDB Journal 10, 4 .
^ abcd Batini, C., Lenzerini, M. y Navathe, SB (1986). "Un análisis comparativo de metodologías para la integración de esquemas de bases de datos". ACM Comput. Surv. 18, 4 .{{cite conference}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Doan, A. y Halevy, A. (2005). "Investigación de integración semántica en la comunidad de bases de datos". AI Mag. 26, 1 .
^ ab Kalfoglou, Y. y Schorlemmer, M. (2003). "Mapeo de ontologías: el estado del arte". Knowl. Eng. Rev. 18, 1 .
^ Choi, N., Song, I. y Han, H. (2006). "Una encuesta sobre mapeo de ontologías". SIGMOD Rec. 35, 3 .{{cite conference}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Pereira Nunes, Bernardo; Mera, Alexander; Casanova, Marco Antonio; P. Paes Leme, Luis Andre; Dietze, Stefan (2013). "Complex Matching of RDF Datatype Properties". Aplicaciones de bases de datos y sistemas expertos . Apuntes de clase en informática. Vol. 8055. págs. 195–208. doi :10.1007/978-3-642-40285-2_18. ISBN 978-3-642-40284-5.
^ Hamdaqa, Mohammad; Tahvildari, Ladan (2014). "Prison Break: una solución de coincidencia de esquemas genéricos para el problema de dependencia de proveedores de la nube". 2014 IEEE 8th International Symposium on the Maintenance and Evolution of Service-Oriented and Cloud-Based Systems . págs. 37–46. doi :10.1109/MESOCA.2014.13. ISBN 978-1-4799-6152-8.S2CID14499875 .
^ Ashoka Savasere; Amit P. Sheth; Sunit K. Gala; Shamkant B. Navathe; H. Markus (1993). "Sobre la aplicación de la clasificación a la integración de esquemas". RIDE-IMS .
^ Iniciativa de evaluación de la alineación de ontologías::2006

Enlaces externos

Trabajos iniciales en comparación de esquemas