Coincidencia de esquemas

Los términos coincidencia de esquemas y mapeo a menudo se usan indistintamente para un proceso de base de datos . Para este artículo, diferenciamos los dos de la siguiente manera: la coincidencia de esquemas es el proceso de identificar que dos objetos están relacionados semánticamente (alcance de este artículo), mientras que el mapeo se refiere a las transformaciones entre los objetos. Por ejemplo, en los dos esquemas DB1.Student (Nombre, SSN, Nivel, Especialidad, Calificaciones) y DB2.Grad-Student (Nombre, ID, Especialidad, Calificaciones); posibles coincidencias serían: DB1.Student ≈ DB2.Grad-Student; DB1.SSN = DB2.ID, etc. y las posibles transformaciones o asignaciones serían: DB1.Marks a DB2.Grades (100-90 A; 90-80 B: etc.).

Automatizar estos dos enfoques ha sido una de las tareas fundamentales de la integración de datos . En general, no es posible determinar de forma totalmente automática las diferentes correspondencias entre dos esquemas, principalmente debido a las semánticas diferentes y a menudo no explicadas o documentadas de los dos esquemas.

Impedimentos

Entre otros, los desafíos comunes para automatizar la comparación y el mapeo se han clasificado previamente en ^[1] , especialmente para esquemas de bases de datos relacionales; y en ^[2] , una lista bastante completa de heterogeneidad que no se limita al modelo relacional que reconoce diferencias/heterogeneidad esquemática versus semántica. La mayoría de estas heterogeneidades existen porque los esquemas utilizan diferentes representaciones o definiciones para representar la misma información (conflictos de esquemas); O diferentes expresiones, unidades y precisión dan como resultado representaciones contradictorias de los mismos datos (conflictos de datos). ^[1] La investigación en coincidencia de esquemas busca brindar soporte automatizado al proceso de búsqueda de coincidencias semánticas entre dos esquemas. Este proceso se vuelve más difícil debido a las heterogeneidades en los siguientes niveles ^[3]

Heterogeneidad sintáctica: diferencias en el lenguaje utilizado para representar los elementos.
Heterogeneidad estructural: diferencias en los tipos y estructuras de los elementos.
Modelo/heterogeneidad representacional: diferencias en los modelos subyacentes (base de datos, ontologías) o sus representaciones (pares clave-valor, relacionales, documentos, XML, JSON, triples, gráficos, RDF, OWL)
Heterogeneidad semántica : donde la misma entidad del mundo real se representa utilizando términos diferentes o viceversa.

Coincidencia de esquemas

^[4]^[5]^[6]^[7]^[8]

Metodología

Analiza una metodología genérica para la tarea de integración de esquemas o las actividades involucradas. ^[5] Según los autores, se puede ver la integración.

Preintegración: se lleva a cabo un análisis de los esquemas antes de la integración para decidir alguna política de integración. Esto gobierna la elección de los esquemas a integrar, el orden de integración y una posible asignación de preferencias a esquemas completos o partes de esquemas.
Comparación de esquemas: los esquemas se analizan y comparan para determinar las correspondencias entre conceptos y detectar posibles conflictos. Las propiedades entre esquemas se pueden descubrir al comparar esquemas.
Conformidad de los esquemas: una vez que se detectan conflictos, se hace un esfuerzo por resolverlos para que sea posible la fusión de varios esquemas.
Fusión y reestructuración: ahora los esquemas están listos para superponerse, dando lugar a algunos esquemas integrados intermedios. Los resultados intermedios se analizan y, si es necesario, se reestructuran para lograr varias cualidades deseables.

Enfoques

Los enfoques para la integración de esquemas se pueden clasificar en términos generales como aquellos que explotan solo información del esquema o información a nivel de esquema e instancia. ^[4]^[5]

Los comparadores a nivel de esquema solo consideran la información del esquema, no los datos de la instancia. La información disponible incluye las propiedades habituales de los elementos del esquema, como nombre, descripción, tipo de datos, tipos de relación (parte de, es-a, etc.), restricciones y estructura del esquema. Trabajando a nivel de elemento (elementos atómicos como atributos de objetos) o de estructura (combinaciones coincidentes de elementos que aparecen juntos en una estructura), estas propiedades se utilizan para identificar elementos coincidentes en dos esquemas. Los comparadores lingüísticos o basados en el lenguaje utilizan nombres y texto (es decir, palabras u oraciones) para encontrar elementos de esquema semánticamente similares. Los comparadores basados en restricciones explotan las restricciones que a menudo están contenidas en los esquemas. Estas restricciones se utilizan para definir tipos de datos y rangos de valores, unicidad, opcionalidad, tipos de relación y cardinalidades, etc. Las restricciones en dos esquemas de entrada se combinan para determinar la similitud de los elementos del esquema.

Los comparadores a nivel de instancia utilizan datos a nivel de instancia para recopilar información importante sobre el contenido y el significado de los elementos del esquema. Por lo general, se utilizan además de las coincidencias a nivel de esquema para aumentar la confianza en los resultados de las coincidencias, más aún cuando la información disponible a nivel de esquema es insuficiente. Los comparadores en este nivel utilizan una caracterización de instancias basada en restricciones y lingüística. Por ejemplo, utilizando técnicas lingüísticas, podría ser posible observar las instancias Dept, DeptName y EmpName para concluir que DeptName es un mejor candidato para Dept que EmpName. Restricciones como los códigos postales deben tener 5 dígitos o el formato de los números de teléfono puede permitir la coincidencia de este tipo de datos de instancia. ^[9]

Los comparadores híbridos combinan directamente varios enfoques de comparación para determinar candidatos coincidentes en función de múltiples criterios o fuentes de información. La mayoría de estas técnicas también emplean información adicional, como diccionarios, tesauros e información de coincidencias o discrepancias proporcionada por el usuario ^[10].

Reutilización de información de emparejamiento Otra iniciativa ha sido reutilizar información de emparejamiento anterior como información auxiliar para futuras tareas de emparejamiento. La motivación para este trabajo es que las estructuras o subestructuras a menudo se repiten, por ejemplo en esquemas en el dominio del comercio electrónico. Sin embargo, esta reutilización de partidos anteriores debe ser una elección cuidadosa. Es posible que dicha reutilización tenga sentido sólo para alguna parte de un nuevo esquema o sólo en algunos dominios. Por ejemplo, el salario y los ingresos pueden considerarse idénticos en una solicitud de nómina pero no en una solicitud de declaración de impuestos. Hay varios desafíos abiertos en dicha reutilización que merecen más trabajo.

Prototipos de muestra Normalmente, la implementación de dichas técnicas de emparejamiento se puede clasificar como sistemas basados en reglas o sistemas basados en el alumno. La naturaleza complementaria de estos diferentes enfoques ha dado lugar a una serie de aplicaciones que utilizan una combinación de técnicas dependiendo de la naturaleza del dominio o aplicación bajo consideración. ^[4]^[5]

Relaciones identificadas

Los tipos de relación entre objetos que se identifican al final de un proceso de comparación suelen ser aquellos con una semántica establecida, como superposición, desunión, exclusión, equivalencia o subsunción. Las codificaciones lógicas de estas relaciones son lo que significan. Entre otros, se presentó un primer intento de utilizar lógicas de descripción para la integración de esquemas y la identificación de dichas relaciones. ^[11] Varias herramientas de coincidencia de última generación en la actualidad ^[4]^[7] y aquellas evaluadas en la Iniciativa de Evaluación de Alineación de Ontologías ^[12] son capaces de identificar muchos de estos elementos simples (1:1 / 1:n / n:1). coincidencias) y coincidencias complejas (n:1 / n:m coincidencias de nivel de elemento o estructura) entre objetos.

Evaluación de calidad

La calidad de la coincidencia de esquemas se mide comúnmente mediante la precisión y la recuperación . Mientras que la precisión mide el número de pares correctamente emparejados de todos los pares que fueron emparejados, el recuerdo mide cuántos de los pares reales se han emparejado.

Ver también

Referencias

^ ab Kim, W. y Seo, J. (diciembre de 1991). "Clasificación de la heterogeneidad de datos y esquemas en sistemas de bases de datos múltiples". Computadora 24, 12 .
^ Sheth, AP y Kashyap, V. (1993). "Hasta ahora (esquemáticamente) pero tan cerca (semánticamente)". En actas de la conferencia sobre semántica de bases de datos IFIP WG 2.6 sobre sistemas de bases de datos interoperables .
^ Sheth, AP (1999). "Cambiar el enfoque en la interoperabilidad en los sistemas de información: del sistema, la sintaxis, la estructura a la semántica". En Interoperación de Sistemas de Información Geográfica. MF Goodchild, MJ Egenhofer, R. Fegeas y CA Kottman (eds.), Kluwer, Academic Publishers .
^ abcd Rahm, E. y Bernstein, P (2001). "Un estudio de enfoques para la coincidencia automática de esquemas". La revista VLDB 10, 4 .
^ abcd Batini, C., Lenzerini, M. y Navathe, SB (1986). "Un análisis comparativo de metodologías para la integración de esquemas de bases de datos". Computación ACM. Sobrevivir. 18, 4 .{{cite conference}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ Doan, A. y Halevy, A. (2005). "Investigación de integración semántica en la comunidad de bases de datos". Revista AI. 26, 1 .
^ ab Kalfoglou, Y. y Schorlemmer, M. (2003). "Mapeo de ontologías: el estado del arte". Conocimiento. Ing. Apocalipsis 18, 1 .
^ Choi, N., Song, I. y Han, H. (2006). "Una encuesta sobre mapeo de ontologías". Rec. SIGMOD. 35, 3 .{{cite conference}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ Pereira Nunes, Bernardo; Mera, Alejandro; Casanova, Marco Antonio; P. Paes Leme, Luis André; Dietze, Stefan (2013). "Coincidencia compleja de propiedades de tipo de datos RDF". Aplicaciones de bases de datos y sistemas expertos . Apuntes de conferencias sobre informática. vol. 8055, págs. 195-208. doi :10.1007/978-3-642-40285-2_18. ISBN 978-3-642-40284-5.
^ Hamdaqa, Mahoma; Tahvildari, Ladan (2014). "Prison Break: una solución genérica de coincidencia de esquemas para el problema de bloqueo de proveedores en la nube". 2014 Octavo Simposio Internacional de IEEE sobre el mantenimiento y la evolución de sistemas orientados a servicios y basados en la nube . págs. 37–46. doi :10.1109/MESOCA.2014.13. ISBN 978-1-4799-6152-8. S2CID 14499875.
^ Ashoka Savasere; Amit P. Sheth; Sunit K. Gala; Shamkant B. Navathe; H. Markús (1993). "Sobre la aplicación de la clasificación a la integración de esquemas". RIDE-IMS .
^ Iniciativa de evaluación de alineación de ontologías :: 2006

enlaces externos

Trabajo inicial en coincidencia de esquemas