Los términos coincidencia de esquemas y mapeo se utilizan a menudo indistintamente para un proceso de base de datos . Para este artículo, diferenciamos los dos de la siguiente manera: la coincidencia de esquemas es el proceso de identificar que dos objetos están relacionados semánticamente (alcance de este artículo) mientras que el mapeo se refiere a las transformaciones entre los objetos. Por ejemplo, en los dos esquemas DB1.Student (Name, SSN, Level, Major, Marks) y DB2.Grad-Student (Name, ID, Major, Grades); las posibles coincidencias serían: DB1.Student ≈ DB2.Grad-Student; DB1.SSN = DB2.ID etc. y las posibles transformaciones o mapeos serían: DB1.Marks a DB2.Grades (100–90 A; 90–80 B: etc.).
La automatización de estos dos enfoques ha sido una de las tareas fundamentales de la integración de datos . En general, no es posible determinar de forma totalmente automática las diferentes correspondencias entre dos esquemas, principalmente debido a la semántica diferente y a menudo no explicada o documentada de los dos esquemas.
Entre otros, los desafíos comunes para automatizar la correspondencia y el mapeo se han clasificado previamente en [1] , especialmente para los esquemas de bases de datos relacionales; y en [2] , una lista bastante completa de heterogeneidad que no se limita al modelo relacional que reconoce las diferencias/heterogeneidad esquemáticas frente a las semánticas. La mayoría de estas heterogeneidades existen porque los esquemas utilizan diferentes representaciones o definiciones para representar la misma información (conflictos de esquemas); O diferentes expresiones, unidades y precisión dan como resultado representaciones conflictivas de los mismos datos (conflictos de datos). [1] La investigación en correspondencia de esquemas busca proporcionar soporte automatizado al proceso de búsqueda de coincidencias semánticas entre dos esquemas. Este proceso se vuelve más difícil debido a las heterogeneidades en los siguientes niveles [3]
[4] [5] [6] [7] [8]
Se analiza una metodología genérica para la tarea de integración de esquemas o las actividades involucradas. [5] Según los autores, se puede ver la integración.
Los enfoques para la integración de esquemas se pueden clasificar en términos generales como aquellos que explotan solo la información del esquema o la información a nivel de esquema e instancia. [4] [5]
Los comparadores a nivel de esquema solo consideran la información del esquema, no los datos de instancia. La información disponible incluye las propiedades habituales de los elementos del esquema, como nombre, descripción, tipo de datos, tipos de relación (parte de, es un, etc.), restricciones y estructura del esquema. Al trabajar a nivel de elemento (elementos atómicos como atributos de objetos) o de estructura (combinaciones coincidentes de elementos que aparecen juntos en una estructura), estas propiedades se utilizan para identificar elementos coincidentes en dos esquemas. Los comparadores lingüísticos o basados en lenguaje utilizan nombres y texto (es decir, palabras u oraciones) para encontrar elementos de esquema semánticamente similares. Los comparadores basados en restricciones explotan las restricciones que a menudo contienen los esquemas. Dichas restricciones se utilizan para definir tipos de datos y rangos de valores, unicidad, opcionalidad, tipos de relación y cardinalidades, etc. Las restricciones en dos esquemas de entrada se comparan para determinar la similitud de los elementos del esquema.
Los comparadores a nivel de instancia utilizan datos a nivel de instancia para recopilar información importante sobre el contenido y el significado de los elementos del esquema. Por lo general, se utilizan además de las coincidencias a nivel de esquema para aumentar la confianza en los resultados de las coincidencias, más aún cuando la información disponible a nivel de esquema es insuficiente. Los comparadores a este nivel utilizan la caracterización lingüística y basada en restricciones de las instancias. Por ejemplo, utilizando técnicas lingüísticas, podría ser posible observar las instancias Dept, DeptName y EmpName para concluir que DeptName es un mejor candidato para la coincidencia de Dept que EmpName. Las restricciones como que los códigos postales deben tener 5 dígitos o el formato de los números de teléfono pueden permitir la coincidencia de este tipo de datos de instancia. [9]
Los comparadores híbridos combinan directamente varios métodos de comparación para determinar candidatos a la coincidencia en función de múltiples criterios o fuentes de información. La mayoría de estas técnicas también emplean información adicional, como diccionarios, tesauros e información de coincidencia o desajuste proporcionada por el usuario [10].
Reutilización de la información de coincidencia Otra iniciativa ha sido la de reutilizar la información de coincidencia anterior como información auxiliar para futuras tareas de coincidencia. La motivación de este trabajo es que las estructuras o subestructuras a menudo se repiten, por ejemplo en esquemas del dominio del comercio electrónico. Sin embargo, esta reutilización de coincidencias anteriores debe ser una elección cuidadosa. Es posible que dicha reutilización tenga sentido solo para alguna parte de un nuevo esquema o solo en algunos dominios. Por ejemplo, el salario y los ingresos pueden considerarse idénticos en una aplicación de nóminas, pero no en una aplicación de informes fiscales. Existen varios desafíos abiertos en dicha reutilización que merecen más trabajo.
Prototipos de muestra Por lo general, la implementación de estas técnicas de emparejamiento se puede clasificar como sistemas basados en reglas o basados en el aprendizaje. La naturaleza complementaria de estos diferentes enfoques ha dado lugar a una serie de aplicaciones que utilizan una combinación de técnicas según la naturaleza del dominio o la aplicación en cuestión. [4] [5]
Los tipos de relaciones entre objetos que se identifican al final de un proceso de comparación son típicamente aquellos con semántica establecida como superposición, disyunción, exclusión, equivalencia o subsunción. Las codificaciones lógicas de estas relaciones son lo que significan. Entre otros, se presentó un intento temprano de usar lógicas de descripción para la integración de esquemas e identificar tales relaciones. [11] Varias herramientas de comparación de última generación en la actualidad [4] [7] y aquellas evaluadas en la Iniciativa de Evaluación de Alineación de Ontología [12] son capaces de identificar muchas de estas coincidencias simples (coincidencias a nivel de elemento 1:1 / 1:n / n:1) y complejas (coincidencias a nivel de elemento o estructura n:1 / n:m) entre objetos.
La calidad de la correspondencia de esquemas se mide comúnmente por la precisión y la recuperación . Mientras que la precisión mide la cantidad de pares correctamente emparejados de todos los pares emparejados, la recuperación mide cuántos de los pares reales han sido emparejados.
{{cite conference}}
: CS1 maint: varios nombres: lista de autores ( enlace ){{cite conference}}
: CS1 maint: varios nombres: lista de autores ( enlace )