En metadatos , el descubrimiento de metadatos (también llamado recolección de metadatos ) es el proceso de utilizar herramientas automatizadas para descubrir la semántica de un elemento de datos en conjuntos de datos. Este proceso generalmente finaliza con un conjunto de asignaciones entre los elementos de la fuente de datos y un registro de metadatos centralizado . El descubrimiento de metadatos también se conoce como escaneo de metadatos.
Formatos de fuentes de datos para el descubrimiento de metadatos
Los conjuntos de datos pueden presentarse en distintas formas, entre ellas:
- Bases de datos relacionales
- Bases de datos NoSQL
- Hojas de cálculo
- Archivos XML
- Servicios web
- Código fuente de software como Fortran, Jovial, COBOL, Assembler, RPG, PL/1, EasyTrieve, Java, clases C# o C++ y miles de otros lenguajes de software
- Documentos de texto no estructurados, como archivos de Microsoft Word o PDF
Una taxonomía de algoritmos de comparación de metadatos
Existen distintas categorías de descubrimiento automatizado de metadatos:
Correspondencia léxica
- Coincidencia exacta : los vínculos entre elementos de datos se realizan en función del nombre exacto de una columna de una base de datos, el nombre de un elemento XML o una etiqueta en una pantalla. Por ejemplo, si una columna de una base de datos tiene el nombre "PersonBirthDate" y un elemento de datos en un registro de metadatos también tiene el nombre "PersonBirthDate", las herramientas automatizadas pueden inferir que la columna de una base de datos tiene la misma semántica (significado) que el elemento de datos en el registro de metadatos.
- Coincidencia de sinónimos : donde a la herramienta de descubrimiento no solo se le asigna un único nombre sino un conjunto de sinónimos.
- Coincidencia de patrones : en este caso, las herramientas reciben un conjunto de patrones léxicos que pueden coincidir. Por ejemplo, las herramientas pueden buscar "*género*" o "*sexo*".
Coincidencia semántica
La coincidencia semántica intenta utilizar la semántica para asociar datos de destino con elementos de datos registrados .
- Similitud semántica : en este algoritmo se utiliza una base de datos de proximidad conceptual de las palabras. Por ejemplo, el sistema WordNet puede clasificar la proximidad conceptual entre las palabras. Por ejemplo, los términos "Persona", "Individuo" y "Humano" pueden ser conceptos muy similares.
Correspondencia estadística
La correspondencia estadística utiliza estadísticas sobre las fuentes de datos en sí para derivar similitudes con los elementos de datos registrados.
- Análisis de valores distintos : al analizar todos los valores distintos de una columna, se puede determinar la similitud con un elemento de datos registrado. Por ejemplo, si una columna solo tiene dos valores distintos, "masculino" y "femenino", esto se podría asignar a "PersonGenderCode".
- Análisis de distribución de datos : al analizar la distribución de valores dentro de una sola columna y comparar esta distribución con elementos de datos conocidos, se podría inferir un vínculo semántico.
Vendedores
Los siguientes proveedores (enumerados en orden alfabético) proporcionan software y soluciones de descubrimiento y mapeo de metadatos.
- Atlan (ver [1])
- BigHand/Esquire Innovations (ver [2])
- IBM
- Imperva
- Talend
- Corporación InfoLibrarian (ver [3])
- Aplicación de base de datos de metadatos MindHARBOR (ver [4])
- Octopai: una automatización de la gestión y el descubrimiento de metadatos multiplataforma (consulte [5])
- OvalEdge (ver [6])
- Revelytix (ver [7])
- Sistemas de Silver Creek (ver [8])
- Stratio (ver La fiabilidad de los datos es la base del éxito de las empresas)
- Sypherlink: Cosechador (ver [9])
- Sistemas Unicorn (ver [10])
Investigación
Véase también
Referencias
Citas
- ^ Devarakonda, R., Palanisamy, G., Wilson, B. y Green, J. (2010), "Mercury: sistema de acceso, descubrimiento y gestión de metadatos reutilizables", Earth Science Informatics , 3 (1), Springer Berlin / Heidelberg: 87–94, Bibcode :2010ESIn....3...87D, doi :10.1007/s12145-010-0050-7, S2CID 27597035
{{citation}}
: CS1 maint: varios nombres: lista de autores ( enlace )
Fuentes
- Sistemas de análisis de datos masivos del Centro de Supercomputación de San Diego, junio de 1997
- Documento técnico de IBM sobre descubrimiento de metadatos empresariales
- Libro blanco sobre la gestión de metadatos, de Esquire Innovations