stringtranslate.com

Descubrimiento de metadatos

En metadatos , el descubrimiento de metadatos (también llamado recolección de metadatos ) es el proceso de utilizar herramientas automatizadas para descubrir la semántica de un elemento de datos en conjuntos de datos. Este proceso generalmente finaliza con un conjunto de asignaciones entre los elementos de la fuente de datos y un registro de metadatos centralizado . El descubrimiento de metadatos también se conoce como escaneo de metadatos.

Formatos de fuentes de datos para el descubrimiento de metadatos

Los conjuntos de datos pueden presentarse en distintas formas, entre ellas:

  1. Bases de datos relacionales
  2. Bases de datos NoSQL
  3. Hojas de cálculo
  4. Archivos XML
  5. Servicios web
  6. Código fuente de software como Fortran, Jovial, COBOL, Assembler, RPG, PL/1, EasyTrieve, Java, clases C# o C++ y miles de otros lenguajes de software
  7. Documentos de texto no estructurados, como archivos de Microsoft Word o PDF

Una taxonomía de algoritmos de comparación de metadatos

Existen distintas categorías de descubrimiento automatizado de metadatos:

Correspondencia léxica

  1. Coincidencia exacta : los vínculos entre elementos de datos se realizan en función del nombre exacto de una columna de una base de datos, el nombre de un elemento XML o una etiqueta en una pantalla. Por ejemplo, si una columna de una base de datos tiene el nombre "PersonBirthDate" y un elemento de datos en un registro de metadatos también tiene el nombre "PersonBirthDate", las herramientas automatizadas pueden inferir que la columna de una base de datos tiene la misma semántica (significado) que el elemento de datos en el registro de metadatos.
  2. Coincidencia de sinónimos : donde a la herramienta de descubrimiento no solo se le asigna un único nombre sino un conjunto de sinónimos.
  3. Coincidencia de patrones : en este caso, las herramientas reciben un conjunto de patrones léxicos que pueden coincidir. Por ejemplo, las herramientas pueden buscar "*género*" o "*sexo*".

Coincidencia semántica

La coincidencia semántica intenta utilizar la semántica para asociar datos de destino con elementos de datos registrados .

  1. Similitud semántica : en este algoritmo se utiliza una base de datos de proximidad conceptual de las palabras. Por ejemplo, el sistema WordNet puede clasificar la proximidad conceptual entre las palabras. Por ejemplo, los términos "Persona", "Individuo" y "Humano" pueden ser conceptos muy similares.

Correspondencia estadística

La correspondencia estadística utiliza estadísticas sobre las fuentes de datos en sí para derivar similitudes con los elementos de datos registrados.

  1. Análisis de valores distintos : al analizar todos los valores distintos de una columna, se puede determinar la similitud con un elemento de datos registrado. Por ejemplo, si una columna solo tiene dos valores distintos, "masculino" y "femenino", esto se podría asignar a "PersonGenderCode".
  2. Análisis de distribución de datos : al analizar la distribución de valores dentro de una sola columna y comparar esta distribución con elementos de datos conocidos, se podría inferir un vínculo semántico.

Vendedores

Los siguientes proveedores (enumerados en orden alfabético) proporcionan software y soluciones de descubrimiento y mapeo de metadatos.

Investigación

Véase también

Referencias

Citas

  1. ^ Devarakonda, R., Palanisamy, G., Wilson, B. y Green, J. (2010), "Mercury: sistema de acceso, descubrimiento y gestión de metadatos reutilizables", Earth Science Informatics , 3 (1), Springer Berlin / Heidelberg: 87–94, Bibcode :2010ESIn....3...87D, doi :10.1007/s12145-010-0050-7, S2CID  27597035{{citation}}: CS1 maint: varios nombres: lista de autores ( enlace )

Fuentes