stringtranslate.com

Repositorio de metadatos

Un repositorio de metadatos es una base de datos creada para almacenar metadatos . Los metadatos son información sobre las estructuras que contienen los datos reales. A menudo se dice que los metadatos son "datos sobre datos", pero esto es engañoso. Los perfiles de datos son un ejemplo de "datos sobre datos" reales. Los metadatos agregan una capa de abstracción a esta definición: son datos sobre las estructuras que contienen datos. Los metadatos pueden describir la estructura de cualquier dato, de cualquier tema, almacenado en cualquier formato.

Un repositorio de metadatos bien diseñado normalmente contiene datos que van mucho más allá de las simples definiciones de las distintas estructuras de datos . Los repositorios típicos almacenan entre docenas y cientos de datos separados sobre cada estructura de datos.

Comparando los metadatos de un par de elementos de datos (uno digital y otro físico) aclaramos qué son los metadatos:

En primer lugar, lo digital: para los datos almacenados en una base de datos, se puede tener una tabla llamada "Paciente" con muchas columnas, cada una de las cuales contiene datos que describen un atributo diferente de cada paciente. Una de estas columnas puede llamarse "Paciente_Apellido_Nombre". ¿Cuáles son algunos de los metadatos sobre la columna que contiene los apellidos reales de los pacientes en la base de datos? Ya hemos utilizado dos elementos: el nombre de la columna que contiene los datos (Paciente_Apellido_Nombre) y el nombre de la tabla que contiene la columna (Paciente). Otros metadatos pueden incluir la longitud máxima del apellido que se puede ingresar, si el apellido es obligatorio o no (¿podemos tener un paciente sin Paciente_Apellido_Nombre?) y si la base de datos convierte los apellidos ingresados ​​en minúsculas a mayúsculas. Los metadatos de naturaleza de seguridad pueden mostrar las restricciones que limitan quién puede ver estos nombres.

En segundo lugar, el aspecto físico: en el caso de los datos almacenados en una biblioteca física, se pueden encontrar muchos volúmenes y diversos medios, incluidos los libros. Los metadatos sobre los libros incluirían ISBN, Binding_Type, Page_Count, Author, etc. Dentro de Binding_Type, los metadatos incluirían posibles encuadernaciones, material, etc.

Esta información contextual de los datos comerciales incluye el significado y el contenido, las políticas que los rigen, los atributos técnicos, las especificaciones que los transforman y los programas que los manipulan. [1] : 171 

Definición

El repositorio de metadatos es responsable de almacenar y catalogar físicamente los metadatos. Los datos de un repositorio de metadatos deben ser genéricos, integrados, actuales e históricos:

Genérico
El metamodelo debe almacenar los metadatos en términos genéricos en lugar de almacenarlos de una manera definida y específica para cada aplicación, de modo que si el estándar de su base de datos cambia de un producto a otro, el metamodelo físico del repositorio de metadatos no necesite cambiar.
Integración
El repositorio de metadatos permite que los metadatos de todas las áreas de negocio estén de manera integrada: cubriendo todos los dominios y áreas temáticas de la organización.
Actual e histórico
El repositorio de metadatos debe tener metadatos actuales e históricos accesibles. [2] Los repositorios de metadatos solían denominarse diccionarios de datos . [1] : 239 

Con la transición de las necesidades de uso de metadatos para la inteligencia empresarial, ha aumentado también el alcance del repositorio de metadatos. Los diccionarios de datos anteriores eran el lugar más cercano para interactuar entre la tecnología y el negocio. Los diccionarios de datos eran el universo del repositorio de metadatos en las etapas iniciales, pero a medida que el alcance aumentó, el glosario empresarial y sus etiquetas para una variedad de indicadores de estado surgieron en el lado empresarial, mientras que el consumo de metadatos tecnológicos, su linaje y vínculos hicieron del repositorio la fuente de informes valiosos para unir el negocio y la tecnología y ayudaron a tomar decisiones de gestión de datos más fáciles, así como a evaluar el costo de los cambios.

El repositorio de metadatos explora la gobernanza de datos de toda la empresa, la calidad de los datos y la gestión de datos maestros (incluye datos maestros y datos de referencia) e integra esta riqueza de información con metadatos integrados en toda la organización para proporcionar un sistema de soporte de decisiones para las estructuras de datos, aunque solo refleje las estructuras consumidas de varios sistemas.

Repositorio vs. registro

El repositorio tiene funcionalidades adicionales en comparación con el registro. El repositorio de metadatos no solo almacena metadatos como el registro de metadatos, sino que también agrega relaciones con tipos de metadatos relacionados. Los metadatos, cuando se relacionan en un flujo desde su punto de entrada en la organización hasta los entregables, se consideran el linaje de ese punto de datos. Los metadatos, cuando se relacionan con otros tipos de metadatos relacionados, se denominan vínculos. Al proporcionar las relaciones con todos los puntos de metadatos en toda la organización y mantener su integridad con una arquitectura para manejar los cambios, el repositorio de metadatos proporciona el material básico para comprender el flujo de datos completo y sus definiciones y su impacto. También la característica importante es mantener el control de versiones, aunque esta declaración para contrastar está abierta a discusión. Estas definiciones aún están evolucionando, por lo que la precisión de las definiciones necesita refinarse.

El propósito del registro es definir el elemento de metadatos y mantenerlo en toda la organización. Los modelos de datos y otros equipos de gestión de datos hacen referencia al registro para cualquier cambio posterior. Mientras que el repositorio de metadatos obtiene metadatos de varios sistemas de metadatos en las organizaciones y refleja lo que está en el upstream, el repositorio nunca actúa como un upstream mientras que el registro se utiliza como un upstream para los cambios de metadatos.

Motivo de uso

El repositorio de metadatos permite integrar toda la estructura de los contenedores de datos de las organizaciones en un único lugar. Esto abre una gran cantidad de información útil para tomar decisiones comerciales calculadas. Esta herramienta utiliza una forma genérica de modelo de datos para integrar todos los modelos, lo que reúne todas las aplicaciones y programas de la organización en un solo formato. Y, además, la aplicación de las definiciones y los procesos comerciales acerca el negocio a la tecnología, lo que ayudará a las organizaciones a crear hojas de ruta confiables con objetivos definidos. Con información en un solo lugar, la empresa tendrá más control sobre los cambios y podrá realizar análisis de impacto de la herramienta. Por lo general, las empresas gastan mucho tiempo y dinero en tomar decisiones basadas en el descubrimiento y la investigación sobre los impactos de realizar cambios o agregar nuevas estructuras de datos o eliminar estructuras en la gestión de datos de la organización. Con un repositorio estructurado y bien mantenido, mover el producto desde la ideación hasta la entrega requiere la menor cantidad de tiempo (teniendo en cuenta que otras variables son constantes). Para resumir:

  1. Integración de los metadatos en toda la organización
  2. Establecer relaciones entre varios tipos de metadatos
  3. Construir relaciones entre varios sistemas dispares
  4. Definir negocio copia dorada de definiciones
  5. Control de versiones de los cambios a nivel de estructura
  6. Interacción con datos de referencia
  7. Vincular vista a datos maestros
  8. Sincronización automática con varios sistemas de fuentes de metadatos autorizados
  9. Más control sobre las decisiones empresariales
  10. Validar las estructuras superponiendo los modelos
  11. Descubrimiento de discrepancias , brechas , linaje y métricas a nivel de estructura de datos

Cada sistema de gestión de bases de datos (DBMS) y cada herramienta de base de datos tiene su propio lenguaje para los componentes de metadatos que contienen. Las aplicaciones de bases de datos ya tienen sus propios repositorios o registros que se espera que proporcionen toda la funcionalidad necesaria para acceder a los datos almacenados en ellos. Los proveedores no quieren que otras empresas sean capaces de migrar fácilmente datos de sus productos a los de la competencia, por lo que son propietarios de la forma en que manejan los metadatos. Las herramientas CASE , los diccionarios DBMS, las herramientas ETL , las herramientas de limpieza de datos , las herramientas OLAP y las herramientas de minería de datos manejan y almacenan metadatos de forma diferente. Solo un repositorio de metadatos puede diseñarse para almacenar los componentes de metadatos de todas estas herramientas. [3]

Diseño

Los repositorios de metadatos deben almacenar metadatos en cuatro clasificaciones: propiedad, características descriptivas, reglas y políticas, y características físicas. Propiedad, que muestra el propietario de los datos y el propietario de la aplicación. Las características descriptivas, definen los nombres, tipos y longitudes, y definiciones que describen datos comerciales o procesos comerciales. Las reglas y políticas, definirán la seguridad, la limpieza de los datos, los plazos para los datos y las relaciones. Las características físicas definen el origen o la fuente, y la ubicación física. [1] : 176  Al igual que la construcción de un modelo de datos lógicos para crear una base de datos, un metamodelo lógico puede ayudar a identificar los requisitos de metadatos para los datos comerciales. [1] : 185  El repositorio de metadatos será centralizado, descentralizado o distribuido. Un diseño centralizado significa que hay una base de datos para el repositorio de metadatos que almacena metadatos para todas las aplicaciones de toda la empresa. Un repositorio de metadatos centralizado tiene las mismas ventajas y desventajas de una base de datos centralizada . Más fácil de administrar porque todos los datos están en una base de datos, pero la desventaja es que pueden ocurrir cuellos de botella.

Un repositorio de metadatos descentralizado almacena metadatos en múltiples bases de datos, ya sea separadas por ubicación o por departamentos de la empresa. Esto hace que la gestión del repositorio sea más compleja que la de un repositorio de metadatos centralizado, pero la ventaja es que los metadatos se pueden desglosar en departamentos individuales.

Un repositorio de metadatos distribuido utiliza un método descentralizado, pero a diferencia de un repositorio de metadatos descentralizado, los metadatos permanecen en su aplicación original. Se crea una puerta de enlace XML [1] : 246  que actúa como un directorio para acceder a los metadatos dentro de cada aplicación diferente. Las ventajas y desventajas de un repositorio de metadatos distribuido reflejan las de una base de datos distribuida .

El diseño del modelo de información debe incluir varias capas de tipos de metadatos que se superpongan para crear una vista integrada de los datos. Los distintos tipos de metadatos se deben unir con elementos de metadatos relacionados en un modelo descendente que se vincule con el glosario empresarial.

Capas de metadatos:

  1. Glosario de negocios: contiene relaciones recursivas con términos comerciales.
  2. Etiquetas comerciales: contiene varias afiliaciones a ese término o términos.
  3. Diccionario de datos: contiene información de las herramientas del modelo de datos para la definición de elementos de metadatos y sus definiciones técnicas proporcionadas por la arquitectura de datos o empresarial.
  4. Modelos de datos conceptuales :
  5. Modelos de datos lógicos
  6. Modelos de datos físicos
  7. Bases de datos
  8. reglas de validación y reglas de calidad de datos
  9. ETL, reglas de negocio y su relación con atributos y entidades
  10. Informes
  11. Artefactos de mapeo de origen a destino (relaciones)
  12. Requisitos de informes (relaciones)
  13. Los procesos de negocio y su relación con la tecnología
  14. Jerarquía de personas y sus relaciones
  15. relación de propietario

Entidad-Relación/Orientado a Objetos

Los repositorios de metadatos pueden diseñarse como un modelo entidad-relación o un diseño orientado a objetos .

Véase también

Referencias

  1. ^ abcde Moss, LT; Atre, S. (2003). Hoja de ruta de inteligencia empresarial: el ciclo de vida completo del proyecto para aplicaciones de apoyo a la toma de decisiones. Addison-Wesley Professional. ISBN 0-201-78420-3.
  2. ^ Marco, D.; Jennings, M. (2004). Modelos de metadatos universales . Wiley. págs. 36–43. ISBN 0-471-08177-9.
  3. ^ Marco, D. (2000). Creación y gestión del repositorio de metadatos: una guía completa sobre el ciclo de vida . Wiley. ISBN 978-0471355236.