En informática y gestión de datos , el mapeo de datos es el proceso de crear mapeos de elementos de datos entre dos modelos de datos distintos . El mapeo de datos se utiliza como primer paso para una amplia variedad de tareas de integración de datos , entre las que se incluyen: [1]
Por ejemplo, una empresa que quiera transmitir y recibir compras y facturas de otras empresas podría usar el mapeo de datos para crear mapas de datos a partir de los datos de una empresa en mensajes ANSI ASC X12 estandarizados para artículos como órdenes de compra y facturas.
Los estándares X12 son estándares genéricos de intercambio electrónico de datos (EDI) diseñados para permitir que una empresa intercambie datos con cualquier otra empresa, independientemente de la industria. Los estándares son mantenidos por el Comité de Estándares Acreditados X12 (ASC X12), con el Instituto Nacional Estadounidense de Estándares (ANSI) acreditado para establecer estándares para EDI. Los estándares X12 a menudo se denominan estándares ANSI ASC X12 .
El W3C introdujo R2RML como estándar para mapear datos en una base de datos relacional a datos expresados en términos del Marco de Descripción de Recursos (RDF).
En el futuro, las herramientas basadas en lenguajes de la web semántica como RDF, el lenguaje de ontología web (OWL) y el registro de metadatos estandarizado harán que el mapeo de datos sea un proceso más automático. Este proceso se acelerará si cada aplicación realiza la publicación de metadatos . El mapeo de datos completamente automatizado es un problema muy difícil (ver traducción semántica ).
Las asignaciones de datos se pueden realizar de diversas formas mediante código de procedimiento, creando transformaciones XSLT o utilizando herramientas de asignación gráfica que generan automáticamente programas de transformación ejecutables. Se trata de herramientas gráficas que permiten a un usuario "dibujar" líneas desde campos de un conjunto de datos a campos de otro. Algunas herramientas de asignación gráfica de datos permiten a los usuarios "conectar automáticamente" una fuente y un destino. Esta función depende de que el nombre del elemento de datos de origen y destino sea el mismo. Los programas de transformación se crean automáticamente en SQL, XSLT, Java o C++ . Este tipo de herramientas gráficas se encuentran en la mayoría de las herramientas ETL (extracción, transformación y carga) como el medio principal para ingresar asignaciones de datos para respaldar el movimiento de datos. Algunos ejemplos incluyen SAP BODS e Informatica PowerCenter.
Este es el enfoque más nuevo en el mapeo de datos e implica evaluar simultáneamente los valores de datos reales en dos fuentes de datos utilizando heurísticas y estadísticas para descubrir automáticamente mapeos complejos entre dos conjuntos de datos. Este enfoque se utiliza para encontrar transformaciones entre dos conjuntos de datos, descubriendo subcadenas, concatenaciones, operaciones aritméticas , declaraciones de casos y otros tipos de lógica de transformación. Este enfoque también descubre excepciones de datos que no siguen la lógica de transformación descubierta.
El mapeo semántico es similar a la función de conexión automática de los mapeadores de datos, con la excepción de que se puede consultar un registro de metadatos para buscar sinónimos de elementos de datos. Por ejemplo, si el sistema de origen incluye FirstName pero el de destino incluye PersonGivenName , los mapeos se realizarán de todos modos si estos elementos de datos están incluidos como sinónimos en el registro de metadatos. El mapeo semántico solo puede descubrir coincidencias exactas entre columnas de datos y no descubrirá ninguna lógica de transformación ni excepciones entre columnas.
El linaje de datos es un seguimiento del ciclo de vida de cada pieza de datos a medida que el sistema de análisis los ingiere, procesa y genera. Esto proporciona visibilidad en el flujo de análisis y simplifica el rastreo de errores hasta sus fuentes. También permite reproducir partes o entradas específicas del flujo de datos para la depuración paso a paso o la regeneración de la salida perdida. De hecho, los sistemas de bases de datos ya han utilizado dicha información, denominada procedencia de los datos, para abordar desafíos similares de validación y depuración. [2]