La elaboración de perfiles de datos es el proceso de examinar los datos disponibles a partir de una fuente de información existente (por ejemplo, una base de datos o un archivo ) y recopilar estadísticas o resúmenes informativos sobre esos datos. [1] El propósito de estas estadísticas puede ser:
La elaboración de perfiles de datos se refiere al análisis de información para su uso en un almacén de datos con el fin de aclarar la estructura, el contenido, las relaciones y las reglas de derivación de los datos. [3] La elaboración de perfiles ayuda no solo a comprender anomalías y evaluar la calidad de los datos, sino también a descubrir, registrar y evaluar metadatos empresariales. [4] [5] El resultado del análisis se utiliza para determinar la idoneidad de los sistemas de origen candidatos, lo que suele proporcionar la base para una decisión temprana de seguir adelante o no seguir adelante, y también para identificar problemas para el diseño posterior de soluciones. [3]
El perfil de datos utiliza métodos de estadística descriptiva como mínimo, máximo, media, moda, percentil, desviación estándar, frecuencia, variación, agregados como recuento y suma, e información de metadatos adicional obtenida durante el perfil de datos como tipo de datos, longitud, valores discretos, unicidad, aparición de valores nulos, patrones de cadenas típicos y reconocimiento de tipo abstracto. [4] [6] [7] Luego, los metadatos se pueden usar para descubrir problemas como valores ilegales, errores ortográficos, valores faltantes, representación de valores variables y duplicados.
Se realizan diferentes análisis para diferentes niveles estructurales. Por ejemplo, se pueden perfilar columnas individuales para comprender la distribución de frecuencias de diferentes valores, tipos y usos de cada columna. Las dependencias de valores incorporados se pueden exponer en un análisis entre columnas. Finalmente, los conjuntos de valores superpuestos que posiblemente representen relaciones de clave externa entre entidades se pueden explorar en un análisis entre tablas. [4]
Normalmente, se utilizan herramientas diseñadas específicamente para la elaboración de perfiles de datos con el fin de facilitar el proceso. [3] [4] [6] [7] [8] [9] La complejidad computacional aumenta cuando se pasa de una sola columna a una sola tabla y luego a una elaboración de perfiles estructurales de varias tablas. Por lo tanto, el rendimiento es un criterio de evaluación para las herramientas de elaboración de perfiles. [5]
Según Kimball, [3] la elaboración de perfiles de datos se realiza varias veces y con distinta intensidad a lo largo del proceso de desarrollo del almacén de datos. Se debe realizar una evaluación de perfil ligera inmediatamente después de que se hayan identificado los sistemas de origen candidatos y se hayan satisfecho los requisitos comerciales de DW/BI. El propósito de este análisis inicial es aclarar en una etapa temprana si los datos correctos están disponibles con el nivel de detalle adecuado y si las anomalías se pueden manejar posteriormente. Si este no es el caso, el proyecto puede darse por terminado. [3]
Además, antes del proceso de modelado dimensional se realiza una elaboración de perfiles más detallada para evaluar lo que se requiere para convertir los datos en un modelo dimensional. La elaboración de perfiles detallada se extiende al proceso de diseño del sistema ETL para determinar los datos apropiados que se deben extraer y los filtros que se deben aplicar al conjunto de datos. [3]
Además, la elaboración de perfiles de datos se puede realizar en el proceso de desarrollo del almacén de datos después de que los datos se hayan cargado en el almacenamiento provisional, los almacenes de datos, etc. La realización de perfiles de datos en estas etapas ayuda a garantizar que la limpieza y las transformaciones de datos se hayan realizado correctamente y en cumplimiento de los requisitos.
Los beneficios de la elaboración de perfiles de datos son mejorar la calidad de los datos, acortar el ciclo de implementación de proyectos importantes y mejorar la comprensión de los datos por parte de los usuarios. [9] Descubrir el conocimiento empresarial integrado en los datos es uno de los beneficios significativos que se derivan de la elaboración de perfiles de datos. [5] La elaboración de perfiles de datos es una de las tecnologías más eficaces para mejorar la precisión de los datos en las bases de datos corporativas. [9]