stringtranslate.com

Perfilado de datos

La elaboración de perfiles de datos es el proceso de examinar los datos disponibles a partir de una fuente de información existente (por ejemplo, una base de datos o un archivo ) y recopilar estadísticas o resúmenes informativos sobre esos datos. [1] El propósito de estas estadísticas puede ser:

  1. Descubra si los datos existentes se pueden utilizar fácilmente para otros fines
  2. Mejore la capacidad de buscar datos etiquetándolos con palabras clave , descripciones o asignándolos a una categoría
  3. Evaluar la calidad de los datos , incluso si los datos se ajustan a estándares o patrones particulares [2]
  4. Evaluar el riesgo que implica la integración de datos en nuevas aplicaciones, incluidos los desafíos de las uniones
  5. Descubra metadatos de la base de datos de origen, incluidos patrones y distribuciones de valores , candidatos clave , candidatos de clave externa y dependencias funcionales.
  6. Evaluar si los metadatos conocidos describen con precisión los valores reales en la base de datos de origen
  7. Comprender los desafíos de los datos al principio de cualquier proyecto que requiera una gran cantidad de datos, de modo que se eviten sorpresas tardías. Detectar problemas de datos en una etapa avanzada del proyecto puede generar demoras y sobrecostos.
  8. Tenga una vista empresarial de todos los datos, para usos como la gestión de datos maestros , donde se necesitan datos clave, o la gobernanza de datos para mejorar la calidad de los datos.

Introducción

La elaboración de perfiles de datos se refiere al análisis de información para su uso en un almacén de datos con el fin de aclarar la estructura, el contenido, las relaciones y las reglas de derivación de los datos. [3] La elaboración de perfiles ayuda no solo a comprender anomalías y evaluar la calidad de los datos, sino también a descubrir, registrar y evaluar metadatos empresariales. [4] [5] El resultado del análisis se utiliza para determinar la idoneidad de los sistemas de origen candidatos, lo que suele proporcionar la base para una decisión temprana de seguir adelante o no seguir adelante, y también para identificar problemas para el diseño posterior de soluciones. [3]

¿Cómo se lleva a cabo la elaboración de perfiles de datos?

El perfil de datos utiliza métodos de estadística descriptiva como mínimo, máximo, media, moda, percentil, desviación estándar, frecuencia, variación, agregados como recuento y suma, e información de metadatos adicional obtenida durante el perfil de datos como tipo de datos, longitud, valores discretos, unicidad, aparición de valores nulos, patrones de cadenas típicos y reconocimiento de tipo abstracto. [4] [6] [7] Luego, los metadatos se pueden usar para descubrir problemas como valores ilegales, errores ortográficos, valores faltantes, representación de valores variables y duplicados.

Se realizan diferentes análisis para diferentes niveles estructurales. Por ejemplo, se pueden perfilar columnas individuales para comprender la distribución de frecuencias de diferentes valores, tipos y usos de cada columna. Las dependencias de valores incorporados se pueden exponer en un análisis entre columnas. Finalmente, los conjuntos de valores superpuestos que posiblemente representen relaciones de clave externa entre entidades se pueden explorar en un análisis entre tablas. [4]

Normalmente, se utilizan herramientas diseñadas específicamente para la elaboración de perfiles de datos con el fin de facilitar el proceso. [3] [4] [6] [7] [8] [9] La complejidad computacional aumenta cuando se pasa de una sola columna a una sola tabla y luego a una elaboración de perfiles estructurales de varias tablas. Por lo tanto, el rendimiento es un criterio de evaluación para las herramientas de elaboración de perfiles. [5]

¿Cuándo se realiza la elaboración de perfiles de datos?

Según Kimball, [3] la elaboración de perfiles de datos se realiza varias veces y con distinta intensidad a lo largo del proceso de desarrollo del almacén de datos. Se debe realizar una evaluación de perfil ligera inmediatamente después de que se hayan identificado los sistemas de origen candidatos y se hayan satisfecho los requisitos comerciales de DW/BI. El propósito de este análisis inicial es aclarar en una etapa temprana si los datos correctos están disponibles con el nivel de detalle adecuado y si las anomalías se pueden manejar posteriormente. Si este no es el caso, el proyecto puede darse por terminado. [3]

Además, antes del proceso de modelado dimensional se realiza una elaboración de perfiles más detallada para evaluar lo que se requiere para convertir los datos en un modelo dimensional. La elaboración de perfiles detallada se extiende al proceso de diseño del sistema ETL para determinar los datos apropiados que se deben extraer y los filtros que se deben aplicar al conjunto de datos. [3]

Además, la elaboración de perfiles de datos se puede realizar en el proceso de desarrollo del almacén de datos después de que los datos se hayan cargado en el almacenamiento provisional, los almacenes de datos, etc. La realización de perfiles de datos en estas etapas ayuda a garantizar que la limpieza y las transformaciones de datos se hayan realizado correctamente y en cumplimiento de los requisitos.

Beneficios y ejemplos

Los beneficios de la elaboración de perfiles de datos son mejorar la calidad de los datos, acortar el ciclo de implementación de proyectos importantes y mejorar la comprensión de los datos por parte de los usuarios. [9] Descubrir el conocimiento empresarial integrado en los datos es uno de los beneficios significativos que se derivan de la elaboración de perfiles de datos. [5] La elaboración de perfiles de datos es una de las tecnologías más eficaces para mejorar la precisión de los datos en las bases de datos corporativas. [9]

Véase también

Referencias

  1. ^ Johnson, Theodore (2009). "Perfiles de datos". En Springer, Heidelberg (ed.). Enciclopedia de sistemas de bases de datos .
  2. ^ Woodall, Philip; Oberhofer, Martin; Borek, Alexander (2014). "Una clasificación de los métodos de evaluación y mejora de la calidad de los datos". Revista Internacional de Calidad de la Información . 3 (4): 298. doi :10.1504/ijiq.2014.068656.
  3. ^ abcdef Kimball, Ralph; et al. (2008). El kit de herramientas del ciclo de vida del almacén de datos (segunda edición). Wiley. págs. 376. ISBN 9780470149775.
  4. ^ abcd Loshin, David (2009). Gestión de datos maestros . Morgan Kaufmann. págs. 94–96. ISBN 9780123742254.
  5. ^ abc Loshin, David (2003). Business Intelligence: The Savvy Manager's Guide, Getting Onboard with Emerging IT . Morgan Kaufmann. págs. 110-111. ISBN 9781558609167.
  6. ^ ab Rahm, Erhard; Hai Do, Hong (diciembre de 2000). "Limpieza de datos: problemas y enfoques actuales". Boletín del Comité Técnico de Ingeniería de Datos . 23 (4). IEEE Computer Society.
  7. ^ ab Singh, Ranjit; Singh, Kawaljeet; et al. (mayo de 2010). "Una clasificación descriptiva de las causas de los problemas de calidad de datos en el almacenamiento de datos". IJCSI International Journal of Computer Science , número 2. 7 (3).
  8. ^ Kimball, Ralph (2004). "Consejo de diseño de Kimball n.° 59: Valor sorprendente de la elaboración de perfiles de datos" (PDF) . Kimball Group.
  9. ^ abc Olson, Jack E. (2003). Calidad de los datos: la dimensión de la precisión . Morgan Kaufmann. págs. 140–142.