stringtranslate.com

Limpieza de datos

La limpieza de datos o depuración de datos es el proceso de detectar y corregir (o eliminar) registros corruptos o inexactos de un conjunto de registros, tabla o base de datos y se refiere a identificar partes incompletas, incorrectas, inexactas o irrelevantes de los datos y luego reemplazar, modificar o eliminar los datos sucios o burdos. [1] La limpieza de datos se puede realizar de forma interactiva con herramientas de manipulación de datos o como procesamiento por lotes a través de scripts o un firewall de calidad de datos .

Después de la limpieza, un conjunto de datos debe ser coherente con otros conjuntos de datos similares en el sistema. Las inconsistencias detectadas o eliminadas pueden haber sido causadas originalmente por errores de entrada del usuario, por corrupción en la transmisión o el almacenamiento, o por diferentes definiciones de diccionarios de datos de entidades similares en diferentes almacenes. La limpieza de datos se diferencia de la validación de datos en que la validación casi invariablemente significa que los datos se rechazan del sistema en el momento de la entrada y se realiza en el momento de la entrada, en lugar de en lotes de datos.

El proceso real de limpieza de datos puede implicar la eliminación de errores tipográficos o la validación y corrección de valores contra una lista conocida de entidades. La validación puede ser estricta (como rechazar cualquier dirección que no tenga un código postal válido ) o con coincidencia de cadenas aproximada o difusa (como corregir registros que coincidan parcialmente con registros existentes conocidos). Algunas soluciones de limpieza de datos limpiarán los datos mediante una verificación cruzada con un conjunto de datos validados. Una práctica común de limpieza de datos es la mejora de datos, donde los datos se hacen más completos agregando información relacionada. Por ejemplo, adjuntando direcciones con cualquier número de teléfono relacionado con esa dirección. La limpieza de datos también puede implicar la armonización (o normalización) de datos, que es el proceso de reunir datos de "diferentes formatos de archivo, convenciones de nomenclatura y columnas", [2] y transformarlos en un conjunto de datos cohesivo; un ejemplo simple es la expansión de abreviaturas ("st, rd, etc." a "street, road, etcétera").

Motivación

Los datos administrativos incorrectos e inconsistentes pueden llevar a conclusiones falsas y desviar las inversiones, tanto a escala pública como privada. Por ejemplo, el gobierno puede querer analizar las cifras del censo de población para decidir qué regiones requieren más gasto e inversión en infraestructura y servicios. En este caso, será importante tener acceso a datos confiables para evitar decisiones fiscales erróneas. En el mundo empresarial, los datos incorrectos pueden ser costosos. Muchas empresas utilizan bases de datos de información de clientes que registran datos como información de contacto, direcciones y preferencias. Por ejemplo, si las direcciones son inconsistentes, la empresa sufrirá el costo de reenviar el correo o incluso perder clientes.

Calidad de los datos

Los datos de alta calidad deben cumplir una serie de criterios de calidad, entre los que se incluyen los siguientes:

El término integridad abarca la precisión, la coherencia y algunos aspectos de la validación (véase también integridad de datos ), pero rara vez se utiliza por sí solo en contextos de limpieza de datos porque no es lo suficientemente específico. (Por ejemplo, " integridad referencial " es un término que se utiliza para referirse a la aplicación de las restricciones de clave externa mencionadas anteriormente).

Proceso

La calidad de los datos de origen tiene que ver con la “cultura de la calidad de los datos” y debe iniciarse desde lo más alto de la organización. No se trata solo de implementar controles de validación estrictos en las pantallas de entrada, porque casi sin importar cuán estrictos sean estos controles, a menudo los usuarios pueden eludirlos. Existe una guía de nueve pasos para las organizaciones que desean mejorar la calidad de los datos: [3] [4]

Otros incluyen:

Sistema

La función esencial de este sistema es encontrar un equilibrio adecuado entre la reparación de datos sucios y el mantenimiento de los datos lo más parecidos posible a los datos originales del sistema de producción de origen. Este es un desafío para el arquitecto de extracción, transformación y carga . El sistema debe ofrecer una arquitectura que pueda limpiar datos, registrar eventos de calidad y medir/controlar la calidad de los datos en el almacén de datos . Un buen comienzo es realizar un análisis exhaustivo de los perfiles de datos que ayudará a definir la complejidad requerida del sistema de limpieza de datos y también dará una idea de la calidad actual de los datos en el sistema o sistemas de origen.

Pantallas de calidad

Parte del sistema de limpieza de datos es un conjunto de filtros de diagnóstico conocidos como pantallas de calidad. Cada uno de ellos implementa una prueba en el flujo de datos que, si falla, registra un error en el esquema de eventos de error. Las pantallas de calidad se dividen en tres categorías:

Cuando una pantalla de calidad registra un error, puede detener el proceso de flujo de datos, enviar los datos erróneos a otro lugar que no sea el sistema de destino o etiquetar los datos. La última opción se considera la mejor solución porque la primera opción requiere que alguien se ocupe manualmente del problema cada vez que ocurre y la segunda implica que faltan datos en el sistema de destino ( integridad ) y, a menudo, no está claro qué debería suceder con estos datos.

Crítica de las herramientas y procesos existentes

La mayoría de las herramientas de limpieza de datos tienen limitaciones en su usabilidad:

Esquema de evento de error

El esquema de eventos de error contiene registros de todos los eventos de error generados por las pantallas de calidad. Consiste en una tabla de hechos de eventos de error con claves externas a tablas tridimensionales que representan la fecha (cuándo), el trabajo por lotes (dónde) y la pantalla (quién produjo el error). También contiene información sobre cuándo exactamente ocurrió el error y la gravedad del mismo. Además, hay una tabla de hechos de detalles de eventos de error con una clave externa a la tabla principal que contiene información detallada sobre en qué tabla, registro y campo ocurrió el error y la condición del error.

Véase también

Referencias

  1. ^ Wu, S. (2013), "Una revisión de los datos y análisis de garantías generales" (PDF) , Reliability Engineering and System , 114 : 1–11, doi :10.1016/j.ress.2012.12.021
  2. ^ "Datos 101: ¿Qué es la armonización de datos?". Datorama . 14 de abril de 2017. Archivado desde el original el 24 de octubre de 2021 . Consultado el 14 de agosto de 2019 .
  3. ^ Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. El kit de herramientas del ciclo de vida del almacén de datos , Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5 
  4. ^ Olson, JE Calidad de datos: la dimensión de la precisión", Morgan Kaufmann , 2002. ISBN 1-55860-891-5 

Lectura adicional

Enlaces externos