stringtranslate.com

Limpieza de datos

La limpieza de datos o limpieza de datos es el proceso de detectar y corregir (o eliminar) registros corruptos o inexactos de un conjunto de registros, tabla o base de datos y se refiere a identificar partes incompletas, incorrectas, inexactas o irrelevantes de los datos y luego reemplazarlas, modificarlas, o eliminar los datos sucios o burdos. [1] La limpieza de datos se puede realizar de forma interactiva con herramientas de manipulación de datos o como procesamiento por lotes a través de secuencias de comandos o un firewall de calidad de datos .

Después de la limpieza, un conjunto de datos debe ser coherente con otros conjuntos de datos similares en el sistema. Las inconsistencias detectadas o eliminadas pueden haber sido causadas originalmente por errores de entrada del usuario, por corrupción en la transmisión o almacenamiento, o por diferentes definiciones del diccionario de datos de entidades similares en diferentes almacenes. La limpieza de datos difiere de la validación de datos en que la validación casi invariablemente significa que los datos se rechazan del sistema en el momento de la entrada y se realiza en el momento de la entrada, en lugar de en lotes de datos.

El proceso real de limpieza de datos puede implicar eliminar errores tipográficos o validar y corregir valores con respecto a una lista conocida de entidades. La validación puede ser estricta (como rechazar cualquier dirección que no tenga un código postal válido ), o con una coincidencia de cadenas aproximada o difusa (como corregir registros que coinciden parcialmente con registros conocidos existentes). Algunas soluciones de limpieza de datos limpiarán los datos cotejándolos con un conjunto de datos validados. Una práctica común de limpieza de datos es la mejora de datos, donde los datos se completan agregando información relacionada. Por ejemplo, agregar direcciones con cualquier número de teléfono relacionado con esa dirección. La limpieza de datos también puede implicar la armonización (o normalización) de los datos, que es el proceso de reunir datos de "diferentes formatos de archivo, convenciones de nomenclatura y columnas" [2] y transformarlos en un conjunto de datos cohesivo; un ejemplo sencillo es la ampliación de abreviaturas ("st, rd, etc." a "calle, camino, etcétera").

Motivación

Los datos administrativamente incorrectos e inconsistentes pueden llevar a conclusiones falsas y desviar inversiones tanto a escala pública como privada. Por ejemplo, es posible que el gobierno desee analizar las cifras del censo de población para decidir qué regiones requieren más gasto e inversión en infraestructura y servicios. En este caso, será importante tener acceso a datos confiables para evitar decisiones fiscales erróneas. En el mundo empresarial, los datos incorrectos pueden resultar costosos. Muchas empresas utilizan bases de datos de información de clientes que registran datos como información de contacto, direcciones y preferencias. Por ejemplo, si las direcciones son inconsistentes, la empresa sufrirá el costo de reenviar el correo o incluso perder clientes.

Calidad de datos

Los datos de alta calidad deben pasar una serie de criterios de calidad. Estos incluyen:

El término integridad abarca precisión, coherencia y algunos aspectos de validación (ver también integridad de datos ), pero rara vez se utiliza por sí solo en contextos de limpieza de datos porque no es lo suficientemente específico. (Por ejemplo, " integridad referencial " es un término utilizado para referirse a la aplicación de restricciones de clave externa mencionadas anteriormente).

Proceso

Los datos fuente de buena calidad tienen que ver con la “cultura de calidad de los datos” y deben iniciarse desde la cima de la organización. No se trata sólo de implementar fuertes controles de validación en las pantallas de entrada, porque casi no importa cuán fuertes sean estos controles, a menudo los usuarios aún pueden eludirlos. Existe una guía de nueve pasos para las organizaciones que desean mejorar la calidad de los datos: [3] [4]

Otros incluyen:

Sistema

El trabajo esencial de este sistema es encontrar un equilibrio adecuado entre corregir datos sucios y mantener los datos lo más cerca posible de los datos originales del sistema de producción de origen. Este es un desafío para el arquitecto de extracción, transformación y carga . El sistema debe ofrecer una arquitectura que pueda limpiar datos, registrar eventos de calidad y medir/controlar la calidad de los datos en el almacén de datos . Un buen comienzo es realizar un análisis exhaustivo del perfil de datos que ayudará a definir la complejidad requerida del sistema de limpieza de datos y también dará una idea de la calidad actual de los datos en los sistemas de origen.

Pantallas de calidad

Parte del sistema de limpieza de datos es un conjunto de filtros de diagnóstico conocidos como pantallas de calidad. Cada uno de ellos implementa una prueba en el flujo de datos que, si falla, registra un error en el esquema de eventos de error. Las pantallas de calidad se dividen en tres categorías:

Cuando una pantalla de calidad registra un error, puede detener el proceso de flujo de datos, enviar los datos defectuosos a otro lugar que no sea el sistema de destino o etiquetar los datos. La última opción se considera la mejor solución porque la primera opción requiere que alguien tenga que lidiar manualmente con el problema cada vez que ocurre y la segunda implica que faltan datos en el sistema de destino ( integridad ) y a menudo no está claro qué debería suceder. a estos datos.

Críticas a las herramientas y procesos existentes.

La mayoría de las herramientas de limpieza de datos tienen limitaciones de usabilidad:

Esquema de evento de error

El esquema de eventos de error contiene registros de todos los eventos de error generados por las pantallas de calidad. Consiste en una tabla de hechos de eventos de error con claves externas para tablas de tres dimensiones que representan la fecha (cuándo), el trabajo por lotes (dónde) y la pantalla (quién produjo el error). También contiene información sobre cuándo exactamente ocurrió el error y la gravedad del mismo. Además, hay una tabla de hechos de detalles de eventos de error con una clave externa a la tabla principal que contiene información detallada sobre en qué tabla, registro y campo ocurrió el error y la condición del error.

Ver también

Referencias

  1. ^ Wu, S. (2013), "Una revisión sobre análisis y datos de garantía aproximados" (PDF) , Sistema e ingeniería de confiabilidad , 114 : 1–11, doi :10.1016/j.ress.2012.12.021
  2. ^ "Datos 101: ¿Qué es la armonización de datos?". Datorama . 14 de abril de 2017. Archivado desde el original el 24 de octubre de 2021 . Consultado el 14 de agosto de 2019 .
  3. ^ Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. El kit de herramientas del ciclo de vida del almacén de datos , Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5 
  4. ^ Olson, JE Calidad de datos: la dimensión de la precisión", Morgan Kaufmann , 2002. ISBN 1-55860-891-5 

Otras lecturas

enlaces externos