La preparación de datos es el acto de manipular (o preprocesar) datos sin procesar (que pueden provenir de distintas fuentes de datos) en un formato que pueda analizarse con facilidad y precisión, por ejemplo, para fines comerciales. [1]
La preparación de datos es el primer paso en los proyectos de análisis de datos y puede incluir muchas tareas discretas, como la carga o la ingesta de datos, la fusión de datos , la limpieza de datos , la ampliación de datos y la entrega de datos. [2]
Las cuestiones que se abordarán se dividen en dos categorías principales:
El primer paso es establecer una especificación completa y detallada del formato de cada campo de datos y de lo que significan las entradas. Esto debe tener en cuenta cuidadosamente lo siguiente:
Véase también la especificación de definición de datos .
Supongamos que existe un campo alfabético de dos caracteres que indica la ubicación geográfica. Es posible que en una fuente de datos el código "EE" signifique "Europa" y en otra fuente de datos el mismo código signifique "Estonia". Sería necesario idear un conjunto de códigos inequívocos y modificar el código en un conjunto de registros en consecuencia.
Además, la "zona geográfica" puede hacer referencia, por ejemplo, a la dirección de entrega, la dirección de facturación, la dirección desde la que se suministran las mercancías, la moneda de facturación o las normativas nacionales aplicables. Todas estas cuestiones deben estar contempladas en la especificación.
Podría haber algunos registros con "X" o "555" en ese campo. Claramente, se trata de datos no válidos, ya que no se ajustan a la especificación. Si solo hay una pequeña cantidad de dichos registros, se los debe corregir manualmente o, si la precisión no es importante, simplemente se deben eliminar esos registros del archivo. Otra posibilidad sería crear una categoría "no conocida".
Siempre que sea posible y económico, los datos deben verificarse con una fuente confiable (por ejemplo, la información comercial se compara con una base de datos D&B para garantizar su precisión). [3] [4]
Dada la variedad de fuentes de datos (por ejemplo, bases de datos , aplicaciones empresariales ) que proporcionan datos y formatos en los que pueden llegar, la preparación de datos puede ser bastante complicada y compleja. Existen muchas herramientas y tecnologías [5] que se utilizan para la preparación de datos. El costo de limpiar los datos siempre debe equilibrarse con el valor de la precisión mejorada.
Las herramientas y tecnologías tradicionales, como los lenguajes de programación o las herramientas de extracción, transformación y carga (ETL) y de calidad de datos, no están pensadas para los usuarios empresariales. Por lo general, requieren conocimientos de programación o de TI que la mayoría de los usuarios empresariales no tienen. [ cita requerida ]
Varias empresas, como Paxata , Trifacta , Alteryx , Talend y Ataccama, ofrecen interfaces visuales que muestran los datos y permiten al usuario explorar, estructurar, limpiar, aumentar y actualizar directamente los datos de muestra proporcionados por el usuario.
Una vez finalizado el trabajo de preparación, los pasos subyacentes se pueden ejecutar en otros conjuntos de datos para realizar las mismas operaciones. Esta reutilización proporciona un importante aumento de la productividad en comparación con los métodos manuales y de codificación más tradicionales para la preparación de datos.