stringtranslate.com

Preparación de datos

La preparación de datos es el acto de manipular (o preprocesar) datos sin procesar (que pueden provenir de fuentes de datos dispares) en una forma que pueda analizarse de manera fácil y precisa, por ejemplo, para fines comerciales. [1]

La preparación de datos es el primer paso en los proyectos de análisis de datos y puede incluir muchas tareas discretas, como cargar datos o ingerir datos, fusionar datos , limpiar datos , aumentar datos y entregar datos. [2]

Las cuestiones a tratar se dividen en dos categorías principales:

Especificación de datos

El primer paso es establecer una especificación completa y detallada del formato de cada campo de datos y lo que significan las entradas. Para ello se debe tener muy en cuenta:

Consulte también la especificación de definición de datos .

Ejemplo

Supongamos que hay un campo alfabético de dos caracteres que indica la ubicación geográfica. Es posible que en una fuente de datos un código "EE" signifique "Europa" y en otra fuente de datos el mismo código signifique "Estonia". Sería necesario idear un conjunto de códigos inequívocos y modificar el código en un conjunto de registros en consecuencia.

Además, el "área geográfica" podría referirse a cualquiera de, por ejemplo, dirección de entrega, dirección de facturación, dirección desde la cual se suministran los bienes, moneda de facturación o regulaciones nacionales aplicables. Todas estas cuestiones deben estar cubiertas en la especificación.

Podría haber algunos registros con "X" o "555" en ese campo. Claramente, estos son datos no válidos ya que no se ajustan a la especificación. Si solo hay una pequeña cantidad de dichos registros, se pueden corregir manualmente o, si la precisión no es importante, simplemente eliminar esos registros del archivo. Otra posibilidad sería crear una categoría "desconocido".

Otros ejemplos de datos no válidos que requieren corrección

Cuando sea posible y económico, los datos deben verificarse con una fuente autorizada (por ejemplo, la información comercial se coteja con una base de datos de D&B para garantizar la precisión). [3] [4]

Dada la variedad de fuentes de datos (por ejemplo , bases de datos , aplicaciones comerciales ) que proporcionan datos y formatos en los que pueden llegar, la preparación de datos puede ser bastante complicada y compleja. Existen muchas herramientas y tecnologías [5] que se utilizan para la preparación de datos. El costo de limpiar los datos siempre debe equilibrarse con el valor de la precisión mejorada.

Preparación de datos de autoservicio

Las herramientas y tecnologías tradicionales, como los lenguajes de programación o las herramientas de extracción, transformación, carga (ETL) y calidad de datos, no están destinadas a usuarios empresariales. Por lo general, requieren habilidades de programación o TI que la mayoría de los usuarios empresariales no tienen. [ cita necesaria ]

Varias empresas, como Paxata, Trifacta, Alteryx, Talend y Ataccama, proporcionan interfaces visuales que muestran los datos y permiten al usuario explorar, estructurar, limpiar, aumentar y actualizar directamente los datos de muestra proporcionados por el usuario.

Una vez que se completa el trabajo de preparación, los pasos subyacentes se pueden ejecutar en otros conjuntos de datos para realizar las mismas operaciones. Esta reutilización proporciona un aumento significativo de la productividad en comparación con los métodos manuales y de codificación manual más tradicionales para la preparación de datos.

Ver también

Referencias

  1. ^ Friedland, David (7 de septiembre de 2016). "Una nueva mirada a la preparación de datos". IRI (artículo de blog). IRI, la empresa CoSort.
  2. ^ Pyle, Dorian (5 de abril de 1999). Preparación de datos para minería de datos. Morgan Kaufman. ISBN 9781558605299- a través de libros de Google.
  3. ^ "vender".
  4. ^ Artículo de preparación de datos [ enlace muerto permanente ]
  5. ^ "Herramientas/Lenguajes para la limpieza de datos". www.kdnuggets.com (Encuesta).