Exploración de datos

La exploración de datos es un enfoque similar al análisis inicial de datos , mediante el cual un analista de datos utiliza la exploración visual para comprender qué hay en un conjunto de datos y las características de los datos, en lugar de hacerlo a través de los sistemas de gestión de datos tradicionales. ^[1] Estas características pueden incluir el tamaño o la cantidad de datos, la integridad de los datos, la exactitud de los datos, las posibles relaciones entre los elementos de datos o los archivos/tablas en los datos.

La exploración de datos se lleva a cabo normalmente mediante una combinación de actividades automatizadas y manuales. ^[1]^[2]^[3] Las actividades automatizadas pueden incluir la creación de perfiles de datos o la visualización de datos o informes tabulares para dar al analista una visión inicial de los datos y una comprensión de las características clave. ^[1]

A menudo, esto va seguido de un análisis detallado o filtrado manual de los datos para identificar anomalías o patrones identificados a través de las acciones automatizadas. La exploración de datos también puede requerir la creación de scripts y consultas manuales en los datos (por ejemplo, utilizando lenguajes como SQL o R ) o el uso de hojas de cálculo o herramientas similares para ver los datos sin procesar . ^[4]

Todas estas actividades tienen como objetivo crear un modelo mental y la comprensión de los datos en la mente del analista, y definir metadatos básicos (estadísticas, estructura, relaciones) para el conjunto de datos que se pueden utilizar en análisis posteriores. ^[1]

Una vez que se tiene esta comprensión inicial de los datos, estos se pueden podar o refinar eliminando partes inutilizables de los mismos ( limpieza de datos ), corrigiendo elementos mal formateados y definiendo relaciones relevantes entre los conjuntos de datos. ^[2] Este proceso también se conoce como determinación de la calidad de los datos . ^[4]

La exploración de datos también puede referirse a la consulta o visualización ad hoc de datos para identificar posibles relaciones o conocimientos que puedan estar ocultos en los datos y no requiere formular suposiciones de antemano. ^[1]

Tradicionalmente, esta había sido un área clave de enfoque para los estadísticos, siendo John Tukey un evangelista clave en el campo. ^[5] Hoy, la exploración de datos está más extendida y es el foco de los analistas de datos y científicos de datos ; este último es un rol relativamente nuevo dentro de las empresas y organizaciones más grandes.

Exploración de datos interactiva

Esta área de exploración de datos se ha convertido en un área de interés en el campo del aprendizaje automático . Este es un campo relativamente nuevo y aún está evolucionando. ^[4] En su nivel más básico, un algoritmo de aprendizaje automático puede alimentarse con un conjunto de datos y puede usarse para identificar si una hipótesis es verdadera en función del conjunto de datos. Los algoritmos de aprendizaje automático comunes pueden centrarse en identificar patrones específicos en los datos. ^[2] Muchos patrones comunes incluyen regresión y clasificación o agrupamiento , pero hay muchos patrones y algoritmos posibles que se pueden aplicar a los datos a través del aprendizaje automático.

Al emplear el aprendizaje automático, es posible encontrar patrones o relaciones en los datos que serían difíciles o imposibles de encontrar mediante inspección manual, prueba y error o técnicas de exploración tradicionales. ^[6]

Software

Trifacta : una plataforma de preparación y análisis de datos
Paxata – software de preparación de datos de autoservicio
Alteryx : software de análisis de datos avanzado y combinación de datos
Microsoft Power BI : herramienta interactiva de visualización y análisis de datos
OpenRefine : una aplicación de escritorio independiente de código abierto para la limpieza y transformación de datos
Software Tableau : software de visualización de datos interactivos

Véase también

Referencias

^ abcde FOSTER Open Science, descripción general de las técnicas de exploración de datos: Stratos Idreos, Olga Papaemmonouil, Surajit Chaudhuri.
^ abc Stanford.edu, 2011 Wrangler: Especificación visual interactiva de scripts de transformación de datos, Kandel, Paepcke, Hellerstein Heer.
^ Arnab Nandi; HV Jagadish. Interacción guiada: replanteando el paradigma de consulta-resultado (PDF) . Conferencia internacional sobre bases de datos de gran tamaño (VLDB) 2011.
^ abc Stanford.edu, IEEE Visual Analytics Science & Technology (VAST), octubre de 2012 Análisis y visualización de datos empresariales: un estudio de entrevistas, Sean Kandel, Andreas Paepcke, Joseph Hellerstein, Jeffrey Heer Proc.
^ Análisis exploratorio de datos, Pearson. ISBN 978-0201076165
^ Aprendizaje automático para la exploración de datos