La exploración de datos es un enfoque similar al análisis inicial de datos , mediante el cual un analista de datos utiliza la exploración visual para comprender qué hay en un conjunto de datos y las características de los datos, en lugar de hacerlo a través de los sistemas de gestión de datos tradicionales. [1] Estas características pueden incluir el tamaño o la cantidad de datos, la integridad de los datos, la exactitud de los datos, las posibles relaciones entre los elementos de datos o los archivos/tablas en los datos.
La exploración de datos se lleva a cabo normalmente mediante una combinación de actividades automatizadas y manuales. [1] [2] [3] Las actividades automatizadas pueden incluir la creación de perfiles de datos o la visualización de datos o informes tabulares para dar al analista una visión inicial de los datos y una comprensión de las características clave. [1]
A menudo, esto va seguido de un análisis detallado o filtrado manual de los datos para identificar anomalías o patrones identificados a través de las acciones automatizadas. La exploración de datos también puede requerir la creación de scripts y consultas manuales en los datos (por ejemplo, utilizando lenguajes como SQL o R ) o el uso de hojas de cálculo o herramientas similares para ver los datos sin procesar . [4]
Todas estas actividades tienen como objetivo crear un modelo mental y la comprensión de los datos en la mente del analista, y definir metadatos básicos (estadísticas, estructura, relaciones) para el conjunto de datos que se pueden utilizar en análisis posteriores. [1]
Una vez que se tiene esta comprensión inicial de los datos, estos se pueden podar o refinar eliminando partes inutilizables de los mismos ( limpieza de datos ), corrigiendo elementos mal formateados y definiendo relaciones relevantes entre los conjuntos de datos. [2] Este proceso también se conoce como determinación de la calidad de los datos . [4]
La exploración de datos también puede referirse a la consulta o visualización ad hoc de datos para identificar posibles relaciones o conocimientos que puedan estar ocultos en los datos y no requiere formular suposiciones de antemano. [1]
Tradicionalmente, esta había sido un área clave de enfoque para los estadísticos, siendo John Tukey un evangelista clave en el campo. [5] Hoy, la exploración de datos está más extendida y es el foco de los analistas de datos y científicos de datos ; este último es un rol relativamente nuevo dentro de las empresas y organizaciones más grandes.
Esta área de exploración de datos se ha convertido en un área de interés en el campo del aprendizaje automático . Este es un campo relativamente nuevo y aún está evolucionando. [4] En su nivel más básico, un algoritmo de aprendizaje automático puede alimentarse con un conjunto de datos y puede usarse para identificar si una hipótesis es verdadera en función del conjunto de datos. Los algoritmos de aprendizaje automático comunes pueden centrarse en identificar patrones específicos en los datos. [2] Muchos patrones comunes incluyen regresión y clasificación o agrupamiento , pero hay muchos patrones y algoritmos posibles que se pueden aplicar a los datos a través del aprendizaje automático.
Al emplear el aprendizaje automático, es posible encontrar patrones o relaciones en los datos que serían difíciles o imposibles de encontrar mediante inspección manual, prueba y error o técnicas de exploración tradicionales. [6]