Análisis exploratorio de datos

En estadística , el análisis exploratorio de datos (EDA) es un enfoque de análisis de conjuntos de datos para resumir sus características principales, a menudo utilizando gráficos estadísticos y otros métodos de visualización de datos . Se puede utilizar un modelo estadístico o no, pero principalmente el EDA sirve para ver lo que los datos pueden decirnos más allá del modelado formal y, por lo tanto, contrasta las pruebas de hipótesis tradicionales. El análisis exploratorio de datos ha sido promovido por John Tukey desde 1970 para alentar a los estadísticos a explorar los datos y posiblemente formular hipótesis que podrían conducir a una nueva recopilación de datos y experimentos. El EDA es diferente del análisis inicial de datos (IDA) , ^[1]^[2] que se centra más estrechamente en verificar los supuestos necesarios para el ajuste del modelo y la prueba de hipótesis, y en manejar los valores faltantes y realizar transformaciones de variables según sea necesario. El EDA abarca el IDA.

Descripción general

Tukey definió el análisis de datos en 1961 como: “Procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o más exacto, y toda la maquinaria y resultados de las estadísticas (matemáticas) que se aplican al análisis de datos”. ^[3]

El análisis exploratorio de datos es una técnica de análisis que permite analizar e investigar el conjunto de datos y resumir sus principales características. La principal ventaja del EDA es que permite visualizar los datos después de realizar el análisis.

La defensa de la EDA por parte de Tukey alentó el desarrollo de paquetes de computación estadística , especialmente S en Bell Labs . ^[4] El lenguaje de programación S inspiró los sistemas S-PLUS y R. Esta familia de entornos de computación estadística presentó capacidades de visualización dinámica enormemente mejoradas, que permitieron a los estadísticos identificar valores atípicos , tendencias y patrones en los datos que merecían un estudio más profundo.

El EDA de Tukey estaba relacionado con otros dos desarrollos en la teoría estadística : la estadística robusta y la estadística no paramétrica , ambas intentaron reducir la sensibilidad de las inferencias estadísticas a los errores en la formulación de modelos estadísticos . Tukey promovió el uso de un resumen de cinco números de datos numéricos: los dos extremos ( máximo y mínimo ), la mediana y los cuartiles , porque esta mediana y estos cuartiles, al ser funciones de la distribución empírica , se definen para todas las distribuciones, a diferencia de la media y la desviación estándar ; además, los cuartiles y la mediana son más robustos a las distribuciones sesgadas o de cola pesada que los resúmenes tradicionales (la media y la desviación estándar). Los paquetes S , S-PLUS y R incluyeron rutinas que usaban estadísticas de remuestreo , como el jackknife de Quenouille y Tukey y el bootstrap de Efron , que son no paramétricos y robustos (para muchos problemas).

El análisis exploratorio de datos, las estadísticas robustas, las estadísticas no paramétricas y el desarrollo de lenguajes de programación estadística facilitaron el trabajo de los estadísticos en problemas científicos y de ingeniería. Entre estos problemas se encontraban la fabricación de semiconductores y la comprensión de las redes de comunicaciones, que preocupaban a Bell Labs. Estos desarrollos estadísticos, todos ellos defendidos por Tukey, fueron diseñados para complementar la teoría analítica de la prueba de hipótesis estadísticas , en particular el énfasis de la tradición laplaciana en las familias exponenciales . ^[5]

Desarrollo

John W. Tukey escribió el libro Exploratory Data Analysis en 1977. ^[6] Tukey sostuvo que en estadística se hacía demasiado hincapié en la prueba de hipótesis estadísticas (análisis de datos confirmatorios); era necesario hacer más hincapié en el uso de datos para sugerir hipótesis para probar. En particular, sostuvo que confundir los dos tipos de análisis y emplearlos en el mismo conjunto de datos puede conducir a un sesgo sistemático debido a los problemas inherentes a la prueba de hipótesis sugeridas por los datos .

Los objetivos de la EDA son:

Permitir descubrimientos inesperados en los datos
Sugerir hipótesis sobre las causas de los fenómenos observados .
Evaluar los supuestos en los que se basará la inferencia estadística
Apoyar la selección de herramientas y técnicas estadísticas apropiadas
Proporcionar una base para la recopilación de datos adicionales a través de encuestas o experimentos ^[7]

Se han adoptado muchas técnicas de EDA en la minería de datos y también se están enseñando a estudiantes jóvenes como una forma de introducirlos al pensamiento estadístico. ^[8]

Técnicas y herramientas

Hay una serie de herramientas que son útiles para la EDA, pero la EDA se caracteriza más por la actitud adoptada que por técnicas particulares. ^[9]

Las técnicas gráficas típicas utilizadas en EDA son:

Diagrama de caja
Histograma
Gráfico multivariable
Gráfico de ejecución
Diagrama de Pareto
Diagrama de dispersión (2D/3D)
Diagrama de tallo y hojas
Coordenadas paralelas
Razón de probabilidades
Persecución de proyecciones dirigidas
Mapa de calor
Gráfico de barras
Gráfico del horizonte
Métodos de visualización basados en glifos como PhenoPlot ^[10] y caras de Chernoff
Métodos de proyección como gran recorrido, recorrido guiado y recorrido manual
Versiones interactivas de estas tramas

Reducción de dimensionalidad :

Las técnicas cuantitativas típicas son:

Historia

Muchas ideas de EDA se remontan a autores anteriores, por ejemplo:

Francis Galton enfatizó las estadísticas de orden y los cuantiles .
Arthur Lyon Bowley utilizó precursores del diagrama de tallos y del resumen de cinco números (Bowley en realidad utilizó un " resumen de siete cifras ", incluyendo los extremos, decilos y cuartiles , junto con la mediana—ver su Manual Elemental de Estadística (3.ª ed., 1920), pág. 62 ^[11] – define "el máximo y el mínimo, la mediana, los cuartiles y los dos decilos" como las "siete posiciones").
Andrew Ehrenberg articuló una filosofía de reducción de datos (véase su libro del mismo nombre).

El curso de Estadística en Sociedad (MDST 242) de la Universidad Abierta tomó las ideas anteriores y las fusionó con el trabajo de Gottfried Noether , que introdujo la inferencia estadística a través del lanzamiento de una moneda y la prueba de la mediana .

Ejemplo

Los hallazgos de EDA son ortogonales a la tarea de análisis principal. Para ilustrarlo, considere un ejemplo de Cook et al. donde la tarea de análisis es encontrar las variables que mejor predicen la propina que un grupo de comensales le dará al camarero. ^[12] Las variables disponibles en los datos recopilados para esta tarea son: el monto de la propina, la cuenta total, el género del pagador, la sección para fumadores/no fumadores, la hora del día, el día de la semana y el tamaño del grupo. La tarea de análisis principal se aborda ajustando un modelo de regresión donde la tasa de propina es la variable de respuesta. El modelo ajustado es

(propina) = 0,18 - 0,01 × (tamaño del grupo)

que dice que a medida que el tamaño del grupo de comensales aumenta en una persona (lo que genera una cuenta más alta), la tasa de propina disminuirá en un 1%, en promedio.

Sin embargo, explorar los datos revela otras características interesantes no descritas por este modelo.

Histograma de los montos de las propinas, en el que los intervalos cubren incrementos de $1. La distribución de los valores está sesgada hacia la derecha y es unimodal, como es habitual en las distribuciones de cantidades pequeñas y no negativas.
Histograma de los montos de las propinas, en el que los intervalos cubren incrementos de $0,10. Se observa un fenómeno interesante: los picos se producen en los montos de un dólar entero y de medio dólar, lo que se debe a que los clientes eligen números redondos como propina. Este comportamiento también es común en otros tipos de compras, como la gasolina.
Diagrama de dispersión de propinas vs. factura. Los puntos debajo de la línea corresponden a propinas menores a las esperadas (para ese monto de factura), y los puntos sobre la línea corresponden a propinas mayores a las esperadas. Podríamos esperar ver una asociación lineal positiva y estrecha, pero en cambio vemos una variación que aumenta con el monto de la propina . En particular, hay más puntos alejados de la línea en la parte inferior derecha que en la parte superior izquierda, lo que indica que más clientes son muy tacaños que muy generosos.
Diagrama de dispersión de propinas frente a facturas separadas por género del pagador y categoría de fumadores. En los grupos de fumadores, las propinas que dan son mucho más variables. Los hombres tienden a pagar las facturas (pocas) más altas, y las mujeres no fumadoras tienden a dar propinas de forma muy constante (con tres excepciones notables que se muestran en la muestra).

Lo que se aprende de los gráficos es diferente de lo que ilustra el modelo de regresión, aunque el experimento no fue diseñado para investigar ninguna de estas otras tendencias. Los patrones encontrados al explorar los datos sugieren hipótesis sobre el vuelco que pueden no haberse previsto de antemano y que podrían conducir a interesantes experimentos de seguimiento en los que las hipótesis se formulen formalmente y se pongan a prueba mediante la recopilación de nuevos datos.

Software

JMP , un paquete EDA de SAS Institute .
KNIME , Konstanz Information Miner: plataforma de exploración de datos de código abierto basada en Eclipse.
Minitab , un paquete de EDA y estadística general ampliamente utilizado en entornos industriales y corporativos.
Orange , un paquete de software de minería de datos y aprendizaje automático de código abierto .
Python , un lenguaje de programación de código abierto ampliamente utilizado en minería de datos y aprendizaje automático.
R , un lenguaje de programación de código abierto para gráficos y computación estadística. Junto con Python, uno de los lenguajes más populares para la ciencia de datos.
TinkerPlots es un software EDA para estudiantes de primaria y secundaria.
Weka es un paquete de minería de datos de código abierto que incluye herramientas de visualización y EDA, como búsqueda de proyecciones dirigidas .

Véase también

El cuarteto de Anscombe sobre la importancia de la exploración
Dragado de datos
Análisis predictivo
Análisis de datos estructurados (estadísticas)
Análisis de frecuencia configuracional
Estadísticas descriptivas

Referencias

^ Chatfield, C. (1995). Resolución de problemas: una guía para estadísticos (2.ª ed.). Chapman y Hall. ISBN 978-0412606304.
^ Baillie, Mark; Le Cessie, Saskia; Schmidt, Carsten Oliver; Lusa, Lara; Huebner, Marianne; Grupo temático "Análisis inicial de datos" de la Iniciativa STRATOS (2022). "Diez reglas simples para el análisis inicial de datos". PLOS Computational Biology . 18 (2): e1009819. Bibcode :2022PLSCB..18E9819B. doi : 10.1371/journal.pcbi.1009819 . PMC 8870512 . PMID 35202399.
^ John Tukey - El futuro del análisis de datos - Julio de 1961
^ Becker, Richard A., A Brief History of S, Murray Hill, Nueva Jersey: AT&T Bell Laboratories, archivado desde el original (PS) el 23 de julio de 2015 , recuperado el 23 de julio de 2015 , ... queríamos poder interactuar con nuestros datos, utilizando técnicas de Análisis Exploratorio de Datos (Tukey, 1971).
^ Morgenthaler, Stephan; Fernholz, Luisa T. (2000). "Conversación con John W. Tukey y Elizabeth Tukey, Luisa T. Fernholz y Stephan Morgenthaler". Ciencia estadística . 15 (1): 79–94. doi : 10.1214/ss/1009212675 .
^ Tukey, John W. (1977). Análisis exploratorio de datos . Pearson. ISBN 978-0201076165.
^ Behrens-Principios y procedimientos del análisis exploratorio de datos-Asociación Estadounidense de Psicología-1997
^ Konold, C. (1999). "La estadística va a la escuela". Psicología contemporánea . 44 (1): 81–82. doi :10.1037/001949.
^ Tukey, John W. (1980). "Necesitamos tanto datos exploratorios como confirmatorios". The American Statistician . 34 (1): 23–25. doi :10.1080/00031305.1980.10482706.
^ Sailem, Heba Z.; Sero, Julia E.; Bakal, Chris (8 de enero de 2015). "Visualización de datos de imágenes celulares utilizando PhenoPlot". Nature Communications . 6 (1): 5825. Bibcode :2015NatCo...6.5825S. doi :10.1038/ncomms6825. ISSN 2041-1723. PMC 4354266 . PMID 25569359.
^ Manual elemental de estadística (3.ª edición, 1920)https://archive.org/details/cu31924013702968/page/n5
^ Cook, D. y Swayne, DF (con A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (2007) "Gráficos interactivos y dinámicos para análisis de datos: con R y GGobi" Springer, 978-0387717616

Bibliografía

Andrienko, N y Andrienko, G (2005) Análisis exploratorio de datos espaciales y temporales. Un enfoque sistemático . Springer. ISBN 3-540-25994-5
Cook, D. y Swayne, DF (con A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (12 de diciembre de 2007). Gráficos interactivos y dinámicos para análisis de datos: con R y GGobi . Springer. ISBN 9780387717616.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
Cook, D. y Swayne, DF (con A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (12 de diciembre de 2007). Gráficos interactivos y dinámicos para análisis de datos: con R y GGobi. Springer. ISBN 9780387717616.
Hoaglin, DC; Mosteller, F y Tukey, John Wilder (Eds) (1985). Exploración de tablas, tendencias y formas de datos. ISBN 978-0-471-09776-1.
Hoaglin, DC; Mosteller, F y Tukey, John Wilder (Eds) (1983). Entendiendo el análisis de datos robusto y exploratorio. ISBN 978-0-471-09777-8.
Young, FW Valero-Mora, P. y Friendly M. (2006) Visual Statistics: Seeing your data with Dynamic Interactive Graphics [Estadísticas visuales: cómo ver los datos con gráficos interactivos dinámicos]. Wiley ISBN 978-0-471-68160-1 Jambu M. (1991) Exploratory and Multivariate Data Analysis [Análisis exploratorio y multivariado de datos]. Academic Press ISBN 0123800900
SHC DuToit, AGW Steyn, RH Stumpf (1986) Análisis gráfico de datos exploratorios. Springer ISBN 978-1-4612-9371-2
Hoaglin, DC; Mosteller, F y Tukey, John Wilder (Eds) (1985). Exploración de tablas, tendencias y formas de datos . Wiley. ISBN 978-0-471-09776-1.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
Hoaglin, DC; Mosteller, F y Tukey, John Wilder (Eds) (1983). Entender el análisis de datos robusto y exploratorio . Wiley. ISBN 978-0-471-09777-8.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
Inselberg, Alfred (2009). Coordenadas paralelas: geometría multidimensional visual y sus aplicaciones . Londres, Nueva York: Springer. ISBN 978-0-387-68628-8.
Leinhardt, G., Leinhardt, S., Análisis exploratorio de datos: nuevas herramientas para el análisis de datos empíricos , Review of Research in Education, vol. 8, 1980 (1980), págs. 85–157.
Martinez, WL ; Martinez, AR & Solka, J. (2010). Análisis exploratorio de datos con MATLAB, segunda edición . Chapman & Hall/CRC. ISBN 9781439812204.
Theus, M., Urbanek, S. (2008), Gráficos interactivos para análisis de datos: principios y ejemplos, CRC Press, Boca Raton, FL, ISBN 978-1-58488-594-8
Tucker, L; MacCallum, R. (1993). Análisis factorial exploratorio.
Tukey, John Wilder (1977). Análisis exploratorio de datos . Addison-Wesley. ISBN 978-0-201-07616-5.
Velleman, PF; Hoaglin, DC (1981). Aplicaciones, fundamentos y cálculo del análisis exploratorio de datos . Duxbury Press. ISBN 978-0-87150-409-8.
Young, FW Valero-Mora, P. y Friendly M. (2006) Visual Statistics: Viewing your data with Dynamic Interactive Graphics [Estadísticas visuales: cómo ver los datos con gráficos interactivos dinámicos]. Wiley ISBN 978-0-471-68160-1
Jambu M. (1991) Análisis exploratorio y multivariado de datos. Academic Press ISBN 0123800900
SHC DuToit, AGW Steyn, RH Stumpf (1986) Análisis gráfico de datos exploratorios. Springer ISBN 978-1-4612-9371-2

Enlaces externos

Universidad Carnegie Mellon: curso gratuito en línea sobre probabilidad y estadística, con un módulo sobre EDA
• Capítulo de análisis exploratorio de datos: manual de estadística de ingeniería