Enfoque de análisis de conjuntos de datos en estadística.
Análisis exploratorio de datos: revelación de conocimientos sobre la mejora de la inteligencia perimetral. En esta exploración integral, el gráfico traza las trayectorias de dos curvas: una que representa el modelo de evaluación cuantitativa para la mejora de la inteligencia perimetral y la otra que muestra los resultados de las pruebas reales. Ambos parten del origen (0,1) y convergen significativamente en (80,70), lo que indica una proporción integral compartida durante esta fase fundamental. Curiosamente, a medida que los datos se desarrollan más allá de este punto, emerge una divergencia discernible. El modelo de mejora de Edge Intelligence supera consistentemente los resultados de las pruebas reales, revelando una reserva convincente en proporciones integrales. Esta narrativa visual matizada proporciona información valiosa sobre la intrincada dinámica entre las predicciones modeladas y los resultados empíricos, lo que subraya la importancia del análisis exploratorio de datos para desentrañar las complejidades de la inteligencia de vanguardia mejorada.
Tukey definió el análisis de datos en 1961 como: "Procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o más exacto, y toda la maquinaria y resultados de ( estadísticas matemáticas) que se aplican al análisis de datos". [3]
El análisis de datos exploratorio es una técnica de análisis para analizar e investigar el conjunto de datos y resumir las principales características del conjunto de datos. La principal ventaja de EDA es proporcionar visualización de datos después de realizar el análisis.
La defensa de EDA por parte de Tukey alentó el desarrollo de paquetes de computación estadística , especialmente S en Bell Labs . [4] El lenguaje de programación S inspiró los sistemas S-PLUS y R. Esta familia de entornos de computación estadística presentaba capacidades de visualización dinámica enormemente mejoradas, lo que permitió a los estadísticos identificar valores atípicos , tendencias y patrones en los datos que merecían un estudio más detallado.
El análisis de datos exploratorios, las estadísticas sólidas, las estadísticas no paramétricas y el desarrollo de lenguajes de programación estadística facilitaron el trabajo de los estadísticos en problemas científicos y de ingeniería. Estos problemas incluían la fabricación de semiconductores y la comprensión de las redes de comunicaciones, que preocupaban a los Laboratorios Bell. Estos desarrollos estadísticos, todos defendidos por Tukey, fueron diseñados para complementar la teoría analítica de probar hipótesis estadísticas , particularmente el énfasis de la tradición laplaciana en las familias exponenciales . [5]
Desarrollo
Diagrama de flujo del proceso de ciencia de datos
John W. Tukey escribió el libro Exploratory Data Analysis en 1977. [6] Tukey sostuvo que en estadística se ponía demasiado énfasis en las pruebas de hipótesis estadísticas (análisis de datos confirmatorios); era necesario poner más énfasis en el uso de datos para sugerir hipótesis a probar. En particular, sostuvo que confundir los dos tipos de análisis y emplearlos en el mismo conjunto de datos puede conducir a un sesgo sistemático debido a los problemas inherentes a la prueba de hipótesis sugeridas por los datos .
Los objetivos de EDA son:
Habilitar descubrimientos inesperados en los datos.
Apoyar la selección de herramientas y técnicas estadísticas apropiadas.
Proporcionar una base para una mayor recopilación de datos a través de encuestas o experimentos [7]
Se han adoptado muchas técnicas EDA en la minería de datos . También se están enseñando a estudiantes jóvenes como una forma de introducirlos en el pensamiento estadístico. [8]
Técnicas y herramientas
Hay una serie de herramientas que son útiles para la EDA, pero la EDA se caracteriza más por la actitud adoptada que por técnicas particulares. [9]
Arthur Lyon Bowley utilizó precursores del diagrama de tallos y del resumen de cinco números (Bowley en realidad utilizó un " resumen de siete cifras ", incluidos los extremos, deciles y cuartiles , junto con la mediana; consulte su Manual elemental de estadística (3ª ed., 1920). ), p.62 [11] – define "el máximo y el mínimo, la mediana, los cuartiles y los dos deciles" como las "siete posiciones").
Los hallazgos de EDA son ortogonales a la tarea de análisis principal. Para ilustrar, consideremos un ejemplo de Cook et al. donde la tarea de análisis es encontrar las variables que mejor predicen la propina que una cena le dará al camarero. [12] Las variables disponibles en los datos recopilados para esta tarea son: el monto de la propina, la factura total, el sexo del pagador, la sección de fumadores/no fumadores, la hora del día, el día de la semana y el tamaño del grupo. La tarea de análisis principal se aborda ajustando un modelo de regresión donde la tasa de propinas es la variable de respuesta. El modelo ajustado es
(tasa de propinas) = 0,18 - 0,01 × (tamaño del grupo)
que dice que a medida que el tamaño del grupo de cena aumenta en una persona (lo que genera una factura más alta), la tasa de propina disminuirá en un 1%, en promedio.
Sin embargo, la exploración de los datos revela otras características interesantes no descritas por este modelo.
Histograma de montos de propinas donde los contenedores cubren incrementos de $1. La distribución de valores está sesgada hacia la derecha y es unimodal, como es común en distribuciones de cantidades pequeñas y no negativas.
Histograma de montos de propinas donde los contenedores cubren incrementos de $0,10. Se observa un fenómeno interesante: se producen picos en las cantidades de dólares enteros y de medio dólar, lo que se debe a que los clientes eligen números redondos como propina. Este comportamiento también es común a otro tipo de compras, como la gasolina.
Diagrama de dispersión de propinas versus factura. Los puntos debajo de la línea corresponden a propinas menores a las esperadas (para ese monto de factura) y los puntos arriba de la línea son mayores a las esperadas. Podríamos esperar ver una asociación lineal positiva y estrecha, pero en cambio vemos una variación que aumenta con la cantidad de propina . En particular, hay más puntos alejados de la línea en la parte inferior derecha que en la superior izquierda, lo que indica que hay más clientes muy tacaños que muy generosos.
Diagrama de dispersión de propinas versus factura separada por género del pagador y estado de la sección de fumadores. Las fiestas para fumadores tienen mucha más variabilidad en las propinas que dan. Los hombres tienden a pagar las (pocas) facturas más altas, y las mujeres no fumadoras tienden a dejar propinas de manera muy consistente (con tres excepciones notorias que se muestran en la muestra).
Lo que se aprende de los gráficos es diferente de lo que ilustra el modelo de regresión, aunque el experimento no fue diseñado para investigar ninguna de estas otras tendencias. Los patrones encontrados al explorar los datos sugieren hipótesis sobre la inclinación que tal vez no se hayan anticipado de antemano y que podrían conducir a interesantes experimentos de seguimiento en los que las hipótesis se plantean y prueban formalmente mediante la recopilación de nuevos datos.
Python , un lenguaje de programación de código abierto ampliamente utilizado en minería de datos y aprendizaje automático.
R , un lenguaje de programación de código abierto para gráficos y computación estadística. Junto con Python, uno de los lenguajes más populares para la ciencia de datos.
TinkerPlots un software EDA para estudiantes de primaria y secundaria superiores.
Weka es un paquete de minería de datos de código abierto que incluye herramientas de visualización y EDA, como la búsqueda de proyecciones dirigidas .
^ Chatfield, C. (1995). Resolución de problemas: una guía para estadísticos (2ª ed.). Chapman y Hall. ISBN 978-0412606304.
^ Baillie, Mark; Le Cessie, Saskia; Schmidt, Carsten Oliver; Lusa, Lara; Huebner, Marianne; Grupo Temático “Análisis de Datos Iniciales” de la Iniciativa STRATOS (2022). "Diez reglas sencillas para el análisis de datos inicial". PLOS Biología Computacional . 18 (2): e1009819. Código Bib : 2022PLSCB..18E9819B. doi : 10.1371/journal.pcbi.1009819 . PMC 8870512 . PMID 35202399.
^ John Tukey-El futuro del análisis de datos-Julio de 1961
^ Becker, Richard A., Una breve historia de S, Murray Hill, Nueva Jersey: AT&T Bell Laboratories, archivado desde el original (PS) el 23 de julio de 2015 , consultado el 23 de julio de 2015 , ... queríamos poder interactuar con nuestros datos, utilizando técnicas de Análisis Exploratorio de Datos (Tukey, 1971).
^ Morgenthaler, Stephan; Fernholz, Luisa T. (2000). "Conversación con John W. Tukey y Elizabeth Tukey, Luisa T. Fernholz y Stephan Morgenthaler". Ciencia estadística . 15 (1): 79–94. doi : 10.1214/ss/1009212675 .
^ Behrens-Principios y procedimientos de análisis de datos exploratorios-Asociación Estadounidense de Psicología-1997
^ Konold, C. (1999). "La estadística va a la escuela". Psicología Contemporánea . 44 (1): 81–82. doi :10.1037/001949.
^ Tukey, John W. (1980). "Necesitamos tanto exploraciones como confirmaciones". El estadístico estadounidense . 34 (1): 23–25. doi :10.1080/00031305.1980.10482706.
^ Sailem, Heba Z.; Sero, Julia E.; Bakal, Chris (8 de enero de 2015). "Visualización de datos de imágenes celulares mediante PhenoPlot". Comunicaciones de la naturaleza . 6 (1): 5825. Código bibliográfico : 2015NatCo...6.5825S. doi : 10.1038/ncomms6825. ISSN 2041-1723. PMC 4354266 . PMID 25569359.
^ Manual elemental de estadística (3.ª ed., 1920) https://archive.org/details/cu31924013702968/page/n5
^ Cook, D. y Swayne, DF (con A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (2007) "Gráficos interactivos y dinámicos para análisis de datos: con R y GGobi" Springer , 978-0387717616
Bibliografía
Andrienko, N & Andrienko, G (2005) Análisis exploratorio de datos espaciales y temporales. Un enfoque sistemático . Saltador. ISBN 3-540-25994-5
Cook, D. y Swayne, DF (con A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (12 de diciembre de 2007). Gráficos interactivos y dinámicos para análisis de datos: con R y GGobi . Saltador. ISBN 9780387717616.{{cite book}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
Cook, D. y Swayne, DF (con A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (12 de diciembre de 2007). Gráficos Interactivos y Dinámicos para Análisis de Datos: Con R y GGobi. Saltador. ISBN 9780387717616.
Hoaglin, CC; Mosteller, F y Tukey, John Wilder (Eds) (1985). Explorando tablas de datos, tendencias y formas. ISBN 978-0-471-09776-1.
Hoaglin, CC; Mosteller, F y Tukey, John Wilder (Eds) (1983). Comprensión del análisis de datos sólido y exploratorio. ISBN 978-0-471-09777-8.
Young, FW Valero-Mora, P. y Friendly M. (2006) Estadísticas visuales: visualización de datos con gráficos interactivos dinámicos. Wiley ISBN 978-0-471-68160-1 Jambu M. (1991) Análisis de datos exploratorios y multivariados. Prensa académica ISBN 0123800900
SHC DuToit, AGW Steyn, RH Stumpf (1986) Análisis gráfico de datos exploratorios. Springer ISBN 978-1-4612-9371-2
Hoaglin, CC; Mosteller, F y Tukey, John Wilder (Eds) (1985). Exploración de tablas de datos, tendencias y formas . Wiley. ISBN 978-0-471-09776-1.{{cite book}}: CS1 maint: multiple names: authors list (link)
Hoaglin, CC; Mosteller, F y Tukey, John Wilder (Eds) (1983). Comprensión del análisis de datos exploratorio y sólido . Wiley. ISBN 978-0-471-09777-8.{{cite book}}: CS1 maint: multiple names: authors list (link)
Inselberg, Alfred (2009). Coordenadas paralelas: geometría visual multidimensional y sus aplicaciones . Londres Nueva York: Springer. ISBN 978-0-387-68628-8.
Leinhardt, G., Leinhardt, S., Análisis de datos exploratorios: nuevas herramientas para el análisis de datos empíricos , Revisión de la investigación en educación, vol. 8, 1980 (1980), págs. 85-157.
Martínez, WL ; Martínez, AR y Solka, J. (2010). Análisis exploratorio de datos con MATLAB, segunda edición . Chapman y Hall/CRC. ISBN 9781439812204.
Theus, M., Urbanek, S. (2008), Gráficos interactivos para análisis de datos: principios y ejemplos, CRC Press, Boca Raton, FL, ISBN 978-1-58488-594-8
Tukey, John Wilder (1977). Análisis exploratorio de datos . Addison-Wesley. ISBN 978-0-201-07616-5.
Velleman, PF; Hoaglin, DC (1981). Aplicaciones, conceptos básicos y computación del análisis de datos exploratorios . Prensa de Duxbury. ISBN 978-0-87150-409-8.
Young, FW Valero-Mora, P. y Friendly M. (2006) Estadísticas visuales: visualización de datos con gráficos interactivos dinámicos. Wiley ISBN 978-0-471-68160-1
Jambu M. (1991) Análisis de datos exploratorios y multivariados. Prensa académica ISBN 0123800900
SHC DuToit, AGW Steyn, RH Stumpf (1986) Análisis gráfico de datos exploratorios. Springer ISBN 978-1-4612-9371-2
Andrienko, N & Andrienko, G (2005) Análisis exploratorio de datos espaciales y temporales. Un enfoque sistemático. Saltador. ISBN 3-540-25994-5 Cook, D. y Swayne, DF (con A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (12 de diciembre de 2007). Gráficos Interactivos y Dinámicos para Análisis de Datos: Con R y GGobi. Saltador. ISBN 9780387717616. Hoaglin, CC; Mosteller, F y Tukey, John Wilder (Eds) (1985). Explorando tablas de datos, tendencias y formas. ISBN 978-0-471-09776-1. Hoaglin, CC; Mosteller, F y Tukey, John Wilder (Eds) (1983). Comprensión del análisis de datos sólido y exploratorio. ISBN 978-0-471-09777-8. Young, FW Valero-Mora, P. y Friendly M. (2006) Estadísticas visuales: visualización de datos con gráficos interactivos dinámicos. Wiley ISBN 978-0-471-68160-1 Jambu M. (1991) Análisis de datos exploratorios y multivariados. Prensa académica ISBN 0123800900 SHC DuToit, AGW Steyn, RH Stumpf (1986) Análisis gráfico de datos exploratorios. Springer ISBN 978-1-4612-9371-2
enlaces externos
Universidad Carnegie Mellon: curso gratuito en línea sobre probabilidad y estadística, con un módulo sobre EDA
• Capítulo de análisis de datos exploratorios: manual de estadísticas de ingeniería.