Gráfico de dispersión

Tiempo de espera entre erupciones y duración de la erupción del géiser Old Faithful en el Parque Nacional Yellowstone , Wyoming , Estados Unidos. Este gráfico sugiere que generalmente hay dos tipos de erupciones: de corta espera y corta duración y de larga espera y larga duración.

Un diagrama de dispersión , también llamado diagrama de dispersión , gráfico de dispersión , gráfico de dispersión , diagrama de dispersión o diagrama de dispersión , ^[3] es un tipo de diagrama o diagrama matemático que utiliza coordenadas cartesianas para mostrar valores para típicamente dos variables para un conjunto de datos. Si los puntos están codificados (color/forma/tamaño), se puede mostrar una variable adicional. Los datos se muestran como una colección de puntos, cada uno de los cuales tiene el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable que determina la posición en el eje vertical . ^[4]

Descripción general

Se puede utilizar un diagrama de dispersión cuando una variable continua está bajo el control del experimentador y la otra depende de ella o cuando ambas variables continuas son independientes. Si existe un parámetro que aumenta y/o disminuye sistemáticamente por el otro, se denomina parámetro de control o variable independiente y habitualmente se traza a lo largo del eje horizontal. La variable medida o dependiente se suele trazar a lo largo del eje vertical. Si no existe ninguna variable dependiente, cualquier tipo de variable se puede representar en cualquiera de los ejes y un diagrama de dispersión ilustrará sólo el grado de correlación (no de causalidad ) entre dos variables. ^{[ cita necesaria ]}

Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre variables con un determinado intervalo de confianza . Por ejemplo, el peso y la altura estarían en el eje $y$ , y la altura estaría en el eje $x$ . Las correlaciones pueden ser positivas (ascendentes), negativas (descendentes) o nulas (no correlacionadas). Si el patrón de puntos se inclina desde la parte inferior izquierda hasta la superior derecha, indica una correlación positiva entre las variables que se están estudiando. Si el patrón de puntos se inclina desde la parte superior izquierda a la inferior derecha, indica una correlación negativa. Se puede trazar una línea de mejor ajuste (también llamada "línea de tendencia") para estudiar la relación entre las variables. Se puede determinar una ecuación para la correlación entre las variables mediante procedimientos de mejor ajuste establecidos. Para una correlación lineal, el procedimiento de mejor ajuste se conoce como regresión lineal y se garantiza que generará una solución correcta en un tiempo finito. No se garantiza que ningún procedimiento universal de mejor ajuste genere una solución correcta para relaciones arbitrarias. Un diagrama de dispersión también es muy útil cuando deseamos ver cómo dos conjuntos de datos comparables coinciden para mostrar relaciones no lineales entre variables. La capacidad de hacer esto se puede mejorar agregando una línea suave como LOESS . ^[5] Además, si los datos se representan mediante un modelo mixto de relaciones simples, estas relaciones serán visualmente evidentes como patrones superpuestos. ^{[ cita necesaria ]}

El diagrama de dispersión es una de las siete herramientas básicas del control de calidad . ^[6]

Los gráficos de dispersión se pueden crear en forma de gráficos de burbujas , de marcadores o de líneas . ^[7]

Ejemplo

Por ejemplo, para mostrar un vínculo entre la capacidad pulmonar de una persona y cuánto tiempo esa persona puede contener la respiración, un investigador elegiría un grupo de personas para estudiar, luego mediría la capacidad pulmonar de cada uno (primera variable) y cuánto tiempo esa persona podría contener la respiración. contener la respiración (segunda variable). Luego, el investigador trazaría los datos en un diagrama de dispersión, asignando "capacidad pulmonar" al eje horizontal y "tiempo de retención de la respiración" al eje vertical. ^{[ cita necesaria ]}

Una persona con una capacidad pulmonar de400 cl que contuvieron la respiración durante21,7 s estarían representados por un solo punto en el diagrama de dispersión en el punto (400, 21,7) en las coordenadas cartesianas . El diagrama de dispersión de todas las personas en el estudio permitiría al investigador obtener una comparación visual de las dos variables en el conjunto de datos y ayudará a determinar qué tipo de relación podría haber entre las dos variables. ^{[ cita necesaria ]}

Matrices de diagramas de dispersión

Para un conjunto de variables de datos (dimensiones) X ₁ , X ₂ , ... , X _k , la matriz del diagrama de dispersión muestra todos los diagramas de dispersión por pares de las variables en una sola vista con múltiples diagramas de dispersión en un formato matricial. Para $k$ variables, la matriz del diagrama de dispersión contendrá $k$ filas y $k$ columnas. Un gráfico ubicado en la intersección de la fila y _la $j$ -ésima columna es un gráfico de variables Xi versus X _j . ^[8] Esto significa que cada fila y columna es una dimensión, y cada celda traza un diagrama de dispersión de dos dimensiones. ^[^{cita necesaria}^]

Una matriz de diagrama de dispersión generalizada ^[9] ofrece una variedad de visualizaciones de combinaciones pareadas de variables categóricas y cuantitativas. Se puede utilizar un gráfico de mosaico , un diagrama de fluctuación o un gráfico de barras facetadas para mostrar dos variables categóricas. Se utilizan otros gráficos para una variable categórica y otra cuantitativa.

Ver también

Referencias

^ Amistoso, Michael; Denis, Dan (2005). "Los primeros orígenes y desarrollo del diagrama de dispersión". Revista de Historia de las Ciencias del Comportamiento . 41 (2): 103-130. doi :10.1002/jhbs.20078. PMID 15812820.
^ Visualizaciones creadas con VisIt en wci.llnl.gov. Última actualización: 8 de noviembre de 2007.
^ Jarrell, Stephen B. (1994). Estadísticas básicas (edición especial previa a la publicación). Dubuque, Iowa: Wm. C. Pub marrón. pag. 492.ISBN 978-0-697-21595-6. Cuando buscamos una relación entre dos variables cuantitativas, un gráfico estándar de los pares de datos disponibles (X,Y), llamado diagrama de dispersión , frecuentemente ayuda...
^ Utts, Jessica M. Ver las estadísticas, tercera edición, Thomson Brooks/Cole, 2005, págs. 166-167. ISBN 0-534-39402-7
^ Cleveland, William (1993). Visualizando datos . Murray Hill, Cumbre de Nueva Jersey, Nueva Jersey: At & T Bell Laboratories Publicado por Hobart Press. ISBN 978-0963488404.
^ Nancy R. Tague (2004). "Siete herramientas básicas de calidad". La caja de herramientas de calidad . Milwaukee, Wisconsin : Sociedad Estadounidense para la Calidad . pag. 15 . Consultado el 5 de febrero de 2010 .
^ "Gráfico de dispersión: documentación del gráfico JavaScript de AnyChart". Cualquier gráfico. Archivado desde el original el 1 de febrero de 2016 . Consultado el 3 de febrero de 2016 .
^ Matriz de diagrama de dispersión en itl.nist.gov.
^ Emerson, John W.; Verde, Walton A.; Schoerke, Barret; Crowley, Jason (2013). "La trama de pares generalizados". Revista de Estadística Computacional y Gráfica . 22 (1): 79–91. doi :10.1080/10618600.2012.694762. S2CID 28344569.

enlaces externos

Medios relacionados con diagramas de dispersión en Wikimedia Commons
¿Qué es un diagrama de dispersión? Archivado el 7 de agosto de 2020 en Wayback Machine.
Matriz de diagrama de dispersión de correlación para datos categóricos ordenados: explicación y código R
Diagrama de dispersión de densidad para grandes conjuntos de datos (cientos de millones de puntos)