Análisis multivariado de varianza.

En estadística , el análisis de varianza multivariado ( MANOVA ) es un procedimiento para comparar medias muestrales multivariadas . Como procedimiento multivariado, se utiliza cuando hay dos o más variables dependientes , ^[1] y, a menudo, va seguido de pruebas de significancia que involucran variables dependientes individuales por separado. ^[2]

Sin relación con la imagen, las variables dependientes pueden ser k puntuaciones de satisfacción con la vida medidas en puntos de tiempo secuenciales y p puntuaciones de satisfacción en el trabajo medidas en puntos de tiempo secuenciales. En este caso existen k+p variables dependientes cuya combinación lineal sigue una distribución normal multivariada, homogeneidad de matriz de varianza-covarianza multivariada y relación lineal, sin multicolinealidad y cada una sin valores atípicos.

Modelo

Supongamos observaciones -dimensionales, donde la 'ésima observación se asigna al grupo y se distribuye alrededor del centro del grupo con ruido gaussiano multivariado : ${\estilo de texto n}$ ${\estilo de texto q}$ ${\estilo de texto i}$ ${\estilo de texto y_ {i}}$ ${\textstyle g(i)\in \{1,\dots ,m\}}$ ${\textstyle \mu ^{(g(i))}\in \mathbb {R} ^{q}}$

y_{i}=\mu ^{(g(i))}+\varepsilon _{i}\quad \varepsilon _{i}{\overset {\text{iid}}{\sim }}{ \mathcal {N}}_{q}(0,\Sigma )\quad {\text{ para }}i=1,\dots ,n,

matriz de covarianza hipótesis nula

{\estilo de texto \Sigma }

H_{0}\!:\;\mu ^{(1)}=\mu ^{(2)}=\dots =\mu ^{(m)}.

Relación con ANOVA

MANOVA es una forma generalizada de análisis de varianza univariado (ANOVA), ^[1] aunque, a diferencia del ANOVA univariado , utiliza la covarianza entre variables de resultado para probar la significación estadística de las diferencias de medias.

Mientras que en el análisis de varianza univariado aparecen sumas de cuadrados , en el análisis de varianza multivariado aparecen ciertas matrices definidas positivas . Las entradas diagonales son los mismos tipos de sumas de cuadrados que aparecen en ANOVA univariado. Las entradas fuera de la diagonal son sumas correspondientes de productos. Bajo supuestos de normalidad sobre las distribuciones de error , la contraparte de la suma de cuadrados debida al error tiene una distribución Wishart .

Evaluación de la hipótesis

Primero, defina las siguientes matrices: ${\textstyle n\times q}$

${\estilo de texto Y}$ : donde la -ésima fila es igual a ${\estilo de texto i}$ ${\estilo de texto y_ {i}}$

${\textstyle {\sombrero {Y}}}$ : donde la -ésima fila es la mejor predicción dada la pertenencia al grupo . Esa es la media de todas las observaciones en el grupo : . ${\estilo de texto i}$ ${\estilo de texto g(i)}$ ${\estilo de texto g(i)}$ ${\textstyle {\frac {1}{{\text{tamaño del grupo }}g(i)}}\sum _{k:g(k)=g(i)}y_{k}}$

${\estilo de texto {\bar {Y}}}$ : donde la -ésima fila es la mejor predicción sin información. Esa es la media empírica de todas las observaciones . ${\estilo de texto i}$ ${\estilo de texto n}$ ${\textstyle {\frac {1}{n}}\sum _ {k=1}^{n}y_ {k}}$

Entonces la matriz es una generalización de la suma de cuadrados explicada por el grupo, y es una generalización de la suma de cuadrados residual . ^[3]^[4] Tenga en cuenta que, alternativamente, también se podría hablar de covarianzas cuando las matrices mencionadas anteriormente se escalan en 1/(n-1), ya que las estadísticas de prueba posteriores no cambian al multiplicar y por la misma constante distinta de cero. ${\textstyle S_{\text{modelo}}:=({\sombrero {Y}}-{\bar {Y}})^{T}({\sombrero {Y}}-{\bar {Y}} )}$ ${\textstyle S_{\text{res}}:=(Y-{\sombrero {Y}})^{T}(Y-{\sombrero {Y}})}$ ${\textstyle S_{\text{modelo}}}$ ${\textstyle S_{\text{res}}}$

Las estadísticas más comunes ^[3]^[5] son resúmenes basados en las raíces (o valores propios) de la matriz. ${\estilo de texto \lambda _ {p}}$ ${\textstyle A:=S_{\text{modelo}}S_{\text{res}}^{-1}}$

Samuel Stanley Wilks ' distribuido como lambda (Λ) $\Lambda _{\text{Wilks}}=\prod _{1,\ldots ,p}(1/(1+\lambda _{p}))=\det(I+A)^{- 1}=\det(S_{\text{res}})/\det(S_{\text{res}}+S_{\text{modelo}})$
el rastro de KC Sreedharan Pillai – MS Bartlett , ^[6] $\Lambda _{\text{Pillai}}=\sum _{1,\ldots ,p}(\lambda _{p}/(1+\lambda _{p}))=\operatorname {tr} (A(I+A)^{-1})$
el rastro de Lawley- Hotelling , $\Lambda _{\text{LH}}=\sum _{1,\ldots ,p}(\lambda _{p})=\operatorname {tr} (A)$
La raíz más grande de Roy (también llamada raíz más grande de Roy ), $\Lambda _{\text{Roy}}=\max _{p}(\lambda _{p})$

Continúa la discusión sobre los méritos de cada uno, ^[1] aunque la raíz más importante conduce sólo a un límite de importancia que generalmente no tiene interés práctico. Una complicación adicional es que, excepto para la raíz mayor de Roy, la distribución de estas estadísticas bajo la hipótesis nula no es sencilla y sólo puede aproximarse excepto en unos pocos casos de baja dimensión. ^{En [7]} se derivó un algoritmo para la distribución de la raíz más grande de Roy bajo la hipótesis nula , mientras que la distribución bajo la alternativa se estudia en ^{[8] .}

La aproximación más conocida de la lambda de Wilks fue obtenida por CR Rao .

En el caso de dos grupos, todas las estadísticas son equivalentes y la prueba se reduce al T-cuadrado de Hotelling .

Introducción de covariables (MANCOVA)

También se puede probar si existe un efecto de grupo después de ajustar las covariables. Para esto, siga el procedimiento anterior pero sustitúyalo por las predicciones del modelo lineal general , que contiene el grupo y las covariables, y sustitúyalo por las predicciones del modelo lineal general que contiene solo las covariables (y una intersección). Luego , la suma de cuadrados adicional se explica sumando la información de agrupación y es la suma de cuadrados residual del modelo que contiene la agrupación y las covariables. ^[4] ${\textstyle {\sombrero {Y}}}$ ${\estilo de texto {\bar {Y}}}$ ${\textstyle S_{\text{modelo}}}$ ${\textstyle S_{\text{res}}}$

Tenga en cuenta que en el caso de datos desequilibrados, el orden de adición de las covariables es importante.

Correlación de variables dependientes

El poder de MANOVA se ve afectado por las correlaciones de las variables dependientes y por los tamaños del efecto asociados con esas variables. Por ejemplo, cuando hay dos grupos y dos variables dependientes, el poder de MANOVA es más bajo cuando la correlación es igual a la relación entre el tamaño del efecto estandarizado más pequeño y el más grande. ^[9]

Ver también

Análisis permutacional de varianza para una alternativa no paramétrica.
Análisis de funciones discriminantes.
Análisis de correlación canónica
Análisis multivariado de varianza (Wikiversity)
Diseño de medidas repetidas

Referencias

^ abc Warne, RT (2014). "Una introducción al análisis de varianza multivariado (MANOVA) para científicos del comportamiento". Evaluación práctica, investigación y evaluación . 19 (17): 1–10.
^ Stevens, JP (2002). Estadística multivariada aplicada a las ciencias sociales. Mahwah, Nueva Jersey: Lawrence Erblaum.
^ ab Anderson, TW (1994). Introducción al análisis estadístico multivariado . Wiley.
^ ab Krzanowski, WJ (1988). Principios del análisis multivariado. La perspectiva de un usuario . Prensa de la Universidad de Oxford.
^ UCLA: Servicios de tecnología académica, Grupo de consultoría estadística. "Resultado anotado de Stata: MANOVA" . Consultado el 10 de febrero de 2024 .
^ "Conceptos básicos de MANOVA - Estadísticas reales utilizando Excel". www.estadísticas-real.com . Consultado el 5 de abril de 2018 .
^ Chiani, M. (2016), "Distribución de la raíz más grande de una matriz para la prueba de Roy en análisis de varianza multivariado", Journal of Multivariate Analysis , 143 : 467–471, arXiv : 1401.3987v3 , doi : 10.1016/j. jmva.2015.10.007, S2CID 37620291
^ IM Johnstone, B. Nadler "La prueba de raíz más grande de Roy bajo alternativas de rango uno" preimpresión de arXiv arXiv:1310.6581 (2013)
^ Frane, Andrés (2015). "Control de errores de potencia y tipo I para comparaciones univariadas en diseños multivariados de dos grupos". Investigación conductual multivariada . 50 (2): 233–247. doi :10.1080/00273171.2014.968836. PMID 26609880. S2CID 1532673.

enlaces externos

Wikiversidad tiene recursos de aprendizaje sobre el análisis multivariado de la varianza.