Modelo lineal general

El modelo lineal general o modelo de regresión multivariante general es una forma compacta de escribir simultáneamente varios modelos de regresión lineal múltiple . En ese sentido, no es un modelo lineal estadístico independiente . Los diversos modelos de regresión lineal múltiple pueden escribirse de forma compacta como ^[1]

\mathbf {Y} =\mathbf {X} \mathbf {B} +\mathbf {U} ,

donde Y es una matriz con series de mediciones multivariadas (siendo cada columna un conjunto de mediciones de una de las variables dependientes ), X es una matriz de observaciones de variables independientes que podría ser una matriz de diseño (siendo cada columna un conjunto de observaciones de una de las variables independientes), B es una matriz que contiene parámetros que normalmente se van a estimar y U es una matriz que contiene errores (ruido). Normalmente se supone que los errores no están correlacionados entre mediciones y siguen una distribución normal multivariada . Si los errores no siguen una distribución normal multivariada, se pueden utilizar modelos lineales generalizados para relajar los supuestos sobre Y y U.

El modelo lineal general incorpora varios modelos estadísticos diferentes: ANOVA , ANCOVA , MANOVA , MANCOVA , regresión lineal ordinaria , prueba t y prueba F. El modelo lineal general es una generalización de la regresión lineal múltiple al caso de más de una variable dependiente. Si Y , B y U fueran vectores de columna , la ecuación matricial anterior representaría una regresión lineal múltiple.

Las pruebas de hipótesis con el modelo lineal general se pueden realizar de dos formas: multivariadas o como varias pruebas univariadas independientes . En las pruebas multivariadas las columnas de Y se prueban juntas, mientras que en las pruebas univariadas las columnas de Y se prueban de forma independiente, es decir, como múltiples pruebas univariadas con la misma matriz de diseño.

Comparación con la regresión lineal múltiple

La regresión lineal múltiple es una generalización de la regresión lineal simple al caso de más de una variable independiente y un caso especial de los modelos lineales generales, restringido a una variable dependiente. El modelo básico de la regresión lineal múltiple es

Y_{i}=\beta _{0}+\beta _{1}X_{i1}+\beta _{2}X_{i2}+\ldots +\beta _{p}X_{ip}+\epsilon _{i}

o de forma más compacta

Y_{i}=\beta _{0}+\sum \limits _{k=1}^{p}{\beta _{k}X_{ik}}+\epsilon _{i}

para cada observación i = 1, ... , n .

En la fórmula anterior, consideramos n observaciones de una variable dependiente y p variables independientes. Por lo tanto, Y _i es la i ^-ésima observación de la variable dependiente, X _ik es la k- ^ésima observación de la k ^-ésima variable independiente, j = 1, 2, ..., p . Los valores β _j representan los parámetros que se van a estimar y ε _i es el i ^-ésimo error normal independiente distribuido de forma idéntica.

En la regresión lineal multivariada más general, hay una ecuación de la forma anterior para cada una de m > 1 variables dependientes que comparten el mismo conjunto de variables explicativas y, por lo tanto, se estiman simultáneamente entre sí:

Y_{ij}=\beta _{0j}+\beta _{1j}X_{i1}+\beta _{2j}X_{i2}+\ldots +\beta _{pj}X_{ip}+\epsilon _{ij}

o de forma más compacta

Y_{ij}=\beta _{0j}+\sum \limits _{k=1}^{p}{\beta _{kj}X_{ik}}+\epsilon _{ij}

para todas las observaciones indexadas como i = 1, ..., n y para todas las variables dependientes indexadas como j = 1, ..., m .

Téngase en cuenta que, dado que cada variable dependiente tiene su propio conjunto de parámetros de regresión que deben ajustarse, desde un punto de vista computacional la regresión multivariada general es simplemente una secuencia de regresiones lineales múltiples estándar que utilizan las mismas variables explicativas.

Comparación con el modelo lineal generalizado

El modelo lineal general y el modelo lineal generalizado (GLM) ^[2]^[3] son dos familias de métodos estadísticos comúnmente utilizados para relacionar un número determinado de predictores continuos y/o categóricos con una única variable de resultado .

La principal diferencia entre los dos enfoques es que el modelo lineal general supone estrictamente que los residuos seguirán una distribución condicionalmente normal , ^[4] mientras que el GLM relaja este supuesto y permite una variedad de otras distribuciones de la familia exponencial para los residuos. ^[2] Cabe destacar que el modelo lineal general es un caso especial del GLM en el que la distribución de los residuos sigue una distribución condicionalmente normal.

La distribución de los residuos depende en gran medida del tipo y la distribución de la variable de resultado; los diferentes tipos de variables de resultado dan lugar a la variedad de modelos dentro de la familia GLM. Los modelos comúnmente utilizados en la familia GLM incluyen la regresión logística binaria ^[5] para resultados binarios o dicotómicos, la regresión de Poisson ^[6] para resultados de recuento y la regresión lineal para resultados continuos con distribución normal. Esto significa que se puede hablar de GLM como una familia general de modelos estadísticos o como modelos específicos para tipos de resultados específicos.

Aplicaciones

Una aplicación del modelo lineal general aparece en el análisis de múltiples escáneres cerebrales en experimentos científicos donde Y contiene datos de escáneres cerebrales, X contiene variables de diseño experimental y factores de confusión. Por lo general, se prueba de manera univariante (generalmente se denomina univariante de masas en este contexto) y a menudo se lo conoce como mapeo paramétrico estadístico . ^[12]

Véase también

Notas

^ KV Mardia , JT Kent y JM Bibby (1979). Análisis multivariado . Academic Press . ISBN 0-12-471252-5.
^ ab McCullagh, P.; Nelder, JA (1989), "Un esquema de modelos lineales generalizados", Modelos lineales generalizados , Springer US, págs. 21–47, doi :10.1007/978-1-4899-3242-6_2, ISBN 9780412317606
^ Fox, J. (2015). Análisis de regresión aplicado y modelos lineales generalizados . Sage Publications.
^ Cohen, J., Cohen, P., West, SG, y Aiken, LS (2003). Análisis de correlación/regresión múltiple aplicado a las ciencias del comportamiento.
^ Hosmer Jr, DW, Lemeshow, S. y Sturdivant, RX (2013). Regresión logística aplicada (Vol. 398). John Wiley & Sons.
^ Gardner, W.; Mulvey, EP; Shaw, EC (1995). "Análisis de regresión de recuentos y tasas: Poisson, Poisson sobredispersado y modelos binomiales negativos". Psychological Bulletin . 118 (3): 392–404. doi :10.1037/0033-2909.118.3.392. PMID 7501743.
^ McCullagh, Peter ; Nelder, John (1989). Modelos lineales generalizados, segunda edición . Boca Raton: Chapman and Hall/CRC. ISBN 978-0-412-31760-6.
^ LinearModelFit, Centro de documentación del lenguaje Wolfram.
^ GeneralizedLinearModelFit, Centro de documentación del lenguaje Wolfram.
^ ls, Ayuda de EViews.
^ glm, Ayuda de EViews.
^ KJ Friston; AP Holmes; KJ Worsley; J.-B. Poline; CD Frith; RSJ Frackowiak (1995). "Mapas paramétricos estadísticos en imágenes funcionales: un enfoque lineal general". Mapeo cerebral humano . 2 (4): 189–210. doi :10.1002/hbm.460020402. S2CID 9898609.

Referencias

Christensen, Ronald (2020). Respuestas planas a preguntas complejas: la teoría de modelos lineales (quinta edición). Nueva York: Springer. ISBN 978-3-030-32096-6.
Wichura, Michael J. (2006). El enfoque sin coordenadas para los modelos lineales . Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge: Cambridge University Press. pp. xiv+199. ISBN 978-0-521-86842-6.Señor 2283455 .
Rawlings, John O.; Pantula, Sastry G.; Dickey, David A., eds. (1998). Análisis de regresión aplicado . Springer Texts in Statistics. doi :10.1007/b98890. ISBN. 0-387-98454-2.