Modelo linear general

El modelo lineal general o modelo de regresión multivariante general es una forma compacta de escribir simultáneamente varios modelos de regresión lineal múltiple . En ese sentido, no es un modelo lineal estadístico separado . Los diversos modelos de regresión lineal múltiple se pueden escribir de forma compacta como ^[1]

\mathbf {Y} =\mathbf {X} \mathbf {B} +\mathbf {U} ,

donde Y es una matriz con una serie de mediciones multivariadas (cada columna es un conjunto de mediciones de una de las variables dependientes ), X es una matriz de observaciones de variables independientes que podría ser una matriz de diseño (cada columna es un conjunto de observaciones de una de las variables independientes), B es una matriz que contiene parámetros que normalmente se estiman y U es una matriz que contiene errores (ruido). Generalmente se supone que los errores no están correlacionados entre las mediciones y siguen una distribución normal multivariada . Si los errores no siguen una distribución normal multivariada, se pueden utilizar modelos lineales generalizados para relajar los supuestos sobre Y y U.

El modelo lineal general incorpora varios modelos estadísticos diferentes: ANOVA , ANCOVA , MANOVA , MANCOVA , regresión lineal ordinaria , prueba t y prueba F. El modelo lineal general es una generalización de la regresión lineal múltiple al caso de más de una variable dependiente. Si Y , B y U fueran vectores columna , la ecuación matricial anterior representaría una regresión lineal múltiple.

Las pruebas de hipótesis con el modelo lineal general se pueden realizar de dos formas: multivariadas o como varias pruebas univariadas independientes . En las pruebas multivariadas las columnas de Y se prueban juntas, mientras que en las pruebas univariadas las columnas de Y se prueban de forma independiente, es decir, como múltiples pruebas univariadas con la misma matriz de diseño.

Comparación con la regresión lineal múltiple

La regresión lineal múltiple es una generalización de la regresión lineal simple al caso de más de una variable independiente y un caso especial de modelos lineales generales, restringidos a una variable dependiente. El modelo básico para la regresión lineal múltiple es

Y_{i}=\beta _{0}+\beta _{1}X_{i1}+\beta _{2}X_{i2}+\ldots +\beta _{p}X_{ip}+\epsilon _{i}

o más compacto

Y_{i}=\beta _{0}+\sum \limits _{k=1}^{p}{\beta _{k}X_{ik}}+\epsilon _{i}

para cada observación i = 1, ... , n .

En la fórmula anterior consideramos n observaciones de una variable dependiente yp variables independientes. Por lo tanto, Y _i es la i- ^ésima observación de la variable dependiente, X _ij es la i ^-ésima observación de la j ^- ésima variable independiente, j = 1, 2, ..., p . Los valores β _j representan parámetros a estimar, y ε _i es el i ^-ésimo error normal independiente distribuido idénticamente.

En la regresión lineal multivariada más general, hay una ecuación de la forma anterior para cada una de m > 1 variables dependientes que comparten el mismo conjunto de variables explicativas y, por lo tanto, se estiman simultáneamente entre sí:

Y_{ij}=\beta _{0j}+\beta _{1j}X_{i1}+\beta _{2j}X_{i2}+\ldots +\beta _{pj}X_{ip}+\epsilon _{ij}

o más compacto

Y_{ij}=\beta _{0j}+\sum \limits _{k=1}^{p}{\beta _{kj}X_{ik}}+\epsilon _{ij}

para todas las observaciones indexadas como i = 1, ... , n y para todas las variables dependientes indexadas como j = 1, ... , m .

Tenga en cuenta que, dado que cada variable dependiente tiene su propio conjunto de parámetros de regresión que deben ajustarse, desde un punto de vista computacional la regresión multivariada general es simplemente una secuencia de regresiones lineales múltiples estándar que utilizan las mismas variables explicativas.

Comparación con el modelo lineal generalizado.

El modelo lineal general y el modelo lineal generalizado (GLM) ^[2]^[3] son dos familias de métodos estadísticos comúnmente utilizados para relacionar algún número de predictores continuos y/o categóricos con una única variable de resultado .

La principal diferencia entre los dos enfoques es que el modelo lineal general supone estrictamente que los residuos seguirán una distribución condicionalmente normal , ^[4] mientras que el GLM flexibiliza este supuesto y permite una variedad de otras distribuciones de la familia exponencial para los residuos. ^[2] Es de destacar que el modelo lineal general es un caso especial del GLM en el que la distribución de los residuos sigue una distribución condicionalmente normal.

La distribución de los residuos depende en gran medida del tipo y distribución de la variable de resultado; Diferentes tipos de variables de resultado conducen a la variedad de modelos dentro de la familia GLM. Los modelos comúnmente utilizados en la familia GLM incluyen la regresión logística binaria ^[5] para resultados binarios o dicotómicos, la regresión de Poisson ^[6] para resultados de recuento y la regresión lineal para resultados continuos normalmente distribuidos. Esto significa que se puede hablar del GLM como una familia general de modelos estadísticos o como modelos específicos para tipos de resultados específicos.

Aplicaciones

Aparece una aplicación del modelo lineal general en el análisis de múltiples escáneres cerebrales en experimentos científicos donde Y contiene datos de escáneres cerebrales, X contiene variables de diseño experimental y factores de confusión. Por lo general, se prueba de forma univariada (generalmente denominada univariada de masa en este entorno) y a menudo se denomina mapeo paramétrico estadístico . ^[12]

Ver también

Notas

^ KV Mardia , JT Kent y JM Bibby (1979). Analisis multivariable . Prensa académica . ISBN 0-12-471252-5.
^ ab McCullagh, P.; Nelder, JA (1989), "Un esquema de modelos lineales generalizados", Modelos lineales generalizados , Springer EE. UU., págs. 21–47, doi :10.1007/978-1-4899-3242-6_2, ISBN 9780412317606
^ Zorro, J. (2015). Análisis de regresión aplicados y modelos lineales generalizados . Publicaciones sabias.
^ Cohen, J., Cohen, P., West, SG y Aiken, LS (2003). Análisis de correlación/regresión múltiple aplicado a las ciencias del comportamiento.
^ Hosmer Jr, DW, Lemeshow, S. y Sturdivant, RX (2013). Regresión logística aplicada (Vol. 398). John Wiley e hijos.
^ Gardner, W.; Mulvey, EP; Shaw, CE (1995). "Análisis de regresión de recuentos y tasas: Poisson, Poisson sobredispersado y modelos binomiales negativos". Boletín Psicológico . 118 (3): 392–404. doi :10.1037/0033-2909.118.3.392. PMID 7501743.
^ McCullagh, Pedro ; Nelder, John (1989). Modelos lineales generalizados, segunda edición . Boca Ratón: Chapman y Hall/CRC. ISBN 978-0-412-31760-6.
^ LinearModelFit, Centro de documentación de Wolfram Language.
^ GeneralizedLinearModelFit, Centro de documentación de Wolfram Language.
^ ls, Ayuda de EViews.
^ glm, Ayuda de EViews.
^ KJ Friston; AP Holmes; KJ Worsley; J.-B. Polina; CD Frith; RSJ Frackowiak (1995). "Mapas estadísticos paramétricos en imágenes funcionales: un enfoque lineal general". Mapeo del cerebro humano . 2 (4): 189–210. doi :10.1002/hbm.460020402. S2CID 9898609.

Referencias

Christensen, Ronald (2020). Respuestas planas a preguntas complejas: la teoría de los modelos lineales (Quinta ed.). Nueva York: Springer. ISBN 978-3-030-32096-6.
Wichura, Michael J. (2006). "El enfoque sin coordenadas de los modelos lineales ". Serie Cambridge en Matemáticas Estadística y Probabilística. Cambridge: Prensa de la Universidad de Cambridge. págs. xiv+199. ISBN 978-0-521-86842-6. SEÑOR 2283455.
Rawlings, John O.; Pantula, Sastry G.; Dickey, David A., eds. (1998). Análisis de regresión aplicada . Textos Springer en Estadística. doi :10.1007/b98890. ISBN 0-387-98454-2.