El modelo lineal general o modelo de regresión multivariante general es una forma compacta de escribir simultáneamente varios modelos de regresión lineal múltiple . En ese sentido, no es un modelo lineal estadístico separado . Los diversos modelos de regresión lineal múltiple se pueden escribir de forma compacta como [1]
donde Y es una matriz con una serie de mediciones multivariadas (cada columna es un conjunto de mediciones de una de las variables dependientes ), X es una matriz de observaciones de variables independientes que podría ser una matriz de diseño (cada columna es un conjunto de observaciones de una de las variables independientes), B es una matriz que contiene parámetros que normalmente se estiman y U es una matriz que contiene errores (ruido). Generalmente se supone que los errores no están correlacionados entre las mediciones y siguen una distribución normal multivariada . Si los errores no siguen una distribución normal multivariada, se pueden utilizar modelos lineales generalizados para relajar los supuestos sobre Y y U.
El modelo lineal general incorpora varios modelos estadísticos diferentes: ANOVA , ANCOVA , MANOVA , MANCOVA , regresión lineal ordinaria , prueba t y prueba F. El modelo lineal general es una generalización de la regresión lineal múltiple al caso de más de una variable dependiente. Si Y , B y U fueran vectores columna , la ecuación matricial anterior representaría una regresión lineal múltiple.
Las pruebas de hipótesis con el modelo lineal general se pueden realizar de dos formas: multivariadas o como varias pruebas univariadas independientes . En las pruebas multivariadas las columnas de Y se prueban juntas, mientras que en las pruebas univariadas las columnas de Y se prueban de forma independiente, es decir, como múltiples pruebas univariadas con la misma matriz de diseño.
La regresión lineal múltiple es una generalización de la regresión lineal simple al caso de más de una variable independiente y un caso especial de modelos lineales generales, restringidos a una variable dependiente. El modelo básico para la regresión lineal múltiple es
para cada observación i = 1, ... , n .
En la fórmula anterior consideramos n observaciones de una variable dependiente yp variables independientes. Por lo tanto, Y i es la i- ésima observación de la variable dependiente, X ij es la i -ésima observación de la j - ésima variable independiente, j = 1, 2, ..., p . Los valores β j representan parámetros a estimar, y ε i es el i -ésimo error normal independiente distribuido idénticamente.
En la regresión lineal multivariada más general, hay una ecuación de la forma anterior para cada una de m > 1 variables dependientes que comparten el mismo conjunto de variables explicativas y, por lo tanto, se estiman simultáneamente entre sí:
para todas las observaciones indexadas como i = 1, ... , n y para todas las variables dependientes indexadas como j = 1, ... , m .
Tenga en cuenta que, dado que cada variable dependiente tiene su propio conjunto de parámetros de regresión que deben ajustarse, desde un punto de vista computacional la regresión multivariada general es simplemente una secuencia de regresiones lineales múltiples estándar que utilizan las mismas variables explicativas.
El modelo lineal general y el modelo lineal generalizado (GLM) [2] [3] son dos familias de métodos estadísticos comúnmente utilizados para relacionar algún número de predictores continuos y/o categóricos con una única variable de resultado .
La principal diferencia entre los dos enfoques es que el modelo lineal general supone estrictamente que los residuos seguirán una distribución condicionalmente normal , [4] mientras que el GLM flexibiliza este supuesto y permite una variedad de otras distribuciones de la familia exponencial para los residuos. [2] Es de destacar que el modelo lineal general es un caso especial del GLM en el que la distribución de los residuos sigue una distribución condicionalmente normal.
La distribución de los residuos depende en gran medida del tipo y distribución de la variable de resultado; Diferentes tipos de variables de resultado conducen a la variedad de modelos dentro de la familia GLM. Los modelos comúnmente utilizados en la familia GLM incluyen la regresión logística binaria [5] para resultados binarios o dicotómicos, la regresión de Poisson [6] para resultados de recuento y la regresión lineal para resultados continuos normalmente distribuidos. Esto significa que se puede hablar del GLM como una familia general de modelos estadísticos o como modelos específicos para tipos de resultados específicos.
Aparece una aplicación del modelo lineal general en el análisis de múltiples escáneres cerebrales en experimentos científicos donde Y contiene datos de escáneres cerebrales, X contiene variables de diseño experimental y factores de confusión. Por lo general, se prueba de forma univariada (generalmente denominada univariada de masa en este entorno) y a menudo se denomina mapeo paramétrico estadístico . [12]