El modelo lineal general o modelo de regresión multivariante general es una forma compacta de escribir simultáneamente varios modelos de regresión lineal múltiple . En ese sentido, no es un modelo lineal estadístico independiente . Los diversos modelos de regresión lineal múltiple pueden escribirse de forma compacta como [1]
donde Y es una matriz con series de mediciones multivariadas (siendo cada columna un conjunto de mediciones de una de las variables dependientes ), X es una matriz de observaciones de variables independientes que podría ser una matriz de diseño (siendo cada columna un conjunto de observaciones de una de las variables independientes), B es una matriz que contiene parámetros que normalmente se van a estimar y U es una matriz que contiene errores (ruido). Normalmente se supone que los errores no están correlacionados entre mediciones y siguen una distribución normal multivariada . Si los errores no siguen una distribución normal multivariada, se pueden utilizar modelos lineales generalizados para relajar los supuestos sobre Y y U.
El modelo lineal general incorpora varios modelos estadísticos diferentes: ANOVA , ANCOVA , MANOVA , MANCOVA , regresión lineal ordinaria , prueba t y prueba F. El modelo lineal general es una generalización de la regresión lineal múltiple al caso de más de una variable dependiente. Si Y , B y U fueran vectores de columna , la ecuación matricial anterior representaría una regresión lineal múltiple.
Las pruebas de hipótesis con el modelo lineal general se pueden realizar de dos formas: multivariadas o como varias pruebas univariadas independientes . En las pruebas multivariadas las columnas de Y se prueban juntas, mientras que en las pruebas univariadas las columnas de Y se prueban de forma independiente, es decir, como múltiples pruebas univariadas con la misma matriz de diseño.
La regresión lineal múltiple es una generalización de la regresión lineal simple al caso de más de una variable independiente y un caso especial de los modelos lineales generales, restringido a una variable dependiente. El modelo básico de la regresión lineal múltiple es
para cada observación i = 1, ... , n .
En la fórmula anterior, consideramos n observaciones de una variable dependiente y p variables independientes. Por lo tanto, Y i es la i -ésima observación de la variable dependiente, X ik es la k- ésima observación de la k -ésima variable independiente, j = 1, 2, ..., p . Los valores β j representan los parámetros que se van a estimar y ε i es el i -ésimo error normal independiente distribuido de forma idéntica.
En la regresión lineal multivariada más general, hay una ecuación de la forma anterior para cada una de m > 1 variables dependientes que comparten el mismo conjunto de variables explicativas y, por lo tanto, se estiman simultáneamente entre sí:
para todas las observaciones indexadas como i = 1, ..., n y para todas las variables dependientes indexadas como j = 1, ..., m .
Téngase en cuenta que, dado que cada variable dependiente tiene su propio conjunto de parámetros de regresión que deben ajustarse, desde un punto de vista computacional la regresión multivariada general es simplemente una secuencia de regresiones lineales múltiples estándar que utilizan las mismas variables explicativas.
El modelo lineal general y el modelo lineal generalizado (GLM) [2] [3] son dos familias de métodos estadísticos comúnmente utilizados para relacionar un número determinado de predictores continuos y/o categóricos con una única variable de resultado .
La principal diferencia entre los dos enfoques es que el modelo lineal general supone estrictamente que los residuos seguirán una distribución condicionalmente normal , [4] mientras que el GLM relaja este supuesto y permite una variedad de otras distribuciones de la familia exponencial para los residuos. [2] Cabe destacar que el modelo lineal general es un caso especial del GLM en el que la distribución de los residuos sigue una distribución condicionalmente normal.
La distribución de los residuos depende en gran medida del tipo y la distribución de la variable de resultado; los diferentes tipos de variables de resultado dan lugar a la variedad de modelos dentro de la familia GLM. Los modelos comúnmente utilizados en la familia GLM incluyen la regresión logística binaria [5] para resultados binarios o dicotómicos, la regresión de Poisson [6] para resultados de recuento y la regresión lineal para resultados continuos con distribución normal. Esto significa que se puede hablar de GLM como una familia general de modelos estadísticos o como modelos específicos para tipos de resultados específicos.
Una aplicación del modelo lineal general aparece en el análisis de múltiples escáneres cerebrales en experimentos científicos donde Y contiene datos de escáneres cerebrales, X contiene variables de diseño experimental y factores de confusión. Por lo general, se prueba de manera univariante (generalmente se denomina univariante de masas en este contexto) y a menudo se lo conoce como mapeo paramétrico estadístico . [12]