En estadística , un modelo lineal generalizado ( MLG ) es una generalización flexible de la regresión lineal ordinaria . El MGL generaliza la regresión lineal al permitir que el modelo lineal se relacione con la variable de respuesta a través de una función de enlace y al permitir que la magnitud de la varianza de cada medición sea una función de su valor predicho.
Los modelos lineales generalizados fueron formulados por John Nelder y Robert Wedderburn como una forma de unificar varios otros modelos estadísticos, incluyendo la regresión lineal , la regresión logística y la regresión de Poisson . [1] Propusieron un método de mínimos cuadrados reponderados iterativamente para la estimación de máxima verosimilitud (MLE) de los parámetros del modelo. MLE sigue siendo popular y es el método predeterminado en muchos paquetes de computación estadística. Se han desarrollado otros enfoques, incluyendo la regresión bayesiana y el ajuste de mínimos cuadrados a respuestas estabilizadas por varianza .
La regresión lineal ordinaria predice el valor esperado de una cantidad desconocida dada (la variable de respuesta , una variable aleatoria ) como una combinación lineal de un conjunto de valores observados ( predictores ). Esto implica que un cambio constante en un predictor conduce a un cambio constante en la variable de respuesta (es decir, un modelo de respuesta lineal ). Esto es apropiado cuando la variable de respuesta puede variar, con una buena aproximación, indefinidamente en cualquier dirección, o más generalmente para cualquier cantidad que solo varíe en una cantidad relativamente pequeña en comparación con la variación en las variables predictivas, por ejemplo, las alturas humanas.
Sin embargo, estas suposiciones son inadecuadas para algunos tipos de variables de respuesta. Por ejemplo, en los casos en los que se espera que la variable de respuesta sea siempre positiva y varíe en un amplio rango, los cambios constantes en la entrada conducen a cambios en la salida que varían geométricamente (es decir, exponencialmente), en lugar de que varían constantemente. Como ejemplo, supongamos que un modelo de predicción lineal aprende de algunos datos (quizás extraídos principalmente de playas grandes) que una disminución de la temperatura de 10 grados conduciría a 1.000 personas menos que visitan la playa. Es poco probable que este modelo se generalice bien a playas de diferentes tamaños. Más específicamente, el problema es que si utiliza el modelo para predecir la nueva asistencia con una caída de temperatura de 10 para una playa que recibe regularmente 50 bañistas, predeciría un valor de asistencia imposible de −950. Lógicamente, un modelo más realista predeciría en cambio una tasa constante de aumento de la asistencia a la playa (por ejemplo, un aumento de 10 grados conduce a una duplicación de la asistencia a la playa, y una caída de 10 grados conduce a una reducción a la mitad de la asistencia). Este modelo se denomina modelo de respuesta exponencial (o modelo log-lineal , ya que se predice que el logaritmo de la respuesta varía linealmente).
De manera similar, un modelo que predice una probabilidad de hacer una elección de sí/no (una variable de Bernoulli ) es aún menos adecuado como modelo de respuesta lineal, ya que las probabilidades están acotadas en ambos extremos (deben estar entre 0 y 1). Imaginemos, por ejemplo, un modelo que predice la probabilidad de que una persona dada vaya a la playa en función de la temperatura. Un modelo razonable podría predecir, por ejemplo, que un cambio de 10 grados hace que una persona tenga el doble de probabilidades de ir a la playa. Pero, ¿qué significa "el doble de probabilidades" en términos de probabilidad? No puede significar literalmente duplicar el valor de la probabilidad (por ejemplo, el 50% se convierte en el 100%, el 75% se convierte en el 150%, etc.). Más bien, son las probabilidades las que se duplican: de probabilidades de 2:1, a probabilidades de 4:1, a probabilidades de 8:1, etc. Un modelo de este tipo es un modelo logístico o de probabilidades logarítmicas .
Los modelos lineales generalizados cubren todas estas situaciones al permitir que las variables de respuesta tengan distribuciones arbitrarias (en lugar de simplemente distribuciones normales ) y que una función arbitraria de la variable de respuesta (la función de enlace ) varíe linealmente con los predictores (en lugar de suponer que la respuesta en sí debe variar linealmente). Por ejemplo, el caso anterior del número previsto de asistentes a la playa se modelaría típicamente con una distribución de Poisson y un enlace logarítmico, mientras que el caso de la probabilidad prevista de asistencia a la playa se modelaría típicamente con una distribución de Bernoulli (o distribución binomial , dependiendo de exactamente cómo se formule el problema) y una función de enlace de probabilidades logarítmicas (o logit ).
En un modelo lineal generalizado (MLG), se supone que cada resultado Y de las variables dependientes se genera a partir de una distribución particular en una familia exponencial , una gran clase de distribuciones de probabilidad que incluye las distribuciones normal , binomial , de Poisson y gamma , entre otras. La media condicional μ de la distribución depende de las variables independientes X a través de:
donde E( Y | X ) es el valor esperado de Y condicional a X ; X β es el predictor lineal , una combinación lineal de parámetros desconocidos β ; g es la función de enlace.
En este marco, la varianza es típicamente una función, V , de la media:
Es conveniente que V se desprenda de una familia exponencial de distribuciones, pero puede ser simplemente que la varianza sea una función del valor previsto.
Los parámetros desconocidos, β , normalmente se estiman con técnicas de máxima verosimilitud , máxima cuasi-verosimilitud o bayesianas .
El GLM consta de tres elementos:
Una familia exponencial sobredispersa de distribuciones es una generalización de una familia exponencial y del modelo de dispersión exponencial de distribuciones e incluye aquellas familias de distribuciones de probabilidad, parametrizadas por y , cuyas funciones de densidad f (o función de masa de probabilidad , para el caso de una distribución discreta ) se pueden expresar en la forma
El parámetro de dispersión , , normalmente se conoce y suele estar relacionado con la varianza de la distribución. Las funciones , , , y son conocidas. Muchas distribuciones comunes pertenecen a esta familia, incluidas la normal, exponencial, gamma, Poisson, Bernoulli y (para un número fijo de ensayos) la binomial, la multinomial y la binomial negativa.
Para escalar y (denotado y en este caso), esto se reduce a
está relacionada con la media de la distribución. Si es la función identidad, entonces se dice que la distribución está en forma canónica (o forma natural ). Nótese que cualquier distribución se puede convertir a forma canónica reescribiendo como y luego aplicando la transformación . Siempre es posible convertir en términos de la nueva parametrización, incluso si no es una función biunívoca ; vea los comentarios en la página sobre familias exponenciales . Si, además, es la identidad y se conoce, entonces se llama parámetro canónico (o parámetro natural ) y está relacionada con la media a través de
Para escalares y , esto se reduce a
En este escenario, se puede demostrar que la varianza de la distribución es [2]
Para escalares y , esto se reduce a
El predictor lineal es la cantidad que incorpora la información sobre las variables independientes en el modelo. El símbolo η ( del griego " eta ") denota un predictor lineal. Está relacionado con el valor esperado de los datos a través de la función de enlace.
η se expresa como combinaciones lineales (por lo tanto, "lineales") de parámetros desconocidos β . Los coeficientes de la combinación lineal se representan como la matriz de variables independientes X . η se puede expresar así como
La función de enlace proporciona la relación entre el predictor lineal y la media de la función de distribución. Hay muchas funciones de enlace de uso común y su elección se basa en varias consideraciones. Siempre hay una función de enlace canónica bien definida que se deriva de la exponencial de la función de densidad de la respuesta . Sin embargo, en algunos casos tiene sentido intentar hacer coincidir el dominio de la función de enlace con el rango de la media de la función de distribución, o utilizar una función de enlace no canónica para fines algorítmicos, por ejemplo, la regresión probit bayesiana .
Cuando se utiliza una función de distribución con un parámetro canónico, la función de enlace canónico es la función que expresa en términos de , es decir, para las distribuciones más comunes, la media es uno de los parámetros en la forma estándar de la función de densidad de la distribución , y luego es la función definida anteriormente que mapea la función de densidad en su forma canónica. Cuando se utiliza la función de enlace canónico, que permite ser una estadística suficiente para .
A continuación se muestra una tabla de varias distribuciones de familias exponenciales de uso común y los datos para los que se utilizan normalmente, junto con las funciones de enlace canónicas y sus inversas (a veces denominadas función media, como se hace aquí).
En los casos de las distribuciones exponencial y gamma, el dominio de la función de enlace canónica no es el mismo que el rango permitido de la media. En particular, el predictor lineal puede ser positivo, lo que daría una media negativa imposible. Al maximizar la verosimilitud, se deben tomar precauciones para evitar esto. Una alternativa es utilizar una función de enlace no canónica.
En el caso de las distribuciones Bernoulli, binomial, categórica y multinomial, el soporte de las distribuciones no es el mismo tipo de datos que el parámetro que se está prediciendo. En todos estos casos, el parámetro predicho es una o más probabilidades, es decir, números reales en el rango . El modelo resultante se conoce como regresión logística (o regresión logística multinomial en el caso de que se estén prediciendo valores de K -way en lugar de binarios).
En las distribuciones de Bernoulli y binomial, el parámetro es una probabilidad única, que indica la probabilidad de ocurrencia de un único evento. La distribución de Bernoulli aún satisface la condición básica del modelo lineal generalizado en el sentido de que, aunque un único resultado siempre será 0 o 1, el valor esperado será, no obstante, una probabilidad de valor real, es decir, la probabilidad de ocurrencia de un resultado "sí" (o 1). De manera similar, en una distribución binomial, el valor esperado es Np , es decir, la proporción esperada de resultados "sí" será la probabilidad que se predice.
En las distribuciones categóricas y multinomiales, el parámetro a predecir es un vector K de probabilidades, con la restricción adicional de que todas las probabilidades deben sumar 1. Cada probabilidad indica la posibilidad de ocurrencia de uno de los K valores posibles. En la distribución multinomial y en la forma vectorial de la distribución categórica, los valores esperados de los elementos del vector se pueden relacionar con las probabilidades predichas de manera similar a las distribuciones binomial y de Bernoulli.
Las estimaciones de máxima verosimilitud se pueden encontrar utilizando un algoritmo de mínimos cuadrados reponderado iterativamente o un método de Newton con actualizaciones de la forma:
donde es la matriz de información observada (el negativo de la matriz hessiana ) y es la función de puntuación ; o un método de puntuación de Fisher :
donde es la matriz de información de Fisher . Nótese que si se utiliza la función de enlace canónico, entonces son iguales. [3]
En general, la distribución posterior no se puede encontrar en forma cerrada y, por lo tanto, debe aproximarse, generalmente utilizando aproximaciones de Laplace o algún tipo de método de Monte Carlo de cadena de Markov, como el muestreo de Gibbs .
Un posible punto de confusión tiene que ver con la distinción entre modelos lineales generalizados y modelos lineales generales , dos modelos estadísticos amplios. El coautor John Nelder ha expresado su pesar por esta terminología. [4]
El modelo lineal general puede considerarse un caso especial del modelo lineal generalizado con vínculo de identidad y respuestas distribuidas normalmente. Como la mayoría de los resultados de interés exactos se obtienen solo para el modelo lineal general, este modelo ha experimentado un desarrollo histórico algo más prolongado. Los resultados del modelo lineal generalizado sin vínculo de identidad son asintóticos (tienden a funcionar bien con muestras grandes).
Un ejemplo simple y muy importante de un modelo lineal generalizado (también un ejemplo de un modelo lineal general) es la regresión lineal . En la regresión lineal, el uso del estimador de mínimos cuadrados se justifica por el teorema de Gauss-Markov , que no supone que la distribución sea normal.
Sin embargo, desde la perspectiva de los modelos lineales generalizados, es útil suponer que la función de distribución es la distribución normal con varianza constante y la función de enlace es la identidad, que es el enlace canónico si se conoce la varianza. Bajo estos supuestos, el estimador de mínimos cuadrados se obtiene como la estimación del parámetro de máxima verosimilitud.
Para la distribución normal, el modelo lineal generalizado tiene una expresión en forma cerrada para las estimaciones de máxima verosimilitud, lo cual resulta conveniente. La mayoría de los demás modelos lineales generales carecen de estimaciones en forma cerrada .
Cuando los datos de respuesta, Y , son binarios (toman solo los valores 0 y 1), la función de distribución generalmente se elige como la distribución de Bernoulli y la interpretación de μ i es entonces la probabilidad, p , de que Y i tome el valor uno.
Existen varias funciones de enlace populares para funciones binomiales.
La función de enlace más típica es el enlace logit canónico :
Los GLM con esta configuración son modelos de regresión logística (o modelos logit ).
Como alternativa, se puede utilizar la inversa de cualquier función de distribución acumulativa continua (CDF) para el vínculo, ya que el rango de la CDF es , el rango de la media binomial. La CDF normal es una opción popular y produce el modelo probit . Su vínculo es
La razón para el uso del modelo probit es que un escalamiento constante de la variable de entrada a una CDF normal (que puede ser absorbida a través del escalamiento equivalente de todos los parámetros) produce una función que es prácticamente idéntica a la función logit, pero los modelos probit son más manejables en algunas situaciones que los modelos logit. (En un entorno bayesiano en el que se colocan distribuciones previas normalmente distribuidas en los parámetros, la relación entre las distribuciones previas normales y la función de enlace CDF normal significa que un modelo probit se puede calcular utilizando el muestreo de Gibbs , mientras que un modelo logit generalmente no puede).
También se puede utilizar la función complementaria log-log:
Esta función de enlace es asimétrica y a menudo producirá resultados diferentes de las funciones de enlace logit y probit. [5] El modelo cloglog corresponde a aplicaciones donde observamos cero eventos (por ejemplo, defectos) o uno o más, donde se supone que el número de eventos sigue la distribución de Poisson . [6] El supuesto de Poisson significa que
donde μ es un número positivo que denota el número esperado de eventos. Si p representa la proporción de observaciones con al menos un evento, su complemento
y luego
Un modelo lineal requiere que la variable de respuesta tome valores a lo largo de toda la línea real. Dado que μ debe ser positivo, podemos hacer que esto sea así tomando el logaritmo y dejando que log( μ ) sea un modelo lineal. Esto produce la transformación "cloglog"
El vínculo de identidad g(p) = p también se utiliza a veces para datos binomiales para producir un modelo de probabilidad lineal . Sin embargo, el vínculo de identidad puede predecir "probabilidades" sin sentido menores que cero o mayores que uno. Esto se puede evitar utilizando una transformación como cloglog, probit o logit (o cualquier función de distribución acumulativa inversa). Una ventaja principal del vínculo de identidad es que se puede estimar utilizando matemáticas lineales, y otras funciones de vínculo estándar son aproximadamente lineales y coinciden con el vínculo de identidad cerca de p = 0,5.
La función de varianza para "Los datos " cuasibinomiales " son:
donde el parámetro de dispersión τ es exactamente 1 para la distribución binomial. De hecho, la verosimilitud binomial estándar omite τ . Cuando está presente, el modelo se denomina "cuasibinomio", y la verosimilitud modificada se denomina cuasibiverosimilitud , ya que generalmente no es la verosimilitud correspondiente a ninguna familia real de distribuciones de probabilidad. Si τ supera 1, se dice que el modelo presenta sobredispersión .
El caso binomial se puede ampliar fácilmente para permitir una distribución multinomial como respuesta (también, un modelo lineal generalizado para recuentos, con un total restringido). Hay dos formas en las que esto se hace habitualmente:
Si la variable de respuesta es ordinal , entonces se puede ajustar una función modelo de la forma:
para m > 2. Diferentes enlaces g conducen a modelos de regresión ordinal como modelos de probabilidades proporcionales o modelos probit ordenados .
Si la variable de respuesta es una medida nominal , o los datos no satisfacen los supuestos de un modelo ordenado, se puede ajustar un modelo de la siguiente forma:
Para m > 2, los diferentes enlaces g conducen a modelos logit multinomiales o probit multinomiales , que son más generales que los modelos de respuesta ordenada y se estiman más parámetros.
Otro ejemplo de modelos lineales generalizados es la regresión de Poisson , que modela los datos de conteo utilizando la distribución de Poisson . El vínculo suele ser el logaritmo, el vínculo canónico.
La función de varianza es proporcional a la media.
donde el parámetro de dispersión τ se fija típicamente en exactamente uno. Cuando no lo es, el modelo de cuasialimilitud resultante se describe a menudo como Poisson con sobredispersión o cuasi-Poisson .
El GLM estándar supone que las observaciones no están correlacionadas . Se han desarrollado extensiones para permitir la correlación entre observaciones, como ocurre, por ejemplo, en estudios longitudinales y diseños agrupados:
Los modelos aditivos generalizados (GAM) son otra extensión de los GLM en los que el predictor lineal η no está restringido a ser lineal en las covariables X sino que es la suma de funciones de suavizado aplicadas a las x i s:
Las funciones de suavizado f i se estiman a partir de los datos. En general, esto requiere una gran cantidad de puntos de datos y requiere un gran esfuerzo computacional. [9] [10]
Sospecho que deberíamos haber encontrado un nombre más elegante para él que hubiera perdurado y no se hubiera confundido con el modelo lineal general, aunque general y generalizado no son exactamente lo mismo. Puedo entender por qué podría haber sido mejor haber pensado en otra cosa.