stringtranslate.com

Modelo lineal generalizado

En estadística , un modelo lineal generalizado ( GLM ) es una generalización flexible de la regresión lineal ordinaria . El GLM generaliza la regresión lineal al permitir que el modelo lineal se relacione con la variable de respuesta a través de una función de enlace y al permitir que la magnitud de la varianza de cada medición sea una función de su valor predicho.

John Nelder y Robert Wedderburn formularon modelos lineales generalizados como una forma de unificar varios otros modelos estadísticos, incluida la regresión lineal , la regresión logística y la regresión de Poisson . [1] Propusieron un método de mínimos cuadrados reponderado iterativamente para la estimación de máxima verosimilitud (MLE) de los parámetros del modelo. MLE sigue siendo popular y es el método predeterminado en muchos paquetes de computación estadística. Se han desarrollado otros enfoques, incluida la regresión bayesiana y el ajuste de mínimos cuadrados a respuestas estabilizadas por varianza .

Intuición

La regresión lineal ordinaria predice el valor esperado de una cantidad desconocida determinada (la variable de respuesta , una variable aleatoria ) como una combinación lineal de un conjunto de valores observados ( predictores ). Esto implica que un cambio constante en un predictor conduce a un cambio constante en la variable de respuesta (es decir, un modelo de respuesta lineal ). Esto es apropiado cuando la variable de respuesta puede variar, con una buena aproximación, indefinidamente en cualquier dirección, o más generalmente para cualquier cantidad que sólo varía en una cantidad relativamente pequeña en comparación con la variación de las variables predictivas, por ejemplo, la altura humana.

Sin embargo, estos supuestos son inapropiados para algunos tipos de variables de respuesta. Por ejemplo, en los casos en los que se espera que la variable de respuesta sea siempre positiva y varíe en un amplio rango, los cambios constantes en los insumos conducen a cambios en la producción que varían geométricamente (es decir, exponencialmente), en lugar de variar constantemente. Como ejemplo, supongamos que un modelo de predicción lineal aprende de algunos datos (quizás extraídos principalmente de grandes playas) que una disminución de 10 grados en la temperatura daría lugar a que 1.000 personas menos visitaran la playa. Es poco probable que este modelo se generalice bien en playas de diferentes tamaños. Más específicamente, el problema es que si se utiliza el modelo para predecir la nueva asistencia con una caída de temperatura de 10 para una playa que recibe regularmente a 50 bañistas, se predeciría un valor de asistencia imposible de −950. Lógicamente, un modelo más realista predeciría una tasa constante de aumento de la asistencia a la playa (por ejemplo, un aumento de 10 grados conduce a una duplicación de la asistencia a la playa, y una caída de 10 grados conduce a una reducción a la mitad). Este modelo se denomina modelo de respuesta exponencial (o modelo log-lineal , ya que se predice que el logaritmo de la respuesta variará linealmente).

De manera similar, un modelo que predice la probabilidad de elegir sí o no (una variable de Bernoulli ) es aún menos adecuado como modelo de respuesta lineal, ya que las probabilidades están acotadas en ambos extremos (deben estar entre 0 y 1). Imaginemos, por ejemplo, un modelo que predice la probabilidad de que una determinada persona vaya a la playa en función de la temperatura. Un modelo razonable podría predecir, por ejemplo, que un cambio de 10 grados hace que una persona tenga dos veces más o menos probabilidades de ir a la playa. Pero, ¿qué significa "el doble de probable" en términos de probabilidad? Literalmente no puede significar duplicar el valor de probabilidad (por ejemplo, 50% se convierte en 100%, 75% se convierte en 150%, etc.). Más bien, son las probabilidades las que se están duplicando: de probabilidades de 2:1 a probabilidades de 4:1, a probabilidades de 8:1, etc. Tal modelo es un modelo logístico o de probabilidades logarítmicas .

Los modelos lineales generalizados cubren todas estas situaciones al permitir variables de respuesta que tienen distribuciones arbitrarias (en lugar de simplemente distribuciones normales ) y que una función arbitraria de la variable de respuesta (la función de enlace ) varíe linealmente con los predictores (en lugar de suponer que la la respuesta misma debe variar linealmente). Por ejemplo, el caso anterior del número previsto de asistentes a la playa normalmente se modelaría con una distribución de Poisson y un vínculo logarítmico, mientras que el caso de la probabilidad prevista de asistencia a la playa normalmente se modelaría con una distribución de Bernoulli (o distribución binomial , dependiendo de exactamente cómo está formulado el problema) y una función de enlace log-odds (o logit ).

Descripción general

En un modelo lineal generalizado (GLM), se supone que cada resultado Y de las variables dependientes se genera a partir de una distribución particular en una familia exponencial , una gran clase de distribuciones de probabilidad que incluye las distribuciones normal , binomial , Poisson y gamma , entre otras. . La media condicional μ de la distribución depende de las variables independientes X a través de:

donde E( Y  |  X ) es el valor esperado de Y condicionado a X ; X β es el predictor lineal , una combinación lineal de parámetros β desconocidos ; g es la función de enlace.

En este marco, la varianza suele ser una función, V , de la media:

Es conveniente si V se deriva de una familia exponencial de distribuciones, pero puede ser simplemente que la varianza sea función del valor predicho.

Los parámetros desconocidos, β , normalmente se estiman con técnicas de máxima verosimilitud , máxima cuasi verosimilitud o bayesianas .

Componentes del modelo

El GLM consta de tres elementos:

1. Una distribución particular para modelar entre aquellas que se consideran familias exponenciales de distribuciones de probabilidad,
2. Un predictor lineal , y
3. Una función de enlace tal que .

Distribución de probabilidad

Una familia de distribuciones exponenciales sobredispersas es una generalización de una familia exponencial y el modelo de distribuciones de dispersión exponencial e incluye aquellas familias de distribuciones de probabilidad, parametrizadas por y , cuyas funciones de densidad f (o función de masa de probabilidad , para el caso de una distribución discreta ) se puede expresar en la forma

El parámetro de dispersión , normalmente se conoce y suele estar relacionado con la varianza de la distribución. Las funciones , , , y son conocidas. Muchas distribuciones comunes pertenecen a esta familia, incluidas la normal, exponencial, gamma, Poisson, Bernoulli y (para un número fijo de ensayos) binomial, multinomial y negativa.

Para escalar y (denotado y en este caso), esto se reduce a

está relacionado con la media de la distribución. Si es la función identidad, entonces se dice que la distribución está en forma canónica (o forma natural ). Tenga en cuenta que cualquier distribución se puede convertir a forma canónica reescribiéndola como y luego aplicando la transformación . Siempre es posible convertir en términos de la nueva parametrización, incluso si no es una función uno a uno ; ver comentarios en la página sobre familias exponenciales . Si, además, la identidad es conocida, entonces se llama parámetro canónico (o parámetro natural ) y se relaciona con la media a través de

Para escalar y , esto se reduce a

En este escenario, se puede demostrar que la varianza de la distribución es [2]

Para escalar y , esto se reduce a

predictor lineal

El predictor lineal es la cantidad que incorpora la información sobre las variables independientes al modelo. El símbolo η ( del griego " eta ") denota un predictor lineal. Está relacionado con el valor esperado de los datos a través de la función de enlace.

η se expresa como combinaciones lineales (por lo tanto, "lineales") de parámetros desconocidos β . Los coeficientes de la combinación lineal se representan como la matriz de variables independientes X. Por lo tanto, η puede expresarse como

Función de enlace

La función de enlace proporciona la relación entre el predictor lineal y la media de la función de distribución. Hay muchas funciones de enlace de uso común y su elección depende de varias consideraciones. Siempre hay una función de enlace canónica bien definida que se deriva de la exponencial de la función de densidad de la respuesta . Sin embargo, en algunos casos tiene sentido intentar hacer coincidir el dominio de la función de enlace con el rango de la media de la función de distribución, o utilizar una función de enlace no canónica con fines algorítmicos, por ejemplo, la regresión probit bayesiana .

Cuando se utiliza una función de distribución con un parámetro canónico, la función de enlace canónico es la función que se expresa en términos de ie. Para las distribuciones más comunes, la media es uno de los parámetros en la forma estándar de la función de densidad de la distribución , y luego es la función como se definió anteriormente que mapea la función de densidad en su forma canónica. Al utilizar la función de enlace canónico, que permite ser una estadística suficiente para .

A continuación se muestra una tabla de varias distribuciones de familias exponenciales de uso común y los datos para los que se utilizan normalmente, junto con las funciones de enlace canónicas y sus inversas (a veces denominadas función media, como se hace aquí).

En los casos de las distribuciones exponencial y gamma, el dominio de la función de enlace canónico no es el mismo que el rango permitido de la media. En particular, el predictor lineal puede ser positivo, lo que daría una media negativa imposible. Al maximizar la probabilidad, se deben tomar precauciones para evitarlo. Una alternativa es utilizar una función de enlace no canónica.

En el caso de las distribuciones de Bernoulli, binomial, categórica y multinomial, el soporte de las distribuciones no es el mismo tipo de datos que el parámetro que se predice. En todos estos casos, el parámetro predicho es una o más probabilidades, es decir, números reales en el rango . El modelo resultante se conoce como regresión logística (o regresión logística multinomial en el caso de que se predigan valores K en lugar de valores binarios).

Para las distribuciones de Bernoulli y binomial, el parámetro es una probabilidad única, que indica la probabilidad de que ocurra un evento único. El Bernoulli todavía satisface la condición básica del modelo lineal generalizado en el sentido de que, aunque un único resultado siempre será 0 o 1, el valor esperado seguirá siendo una probabilidad de valor real, es decir, la probabilidad de que ocurra un "sí". (o 1) resultado. De manera similar, en una distribución binomial, el valor esperado es Np , es decir, la proporción esperada de resultados "sí" será la probabilidad de predecir.

Para distribuciones categóricas y multinomiales, el parámetro a predecir es un K -vector de probabilidades, con la restricción adicional de que todas las probabilidades deben sumar 1. Cada probabilidad indica la probabilidad de que ocurra uno de los K valores posibles. Para la distribución multinomial y para la forma vectorial de la distribución categórica, los valores esperados de los elementos del vector se pueden relacionar con las probabilidades predichas de manera similar a las distribuciones binomial y de Bernoulli.

Adecuado

Máxima verosimilitud

Las estimaciones de máxima verosimilitud se pueden encontrar utilizando un algoritmo de mínimos cuadrados reponderado iterativamente o un método de Newton con actualizaciones de la forma:

donde es la matriz de información observada (la negativa de la matriz de Hesse ) y es la función de puntuación ; o el método de puntuación de Fisher :

¿ Dónde está la matriz de información de Fisher ? Tenga en cuenta que si se utiliza la función de enlace canónico, entonces son iguales. [3]

métodos bayesianos

En general, la distribución posterior no se puede encontrar en forma cerrada y, por lo tanto, debe aproximarse, generalmente utilizando aproximaciones de Laplace o algún tipo de método Monte Carlo de cadena de Markov , como el muestreo de Gibbs .

Ejemplos

Modelos lineales generales

Un posible punto de confusión tiene que ver con la distinción entre modelos lineales generalizados y modelos lineales generales , dos modelos estadísticos amplios. El coautor John Nelder ha expresado su pesar por esta terminología. [4]

El modelo lineal general puede verse como un caso especial del modelo lineal generalizado con vínculo de identidad y respuestas normalmente distribuidas. Como los resultados de interés más exactos se obtienen sólo para el modelo lineal general, el modelo lineal general ha experimentado un desarrollo histórico algo más largo. Los resultados del modelo lineal generalizado con vínculo sin identidad son asintóticos (tienden a funcionar bien con muestras grandes).

Regresión lineal

Un ejemplo simple y muy importante de modelo lineal generalizado (también un ejemplo de modelo lineal general) es la regresión lineal . En regresión lineal, el uso del estimador de mínimos cuadrados está justificado por el teorema de Gauss-Markov , que no supone que la distribución sea normal.

Sin embargo, desde la perspectiva de los modelos lineales generalizados, es útil suponer que la función de distribución es la distribución normal con varianza constante y la función de vínculo es la identidad, que es el vínculo canónico si se conoce la varianza. Bajo estos supuestos, el estimador de mínimos cuadrados se obtiene como estimación del parámetro de máxima verosimilitud.

Para la distribución normal, el modelo lineal generalizado tiene una expresión de forma cerrada para las estimaciones de máxima verosimilitud, lo cual es conveniente. La mayoría de los demás GLM carecen de estimaciones en forma cerrada .

Datos binarios

Cuando los datos de respuesta, Y , son binarios (tomando sólo valores 0 y 1), la función de distribución generalmente se elige como la distribución de Bernoulli y la interpretación de μ i es entonces la probabilidad, p , de que Y i tome el valor uno.

Existen varias funciones de enlace populares para funciones binomiales.

Función de enlace Logit

La función de enlace más típica es el enlace logit canónico:

Los GLM con esta configuración son modelos de regresión logística (o modelos logit ).

Función de enlace Probit como opción popular de función de distribución acumulativa inversa

Alternativamente, se puede utilizar la inversa de cualquier función de distribución acumulativa continua (CDF) para el enlace, ya que el rango de la CDF es , el rango de la media binomial. La CDF normal es una opción popular y produce el modelo probit . Su enlace es

La razón para el uso del modelo probit es que un escalamiento constante de la variable de entrada a una CDF normal (que puede ser absorbida mediante un escalamiento equivalente de todos los parámetros) produce una función que es prácticamente idéntica a la función logit, pero probit. Los modelos son más manejables en algunas situaciones que los modelos logit. (En un entorno bayesiano en el que se colocan distribuciones previas normalmente distribuidas en los parámetros, la relación entre los priores normales y la función de enlace CDF normal significa que se puede calcular un modelo probit utilizando el muestreo de Gibbs , mientras que un modelo logit generalmente no puede).

Registro complementario (cloglog)

También se puede utilizar la función complementaria log-log:

Esta función de enlace es asimétrica y a menudo producirá resultados diferentes a los de las funciones de enlace logit y probit. [5] El modelo cloglog corresponde a aplicaciones donde observamos cero eventos (por ejemplo, defectos) o uno o más, donde se supone que el número de eventos sigue la distribución de Poisson . [6] El supuesto de Poisson significa que

donde μ es un número positivo que indica el número esperado de eventos. Si p representa la proporción de observaciones con al menos un evento, su complemento

y luego

Un modelo lineal requiere que la variable de respuesta tome valores en toda la línea real. Dado que μ debe ser positivo, podemos imponerlo tomando el logaritmo y dejando que log( μ ) sea un modelo lineal. Esto produce la transformación "obstrucción"

Enlace de identidad

El vínculo de identidad g(p) = p también se utiliza a veces para datos binomiales para producir un modelo de probabilidad lineal . Sin embargo, el vínculo de identidad puede predecir "probabilidades" sin sentido menores que cero o mayores que uno. Esto se puede evitar utilizando una transformación como cloglog, probit o logit (o cualquier función de distribución acumulativa inversa). Un mérito principal del vínculo de identidad es que se puede estimar utilizando matemáticas lineales, y otras funciones de vínculo estándar son aproximadamente lineales y coinciden con el vínculo de identidad cerca de p = 0,5.

función de varianza

La función de varianza para "Los datos cuasibinomiales son:

donde el parámetro de dispersión τ es exactamente 1 para la distribución binomial. De hecho, la probabilidad binomial estándar omite τ . Cuando está presente, el modelo se denomina "cuasibinomial" y la probabilidad modificada se denomina cuasiverosimilitud , ya que generalmente no es la probabilidad correspondiente a ninguna familia real de distribuciones de probabilidad. Si τ excede 1, se dice que el modelo presenta sobredispersión .

Regresión multinomial

El caso binomial puede ampliarse fácilmente para permitir una distribución multinomial como respuesta (también un modelo lineal generalizado para recuentos, con un total restringido). Hay dos formas en las que esto se suele hacer:

respuesta ordenada

Si la variable de respuesta es ordinal , entonces se puede ajustar una función modelo de la forma:

para m > 2. Diferentes enlaces g conducen a modelos de regresión ordinal como modelos de probabilidades proporcionales o modelos probit ordenados .

respuesta desordenada

Si la variable de respuesta es una medida nominal , o los datos no satisfacen los supuestos de un modelo ordenado, se puede ajustar un modelo de la siguiente forma:

para m > 2. Diferentes enlaces g conducen a modelos logit multinomial o probit multinomial . Estos son más generales que los modelos de respuesta ordenada y se estiman más parámetros.

Contar datos

Otro ejemplo de modelos lineales generalizados incluye la regresión de Poisson , cuyos modelos cuentan datos utilizando la distribución de Poisson . El vínculo suele ser el logaritmo, el vínculo canónico.

La función de varianza es proporcional a la media.

donde el parámetro de dispersión τ normalmente se fija exactamente en uno. Cuando no es así, el modelo de cuasi-verosimilitud resultante a menudo se describe como Poisson con sobredispersión o cuasi-Poisson .

Extensiones

Datos correlacionados o agrupados

El GLM estándar supone que las observaciones no están correlacionadas . Se han desarrollado extensiones para permitir la correlación entre observaciones, como ocurre por ejemplo en estudios longitudinales y diseños agrupados:

Modelos aditivos generalizados

Los modelos aditivos generalizados (GAM) son otra extensión de los GLM en los que el predictor lineal η no está restringido a ser lineal en las covariables X sino que es la suma de funciones de suavizado aplicadas a x i s:

Las funciones de suavizado fi se estiman a partir de los datos. En general, esto requiere una gran cantidad de puntos de datos y requiere una gran cantidad de cálculo. [9] [10]

Ver también

Referencias

Citas

  1. ^ Nelder, Juan ; Wedderburn, Robert (1972). "Modelos lineales generalizados". Revista de la Real Sociedad de Estadística. Serie A (General) . 135 (3). Publicación Blackwell: 370–384. doi :10.2307/2344614. JSTOR  2344614. S2CID  14154576.
  2. ^ McCullagh y Nelder 1989, capítulo 2.
  3. ^ McCullagh y Nelder 1989, pág. 43.
  4. ^ Senn, Stephen (2003). "Una conversación con John Nelder". Ciencia estadística . 18 (1): 118-131. doi : 10.1214/ss/1056397489 . Sospecho que deberíamos haberle encontrado un nombre más elegante que se hubiera quedado y no se hubiera confundido con el modelo lineal general, aunque general y generalizado no son exactamente lo mismo. Puedo ver por qué hubiera sido mejor haber pensado en otra cosa.
  5. ^ "Modelo log-log complementario" (PDF) .
  6. ^ "¿Qué función de enlace: Logit, Probit o Cloglog?". Análisis de bayesio . 2015-08-14 . Consultado el 17 de marzo de 2019 .
  7. ^ Zeger, Scott L.; Liang, Kung-Yee; Albert, Paul S. (1988). "Modelos para datos longitudinales: un enfoque de ecuación de estimación generalizada". Biometría . 44 (4). Sociedad Biométrica Internacional: 1049-1060. doi :10.2307/2531734. JSTOR  2531734. PMID  3233245.
  8. ^ Pedro, James; Hilbe, José (2003). Ecuaciones de estimación generalizadas . Londres, Inglaterra: Chapman y Hall/CRC. ISBN 1-58488-307-3.
  9. ^ Hastie y Tibshirani 1990.
  10. ^ Madera 2006.

Bibliografía

Otras lecturas

enlaces externos