Regresión de Poisson

En estadística , la regresión de Poisson es una forma de análisis de regresión de modelo lineal generalizado que se utiliza para modelar datos de recuento y tablas de contingencia . ^[1] La regresión de Poisson supone que la variable de respuesta Y tiene una distribución de Poisson y supone que el logaritmo de su valor esperado se puede modelar mediante una combinación lineal de parámetros desconocidos . Un modelo de regresión de Poisson a veces se conoce como modelo log-lineal , especialmente cuando se utiliza para modelar tablas de contingencia.

La regresión binomial negativa es una generalización popular de la regresión de Poisson porque flexibiliza el supuesto altamente restrictivo de que la varianza es igual a la media que hace el modelo de Poisson. El modelo tradicional de regresión binomial negativa se basa en la distribución de mezcla de Poisson-gamma. Este modelo es popular porque modela la heterogeneidad de Poisson con una distribución gamma.

Los modelos de regresión de Poisson son modelos lineales generalizados con el logaritmo como función de enlace (canónica) y la función de distribución de Poisson como distribución de probabilidad asumida de la respuesta.

Modelos de regresión

Si es un vector de variables independientes , entonces el modelo toma la forma $\mathbf {x} \in \mathbb {R} ^{n}$

\log(\operatorname {E} (Y\mid \mathbf {x} ))=\alpha +\mathbf {\beta } '\mathbf {x} ,

donde y . A veces esto se escribe de forma más compacta como $\alpha \in \mathbb {R}$ $\mathbf {\beta } \in \mathbb {R} ^{n}$

\log(\operatorname {E} (Y\mid \mathbf {x} ))={\boldsymbol {\theta }}'\mathbf {x} ,\,

donde ahora es un vector ( n + 1)-dimensional que consta de n variables independientes concatenadas al número uno. Aquí simplemente se concatena a . $\mathbf {x}$ $\theta$ $\beta$ $\alpha$

Por lo tanto, cuando se da un modelo de regresión de Poisson y un vector de entrada , la media predicha de la distribución de Poisson asociada está dada por $\theta$ $\mathbf {x}$

\operatorname {E} (Y\mid \mathbf {x} )=e^{{\boldsymbol {\theta }}'\mathbf {x} }.\,

Si son observaciones independientes con valores correspondientes de las variables predictoras, entonces se puede estimar por máxima verosimilitud . Las estimaciones de máxima verosimilitud carecen de una expresión de forma cerrada y deben hallarse mediante métodos numéricos. La superficie de probabilidad para la regresión de Poisson de máxima verosimilitud es siempre cóncava, lo que hace que Newton-Raphson u otros métodos basados en gradientes sean técnicas de estimación adecuadas. $Y_{i}$ $\mathbf {x} _{i}$ $\theta$

Interpretación de coeficientes

Supongamos que tenemos un modelo con un único predictor, es decir : $n=1$

\log(\operatorname {E} (Y\mid \mathbf {x} ))=\alpha +\beta x

Supongamos que calculamos los valores previstos en el punto y : $(Y_{2},x_{2})$ $(Y_{1},x_{1})$

\log(\operatorname {E} (Y_{2}\mid x_{2}))=\alpha +\beta x_{2}

\log(\operatorname {E} (Y_{1}\mid x_{1}))=\alpha +\beta x_{1}

Restando el primero del segundo:

\log(\operatorname {E} (Y_{2}\mid x_{2}))-\log(\operatorname {E} (Y_{1}\mid x_{1}))=\beta (x_{2}-x_{1})

Supongamos ahora que . Obtenemos: $x_{2}=x_{1}+1$

\log(\operatorname {E} (Y_{2}\mid x_{2}))-\log(\operatorname {E} (Y_{1}\mid x_{1}))=\beta

Por lo tanto, el coeficiente del modelo debe interpretarse como el aumento del logaritmo del recuento de la variable de resultado cuando la variable independiente aumenta en 1.

Aplicando las reglas de los logaritmos:

\log \left({\dfrac {\operatorname {E} (Y_{2}\mid x_{2})}{\operatorname {E} (Y_{1}\mid x_{1})}}\right)=\beta

{\dfrac {\operatorname {E} (Y_{2}\mid x_{2})}{\operatorname {E} (Y_{1}\mid x_{1})}}=e^{\beta }

\operatorname {E} (Y_{2}\mid x_{2})=e^{\beta }\operatorname {E} (Y_{1}\mid x_{1})

Es decir, cuando la variable independiente aumenta en 1, la variable de resultado se multiplica por el coeficiente exponencial.

El coeficiente exponencial también se llama razón de incidencia .

Efecto parcial medio

A menudo, el objeto de interés es el efecto parcial promedio o el efecto marginal promedio , que se interpreta como el cambio en el resultado por un cambio de una unidad en la variable independiente . El efecto parcial promedio en el modelo de Poisson para un continuo puede demostrarse como: ^[2] ${\frac {\partial E(Y|x)}{\partial x}}$ $Y$ $x$ $x$

{\frac {\partial E(Y|x)}{\partial x}}=\exp(\theta '\mathbb {x} )\beta

Esto se puede estimar utilizando las estimaciones de coeficientes del modelo de Poisson con los valores observados de . ${\hat {\theta }}=({\hat {\alpha }},{\hat {\beta }})$ $\mathbb {x}$

Estimación de parámetros basada en máxima verosimilitud

Dado un conjunto de parámetros θ y un vector de entrada x , la media de la distribución de Poisson predicha , como se indicó anteriormente, viene dada por

\lambda :=\operatorname {E} (Y\mid x)=e^{\theta 'x},\,

y por lo tanto, la función de masa de probabilidad de la distribución de Poisson está dada por

p(y\mid x;\theta )={\frac {\lambda ^{y}}{y!}}e^{-\lambda }={\frac {e^{y\theta 'x}e^{-e^{\theta 'x}}}{y!}}

Ahora supongamos que se nos da un conjunto de datos que consta de m vectores , junto con un conjunto de m valores . Entonces, para un conjunto dado de parámetros θ , la probabilidad de obtener este conjunto particular de datos está dada por $x_{i}\in \mathbb {R} ^{n+1},\,i=1,\ldots ,m$ $y_{1},\ldots ,y_{m}\in \mathbb {N}$

p(y_{1},\ldots ,y_{m}\mid x_{1},\ldots ,x_{m};\theta )=\prod _{i=1}^{m}{\frac {e^{y_{i}\theta 'x_{i}}e^{-e^{\theta 'x_{i}}}}{y_{i}!}}.

Mediante el método de máxima verosimilitud , queremos encontrar el conjunto de parámetros θ que hacen que esta probabilidad sea lo más grande posible. Para ello, primero se reescribe la ecuación como una función de verosimilitud en términos de θ :

L(\theta \mid X,Y)=\prod _{i=1}^{m}{\frac {e^{y_{i}\theta 'x_{i}}e^{-e^{\theta 'x_{i}}}}{y_{i}!}}.

Tenga en cuenta que la expresión del lado derecho no ha cambiado realmente. Una fórmula en esta forma suele ser difícil de manejar; en su lugar, se utiliza la verosimilitud logarítmica :

\ell (\theta \mid X,Y)=\log L(\theta \mid X,Y)=\sum _{i=1}^{m}\left(y_{i}\theta 'x_{i}-e^{\theta 'x_{i}}-\log(y_{i}!)\right).

Observe que los parámetros θ solo aparecen en los dos primeros términos de cada término de la suma. Por lo tanto, dado que solo nos interesa encontrar el mejor valor para θ, podemos omitir y i _! y simplemente escribir

\ell (\theta \mid X,Y)=\sum _{i=1}^{m}\left(y_{i}\theta 'x_{i}-e^{\theta 'x_{i}}\right).

Para encontrar un máximo, necesitamos resolver una ecuación que no tenga una solución en forma cerrada. Sin embargo, la verosimilitud logarítmica negativa, , es una función convexa, por lo que se pueden aplicar técnicas de optimización convexa estándar , como el descenso de gradiente, para encontrar el valor óptimo de θ . ${\frac {\partial \ell (\theta \mid X,Y)}{\partial \theta }}=0$ $-\ell (\theta \mid X,Y)$

Regresión de Poisson en la práctica

La regresión de Poisson puede ser apropiada cuando la variable dependiente es un recuento, por ejemplo de eventos como la llegada de una llamada telefónica a un centro de llamadas. ^[3] Los eventos deben ser independientes en el sentido de que la llegada de una llamada no hará que otra sea más o menos probable, pero se entiende que la probabilidad por unidad de tiempo de los eventos está relacionada con covariables como la hora del día.

"Exposición" y desplazamiento

La regresión de Poisson también puede ser apropiada para datos de tasa, donde la tasa es un recuento de eventos dividido por alguna medida de la exposición de esa unidad (una unidad particular de observación). ^[4] Por ejemplo, los biólogos pueden contar el número de especies de árboles en un bosque: los eventos serían las observaciones de árboles, la exposición sería la unidad de área y la tasa sería el número de especies por unidad de área. Los demógrafos pueden modelar las tasas de mortalidad en áreas geográficas como el recuento de muertes dividido por personas-año. De manera más general, las tasas de eventos se pueden calcular como eventos por unidad de tiempo, lo que permite que la ventana de observación varíe para cada unidad. En estos ejemplos, la exposición es respectivamente la unidad de área, los personas-año y la unidad de tiempo. En la regresión de Poisson esto se maneja como un desplazamiento . Si la tasa es recuento/exposición, multiplicar ambos lados de la ecuación por exposición lo mueve al lado derecho de la ecuación. Cuando ambos lados de la ecuación se registran, el modelo final contiene log(exposición) como un término que se agrega a los coeficientes de regresión. Esta variable registrada, log(exposición), se denomina variable de desplazamiento y entra en el lado derecho de la ecuación con una estimación de parámetro (para log(exposición)) restringida a 1.

\log(\operatorname {E} (Y\mid x))=\theta 'x

Lo que implica

\log \left({\frac {\operatorname {E} (Y\mid x)}{\text{exposure}}}\right)=\log(\operatorname {E} (Y\mid x))-\log({\text{exposure}})=\theta 'x-\log({\text{exposure}})

El desplazamiento en el caso de un GLM en R se puede lograr utilizando la offset()función:

glm ( y ~ offset ( log ( exposición )) + x , familia = poisson ( enlace = log ) )

Sobredispersión e inflación cero

Una característica de la distribución de Poisson es que su media es igual a su varianza. En determinadas circunstancias, se encontrará que la varianza observada es mayor que la media; esto se conoce como sobredispersión e indica que el modelo no es apropiado. Una razón común es la omisión de variables explicativas relevantes u observaciones dependientes. En algunas circunstancias, el problema de la sobredispersión se puede resolver utilizando en su lugar una estimación de cuasi-verosimilitud o una distribución binomial negativa . ^[5]^[6]

Ver Hoef y Boveng describieron la diferencia entre quasi-Poisson (también llamada sobredispersión con cuasi-verosimilitud) y binomial negativa (equivalente a gamma-Poisson) de la siguiente manera: Si E ( Y ) = μ , el modelo quasi-Poisson supone var( Y ) = θμ mientras que gamma-Poisson supone var( Y ) = μ (1 + κμ ), donde θ es el parámetro de sobredispersión quasi-Poisson, y κ es el parámetro de forma de la distribución binomial negativa . Para ambos modelos, los parámetros se estiman utilizando mínimos cuadrados reponderados iterativamente . Para quasi-Poisson, los pesos son μ / θ . Para binomial negativa, los pesos son μ /(1 + κμ ). Con un valor de μ grande y una variación extra-Poisson sustancial, los pesos binomiales negativos están limitados a 1/ κ . Ver Hoef y Boveng analizaron un ejemplo en el que seleccionaron entre los dos trazando los residuos cuadráticos medios frente a la media. ^[7]

Otro problema común con la regresión de Poisson es el exceso de ceros: si hay dos procesos en funcionamiento, uno que determina si hay cero eventos o ningún evento, y un proceso de Poisson que determina cuántos eventos hay, habrá más ceros de los que predeciría una regresión de Poisson. Un ejemplo sería la distribución de cigarrillos fumados en una hora por los miembros de un grupo en el que algunos individuos son no fumadores.

Otros modelos lineales generalizados, como el modelo binomial negativo o el modelo de cero inflado, pueden funcionar mejor en estos casos.

Por el contrario, la subdispersión puede suponer un problema para la estimación de parámetros. ^[8]

Uso en análisis de supervivencia

La regresión de Poisson crea modelos de riesgos proporcionales, una clase de análisis de supervivencia : consulte los modelos de riesgos proporcionales para obtener descripciones de los modelos de Cox.

Extensiones

Regresión de Poisson regularizada

Al estimar los parámetros para la regresión de Poisson, normalmente se intenta encontrar valores para θ que maximicen la probabilidad de una expresión de la forma

\sum _{i=1}^{m}\log(p(y_{i};e^{\theta 'x_{i}})),

donde m es el número de ejemplos en el conjunto de datos y es la función de masa de probabilidad de la distribución de Poisson con la media establecida en . Se puede agregar regularización a este problema de optimización maximizando en cambio ^[9] $p(y_{i};e^{\theta 'x_{i}})$ $e^{\theta 'x_{i}}$

\sum _{i=1}^{m}\log(p(y_{i};e^{\theta 'x_{i}}))-\lambda \left\|\theta \right\|_{2}^{2},

para alguna constante positiva . Esta técnica, similar a la regresión de cresta , puede reducir el sobreajuste . $\lambda$

Véase también

Referencias

^ Nelder, JA (1974). "Modelos lineales logarítmicos para tablas de contingencia: una generalización de los mínimos cuadrados clásicos". Journal of the Royal Statistical Society, Serie C (Estadística aplicada) . 23 (3): págs. 323–329. doi :10.2307/2347125. JSTOR 2347125.
^ Wooldridge, Jeffrey (2010). Análisis econométrico de datos de sección transversal y de panel (2.ª ed.). Cambridge, Massachusetts: The MIT Press. pág. 726.
^ Greene, William H. (2003). Análisis econométrico (quinta edición). Prentice-Hall. pp. 740–752. ISBN 978-0130661890.
^ Frome, Edward L. (1983). "El análisis de tasas utilizando modelos de regresión de Poisson". Biometrics . 39 (3): págs. 665–674. doi :10.2307/2531094. JSTOR 2531094.
^ Paternoster R, Brame R (1997). "¿Varias rutas hacia la delincuencia? Una prueba de las teorías evolutivas y generales del delito". Criminología . 35 : 45–84. doi : 10.1111/j.1745-9125.1997.tb00870.x .
^ Berk R, MacDonald J (2008). "Sobredispersión y regresión de Poisson". Revista de criminología cuantitativa . 24 (3): 269–284. doi :10.1007/s10940-008-9048-4. S2CID 121273486.
^ Ver Hoef, JAY M.; Boveng, Peter L. (1 de enero de 2007). "Regresión binomial negativa vs. cuasi-Poisson: ¿cómo deberíamos modelar datos de recuento sobredispersos?". Ecology . 88 (11): 2766–2772. Bibcode :2007Ecol...88.2766V. doi :10.1890/07-0043.1. PMID 18051645 . Consultado el 1 de septiembre de 2016 .
^ Schwarzenegger, Rafael; Quigley, John; Walls, Lesley (23 de noviembre de 2021). "¿Vale la pena el esfuerzo de obtener dependencia? Un estudio para el modelo de probabilidad multivariante de Poisson-Gamma". Actas de la Institución de Ingenieros Mecánicos, Parte O: Revista de riesgo y confiabilidad . 237 (5): 5. doi : 10.1177/1748006X211059417 .
^ Perperoglou, Aris (8 de septiembre de 2011). "Ajuste de datos de supervivencia con regresión de Poisson penalizada". Métodos estadísticos y aplicaciones . 20 (4). Springer Nature: 451–462. doi :10.1007/s10260-011-0172-1. ISSN 1618-2510. S2CID 10883925.

Lectura adicional

Cameron, AC; Trivedi, PK (1998). Análisis de regresión de datos de recuento . Cambridge University Press. ISBN 978-0-521-63201-0.
Christensen, Ronald (1997). Modelos log-lineales y regresión logística . Springer Texts in Statistics (Segunda edición). Nueva York: Springer-Verlag. ISBN 978-0-387-98247-2.Señor 1633357 .
Gouriéroux, Christian (2000). "La econometría de variables positivas discretas: el modelo de Poisson". Econometría de variables dependientes cualitativas . Nueva York: Cambridge University Press. pp. 270–83. ISBN 978-0-521-58985-7.
Greene, William H. (2008). "Modelos para recuentos y duración de eventos". Análisis econométrico (8.ª ed.). Upper Saddle River: Prentice Hall. pp. 906–944. ISBN 978-0-13-600383-0.
Hilbe, JM (2007). Regresión binomial negativa . Cambridge University Press. ISBN 978-0-521-85772-7.
Jones, Andrew M.; et al. (2013). "Modelos para datos de recuento". Applied Health Economics . Londres: Routledge. págs. 295–341. ISBN 978-0-415-67682-3.
Myers, Raymond H.; et al. (2010). "Logistic and Poisson Regression Models". Modelos lineales generalizados con aplicaciones en ingeniería y ciencias (segunda edición). Nueva Jersey: Wiley. págs. 176–183. ISBN 978-0-470-45463-3.