stringtranslate.com

Regresión binomial

En estadística , la regresión binomial es una técnica de análisis de regresión en la que la respuesta (a menudo denominada Y ) tiene una distribución binomial : es el número de éxitos en una serie de ensayos de Bernoulli independientes , donde cada ensayo tiene una probabilidad de éxito . [ 1] En la regresión binomial, la probabilidad de un éxito está relacionada con las variables explicativas : el concepto correspondiente en la regresión ordinaria es relacionar el valor medio de la respuesta no observada con las variables explicativas .

La regresión binomial está estrechamente relacionada con la regresión binaria : una regresión binaria puede considerarse una regresión binomial con , o una regresión sobre datos binarios no agrupados , mientras que una regresión binomial puede considerarse una regresión sobre datos binarios agrupados (ver comparación). [2] Los modelos de regresión binomial son esencialmente los mismos que los modelos de elección binaria , un tipo de modelo de elección discreta : la principal diferencia está en la motivación teórica (ver comparación). En el aprendizaje automático , la regresión binomial se considera un caso especial de clasificación probabilística y, por lo tanto, una generalización de la clasificación binaria .

Ejemplo de aplicación

En un ejemplo publicado de una aplicación de la regresión binomial, [3] los detalles fueron los siguientes. La variable de resultado observada fue si se produjo o no un fallo en un proceso industrial. Había dos variables explicativas: la primera era un factor simple de dos casos que representaba si se había utilizado o no una versión modificada del proceso y la segunda era una variable cuantitativa ordinaria que medía la pureza del material que se suministraba para el proceso.

Especificación del modelo

Se supone que la variable de respuesta Y se distribuye binomialmente en función de las variables explicativas X . Se conoce el número de ensayos n y la probabilidad de éxito para cada ensayo p se especifica como una función θ(X) . Esto implica que la expectativa condicional y la varianza condicional de la fracción observada de éxitos, Y/n , son

El objetivo de la regresión binomial es estimar la función θ(X) . Normalmente, el estadístico supone , para una función conocida m , y estima β . Las opciones comunes para m incluyen la función logística . [1]

Los datos se ajustan a menudo como un modelo lineal generalizado donde los valores predichos μ son las probabilidades de que cualquier evento individual resulte en un éxito. La probabilidad de las predicciones se expresa entonces mediante

donde 1 A es la función indicadora que toma el valor uno cuando ocurre el evento A , y cero en caso contrario: en esta formulación, para cualquier observación dada y i , solo uno de los dos términos dentro del producto contribuye, según si y i = 0 o 1. La función de verosimilitud se especifica más completamente definiendo los parámetros formales μ i como funciones parametrizadas de las variables explicativas: esto define la verosimilitud en términos de un número mucho más reducido de parámetros. El ajuste del modelo se logra generalmente empleando el método de máxima verosimilitud para determinar estos parámetros. En la práctica, el uso de una formulación como un modelo lineal generalizado permite aprovechar ciertas ideas algorítmicas que son aplicables a toda la clase de modelos más generales pero que no se aplican a todos los problemas de máxima verosimilitud.

Los modelos utilizados en la regresión binomial a menudo pueden extenderse a datos multinomiales.

Existen muchos métodos para generar los valores de μ de manera sistemática que permiten la interpretación del modelo; se analizan a continuación.

Funciones de enlace

Existe el requisito de que el modelo que vincula las probabilidades μ con las variables explicativas debe ser de una forma que solo produzca valores en el rango de 0 a 1. Muchos modelos se pueden adaptar a la forma

Aquí η es una variable intermedia que representa una combinación lineal, que contiene los parámetros de regresión, de las variables explicativas. La función g es la función de distribución acumulativa (cdf) de alguna distribución de probabilidad . Por lo general, esta distribución de probabilidad tiene un soporte desde menos infinito hasta más infinito, de modo que cualquier valor finito de η se transforma mediante la función g en un valor dentro del rango de 0 a 1.

En el caso de la regresión logística , la función de enlace es el logaritmo de la razón de probabilidades o función logística . En el caso de probit , el enlace es la función de distribución acumulativa de la distribución normal . El modelo de probabilidad lineal no es una especificación adecuada de regresión binomial porque las predicciones no necesitan estar en el rango de cero a uno; a veces se utiliza para este tipo de datos cuando el espacio de probabilidad es donde ocurre la interpretación o cuando el analista carece de la suficiente sofisticación para ajustar o calcular linealizaciones aproximadas de probabilidades para la interpretación.

Comparación con regresión binaria

La regresión binomial está estrechamente relacionada con la regresión binaria. Si la respuesta es una variable binaria (dos resultados posibles), entonces estas alternativas se pueden codificar como 0 o 1 al considerar uno de los resultados como "éxito" y el otro como "fracaso" y considerarlos como datos de recuento : "éxito" es 1 éxito de 1 ensayo, mientras que "fracaso" es 0 éxitos de 1 ensayo. Esto ahora se puede considerar una distribución binomial con ensayo, por lo que una regresión binomial es un caso especial de una regresión binomial. Si estos datos se agrupan (sumando recuentos), ya no son datos binarios, sino datos de recuento para cada grupo, y aún se pueden modelar mediante una regresión binomial; los resultados binarios individuales se denominan "datos no agrupados". Una ventaja de trabajar con datos agrupados es que se puede probar la bondad del ajuste del modelo; [2] por ejemplo, los datos agrupados pueden exhibir una sobredispersión en relación con la varianza estimada a partir de los datos no agrupados.

Comparación con modelos de elección binaria

Un modelo de elección binaria supone una variable latente U n , la utilidad (o beneficio neto) que la persona n obtiene al realizar una acción (en contraposición a no realizarla). La utilidad que la persona obtiene al realizar la acción depende de las características de la persona, algunas de las cuales son observadas por el investigador y otras no:

donde es un conjunto de coeficientes de regresión y es un conjunto de variables independientes (también conocidas como "características") que describen a la persona n , que pueden ser " variables ficticias " discretas o variables continuas regulares. es una variable aleatoria que especifica "ruido" o "error" en la predicción, que se supone que se distribuye de acuerdo con alguna distribución. Normalmente, si hay un parámetro de media o varianza en la distribución, no se puede identificar , por lo que los parámetros se establecen en valores convenientes: por convención, normalmente media 0, varianza 1.

La persona realiza la acción, y n = 1 , si U n > 0. Se supone que el término no observado, ε n , tiene una distribución logística .

La especificación está escrita sucintamente como:

Escribámoslo de una forma ligeramente diferente:

Aquí hemos hecho la sustitución e n = − ε n . Esto cambia una variable aleatoria en una ligeramente diferente, definida sobre un dominio negado. En realidad, las distribuciones de error que consideramos habitualmente (por ejemplo, distribución logística , distribución normal estándar, distribución t de Student estándar , etc.) son simétricas respecto de 0 y, por lo tanto, la distribución sobre e n es idéntica a la distribución sobre ε n .

Denotemos la función de distribución acumulativa (CDF) de como y la función cuantil (CDF inversa) de como

Tenga en cuenta que

Dado que se trata de un ensayo de Bernoulli , donde tenemos

o equivalentemente

Nótese que esto es exactamente equivalente al modelo de regresión binomial expresado en el formalismo del modelo lineal generalizado .

Si ie se distribuye como una distribución normal estándar , entonces

que es exactamente un modelo probit .

Si ie se distribuye como una distribución logística estándar con media 0 y parámetro de escala 1, entonces la función cuantil correspondiente es la función logit , y

que es exactamente un modelo logit .

Obsérvese que los dos formalismos diferentes ( modelos lineales generalizados [GLM] y modelos de elección discreta ) son equivalentes en el caso de modelos de elección binaria simples, pero se pueden ampliar de diferentes maneras:

Interpretación/derivación de variables latentes

Se puede construir un modelo de variable latente que involucra una variable observada binomial Y de modo que Y esté relacionada con la variable latente Y* a través de

La variable latente Y* se relaciona luego con un conjunto de variables de regresión X mediante el modelo.

Esto da como resultado un modelo de regresión binomial.

La varianza de ϵ no se puede identificar y, cuando no es de interés, se suele suponer que es igual a uno. Si ϵ se distribuye normalmente, entonces un probit es el modelo adecuado y si ϵ se distribuye según el método log-Weibull , entonces un logit es adecuado. Si ϵ se distribuye uniformemente, entonces un modelo de probabilidad lineal es adecuado.

Véase también

Notas

  1. ^ de Sanford Weisberg (2005). "Regresión binomial". Regresión lineal aplicada . Wiley-IEEE. págs. 253-254. ISBN 0-471-66379-4.
  2. ^ ab Rodríguez 2007, Capítulo 3, p. 5.
  3. ^ Cox y Snell (1981), Ejemplo H, pág. 91

Referencias

Lectura adicional