stringtranslate.com

Regresión binomial

En estadística , la regresión binomial es una técnica de análisis de regresión en la que la respuesta (a menudo denominada Y ) tiene una distribución binomial : es el número de éxitos en una serie de ensayos independientes de Bernoulli , donde cada ensayo tiene probabilidad de éxito . [1] En la regresión binomial, la probabilidad de éxito está relacionada con variables explicativas : el concepto correspondiente en la regresión ordinaria es relacionar el valor medio de la respuesta no observada con variables explicativas.

La regresión binomial está estrechamente relacionada con la regresión binaria : una regresión binomial puede considerarse una regresión binomial con o una regresión sobre datos binarios no agrupados , mientras que una regresión binomial puede considerarse una regresión sobre datos binarios agrupados (ver comparación). [2] Los modelos de regresión binomial son esencialmente los mismos que los modelos de elección binaria , un tipo de modelo de elección discreta : la principal diferencia está en la motivación teórica (ver comparación). En el aprendizaje automático , la regresión binomial se considera un caso especial de clasificación probabilística y, por tanto, una generalización de la clasificación binaria .

Aplicación de ejemplo

En un ejemplo publicado de una aplicación de regresión binomial, [3] los detalles fueron los siguientes. La variable de resultado observada fue si ocurrió o no una falla en un proceso industrial. Había dos variables explicativas: la primera era un factor simple de dos casos que representaba si se utilizaba o no una versión modificada del proceso y la segunda era una variable cuantitativa ordinaria que medía la pureza del material suministrado para el proceso.

Especificación del modelo

Se supone que la variable de respuesta Y tiene una distribución binomial condicionada a las variables explicativas X. Se conoce el número de ensayos n y la probabilidad de éxito de cada ensayo p se especifica como una función θ(X) . Esto implica que la expectativa condicional y la varianza condicional de la fracción observada de éxitos, Y/n , son

El objetivo de la regresión binomial es estimar la función θ(X) . Normalmente, el estadístico supone , para una función conocida m , y estima β . Las opciones comunes para m incluyen la función logística . [1]

Los datos a menudo se ajustan como un modelo lineal generalizado donde los valores predichos μ son las probabilidades de que cualquier evento individual resulte exitoso. La probabilidad de las predicciones viene dada entonces por

donde 1 A es la función indicadora que toma el valor uno cuando ocurre el evento A y cero en caso contrario: en esta formulación, para cualquier observación dada y i , sólo uno de los dos términos dentro del producto contribuye, según y i =0 o 1. La función de probabilidad se especifica más completamente definiendo los parámetros formales μ i como funciones parametrizadas de las variables explicativas: esto define la probabilidad en términos de un número mucho más reducido de parámetros. El ajuste del modelo generalmente se logra empleando el método de máxima verosimilitud para determinar estos parámetros. En la práctica, el uso de una formulación como modelo lineal generalizado permite aprovechar ciertas ideas algorítmicas que son aplicables a toda la clase de modelos más generales pero que no se aplican a todos los problemas de máxima verosimilitud.

Los modelos utilizados en la regresión binomial a menudo pueden ampliarse a datos multinomiales.

Existen muchos métodos para generar los valores de μ de manera sistemática que permitan la interpretación del modelo; se analizan a continuación.

Funciones de enlace

Existe el requisito de que el modelado que vincula las probabilidades μ con las variables explicativas sea de una forma que solo produzca valores en el rango de 0 a 1. Muchos modelos se pueden ajustar a la forma

Aquí η es una variable intermedia que representa una combinación lineal, que contiene los parámetros de regresión, de las variables explicativas. La función g es la función de distribución acumulativa (cdf) de alguna distribución de probabilidad . Por lo general, esta distribución de probabilidad tiene un soporte de menos infinito a más infinito, de modo que cualquier valor finito de η es transformado por la función g a un valor dentro del rango de 0 a 1.

En el caso de la regresión logística , la función de enlace es el logaritmo del odds ratio o función logística . En el caso de probit , el vínculo es la CDF de la distribución normal . El modelo de probabilidad lineal no es una especificación de regresión binomial adecuada porque no es necesario que las predicciones estén en el rango de cero a uno; a veces se utiliza para este tipo de datos cuando el espacio de probabilidad es donde ocurre la interpretación o cuando el analista carece de la suficiente sofisticación para ajustar o calcular linealizaciones aproximadas de probabilidades para la interpretación.

Comparación con la regresión binaria

La regresión binomial está estrechamente relacionada con la regresión binaria. Si la respuesta es una variable binaria (dos resultados posibles), entonces estas alternativas se pueden codificar como 0 o 1 considerando uno de los resultados como "éxito" y el otro como "fracaso" y considerándolos como datos de conteo : "éxito" es 1 éxito de 1 prueba, mientras que "fracaso" es 0 éxitos de 1 prueba. Esto ahora puede considerarse una distribución binomial con prueba, por lo que una regresión binaria es un caso especial de regresión binomial. Si estos datos se agrupan (sumando recuentos), ya no son datos binarios, sino datos de recuento para cada grupo, y aún pueden modelarse mediante una regresión binomial; los resultados binarios individuales se denominan "datos desagrupados". Una ventaja de trabajar con datos agrupados es que se puede probar la bondad de ajuste del modelo; [2] por ejemplo, los datos agrupados pueden presentar una dispersión excesiva en relación con la varianza estimada a partir de los datos no agrupados.

Comparación con modelos de elección binaria

Un modelo de elección binaria supone una variable latente U n , la utilidad (o beneficio neto) que la persona n obtiene al realizar una acción (en lugar de no realizarla). La utilidad que la persona obtiene al realizar la acción depende de las características de la persona, algunas de las cuales son observadas por el investigador y otras no:

donde es un conjunto de coeficientes de regresión y es un conjunto de variables independientes (también conocidas como "características") que describen a la persona n , que pueden ser " variables ficticias " discretas o variables continuas regulares. es una variable aleatoria que especifica "ruido" o "error" en la predicción, y se supone que está distribuida según alguna distribución. Normalmente, si hay un parámetro de media o varianza en la distribución, no se puede identificar , por lo que los parámetros se establecen en valores convenientes; por convención, generalmente media 0, varianza 1.

La persona realiza la acción, y n = 1 , si U n > 0. Se supone que el término no observado, ε n , tiene una distribución logística .

La especificación está escrita sucintamente como:

Escribámoslo de manera ligeramente diferente:

Aquí hemos hecho la sustitución e n = − ε n . Esto cambia una variable aleatoria a una ligeramente diferente, definida sobre un dominio negado. Da la casualidad de que las distribuciones de error que generalmente consideramos (por ejemplo, distribución logística , distribución normal estándar , distribución t de Student estándar , etc.) son simétricas con respecto a 0 y, por lo tanto, la distribución sobre e n es idéntica a la distribución sobre ε n .

Denota la función de distribución acumulativa (CDF) de as y la función cuantil (CDF inversa) de as

Tenga en cuenta que

Ya que es un ensayo de Bernoulli , donde tenemos

o equivalente

Tenga en cuenta que esto es exactamente equivalente al modelo de regresión binomial expresado en el formalismo del modelo lineal generalizado .

Si, es decir, se distribuye como una distribución normal estándar , entonces

que es exactamente un modelo probit .

Si, es decir, se distribuye como una distribución logística estándar con media 0 y parámetro de escala 1, entonces la función cuantil correspondiente es la función logit , y

que es exactamente un modelo logit .

Tenga en cuenta que los dos formalismos diferentes ( modelos lineales generalizados (GLM) y modelos de elección discreta ) son equivalentes en el caso de modelos de elección binaria simple, pero pueden ampliarse de diferentes maneras:

Interpretación/derivación de variables latentes

Se puede construir un modelo de variable latente que involucra una variable binomial observada Y de modo que Y esté relacionado con la variable latente Y* mediante

Luego , el modelo relaciona la variable latente Y* con un conjunto de variables de regresión X.

Esto da como resultado un modelo de regresión binomial.

La varianza de ϵ no se puede identificar y cuando no es de interés se suele suponer que es igual a uno. Si ϵ tiene una distribución normal, entonces un probit es el modelo apropiado y si ϵ tiene una distribución log-Weibull , entonces un logit es apropiado. Si ϵ está distribuido uniformemente, entonces es apropiado un modelo de probabilidad lineal.

Ver también

Notas

  1. ^ ab Sanford Weisberg (2005). "Regresión binomial". Regresión lineal aplicada . Wiley-IEEE. págs. 253-254. ISBN 0-471-66379-4.
  2. ^ ab Rodríguez 2007, Capítulo 3, p. 5.
  3. ^ Cox y Snell (1981), Ejemplo H, pág. 91

Referencias

Otras lecturas