stringtranslate.com

Regresión logística

Gráfico de ejemplo de una curva de regresión logística ajustada a los datos. La curva muestra la probabilidad estimada de aprobar un examen (variable dependiente binaria) versus las horas de estudio (variable independiente escalar). Ver § Ejemplo para detalles trabajados.

En estadística , el modelo logístico (o modelo logit ) es un modelo estadístico que modela las probabilidades logarítmicas de un evento como una combinación lineal de una o más variables independientes . En el análisis de regresión , la regresión logística [1] (o regresión logit ) estima los parámetros de un modelo logístico (los coeficientes en la combinación lineal). Formalmente, en la regresión logística binaria hay una única variable dependiente binaria , codificada por una variable indicadora , donde los dos valores están etiquetados como "0" y "1", mientras que las variables independientes pueden ser cada una de ellas una variable binaria (dos clases, codificadas por una variable indicadora) o una variable continua (cualquier valor real). La probabilidad correspondiente del valor etiquetado como "1" puede variar entre 0 (ciertamente el valor "0") y 1 (ciertamente el valor "1"), de ahí el etiquetado; [2] la función que convierte las probabilidades logarítmicas en probabilidad es la función logística , de ahí el nombre. La unidad de medida de la escala logarítmica de probabilidades se llama logit , de unidad logística it , de ahí los nombres alternativos. Consulte § Antecedentes y § Definición de matemáticas formales, y § Ejemplo para ver un ejemplo resuelto.

Las variables binarias se utilizan ampliamente en estadística para modelar la probabilidad de que ocurra una determinada clase o evento, como la probabilidad de que un equipo gane, de que un paciente esté sano, etc. (ver § Aplicaciones), y el modelo logístico ha sido el modelo más comúnmente utilizado para regresión binaria desde aproximadamente 1970. [3] Las variables binarias se pueden generalizar a variables categóricas cuando hay más de dos valores posibles (por ejemplo, si una imagen es de un gato, un perro, un león, etc.), y el Regresión logística binaria generalizada a regresión logística multinomial . Si las múltiples categorías están ordenadas , se puede utilizar la regresión logística ordinal (por ejemplo, el modelo logístico ordinal de probabilidades proporcionales [4] ). Consulte § Extensiones para obtener más extensiones. El modelo de regresión logística en sí simplemente modela la probabilidad de la producción en términos de entrada y no realiza una clasificación estadística (no es un clasificador), aunque puede usarse para crear un clasificador, por ejemplo, eligiendo un valor de corte y clasificando las entradas con probabilidad. mayor que el límite como una clase, por debajo del límite como la otra; esta es una forma común de crear un clasificador binario .

También se pueden utilizar modelos lineales análogos para variables binarias con una función sigmoidea diferente en lugar de la función logística (para convertir la combinación lineal en una probabilidad), sobre todo el modelo probit ; ver § Alternativas. La característica definitoria del modelo logístico es que al aumentar una de las variables independientes se escalan multiplicativamente las probabilidades del resultado dado a una tasa constante , y cada variable independiente tiene su propio parámetro; para una variable dependiente binaria, esto generaliza la razón de probabilidades . De manera más abstracta, la función logística es el parámetro natural de la distribución de Bernoulli y, en este sentido, es la forma "más sencilla" de convertir un número real en una probabilidad. En particular, maximiza la entropía (minimiza la información agregada) y, en este sentido, hace la menor cantidad de suposiciones sobre los datos que se modelan; ver § Entropía máxima.

Los parámetros de una regresión logística se estiman más comúnmente mediante estimación de máxima verosimilitud (MLE). Esto no tiene una expresión de forma cerrada, a diferencia de los mínimos cuadrados lineales ; ver § Montaje del modelo. La regresión logística por MLE desempeña un papel básico similar para las respuestas binarias o categóricas al que desempeña la regresión lineal por mínimos cuadrados ordinarios (MCO) para las respuestas escalares : es un modelo de referencia simple y bien analizado; ver § Comparación con regresión lineal para discusión. La regresión logística como modelo estadístico general fue originalmente desarrollada y popularizada principalmente por Joseph Berkson , [5] comenzando en Berkson (1944), donde acuñó "logit"; ver § Historia.

Aplicaciones

La regresión logística se utiliza en varios campos, incluido el aprendizaje automático, la mayoría de los campos médicos y las ciencias sociales. Por ejemplo, el Trauma and Injury Severity Score ( TRISS ), que se utiliza ampliamente para predecir la mortalidad en pacientes lesionados, fue desarrollado originalmente por Boyd et al. utilizando regresión logística. [6] Muchas otras escalas médicas utilizadas para evaluar la gravedad de un paciente se han desarrollado mediante regresión logística. [7] [8] [9] [10] La regresión logística se puede utilizar para predecir el riesgo de desarrollar una enfermedad determinada (por ejemplo, diabetes , enfermedad coronaria ), en función de las características observadas del paciente (edad, sexo, índice de masa corporal). , resultados de diversos análisis de sangre , etc.). [11] [12] Otro ejemplo podría ser predecir si un votante nepalés votará por el Congreso Nepalí o el Partido Comunista de Nepal o cualquier otro partido, en función de la edad, los ingresos, el sexo, la raza, el estado de residencia, los votos en elecciones anteriores, etc. [13] La técnica también se puede utilizar en ingeniería , especialmente para predecir la probabilidad de falla de un proceso, sistema o producto determinado . [14] [15] También se utiliza en aplicaciones de marketing , como la predicción de la propensión de un cliente a comprar un producto o suspender una suscripción, etc. [16] En economía , se puede utilizar para predecir la probabilidad de que una persona termine en la fuerza laboral, y una aplicación comercial sería predecir la probabilidad de que un propietario incumpla con una hipoteca . En el procesamiento del lenguaje natural se utilizan campos aleatorios condicionales , una extensión de la regresión logística a datos secuenciales . Los ingenieros y planificadores de desastres se basan en estos modelos para predecir la toma de decisiones por parte de los propietarios de viviendas u ocupantes de edificios en evacuaciones a pequeña y gran escala, como incendios de edificios, incendios forestales, huracanes, entre otros. [17] [18] [19] Estos modelos ayudan en el desarrollo de planes confiables de gestión de desastres y un diseño más seguro para el entorno construido .

Ejemplo

Problema

Como ejemplo sencillo, podemos utilizar una regresión logística con una variable explicativa y dos categorías para responder la siguiente pregunta:

Un grupo de 20 estudiantes dedica entre 0 y 6 horas a estudiar para un examen. ¿Cómo afecta el número de horas dedicadas a estudiar la probabilidad de que el estudiante apruebe el examen?

La razón para utilizar la regresión logística para este problema es que los valores de la variable dependiente, pasa y falla, aunque están representados por "1" y "0", no son números cardinales . Si se cambiara el problema de modo que se reemplazara aprobado/reprobado por la calificación 0-100 (números cardinales), entonces se podría utilizar un análisis de regresión simple.

La tabla muestra el número de horas que cada estudiante dedicó a estudiar y si aprobó (1) o suspendió (0).

Deseamos ajustar una función logística a los datos que consisten en las horas estudiadas ( x k ) y el resultado de la prueba ( y k  = 1 para aprobado, 0 para reprobado). Los puntos de datos están indexados por el subíndice k que va desde hasta . La variable x se denomina " variable explicativa " y la variable y se denomina " variable categórica " ​​que consta de dos categorías: "aprobado" o "reprobado" correspondientes a los valores categóricos 1 y 0 respectivamente.

Modelo

Gráfica de una curva de regresión logística ajustada a los datos ( x m , y m ). La curva muestra la probabilidad de aprobar un examen frente a las horas de estudio.

La función logística es de la forma:

donde μ es un parámetro de ubicación (el punto medio de la curva, donde ) y s es un parámetro de escala . Esta expresión puede reescribirse como:

donde y se conoce como la intersección (es la intersección vertical o la intersección y de la línea ), y (parámetro de escala inversa o parámetro de tasa ): estos son la intersección y y la pendiente de las probabilidades logarítmicas en función de x . Por el contrario, y .

Adaptar

La medida habitual de bondad de ajuste para una regresión logística utiliza la pérdida logística (o pérdida logarítmica ), la probabilidad logarítmica negativa . Para un x k y y k dados , escribe . Son las probabilidades de que el correspondiente sea igual a uno y son las probabilidades de que sean cero (ver distribución de Bernoulli ). Deseamos encontrar los valores de y que dan el "mejor ajuste" a los datos. En el caso de la regresión lineal, la suma de las desviaciones al cuadrado del ajuste de los puntos de datos ( y k ), la pérdida de error al cuadrado , se toma como medida de la bondad del ajuste, y el mejor ajuste se obtiene cuando esa función se minimiza .

La pérdida logarítmica para el k -ésimo punto es:

La pérdida logarítmica puede interpretarse como la " sorpresa " del resultado real en relación con la predicción y es una medida del contenido de la información . La pérdida logarítmica siempre es mayor o igual a 0, es igual a 0 solo en el caso de una predicción perfecta (es decir, cuando y o y ) y se aproxima al infinito a medida que la predicción empeora (es decir, cuando y o y ), es decir, la pérdida real. El resultado es "más sorprendente". Dado que el valor de la función logística siempre está estrictamente entre cero y uno, la pérdida logarítmica siempre es mayor que cero y menor que infinito. A diferencia de una regresión lineal, donde el modelo puede tener una pérdida cero en un punto al pasar por un punto de datos (y una pérdida general cero si todos los puntos están en una línea), en una regresión logística no es posible tener una pérdida cero en ningún punto. puntos, ya que es 0 o 1, pero .

Estos se pueden combinar en una sola expresión:

Esta expresión se conoce más formalmente como entropía cruzada de la distribución predicha a partir de la distribución real , como distribuciones de probabilidad en el espacio de dos elementos de (aprobado, reprobado).

La suma de estos, la pérdida total, es la probabilidad logarítmica negativa general , y se obtiene el mejor ajuste para aquellas elecciones de y para las cuales se minimiza .

Alternativamente, en lugar de minimizar la pérdida, se puede maximizar su inversa, la probabilidad logarítmica (positiva):

o de manera equivalente maximizar la función de verosimilitud en sí, que es la probabilidad de que el conjunto de datos dado sea producido por una función logística particular:

Este método se conoce como estimación de máxima verosimilitud .

Estimación de parámetros

Dado que no es lineal en y , determinar sus valores óptimos requerirá métodos numéricos. Un método para maximizar es requerir que las derivadas de con respecto a y sean cero:

y el procedimiento de maximización se puede lograr resolviendo las dos ecuaciones anteriores para y , lo que, nuevamente, generalmente requerirá el uso de métodos numéricos.

Los valores de y que maximizan y L usando los datos anteriores son:

lo que produce un valor para μ y s de:

Predicciones

Los coeficientes y se pueden ingresar en la ecuación de regresión logística para estimar la probabilidad de aprobar el examen.

Por ejemplo, para un estudiante que estudia 2 horas, ingresar el valor en la ecuación le da la probabilidad estimada de aprobar el examen de 0,25:

De manera similar, para un estudiante que estudia 4 horas, la probabilidad estimada de aprobar el examen es 0,87:

Esta tabla muestra la probabilidad estimada de aprobar el examen para varios valores de horas de estudio.

Evaluación del modelo

El análisis de regresión logística arroja el siguiente resultado.

Mediante la prueba de Wald , el resultado indica que las horas de estudio se asocian significativamente con la probabilidad de aprobar el examen ( ). En lugar del método de Wald, el método recomendado [20] para calcular el valor p para la regresión logística es la prueba de razón de verosimilitud (LRT), que para estos datos proporciona (consulte § Pruebas de desviación y razón de verosimilitud a continuación).

Generalizaciones

Este modelo simple es un ejemplo de regresión logística binaria y tiene una variable explicativa y una variable categórica binaria que puede asumir uno de dos valores categóricos. La regresión logística multinomial es la generalización de la regresión logística binaria para incluir cualquier número de variables explicativas y cualquier número de categorías.

Fondo

Figura 1. La función logística estándar ; para todos .

Definición de la función logística.

Una explicación de la regresión logística puede comenzar con una explicación de la función logística estándar . La función logística es una función sigmoidea , que toma cualquier entrada real y genera un valor entre cero y uno. [2] Para el logit, esto se interpreta como tomar probabilidades logarítmicas de entrada y tener probabilidad de salida . La función logística estándar se define de la siguiente manera:

En la Figura 1 se muestra una gráfica de la función logística en el intervalo t (−6,6).

Supongamos que es una función lineal de una única variable explicativa (el caso en el que es una combinación lineal de múltiples variables explicativas se trata de manera similar). Entonces podemos expresar de la siguiente manera:

Y la función logística general ahora se puede escribir como:

En el modelo logístico, se interpreta como la probabilidad de que la variable dependiente sea igual a un éxito/caso en lugar de un fracaso/no caso. Está claro que las variables de respuesta no están distribuidas de manera idéntica: difieren de un punto de datos a otro, aunque son independientes dada la matriz de diseño y los parámetros compartidos . [11]

Definición de la inversa de la función logística.

Ahora podemos definir la función logit (log odds) como la inversa de la función logística estándar. Es fácil ver que satisface:

y de manera equivalente, después de exponenciar ambos lados tenemos las probabilidades:

Interpretación de estos términos.

En las ecuaciones anteriores, los términos son los siguientes:

Definición de las probabilidades

Las probabilidades de que la variable dependiente sea igual a un caso (dada alguna combinación lineal de predictores) son equivalentes a la función exponencial de la expresión de regresión lineal. Esto ilustra cómo el logit sirve como función de vínculo entre la probabilidad y la expresión de regresión lineal. Dado que el logit oscila entre el infinito negativo y el positivo, proporciona un criterio adecuado sobre el cual realizar la regresión lineal y el logit se convierte fácilmente nuevamente en probabilidades. [2]

Entonces definimos las probabilidades de que la variable dependiente sea igual a un caso (dada alguna combinación lineal de los predictores) de la siguiente manera:

La razón de probabilidades

Para una variable independiente continua, el odds ratio se puede definir como:

La imagen representa un resumen de cómo se ve un índice de probabilidades por escrito, a través de una plantilla además del ejemplo de puntuación de la prueba en la sección "Ejemplo" de los contenidos. En términos simples, si hipotéticamente obtenemos una razón de probabilidades de 2 a 1, podemos decir... "Por cada aumento de una unidad en las horas estudiadas, las probabilidades de aprobar (grupo 1) o reprobar (grupo 0) son (esperadamente ) 2 a 1 (Denis, 2019).

Esta relación exponencial proporciona una interpretación de : Las probabilidades se multiplican por cada aumento de 1 unidad en x. [21]

Para una variable binaria independiente, la razón de probabilidades se define como donde a, b, cyd son celdas en una tabla de contingencia de 2 ×2 . [22]

Múltiples variables explicativas

Si hay varias variables explicativas, la expresión anterior se puede revisar a . Luego, cuando esto se use en la ecuación que relaciona las probabilidades logarítmicas de éxito con los valores de los predictores, la regresión lineal será una regresión múltiple con m explicadores; Todos los parámetros para todos son estimados.

Nuevamente, las ecuaciones más tradicionales son:

y

donde normalmente .

Definición

Un conjunto de datos contiene N puntos. Cada punto i consta de un conjunto de m variables de entrada x 1, i ... x m,i (también llamadas variables independientes , variables explicativas, variables predictivas, características o atributos) y una variable de resultado binaria Y i (también conocida como variable dependiente , variable de respuesta, variable de salida o clase), es decir, puede asumir sólo los dos valores posibles 0 (que a menudo significa "no" o "fracaso") o 1 (que a menudo significa "sí" o "éxito"). El objetivo de la regresión logística es utilizar el conjunto de datos para crear un modelo predictivo de la variable de resultado.

Como en la regresión lineal, se supone que las variables de resultado Y i dependen de las variables explicativas x 1, i ... x m,i .

Variables explicativas

Las variables explicativas pueden ser de cualquier tipo : de valor real , binarias , categóricas , etc. La principal distinción es entre variables continuas y variables discretas .

(Las variables discretas que hacen referencia a más de dos opciones posibles generalmente se codifican usando variables ficticias (o variables indicadoras ), es decir, se crean variables explicativas separadas que toman el valor 0 o 1 para cada valor posible de la variable discreta, donde 1 significa " la variable tiene el valor dado" y un 0 significa "la variable no tiene ese valor").

Variables de resultado

Formalmente, los resultados Yi se describen como datos distribuidos por Bernoulli , donde cada resultado está determinado por una probabilidad no observada p i que es específica del resultado en cuestión, pero relacionada con las variables explicativas. Esto se puede expresar en cualquiera de las siguientes formas equivalentes:

Los significados de estas cuatro líneas son:

  1. La primera línea expresa la distribución de probabilidad de cada Y i  : condicionada a las variables explicativas, sigue una distribución de Bernoulli con parámetros p i , la probabilidad del resultado de 1 para el ensayo i . Como se señaló anteriormente, cada ensayo por separado tiene su propia probabilidad de éxito, del mismo modo que cada ensayo tiene sus propias variables explicativas. La probabilidad de éxito p i no se observa, sólo el resultado de un ensayo individual de Bernoulli que utiliza esa probabilidad.
  2. La segunda línea expresa el hecho de que el valor esperado de cada Y i es igual a la probabilidad de éxito p i , que es una propiedad general de la distribución de Bernoulli. En otras palabras, si ejecutamos una gran cantidad de ensayos de Bernoulli usando la misma probabilidad de éxito p i , luego tomamos el promedio de todos los resultados 1 y 0, entonces el resultado estaría cerca de p i . Esto se debe a que hacer un promedio de esta manera simplemente calcula la proporción de éxitos observados, que esperamos que converjan con la probabilidad de éxito subyacente.
  3. La tercera línea escribe la función de masa de probabilidad de la distribución de Bernoulli, especificando la probabilidad de ver cada uno de los dos resultados posibles.
  4. La cuarta línea es otra forma de escribir la función de masa de probabilidad, que evita tener que escribir casos separados y es más conveniente para ciertos tipos de cálculos. Esto se basa en el hecho de que Y i sólo puede tomar el valor 0 o 1. En cada caso, uno de los exponentes será 1, "eligiendo" el valor bajo él, mientras que el otro es 0, "anulando" el valor bajo él. Por lo tanto, el resultado es p i o 1 −  p i , como en la línea anterior.
Función predictora lineal

La idea básica de la regresión logística es utilizar el mecanismo ya desarrollado para la regresión lineal modelando la probabilidad p i usando una función predictora lineal , es decir, una combinación lineal de las variables explicativas y un conjunto de coeficientes de regresión que son específicos del modelo en cuestión. pero lo mismo para todas las pruebas. La función predictora lineal para un punto de datos particular i se escribe como:

donde son los coeficientes de regresión que indican el efecto relativo de una variable explicativa particular sobre el resultado.

El modelo normalmente se presenta en una forma más compacta de la siguiente manera:

Esto hace posible escribir la función predictora lineal de la siguiente manera:

usando la notación para un producto escalar entre dos vectores.

Este es un ejemplo de un resultado de SPSS para un modelo de regresión logística que utiliza tres variables explicativas (consumo de café por semana, uso de bebidas energéticas por semana y uso de refrescos por semana) y dos categorías (masculino y femenino).

Muchas variables explicativas, dos categorías.

El ejemplo anterior de regresión logística binaria sobre una variable explicativa se puede generalizar a regresión logística binaria sobre cualquier número de variables explicativas x 1 , x 2 ,... y cualquier número de valores categóricos .

Para empezar, podemos considerar un modelo logístico con M variables explicativas, x 1 , x 2 ... x M y, como en el ejemplo anterior, dos valores categóricos ( y = 0 y 1). Para el modelo de regresión logística binaria simple, asumimos una relación lineal entre la variable predictiva y las probabilidades logarítmicas (también llamadas logit ) del evento que . Esta relación lineal puede extenderse al caso de M variables explicativas:

donde t son las probabilidades logarítmicas y son los parámetros del modelo. Se ha introducido una generalización adicional en la que la base del modelo ( b ) no se limita al número de Euler e . En la mayoría de las aplicaciones, la base del logaritmo suele tomarse como e . Sin embargo, en algunos casos puede resultar más fácil comunicar los resultados trabajando en base 2 o base 10.

Para una notación más compacta, especificaremos las variables explicativas y los coeficientes β como vectores -dimensionales:

con una variable explicativa agregada x 0 =1. El logit ahora puede escribirse como:

Resolviendo para la probabilidad p que produce:

,

¿Dónde está la función sigmoidea con base ? La fórmula anterior muestra que una vez que se fijan, podemos calcular fácilmente las probabilidades logarítmicas para una observación determinada o la probabilidad para una observación determinada. El principal caso de uso de un modelo logístico es recibir una observación y estimar la probabilidad de que . Los coeficientes beta óptimos se pueden encontrar nuevamente maximizando la probabilidad logarítmica. Para K mediciones, definiéndolas como el vector explicativo de la k -ésima medición y como el resultado categórico de esa medición, la probabilidad logarítmica se puede escribir de una forma muy similar al caso simple anterior:

Como en el sencillo ejemplo anterior, encontrar los parámetros β óptimos requerirá métodos numéricos. Una técnica útil es igualar las derivadas de la probabilidad logarítmica con respecto a cada uno de los parámetros β a cero, generando un conjunto de ecuaciones que se mantendrán en el máximo de la probabilidad logarítmica:

donde x mk es el valor de la variable explicativa x m de la k-ésima medición.

Considere un ejemplo con variables explicativas, y coeficientes , y que han sido determinados mediante el método anterior. Para ser concretos, el modelo es:

,

donde p es la probabilidad del evento que . Esto se puede interpretar de la siguiente manera:

Regresión logística multinomial: muchas variables explicativas y muchas categorías

En los casos anteriores de dos categorías (regresión logística binomial), las categorías estaban indexadas por "0" y "1", y teníamos dos probabilidades: la probabilidad de que el resultado estuviera en la categoría 1 estaba dada por y la probabilidad de que el resultado estaba en la categoría 0 fue dado por . La suma de estas probabilidades es igual a 1, lo cual debe ser cierto, ya que "0" y "1" son las únicas categorías posibles en esta configuración.

En general, si tenemos variables explicativas (incluyendo x 0 ) y categorías, necesitaremos probabilidades separadas, una para cada categoría, indexadas por n , que describen la probabilidad de que el resultado categórico y esté en la categoría y=n , condicionado a el vector de covariables x . La suma de estas probabilidades en todas las categorías debe ser igual a 1. Usando la base matemáticamente conveniente e , estas probabilidades son:

para

Cada una de las probabilidades excepto tendrá su propio conjunto de coeficientes de regresión . Se puede ver que, como es necesario, la suma de todas las categorías n es 1. La selección de que se definirá en términos de las otras probabilidades es artificial. Cualquiera de las probabilidades podría haber sido seleccionada para quedar así definida. Este valor especial de n se denomina "índice de pivote", y las probabilidades logarítmicas ( t n ) se expresan en términos de la probabilidad de pivote y nuevamente se expresan como una combinación lineal de las variables explicativas:

Tenga en cuenta también que para el caso simple de , se recupera el caso de dos categorías, con y .

Ahora se puede calcular la probabilidad logarítmica de que un conjunto particular de K mediciones o puntos de datos sea generado por las probabilidades anteriores. Al indexar cada medición por k , denotemos el k -ésimo conjunto de variables explicativas medidas y sus resultados categóricos, que pueden ser iguales a cualquier número entero en [0,N]. La probabilidad logarítmica es entonces:

donde es una función indicadora que es igual a 1 si y k = n y cero en caso contrario. En el caso de dos variables explicativas, esta función indicadora se definió como yk cuando n = 1 y 1- yk cuando n = 0. Esto era conveniente, pero no necesario. [23] Nuevamente, los coeficientes beta óptimos se pueden encontrar maximizando la función de probabilidad logarítmica, generalmente utilizando métodos numéricos. Un posible método de solución es establecer las derivadas de la probabilidad logarítmica con respecto a cada coeficiente beta igual a cero y resolver los coeficientes beta:

donde es el m -ésimo coeficiente del vector y es la m -ésima variable explicativa de la k -ésima medición. Una vez que se hayan estimado los coeficientes beta a partir de los datos, podremos estimar la probabilidad de que cualquier conjunto posterior de variables explicativas dé como resultado cualquiera de las posibles categorías de resultados.

Interpretaciones

Existen varias especificaciones e interpretaciones equivalentes de la regresión logística, que se ajustan a diferentes tipos de modelos más generales y permiten diferentes generalizaciones.

Como modelo lineal generalizado

El modelo particular utilizado por la regresión logística, que la distingue de la regresión lineal estándar y de otros tipos de análisis de regresión utilizados para resultados con valores binarios , es la forma en que la probabilidad de un resultado particular se vincula a la función de predicción lineal:

Escrito usando la notación más compacta descrita anteriormente, esto es:

Esta formulación expresa la regresión logística como un tipo de modelo lineal generalizado , que predice variables con varios tipos de distribuciones de probabilidad ajustando una función predictora lineal de la forma anterior a algún tipo de transformación arbitraria del valor esperado de la variable.

La intuición para transformar usando la función logit (el registro natural de las probabilidades) se explicó anteriormente [ aclaración necesaria ] . También tiene el efecto práctico de convertir la probabilidad (que está limitada a estar entre 0 y 1) en una variable que varía , igualando así el rango potencial de la función de predicción lineal en el lado derecho de la ecuación.

Tanto las probabilidades p i como los coeficientes de regresión no se observan y los medios para determinarlos no forman parte del modelo en sí. Por lo general, se determinan mediante algún tipo de procedimiento de optimización, por ejemplo, estimación de máxima verosimilitud , que encuentra los valores que mejor se ajustan a los datos observados (es decir, que dan las predicciones más precisas para los datos ya observados), generalmente sujetos a condiciones de regularización que buscan excluir datos improbables. valores, por ejemplo, valores extremadamente grandes para cualquiera de los coeficientes de regresión. El uso de una condición de regularización equivale a realizar una estimación máxima a posteriori (MAP), una extensión de la máxima verosimilitud. (La regularización se realiza más comúnmente usando una función de regularización al cuadrado , que equivale a colocar una distribución previa gaussiana de media cero en los coeficientes, pero también son posibles otros regularizadores). Ya sea que se use o no la regularización, generalmente no es posible encontrar una solución de forma cerrada; en su lugar, se debe utilizar un método numérico iterativo, como los mínimos cuadrados reponderados iterativamente (IRLS) o, más comúnmente hoy en día, un método cuasi-Newton como el método L-BFGS . [24]

La interpretación de las estimaciones del parámetro β j es como el efecto aditivo sobre el registro de las probabilidades de un cambio unitario en j la variable explicativa. En el caso de una variable explicativa dicotómica, por ejemplo, el género es la estimación de las probabilidades de obtener el resultado para, digamos, los hombres en comparación con las mujeres.

Una fórmula equivalente utiliza la inversa de la función logit, que es la función logística , es decir:

La fórmula también se puede escribir como una distribución de probabilidad (específicamente, usando una función de masa de probabilidad ):

Como modelo de variable latente

El modelo logístico tiene una formulación equivalente a un modelo de variable latente . Esta formulación es común en la teoría de los modelos de elección discreta y facilita su extensión a ciertos modelos más complicados con opciones múltiples y correlacionadas, así como la comparación de la regresión logística con el modelo probit estrechamente relacionado .

Imagine que, para cada ensayo i , existe una variable latente continua Y i * (es decir, una variable aleatoria no observada ) que se distribuye de la siguiente manera:

dónde

es decir, la variable latente se puede escribir directamente en términos de la función predictora lineal y una variable de error aleatorio aditivo que se distribuye según una distribución logística estándar .

Entonces Y i puede verse como un indicador de si esta variable latente es positiva:

La elección de modelar la variable de error específicamente con una distribución logística estándar, en lugar de una distribución logística general con la ubicación y la escala establecidas en valores arbitrarios, parece restrictiva, pero de hecho no lo es. Hay que tener en cuenta que podemos elegir los coeficientes de regresión nosotros mismos y, muy a menudo, podemos utilizarlos para compensar cambios en los parámetros de distribución de la variable de error. Por ejemplo, una distribución de variable de error logístico con un parámetro de ubicación μ distinto de cero (que establece la media) es equivalente a una distribución con un parámetro de ubicación cero, donde μ se ha agregado al coeficiente de intersección. Ambas situaciones producen el mismo valor para Y i * independientemente de la configuración de las variables explicativas. De manera similar, un parámetro de escala arbitrario s equivale a establecer el parámetro de escala en 1 y luego dividir todos los coeficientes de regresión por s . En el último caso, el valor resultante de Y i * será menor en un factor de s que en el primer caso, para todos los conjuntos de variables explicativas, pero lo más importante es que siempre permanecerá en el mismo lado de 0 y, por tanto, conducirá a a la misma elección Y i .

(Esto predice que la irrelevancia del parámetro de escala puede no trasladarse a modelos más complejos donde hay más de dos opciones disponibles).

Resulta que esta formulación es exactamente equivalente a la anterior, redactada en términos del modelo lineal generalizado y sin variables latentes . Esto se puede mostrar de la siguiente manera, utilizando el hecho de que la función de distribución acumulativa (CDF) de la distribución logística estándar es la función logística , que es la inversa de la función logit , es decir

Entonces:

Esta formulación, que es estándar en los modelos de elección discreta , deja clara la relación entre la regresión logística (el "modelo logit") y el modelo probit , que utiliza una variable de error distribuida según una distribución normal estándar en lugar de una distribución logística estándar. Tanto la distribución logística como la normal son simétricas con una forma básica unimodal de "curva de campana". La única diferencia es que la distribución logística tiene colas algo más pesadas , lo que significa que es menos sensible a los datos atípicos (y por lo tanto algo más robusta para modelar especificaciones erróneas o datos erróneos).

Modelo bidireccional de variables latentes

Otra formulación más utiliza dos variables latentes separadas:

dónde

donde EV 1 (0,1) es una distribución de valor extremo estándar tipo 1 : es decir

Entonces

Este modelo tiene una variable latente separada y un conjunto separado de coeficientes de regresión para cada resultado posible de la variable dependiente. La razón de esta separación es que facilita la extensión de la regresión logística a variables categóricas de resultados múltiples, como en el modelo logit multinomial . En un modelo de este tipo, es natural modelar cada resultado posible utilizando un conjunto diferente de coeficientes de regresión. También es posible motivar cada una de las variables latentes separadas como la utilidad teórica asociada con la elección asociada y, por lo tanto, motivar la regresión logística en términos de la teoría de la utilidad . (En términos de la teoría de la utilidad, un actor racional siempre elige la opción con la mayor utilidad asociada). Este es el enfoque adoptado por los economistas al formular modelos de elección discreta , porque proporciona una base teórica sólida y facilita las intuiciones sobre el modelo, que a su vez facilita la consideración de varios tipos de extensiones. (Vea el ejemplo a continuación).

La elección de la distribución de valores extremos tipo 1 parece bastante arbitraria, pero hace que las matemáticas funcionen y puede ser posible justificar su uso mediante la teoría de la elección racional .

Resulta que este modelo es equivalente al modelo anterior, aunque esto no parece obvio, ya que ahora hay dos conjuntos de coeficientes de regresión y variables de error, y las variables de error tienen una distribución diferente. De hecho, este modelo se reduce directamente al anterior con las siguientes sustituciones:

Una intuición para esto proviene del hecho de que, dado que elegimos basándonos en el máximo de dos valores, sólo importa su diferencia, no los valores exactos, y esto efectivamente elimina un grado de libertad . Otro hecho crítico es que la diferencia de dos variables distribuidas de valor extremo tipo 1 es una distribución logística, es decir, podemos demostrar el equivalente de la siguiente manera:

Ejemplo

Como ejemplo, consideremos una elección a nivel provincial donde la elección es entre un partido de centro derecha, un partido de centro izquierda y un partido secesionista (por ejemplo, el Parti Québécois , que quiere que Quebec se separe de Canadá ). Luego usaríamos tres variables latentes, una para cada elección. Luego, de acuerdo con la teoría de la utilidad , podemos interpretar que las variables latentes expresan la utilidad que resulta de realizar cada una de las elecciones. También podemos interpretar los coeficientes de regresión como indicadores de la fuerza que tiene el factor asociado (es decir, la variable explicativa) para contribuir a la utilidad o, más correctamente, la cantidad en la que un cambio unitario en una variable explicativa cambia la utilidad de una elección determinada. Un votante podría esperar que el partido de centro derecha reduzca los impuestos, especialmente a los ricos. Esto no daría ningún beneficio a las personas de bajos ingresos, es decir, ningún cambio en la utilidad (ya que normalmente no pagan impuestos); causaría un beneficio moderado (es decir, algo más de dinero o un aumento moderado de la utilidad) para las personas de ingresos medios; causaría beneficios significativos para las personas de altos ingresos. Por otro lado, se podría esperar que el partido de centro izquierda aumente los impuestos y lo compense con un mayor bienestar y otras ayudas para las clases media y baja. Esto causaría un beneficio positivo significativo para las personas de bajos ingresos, quizás un beneficio débil para las personas de ingresos medios y un beneficio negativo significativo para las personas de ingresos altos. Finalmente, el partido secesionista no tomaría acciones directas sobre la economía, sino que simplemente se separaría. Un votante de ingresos bajos o medios podría no esperar básicamente ninguna ganancia o pérdida clara de utilidad de esto, pero un votante de ingresos altos podría esperar una utilidad negativa ya que es probable que sea propietario de empresas, a las que les resultará más difícil hacer negocios en en un entorno así y probablemente perder dinero.

Estas intuiciones se pueden expresar de la siguiente manera:

Esto muestra claramente que

  1. Es necesario que existan conjuntos separados de coeficientes de regresión para cada elección. Cuando se expresa en términos de utilidad, esto se puede ver muy fácilmente. Diferentes opciones tienen diferentes efectos sobre la utilidad neta; además, los efectos varían de maneras complejas que dependen de las características de cada individuo, por lo que es necesario que haya conjuntos separados de coeficientes para cada característica, no simplemente una característica adicional por elección.
  2. Aunque el ingreso es una variable continua, su efecto sobre la utilidad es demasiado complejo para tratarlo como una sola variable. O es necesario dividirlo directamente en rangos o agregar potencias de ingreso más altas para que la regresión polinómica del ingreso se realice de manera efectiva.

Como modelo "log-lineal"

Otra formulación más combina la formulación de variable latente bidireccional anterior con la formulación original más arriba sin variables latentes, y en el proceso proporciona un vínculo a una de las formulaciones estándar del logit multinomial .

Aquí, en lugar de escribir el logit de las probabilidades p i como un predictor lineal, separamos el predictor lineal en dos, uno para cada uno de los dos resultados:

Se han introducido dos conjuntos separados de coeficientes de regresión, al igual que en el modelo de variable latente de dos factores, y las dos ecuaciones aparecen en una forma que escribe el logaritmo de la probabilidad asociada como un predictor lineal, con un término adicional al final. Resulta que este término sirve como factor de normalización que garantiza que el resultado sea una distribución. Esto se puede ver exponenciando ambos lados:

De esta forma, queda claro que el propósito de Z es garantizar que la distribución resultante sobre Y i sea de hecho una distribución de probabilidad , es decir, que sume 1. Esto significa que Z es simplemente la suma de todas las probabilidades no normalizadas, y al dividir cada probabilidad por Z , las probabilidades se " normalizan ". Eso es:

y las ecuaciones resultantes son

O en general:

Esto muestra claramente cómo generalizar esta formulación a más de dos resultados, como en el logit multinomial . Esta formulación general es exactamente la función softmax como en

Para demostrar que esto es equivalente al modelo anterior, el modelo anterior está sobreespecificado, en el sentido de que no puede especificarse de forma independiente: más bien , conocer uno determina automáticamente el otro. Como resultado, el modelo no es identificable , ya que múltiples combinaciones de β 0 y β 1 producirán las mismas probabilidades para todas las variables explicativas posibles. De hecho, se puede ver que sumar cualquier vector constante a ambos producirá las mismas probabilidades:

Como resultado, podemos simplificar las cosas y restaurar la identificabilidad eligiendo un valor arbitrario para uno de los dos vectores. Elegimos establecer Entonces,

y entonces

lo que demuestra que esta formulación es efectivamente equivalente a la formulación anterior. (Como en la formulación de variable latente bidireccional, cualquier configuración producirá resultados equivalentes).

La mayoría de los tratamientos del modelo logit multinomial comienzan extendiendo la formulación "log-lineal" presentada aquí o la formulación de variable latente de dos vías presentada anteriormente, ya que ambas muestran claramente la forma en que el modelo podría extenderse a resultados de múltiples vías. En general, la presentación con variables latentes es más común en econometría y ciencias políticas , donde reinan los modelos de elección discreta y la teoría de la utilidad , mientras que la formulación "log-lineal" aquí es más común en informática , por ejemplo , aprendizaje automático y procesamiento del lenguaje natural .

Como perceptrón de una sola capa.

El modelo tiene una formulación equivalente.

Esta forma funcional se denomina comúnmente perceptrón de una sola capa o red neuronal artificial de una sola capa . Una red neuronal de una sola capa calcula una salida continua en lugar de una función escalonada . La derivada de p i con respecto a X  = ( x 1 , ..., x k ) se calcula a partir de la forma general:

donde f ( X ) es una función analítica en X . Con esta elección, la red neuronal de una sola capa es idéntica al modelo de regresión logística. Esta función tiene una derivada continua, lo que permite utilizarla en retropropagación . También se prefiere esta función porque su derivada se calcula fácilmente:

En términos de datos binomiales

Un modelo estrechamente relacionado supone que cada i está asociado no con un único ensayo de Bernoulli sino con n i ensayos independientes distribuidos idénticamente , donde la observación Yi es el número de éxitos observados (la suma de las variables aleatorias individuales distribuidas por Bernoulli), y por tanto sigue una distribución binomial :

Un ejemplo de esta distribución es la fracción de semillas ( p i ) que germinan después de plantar n i .

En términos de valores esperados , este modelo se expresa de la siguiente manera:

de modo que

O equivalente:

Este modelo se puede ajustar utilizando el mismo tipo de métodos que el modelo más básico anterior.

Ajuste del modelo

Estimación de máxima verosimilitud (MLE)

Los coeficientes de regresión generalmente se estiman mediante estimación de máxima verosimilitud . [25] [26] A diferencia de la regresión lineal con residuos distribuidos normalmente, no es posible encontrar una expresión de forma cerrada para los valores de los coeficientes que maximizan la función de verosimilitud, por lo que se debe utilizar un proceso iterativo en su lugar; por ejemplo el método de Newton . Este proceso comienza con una solución tentativa, la revisa ligeramente para ver si se puede mejorar y repite esta revisión hasta que no se realizan más mejoras, momento en el que se dice que el proceso ha convergido. [25]

En algunos casos, es posible que el modelo no alcance la convergencia. La no convergencia de un modelo indica que los coeficientes no son significativos porque el proceso iterativo no pudo encontrar soluciones apropiadas. Una falla en la convergencia puede ocurrir por varias razones: tener una gran proporción de predictores con respecto a casos, multicolinealidad , escasez o separación completa .

Mínimos cuadrados reponderados iterativamente (IRLS)

La regresión logística binaria ( o ) se puede calcular, por ejemplo, utilizando mínimos cuadrados reponderados iterativamente (IRLS), lo que equivale a maximizar la probabilidad logarítmica de un proceso distribuido de Bernoulli utilizando el método de Newton . Si el problema está escrito en forma de matriz vectorial, con parámetros , variables explicativas y valor esperado de la distribución de Bernoulli , los parámetros se pueden encontrar usando el siguiente algoritmo iterativo:

donde es una matriz de ponderación diagonal, el vector de valores esperados,

La matriz regresora y el vector de variables respuesta. Se pueden encontrar más detalles en la literatura. [28]

bayesiano

Comparación de la función logística con una función probit inversa escalada (es decir, la CDF de la distribución normal ), comparando vs. , lo que hace que las pendientes sean las mismas en el origen. Esto muestra las colas más pesadas de la distribución logística.

En un contexto de estadística bayesiana , las distribuciones previas normalmente se colocan en los coeficientes de regresión, por ejemplo, en forma de distribuciones gaussianas . No existe un prior conjugado de la función de verosimilitud en la regresión logística. Cuando la inferencia bayesiana se realizó analíticamente, esto hizo que la distribución posterior fuera difícil de calcular, excepto en dimensiones muy pequeñas. Ahora, sin embargo, el software automático como OpenBUGS , JAGS , PyMC3 , Stan o Turing.jl permite calcular estos posteriores mediante simulación, por lo que la falta de conjugación no es una preocupación. Sin embargo, cuando el tamaño de la muestra o la cantidad de parámetros es grande, la simulación bayesiana completa puede ser lenta y la gente suele utilizar métodos aproximados, como los métodos bayesianos variacionales y la propagación de expectativas .

"Regla de diez"

Una regla general ampliamente utilizada, la " regla de uno entre diez ", establece que los modelos de regresión logística dan valores estables para las variables explicativas si se basan en un mínimo de aproximadamente 10 eventos por variable explicativa (EPV); donde evento denota los casos que pertenecen a la categoría menos frecuente en la variable dependiente. Por lo tanto, un estudio diseñado para utilizar variables explicativas de un evento (p. ej., infarto de miocardio ) que se espera que ocurra en una proporción de participantes en el estudio requerirá un total de participantes. Sin embargo, existe un debate considerable sobre la confiabilidad de esta regla, que se basa en estudios de simulación y carece de una base teórica segura. [29] Según algunos autores [30] la regla es demasiado conservadora en algunas circunstancias, y los autores afirman: "Si consideramos (de manera algo subjetiva) una cobertura del intervalo de confianza inferior al 93 por ciento, un error tipo I superior al 7 por ciento o un error relativo Sesgo superior al 15 por ciento como problemático, nuestros resultados indican que los problemas son bastante frecuentes con 2 a 4 EPV, poco comunes con 5 a 9 EPV y aún observados con 10 a 16 EPV. Los peores casos de cada problema no fueron graves con 5– 9 EPV y generalmente comparables a aquellos con 10-16 EPV". [31]

Otros han encontrado resultados que no concuerdan con lo anterior, utilizando criterios diferentes. Un criterio útil es si se espera que el modelo ajustado logre la misma discriminación predictiva en una nueva muestra que parecía lograr en la muestra de desarrollo del modelo. Para ese criterio, es posible que se requieran 20 eventos por variable candidata. [32] Además, se puede argumentar que se necesitan 96 observaciones sólo para estimar la intersección del modelo con suficiente precisión como para que el margen de error en las probabilidades predichas sea ±0,1 con un nivel de confianza de 0,95. [13]

Error y significado del ajuste.

Prueba de desviación y razón de verosimilitud: un caso simple

En cualquier procedimiento de ajuste, la adición de otro parámetro de ajuste a un modelo (por ejemplo, los parámetros beta en un modelo de regresión logística) casi siempre mejorará la capacidad del modelo para predecir los resultados medidos. Esto será cierto incluso si el término adicional no tiene valor predictivo, ya que el modelo simplemente se " sobreajustará " al ruido de los datos. Surge la pregunta de si la mejora obtenida mediante la adición de otro parámetro de ajuste es lo suficientemente significativa como para recomendar la inclusión del término adicional, o si la mejora es simplemente la que se puede esperar del sobreajuste.

En resumen, para la regresión logística, se define una estadística conocida como desviación , que es una medida del error entre el ajuste del modelo logístico y los datos de resultado. En el límite de una gran cantidad de puntos de datos, la desviación se distribuye chi-cuadrado , lo que permite implementar una prueba de chi-cuadrado para determinar la importancia de las variables explicativas.

La regresión lineal y la regresión logística tienen muchas similitudes. Por ejemplo, en una regresión lineal simple, un conjunto de K puntos de datos ( x k , y k ) se ajustan a una función modelo propuesta de la forma . El ajuste se obtiene eligiendo los b parámetros que minimizan la suma de los cuadrados de los residuos (el término de error al cuadrado) para cada punto de datos:

El valor mínimo que constituye el ajuste se denotará por

Se puede introducir la idea de un modelo nulo , en el que se supone que la variable x no sirve para predecir los resultados y k : Los puntos de datos se ajustan a una función de modelo nulo de la forma y  =  b 0 con un cuadrado término de error:

El proceso de ajuste consiste en elegir un valor de b 0 que minimice el ajuste al modelo nulo, denotado por donde el subíndice denota el modelo nulo. Se ve que el modelo nulo está optimizado por donde está la media de los valores de y k , y el optimizado es:

que es proporcional al cuadrado de la desviación estándar muestral (sin corregir) de los puntos de datos y k .

Podemos imaginar un caso en el que los puntos de datos y k se asignan aleatoriamente a los distintos x k y luego se ajustan utilizando el modelo propuesto. Específicamente, podemos considerar los ajustes del modelo propuesto a cada permutación de los resultados y k . Se puede demostrar que el error optimizado de cualquiera de estos ajustes nunca será menor que el error óptimo del modelo nulo, y que la diferencia entre estos errores mínimos seguirá una distribución chi-cuadrado , con grados de libertad iguales a los del modelo nulo. modelo propuesto menos los del modelo nulo que, en este caso, serán . Usando la prueba de chi-cuadrado , podemos entonces estimar cuántos de estos conjuntos permutados de y k producirán un error mínimo menor o igual al error mínimo usando el y k original , y así podemos estimar qué tan significativa es una mejora dada. por la inclusión de la variable x en el modelo propuesto.

Para la regresión logística, la medida de bondad de ajuste es la función de probabilidad L , o su logaritmo, la probabilidad logarítmica . La función de probabilidad L es análoga a la del caso de regresión lineal, excepto que la probabilidad se maximiza en lugar de minimizarse. Denotemos la probabilidad logarítmica maximizada del modelo propuesto por .

En el caso de una regresión logística binaria simple, el conjunto de K puntos de datos se ajusta en un sentido probabilístico a una función de la forma:

¿Dónde está la probabilidad de que ? Las probabilidades logarítmicas están dadas por:

y la probabilidad logarítmica es:

Para el modelo nulo, la probabilidad viene dada por:

Las probabilidades logarítmicas para el modelo nulo vienen dadas por:

y la probabilidad logarítmica es:

Como tenemos el máximo de L , la máxima probabilidad logarítmica para el modelo nulo es

Lo óptimo es:

donde es nuevamente la media de los valores de yk . Nuevamente, podemos considerar conceptualmente el ajuste del modelo propuesto a cada permutación de y k y se puede demostrar que la probabilidad logarítmica máxima de estos ajustes de permutación nunca será menor que la del modelo nulo:

Además, como analogía del error del caso de regresión lineal, podemos definir la desviación de un ajuste de regresión logística como:

que siempre será positivo o cero. La razón de esta elección es que la desviación no sólo es una buena medida de la bondad del ajuste, sino que también tiene una distribución aproximada de chi-cuadrado, y la aproximación mejora a medida que aumenta el número de puntos de datos ( K ), convirtiéndose exactamente en chi-cuadrado. distribuido en el límite de un número infinito de puntos de datos. Como en el caso de la regresión lineal, podemos usar este hecho para estimar la probabilidad de que un conjunto aleatorio de puntos de datos dé un mejor ajuste que el obtenido por el modelo propuesto, y así tener una estimación de cuán significativamente mejora el modelo mediante incluyendo los x k puntos de datos en el modelo propuesto.

Para el modelo simple de puntajes de pruebas de estudiantes descrito anteriormente, el valor máximo de la probabilidad logarítmica del modelo nulo es El valor máximo de la probabilidad logarítmica para el modelo simple es tal que la desviación es

Utilizando la prueba de significancia chi-cuadrado , la integral de la distribución chi-cuadrado con un grado de libertad desde 11.6661... hasta el infinito es igual a 0.00063649...

Esto significa efectivamente que se puede esperar que alrededor de 6 de 10,000 ajustes a y k aleatorios tengan un mejor ajuste (desviación más pequeña) que el y k dado y, por lo tanto, podemos concluir que la inclusión de la variable x y los datos en el modelo propuesto es una mejora muy significativa con respecto al modelo nulo. En otras palabras, rechazamos la hipótesis nula con confianza.

Resumen de bondad de ajuste

La bondad de ajuste en los modelos de regresión lineal generalmente se mide usando R 2 . Dado que esto no tiene un análogo directo en la regresión logística, en su lugar se pueden utilizar varios métodos [33] : capítulo 21,  incluidos los siguientes.

Pruebas de desviación y razón de verosimilitud

En el análisis de regresión lineal, lo que nos interesa es dividir la varianza mediante cálculos de suma de cuadrados : la varianza en el criterio se divide esencialmente en varianza contabilizada por los predictores y varianza residual. En el análisis de regresión logística, se utiliza la desviación en lugar de cálculos de suma de cuadrados. [34] La desviación es análoga a los cálculos de suma de cuadrados en la regresión lineal [2] y es una medida de la falta de ajuste de los datos en un modelo de regresión logística. [34] Cuando se dispone de un modelo "saturado" (un modelo con un ajuste teóricamente perfecto), la desviación se calcula comparando un modelo determinado con el modelo saturado. [2] Este cálculo proporciona la prueba de razón de verosimilitud : [2]

En la ecuación anterior, D representa la desviación y ln representa el logaritmo natural. El logaritmo de esta razón de verosimilitud (la razón entre el modelo ajustado y el modelo saturado) producirá un valor negativo, de ahí la necesidad de un signo negativo. Se puede demostrar que D sigue una distribución aproximada de chi-cuadrado . [2] Los valores más pequeños indican un mejor ajuste ya que el modelo ajustado se desvía menos del modelo saturado. Cuando se evalúan según una distribución de chi-cuadrado, los valores de chi-cuadrado no significativos indican muy poca varianza inexplicable y, por lo tanto, un buen ajuste del modelo. Por el contrario, un valor significativo de chi-cuadrado indica que una cantidad significativa de la varianza no está explicada.

Cuando el modelo saturado no está disponible (un caso común), la desviación se calcula simplemente como −2·(logaritmo de probabilidad del modelo ajustado), y la referencia al logaritmo de probabilidad del modelo saturado se puede eliminar de todo lo que sigue sin daño.

Dos medidas de desviación son particularmente importantes en la regresión logística: la desviación nula y la desviación del modelo. La desviación nula representa la diferencia entre un modelo con solo la intersección (que significa "sin predictores") y el modelo saturado. La desviación del modelo representa la diferencia entre un modelo con al menos un predictor y el modelo saturado. [34] A este respecto, el modelo nulo proporciona una base sobre la cual comparar los modelos predictores. Dado que la desviación es una medida de la diferencia entre un modelo dado y el modelo saturado, valores más pequeños indican un mejor ajuste. Por lo tanto, para evaluar la contribución de un predictor o conjunto de predictores, se puede restar la desviación del modelo de la desviación nula y evaluar la diferencia en una distribución chi-cuadrado con grados de libertad [2] iguales a la diferencia en el número de parámetros. estimado.

Dejar

Entonces la diferencia de ambos es:

Si la desviación del modelo es significativamente menor que la desviación nula, entonces se puede concluir que el predictor o el conjunto de predictores mejoran significativamente el ajuste del modelo. Esto es análogo a la prueba F utilizada en el análisis de regresión lineal para evaluar la importancia de la predicción. [34]

Pseudo-R-cuadrado

En la regresión lineal, la correlación múltiple al cuadrado, R 2 , se utiliza para evaluar la bondad del ajuste, ya que representa la proporción de varianza en el criterio que explican los predictores. [34] En el análisis de regresión logística, no existe una medida análoga acordada, pero hay varias medidas en competencia, cada una con limitaciones. [34] [35]

En esta página se examinan cuatro de los índices más utilizados y uno menos utilizado:

Prueba de Hosmer-Lemeshow

La prueba de Hosmer-Lemeshow utiliza una estadística de prueba que sigue asintóticamente una distribución para evaluar si las tasas de eventos observadas coinciden o no con las tasas de eventos esperadas en subgrupos de la población modelo. Algunos estadísticos consideran que esta prueba es obsoleta debido a su dependencia de la combinación arbitraria de probabilidades predichas y su poder relativamente bajo. [36]

Importancia del coeficiente

Después de ajustar el modelo, es probable que los investigadores quieran examinar la contribución de los predictores individuales. Para ello, querrán examinar los coeficientes de regresión. En la regresión lineal, los coeficientes de regresión representan el cambio en el criterio para cada cambio unitario en el predictor. [34] Sin embargo, en la regresión logística, los coeficientes de regresión representan el cambio en el logit para cada cambio unitario en el predictor. Dado que el logit no es intuitivo, es probable que los investigadores se centren en el efecto de un predictor sobre la función exponencial del coeficiente de regresión: el odds ratio (ver definición). En la regresión lineal, la importancia de un coeficiente de regresión se evalúa calculando una prueba t . En la regresión logística, existen varias pruebas diferentes diseñadas para evaluar la importancia de un predictor individual, en particular la prueba de razón de verosimilitud y el estadístico de Wald.

Prueba de razón de verosimilitud

La prueba de razón de verosimilitud analizada anteriormente para evaluar el ajuste del modelo es también el procedimiento recomendado para evaluar la contribución de los "predictores" individuales a un modelo determinado. [2] [25] [34] En el caso de un modelo predictor único, simplemente se compara la desviación del modelo predictor con la del modelo nulo en una distribución chi-cuadrado con un solo grado de libertad. Si el modelo predictivo tiene una desviación significativamente menor (cf. chi-cuadrado usando la diferencia en grados de libertad de los dos modelos), entonces se puede concluir que existe una asociación significativa entre el "predictor" y el resultado. Aunque algunos paquetes estadísticos comunes (por ejemplo, SPSS) proporcionan estadísticas de prueba de razón de verosimilitud, sin esta prueba computacionalmente intensiva sería más difícil evaluar la contribución de los predictores individuales en el caso de regresión logística múltiple. [ cita necesaria ] Para evaluar la contribución de los predictores individuales, se pueden ingresar los predictores jerárquicamente, comparando cada nuevo modelo con el anterior para determinar la contribución de cada predictor. [34] Existe cierto debate entre los estadísticos sobre la idoneidad de los llamados procedimientos "escalonados". [ palabras de comadreja ] El temor es que no preserven las propiedades estadísticas nominales y puedan resultar engañosos. [37]

Estadística de Wald

Alternativamente, al evaluar la contribución de los predictores individuales en un modelo determinado, se puede examinar la importancia del estadístico de Wald . El estadístico de Wald, análogo a la prueba t en regresión lineal, se utiliza para evaluar la importancia de los coeficientes. El estadístico de Wald es la relación entre el cuadrado del coeficiente de regresión y el cuadrado del error estándar del coeficiente y se distribuye asintóticamente como una distribución chi-cuadrado. [25]

Aunque varios paquetes estadísticos (p. ej., SPSS, SAS) informan la estadística de Wald para evaluar la contribución de los predictores individuales, la estadística de Wald tiene limitaciones. Cuando el coeficiente de regresión es grande, el error estándar del coeficiente de regresión también tiende a ser mayor, lo que aumenta la probabilidad de error de tipo II . La estadística de Wald también tiende a estar sesgada cuando los datos son escasos. [34]

Muestreo de casos y controles

Supongamos que los casos son raros. Entonces es posible que deseemos muestrearlos con más frecuencia que su prevalencia en la población. Por ejemplo, supongamos que hay una enfermedad que afecta a 1 persona de cada 10.000 y para recopilar nuestros datos necesitamos hacer un examen físico completo. Puede resultar demasiado caro realizar miles de exámenes físicos a personas sanas para obtener datos de sólo unos pocos individuos enfermos. Por lo tanto, podemos evaluar más individuos enfermos, quizás todos los resultados raros. Esto también es un muestreo retrospectivo o, de manera equivalente, se denomina datos desequilibrados. Como regla general, un muestreo de los controles a una tasa cinco veces mayor que el número de casos producirá datos de control suficientes. [38]

La regresión logística es única en el sentido de que puede estimarse a partir de datos no balanceados, en lugar de datos muestreados aleatoriamente, y aun así producir estimaciones correctas de los coeficientes de los efectos de cada variable independiente en el resultado. Es decir, si formamos un modelo logístico a partir de dichos datos, si el modelo es correcto en la población general, todos los parámetros son correctos excepto . Podemos corregir si conocemos la verdadera prevalencia de la siguiente manera: [38]

donde es la prevalencia real y es la prevalencia en la muestra.

Discusión

Al igual que otras formas de análisis de regresión , la regresión logística utiliza una o más variables predictivas que pueden ser continuas o categóricas. Sin embargo, a diferencia de la regresión lineal ordinaria, la regresión logística se utiliza para predecir variables dependientes que pertenecen a una de un número limitado de categorías (tratando la variable dependiente en el caso binomial como el resultado de un ensayo de Bernoulli ) en lugar de un resultado continuo. Dada esta diferencia, se violan los supuestos de la regresión lineal. En particular, los residuos no pueden distribuirse normalmente. Además, la regresión lineal puede realizar predicciones sin sentido para una variable dependiente binaria. Lo que se necesita es una forma de convertir una variable binaria en una continua que pueda tomar cualquier valor real (negativo o positivo). Para hacer eso, la regresión logística binomial primero calcula las probabilidades de que el evento ocurra para diferentes niveles de cada variable independiente y luego toma su logaritmo para crear un criterio continuo como una versión transformada de la variable dependiente. El logaritmo de las probabilidades es el logit de la probabilidad, el logit se define de la siguiente manera:

Aunque la variable dependiente en la regresión logística es Bernoulli, el logit está en una escala ilimitada. [2] La función logit es la función de enlace en este tipo de modelo lineal generalizado, es decir

Y es la variable de respuesta distribuida por Bernoulli y x es la variable predictora; los valores de β son los parámetros lineales.

Luego se ajusta el logit de la probabilidad de éxito a los predictores. El valor previsto del logit se vuelve a convertir en probabilidades previstas, mediante la inversa del logaritmo natural: la función exponencial . Por lo tanto, aunque la variable dependiente observada en la regresión logística binaria es una variable 0 o 1, la regresión logística estima las probabilidades, como variable continua, de que la variable dependiente sea un "éxito". En algunas aplicaciones, las probabilidades son todo lo que se necesita. En otros, se necesita una predicción específica de sí o no para saber si la variable dependiente es o no un "éxito"; Esta predicción categórica puede basarse en las probabilidades de éxito calculadas, y las probabilidades previstas por encima de algún valor límite elegido se traducen en una predicción de éxito.

Entropía máxima

De todas las formas funcionales utilizadas para estimar las probabilidades de un resultado categórico particular que optimiza el ajuste maximizando la función de verosimilitud (por ejemplo, regresión probit , regresión de Poisson , etc.), la solución de regresión logística es única porque es una solución de máxima entropía. . [39] Este es un caso de una propiedad general: una familia exponencial de distribuciones maximiza la entropía, dado un valor esperado. En el caso del modelo logístico, la función logística es el parámetro natural de la distribución de Bernoulli (está en " forma canónica ", y la función logística es la función de enlace canónica), mientras que otras funciones sigmoideas son funciones de enlace no canónicas; esto es la base de su elegancia matemática y facilidad de optimización. Consulte Familia exponencial § Derivación de entropía máxima para obtener más detalles.

Prueba

Para demostrar esto utilizamos el método de los multiplicadores de Lagrange . El lagrangiano es igual a la entropía más la suma de los productos de los multiplicadores de Lagrange por varias expresiones de restricción. Se considerará el caso multinomial general, ya que la demostración no se simplifica mucho al considerar casos más simples. Al equiparar la derivada del lagrangiano con respecto a las diversas probabilidades a cero se obtiene una forma funcional para esas probabilidades que corresponde a las utilizadas en la regresión logística. [39]

Como en la sección anterior sobre regresión logística multinomial, consideraremos variables explicativas denotadas y que incluyen . Habrá un total de K puntos de datos, indexados por , y los puntos de datos están dados por y . El x mk también se representará como un vector de dimensiones . Habrá valores posibles de la variable categórica y que oscilarán entre 0 y N.

Sea p n ( x ) la probabilidad, dado el vector variable explicativo x , de que el resultado sea . Defina cuál es la probabilidad de que para la k -ésima medición, el resultado categórico sea n .

El Lagrangiano se expresará en función de las probabilidades p nk y se minimizará igualando a cero las derivadas del Lagrangiano con respecto a estas probabilidades. Un punto importante es que las probabilidades se tratan por igual y el hecho de que sumen 1 es parte de la formulación lagrangiana, en lugar de asumirse desde el principio.

La primera contribución al lagrangiano es la entropía :

La probabilidad logarítmica es:

Asumiendo la función logística multinomial, se encontró que la derivada de la probabilidad logarítmica con respecto a los coeficientes beta es:

Un punto muy importante aquí es que esta expresión (sorprendentemente) no es una función explícita de los coeficientes beta. Es sólo una función de las probabilidades p nk y los datos. En lugar de ser específico del supuesto caso logístico multinomial, se considera una declaración general de la condición en la que se maximiza la probabilidad logarítmica y no hace referencia a la forma funcional de p nk . Entonces existen ( M +1)( N +1) restricciones de ajuste y el término de restricción de ajuste en lagrangiano es entonces:

donde los λ nm son los multiplicadores de Lagrange apropiados. Hay K restricciones de normalización que pueden escribirse:

de modo que el término de normalización en lagrangiano es:

donde los α k son los multiplicadores de Lagrange apropiados. El lagrangiano es entonces la suma de los tres términos anteriores:

Establecer la derivada del lagrangiano con respecto a una de las probabilidades en cero produce:

Usando la notación vectorial más condensada:

y eliminando los números primos en los índices n y k , y luego resolviendo los rendimientos:

dónde:

Al imponer la restricción de normalización, podemos resolver Z k y escribir las probabilidades como:

No todos son independientes. Podemos agregar cualquier vector de dimensión constante a cada una de las sin cambiar el valor de las probabilidades, de modo que solo haya N en lugar de independientes . En la sección anterior de regresión logística multinomial, se restó de cada uno , lo que estableció el término exponencial que involucra a 1, y los coeficientes beta fueron dados por .

Otros enfoques

En aplicaciones de aprendizaje automático donde se utiliza la regresión logística para la clasificación binaria, MLE minimiza la función de pérdida de entropía cruzada .

La regresión logística es un importante algoritmo de aprendizaje automático . El objetivo es modelar la probabilidad de que una variable aleatoria sea 0 o 1 dados datos experimentales. [40]

Considere una función de modelo lineal generalizada parametrizada por ,

Por lo tanto,

y dado que , vemos que está dado por Ahora calculamos la función de verosimilitud asumiendo que todas las observaciones en la muestra tienen una distribución independiente de Bernoulli,

Normalmente, la probabilidad logarítmica se maximiza,

que se maximiza utilizando técnicas de optimización como el descenso de gradiente .

Suponiendo que los pares se extraen uniformemente de la distribución subyacente, entonces, en el límite de  N grande ,

donde está la entropía condicional y es la divergencia Kullback-Leibler . Esto lleva a la intuición de que al maximizar la probabilidad logarítmica de un modelo, se minimiza la divergencia KL de su modelo con respecto a la distribución de entropía máxima. Buscar intuitivamente el modelo que haga menos suposiciones en sus parámetros.

Comparación con regresión lineal

La regresión logística puede verse como un caso especial del modelo lineal generalizado y, por tanto, análoga a la regresión lineal . Sin embargo, el modelo de regresión logística se basa en supuestos bastante diferentes (sobre la relación entre las variables dependientes e independientes) de los de la regresión lineal. En particular, las diferencias clave entre estos dos modelos se pueden ver en las dos características siguientes de la regresión logística. Primero, la distribución condicional es una distribución de Bernoulli en lugar de una distribución gaussiana , porque la variable dependiente es binaria. En segundo lugar, los valores predichos son probabilidades y, por lo tanto, están restringidos a (0,1) a través de la función de distribución logística porque la regresión logística predice la probabilidad de resultados particulares en lugar de los resultados mismos.

Alternativas

Una alternativa común al modelo logístico (modelo logit) es el modelo probit , como sugieren los nombres relacionados. Desde la perspectiva de los modelos lineales generalizados , estos se diferencian en la elección de la función de enlace : el modelo logístico utiliza la función logit (función logística inversa), mientras que el modelo probit utiliza la función probit ( función de error inversa ). De manera equivalente, en las interpretaciones de variables latentes de estos dos métodos, el primero supone una distribución logística estándar de errores y el segundo una distribución normal estándar de errores. [41] En su lugar, se pueden utilizar otras funciones sigmoideas o distribuciones de error.

La regresión logística es una alternativa al método de Fisher de 1936, el análisis discriminante lineal . [42] Si se cumplen los supuestos del análisis discriminante lineal, el condicionamiento se puede revertir para producir una regresión logística. Sin embargo, lo contrario no es cierto porque la regresión logística no requiere el supuesto normal multivariado del análisis discriminante. [43]

La suposición de efectos predictores lineales se puede relajar fácilmente utilizando técnicas como las funciones spline . [13]

Historia

Cramer (2002) ofrece una historia detallada de la regresión logística. La función logística fue desarrollada como modelo de crecimiento demográfico y denominada "logística" por Pierre François Verhulst en las décadas de 1830 y 1840, bajo la dirección de Adolphe Quetelet ; consulte Función logística § Historia para obtener más detalles. [44] En su primer artículo (1838), Verhulst no especificó cómo ajustaba las curvas a los datos. [45] [46] En su artículo más detallado (1845), Verhulst determinó los tres parámetros del modelo haciendo que la curva pasara por tres puntos observados, lo que produjo predicciones deficientes. [47] [48]

La función logística se desarrolló de forma independiente en química como modelo de autocatálisis ( Wilhelm Ostwald , 1883). [49] Una reacción autocatalítica es aquella en la que uno de los productos es en sí mismo un catalizador para la misma reacción, mientras que el suministro de uno de los reactivos es fijo. Naturalmente, esto da lugar a la ecuación logística por la misma razón que el crecimiento demográfico: la reacción se refuerza a sí misma pero es limitada.

La función logística fue redescubierta de forma independiente como modelo de crecimiento demográfico en 1920 por Raymond Pearl y Lowell Reed , publicado como Pearl & Reed (1920), lo que llevó a su uso en la estadística moderna. Inicialmente desconocían el trabajo de Verhulst y presumiblemente se enteraron de él por L. Gustave du Pasquier , pero le dieron poco crédito y no adoptaron su terminología. [50] La prioridad de Verhulst fue reconocida y el término "logística" fue revivido por Udny Yule en 1925 y ha sido seguido desde entonces. [51] Pearl y Reed aplicaron por primera vez el modelo a la población de los Estados Unidos y también inicialmente ajustaron la curva haciéndola pasar por tres puntos; Al igual que con Verhulst, esto nuevamente arrojó malos resultados. [52]

En la década de 1930, el modelo probit fue desarrollado y sistematizado por Chester Ittner Bliss , quien acuñó el término "probit" en Bliss (1934), y por John Gaddum en Gaddum (1933), y el modelo ajustado por estimación de máxima verosimilitud por Ronald A. Fisher en Fisher (1935), como complemento al trabajo de Bliss. El modelo probit se utilizó principalmente en bioensayos y fue precedido por trabajos anteriores que datan de 1860; ver modelo Probit § Historia . El modelo probit influyó en el desarrollo posterior del modelo logit y estos modelos compitieron entre sí. [53]

El modelo logístico probablemente fue utilizado por primera vez como alternativa al modelo probit en bioensayos por Edwin Bidwell Wilson y su alumna Jane Worcester en Wilson & Worcester (1943). [54] Sin embargo, el desarrollo del modelo logístico como una alternativa general al modelo probit se debió principalmente al trabajo de Joseph Berkson durante muchas décadas, comenzando en Berkson (1944), donde acuñó "logit", por analogía con " probit", y continúa hasta Berkson (1951) y años siguientes. [55] Inicialmente, el modelo logit fue descartado por ser inferior al modelo probit, pero "gradualmente alcanzó una posición de igualdad con el probit", [56] particularmente entre 1960 y 1970. En 1970, el modelo logit alcanzó la paridad con el modelo probit en uso en revistas de estadística y posteriormente lo superó. Esta relativa popularidad se debió a la adopción del logit fuera del bioensayo, en lugar de desplazar al probit dentro del bioensayo, y a su uso informal en la práctica; La popularidad del logit se atribuye a la simplicidad computacional, las propiedades matemáticas y la generalidad del modelo logit, lo que permite su uso en diversos campos. [3]

Durante esa época se produjeron varios refinamientos, especialmente por parte de David Cox , como en Cox (1958). [4]

El modelo logit multinomial fue introducido de forma independiente por Cox (1966) y Theil (1969), lo que aumentó considerablemente el ámbito de aplicación y la popularidad del modelo logit. [57] En 1973, Daniel McFadden vinculó el logit multinomial a la teoría de la elección discreta , específicamente al axioma de elección de Luce , mostrando que el logit multinomial se derivaba del supuesto de independencia de alternativas irrelevantes y de la interpretación de las probabilidades de las alternativas como preferencias relativas; [58] esto dio una base teórica para la regresión logística. [57]

Extensiones

Hay una gran cantidad de extensiones:

Ver también

Referencias

  1. ^ Tolles, Juliana; Meurer, William J (2016). "Regresión logística que relaciona las características del paciente con los resultados". JAMA . 316 (5): 533–4. doi :10.1001/jama.2016.7653. ISSN  0098-7484. OCLC  6823603312. PMID  27483067.
  2. ^ abcdefghijk Hosmer, David W.; Lemeshow, Stanley (2000). Regresión logística aplicada (2ª ed.). Wiley. ISBN 978-0-471-35632-5.[ página necesaria ]
  3. ^ ab Cramer 2002, pág. 10–11.
  4. ^ ab Walker, SH; Duncan, DB (1967). "Estimación de la probabilidad de un evento en función de varias variables independientes". Biometrika . 54 (1/2): 167-178. doi :10.2307/2333860. JSTOR  2333860.
  5. ^ Cramer 2002, pag. 8.
  6. ^ Boyd, CR; Tolson, MA; Copés, WS (1987). "Evaluación de la atención traumatológica: el método TRISS. Trauma Score y Injury Severity Score". La revista del trauma . 27 (4): 370–378. doi : 10.1097/00005373-198704000-00005 . PMID  3106646.
  7. ^ Kologlu, M.; Elker, D.; Altun, H.; Sayek, I. (2001). "Validación de MPI y PIA II en dos grupos diferentes de pacientes con peritonitis secundaria". Hepatogastroenterología . 48 (37): 147–51. PMID  11268952.
  8. ^ Biondo, S.; Ramos, E.; Deiros, M.; Ragué, JM; De Oca, J.; Moreno, P.; Farrán, L.; Jaurrieta, E. (2000). "Factores pronósticos de mortalidad en peritonitis del colon izquierdo: un nuevo sistema de puntuación". Revista del Colegio Americano de Cirujanos . 191 (6): 635–42. doi :10.1016/S1072-7515(00)00758-4. PMID  11129812.
  9. ^ Marshall, JC; Cocinero, DJ; Christou, Nevada; Bernardo, GR; Saltado, CL; Sibbald, WJ (1995). "Puntuación de disfunción orgánica múltiple: un descriptor confiable de un resultado clínico complejo". Medicina de Terapia Intensiva . 23 (10): 1638–52. doi :10.1097/00003246-199510000-00007. PMID  7587228.
  10. ^ Le Gall, JR; Lemeshow, S.; Saulnier, F. (1993). "Una nueva puntuación de fisiología aguda simplificada (SAPS II) basada en un estudio multicéntrico europeo y norteamericano". JAMA . 270 (24): 2957–63. doi :10.1001/jama.1993.03510240069035. PMID  8254858.
  11. ^ ab David A. Freedman (2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge . pag. 128.
  12. ^ Truett, J; Campo de maíz, J; Kannel, W (1967). "Un análisis multivariado del riesgo de enfermedad coronaria en Framingham". Revista de Enfermedades Crónicas . 20 (7): 511–24. doi :10.1016/0021-9681(67)90082-3. PMID  6028270.
  13. ^ abc Harrell, Frank E. (2015). Estrategias de modelado de regresión . Serie Springer en Estadística (2ª ed.). Nueva York; Saltador. doi :10.1007/978-3-319-19425-7. ISBN 978-3-319-19424-0.
  14. ^ M. Strano; BM Colosimo (2006). "Análisis de regresión logística para la determinación experimental de diagramas de límites de formación". Revista Internacional de Máquinas Herramienta y Fabricación . 46 (6): 673–682. doi :10.1016/j.ijmachtools.2005.07.005.
  15. ^ Palei, SK; Das, SK (2009). "Modelo de regresión logística para la predicción de riesgos de caída de techos en trabajos de bordes y pilares en minas de carbón: una aproximación". Ciencia de la seguridad . 47 : 88–96. doi :10.1016/j.ssci.2008.01.002.
  16. ^ Berry, Michael JA (1997). Técnicas de minería de datos para marketing, ventas y atención al cliente . Wiley. pag. 10.
  17. ^ Mesa-Arango, Rodrigo; Hasan, Samiul; Ukkusuri, Satish V.; Murray-Tuite, Pamela (febrero de 2013). "Modelo a nivel de hogar para la elección del tipo de destino de evacuación por huracanes utilizando datos del huracán Iván". Revisión de peligros naturales . 14 (1): 11-20. doi :10.1061/(ASCE)NH.1527-6996.0000083. ISSN  1527-6988.
  18. ^ Wibbenmeyer, Mateo J.; Mano, Michael S.; Calkin, David E.; Venn, Tyron J.; Thompson, Matthew P. (junio de 2013). "Preferencias de riesgo en la toma de decisiones estratégicas sobre incendios forestales: un experimento de elección con administradores de incendios forestales de EE. UU.". Análisis de riesgo . 33 (6): 1021-1037. Código Bib : 2013RiesgoA..33.1021W. doi :10.1111/j.1539-6924.2012.01894.x. ISSN  0272-4332. PMID  23078036. S2CID  45282555.
  19. ^ Lovreglio, Ruggiero; Borri, Dino; dell'Olio, Luigi; Ibeas, Ángel (1 de febrero de 2014). "Un modelo de elección discreta basado en utilidades aleatorias para la elección de salida en evacuaciones de emergencia". Ciencia de la seguridad . 62 : 418–426. doi :10.1016/j.ssci.2013.10.004. ISSN  0925-7535.
  20. ^ Neyman, J .; Pearson, ES (1933), "Sobre el problema de las pruebas más eficientes de hipótesis estadísticas" (PDF) , Philosophical Transactions of the Royal Society of London A , 231 (694–706): 289–337, Bibcode :1933RSPTA.231 ..289N, doi : 10.1098/rsta.1933.0009 , JSTOR  91247
  21. ^ "¿Cómo interpretar el odds ratio en la regresión logística?". Instituto de Investigación y Educación Digital.
  22. ^ Everitt, Brian (1998). El Diccionario de Estadística de Cambridge . Cambridge, Reino Unido Nueva York: Cambridge University Press. ISBN 978-0-521-59346-5.
  23. ^ Por ejemplo, la función del indicador en este caso podría definirse como
  24. ^ Malouf, Robert (2002). "Una comparación de algoritmos para la estimación de parámetros de máxima entropía". Actas de la Sexta Conferencia sobre el aprendizaje de lenguajes naturales (CoNLL-2002) . págs. 49–55. doi : 10.3115/1118853.1118871 .
  25. ^ abcdefg Menard, Scott W. (2002). Regresión logística aplicada (2ª ed.). SABIO. ISBN 978-0-7619-2208-7.[ página necesaria ]
  26. ^ Gourieroux, cristiano; Monfort, Alain (1981). "Propiedades asintóticas del estimador de máxima verosimilitud en modelos logit dicotómicos". Revista de Econometría . 17 (1): 83–97. doi :10.1016/0304-4076(81)90060-9.
  27. ^ Parque, Byeong U.; Simar, Leopoldo; Zelenyuk, Valentín (2017). "Estimación no paramétrica de modelos dinámicos de elección discreta para datos de series de tiempo" (PDF) . Estadística computacional y análisis de datos . 108 : 97-120. doi :10.1016/j.csda.2016.10.024.
  28. ^ Murphy, Kevin P. (2012). Aprendizaje automático: una perspectiva probabilística . La prensa del MIT. pag. 245.ISBN 978-0-262-01802-9.
  29. ^ Van Smeden, M.; De Groot, JA; Lunas, KG; Collins, GS; Altman, director general; Eijkemans, MJ; Reitsma, JB (2016). "No hay justificación para el criterio de 1 variable por cada 10 eventos para el análisis de regresión logística binaria". Metodología de la investigación médica del BMC . 16 (1): 163. doi : 10.1186/s12874-016-0267-3 . PMC 5122171 . PMID  27881078. 
  30. ^ Peduzzi, P; Concato, J; Kemper, E; Holford, TR; Feinstein, AR (diciembre de 1996). "Un estudio de simulación del número de eventos por variable en análisis de regresión logística". Revista de epidemiología clínica . 49 (12): 1373–9. doi : 10.1016/s0895-4356(96)00236-3 . PMID  8970487.
  31. ^ Vittinghoff, E.; McCulloch, CE (12 de enero de 2007). "Relajación de la regla de los diez eventos por variable en regresión logística y de Cox". Revista Estadounidense de Epidemiología . 165 (6): 710–718. doi : 10.1093/aje/kwk052 . PMID  17182981.
  32. ^ van der Ploeg, Tjeerd; Austin, Peter C.; Steyerberg, Ewout W. (2014). "Las técnicas de modelado modernas consumen datos: un estudio de simulación para predecir criterios de valoración dicotómicos". Metodología de la investigación médica del BMC . 14 : 137. doi : 10.1186/1471-2288-14-137 . PMC 4289553 . PMID  25532820. 
  33. ^ Greene, William N. (2003). Análisis econométrico (Quinta ed.). Prentice Hall. ISBN 978-0-13-066189-0.
  34. ^ abcdefghij Cohen, Jacob; Cohen, Patricia; Oeste, Steven G.; Aiken, Leona S. (2002). Análisis de correlación/regresión múltiple aplicado para las ciencias del comportamiento (3ª ed.). Rutledge. ISBN 978-0-8058-2223-6.[ página necesaria ]
  35. ^ Allison, Paul D. "Medidas de ajuste para regresión logística" (PDF) . Statistical Horizons LLC y la Universidad de Pensilvania.
  36. ^ Hosmer, DW (1997). "Una comparación de pruebas de bondad de ajuste para el modelo de regresión logística". Estadísticas médicas . 16 (9): 965–980. doi :10.1002/(sici)1097-0258(19970515)16:9<965::aid-sim509>3.3.co;2-f. PMID  9160492.
  37. ^ Harrell, Frank E. (2010). Estrategias de modelado de regresión: con aplicaciones a modelos lineales, regresión logística y análisis de supervivencia . Nueva York: Springer. ISBN 978-1-4419-2918-1.[ página necesaria ]
  38. ^ ab https://class.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/classification.pdf diapositiva 16
  39. ^ ab Monte, J. (2011). "La equivalencia de los modelos de regresión logística y máxima entropía" (PDF) . Consultado el 23 de febrero de 2022 .
  40. ^ Ng, Andrés (2000). "Notas de la conferencia CS229" (PDF) . Notas de la conferencia CS229 : 16–19.
  41. ^ Rodríguez, G. (2007). Apuntes de conferencias sobre modelos lineales generalizados. págs. Capítulo 3, página 45.
  42. ^ Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). Una introducción al aprendizaje estadístico. Saltador. pag. 6.
  43. ^ Pohar, Maja; Blas, Mateja; Turco, Sandra (2004). "Comparación de regresión logística y análisis discriminante lineal: un estudio de simulación". Metodološki Zvezki . 1 (1).
  44. ^ Cramer 2002, págs. 3-5.
  45. ^ Verhulst, Pierre-François (1838). "Aviso sobre la ley que la población poursuit dans son accroissement" (PDF) . Correspondencia Mathématique et Physique . 10 : 113–121 . Consultado el 3 de diciembre de 2014 .
  46. ^ Cramer 2002, pag. 4, "No dijo cómo ajustaba las curvas".
  47. ^ Verhulst, Pierre-François (1845). "Recherches mathématiques sur la loi d'accroissement de la populación" [Investigaciones matemáticas sobre la ley del crecimiento demográfico]. Nuevas memorias de la Academia Real de Ciencias y Bellas Letras de Bruselas . 18 . Consultado el 18 de febrero de 2013 .
  48. ^ Cramer 2002, pag. 4.
  49. ^ Cramer 2002, pag. 7.
  50. ^ Cramer 2002, pag. 6.
  51. ^ Cramer 2002, pag. 6–7.
  52. ^ Cramer 2002, pag. 5.
  53. ^ Cramer 2002, pag. 7–9.
  54. ^ Cramer 2002, pag. 9.
  55. ^ Cramer 2002, pag. 8, "Por lo que puedo ver, la introducción de la logística como alternativa a la función de probabilidad normal es obra de una sola persona, Joseph Berkson (1899-1982), ..."
  56. ^ Cramer 2002, pag. 11.
  57. ^ ab Cramer 2002, pág. 13.
  58. ^ McFadden, Daniel (1973). "Análisis logit condicional del comportamiento de elección cualitativa" (PDF) . En P. Zarembka (ed.). Fronteras en econometría . Nueva York: Academic Press. págs. 105-142. Archivado desde el original (PDF) el 27 de noviembre de 2018 . Consultado el 20 de abril de 2019 .

Fuentes

enlaces externos