El análisis de regresión logística se enmarca en el conjunto de Modelos Lineales Generalizados (GLM por sus siglas en inglés) que usa como función de enlace la función logit.
Las probabilidades que describen el posible resultado de un único ensayo se modelan como una función de variables explicativas, utilizando una función logística.
La regresión logística es usada extensamente en las ciencias médicas y sociales.
Otros nombres para regresión logística usados en varias áreas de aplicación incluyen modelo logístico, modelo logit, y clasificador de máxima entropía.
La regresión logística analiza datos distribuidos binomialmente de la forma
son conocidos y las probabilidades de éxito
Estas variables explicativas pueden pensarse como un vector
Note que un elemento particular de
son usualmente estimados a través del método de máxima verosimilitud.
La interpretación de los estimados del parámetro
En el caso de una variable explicativa dicotómica, por ejemplo género,
Esta forma funcional es comúnmente identificada como un "perceptrón" de una capa simple o red neuronal artificial de una sola capa.
Una red neuronal de una sola capa calcula una salida continua en lugar de una función definida a trozos.
La derivada de pi con respecto a X = x1...xk es calculada de la forma general:
Con esta elección, la red de capa simple es idéntica al modelo de regresión logística.
Esta función tiene una derivada continua, la cual permite ser usada en propagación hacia atrás.
Esta función también es preferida pues su derivada es fácilmente calculable: La regresión logística unidimensional puede usarse para tratar de correlacionar la probabilidad de una variable cualitativa binaria (asumiremos que puede tomar los valores reales "0" y "1") con una variable escalar x.
La idea es que la regresión logística aproxime la probabilidad de obtener "0" (no ocurre cierto suceso) o "1" (ocurre el suceso) con el valor de la variable explicativa x.
En esas condiciones, la probabilidad aproximada del suceso se aproximará mediante una función logística del tipo:[1]
que puede reducirse al cálculo de una regresión lineal para la función logit de la probabilidad:
El gráfico de la función logística se muestra en la figura que encabeza esta sección, la variable independiente es la combinación lineal
y la variable dependiente es la probabilidad estimada
Si se realiza la regresión lineal, la forma de la probabilidad estimada puede ser fácilmente recuperada a partir de los coeficientes calculados:[1] Para hacer la regresión deben tomarse los valores
de las observaciones ordenados de mayor a menor y formar la siguiente tabla: Donde εi es "0" o "1" según el caso y además:
En el cálculo de g pueden aparecer problemas al principio del intervalo si π(Xj) = 0 para algunos valores de
entonces sea Después de algunas operaciones se prueba que donde
son las posibilidades en favor de éxito.
Si tomamos un valor de ejemplo, digamos p(50) = 2/3, entonces Cuando x = 50, un éxito es dos veces tan probable como una falla.
Algunas extensiones del modelo existen para tratar variables dependientes multicategóricas y/o ordinales, tales como la regresión politómica.
Una extensión del modelo logístico para ajustar conjuntos de variables independientes es el campo aleatorio condicional.