La regresión logística condicional es una extensión de la regresión logística que permite tener en cuenta la estratificación y el emparejamiento . Su principal campo de aplicación son los estudios observacionales y en particular la epidemiología . Fue ideado en 1978 por Norman Breslow , Nicholas Day , Katherine Halvorsen , Ross L. Prentice y C. Sabai. [1] Es el procedimiento más flexible y general para datos combinados.
Los estudios observacionales utilizan la estratificación o el emparejamiento como forma de controlar los factores de confusión .
La regresión logística puede explicar la estratificación al tener un término constante diferente para cada estrato. Denotemos la etiqueta (por ejemplo, estado del caso) de la enésima observación del enésimo estrato y los valores de los predictores correspondientes. Luego tomamos la probabilidad de que una observación sea
donde es el término constante para el estrato ésimo. Los parámetros de este modelo se pueden estimar utilizando la estimación de máxima verosimilitud .
Por ejemplo, considere estimar el impacto del ejercicio sobre el riesgo de enfermedad cardiovascular. Si las personas que hacen más ejercicio son más jóvenes, tienen mejor acceso a la atención médica o tienen otras diferencias que mejoran su salud, entonces una regresión logística de la incidencia de enfermedades cardiovasculares en función de los minutos dedicados a hacer ejercicio puede sobreestimar el impacto del ejercicio en la salud. Para abordar esto, podemos agrupar a las personas según características demográficas como la edad y el código postal de su residencia. Cada estrato es un grupo de personas con características demográficas similares. El vector contiene información sobre la variable de interés (en este caso, minutos dedicados a hacer ejercicio) para el individuo del estrato . El valor es el impacto de la demografía en la incidencia de enfermedades cardiovasculares , que se supone que es el mismo para todas las personas del estrato. El vector (que, en este ejemplo, es simplemente un escalar) es la cantidad de interés: el impacto del ejercicio en la enfermedad cardiovascular. También podemos incluir variables de control dentro de .
La regresión logística descrita anteriormente funciona satisfactoriamente cuando el número de estratos es pequeño en relación con la cantidad de datos. Si mantenemos fijo el número de estratos y aumentamos la cantidad de datos, las estimaciones de los parámetros del modelo ( para cada estrato y el vector ) convergen a sus valores verdaderos.
El comportamiento patológico, sin embargo, ocurre cuando tenemos muchos estratos pequeños porque el número de parámetros crece con la cantidad de datos. Por ejemplo, si cada estrato contiene dos puntos de datos, entonces el número de parámetros en un modelo con puntos de datos es , por lo que el número de parámetros es del mismo orden que el número de puntos de datos. En estos entornos, a medida que aumentamos la cantidad de datos, los resultados asintóticos en los que se basa la estimación de máxima verosimilitud no son válidos y las estimaciones resultantes están sesgadas. La regresión logística condicional soluciona este problema. De hecho, se puede demostrar que el análisis incondicional de datos de pares emparejados da como resultado una estimación del odds ratio que es el cuadrado del correcto y condicional. [2]
Además de las pruebas basadas en la regresión logística, existían varias otras pruebas antes de la regresión logística condicional para datos coincidentes, como se muestra en las pruebas relacionadas. Sin embargo, no permitieron el análisis de predictores continuos con tamaño de estrato arbitrario. Todos esos procedimientos también carecen de la flexibilidad de la regresión logística condicional y, en particular, de la posibilidad de controlar las covariables.
La regresión logística condicional utiliza un enfoque de probabilidad condicional que aborda el comportamiento patológico anterior condicionando el número de casos en cada estrato. Esto elimina la necesidad de estimar los parámetros de los estratos.
Cuando los estratos son pares, donde la primera observación es un caso y la segunda es un control, esto se puede ver de la siguiente manera
Con cálculos similares, la probabilidad condicional de un estrato de tamaño , siendo las primeras observaciones los casos, es
¿Dónde está el conjunto de todos los subconjuntos de tamaño del conjunto ?
La probabilidad logarítmica condicional completa es entonces simplemente la suma de las probabilidades logarítmicas de cada estrato. El estimador se define entonces como el que maximiza la probabilidad logarítmica condicional.
La regresión logística condicional está disponible en R como función clogit
en el survival
paquete. Está en el survival
paquete porque la probabilidad logarítmica de un modelo logístico condicional es la misma que la probabilidad logarítmica de un modelo de Cox con una estructura de datos particular. [3]
También está disponible en Python a través del statsmodels
paquete a partir de la versión 0.14. [4]
{{cite journal}}
: CS1 maint: multiple names: authors list (link)