Regresión logística condicional

La regresión logística condicional es una extensión de la regresión logística que permite tener en cuenta la estratificación y el emparejamiento . Su principal campo de aplicación son los estudios observacionales y en particular la epidemiología . Fue ideado en 1978 por Norman Breslow , Nicholas Day , Katherine Halvorsen , Ross L. Prentice y C. Sabai. ^[1] Es el procedimiento más flexible y general para datos combinados.

Fondo

Los estudios observacionales utilizan la estratificación o el emparejamiento como forma de controlar los factores de confusión .

La regresión logística puede explicar la estratificación al tener un término constante diferente para cada estrato. Denotemos la etiqueta (por ejemplo, estado del caso) de la enésima observación del enésimo estrato y los valores de los predictores correspondientes. Luego tomamos la probabilidad de que una observación sea $Y_{i\ell }\en \{0,1\}$ ${\displaystyle\ell}$ $i$ $X_{i\ell }\in \mathbb {R} ^{p}$

\mathbb {P} (Y_{i\ell }=1|X_{i\ell })={\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{ \top }X_{i\ell })}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i\ell })}}

donde es el término constante para el estrato ésimo. Los parámetros de este modelo se pueden estimar utilizando la estimación de máxima verosimilitud . $\alpha _ {i}$ $i$

Por ejemplo, considere estimar el impacto del ejercicio sobre el riesgo de enfermedad cardiovascular. Si las personas que hacen más ejercicio son más jóvenes, tienen mejor acceso a la atención médica o tienen otras diferencias que mejoran su salud, entonces una regresión logística de la incidencia de enfermedades cardiovasculares en función de los minutos dedicados a hacer ejercicio puede sobreestimar el impacto del ejercicio en la salud. Para abordar esto, podemos agrupar a las personas según características demográficas como la edad y el código postal de su residencia. Cada estrato es un grupo de personas con características demográficas similares. El vector contiene información sobre la variable de interés (en este caso, minutos dedicados a hacer ejercicio) para el individuo del estrato . El valor es el impacto de la demografía en la incidencia de enfermedades cardiovasculares , que se supone que es el mismo para todas las personas del estrato. El vector (que, en este ejemplo, es simplemente un escalar) es la cantidad de interés: el impacto del ejercicio en la enfermedad cardiovascular. También podemos incluir variables de control dentro de . ${\displaystyle\ell}$ $X_{i\ell}$ $i$ ${\displaystyle\ell}$ $\alpha _ {i}$ $Y_{i\ell}$ ${\boldsymbol {\beta }}$ $X_{i\ell}$

Motivación

La regresión logística descrita anteriormente funciona satisfactoriamente cuando el número de estratos es pequeño en relación con la cantidad de datos. Si mantenemos fijo el número de estratos y aumentamos la cantidad de datos, las estimaciones de los parámetros del modelo ( para cada estrato y el vector ) convergen a sus valores verdaderos. $\alpha _ {i}$ ${\boldsymbol {\beta }}$

El comportamiento patológico, sin embargo, ocurre cuando tenemos muchos estratos pequeños porque el número de parámetros crece con la cantidad de datos. Por ejemplo, si cada estrato contiene dos puntos de datos, entonces el número de parámetros en un modelo con puntos de datos es , por lo que el número de parámetros es del mismo orden que el número de puntos de datos. En estos entornos, a medida que aumentamos la cantidad de datos, los resultados asintóticos en los que se basa la estimación de máxima verosimilitud no son válidos y las estimaciones resultantes están sesgadas. La regresión logística condicional soluciona este problema. De hecho, se puede demostrar que el análisis incondicional de datos de pares emparejados da como resultado una estimación del odds ratio que es el cuadrado del correcto y condicional. ^[2] $N$ $N/2+p$

Además de las pruebas basadas en la regresión logística, existían varias otras pruebas antes de la regresión logística condicional para datos coincidentes, como se muestra en las pruebas relacionadas. Sin embargo, no permitieron el análisis de predictores continuos con tamaño de estrato arbitrario. Todos esos procedimientos también carecen de la flexibilidad de la regresión logística condicional y, en particular, de la posibilidad de controlar las covariables.

probabilidad condicional

La regresión logística condicional utiliza un enfoque de probabilidad condicional que aborda el comportamiento patológico anterior condicionando el número de casos en cada estrato. Esto elimina la necesidad de estimar los parámetros de los estratos.

Cuando los estratos son pares, donde la primera observación es un caso y la segunda es un control, esto se puede ver de la siguiente manera

{\begin{alineado}&\mathbb {P} (Y_{i1}=1,Y_{i2}=0|X_{i1},X_{i2},Y_{i1}+Y_{i2}= 1)\\&={\frac {\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})}{\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})+\mathbb {P} (Y_{i1}=0|X_{ i1})\mathbb {P} (Y_{i2}=1|X_{i2})}}\\[6pt]\ &={\frac {{\frac {\exp(\alpha _{i}+{ \boldsymbol {\beta }}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})} }\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}}{{\frac {\exp (\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{ \top }X_{i1})}}\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})} }+{\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {\exp( \alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\ arriba }X_{i2})}}}}\\[6pt]\ &={\frac {\exp({\boldsymbol {\beta }}^{\top }X_{i1})}{\exp({ \boldsymbol {\beta }}^{\top }X_{i1})+\exp({\boldsymbol {\beta }}^{\top }X_{i2})}}.\\[6pt]\end{ alineado}}

Con cálculos similares, la probabilidad condicional de un estrato de tamaño , siendo las primeras observaciones los casos, es $m$ $k$

\mathbb {P} (Y_{ij}=1{\text{ for }}j\leq k,Y_{ij}=0{\text{ for }}k<j\leq m|X_{i1},...,X_{im},\sum _{j=1}^{m}Y_{ij}=k)={\frac {\exp(\sum _{j=1}^{k}{\boldsymbol {\beta }}^{\top }X_{ij})}{\sum _{J\in {\mathcal {C}}_{k}^{m}}\exp(\sum _{j\in J}{\boldsymbol {\beta }}^{\top }X_{ij})}},

¿Dónde está el conjunto de todos los subconjuntos de tamaño del conjunto ? ${\mathcal {C}}_{k}^{m}$ $k$ $\{1,...,m\}$

La probabilidad logarítmica condicional completa es entonces simplemente la suma de las probabilidades logarítmicas de cada estrato. El estimador se define entonces como el que maximiza la probabilidad logarítmica condicional. $\beta$

Implementación

La regresión logística condicional está disponible en R como función clogiten el survivalpaquete. Está en el survivalpaquete porque la probabilidad logarítmica de un modelo logístico condicional es la misma que la probabilidad logarítmica de un modelo de Cox con una estructura de datos particular. ^[3]

También está disponible en Python a través del statsmodelspaquete a partir de la versión 0.14. ^[4]

Pruebas relacionadas

La prueba de diferencias pareadas permite probar la asociación entre un resultado binario y un predictor continuo teniendo en cuenta el emparejamiento.
La prueba de Cochran-Mantel-Haenszel permite probar la asociación entre un resultado binario y un predictor binario teniendo en cuenta la estratificación con tamaños de estratos arbitrarios. Cuando se verifican sus condiciones de aplicación, es idéntica a la prueba de puntuación de regresión logística condicional . ^[5]

Notas

^ Breslow NE, Día NE, Halvorsen KT, Prentice RL, Sabai C (1978). "Estimación de múltiples funciones de riesgo relativo en estudios emparejados de casos y controles". Soy J Epidemiol . 108 (4): 299–307. doi : 10.1093/oxfordjournals.aje.a112623. PMID 727199.
^ Breslow, NE; Día, NE (1980). Métodos estadisticos en la investigación del cáncer. Volumen 1-El análisis de estudios de casos y controles. Lyon, Francia: IARC. págs. 249-251. Archivado desde el original el 26 de diciembre de 2016 . Consultado el 4 de noviembre de 2016 .
^ Lumley, Thomas. "Documentación R Regresión logística condicional" . Consultado el 3 de noviembre de 2016 .
^ "statsmodels.discrete.conditional_models.ConditionalLogit" . Consultado el 25 de marzo de 2023 .
^ Día, NE, Byar, DP (1979). "Prueba de hipótesis en estudios de casos y controles: equivalencia de estadísticas de Mantel-Haenszel y pruebas de puntuación logit". Biometría . 35 (3): 623–630. doi :10.2307/2530253. JSTOR 2530253. PMID 497345.{{cite journal}}: CS1 maint: multiple names: authors list (link)