Regresión logística condicional

La regresión logística condicional es una extensión de la regresión logística que permite tener en cuenta la estratificación y el emparejamiento . Su principal campo de aplicación son los estudios observacionales y en particular la epidemiología . Fue ideada en 1978 por Norman Breslow , Nicholas Day , Katherine Halvorsen , Ross L. Prentice y C. Sabai. ^[1] Es el procedimiento más flexible y general para datos emparejados.

Fondo

Los estudios observacionales utilizan la estratificación o el emparejamiento como una forma de controlar los factores de confusión .

La regresión logística puede explicar la estratificación al tener un término constante diferente para cada estrato. Denotemos la etiqueta (por ejemplo, estado del caso) de la observación n.° del estrato n.° y los valores de los predictores correspondientes. Luego, tomamos la probabilidad de una observación como $Y_{i\ell}\in \{0,1\}$ $\ell$ ${\estilo de visualización i}$ $X_{i\ell}\in \mathbb {R} ^{p}$

\mathbb {P} (Y_{i\ell}=1|X_{i\ell})={\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i\ell })}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i\ell })}}

donde es el término constante para el estrato n.° Los parámetros de este modelo se pueden estimar mediante la estimación de máxima verosimilitud . $\alpha _{i}$ ${\estilo de visualización i}$

Por ejemplo, considere estimar el impacto del ejercicio en el riesgo de enfermedad cardiovascular. Si las personas que hacen más ejercicio son más jóvenes, tienen mejor acceso a la atención médica o tienen otras diferencias que mejoran su salud, entonces una regresión logística de la incidencia de enfermedad cardiovascular en minutos dedicados al ejercicio puede sobreestimar el impacto del ejercicio en la salud. Para abordar esto, podemos agrupar a las personas en función de características demográficas como la edad y el código postal de su residencia. Cada estrato es un grupo de personas con demografía similar. El vector contiene información sobre la variable de interés (en este caso, minutos dedicados al ejercicio) para el individuo en el estrato . El valor es el impacto de la demografía en la incidencia de enfermedad cardiovascular , que se supone que es el mismo para todas las personas en el estrato. El vector (que, en este ejemplo, es solo un escalar) es la cantidad de interés --- el impacto del ejercicio en la enfermedad cardiovascular. También podemos incluir variables de control dentro de . $\ell$ $X_{i\ell}$ ${\estilo de visualización i}$ $\ell$ $\alpha _{i}$ $Y_{i\ell}$ ${\boldsymbol {\beta }}$ $X_{i\ell}$

Motivación

La regresión logística descrita anteriormente funciona satisfactoriamente cuando el número de estratos es pequeño en relación con la cantidad de datos. Si mantenemos el número de estratos fijo y aumentamos la cantidad de datos, las estimaciones de los parámetros del modelo ( para cada estrato y el vector ) convergen a sus valores verdaderos. $\alpha _{i}$ ${\boldsymbol {\beta }}$

Sin embargo, el comportamiento patológico ocurre cuando tenemos muchos estratos pequeños porque el número de parámetros crece con la cantidad de datos. Por ejemplo, si cada estrato contiene dos puntos de datos, entonces el número de parámetros en un modelo con puntos de datos es , por lo que el número de parámetros es del mismo orden que el número de puntos de datos. En estos entornos, a medida que aumentamos la cantidad de datos, los resultados asintóticos en los que se basa la estimación de máxima verosimilitud no son válidos y las estimaciones resultantes están sesgadas. La regresión logística condicional soluciona este problema. De hecho, se puede demostrar que el análisis incondicional de datos de pares coincidentes da como resultado una estimación de la razón de probabilidades que es el cuadrado de la correcta, condicional. ^[2] ${\estilo de visualización N}$ ${\estilo de visualización N/2+p}$

Además de las pruebas basadas en la regresión logística, existían otras pruebas antes de la regresión logística condicional para datos emparejados, como se muestra en las pruebas relacionadas. Sin embargo, no permitían el análisis de predictores continuos con un tamaño de estrato arbitrario. Todos esos procedimientos también carecen de la flexibilidad de la regresión logística condicional y, en particular, de la posibilidad de controlar las covariables.

Probabilidad condicional

La regresión logística condicional utiliza un enfoque de probabilidad condicional que aborda el comportamiento patológico antes mencionado al condicionarlo al número de casos en cada estrato. Esto elimina la necesidad de estimar los parámetros de los estratos.

Cuando los estratos son pares, donde la primera observación es un caso y la segunda es un control, esto se puede ver de la siguiente manera

{\begin{aligned}&\mathbb {P} (Y_{i1}=1,Y_{i2}=0|X_{i1},X_{i2},Y_{i1}+Y_{i2}=1)\\&={\frac {\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})}{\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})+\mathbb {P} (Y_{i1}=0|X_{i1})\mathbb {P} (Y_{i2}=1|X_{i2})}}\\[6pt]\ &={\frac {{\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}}{{\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}+{\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}}}\\[6pt]\ &={\frac {\exp({\boldsymbol {\beta }}^{\top }X_{i1})}{\exp({\boldsymbol {\beta }}^{\top }X_{i1})+\exp({\boldsymbol {\beta }}^{\top }X_{i2})}}.\\[6pt]\end{aligned}}

Con cálculos similares, la probabilidad condicional de un estrato de tamaño , con las primeras observaciones siendo los casos, es ${\estilo de visualización m}$ $k$

\mathbb {P} (Y_{ij}=1{\text{ for }}j\leq k,Y_{ij}=0{\text{ for }}k<j\leq m|X_{i1},...,X_{im},\sum _{j=1}^{m}Y_{ij}=k)={\frac {\exp(\sum _{j=1}^{k}{\boldsymbol {\beta }}^{\top }X_{ij})}{\sum _{J\in {\mathcal {C}}_{k}^{m}}\exp(\sum _{j\in J}{\boldsymbol {\beta }}^{\top }X_{ij})}},

donde es el conjunto de todos los subconjuntos de tamaño del conjunto . ${\mathcal {C}}_{k}^{m}$ $k$ $\{1,...,m\}$

La probabilidad logarítmica condicional completa es entonces simplemente la suma de las probabilidades logarítmicas de cada estrato. El estimador se define entonces como el que maximiza la probabilidad logarítmica condicional. $\beta$

Implementación

La regresión logística condicional está disponible en R como función clogiten el survivalpaquete. Está en el survivalpaquete porque la probabilidad logarítmica de un modelo logístico condicional es la misma que la probabilidad logarítmica de un modelo de Cox con una estructura de datos particular. ^[3]

También está disponible en Python a través del statsmodelspaquete a partir de la versión 0.14. ^[4]

Pruebas relacionadas

La prueba de diferencias pareadas permite probar la asociación entre un resultado binario y un predictor continuo teniendo en cuenta el emparejamiento.
La prueba de Cochran-Mantel-Haenszel permite comprobar la asociación entre un resultado binario y un predictor binario teniendo en cuenta la estratificación con un tamaño de estrato arbitrario. Cuando se verifican sus condiciones de aplicación, es idéntica a la prueba de puntuación de regresión logística condicional . ^[5]

Notas

^ Breslow NE, Day NE, Halvorsen KT, Prentice RL, Sabai C (1978). "Estimación de múltiples funciones de riesgo relativo en estudios de casos y controles emparejados". Am J Epidemiol . 108 (4): 299–307. doi :10.1093/oxfordjournals.aje.a112623. PMID 727199.
^ Breslow, NE; Day, NE (1980). Métodos estadísticos en la investigación del cáncer. Volumen 1: El análisis de estudios de casos y controles. Lyon, Francia: IARC. págs. 249–251. Archivado desde el original el 26 de diciembre de 2016. Consultado el 4 de noviembre de 2016 .
^ Lumley, Thomas. «Documentación R: regresión logística condicional» . Consultado el 3 de noviembre de 2016 .
^ "statsmodels.discrete.conditional_models.ConditionalLogit" . Consultado el 25 de marzo de 2023 .
^ Day, NE, Byar, DP (1979). "Prueba de hipótesis en estudios de casos y controles: equivalencia de las pruebas de puntuación de Mantel-Haenszel y de las pruebas de puntuación logit". Biometrics . 35 (3): 623–630. doi :10.2307/2530253. JSTOR 2530253. PMID 497345.{{cite journal}}: CS1 maint: multiple names: authors list (link)