Coincidencia de puntuación de propensión

En el análisis estadístico de datos observacionales , el emparejamiento por puntuación de propensión ( PSM ) es una técnica de emparejamiento estadístico que intenta estimar el efecto de un tratamiento, política u otra intervención teniendo en cuenta las covariables que predicen recibir el tratamiento. PSM intenta reducir el sesgo debido a las variables de confusión que podrían encontrarse en una estimación del efecto del tratamiento obtenida simplemente comparando los resultados entre las unidades que recibieron el tratamiento versus aquellas que no lo recibieron . Paul R. Rosenbaum y Donald Rubin introdujeron la técnica en 1983. ^[1]

La posibilidad de sesgo surge porque una diferencia en el resultado del tratamiento (como el efecto promedio del tratamiento ) entre los grupos tratados y no tratados puede ser causada por un factor que predice el tratamiento en lugar del tratamiento en sí. En los experimentos aleatorios , la aleatorización permite una estimación imparcial de los efectos del tratamiento; Para cada covariable, la aleatorización implica que los grupos de tratamiento estarán equilibrados en promedio, según la ley de los grandes números . Desafortunadamente, en los estudios observacionales, la asignación de tratamientos a los sujetos de investigación no suele ser aleatoria. El emparejamiento intenta reducir el sesgo de asignación de tratamientos e imitar la aleatorización, creando una muestra de unidades que recibieron el tratamiento que sea comparable en todas las covariables observadas con una muestra de unidades que no recibieron el tratamiento.

La "propensión" describe la probabilidad de que una unidad haya sido tratada, dados sus valores de covariables. Cuanto más fuerte sea la confusión del tratamiento y las covariables y, por tanto, cuanto más fuerte sea el sesgo en el análisis del efecto del tratamiento ingenuo, mejor predicen las covariables si una unidad recibe tratamiento o no. Al tener unidades con puntuaciones de propensión similares tanto en el tratamiento como en el control, se reduce dicha confusión.

Por ejemplo, a uno le puede interesar conocer las consecuencias de fumar . Se requiere un estudio observacional ya que no es ético asignar aleatoriamente a personas al tratamiento de "tabaquismo". El efecto del tratamiento estimado simplemente comparando a los que fumaban con los que no fumaban estaría sesgado por cualquier factor que prediga el tabaquismo (p. ej., sexo y edad). PSM intenta controlar estos sesgos haciendo que los grupos que reciben tratamiento y los que no lo reciben sean comparables con respecto a las variables de control.

Descripción general

PSM es para casos de inferencia causal y sesgo de confusión en entornos no experimentales en los que: (i) pocas unidades en el grupo de comparación sin tratamiento son comparables a las unidades de tratamiento; y (ii) seleccionar un subconjunto de unidades de comparación similar a la unidad de tratamiento es difícil porque las unidades deben compararse a través de un conjunto de características previas al tratamiento de alta dimensión. ^{[ cita necesaria ]}

En el emparejamiento normal, las características únicas que distinguen a los grupos de tratamiento y de control se emparejan en un intento de hacer que los grupos sean más parecidos. Pero si los dos grupos no tienen una superposición sustancial, entonces se puede introducir un error sustancial. Por ejemplo, si sólo se comparan los peores casos del grupo de "comparación" no tratado con sólo los mejores casos del grupo de tratamiento , el resultado puede ser una regresión hacia la media , lo que puede hacer que el grupo de comparación parezca mejor o peor que la realidad. ^{[ cita necesaria ]}

PSM emplea una probabilidad predicha de pertenencia a un grupo (por ejemplo, grupo de tratamiento versus grupo de control) basada en predictores observados, generalmente obtenidos a partir de regresión logística , para crear un grupo contrafactual . Las puntuaciones de propensión se pueden utilizar para el emparejamiento o como covariables , solas o con otras variables o covariables de emparejamiento.

Procedimiento general

1. Estimar puntuaciones de propensión, por ejemplo, con regresión logística :

Variable dependiente: Z = 1, si la unidad participó (es decir, es miembro del grupo de tratamiento); Z = 0, si la unidad no participó (es decir, es miembro del grupo de control).
Elija los factores de confusión apropiados (variables que se supone están asociadas tanto con el tratamiento como con el resultado)
Obtenga una estimación del puntaje de propensión: probabilidad predicha p o log odds, log[ p /(1 − p )].

2. Relacione a cada participante con uno o más no participantes según su puntuación de propensión, utilizando uno de estos métodos:

Coincidencia de vecino más cercano
Emparejamiento completo óptimo: empareje a cada participante con no participantes únicos para minimizar la distancia total en las puntuaciones de propensión entre los participantes y sus no participantes emparejados. Este método se puede combinar con otras técnicas de emparejamiento.
Emparejamiento de calibre: las unidades de comparación dentro de un cierto ancho del puntaje de propensión de las unidades tratadas se emparejan, donde el ancho es generalmente una fracción de la desviación estándar del puntaje de propensión.
Coincidencia de radio: todas las coincidencias dentro de un radio particular se utilizan y se reutilizan entre unidades de tratamiento.
Emparejamiento de núcleo : igual que el emparejamiento de radio, excepto que las observaciones de control se ponderan en función de la distancia entre la puntuación de propensión de la observación del tratamiento y la puntuación de propensión de emparejamiento de control. Un ejemplo es el núcleo de Epanechnikov. La coincidencia de radio es un caso especial en el que se utiliza un núcleo uniforme.

Coincidencia de métricas de Mahalanobis junto con PSM
Coincidencia de estratificación
Coincidencia de diferencias en diferencias (pesos lineales locales y kernel)
Coincidencia exacta

3. Verificar que las covariables estén equilibradas entre los grupos de tratamiento y de comparación dentro de los estratos de la puntuación de propensión.

Utilice diferencias estandarizadas o gráficos para examinar las distribuciones.
Si las covariables no están equilibradas, regrese a los pasos 1 o 2 y modifique el procedimiento.

4. Estimar los efectos basándose en una nueva muestra.

Normalmente: una media ponderada de las diferencias promedio dentro del partido en los resultados entre participantes y no participantes.
Utilice análisis apropiados para muestras emparejadas no independientes si más de un no participante coincide con cada participante.

Definiciones formales

Ajustes básicos

El caso básico ^[1] es el de dos tratamientos (numerados 1 y 0), con N sujetos con variables aleatorias independientes e idénticamente distribuidas . Cada sujeto respondería al tratamiento con y al control con . La cantidad a estimar es el efecto promedio del tratamiento : . La variable indica si el sujeto recibió tratamiento ( ) o control ( ). Sea un vector de mediciones observadas previas al tratamiento (o covariables) para el iésimo sujeto. Las observaciones de se realizan antes de la asignación del tratamiento, pero las características de pueden no incluir todas (o algunas) de las utilizadas para decidir la asignación del tratamiento. Se supone que la numeración de las unidades (es decir: i = 1, ..., N ) no contiene ninguna información más allá de la contenida en . Las siguientes secciones omitirán el índice i mientras aún analizan el comportamiento estocástico de algún tema. ${\ Displaystyle r_ {1i}}$ $r_{0i}$ ${\ Displaystyle E [r_ {1}] -E [r_ {0}]}$ $Z_{i}$ $Z_{i}=1$ $Z_{i}=0$ $X_{i}$ $X_{i}$ $X_{i}$ $X_{i}$

Asignación de tratamiento fuertemente ignorable

Supongamos que algún sujeto tenga un vector de covariables X (es decir, condicionalmente sin confusión) y algunos resultados potenciales r ₀ y r ₁ bajo control y tratamiento, respectivamente. Se dice que la asignación del tratamiento es totalmente ignorable si los resultados potenciales son independientes del tratamiento ( Z ) y están condicionados a las variables de fondo X . Esto se puede escribir de forma compacta como

r_{0},r_{1}\perp Z\mid X

donde denota independencia estadística . ^[1] $\perp$

Puntuación de equilibrio

Una puntuación de equilibrio b ( X ) es una función de las covariables observadas X tal que la distribución condicional de X dada b ( X ) es la misma para las unidades tratadas ( Z = 1) y de control ( Z = 0):

Z\perp X\mid b(X).

La función más trivial es . $b(X)=X$

Puntuación de propensión

Una puntuación de propensión es la probabilidad de que una unidad (p. ej., persona, aula, escuela) sea asignada a un tratamiento particular dado un conjunto de covariables observadas. Las puntuaciones de propensión se utilizan para reducir la confusión equiparando grupos en función de estas covariables.

Supongamos que tenemos un indicador de tratamiento binario Z , una variable de respuesta r y covariables observadas de fondo X. La puntuación de propensión se define como la probabilidad condicional de tratamiento dadas las variables de fondo:

e(x)\ {\stackrel {\mathrm {def} }{=}}\ \Pr(Z=1\mid X=x).

En el contexto de la inferencia causal y la metodología de encuestas , las puntuaciones de propensión se estiman (mediante métodos como la regresión logística , los bosques aleatorios u otros), utilizando algún conjunto de covariables. Estos puntajes de propensión se utilizan luego como estimadores de ponderaciones que se utilizarán con métodos de ponderación de probabilidad inversa .

Teoremas principales

Rosenbaum y Rubin presentaron y demostraron por primera vez lo siguiente en 1983: ^[1]

La puntuación de propensión es una puntuación de equilibrio. $e(x)$
Cualquier puntuación que sea "más fina" que la puntuación de propensión es una puntuación de equilibrio (es decir, para alguna función f ). La puntuación de propensión es la función de puntuación de equilibrio más burda, ya que toma un objeto (posiblemente) multidimensional ( Xi ₎ y lo transforma en una dimensión (aunque, obviamente, también existen otras), mientras que es la más fina. $e(X)=f(b(X))$ $b(X)=X$
Si la asignación del tratamiento es totalmente ignorable dado X , entonces:

También es totalmente ignorable dada cualquier función de equilibrio. Específicamente, dada la puntuación de propensión:

(r_{0},r_{1})\perp Z\mid e(X).

Para cualquier valor de una puntuación de equilibrio, la diferencia entre las medias de tratamiento y control de las muestras disponibles (es decir: ), basada en sujetos que tienen el mismo valor de la puntuación de equilibrio, puede servir como un estimador insesgado del efecto promedio del tratamiento. : . ${\bar {r}}_{1}-{\bar {r}}_{0}$ ${\ Displaystyle E [r_ {1}] -E [r_ {0}]}$

El uso de estimaciones de muestra de puntajes de equilibrio puede producir un saldo de muestra en X

Relación con la suficiencia

Si pensamos en el valor de Z como un parámetro de la población que afecta la distribución de X , entonces la puntuación de equilibrio sirve como estadística suficiente para Z. Además, los teoremas anteriores indican que la puntuación de propensión es una estadística mínima suficiente si se piensa en Z como un parámetro de X. Por último, si la asignación de tratamiento Z es totalmente ignorable dado X , entonces la puntuación de propensión es una estadística mínima suficiente para la distribución conjunta de . ${\ Displaystyle (r_ {0}, r_ {1})}$

Prueba gráfica para detectar la presencia de variables de confusión

Judea Pearl ha demostrado que existe una prueba gráfica sencilla, denominada criterio de puerta trasera, que detecta la presencia de variables de confusión. Para estimar el efecto del tratamiento, las variables de fondo X deben bloquear todos los caminos de puerta trasera en el gráfico. Este bloqueo se puede realizar agregando la variable de confusión como control en la regresión o haciendo coincidir la variable de confusión. ^[2]

Desventajas

Se ha demostrado que el PSM aumenta el "desequilibrio, la ineficiencia, la dependencia del modelo y el sesgo" del modelo, lo que no ocurre con la mayoría de los otros métodos de comparación. ^[3] Las ideas detrás del uso de la comparación aún son válidas, pero deben aplicarse con otros métodos de comparación; Los puntajes de propensión también tienen otros usos productivos en la ponderación y la estimación doblemente robusta.

Al igual que otros procedimientos de comparación, el PSM estima un efecto de tratamiento promedio a partir de datos de observación. Las ventajas clave del PSM eran, en el momento de su introducción, que al utilizar una combinación lineal de covariables para una puntuación única, equilibra los grupos de tratamiento y control en una gran cantidad de covariables sin perder una gran cantidad de observaciones. Si las unidades de tratamiento y control se equilibraran con un gran número de covariables una a la vez, se necesitarían grandes números de observaciones para superar el " problema de dimensionalidad " por el cual la introducción de una nueva covariable de equilibrio aumenta el número mínimo necesario de observaciones en la muestra geométricamente .

Una desventaja del PSM es que sólo tiene en cuenta las covariables observadas (y observables) y no las características latentes. Los factores que afectan la asignación al tratamiento y el resultado pero que no pueden observarse no pueden tenerse en cuenta en el procedimiento de comparación. ^[4] Como el procedimiento solo controla las variables observadas, cualquier sesgo oculto debido a variables latentes puede permanecer después del emparejamiento. ^[5] Otro problema es que el PSM requiere muestras grandes, con una superposición sustancial entre los grupos de tratamiento y control.

Judea Pearl también ha planteado preocupaciones generales sobre el emparejamiento , quien ha argumentado que el sesgo oculto puede en realidad aumentar porque el emparejamiento de variables observadas puede desencadenar un sesgo debido a factores de confusión latentes no observados. De manera similar, Pearl ha argumentado que la reducción del sesgo sólo puede garantizarse (asintóticamente) modelando las relaciones causales cualitativas entre el tratamiento, el resultado y las covariables observadas y no observadas. ^[6] La confusión ocurre cuando el experimentador es incapaz de controlar explicaciones alternativas y no causales para una relación observada entre variables independientes y dependientes. Dicho control debería satisfacer el " criterio de puerta trasera " de Pearl. ^[2]

Implementaciones en paquetes estadísticos.

R : la comparación de puntuación de propensión está disponible como parte de MatchIt, ^[7]^[8] optmatch , ^[9] u otros paquetes.
SAS : el procedimiento PSMatch y OneToManyMTCHobservaciones de macrocoincidencia basadas en una puntuación de propensión. ^[10]
Stata : varios comandos implementan la coincidencia de puntuación de propensión, ^[11] incluido el escrito por el usuario psmatch2. ^[12] Stata versión 13 y posteriores también ofrece el comando incorporado teffects psmatch. ^[13]
SPSS : Un cuadro de diálogo para Coincidencia de puntuación de propensión está disponible en el menú Estadísticas de IBM SPSS (Datos/Coincidencia de puntuación de propensión) y permite al usuario establecer la tolerancia de coincidencia, aleatorizar el orden de los casos al extraer muestras, priorizar coincidencias exactas, muestra con o sin reemplazo, establezca una semilla aleatoria y maximice el rendimiento aumentando la velocidad de procesamiento y minimizando el uso de memoria.
Python : PsmPyuna biblioteca para la comparación de puntajes de propensión en Python

Ver también

Referencias

^ abcd Rosenbaum, Paul R.; Rubin, Donald B. (1983). "El papel central de la puntuación de propensión en estudios observacionales de efectos causales". Biometrika . 70 (1): 41–55. doi : 10.1093/biomet/70.1.41 .
^ ab Perla, J. (2000). Causalidad: modelos, razonamiento e inferencia . Nueva York: Cambridge University Press. ISBN 978-0-521-77362-1.
^ Rey, Gary; Nielsen, Richard (7 de mayo de 2019). "Por qué las puntuaciones de propensión no deberían utilizarse para el emparejamiento". Análisis Político . 27 (4): 435–454. doi : 10.1017/pan.2019.11 . hdl : 1721.1/128459 . ISSN 1047-1987.| enlace al artículo completo (desde la página de inicio del autor)
^ Garrido MM, et al. (2014). "Métodos para construir y evaluar puntuaciones de propensión". Investigación de Servicios de Salud . 49 (5): 1701–20. doi :10.1111/1475-6773.12182. PMC 4213057 . PMID 24779867.
^ Sádish, WR; Cocinero, TD; Campbell, DT (2002). Diseños experimentales y cuasiexperimentales para inferencia causal generalizada . Boston: Houghton Mifflin. ISBN 978-0-395-61556-0.
^ Perla, J. (2009). "Comprensión de las puntuaciones de propensión". Causalidad: modelos, razonamiento e inferencia (Segunda ed.). Nueva York: Cambridge University Press. ISBN 978-0-521-89560-6.
^ Hola, Daniel; Imai, Kosuke; Rey, Gary ; Estuardo, Isabel (2007). "Coincidencia como preprocesamiento no paramétrico para reducir la dependencia del modelo en la inferencia causal paramétrica". Análisis Político . 15 (3): 199–236. doi : 10.1093/pan/mpl013 .
^ "MatchIt: preprocesamiento no paramétrico para inferencia causal paramétrica". Proyecto R. 16 de noviembre de 2022.
^ Hansen, Ben B; Klopfer, Stephanie Olsen (2006). "Diseños relacionados y de coincidencia completa óptima a través de flujos de red". Revista de Estadística Computacional y Gráfica . Informa Reino Unido Limited. 15 (3): 609–627. doi :10.1198/106186006x137047. ISSN 1061-8600. S2CID 10138048.
^ Parsons, Lori. "Realización de una comparación de casos y controles 1:N sobre la puntuación de propensión" (PDF) . SUGI 29: Instituto SAS . Consultado el 10 de junio de 2016 .{{cite web}}: Mantenimiento CS1: ubicación ( enlace )
^ Implementación de estimadores de coincidencia de puntuación de propensión con STATA. Notas de conferencias 2001
^ Lovaina, E.; Sianesi, B. (2003). "PSMATCH2: módulo de Stata para realizar Mahalanobis completo y coincidencia de puntuación de propensión, gráficos de soporte común y pruebas de desequilibrio de covariables". Componentes de software estadístico .
^ "teffects psmatch - Coincidencia de puntuación de propensión" (PDF) . Manual de estadísticas .

Bibliografía

Abadie, Alberto ; Imbens, Guido W. (2006). "Propiedades de muestras grandes de estimadores coincidentes para efectos de tratamiento promedio". Econométrica . 74 (1): 235–267. CiteSeerX 10.1.1.559.6313 . doi :10.1111/j.1468-0262.2006.00655.x.
Leite, Walter L. (2017). Métodos prácticos de puntuación de propensión utilizando R. Washington, DC: Publicaciones Sage. ISBN 978-1-4522-8888-8.
Austin, Peter C. (31 de mayo de 2011). "Una introducción a los métodos de puntuación de propensión para reducir los efectos de la confusión en estudios observacionales". Investigación conductual multivariada . 46 (3): 399–424. doi :10.1080/00273171.2011.568786. PMC 3144483 . PMID 21818162.