Coincidencia (estadísticas)

El emparejamiento es una técnica estadística que evalúa el efecto de un tratamiento comparando las unidades tratadas y no tratadas en un estudio observacional o cuasiexperimento (es decir, cuando el tratamiento no se asigna al azar). El objetivo del emparejamiento es reducir el sesgo del efecto estimado del tratamiento en un estudio de datos observacionales, encontrando, para cada unidad tratada, una (o más) unidades no tratadas con características observables similares con las que se equilibran las covariables. afuera. Al hacer coincidir las unidades tratadas con unidades similares no tratadas, el emparejamiento permite comparar los resultados entre las unidades tratadas y no tratadas para estimar el efecto del tratamiento en la reducción del sesgo debido a la confusión . ^[1]^[2]^[3] El emparejamiento por puntuación de propensión , una técnica temprana de emparejamiento, se desarrolló como parte del modelo causal de Rubin , ^[4] pero se ha demostrado que aumenta la dependencia, el sesgo, la ineficiencia y el poder del modelo y ya no se utiliza. Recomendado en comparación con otros métodos de comparación. ^[5] Un método de comparación simple, fácil de entender y estadísticamente poderoso conocido como Coincidencia Exacta Gruesa o CEM. ^[6]

El emparejamiento ha sido promovido por Donald Rubin . ^[4] Fue criticado prominentemente en economía por LaLonde (1986), ^[7] quien comparó estimaciones de los efectos del tratamiento de un experimento con estimaciones comparables producidas con métodos de emparejamiento y demostró que los métodos de emparejamiento están sesgados . Dehejia y Wahba (1999) reevaluaron la crítica de LaLonde y demostraron que el emparejamiento es una buena solución. ^[8] Se han planteado críticas similares en revistas de ciencia política ^[9] y sociología ^[10] .

Análisis

Cuando el resultado de interés es binario, la herramienta más general para el análisis de datos emparejados es la regresión logística condicional, ya que maneja estratos de tamaño arbitrario y tratamientos continuos o binarios (predictores) y puede controlar las covariables. En casos particulares, se encuentran disponibles pruebas más simples como la prueba de diferencias pareadas , la prueba de McNemar y la prueba de Cochran-Mantel-Haenszel .

Cuando el resultado de interés es continuo, se realiza la estimación del efecto promedio del tratamiento .

El emparejamiento también se puede utilizar para "preprocesar" una muestra antes del análisis mediante otra técnica, como el análisis de regresión . ^[11]

superación

El exceso de coincidencia, o sesgo posterior al tratamiento, es la coincidencia de un mediador aparente que en realidad es el resultado de la exposición. ^[12] Si el mediador en sí está estratificado, es muy probable que se induzca una relación oscurecida de la exposición a la enfermedad. ^[13] Por lo tanto, el exceso de coincidencia causa sesgo estadístico . ^[13]

Por ejemplo, emparejar el grupo de control por duración de la gestación y/o número de nacimientos múltiples al estimar la mortalidad perinatal y el peso al nacer después de la fertilización in vitro (FIV) es una coincidencia excesiva, ya que la FIV en sí misma aumenta el riesgo de parto prematuro y parto múltiple. ^[14]

Puede considerarse como un sesgo de muestreo al disminuir la validez externa de un estudio, porque los controles se vuelven más similares a los casos con respecto a la exposición que la población general.

Ver también

Coincidencia de puntuación de propensión

Referencias

^ Rubin, Donald B. (1973). "Emparejamiento para eliminar sesgos en estudios observacionales". Biometría . 29 (1): 159–183. doi :10.2307/2529684. JSTOR 2529684.
^ Anderson, Dallas W.; Kish, Leslie; Cornell, Richard G. (1980). "Sobre estratificación, agrupación y emparejamiento". Revista escandinava de estadística . 7 (2): 61–66. JSTOR 4615774.
^ Kupper, Lawrence L.; Karon, John M.; Kleinbaum, David G.; Morgenstern, Hal; Lewis, Donald K. (1981). "Coincidencia en estudios epidemiológicos: consideraciones de validez y eficiencia". Biometría . 37 (2): 271–291. CiteSeerX 10.1.1.154.1197 . doi :10.2307/2530417. JSTOR 2530417. PMID 7272415.
^ ab Rosenbaum, Paul R.; Rubin, Donald B. (1983). "El papel central de la puntuación de propensión en estudios observacionales de efectos causales". Biometrika . 70 (1): 41–55. doi : 10.1093/biomet/70.1.41 .
^ Rey, Gary; Nielsen, Richard (octubre de 2019). "Por qué las puntuaciones de propensión no deberían utilizarse para el emparejamiento". Análisis Político . 27 (4): 435–454. doi : 10.1017/pan.2019.11 . hdl : 1721.1/128459 . ISSN 1047-1987.
^ Yaco, Stefano M.; Rey, Gary; Porro, Giuseppe (2011). "Métodos de coincidencia multivariante que limitan el desequilibrio monótono". Revista de la Asociación Estadounidense de Estadística . 106 (493): 345–361. doi : 10.1198/jasa.2011.tm09599. hdl : 2434/151476 . ISSN 0162-1459. S2CID 14790456.
^ LaLonde, Robert J. (1986). "Evaluación de las Evaluaciones Econométricas de Programas de Capacitación con Datos Experimentales". Revista económica estadounidense . 76 (4): 604–620. JSTOR 1806062.
^ Dehejia, RH; Wahba, S. (1999). "Efectos causales en estudios no experimentales: reevaluación de la evaluación de programas de formación" (PDF) . Revista de la Asociación Estadounidense de Estadística . 94 (448): 1053–1062. doi :10.1080/01621459.1999.10473858.
^ Arceneaux, Kevin; Gerber, Alan S.; Verde, Donald P. (2006). "Comparación de métodos experimentales y de emparejamiento mediante un experimento de campo a gran escala sobre la movilización de votantes". Análisis Político . 14 (1): 37–62. doi :10.1093/pan/mpj001.
^ Arceneaux, Kevin; Gerber, Alan S.; Verde, Donald P. (2010). "Una nota de advertencia sobre el uso del emparejamiento para estimar los efectos causales: un ejemplo empírico que compara las estimaciones coincidentes con un punto de referencia experimental". Investigación y métodos sociológicos . 39 (2): 256–282. doi :10.1177/0049124110378098. S2CID 37012563.
^ Ho, Daniel E.; Imai, Kosuke; Rey, Gary; Estuardo, Elizabeth A. (2007). "Coincidencia como preprocesamiento no paramétrico para reducir la dependencia del modelo en la inferencia causal paramétrica". Análisis Político . 15 (3): 199–236. doi : 10.1093/pan/mpl013 .
^ Rey, Gary; Zeng, Langche (2007). "Detección de la dependencia del modelo en la inferencia estadística: una respuesta". Estudios Internacionales Trimestrales . 51 (1): 231–241. doi :10.1111/j.1468-2478.2007.00449.x. ISSN 0020-8833. JSTOR 4621711. S2CID 12669035.
^ ab Marsh, JL; Hutton, JL ; Binks, K. (2002). "Eliminación de los efectos de la respuesta a la dosis de radiación: un ejemplo de coincidencia excesiva". Revista médica británica . 325 (7359): 327–330. doi :10.1136/bmj.325.7359.327. PMC 1123834 . PMID 12169512.
^ Gissler, M.; Hemminki, E. (1996). "El peligro de un exceso de coincidencia en los estudios de mortalidad perinatal y peso al nacer de los lactantes nacidos después de la concepción asistida". Eur J Obstet Gynecol Reprod Biol . 69 (2): 73–75. doi :10.1016/0301-2115(95)02517-0. PMID 8902436.

Otras lecturas

Angrist, Joshua D.; Pischke, Jörn-Steffen (2009). "La regresión se encuentra con la coincidencia". Econometría mayoritariamente inofensiva: la compañera de un empirista . Prensa de la Universidad de Princeton. págs. 69–80. ISBN 978-0-691-12034-8.