stringtranslate.com

La paradoja de Simpson

La paradoja de Simpson para los datos cuantitativos: una tendencia positiva ( , ) aparece para dos grupos separados, mientras que una tendencia negativa ( ) aparece cuando se combinan los grupos.
La visualización de la paradoja de Simpson sobre datos que se asemejan a la variabilidad del mundo real indica que el riesgo de juzgar erróneamente la verdadera relación causal puede ser difícil de detectar.

La paradoja de Simpson es un fenómeno de probabilidad y estadística en el que aparece una tendencia en varios grupos de datos pero desaparece o se revierte cuando los grupos se combinan. Este resultado se encuentra a menudo en las estadísticas de las ciencias sociales y médicas, [1] [2] [3] y es particularmente problemático cuando los datos de frecuencia reciben interpretaciones causales indebidas . [4] La paradoja puede resolverse cuando las variables de confusión y las relaciones causales se abordan adecuadamente en el modelado estadístico [4] [5] (por ejemplo, mediante análisis de conglomerados [6] ).

La paradoja de Simpson se ha utilizado para ilustrar el tipo de resultados engañosos que puede generar el mal uso de las estadísticas . [7] [8]

Edward H. Simpson describió por primera vez este fenómeno en un artículo técnico en 1951, [9] pero los estadísticos Karl Pearson (en 1899 [10] ) y Udny Yule (en 1903 [11] ) habían mencionado efectos similares antes. El nombre de paradoja de Simpson fue introducido por Colin R. Blyth en 1972. [12] También se la conoce como inversión de Simpson , efecto Yule-Simpson , paradoja de la amalgama o paradoja de la inversión . [13]

El matemático Jordan Ellenberg sostiene que la paradoja de Simpson se denomina erróneamente porque "no hay ninguna contradicción involucrada, sólo dos maneras diferentes de pensar acerca de los mismos datos" y sugiere que su lección "no es realmente decirnos qué punto de vista adoptar sino insistir en que mantengamos tanto las partes como el todo en mente a la vez." [14]

Ejemplos

Sesgo de género en UC Berkeley

Uno de los ejemplos más conocidos de la paradoja de Simpson proviene de un estudio sobre el sesgo de género entre las admisiones a las escuelas de posgrado de la Universidad de California, Berkeley . Las cifras de admisión para el otoño de 1973 mostraron que los hombres que solicitaban tenían más probabilidades de ser admitidos que las mujeres, y la diferencia era tan grande que era poco probable que se debiera al azar. [15] [16]

Sin embargo, al tener en cuenta la información sobre los departamentos a los que se postula, los diferentes porcentajes de rechazo revelan la diferente dificultad para ingresar al departamento y, al mismo tiempo, mostró que las mujeres tendían a postularse a departamentos más competitivos con tasas de admisión más bajas. incluso entre solicitantes calificados (como en el departamento de inglés), mientras que los hombres tendían a postularse a departamentos menos competitivos con tasas de admisión más altas (como en el departamento de ingeniería). Los datos agrupados y corregidos mostraron un "sesgo pequeño pero estadísticamente significativo a favor de las mujeres". [dieciséis]

Los datos de los seis departamentos más grandes se enumeran a continuación:

Los datos completos mostraron que un total de 4 de 85 departamentos tenían un sesgo significativo en contra de las mujeres, mientras que 6 tenían un sesgo significativo en contra de los hombres (no todos presentes en la tabla de los "seis departamentos más grandes" anterior). En particular, el número de departamentos sesgados no fue la base para la conclusión, sino más bien las admisiones por género agrupadas en todos los departamentos, teniendo en cuenta la tasa de rechazo de cada departamento entre todos sus solicitantes. [dieciséis]

Tratamiento de cálculos renales

Otro ejemplo proviene de un estudio médico de la vida real [17] que compara las tasas de éxito de dos tratamientos para los cálculos renales . [18] La siguiente tabla muestra las tasas de éxito (el término tasa de éxito aquí en realidad significa la proporción de éxito) y el número de tratamientos para tratamientos que involucran cálculos renales tanto pequeños como grandes, donde el Tratamiento A incluye procedimientos quirúrgicos abiertos y el Tratamiento B incluye procedimientos quirúrgicos cerrados. . Los números entre paréntesis indican el número de casos de éxito sobre el tamaño total del grupo.

La conclusión paradójica es que el tratamiento A es más eficaz cuando se utiliza en cálculos pequeños, y también cuando se utiliza en cálculos grandes, sin embargo, el tratamiento B parece ser más eficaz cuando se consideran ambos tamaños al mismo tiempo. En este ejemplo, la variable "al acecho" (o variable de confusión ) que causa la paradoja es el tamaño de las piedras, que los investigadores no sabían previamente que fuera importante hasta que se incluyeron sus efectos.

Qué tratamiento se considera mejor está determinado por qué índice de éxito (éxitos/total) es mayor. La inversión de la desigualdad entre las dos razones al considerar los datos combinados, lo que crea la paradoja de Simpson, ocurre porque dos efectos ocurren juntos:

  1. Los tamaños de los grupos, que se combinan cuando se ignora la variable al acecho, son muy diferentes. Los médicos tienden a dar a los casos con cálculos grandes el mejor tratamiento A, y a los casos con cálculos pequeños el tratamiento inferior B. Por lo tanto, los totales están dominados por los grupos 3 y 2, y no por los dos grupos mucho más pequeños, 1 y 4.
  2. La variable oculta, el tamaño de la piedra, tiene un gran efecto en las proporciones; es decir, la tasa de éxito está más influenciada por la gravedad del caso que por la elección del tratamiento. Por lo tanto, el grupo de pacientes con cálculos grandes que utilizan el tratamiento A (grupo 3) obtiene peores resultados que el grupo con cálculos pequeños, incluso si este último utilizó el tratamiento inferior B (grupo 2).

Con base en estos efectos, se ve que surge el resultado paradójico porque el efecto del tamaño de los cálculos supera los beneficios del mejor tratamiento (A). En resumen, el tratamiento B, menos eficaz, parecía ser más eficaz porque se aplicaba con mayor frecuencia en los casos de cálculos pequeños, que eran más fáciles de tratar. [18]

Promedios de bateo

Un ejemplo común de la paradoja de Simpson involucra los promedios de bateo de los jugadores de béisbol profesional . Es posible que un jugador tenga un promedio de bateo más alto que otro cada año durante varios años, pero que tenga un promedio de bateo más bajo durante todos esos años. Este fenómeno puede ocurrir cuando hay grandes diferencias en el número de turnos al bate entre los años. El matemático Ken Ross lo demostró utilizando el promedio de bateo de dos jugadores de béisbol, Derek Jeter y David Justice , durante los años 1995 y 1996: [19] [20]

Tanto en 1995 como en 1996, Justice tuvo un promedio de bateo más alto (en negrita) que Jeter. Sin embargo, cuando se combinan las dos temporadas de béisbol, Jeter muestra un promedio de bateo más alto que Justice. Según Ross, este fenómeno se observaría aproximadamente una vez al año entre las posibles parejas de jugadores. [19]

Interpretación de vectores

Interpretación vectorial de la paradoja de Simpson.

La paradoja de Simpson también se puede ilustrar utilizando un espacio vectorial bidimensional . [21] Una tasa de éxito de (es decir, éxitos/intentos ) se puede representar mediante un vector , con una pendiente de . Entonces, un vector más pronunciado representa una mayor tasa de éxito. Si se combinan dos tasas y , como en los ejemplos anteriores, el resultado se puede representar por la suma de los vectores y , que según la regla del paralelogramo es el vector , con pendiente .

La paradoja de Simpson dice que incluso si un vector (en naranja en la figura) tiene una pendiente menor que otro vector (en azul), y tiene una pendiente menor que , la suma de los dos vectores potencialmente puede tener una pendiente mayor que la suma de los dos vectores , como se muestra en el ejemplo. Para que esto ocurra, uno de los vectores naranja debe tener una pendiente mayor que uno de los vectores azules (aquí y ), y estos generalmente serán más largos que los vectores con subíndices alternativos, dominando así la comparación general.

Correlación entre variables

La inversión de Simpson también puede surgir en correlaciones , en las que dos variables parecen tener (digamos) una correlación positiva entre sí, cuando en realidad tienen una correlación negativa, habiendo sido provocada la inversión por un factor de confusión "al acecho". Berman et al. [22] dan un ejemplo de la economía, donde un conjunto de datos sugiere que la demanda general está correlacionada positivamente con el precio (es decir, los precios más altos conducen a una mayor demanda), en contradicción con las expectativas. El análisis revela que el tiempo es la variable de confusión: graficar tanto el precio como la demanda en función del tiempo revela la correlación negativa esperada a lo largo de varios períodos, que luego se invierte y se vuelve positiva si se ignora la influencia del tiempo al simplemente graficar la demanda en función del precio.

Psicología

El interés psicológico por la paradoja de Simpson busca explicar por qué la gente al principio considera imposible la inversión de signos, ofendida por la idea de que una acción preferida bajo una condición y bajo su negación deba rechazarse cuando se desconoce la condición. La pregunta es de dónde obtiene la gente esta fuerte intuición y cómo se codifica en la mente .

La paradoja de Simpson demuestra que esta intuición no puede derivarse ni de la lógica clásica ni del cálculo de probabilidades únicamente y, por lo tanto, llevó a los filósofos a especular que está respaldada por una lógica causal innata que guía a las personas en el razonamiento sobre las acciones y sus consecuencias. [4] El principio de certeza de Savage [12] es un ejemplo de lo que dicha lógica puede implicar. De hecho, se puede derivar una versión calificada del principio de cosa segura de Savage a partir del cálculo de Pearl [4] y dice: "Una acción A que aumenta la probabilidad de un evento B en cada subpoblación Ci de C también debe aumentar la probabilidad de B en la población en su conjunto, siempre que la acción no cambie la distribución de las subpoblaciones." Esto sugiere que el conocimiento sobre acciones y consecuencias se almacena en una forma que se asemeja a las redes causales bayesianas .

Probabilidad

Un artículo de Pavlides y Perlman presenta una prueba, debida a Hadjicostas, de que en una tabla aleatoria de 2 × 2 × 2 con distribución uniforme, la paradoja de Simpson ocurrirá con una probabilidad de exactamente 160 . [23] Un estudio de Kock sugiere que la probabilidad de que la paradoja de Simpson ocurra al azar en modelos de ruta (es decir, modelos generados por análisis de ruta ) con dos predictores y una variable criterio es aproximadamente del 12,8 por ciento; ligeramente superior a 1 ocurrencia por 8 modelos de ruta. [24]

La segunda paradoja de Simpson

En el artículo de Simpson de 1951 también se analizó una segunda paradoja, menos conocida. Puede ocurrir cuando la "interpretación sensata" no se encuentra necesariamente en los datos separados, como en el ejemplo de los cálculos renales, sino que puede residir en los datos combinados. El uso de la forma dividida o combinada de los datos depende del proceso que da origen a los datos, lo que significa que la interpretación correcta de los datos no siempre se puede determinar simplemente observando las tablas. [25]

Judea Pearl ha demostrado que, para que los datos particionados representen las relaciones causales correctas entre dos variables cualesquiera, y , las variables de partición deben satisfacer una condición gráfica llamada "criterio de puerta trasera": [26] [27]

  1. Deben bloquear todos los caminos espurios entre y
  2. Ninguna variable puede verse afectada por

Este criterio proporciona una solución algorítmica a la segunda paradoja de Simpson y explica por qué la interpretación correcta no puede determinarse únicamente con datos; dos gráficos diferentes, ambos compatibles con los datos, pueden dictar dos criterios de puerta trasera diferentes.

Cuando el criterio de la puerta trasera se satisface con un conjunto Z de covariables, la fórmula de ajuste (ver Confusión ) da el efecto causal correcto de X sobre Y. Si no existe tal conjunto, se puede invocar el cálculo do de Pearl para descubrir otras formas de estimar el efecto causal. [4] [28] Se puede considerar que la integridad del do -cálculo [29] [28] ofrece una resolución completa de la paradoja de Simpson.

Crítica

Una crítica es que la paradoja no es realmente una paradoja en absoluto, sino más bien una falta de explicación adecuada de las variables de confusión o de consideración de las relaciones causales entre variables. [30]

Otra crítica a la aparente paradoja de Simpson es que puede ser el resultado de la forma específica en que se estratifican o agrupan los datos. El fenómeno puede desaparecer o incluso revertirse si los datos se estratifican de manera diferente o si se consideran diferentes variables de confusión. En realidad, el ejemplo de Simpson destacó un fenómeno llamado no colapsabilidad, [31] que ocurre cuando subgrupos con proporciones altas no obtienen promedios simples cuando se combinan. Esto sugiere que la paradoja puede no ser un fenómeno universal, sino más bien un ejemplo específico de una cuestión estadística más general.

Los críticos de la aparente paradoja de Simpson también argumentan que centrarse en la paradoja puede distraer la atención de cuestiones estadísticas más importantes, como la necesidad de una consideración cuidadosa de las variables de confusión y las relaciones causales al interpretar los datos. [32]

A pesar de estas críticas, la aparente paradoja de Simpson sigue siendo un tema popular e intrigante en las estadísticas y el análisis de datos. Continúa siendo estudiado y debatido por investigadores y profesionales en una amplia gama de campos, y sirve como un valioso recordatorio de la importancia de un análisis estadístico cuidadoso y los posibles peligros de las interpretaciones simplistas de los datos.

Ver también

Referencias

  1. ^ Clifford H. Wagner (febrero de 1982). "La paradoja de Simpson en la vida real". El estadístico estadounidense . 36 (1): 46–48. doi :10.2307/2684093. JSTOR  2684093.
  2. ^ Holt, GB (2016). Potencial paradoja de Simpson en un estudio multicéntrico de quimioterapia intraperitoneal para el cáncer de ovario. Revista de Oncología Clínica, 34(9), 1016–1016.
  3. ^ Francos, Alejandro; Airoldi, Edoardo ; Slavov, Nikolai (2017). "Regulación postranscripcional en tejidos humanos". PLOS Biología Computacional . 13 (5): e1005535. arXiv : 1506.00219 . Código Bib : 2017PLSCB..13E5535F. doi : 10.1371/journal.pcbi.1005535 . ISSN  1553-7358. PMC 5440056 . PMID  28481885. 
  4. ^ abcde Perla de Judea . Causalidad: modelos, razonamiento e inferencia , Cambridge University Press (2000, segunda edición, 2009). ISBN 0-521-77362-8
  5. ^ Kock, N. y Gaskins, L. (2016). La paradoja de Simpson, la moderación y el surgimiento de relaciones cuadráticas en modelos de trayectoria: una ilustración de sistemas de información. Revista internacional de ciencias no lineales aplicadas, 2(3), 200–234.
  6. ^ Rogier A. Kievit, Willem E. Frankenhuis, Lourens J. Waldorp y Denny Borsboom, La paradoja de Simpson en la ciencia psicológica: una guía práctica https://doi.org/10.3389/fpsyg.2013.00513
  7. ^ Robert L. Wardrop (febrero de 1995). "La paradoja de Simpson y la mano caliente en el baloncesto". The American Statistician , 49 (1) : págs.
  8. ^ Alan Agresti (2002). "Análisis de datos categóricos" (Segunda edición). John Wiley e hijos ISBN 0-471-36093-7 
  9. ^ Simpson, Edward H. (1951). "La interpretación de la interacción en tablas de contingencia". Revista de la Royal Statistical Society, Serie B. 13 : 238–241.
  10. ^ Pearson, Karl ; Lee, Alicia; Bramley-Moore, Lesley (1899). "Selección genética (reproductiva): herencia de la fertilidad en el hombre y de la fecundidad en los caballos de carreras de pura sangre". Transacciones filosóficas de la Royal Society A. 192 : 257–330. doi : 10.1098/rsta.1899.0006 .
  11. ^ GU Yule (1903). "Notas sobre la teoría de la asociación de atributos en estadística". Biometrika . 2 (2): 121-134. doi :10.1093/biomet/2.2.121.
  12. ^ ab Colin R. Blyth (junio de 1972). "Sobre la paradoja de Simpson y el principio de seguridad". Revista de la Asociación Estadounidense de Estadística . 67 (338): 364–366. doi :10.2307/2284382. JSTOR  2284382.
  13. ^ IJ Good , Y. Mittal (junio de 1987). "La fusión y geometría de tablas de contingencia de dos por dos". Los anales de la estadística . 15 (2): 694–711. doi : 10.1214/aos/1176350369 . ISSN  0090-5364. JSTOR  2241334.
  14. ^ Ellenberg, Jordania (25 de mayo de 2021). Forma: la geometría oculta de la información, la biología, la estrategia, la democracia y todo lo demás. Nueva York: Penguin Press . pag. 228.ISBN _ 978-1-9848-7905-9. OCLC  1226171979.
  15. ^ David Freedman , Robert Pisani y Roger Purves (2007), Estadísticas (cuarta edición), WW Norton . ISBN 0-393-92972-8
  16. ^ a b C PJ Bickel , EA Hammel y JW O'Connell (1975). "Sesgo sexual en las admisiones de posgrado: datos de Berkeley" (PDF) . Ciencia . 187 (4175): 398–404. Código Bib : 1975 Ciencia... 187.. 398B. doi : 10.1126/ciencia.187.4175.398. PMID  17835295. S2CID  15278703. Archivado (PDF) desde el original el 4 de junio de 2016.
  17. ^ CR Charig; DR Webb; SR Payne; JE Wickham (29 de marzo de 1986). "Comparación del tratamiento de los cálculos renales mediante cirugía abierta, nefrolitotomía percutánea y litotricia extracorpórea por ondas de choque". Hno. Med J (Clin Res Ed) . 292 (6524): 879–882. doi :10.1136/bmj.292.6524.879. PMC 1339981 . PMID  3083922. 
  18. ^ ab Steven A. Julious; Mark A. Mullee (3 de diciembre de 1994). "La confusión y la paradoja de Simpson". BMJ . 309 (6967): 1480–1481. doi :10.1136/bmj.309.6967.1480. PMC 2541623 . PMID  7804052. 
  19. ^ ab Ken Ross. " Un matemático en el estadio: probabilidades para los fanáticos del béisbol (rústica) " Pi Press, 2004. ISBN 0-13-147990-3 . 12-13 
  20. ^ Estadísticas disponibles en Baseball-Reference.com : datos de Derek Jeter; Datos de David Justice.
  21. ^ Kocik Jerzy (2001). "Pruebas sin palabras: la paradoja de Simpson" (PDF) . Revista Matemáticas . 74 (5): 399. doi : 10.2307/2691038. JSTOR  2691038. Archivado (PDF) desde el original el 12 de junio de 2010.
  22. ^ Berman, S. DalleMule, L. Greene, M., Lucker, J. (2012), "La paradoja de Simpson: un cuento de advertencia sobre análisis avanzado Archivado el 10 de mayo de 2020 en Wayback Machine ", Importancia .
  23. ^ Marios G. Pavlides y Michael D. Perlman (agosto de 2009). "¿Qué tan probable es la paradoja de Simpson?". El estadístico estadounidense . 63 (3): 226–233. doi :10.1198/tast.2009.09007. S2CID  17481510.
  24. ^ Kock, N. (2015). ¿Qué probabilidad hay de que se produzca la paradoja de Simpson en los modelos de trayectoria? Revista internacional de colaboración electrónica, 11(1), 1–7.
  25. ^ Norton, H. James; Divino, George (agosto de 2015). "La paradoja de Simpson... y cómo evitarla". Significado . 12 (4): 40–43. doi : 10.1111/j.1740-9713.2015.00844.x .
  26. ^ Perla, Judea (2014). "Comprensión de la paradoja de Simpson". El estadístico estadounidense . 68 (1): 8–13. doi :10.2139/ssrn.2343788. S2CID  2626833.
  27. ^ Perla, Judea (1993). "Modelos gráficos, causalidad e intervención". Ciencia estadística . 8 (3): 266–269. doi : 10.1214/ss/1177010894 .
  28. ^ ab Perla, J.; Mackenzie, D. (2018). El libro del por qué: la nueva ciencia de causa y efecto . Nueva York, NY: Libros básicos.
  29. ^ Shpitser, yo; Perla, J. (2006). Dechter, R.; Richardson, TS (eds.). "Identificación de Distribuciones Intervencionistas Condicionales". Actas de la XXII Conferencia sobre la incertidumbre en la inteligencia artificial . Corvallis, Oregón: AUAI Press: 437–444.
  30. ^ Blyth, Colin R. (junio de 1972). "Sobre la paradoja de Simpson y el principio de seguridad". Revista de la Asociación Estadounidense de Estadística . 67 (338): 364–366. doi :10.1080/01621459.1972.10482387. ISSN  0162-1459.
  31. ^ Groenlandia, Sander (1 de noviembre de 2021). "No colapsabilidad, confusión y sesgo de datos dispersos. Parte 2: ¿Qué deberían hacer los investigadores con las controversias persistentes sobre el odds ratio?". Revista de epidemiología clínica . 139 : 264–268. doi : 10.1016/j.jclinepi.2021.06.004 . ISSN  0895-4356. PMID  34119647.
  32. ^ Hernán, Miguel A.; Clayton, David; Keiding, Niels (junio de 2011). "La paradoja de Los Simpson resuelta". Revista Internacional de Epidemiología . 40 (3): 780–785. doi :10.1093/ije/dyr041. ISSN  1464-3685. PMC 3147074 . PMID  21454324. 

Bibliografía

enlaces externos