La paradoja de Simpson

La paradoja de Simpson es un fenómeno en probabilidad y estadística en el que una tendencia aparece en varios grupos de datos pero desaparece o se revierte cuando se combinan los grupos. Este resultado se encuentra a menudo en las estadísticas de las ciencias sociales y médicas, ^[1]^[2]^[3] y es particularmente problemático cuando los datos de frecuencia reciben interpretaciones causales indebidas. ^[4] La paradoja se puede resolver cuando las variables de confusión y las relaciones causales se abordan adecuadamente en el modelo estadístico ^[4]^[5] (por ejemplo, mediante el análisis de conglomerados ^[6] ).

La paradoja de Simpson se ha utilizado para ilustrar el tipo de resultados engañosos que puede generar el mal uso de las estadísticas . ^[7]^[8]

Edward H. Simpson describió por primera vez este fenómeno en un artículo técnico en 1951, ^[9] pero los estadísticos Karl Pearson (en 1899 ^[10] ) y Udny Yule (en 1903 ^[11] ) habían mencionado efectos similares antes. El nombre de paradoja de Simpson fue introducido por Colin R. Blyth en 1972. ^[12] También se le conoce como inversión de Simpson , efecto Yule-Simpson , paradoja de la amalgamación o paradoja de la inversión . ^[13]

El matemático Jordan Ellenberg sostiene que la paradoja de Simpson recibe un nombre erróneo, ya que "no hay ninguna contradicción involucrada, sólo dos maneras diferentes de pensar sobre los mismos datos" y sugiere que su lección "no es realmente decirnos qué punto de vista tomar, sino insistir en que tengamos en mente tanto las partes como el todo a la vez". ^[14]

Ejemplos

Sesgo de género en la Universidad de California en Berkeley

Uno de los ejemplos más conocidos de la paradoja de Simpson proviene de un estudio sobre el sesgo de género en las admisiones a la Universidad de California, Berkeley . Las cifras de admisión para el otoño de 1973 mostraron que los hombres que solicitaban ingreso tenían más probabilidades de ser admitidos que las mujeres, y la diferencia era tan grande que era poco probable que se debiera al azar. ^[15]^[16]

Sin embargo, al tener en cuenta la información sobre los departamentos a los que se aplica, los diferentes porcentajes de rechazo revelan la diferente dificultad de entrar en el departamento, y al mismo tiempo mostró que las mujeres tendían a postularse a departamentos más competitivos con tasas de admisión más bajas, incluso entre los solicitantes calificados (como en el departamento de inglés), mientras que los hombres tendían a postularse a departamentos menos competitivos con tasas de admisión más altas (como en el departamento de ingeniería). Los datos agrupados y corregidos mostraron un "sesgo pequeño pero estadísticamente significativo a favor de las mujeres". ^[16]

A continuación se enumeran los datos de los seis departamentos más grandes:

Los datos completos mostraron que 4 de los 85 departamentos tenían un sesgo significativo contra las mujeres, mientras que 6 tenían un sesgo significativo contra los hombres (no todos están presentes en la tabla de los "seis departamentos más grandes" que aparece más arriba). Cabe destacar que la conclusión no se basó en la cantidad de departamentos con sesgo, sino en las admisiones por género agrupadas en todos los departamentos, ponderadas por la tasa de rechazo de cada departamento entre todos sus solicitantes. ^[16]

Tratamiento de cálculos renales

Otro ejemplo proviene de un estudio médico de la vida real ^[17] que compara las tasas de éxito de dos tratamientos para los cálculos renales . ^[18] La siguiente tabla muestra las tasas de éxito (el término tasa de éxito aquí en realidad significa la proporción de éxito) y las cantidades de tratamientos para los tratamientos que involucran cálculos renales pequeños y grandes, donde el Tratamiento A incluye procedimientos quirúrgicos abiertos y el Tratamiento B incluye procedimientos quirúrgicos cerrados. Los números entre paréntesis indican la cantidad de casos de éxito sobre el tamaño total del grupo.

La conclusión paradójica es que el tratamiento A es más eficaz cuando se utiliza en cálculos pequeños y también cuando se utiliza en cálculos grandes, pero el tratamiento B parece ser más eficaz cuando se consideran ambos tamaños al mismo tiempo. En este ejemplo, la variable "latente" (o variable de confusión ) que causa la paradoja es el tamaño de los cálculos, que los investigadores no sabían que fuera importante hasta que se incluyeron sus efectos. ^{[ cita requerida ]}

El tratamiento que se considera mejor se determina en función de qué proporción de éxito (éxitos/total) es mayor. La inversión de la desigualdad entre las dos proporciones al considerar los datos combinados, lo que crea la paradoja de Simpson, ocurre porque dos efectos ocurren juntos: ^{[ cita requerida ]}

Los tamaños de los grupos, que se combinan cuando se ignora la variable latente, son muy diferentes. Los médicos tienden a dar a los casos con cálculos grandes el mejor tratamiento A, y a los casos con cálculos pequeños el peor tratamiento B. Por lo tanto, los totales están dominados por los grupos 3 y 2, y no por los dos grupos mucho más pequeños 1 y 4.
La variable latente, el tamaño de los cálculos, tiene un gran efecto en los ratios; es decir, la tasa de éxito está más fuertemente influenciada por la gravedad del caso que por la elección del tratamiento. Por lo tanto, el grupo de pacientes con cálculos grandes que utiliza el tratamiento A (grupo 3) tiene peores resultados que el grupo con cálculos pequeños, incluso si este último utiliza el tratamiento B (grupo 2).

En base a estos efectos, se observa que el resultado paradójico surge porque el efecto del tamaño de los cálculos supera los beneficios del mejor tratamiento (A). En resumen, el tratamiento B, menos efectivo, parece ser más efectivo porque se aplicó con mayor frecuencia en los casos de cálculos pequeños, que eran más fáciles de tratar. ^[18]

Jaynes sostiene que la conclusión correcta es que, aunque el tratamiento A sigue siendo notablemente mejor que el tratamiento B, el tamaño del cálculo renal es más importante. ^[19]

Promedios de bateo

Un ejemplo común de la paradoja de Simpson involucra los promedios de bateo de los jugadores de béisbol profesional . Es posible que un jugador tenga un promedio de bateo más alto que otro jugador cada año durante varios años, pero que tenga un promedio de bateo más bajo en todos esos años. Este fenómeno puede ocurrir cuando hay grandes diferencias en el número de turnos al bate entre los años. El matemático Ken Ross demostró esto utilizando el promedio de bateo de dos jugadores de béisbol, Derek Jeter y David Justice , durante los años 1995 y 1996: ^[20]^[21]

Tanto en 1995 como en 1996, Justice tuvo un promedio de bateo más alto (en negrita) que Jeter. Sin embargo, cuando se combinan las dos temporadas de béisbol, Jeter muestra un promedio de bateo más alto que Justice. Según Ross, este fenómeno se observaría aproximadamente una vez al año entre las posibles parejas de jugadores. ^[20]

Interpretación vectorial

La paradoja de Simpson también se puede ilustrar utilizando un espacio vectorial bidimensional . ^[22] Una tasa de éxito de (es decir, éxitos/intentos ) se puede representar mediante un vector , con una pendiente de . Un vector más inclinado representa entonces una mayor tasa de éxito. Si se combinan dos tasas y , como en los ejemplos dados anteriormente, el resultado se puede representar mediante la suma de los vectores y , que según la regla del paralelogramo es el vector , con pendiente . ${\textstyle {\frac {p}{q}}}$ ${\vec {A}}=(q,p)$ ${\textstyle {\frac {p}{q}}}$ ${\textstyle {\frac {p_{1}}{q_{1}}}}$ ${\textstyle {\frac {p_{2}}{q_{2}}}}$ $(q_{1},p_{1})$ $(q_{2},p_{2})$ $(q_{1}+q_{2},p_{1}+p_{2})$ ${\textstyle {\frac {p_{1}+p_{2}}{q_{1}+q_{2}}}}$

La paradoja de Simpson dice que incluso si un vector (en naranja en la figura) tiene una pendiente menor que otro vector (en azul), y tiene una pendiente menor que , la suma de los dos vectores potencialmente puede tener una pendiente mayor que la suma de los dos vectores , como se muestra en el ejemplo. Para que esto ocurra, uno de los vectores naranjas debe tener una pendiente mayor que uno de los vectores azules (aquí y ), y estos generalmente serán más largos que los vectores con subíndice alternativo, dominando así la comparación general. ${\vec {L}}_{1}$ ${\vec {B}}_{1}$ $Estilo de visualización: L_{2}$ ${\vec {B}}_{2}$ ${\vec {L}}_{1}+{\vec {L}}_{2}$ ${\vec {B}}_{1}+{\vec {B}}_{2}$ $Estilo de visualización: L_{2}$ ${\vec {B}}_{1}$

Correlación entre variables

La inversión de Simpson también puede surgir en correlaciones , en las que dos variables parecen tener (por ejemplo) una correlación positiva entre sí, cuando en realidad tienen una correlación negativa, y la inversión ha sido provocada por un factor de confusión "acecho". Berman et al. ^[23] dan un ejemplo de economía, donde un conjunto de datos sugiere que la demanda general está correlacionada positivamente con el precio (es decir, precios más altos conducen a una mayor demanda), en contradicción con las expectativas. El análisis revela que el tiempo es la variable de confusión: al representar gráficamente tanto el precio como la demanda en función del tiempo, se revela la correlación negativa esperada durante varios períodos, que luego se invierte para volverse positiva si se ignora la influencia del tiempo simplemente representando gráficamente la demanda en función del precio.

Psicología

El interés psicológico en la paradoja de Simpson busca explicar por qué las personas ^{[¿ quiénes? ]} consideran que la inversión de signos es imposible al principio. ^{[ aclaración necesaria ]} La pregunta es de dónde obtienen las personas esta fuerte intuición y cómo se codifica en la mente .

La paradoja de Simpson demuestra que esta intuición no puede derivarse ni de la lógica clásica ni del cálculo de probabilidad por sí sola, y por ello llevó a los filósofos a especular que está respaldada por una lógica causal innata que guía a las personas en el razonamiento sobre las acciones y sus consecuencias. ^[4]El principio de la cosa segura de Savage ^[12] es un ejemplo de lo que puede implicar dicha lógica. Una versión calificada del principio de la cosa segura de Savage puede derivarse de hecho del cálculo do de Pearl ^[4] y dice: "Una acción A que aumenta la probabilidad de un evento B en cada subpoblación C _i de C también debe aumentar la probabilidad de B en la población en su conjunto, siempre que la acción no cambie la distribución de las subpoblaciones". Esto sugiere que el conocimiento sobre las acciones y las consecuencias se almacena en una forma similar a las redes bayesianas causales .

Probabilidad

Un artículo de Pavlides y Perlman presenta una prueba, debida a Hadjicostas, de que en una tabla aleatoria de 2 × 2 × 2 con distribución uniforme, la paradoja de Simpson ocurrirá con una probabilidad de exactamente 1 ⁄ 60 . ^[24] Un estudio de Kock sugiere que la probabilidad de que la paradoja de Simpson ocurra al azar en modelos de ruta (es decir, modelos generados por análisis de ruta ) con dos predictores y una variable de criterio es aproximadamente del 12,8 por ciento; ligeramente superior a 1 ocurrencia por cada 8 modelos de ruta. ^[25]

La segunda paradoja de Simpson

En el artículo de Simpson de 1951 también se analiza una segunda paradoja, menos conocida. Puede darse cuando la "interpretación sensata" no se encuentra necesariamente en los datos separados, como en el ejemplo de los cálculos renales, sino que puede residir en los datos combinados. La decisión de utilizar la forma dividida o combinada de los datos depende del proceso que dé origen a los datos, lo que significa que la interpretación correcta de los datos no siempre se puede determinar simplemente observando las tablas. ^[26]

Judea Pearl ha demostrado que, para que los datos particionados representen las relaciones causales correctas entre dos variables cualesquiera, y , las variables de partición deben satisfacer una condición gráfica llamada "criterio de puerta trasera": ^[27]^[28] ${\estilo de visualización X}$ ${\estilo de visualización Y}$

Deben bloquear todos los caminos espurios entre y ${\estilo de visualización X}$ ${\estilo de visualización Y}$
Ninguna variable puede verse afectada por ${\estilo de visualización X}$

Este criterio proporciona una solución algorítmica a la segunda paradoja de Simpson y explica por qué la interpretación correcta no puede determinarse únicamente con los datos; dos gráficos diferentes, ambos compatibles con los datos, pueden dictar dos criterios de puerta trasera diferentes.

Cuando el criterio de puerta trasera se satisface con un conjunto Z de covariables, la fórmula de ajuste (ver Confusión ) proporciona el efecto causal correcto de X sobre Y. Si no existe dicho conjunto, se puede invocar el cálculo do de Pearl para descubrir otras formas de estimar el efecto causal. ^[4]^[29] La completitud del cálculo do ^[30]^[29] puede considerarse como una solución completa de la paradoja de Simpson.

Crítica

Una crítica es que la paradoja no es realmente una paradoja en absoluto, sino más bien un fracaso a la hora de tener en cuenta adecuadamente las variables de confusión o de considerar las relaciones causales entre las variables. ^[31]

Otra crítica a la aparente paradoja de Simpson es que puede ser resultado de la forma específica en que se estratifican o agrupan los datos. El fenómeno puede desaparecer o incluso revertirse si los datos se estratifican de manera diferente o si se consideran diferentes variables de confusión. El ejemplo de Simpson en realidad destacó un fenómeno llamado no colapsabilidad, ^[32] que ocurre cuando los subgrupos con proporciones altas no forman promedios simples cuando se combinan. Esto sugiere que la paradoja puede no ser un fenómeno universal, sino más bien un caso específico de un problema estadístico más general.

Los críticos de la aparente paradoja de Simpson también argumentan que el enfoque en la paradoja puede distraer de cuestiones estadísticas más importantes, como la necesidad de una consideración cuidadosa de las variables de confusión y las relaciones causales al interpretar los datos. ^[33]

A pesar de estas críticas, la aparente paradoja de Simpson sigue siendo un tema popular e intrigante en el campo de la estadística y el análisis de datos. Continúa siendo estudiada y debatida por investigadores y profesionales de una amplia gama de campos, y sirve como un valioso recordatorio de la importancia de un análisis estadístico cuidadoso y de los posibles peligros de las interpretaciones simplistas de los datos.

Véase también

Aliasing : efecto de procesamiento de señales
Cuarteto de Anscombe : cuatro conjuntos de datos con las mismas estadísticas descriptivas, pero con distribuciones muy diferentes
Paradoja de Berkson : tendencia a malinterpretar experimentos estadísticos que involucran probabilidades condicionales
Selección selectiva : falacia de la evidencia incompleta
Paradoja de Condorcet : la autocontradicción de la regla de la mayoría
Falacia ecológica : Falacia lógica que ocurre cuando las características del grupo se aplican a los individuos.
Gerrymandering – Forma de manipulación política
Paradoja del bajo peso al nacer : peculiaridad estadística del peso al nacer de los bebés
Problema de unidad de área modificable : fuente de sesgo estadístico
Falacia del fiscal : Error de pensamiento que implica subvalorar la información sobre la tasa base
El fenómeno de Will Rogers – Fenómeno estadístico y paradoja
Correlación espuria
Sesgo por variable omitida

Referencias

^ Clifford H. Wagner (febrero de 1982). "La paradoja de Simpson en la vida real". The American Statistician . 36 (1): 46–48. doi :10.2307/2684093. JSTOR 2684093.
^ Holt, GB (2016). Posible paradoja de Simpson en un estudio multicéntrico de quimioterapia intraperitoneal para el cáncer de ovario. Journal of Clinical Oncology, 34(9), 1016–1016.
^ Franks, Alexander; Airoldi, Edoardo ; Slavov, Nikolai (2017). "Regulación postranscripcional en tejidos humanos". PLOS Computational Biology . 13 (5): e1005535. arXiv : 1506.00219 . Código Bibliográfico :2017PLSCB..13E5535F. doi : 10.1371/journal.pcbi.1005535 . ISSN: 1553-7358. PMC: 5440056. PMID: 28481885 .
^ abcde Judea Pearl . Causalidad: modelos, razonamiento e inferencia , Cambridge University Press (2000, 2.ª edición, 2009). ISBN 0-521-77362-8 .
^ Kock, N., y Gaskins, L. (2016). Paradoja de Simpson, moderación y la aparición de relaciones cuadráticas en modelos de trayectorias: una ilustración de sistemas de información. Revista internacional de ciencia no lineal aplicada, 2(3), 200–234.
^ Rogier A. Kievit, Willem E. Frankenhuis, Lourens J. Waldorp y Denny Borsboom, La paradoja de Simpson en la ciencia psicológica: una guía práctica https://doi.org/10.3389/fpsyg.2013.00513
^ Robert L. Wardrop (febrero de 1995). "La paradoja de Simpson y la mano caliente en el baloncesto". The American Statistician , 49 (1) : págs. 24-28.
^ Alan Agresti (2002). "Análisis de datos categóricos" (segunda edición). John Wiley and Sons ISBN 0-471-36093-7
^ Simpson, Edward H. (1951). "La interpretación de la interacción en tablas de contingencia". Revista de la Royal Statistical Society, Serie B. 13 ( 2): 238–241. doi :10.1111/j.2517-6161.1951.tb00088.x.
^ Pearson, Karl ; Lee, Alice; Bramley-Moore, Lesley (1899). "Selección genética (reproductiva): herencia de la fertilidad en el hombre y de la fecundidad en los caballos de carrera pura sangre". Philosophical Transactions of the Royal Society A . 192 : 257–330. doi : 10.1098/rsta.1899.0006 .
^ GU Yule (1903). "Notas sobre la teoría de la asociación de atributos en estadística". Biometrika . 2 (2): 121–134. doi :10.1093/biomet/2.2.121.
^ ab Colin R. Blyth (junio de 1972). "Sobre la paradoja de Simpson y el principio de la cosa segura". Revista de la Asociación Estadounidense de Estadística . 67 (338): 364–366. doi :10.2307/2284382. JSTOR 2284382.
^ IJ Good , Y. Mittal (junio de 1987). "La fusión y geometría de tablas de contingencia de dos por dos". Anales de estadística . 15 (2): 694–711. doi : 10.1214/aos/1176350369 . ISSN: 0090-5364. JSTOR: 2241334.
^ Ellenberg, Jordan (25 de mayo de 2021). Forma: La geometría oculta de la información, la biología, la estrategia, la democracia y todo lo demás. Nueva York: Penguin Press . pág. 228. ISBN 978-1-9848-7905-9.OCLC 1226171979 .
^ David Freedman , Robert Pisani y Roger Purves (2007), Estadísticas (4.ª edición), WW Norton . ISBN 0-393-92972-8 .
^ abc PJ Bickel , EA Hammel y JW O'Connell (1975). "Sesgo sexual en las admisiones de posgrado: datos de Berkeley" (PDF) . Science . 187 (4175): 398–404. Bibcode :1975Sci...187..398B. doi :10.1126/science.187.4175.398. PMID 17835295. S2CID 15278703. Archivado (PDF) desde el original el 2016-06-04.
^ CR Charig; DR Webb; SR Payne; JE Wickham (29 de marzo de 1986). "Comparación del tratamiento de cálculos renales mediante cirugía abierta, nefrolitotomía percutánea y litotricia extracorpórea por ondas de choque". Br Med J (Clin Res Ed) . 292 (6524): 879–882. doi :10.1136/bmj.292.6524.879. PMC 1339981. PMID 3083922 .
^ ab Steven A. Julious; Mark A. Mullee (3 de diciembre de 1994). "Confusión y paradoja de Simpson". BMJ . 309 (6967): 1480–1481. doi :10.1136/bmj.309.6967.1480. PMC 2541623 . PMID 7804052.
^ Jaynes, ET; Bretthorst, G. Larry (2003). "8.10 Agrupamiento de datos". Teoría de la probabilidad: la lógica de la ciencia . Cambridge, Reino Unido; Nueva York, NY: Cambridge University Press. ISBN 978-0-521-59271-0.
^ por Ken Ross. " Un matemático en el estadio de béisbol: probabilidades y posibilidades para los fanáticos del béisbol (libro de bolsillo) " Pi Press, 2004. ISBN 0-13-147990-3 . 12–13
^ Estadísticas disponibles en Baseball-Reference.com : Datos de Derek Jeter; Datos de David Justice.
^ Kocik Jerzy (2001). "Pruebas sin palabras: la paradoja de Simpson" (PDF) . Revista de Matemáticas . 74 (5): 399. doi :10.2307/2691038. JSTOR 2691038. Archivado (PDF) desde el original el 12 de junio de 2010.
^ Berman, S. DalleMule, L. Greene, M., Lucker, J. (2012), "La paradoja de Simpson: una historia con moraleja en analítica avanzada Archivado el 10 de mayo de 2020 en Wayback Machine ", Significance .
^ Marios G. Pavlides y Michael D. Perlman (agosto de 2009). "¿Qué probabilidad hay de que se produzca la paradoja de Simpson?". The American Statistician . 63 (3): 226–233. doi :10.1198/tast.2009.09007. S2CID 17481510.
^ Kock, N. (2015). ¿Qué probabilidad hay de que se dé la paradoja de Simpson en los modelos de trayectorias? International Journal of e-Collaboration, 11(1), 1–7.
^ Norton, H. James; Divine, George (agosto de 2015). «La paradoja de Simpson... y cómo evitarla». Significance . 12 (4): 40–43. doi : 10.1111/j.1740-9713.2015.00844.x .
^ Pearl, Judea (2014). "Entendiendo la paradoja de Simpson". The American Statistician . 68 (1): 8–13. doi :10.2139/ssrn.2343788. S2CID 2626833.
^ Pearl, Judea (1993). "Modelos gráficos, causalidad e intervención". Ciencia estadística . 8 (3): 266–269. doi : 10.1214/ss/1177010894 .
^ ab Pearl, J.; Mackenzie, D. (2018). El libro del por qué: la nueva ciencia de causa y efecto . Nueva York, NY: Basic Books.
^ Shpitser, I.; Pearl, J. (2006). Dechter, R.; Richardson, TS (eds.). "Identificación de distribuciones intervencionistas condicionales". Actas de la vigésimo segunda conferencia sobre incertidumbre en inteligencia artificial . Corvallis, OR: AUAI Press: 437–444.
^ Blyth, Colin R. (junio de 1972). "Sobre la paradoja de Simpson y el principio de la cosa segura". Revista de la Asociación Estadounidense de Estadística . 67 (338): 364–366. doi :10.1080/01621459.1972.10482387. ISSN 0162-1459.
^ Greenland, Sander (1 de noviembre de 2021). "No colapsabilidad, factores de confusión y sesgo de datos dispersos. Parte 2: ¿Qué deben hacer los investigadores con las controversias persistentes sobre el odds ratio?". Journal of Clinical Epidemiology . 139 : 264–268. doi : 10.1016/j.jclinepi.2021.06.004 . ISSN 0895-4356. PMID 34119647.
^ Hernán, Miguel A.; Clayton, David; Keiding, Niels (junio de 2011). "La paradoja de Simpson desenredada". Revista Internacional de Epidemiología . 40 (3): 780–785. doi :10.1093/ije/dyr041. ISSN 1464-3685. PMC 3147074 . PMID 21454324.

Bibliografía

Leila Schneps y Coralie Colmez , Math on trial. How numbers get used and abused in the courtroom (Las matemáticas en el juicio. Cómo se usan y abusan de los números en los tribunales ), Basic Books, 2013. ISBN 978-0-465-03292-1 (Sexto capítulo: "Error matemático número 6: la paradoja de Simpson. El caso de Berkeley sobre el sesgo sexual: detección de la discriminación").

Enlaces externos

Wikimedia Commons alberga una categoría multimedia sobre La paradoja de Simpson .

La paradoja de Simpson en la Enciclopedia de Filosofía de Stanford , por Jan Sprenger y Naftali Weinberger.
Cómo las estadísticas pueden ser engañosas – Mark Liddell – Vídeo y lección de TED-Ed.
Pearl, Judea , "Entendiendo la paradoja de Simpson" (PDF)
La paradoja de Simpson, un breve artículo de Alexander Bogomolny sobre la interpretación vectorial de la paradoja de Simpson
La columna del Wall Street Journal "The Numbers Guy" del 2 de diciembre de 2009 abordó casos recientes de la paradoja de Simpson en las noticias. En particular, una paradoja de Simpson en la comparación de las tasas de desempleo de la recesión de 2009 con la de 1983.
En el plato, un rompecabezas estadístico: Cómo entender la paradoja de Simpson por Arthur Smith, 20 de agosto de 2010
La paradoja de Simpson, un vídeo de Henry Reich de MinutePhysics