La paradoja de Simpson es un fenómeno de probabilidad y estadística en el que aparece una tendencia en varios grupos de datos pero desaparece o se revierte cuando los grupos se combinan. Este resultado se encuentra a menudo en las estadísticas de las ciencias sociales y médicas, [1] [2] [3] y es particularmente problemático cuando los datos de frecuencia reciben interpretaciones causales indebidas . [4] La paradoja puede resolverse cuando las variables de confusión y las relaciones causales se abordan adecuadamente en el modelado estadístico [4] [5] (por ejemplo, mediante análisis de conglomerados [6] ).
La paradoja de Simpson se ha utilizado para ilustrar el tipo de resultados engañosos que puede generar el mal uso de las estadísticas . [7] [8]
Edward H. Simpson describió por primera vez este fenómeno en un artículo técnico en 1951, [9] pero los estadísticos Karl Pearson (en 1899 [10] ) y Udny Yule (en 1903 [11] ) habían mencionado efectos similares antes. El nombre de paradoja de Simpson fue introducido por Colin R. Blyth en 1972. [12] También se la conoce como inversión de Simpson , efecto Yule-Simpson , paradoja de la amalgama o paradoja de la inversión . [13]
El matemático Jordan Ellenberg sostiene que la paradoja de Simpson se denomina erróneamente porque "no hay ninguna contradicción involucrada, sólo dos maneras diferentes de pensar acerca de los mismos datos" y sugiere que su lección "no es realmente decirnos qué punto de vista adoptar sino insistir en que mantengamos tanto las partes como el todo en mente a la vez." [14]
Uno de los ejemplos más conocidos de la paradoja de Simpson proviene de un estudio sobre el sesgo de género entre las admisiones a las escuelas de posgrado de la Universidad de California, Berkeley . Las cifras de admisión para el otoño de 1973 mostraron que los hombres que solicitaban tenían más probabilidades de ser admitidos que las mujeres, y la diferencia era tan grande que era poco probable que se debiera al azar. [15] [16]
Sin embargo, al tener en cuenta la información sobre los departamentos a los que se postula, los diferentes porcentajes de rechazo revelan la diferente dificultad para ingresar al departamento y, al mismo tiempo, mostró que las mujeres tendían a postularse a departamentos más competitivos con tasas de admisión más bajas. incluso entre solicitantes calificados (como en el departamento de inglés), mientras que los hombres tendían a postularse a departamentos menos competitivos con tasas de admisión más altas (como en el departamento de ingeniería). Los datos agrupados y corregidos mostraron un "sesgo pequeño pero estadísticamente significativo a favor de las mujeres". [dieciséis]
Los datos de los seis departamentos más grandes se enumeran a continuación:
Los datos completos mostraron que un total de 4 de 85 departamentos tenían un sesgo significativo en contra de las mujeres, mientras que 6 tenían un sesgo significativo en contra de los hombres (no todos presentes en la tabla de los "seis departamentos más grandes" anterior). En particular, el número de departamentos sesgados no fue la base para la conclusión, sino más bien las admisiones por género agrupadas en todos los departamentos, teniendo en cuenta la tasa de rechazo de cada departamento entre todos sus solicitantes. [dieciséis]
Otro ejemplo proviene de un estudio médico de la vida real [17] que compara las tasas de éxito de dos tratamientos para los cálculos renales . [18] La siguiente tabla muestra las tasas de éxito (el término tasa de éxito aquí en realidad significa la proporción de éxito) y el número de tratamientos para tratamientos que involucran cálculos renales tanto pequeños como grandes, donde el Tratamiento A incluye procedimientos quirúrgicos abiertos y el Tratamiento B incluye procedimientos quirúrgicos cerrados. . Los números entre paréntesis indican el número de casos de éxito sobre el tamaño total del grupo.
La conclusión paradójica es que el tratamiento A es más eficaz cuando se utiliza en cálculos pequeños, y también cuando se utiliza en cálculos grandes, sin embargo, el tratamiento B parece ser más eficaz cuando se consideran ambos tamaños al mismo tiempo. En este ejemplo, la variable "al acecho" (o variable de confusión ) que causa la paradoja es el tamaño de las piedras, que los investigadores no sabían previamente que fuera importante hasta que se incluyeron sus efectos.
Qué tratamiento se considera mejor está determinado por qué índice de éxito (éxitos/total) es mayor. La inversión de la desigualdad entre las dos razones al considerar los datos combinados, lo que crea la paradoja de Simpson, ocurre porque dos efectos ocurren juntos:
Con base en estos efectos, se ve que surge el resultado paradójico porque el efecto del tamaño de los cálculos supera los beneficios del mejor tratamiento (A). En resumen, el tratamiento B, menos eficaz, parecía ser más eficaz porque se aplicaba con mayor frecuencia en los casos de cálculos pequeños, que eran más fáciles de tratar. [18]
Un ejemplo común de la paradoja de Simpson involucra los promedios de bateo de los jugadores de béisbol profesional . Es posible que un jugador tenga un promedio de bateo más alto que otro cada año durante varios años, pero que tenga un promedio de bateo más bajo durante todos esos años. Este fenómeno puede ocurrir cuando hay grandes diferencias en el número de turnos al bate entre los años. El matemático Ken Ross lo demostró utilizando el promedio de bateo de dos jugadores de béisbol, Derek Jeter y David Justice , durante los años 1995 y 1996: [19] [20]
Tanto en 1995 como en 1996, Justice tuvo un promedio de bateo más alto (en negrita) que Jeter. Sin embargo, cuando se combinan las dos temporadas de béisbol, Jeter muestra un promedio de bateo más alto que Justice. Según Ross, este fenómeno se observaría aproximadamente una vez al año entre las posibles parejas de jugadores. [19]
La paradoja de Simpson también se puede ilustrar utilizando un espacio vectorial bidimensional . [21] Una tasa de éxito de (es decir, éxitos/intentos ) se puede representar mediante un vector , con una pendiente de . Entonces, un vector más pronunciado representa una mayor tasa de éxito. Si se combinan dos tasas y , como en los ejemplos anteriores, el resultado se puede representar por la suma de los vectores y , que según la regla del paralelogramo es el vector , con pendiente .
La paradoja de Simpson dice que incluso si un vector (en naranja en la figura) tiene una pendiente menor que otro vector (en azul), y tiene una pendiente menor que , la suma de los dos vectores potencialmente puede tener una pendiente mayor que la suma de los dos vectores , como se muestra en el ejemplo. Para que esto ocurra, uno de los vectores naranja debe tener una pendiente mayor que uno de los vectores azules (aquí y ), y estos generalmente serán más largos que los vectores con subíndices alternativos, dominando así la comparación general.
La inversión de Simpson también puede surgir en correlaciones , en las que dos variables parecen tener (digamos) una correlación positiva entre sí, cuando en realidad tienen una correlación negativa, habiendo sido provocada la inversión por un factor de confusión "al acecho". Berman et al. [22] dan un ejemplo de la economía, donde un conjunto de datos sugiere que la demanda general está correlacionada positivamente con el precio (es decir, los precios más altos conducen a una mayor demanda), en contradicción con las expectativas. El análisis revela que el tiempo es la variable de confusión: graficar tanto el precio como la demanda en función del tiempo revela la correlación negativa esperada a lo largo de varios períodos, que luego se invierte y se vuelve positiva si se ignora la influencia del tiempo al simplemente graficar la demanda en función del precio.
El interés psicológico por la paradoja de Simpson busca explicar por qué la gente al principio considera imposible la inversión de signos, ofendida por la idea de que una acción preferida bajo una condición y bajo su negación deba rechazarse cuando se desconoce la condición. La pregunta es de dónde obtiene la gente esta fuerte intuición y cómo se codifica en la mente .
La paradoja de Simpson demuestra que esta intuición no puede derivarse ni de la lógica clásica ni del cálculo de probabilidades únicamente y, por lo tanto, llevó a los filósofos a especular que está respaldada por una lógica causal innata que guía a las personas en el razonamiento sobre las acciones y sus consecuencias. [4] El principio de certeza de Savage [12] es un ejemplo de lo que dicha lógica puede implicar. De hecho, se puede derivar una versión calificada del principio de cosa segura de Savage a partir del cálculo de Pearl [4] y dice: "Una acción A que aumenta la probabilidad de un evento B en cada subpoblación Ci de C también debe aumentar la probabilidad de B en la población en su conjunto, siempre que la acción no cambie la distribución de las subpoblaciones." Esto sugiere que el conocimiento sobre acciones y consecuencias se almacena en una forma que se asemeja a las redes causales bayesianas .
Un artículo de Pavlides y Perlman presenta una prueba, debida a Hadjicostas, de que en una tabla aleatoria de 2 × 2 × 2 con distribución uniforme, la paradoja de Simpson ocurrirá con una probabilidad de exactamente 1 ⁄ 60 . [23] Un estudio de Kock sugiere que la probabilidad de que la paradoja de Simpson ocurra al azar en modelos de ruta (es decir, modelos generados por análisis de ruta ) con dos predictores y una variable criterio es aproximadamente del 12,8 por ciento; ligeramente superior a 1 ocurrencia por 8 modelos de ruta. [24]
En el artículo de Simpson de 1951 también se analizó una segunda paradoja, menos conocida. Puede ocurrir cuando la "interpretación sensata" no se encuentra necesariamente en los datos separados, como en el ejemplo de los cálculos renales, sino que puede residir en los datos combinados. El uso de la forma dividida o combinada de los datos depende del proceso que da origen a los datos, lo que significa que la interpretación correcta de los datos no siempre se puede determinar simplemente observando las tablas. [25]
Judea Pearl ha demostrado que, para que los datos particionados representen las relaciones causales correctas entre dos variables cualesquiera, y , las variables de partición deben satisfacer una condición gráfica llamada "criterio de puerta trasera": [26] [27]
Este criterio proporciona una solución algorítmica a la segunda paradoja de Simpson y explica por qué la interpretación correcta no puede determinarse únicamente con datos; dos gráficos diferentes, ambos compatibles con los datos, pueden dictar dos criterios de puerta trasera diferentes.
Cuando el criterio de la puerta trasera se satisface con un conjunto Z de covariables, la fórmula de ajuste (ver Confusión ) da el efecto causal correcto de X sobre Y. Si no existe tal conjunto, se puede invocar el cálculo do de Pearl para descubrir otras formas de estimar el efecto causal. [4] [28] Se puede considerar que la integridad del do -cálculo [29] [28] ofrece una resolución completa de la paradoja de Simpson.
Una crítica es que la paradoja no es realmente una paradoja en absoluto, sino más bien una falta de explicación adecuada de las variables de confusión o de consideración de las relaciones causales entre variables. [30]
Otra crítica a la aparente paradoja de Simpson es que puede ser el resultado de la forma específica en que se estratifican o agrupan los datos. El fenómeno puede desaparecer o incluso revertirse si los datos se estratifican de manera diferente o si se consideran diferentes variables de confusión. En realidad, el ejemplo de Simpson destacó un fenómeno llamado no colapsabilidad, [31] que ocurre cuando subgrupos con proporciones altas no obtienen promedios simples cuando se combinan. Esto sugiere que la paradoja puede no ser un fenómeno universal, sino más bien un ejemplo específico de una cuestión estadística más general.
Los críticos de la aparente paradoja de Simpson también argumentan que centrarse en la paradoja puede distraer la atención de cuestiones estadísticas más importantes, como la necesidad de una consideración cuidadosa de las variables de confusión y las relaciones causales al interpretar los datos. [32]
A pesar de estas críticas, la aparente paradoja de Simpson sigue siendo un tema popular e intrigante en las estadísticas y el análisis de datos. Continúa siendo estudiado y debatido por investigadores y profesionales en una amplia gama de campos, y sirve como un valioso recordatorio de la importancia de un análisis estadístico cuidadoso y los posibles peligros de las interpretaciones simplistas de los datos.