stringtranslate.com

La paradoja de Berkson

Un ejemplo de la paradoja de Berkson:
en la figura 1, supongamos que el talento y el atractivo no están correlacionados en la población.
En la figura 2, alguien que muestree la población utilizando celebridades puede inferir erróneamente que el talento está correlacionado negativamente con el atractivo, ya que las personas que no son ni talentosas ni atractivas no suelen convertirse en celebridades.

La paradoja de Berkson , también conocida como sesgo de Berkson , sesgo del colisionador o falacia de Berkson , es un resultado de la probabilidad condicional y la estadística que a menudo resulta contraintuitivo y, por tanto, una paradoja verídica . Es un factor de complicación que surge en las pruebas estadísticas de proporciones. Específicamente, surge cuando existe un sesgo de verificación inherente al diseño de un estudio. El efecto está relacionado con el fenómeno de explicación en las redes bayesianas y el condicionamiento de un colisionador en los modelos gráficos .

A menudo se describe en los campos de la estadística médica o la bioestadística , como en la descripción original del problema realizada por Joseph Berkson .

Ejemplos

Descripción general

Una ilustración de la paradoja de Berkson. El gráfico superior representa la distribución real, en la que se observa una correlación positiva entre la calidad de las hamburguesas y las patatas fritas. Sin embargo, un individuo que no come en ningún lugar donde ambos sean malos observa sólo la distribución en el gráfico inferior, que parece mostrar una correlación negativa.

El ejemplo más común de la paradoja de Berkson es una observación falsa de una correlación negativa entre dos rasgos deseables, es decir, que los miembros de una población que tienen algún rasgo deseable tienden a carecer de un segundo rasgo. La paradoja de Berkson ocurre cuando esta observación parece cierta cuando en realidad las dos propiedades no están relacionadas (o incluso están correlacionadas positivamente ) porque los miembros de la población donde ambas están ausentes no son igualmente observados. Por ejemplo, una persona puede observar por experiencia que los restaurantes de comida rápida de su zona que sirven buenas hamburguesas tienden a servir malas patatas fritas y viceversa; pero como probablemente no comerían en ningún lugar donde ambos fueran malos, no tienen en cuenta la gran cantidad de restaurantes en esta categoría, lo que debilitaría o incluso invertiría la correlación.

ilustración original

La ilustración original de Berkson implica un estudio retrospectivo que examina un factor de riesgo de una enfermedad en una muestra estadística de una población de pacientes hospitalizados . Debido a que las muestras se toman de una población de pacientes hospitalizados, en lugar de del público en general, esto puede resultar en una asociación negativa falsa entre la enfermedad y el factor de riesgo. Por ejemplo, si el factor de riesgo es la diabetes y la enfermedad es la colecistitis , un paciente hospitalizado sin diabetes tiene más probabilidades de tener colecistitis que un miembro de la población general, ya que el paciente debe haber tenido alguna enfermedad no diabética (posiblemente causante de colecistitis). razón para ingresar al hospital en primer lugar. Ese resultado se obtendrá independientemente de si existe alguna asociación entre diabetes y colecistitis en la población general.

Ejemplo de Ellenberg

Un ejemplo presentado por Jordan Ellenberg : supongamos que Alex solo saldrá con un hombre si su amabilidad y su atractivo exceden cierto umbral. Entonces los hombres más amables no tienen que ser tan guapos para calificar para el grupo de citas de Alex. Entonces, entre los hombres con los que sale Alex , Alex puede observar que los más amables son menos guapos en promedio (y viceversa), incluso si estos rasgos no están correlacionados en la población general. Tenga en cuenta que esto no significa que los hombres en el grupo de citas se comparen desfavorablemente con los hombres de la población. Por el contrario, el criterio de selección de Alex significa que Alex tiene estándares altos. El hombre agradable promedio con el que sale Alex es en realidad más guapo que el hombre promedio de la población (ya que incluso entre los hombres agradables, se omite la porción más fea de la población). La correlación negativa de Berkson es un efecto que surge dentro del grupo de citas: los hombres rudos con los que sale Alex deben haber sido aún más guapos para calificar.

Ejemplo cuantitativo

Como ejemplo cuantitativo, supongamos que un coleccionista tiene 1000 sellos postales , de los cuales 300 son bonitos y 100 raros, y 30 son bonitos y raros. El 30% de todos sus sellos son bonitos y el 10% de sus sellos bonitos son raros, por lo que la belleza no dice nada sobre la rareza. Expone los 370 sellos bonitos o raros. Poco más del 27% de los sellos expuestos son raros (100/370), pero todavía sólo el 10% (30/300) de los sellos bonitos son raros (y el 100% de los 70 sellos no bonitos expuestos son raros). Si un observador sólo considera los sellos en exhibición, observará una relación negativa espuria entre belleza y rareza como resultado del sesgo de selección (es decir, la falta de belleza indica claramente rareza en la exhibición, pero no en la colección total).

Declaración

Dos eventos independientes se vuelven condicionalmente dependientes siempre que ocurra al menos uno de ellos. Simbólicamente:

Si , , y , entonces y por tanto .
  • Evento y evento pueden ocurrir o no.
  • , una probabilidad condicional , es la probabilidad de observar un evento dado que es verdadero.
  • Explicación: Evento y son independientes entre sí.
  • es la probabilidad de observar un evento dado que y ( o ) ocurre. Esto también se puede escribir como .
  • Explicación: La probabilidad de que se dé ambos y ( o ) es menor que la probabilidad de que se dé ( o )

En otras palabras, dados dos eventos independientes, si se consideran sólo los resultados en los que ocurre al menos uno, entonces se vuelven condicionalmente dependientes, como se muestra arriba.

Hay un argumento más simple y general:

Dados dos eventos y con , tenemos . Multiplicando ambos lados de la desigualdad de la derecha por , obtenemos . Dividiendo ambos lados de esto por los rendimientos

Cuando (es decir, cuando es un conjunto de probabilidad inferior a la total), la desigualdad es estricta: , y por tanto, y son dependientes.

Tenga en cuenta que en el argumento anterior solo se utilizaron dos supuestos: (i) que es suficiente para implicar . Y (ii) , que con (i) implica la desigualdad estricta , y por tanto la dependencia de y . No es necesario asumir y son independientes; es cierto para cualquier evento y satisface (i) y (ii) (incluidos los eventos independientes).

Explicación

La causa es que la probabilidad condicional de que ocurra un evento, dado que ocurre, está inflada: es mayor que la probabilidad incondicional , porque hemos excluido los casos en los que ninguno de los dos ocurre.

probabilidad condicional inflada en relación con la incondicional

Se puede ver esto en forma de tabla de la siguiente manera: las regiones amarillas son los resultados donde ocurre al menos un evento (y ~A significa "no A ").

Por ejemplo, si uno tiene una muestra de , y ambos ocurren independientemente la mitad del tiempo ( ), se obtiene:

Entonces, en los resultados, ya sea o ocurre, de los cuales han ocurrido. Comparando la probabilidad condicional de con la probabilidad incondicional de :

Vemos que la probabilidad de es mayor ( ) en el subconjunto de resultados donde ocurre ( o ) que en la población general ( ). Por otro lado, la probabilidad de que se den tanto y ( o ) es simplemente la probabilidad incondicional de ,, ya que es independiente de . En el ejemplo numérico, hemos condicionado a estar en la fila superior:

Aquí la probabilidad de es .

La paradoja de Berkson surge porque la probabilidad condicional dentro del subconjunto de tres celdas es igual a la probabilidad condicional en la población general, pero la probabilidad incondicional dentro del subconjunto está inflada en relación con la probabilidad incondicional en la población general, por lo tanto, dentro del subconjunto, la la presencia de disminuye la probabilidad condicional de (volver a su probabilidad incondicional general):


Porque el efecto del condicionamiento se deriva del tamaño relativo de y el efecto es particularmente grande cuando es raro ( ) pero está muy fuertemente correlacionado con ( ). Por ejemplo, considere el siguiente caso donde N es muy grande:

Para el caso sin condicionamiento tenemos

Entonces A ocurre raramente, a menos que B esté presente, cuando A ocurre siempre. Por lo tanto, B está aumentando dramáticamente la probabilidad de que A.

Para el caso con condicionamiento en tenemos

Ahora bien, A ocurre siempre, esté presente B o no. Por lo tanto, B no tiene ningún impacto en la probabilidad de A. Por lo tanto, vemos que para datos altamente correlacionados, una enorme correlación positiva de B con A puede eliminarse efectivamente cuando se condiciona .

Ver también

Referencias