Problema de comparaciones múltiples

En estadística , el problema de comparaciones múltiples , multiplicidad o pruebas múltiples ocurre cuando uno considera un conjunto de inferencias estadísticas simultáneamente ^[1] o estima un subconjunto de parámetros seleccionados en función de los valores observados. ^[2]

Cuanto mayor sea el número de inferencias realizadas, mayor será la probabilidad de que se produzcan inferencias erróneas. Se han desarrollado varias técnicas estadísticas para abordar este problema, por ejemplo, exigiendo un umbral de significación más estricto para las comparaciones individuales, a fin de compensar el número de inferencias realizadas. Los métodos para la tasa de error por familia proporcionan la probabilidad de falsos positivos resultantes del problema de comparaciones múltiples.

Historia

El problema de las comparaciones múltiples recibió una mayor atención en la década de 1950 con el trabajo de estadísticos como Tukey y Scheffé . Durante las décadas siguientes, se desarrollaron muchos procedimientos para abordar el problema. En 1996, se celebró la primera conferencia internacional sobre procedimientos de comparación múltiple en Tel Aviv . ^[3] Se trata de un área de investigación activa en la que trabajan, por ejemplo, Emmanuel Candès y Vladimir Vovk .

Definición

Las comparaciones múltiples surgen cuando un análisis estadístico implica múltiples pruebas estadísticas simultáneas, cada una de las cuales tiene el potencial de producir un "descubrimiento". Un nivel de confianza establecido generalmente se aplica solo a cada prueba considerada individualmente, pero a menudo es deseable tener un nivel de confianza para toda la familia de pruebas simultáneas. ^[4] No compensar las comparaciones múltiples puede tener consecuencias importantes en el mundo real, como lo ilustran los siguientes ejemplos:

Supongamos que el tratamiento es una nueva forma de enseñar a los estudiantes a escribir y el grupo de control es la forma estándar de enseñar a escribir. Los estudiantes de los dos grupos pueden compararse en términos de gramática, ortografía, organización, contenido, etc. A medida que se comparan más atributos, se hace cada vez más probable que los grupos de tratamiento y de control parezcan diferir en al menos un atributo debido únicamente al error de muestreo aleatorio .
Supongamos que consideramos la eficacia de un fármaco en términos de reducción de cualquiera de varios síntomas de una enfermedad. Cuantos más síntomas se consideren, más probable será que el fármaco parezca ser una mejora con respecto a los fármacos existentes en términos de al menos un síntoma.

En ambos ejemplos, a medida que aumenta el número de comparaciones, es más probable que los grupos que se comparan parezcan diferir en términos de al menos un atributo. Nuestra confianza en que un resultado se generalizará a datos independientes debería ser, por lo general, menor si se observa como parte de un análisis que implica múltiples comparaciones, en lugar de un análisis que implica solo una comparación.

Por ejemplo, si se realiza una prueba al nivel del 5% y la hipótesis nula correspondiente es verdadera, solo hay un riesgo del 5% de rechazar incorrectamente la hipótesis nula. Sin embargo, si se realizan 100 pruebas cada una al nivel del 5% y todas las hipótesis nulas correspondientes son verdaderas, el número esperado de rechazos incorrectos (también conocidos como falsos positivos o errores de tipo I ) es 5. Si las pruebas son estadísticamente independientes entre sí (es decir, se realizan en muestras independientes), la probabilidad de al menos un rechazo incorrecto es de aproximadamente el 99,4%.

El problema de las comparaciones múltiples también se aplica a los intervalos de confianza . Un único intervalo de confianza con un nivel de probabilidad de cobertura del 95% contendrá el valor verdadero del parámetro en el 95% de las muestras. Sin embargo, si se consideran 100 intervalos de confianza simultáneamente, cada uno con una probabilidad de cobertura del 95%, el número esperado de intervalos no cubriendo es 5. Si los intervalos son estadísticamente independientes entre sí, la probabilidad de que al menos un intervalo no contenga el parámetro de la población es del 99,4%.

Se han desarrollado técnicas para evitar la inflación de las tasas de falsos positivos y de no cobertura que ocurren con múltiples pruebas estadísticas.

Clasificación de pruebas de hipótesis múltiples

La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: $H 1, H 2, ..., H m .$ Mediante una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. Al sumar cada tipo de resultado sobre todos los H _i, obtenemos las siguientes variables aleatorias:

$m$ es el número total de hipótesis probadas
$estilo de visualización m_{0}}$ es el número de hipótesis nulas verdaderas , un parámetro desconocido
$m-m_{0}$ es el número de hipótesis alternativas verdaderas
$V$ es el número de falsos positivos (error tipo I) (también llamados "falsos descubrimientos")
$S$ es el número de verdaderos positivos (también llamados "descubrimientos verdaderos")
$T$ es el número de falsos negativos (error tipo II)
$U$ es el número de verdaderos negativos
$R=V+S$ es el número de hipótesis nulas rechazadas (también llamadas "descubrimientos", ya sean verdaderas o falsas)

En $m$ pruebas de hipótesis de las cuales las hipótesis nulas son verdaderas, $R$ es una variable aleatoria observable y $S$ , $T$ , $U$ y $V$ son variables aleatorias no observables . $estilo de visualización m_{0}}$

Procedimientos de control

Probabilidad de que al menos una hipótesis nula sea rechazada erróneamente, para , en función del número de pruebas independientes .

\alpha _{\text{por comparación}}=0,05

{\estilo de visualización m}

Corrección de pruebas múltiples

La corrección de pruebas múltiples se refiere a hacer que las pruebas estadísticas sean más estrictas para contrarrestar el problema de las pruebas múltiples. El ajuste más conocido es la corrección de Bonferroni , pero se han desarrollado otros métodos. Estos métodos suelen estar diseñados para controlar la tasa de error a nivel de familia o la tasa de descubrimiento falso .

Si se realizan m comparaciones independientes, la tasa de error por familia (FWER) viene dada por

{\bar {\alpha }}=1-\left(1-\alpha _{\{{\text{por comparación}}\}}\right)^{m}.

Por lo tanto, a menos que las pruebas sean perfectamente dependientes de manera positiva (es decir, idénticas), aumenta a medida que aumenta el número de comparaciones. Si no asumimos que las comparaciones son independientes, entonces aún podemos decir: ${\bar {\alpha }}$

{\bar {\alpha }}\leq m\cdot \alpha _{\{{\text{por comparación}}\}},

que se deduce de la desigualdad de Boole . Ejemplo: $0,2649=1-(1-.05)^{6}\leq .05\times 6=0,3$

Existen diferentes maneras de asegurar que la tasa de error por familia sea como máximo . El método más conservador, que está libre de dependencias y supuestos distributivos, es la corrección de Bonferroni . Se puede obtener una corrección marginalmente menos conservadora resolviendo la ecuación para la tasa de error por familia de comparaciones independientes para . Esto produce , que se conoce como la corrección de Šidák . Otro procedimiento es el método de Holm–Bonferroni , que proporciona uniformemente más potencia que la corrección de Bonferroni simple, al probar solo el valor p más bajo ( ) contra el criterio más estricto, y los valores p más altos ( ) contra criterios progresivamente menos estrictos. ^[5] . ${\estilo de visualización \alpha}$ $\alpha _{\mathrm {\{por\ comparación\}} }={\alpha }/m$ ${\estilo de visualización m}$ $\alpha _{\mathrm {\{por\ comparación\}} }$ $\alpha _{\{{\text{por comparación}}\}}=1-{(1-{\alpha })}^{1/m}$ $i=1$ $i>1$ $\alpha _{\mathrm {\{por\ comparación\}} }={\alpha }/(m-i+1)$

En el caso de problemas continuos, se puede emplear la lógica bayesiana para calcular la relación entre el volumen anterior y el posterior. En ^[6] se presentan generalizaciones continuas de la corrección de Bonferroni y Šidák . ${\estilo de visualización m}$

Pruebas múltiples a gran escala

Los métodos tradicionales para los ajustes de comparaciones múltiples se centran en la corrección de un número modesto de comparaciones, a menudo en un análisis de varianza . Se ha desarrollado un conjunto diferente de técnicas para "pruebas múltiples a gran escala", en las que se realizan miles o incluso un mayor número de pruebas. Por ejemplo, en genómica , cuando se utilizan tecnologías como microarrays , se pueden medir los niveles de expresión de decenas de miles de genes y se pueden medir los genotipos de millones de marcadores genéticos. Particularmente en el campo de los estudios de asociación genética , ha habido un problema grave con la no replicación: un resultado que es muy significativo estadísticamente en un estudio pero que no se replica en un estudio de seguimiento. Tal no replicación puede tener muchas causas, pero se considera ampliamente que no tener en cuenta plenamente las consecuencias de hacer comparaciones múltiples es una de las causas. ^[7] Se ha argumentado que los avances en medición y tecnología de la información han hecho mucho más fácil generar grandes conjuntos de datos para análisis exploratorios , lo que a menudo conduce a la prueba de un gran número de hipótesis sin ninguna base previa para esperar que muchas de las hipótesis sean verdaderas. En esta situación, se esperan tasas muy altas de falsos positivos a menos que se realicen ajustes de comparaciones múltiples.

En el caso de problemas de pruebas a gran escala en los que el objetivo es proporcionar resultados definitivos, la tasa de error por familia sigue siendo el parámetro más aceptado para atribuir niveles de significación a las pruebas estadísticas. Por otra parte, si un estudio se considera exploratorio, o si los resultados significativos se pueden volver a probar fácilmente en un estudio independiente, a menudo se prefiere el control de la tasa de falsos descubrimientos (FDR) ^[8]^[9]^[10] . La FDR, definida de forma vaga como la proporción esperada de falsos positivos entre todas las pruebas significativas, permite a los investigadores identificar un conjunto de "posibles candidatos" que se pueden evaluar de forma más rigurosa en un estudio de seguimiento. ^[11]

La práctica de intentar muchas comparaciones no ajustadas con la esperanza de encontrar una significativa es un problema conocido, ya sea aplicado de manera involuntaria o deliberada, y a veces se denomina " p-hacking ". ^[12]^[13]

Evaluar si alguna hipótesis alternativa es verdadera

Una pregunta básica que se plantea al comienzo del análisis de un conjunto grande de resultados de pruebas es si hay evidencia de que alguna de las hipótesis alternativas sea verdadera. Una metaprueba simple que se puede aplicar cuando se supone que las pruebas son independientes entre sí es utilizar la distribución de Poisson como modelo para el número de resultados significativos en un nivel dado α que se encontrarían cuando todas las hipótesis nulas fueran verdaderas. ^{[ cita requerida ]} Si el número observado de positivos es sustancialmente mayor que lo que se debería esperar, esto sugiere que es probable que haya algunos positivos verdaderos entre los resultados significativos.

Por ejemplo, si se realizan 1000 pruebas independientes, cada una en el nivel α = 0,05, esperamos que se produzcan 0,05 × 1000 = 50 pruebas significativas cuando todas las hipótesis nulas sean verdaderas. Con base en la distribución de Poisson con media 50, la probabilidad de observar más de 61 pruebas significativas es menor que 0,05, por lo que si se observan más de 61 resultados significativos, es muy probable que algunos de ellos correspondan a situaciones en las que se cumple la hipótesis alternativa. Un inconveniente de este enfoque es que exagera la evidencia de que algunas de las hipótesis alternativas son verdaderas cuando las estadísticas de prueba están correlacionadas positivamente, lo que ocurre comúnmente en la práctica. ^{[ cita requerida ]} . Por otro lado, el enfoque sigue siendo válido incluso en presencia de correlación entre las estadísticas de prueba, siempre que se pueda demostrar que la distribución de Poisson proporciona una buena aproximación para el número de resultados significativos. Este escenario surge, por ejemplo, cuando se extraen conjuntos de elementos frecuentes significativos de conjuntos de datos transaccionales. Además, un análisis cuidadoso en dos etapas puede limitar el FDR a un nivel preestablecido. ^[14]

Otro enfoque común que se puede utilizar en situaciones en las que las estadísticas de prueba se pueden estandarizar a puntuaciones Z es hacer un gráfico de cuantiles normales de las estadísticas de prueba. Si los cuantiles observados están marcadamente más dispersos que los cuantiles normales, esto sugiere que algunos de los resultados significativos pueden ser verdaderos positivos. ^{[ cita requerida ]}

Véase también

valor q

Conceptos clave

Métodos generales de ajuste alfa para comparaciones múltiples

Procedimiento de prueba cerrado
Corrección de Bonferroni
Límite de Boole- Bonferroni
La nueva prueba de rango múltiple de Duncan
Método de Holm-Bonferroni
Procedimiento para el valor p de la media armónica
Procedimiento de Benjamini-Hochberg

Conceptos relacionados

Referencias

^ Miller, RG (1981). Inferencia estadística simultánea 2.ª ed . Springer Verlag Nueva York. ISBN 978-0-387-90548-8.
^ Benjamini, Y. (2010). "Inferencia simultánea y selectiva: éxitos actuales y desafíos futuros". Revista Biometrical . 52 (6): 708–721. doi :10.1002/bimj.200900299. PMID 21154895. S2CID 8806192.
^ "Inicio". mcp-conference.org .
^ Kutner, Michael; Nachtsheim, Christopher; Neter, John ; Li, William (2005). Modelos estadísticos lineales aplicados . McGraw-Hill Irwin. págs. 744–745. ISBN 9780072386882.
^ Aickin, M; Gensler, H (mayo de 1996). "Ajuste de pruebas múltiples al informar los resultados de una investigación: los métodos Bonferroni vs. Holm". Am J Public Health . 86 (5): 726–728. doi :10.2105/ajph.86.5.726. PMC 1380484 . PMID 8629727.
^ Bayer, Adrian E.; Seljak, Uroš (2020). "El efecto de mirar a otro lado desde una perspectiva bayesiana y frecuentista unificada". Revista de Cosmología y Física de Astropartículas . 2020 (10): 009. arXiv : 2007.13821 . Código Bibliográfico :2020JCAP...10..009B. doi :10.1088/1475-7516/2020/10/009. S2CID 220830693.
^ Qu, Hui-Qi; Tien, Matthew; Polychronakos, Constantin (1 de octubre de 2010). "Significación estadística en estudios de asociación genética". Medicina clínica e investigativa . 33 (5): E266–E270. ISSN 0147-958X. PMC 3270946 . PMID 20926032.
^ Benjamini, Yoav; Hochberg, Yosef (1995). "Control de la tasa de descubrimientos falsos: un enfoque práctico y eficaz para las pruebas múltiples". Revista de la Royal Statistical Society, Serie B . 57 (1): 125–133. JSTOR 2346101.
^ Storey, JD; Tibshirani, Robert (2003). "Significación estadística para estudios de todo el genoma". PNAS . 100 (16): 9440–9445. Bibcode :2003PNAS..100.9440S. doi : 10.1073/pnas.1530509100 . JSTOR 3144228. PMC 170937 . PMID 12883005.
^ Efron, Bradley; Tibshirani, Robert; Storey, John D.; Tusher, Virginia (2001). "Análisis bayesiano empírico de un experimento de microarrays". Revista de la Asociación Estadounidense de Estadística . 96 (456): 1151–1160. doi :10.1198/016214501753382129. JSTOR 3085878. S2CID 9076863.
^ Noble, William S. (1 de diciembre de 2009). "¿Cómo funciona la corrección de pruebas múltiples?". Nature Biotechnology . 27 (12): 1135–1137. doi :10.1038/nbt1209-1135. ISSN 1087-0156. PMC 2907892 . PMID 20010596.
^ Young, SS, Karr, A. (2011). "Deming, datos y estudios observacionales" (PDF) . Significance . 8 (3): 116–120. doi : 10.1111/j.1740-9713.2011.00506.x .{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Smith, GD, Shah, E. (2002). "Dragado de datos, sesgo o confusión". BMJ . 325 (7378): 1437–1438. doi :10.1136/bmj.325.7378.1437. PMC 1124898 . PMID 12493654. {{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Kirsch, A; Mitzenmacher, M ; Pietracaprina, A; Pucci, G; Upfal, E ; Vandin, F (junio de 2012). "Un enfoque riguroso y eficiente para identificar conjuntos de elementos frecuentes estadísticamente significativos". Revista de la ACM . 59 (3): 12:1–12:22. arXiv : 1002.1104 . doi :10.1145/2220357.2220359.

Lectura adicional

F. Bretz, T. Hothorn, P. Westfall (2010), Comparaciones múltiples utilizando R , CRC Press
S. Dudoit y MJ van der Laan (2008), Procedimientos de pruebas múltiples con aplicación a la genómica , Springer
Farcomeni, A. (2008). "Una revisión de las pruebas de hipótesis múltiples modernas, con especial atención a la proporción de descubrimientos falsos". Métodos estadísticos en la investigación médica . 17 (4): 347–388. doi :10.1177/0962280206079046. hdl :11573/142139. PMID 17698936. S2CID 12777404.
Phipson, B.; Smyth, GK (2010). "Los valores P de permutación nunca deberían ser cero: cálculo de valores P exactos cuando las permutaciones se extraen aleatoriamente". Aplicaciones estadísticas en genética y biología molecular . 9 : Artículo 39. arXiv : 1603.05766 . doi :10.2202/1544-6115.1585. PMID 21044043. S2CID 10735784.
PH Westfall y SS Young (1993), Pruebas múltiples basadas en remuestreo: ejemplos y métodos para el ajuste del valor p , Wiley
P. Westfall, R. Tobias, R. Wolfinger (2011) Comparaciones múltiples y pruebas múltiples utilizando SAS , 2.ª edición, SAS Institute
Una galería de ejemplos de correlaciones inverosímiles obtenidas mediante el dragado de datos
[1] Un cómic de xkcd sobre el problema de las comparaciones múltiples, usando gominolas y acné como ejemplo