stringtranslate.com

Problema de comparaciones múltiples

Un ejemplo de coincidencia producida por el dragado de datos (comparaciones múltiples sin corregir) que muestra una correlación entre el número de letras en la palabra ganadora de un concurso de ortografía y el número de personas en los Estados Unidos muertas por arañas venenosas. Dado un conjunto de variables suficientemente grande para el mismo período de tiempo, es posible encontrar un par de gráficos que muestren una correlación espuria .

En estadística , el problema de las comparaciones múltiples , la multiplicidad o las pruebas múltiples ocurre cuando uno considera un conjunto de inferencias estadísticas simultáneamente [1] o estima un subconjunto de parámetros seleccionados en función de los valores observados. [2]

Cuanto mayor sea el número de inferencias realizadas, más probable será que las inferencias sean erróneas. Se han desarrollado varias técnicas estadísticas para abordar este problema, por ejemplo, exigiendo un umbral de significancia más estricto para las comparaciones individuales, a fin de compensar el número de inferencias que se hacen. Los métodos para la tasa de error familiar dan la probabilidad de falsos positivos resultantes del problema de comparaciones múltiples.

Historia

El problema de las comparaciones múltiples recibió mayor atención en la década de 1950 con el trabajo de estadísticos como Tukey y Scheffé . Durante las décadas siguientes, se desarrollaron muchos procedimientos para abordar el problema. En 1996 tuvo lugar en Tel Aviv la primera conferencia internacional sobre procedimientos de comparación múltiple . [3] Se trata de un área de investigación activa en la que trabajan, por ejemplo, Emmanuel Candès y Vladimir Vovk.

Definición

Producción de un valor p pequeño mediante pruebas múltiples.
Se observan 30 muestras de 10 puntos de color aleatorio (azul o rojo). En cada muestra, se realiza una prueba binomial de dos colas de la hipótesis nula de que el azul y el rojo son igualmente probables. La primera fila muestra los posibles valores p en función del número de puntos azules y rojos en la muestra.
Aunque todas las 30 muestras fueron simuladas bajo el valor nulo, uno de los valores p resultantes es lo suficientemente pequeño como para producir un rechazo falso en el nivel típico de 0,05 en ausencia de corrección.

Las comparaciones múltiples surgen cuando un análisis estadístico implica múltiples pruebas estadísticas simultáneas, cada una de las cuales tiene el potencial de producir un "descubrimiento". Un nivel de confianza establecido generalmente se aplica sólo a cada prueba considerada individualmente, pero a menudo es deseable tener un nivel de confianza para toda la familia de pruebas simultáneas. [4] No compensar las comparaciones múltiples puede tener importantes consecuencias en el mundo real, como lo ilustran los siguientes ejemplos:

En ambos ejemplos, a medida que aumenta el número de comparaciones, es más probable que los grupos comparados parezcan diferir en términos de al menos un atributo. Nuestra confianza en que un resultado se generalizará a datos independientes generalmente debería ser más débil si se observa como parte de un análisis que involucra múltiples comparaciones, en lugar de un análisis que involucra solo una comparación.

Por ejemplo, si se realiza una prueba al nivel del 5% y la hipótesis nula correspondiente es verdadera, sólo existe un riesgo del 5% de rechazar incorrectamente la hipótesis nula. Sin embargo, si se realizan 100 pruebas cada una al nivel del 5% y todas las hipótesis nulas correspondientes son verdaderas, el número esperado de rechazos incorrectos (también conocidos como falsos positivos o errores de tipo I ) es 5. Si las pruebas son estadísticamente independientes entre sí (es decir, se realizan en muestras independientes), la probabilidad de al menos un rechazo incorrecto es aproximadamente del 99,4%.

El problema de las comparaciones múltiples también se aplica a los intervalos de confianza . Un único intervalo de confianza con un nivel de probabilidad de cobertura del 95% contendrá el valor real del parámetro en el 95% de las muestras. Sin embargo, si se consideran 100 intervalos de confianza simultáneamente, cada uno con una probabilidad de cobertura del 95%, el número esperado de intervalos que no cubren es 5. Si los intervalos son estadísticamente independientes entre sí, la probabilidad de que al menos un intervalo no contenga la población El parámetro es 99,4%.

Se han desarrollado técnicas para prevenir la inflación de tasas de falsos positivos y tasas de falta de cobertura que ocurren con múltiples pruebas estadísticas.

Clasificación de pruebas de hipótesis múltiples.

La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: H 1H 2 , ...,  H m . Utilizando una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. La suma de cada tipo de resultado sobre todo H i   produce las siguientes variables aleatorias:

En m pruebas de hipótesis de las cuales son hipótesis nulas verdaderas, R es una variable aleatoria observable y S , T , U y V son variables aleatorias no observables .

Procedimientos de control

Probabilidad de que al menos una hipótesis nula sea rechazada erróneamente, para , en función del número de pruebas independientes .

Corrección de pruebas múltiples

La corrección de pruebas múltiples se refiere a hacer que las pruebas estadísticas sean más estrictas para contrarrestar el problema de las pruebas múltiples. El ajuste más conocido es la corrección de Bonferroni , pero se han desarrollado otros métodos. Estos métodos suelen estar diseñados para controlar la tasa de error familiar o la tasa de descubrimiento falso .

Si se realizan m comparaciones independientes, la tasa de error familiar (FWER) viene dada por

Por lo tanto, a menos que las pruebas sean perfectamente dependientes (es decir, idénticas), aumenta a medida que aumenta el número de comparaciones. Si no asumimos que las comparaciones son independientes, aún podemos decir:

que se sigue de la desigualdad de Boole . Ejemplo:

Hay diferentes formas de garantizar que la tasa de error familiar sea como máximo . El método más conservador, que está libre de dependencia y supuestos distributivos, es la corrección de Bonferroni . Se puede obtener una corrección ligeramente menos conservadora resolviendo la ecuación para la tasa de error familiar de comparaciones independientes para . Esto produce lo que se conoce como corrección de Šidák . Otro procedimiento es el método Holm-Bonferroni , que uniformemente ofrece más poder que la simple corrección de Bonferroni, al probar solo el valor p más bajo ( ) contra el criterio más estricto, y los valores p más altos ( ) contra criterios progresivamente menos estrictos. [5] .

Para problemas continuos, se puede emplear la lógica bayesiana para calcular a partir de la relación de volumen anterior a posterior. En [6] se presentan generalizaciones continuas de la corrección de Bonferroni y Šidák .

Pruebas múltiples a gran escala

Los métodos tradicionales para ajustes de comparaciones múltiples se centran en corregir números modestos de comparaciones, a menudo en un análisis de varianza . Se ha desarrollado un conjunto diferente de técnicas para "pruebas múltiples a gran escala", en las que se realizan miles o incluso más pruebas. Por ejemplo, en genómica , cuando se utilizan tecnologías como los microarrays , se pueden medir los niveles de expresión de decenas de miles de genes y los genotipos de millones de marcadores genéticos. Particularmente en el campo de los estudios de asociación genética , ha habido un serio problema con la no replicación: un resultado que fue estadísticamente significativo en un estudio pero que no pudo replicarse en un estudio de seguimiento. Esta falta de replicación puede tener muchas causas, pero se considera ampliamente que una de ellas es no tener plenamente en cuenta las consecuencias de realizar comparaciones múltiples. [7] Se ha argumentado que los avances en la medición y la tecnología de la información han hecho que sea mucho más fácil generar grandes conjuntos de datos para análisis exploratorios , lo que a menudo conduce a la prueba de un gran número de hipótesis sin ninguna base previa para esperar que muchas de las hipótesis sean ciertas. . En esta situación, se esperan tasas muy altas de falsos positivos a menos que se realicen múltiples ajustes de comparaciones.

Para problemas de prueba a gran escala donde el objetivo es proporcionar resultados definitivos, la tasa de error familiar sigue siendo el parámetro más aceptado para atribuir niveles de significancia a las pruebas estadísticas. Alternativamente, si un estudio se considera exploratorio, o si los resultados significativos pueden volver a probarse fácilmente en un estudio independiente, a menudo se prefiere el control de la tasa de descubrimiento falso (FDR) [8] [9] [10] . El FDR, definido vagamente como la proporción esperada de falsos positivos entre todas las pruebas importantes, permite a los investigadores identificar un conjunto de "candidatos positivos" que pueden evaluarse más rigurosamente en un estudio de seguimiento. [11]

La práctica de intentar muchas comparaciones no ajustadas con la esperanza de encontrar una significativa es un problema conocido, ya sea que se aplique de manera involuntaria o deliberada y que a veces se denomina "p-hacking". [12] [13]

Evaluar si alguna hipótesis alternativa es cierta.

Un gráfico de cuantiles normales para un conjunto simulado de estadísticas de prueba que han sido estandarizadas para ser puntuaciones Z bajo la hipótesis nula. La desviación de la cola superior de la distribución de la tendencia esperada a lo largo de la diagonal se debe a la presencia de valores estadísticos de prueba sustancialmente más grandes de lo que se esperaría si todas las hipótesis nulas fueran verdaderas. El punto rojo corresponde a la cuarta estadística de prueba observada más grande, que es 3,13, frente a un valor esperado de 2,06. El punto azul corresponde a la quinta estadística de prueba más pequeña, que es -1,75, frente a un valor esperado de -1,96. El gráfico sugiere que es poco probable que todas las hipótesis nulas sean verdaderas y que la mayoría o todos los casos de una hipótesis alternativa verdadera resulten de desviaciones en la dirección positiva.

Una pregunta básica que se enfrenta al comenzar a analizar un gran conjunto de resultados de pruebas es si existe evidencia de que alguna de las hipótesis alternativas sea cierta. Una metaprueba simple que se puede aplicar cuando se supone que las pruebas son independientes entre sí es usar la distribución de Poisson como modelo para el número de resultados significativos en un nivel dado α que se encontraría cuando se cumplen todas las hipótesis nulas. verdadero. [ cita necesaria ] Si el número observado de positivos es sustancialmente mayor de lo que debería esperarse, esto sugiere que es probable que haya algunos verdaderos positivos entre los resultados significativos.

Por ejemplo, si se realizan 1000 pruebas independientes, cada una en el nivel α = 0,05, esperamos que se produzcan 0,05 × 1000 = 50 pruebas significativas cuando todas las hipótesis nulas sean verdaderas. Con base en la distribución de Poisson con media 50, la probabilidad de observar más de 61 pruebas significativas es menor a 0.05, por lo que si se observan más de 61 resultados significativos, es muy probable que algunos de ellos correspondan a situaciones donde se cumple la hipótesis alternativa. Una desventaja de este enfoque es que exagera la evidencia de que algunas de las hipótesis alternativas son verdaderas cuando las estadísticas de prueba están correlacionadas positivamente, lo que ocurre comúnmente en la práctica. [ cita necesaria ] . Por otro lado, el enfoque sigue siendo válido incluso en presencia de correlación entre las estadísticas de la prueba, siempre que se pueda demostrar que la distribución de Poisson proporciona una buena aproximación para el número de resultados significativos. Este escenario surge, por ejemplo, cuando se extraen importantes conjuntos de elementos frecuentes de conjuntos de datos transaccionales. Además, un análisis cuidadoso en dos etapas puede limitar el FDR a un nivel preespecificado. [14]

Otro enfoque común que se puede utilizar en situaciones en las que las estadísticas de la prueba se pueden estandarizar a puntuaciones Z es hacer una gráfica de cuantiles normales de las estadísticas de la prueba. Si los cuantiles observados están notablemente más dispersos que los cuantiles normales, esto sugiere que algunos de los resultados significativos pueden ser verdaderos positivos. [ cita necesaria ]

Ver también

Conceptos clave
Métodos generales de ajuste alfa para comparaciones múltiples.
Conceptos relacionados

Referencias

  1. ^ Molinero, RG (1981). Inferencia estadística simultánea 2ª ed . Springer Verlag Nueva York. ISBN 978-0-387-90548-8.
  2. ^ Benjamini, Y. (2010). "Inferencia simultánea y selectiva: éxitos actuales y desafíos futuros". Diario Biométrico . 52 (6): 708–721. doi :10.1002/bimj.200900299. PMID  21154895. S2CID  8806192.
  3. ^ "Inicio". mcp-conference.org .
  4. ^ Kutner, Michael; Nachtsheim, Christopher; Neter, Juan ; Li, William (2005). Modelos estadísticos lineales aplicados . McGraw-Hill Irwin. págs. 744–745. ISBN 9780072386882.
  5. ^ Aickin, M; Gensler, H (mayo de 1996). "Ajustar para múltiples pruebas al informar los resultados de la investigación: los métodos Bonferroni vs Holm". Soy J Salud Pública . 86 (5): 726–728. doi :10.2105/ajph.86.5.726. PMC 1380484 . PMID  8629727. 
  6. ^ Bayer, Adrián E.; Seljak, Uroš (2020). "El efecto mirar a otra parte desde una perspectiva bayesiana y frecuentista unificada". Revista de Cosmología y Física de Astropartículas . 2020 (10): 009. arXiv : 2007.13821 . Código Bib : 2020JCAP...10..009B. doi :10.1088/1475-7516/2020/10/009. S2CID  220830693.
  7. ^ Qu, Hui-Qi; Tien, Mateo; Polychronakos, Constantin (1 de octubre de 2010). "Significación estadística en estudios de asociación genética". Medicina Clínica y de Investigación . 33 (5): E266-E270. ISSN  0147-958X. PMC 3270946 . PMID  20926032. 
  8. ^ Benjamín, Yoav; Hochberg, Yosef (1995). "Controlar la tasa de descubrimientos falsos: un enfoque práctico y poderoso para pruebas múltiples". Revista de la Royal Statistical Society, Serie B. 57 (1): 125-133. JSTOR  2346101.
  9. ^ Piso, JD; Tibshirani, Robert (2003). "Importancia estadística para estudios de todo el genoma". PNAS . 100 (16): 9440–9445. Código Bib : 2003PNAS..100.9440S. doi : 10.1073/pnas.1530509100 . JSTOR  3144228. PMC 170937 . PMID  12883005. 
  10. ^ Efrón, Bradley; Tibshirani, Robert; Piso, John D.; Tusher, Virginia (2001). "Análisis empírico de Bayes de un experimento de microarrays". Revista de la Asociación Estadounidense de Estadística . 96 (456): 1151-1160. doi :10.1198/016214501753382129. JSTOR  3085878. S2CID  9076863.
  11. ^ Noble, William S. (1 de diciembre de 2009). "¿Cómo funciona la corrección de pruebas múltiples?". Biotecnología de la Naturaleza . 27 (12): 1135-1137. doi :10.1038/nbt1209-1135. ISSN  1087-0156. PMC 2907892 . PMID  20010596. 
  12. ^ Joven, SS, Karr, A. (2011). «Deming, datos y estudios observacionales» (PDF) . Significado . 8 (3): 116-120. doi : 10.1111/j.1740-9713.2011.00506.x .{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  13. ^ Smith, GD, Shah, E. (2002). "Extracción de datos, sesgo o confusión". BMJ . 325 (7378): 1437–1438. doi :10.1136/bmj.325.7378.1437. PMC 1124898 . PMID  12493654. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  14. ^ Kirsch, A; Mitzenmacher, M ; Pietracaprina, A; Pucci, G; Upfal, E ; Vandin, F (junio de 2012). "Un enfoque riguroso y eficiente para identificar conjuntos de elementos frecuentes estadísticamente significativos". Revista de la ACM . 59 (3): 12:1–12:22. arXiv : 1002.1104 . doi :10.1145/2220357.2220359.

Otras lecturas