Tasa de cobertura falsa

En estadística , una tasa de cobertura falsa (FCR) es la tasa promedio de cobertura falsa , es decir, que no cubre los parámetros verdaderos, entre los intervalos seleccionados.

El FCR brinda una cobertura simultánea a un nivel de (1 − α )×100% para todos los parámetros considerados en el problema. El FCR tiene una fuerte conexión con la tasa de falsos descubrimientos (FDR). Ambos métodos abordan el problema de las comparaciones múltiples , el FCR desde el punto de vista de los intervalos de confianza (IC) y el FDR desde el punto de vista del valor P.

El FCR era necesario debido a los peligros que causa la inferencia selectiva. Los investigadores y científicos tienden a informar o resaltar solo la parte de los datos que se considera significativa sin indicar claramente las diversas hipótesis que se consideraron. Por lo tanto, es necesario comprender cómo se cubren falsamente los datos. Hay muchos procedimientos de FCR que se pueden utilizar dependiendo de la longitud del IC: seleccionado por Bonferroni, ajustado por Bonferroni, ^{[ cita requerida ]} IC ajustados seleccionados por BH (Benjamini y Yekutieli 2005 ^[1] ). El incentivo de elegir un procedimiento sobre otro es asegurar que el IC sea lo más estrecho posible y mantener el FCR. Para los experimentos de microarrays y otras aplicaciones modernas, hay una gran cantidad de parámetros , a menudo decenas de miles o más y es muy importante elegir el procedimiento más potente.

El FCR fue introducido por primera vez por Daniel Yekutieli en su tesis doctoral en 2001. ^[2]

Definiciones

No mantener el FCR significa cuando , donde es el número de hipótesis nulas verdaderas, es el número de hipótesis rechazadas, es el número de falsos positivos y es el nivel de significancia. Los intervalos con probabilidad de cobertura simultánea pueden controlar que el FCR esté limitado por . ${\text{FCR}}>q$ $q={\frac {V}{R}}={\frac {\alpha m_{0}}{R}}$ $estilo de visualización m_{0}}$ ${\estilo de visualización R}$ ${\estilo de visualización V}$ ${\estilo de visualización \alpha}$ ${\estilo de visualización 1-q}$ ${\estilo de visualización q}$

Clasificación de pruebas de hipótesis múltiples

La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: $H 1, H 2, ..., H m .$ Mediante una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. Al sumar cada tipo de resultado sobre todos los H _i, obtenemos las siguientes variables aleatorias:

$m$ es el número total de hipótesis probadas
$estilo de visualización m_{0}}$ es el número de hipótesis nulas verdaderas , un parámetro desconocido
$m-m_{0}$ es el número de hipótesis alternativas verdaderas
$V$ es el número de falsos positivos (error tipo I) (también llamados "falsos descubrimientos")
$S$ es el número de verdaderos positivos (también llamados "descubrimientos verdaderos")
$T$ es el número de falsos negativos (error tipo II)
$U$ es el número de verdaderos negativos
$R=V+S$ es el número de hipótesis nulas rechazadas (también llamadas "descubrimientos", ya sean verdaderas o falsas)

En $m$ pruebas de hipótesis de las cuales las hipótesis nulas son verdaderas, $R$ es una variable aleatoria observable y $S$ , $T$ , $U$ y $V$ son variables aleatorias no observables . $estilo de visualización m_{0}}$

Los problemas que aborda el FCR

Selección

La selección causa una cobertura promedio reducida. La selección puede presentarse como un condicionamiento a un evento definido por los datos y puede afectar la probabilidad de cobertura de un IC para un solo parámetro . De manera equivalente, el problema de la selección cambia el sentido básico de los valores P. Los procedimientos FCR consideran que el objetivo de cobertura condicional siguiendo cualquier regla de selección para cualquier conjunto de valores (desconocidos) para los parámetros es imposible de lograr. Una propiedad más débil cuando se trata de IC selectivos es posible y evitará declaraciones de cobertura falsas. FCR es una medida de cobertura de intervalo después de la selección. Por lo tanto, aunque un IC 1 − α no ofrece cobertura selectiva ( condicional ), la probabilidad de construir un IC sin cobertura es como máximo α , donde

\Pr[\theta \not \in \mathrm {CI} ,\ {\text{CI construido}}]\leq \Pr[\theta \not \in \mathrm {CI} ]\leq \alpha

Selección y multiplicidad

Cuando se enfrenta tanto a la multiplicidad (inferencia sobre múltiples parámetros) como a la selección , no solo la proporción esperada de cobertura sobre los parámetros seleccionados en 1−α no es equivalente a la proporción esperada de no cobertura en α, sino que además esta última ya no se puede asegurar construyendo intervalos de confianza marginales para cada parámetro seleccionado. Los procedimientos FCR resuelven esto tomando la proporción esperada de parámetros no cubiertos por sus intervalos de confianza entre los parámetros seleccionados, donde la proporción es 0 si no se selecciona ningún parámetro. Esta tasa de declaraciones de cobertura falsas (FCR) es una propiedad de cualquier procedimiento que se define por la forma en que se seleccionan los parámetros y la forma en que se construyen los intervalos múltiples.

Procedimientos de control

Procedimiento de Bonferroni (selección de Bonferroni – ajuste de Bonferroni) para IC simultánea

IC simultáneos con procedimiento de Bonferroni cuando tenemos m parámetros, cada IC marginal construido en el nivel 1 − α/m. Sin selección, estos IC ofrecen cobertura simultánea, en el sentido de que la probabilidad de que todos los IC cubran sus respectivos parámetros es al menos 1 − α. Desafortunadamente, incluso una propiedad tan fuerte no asegura la propiedad de confianza condicional después de la selección.

FCR para IC simultáneo seleccionado por Bonferroni y ajustado por Bonferroni

El procedimiento Bonferroni-Bonferroni no puede ofrecer cobertura condicional, sin embargo controla el FCR en <α De hecho, lo hace demasiado bien, en el sentido de que el FCR es demasiado cercano a 0 para valores grandes de θ. La selección de intervalos se basa en pruebas de Bonferroni, y luego se construyen IC de Bonferroni. El FCR se estima como, se calcula la proporción de intervalos que no cubren sus respectivos parámetros entre los IC construidos (fijando la proporción en 0 cuando no se selecciona ninguno). Donde la selección se basa en pruebas individuales no ajustadas y se construyen IC no ajustados.

IC seleccionados por BH ajustados por FCR

En el procedimiento BH para FDR después de ordenar los valores p P (1) ≤ • • • ≤ P ( m ) y calcular R = max{ j : P ( j ) ≤ j • q / m }, las hipótesis nulas R para las cuales P ( i ) ≤ R • q / m se rechazan. Si la prueba se realiza utilizando el procedimiento de Bonferroni, entonces el límite inferior del FCR puede caer muy por debajo del nivel deseado q , lo que implica que los intervalos son demasiado largos. Por el contrario, la aplicación del siguiente procedimiento, que combina el procedimiento general con el FDR que controla la prueba en el procedimiento BH, también produce un límite inferior para el FCR, q /2 ≤ FCR. Este procedimiento es preciso en el sentido de que para algunas configuraciones, el FCR se acerca a q .

1. Ordene los valores p utilizados para probar las m hipótesis con respecto a los parámetros, P (1) ≤ • • • ≤ P ( m ).

2. Calcular R = máx{ i : P ( i ) ≤ i • q / m }.

3. Seleccione los parámetros R para los cuales P ( i ) ≤ R • q / m , correspondientes a las hipótesis rechazadas.

4. Construya un IC 1 − R • q / m para cada parámetro seleccionado.

Véase también

Referencias

Notas al pie

^ Benjamini, Yoav; Yekutieli, Daniel (marzo de 2005). "Tasa de descubrimiento falso: intervalos de confianza múltiples ajustados para parámetros seleccionados" (pdf) . Revista de la Asociación Estadounidense de Estadística . 100 (469): 71–93. doi :10.1198/016214504000001907.
^ Resultados teóricos necesarios para aplicar la tasa de falsos descubrimientos en problemas estadísticos. Abril de 2001 (Sección 3.2, página 51)

Otras fuentes

Zhao, Zhigen; Hwang, JT Gene (2012). "Tasa de cobertura falsa de Bayes empírica que controla los intervalos de confianza" (pdf) . Journal of the Royal Statistical Society, Serie B. doi : 10.1111/j.1467-9868.2012.01033.x.^{[ enlace muerto permanente ]}