Tasa de falsos positivos

En estadística , cuando se realizan comparaciones múltiples , una tasa de falsos positivos (también conocida como tasa de falsas alarmas o tasa de caída ) es la probabilidad de rechazar falsamente la hipótesis nula para una prueba en particular . La tasa de falsos positivos se calcula como la relación entre el número de eventos negativos categorizados erróneamente como positivos ( falsos positivos ) y el número total de eventos negativos reales (independientemente de la clasificación).

La tasa de falsos positivos (o "tasa de falsas alarmas") generalmente se refiere a la expectativa de la proporción de falsos positivos .

Definición

La tasa de falsos positivos es ${\boldsymbol {\mathrm {FP} }}={\frac {\mathrm {FP} }{\mathrm {FP} +\mathrm {TN} }}$

donde es el número de falsos positivos, es el número de verdaderos negativos y es el número total de negativos de verdad fundamental. $\mathrm {FP}$ $\mathrm {TN}$ $N=\mathrm {FP} +\mathrm {TN}$

El nivel de significancia que se utiliza para probar cada hipótesis se establece en función de la forma de inferencia ( inferencia simultánea vs. inferencia selectiva ) y sus criterios de respaldo (por ejemplo, FWER o FDR ), que fueron predeterminados por el investigador.

Al realizar comparaciones múltiples en un marco estadístico como el anterior, la tasa de falsos positivos (también conocida como tasa de falsas alarmas , en contraposición a la tasa de falsos positivos / tasa de falsas alarmas ) generalmente se refiere a la probabilidad de rechazar falsamente la hipótesis nula para una prueba en particular . Usando la terminología sugerida aquí, es simplemente . $Estilo de visualización V/m_{0}$

Dado que V es una variable aleatoria y es una constante ( ), la tasa de falsos positivos también es una variable aleatoria, con un rango entre 0 y 1. La tasa de falsos positivos (o "tasa de falsas alarmas") generalmente se refiere a la expectativa de la tasa de falsos positivos , expresada por . $estilo de visualización m_{0}}$ $V\leq m_{0}$
$E(V/m_{0})$

Vale la pena notar que las dos definiciones ("proporción de falsos positivos" / "tasa de falsos positivos") son en cierta medida intercambiables. Por ejemplo, en el artículo de referencia ^[1] se utiliza como "tasa" de falsos positivos en lugar de como su "proporción". $Estilo de visualización V/m_{0}$

Clasificación de pruebas de hipótesis múltiples

La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: $H 1, H 2, ..., H m .$ Mediante una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. Al sumar cada tipo de resultado sobre todos los H _i, obtenemos las siguientes variables aleatorias:

$m$ es el número total de hipótesis probadas
$estilo de visualización m_{0}}$ es el número de hipótesis nulas verdaderas , un parámetro desconocido
$m-m_{0}$ es el número de hipótesis alternativas verdaderas
$V$ es el número de falsos positivos (error tipo I) (también llamados "falsos descubrimientos")
$S$ es el número de verdaderos positivos (también llamados "descubrimientos verdaderos")
$T$ es el número de falsos negativos (error tipo II)
$U$ es el número de verdaderos negativos
$R=V+S$ es el número de hipótesis nulas rechazadas (también llamadas "descubrimientos", ya sean verdaderas o falsas)

En $m$ pruebas de hipótesis de las cuales las hipótesis nulas son verdaderas, $R$ es una variable aleatoria observable y $S$ , $T$ , $U$ y $V$ son variables aleatorias no observables . $estilo de visualización m_{0}}$

Comparación con otras tasas de error

Si bien la tasa de falsos positivos es matemáticamente igual a la tasa de error tipo I , se la considera un término separado por las siguientes razones: ^{[ cita requerida ]}

El nivel de error de tipo I suele estar asociado a la determinación a priori del nivel de significación por parte del investigador: el nivel de significación representa un nivel de error aceptable considerando que todas las hipótesis nulas son verdaderas (la hipótesis "nula global"). La elección de un nivel de significación puede ser, por tanto, algo arbitraria (es decir, establecer el 10% (0,1), el 5% (0,05), el 1% (0,01), etc.).

Por el contrario, la tasa de falsos positivos está asociada a un resultado post-previo , que es el número esperado de falsos positivos dividido por el número total de hipótesis bajo la combinación real de hipótesis nulas verdaderas y falsas (sin tener en cuenta la hipótesis "nula global"). Dado que la tasa de falsos positivos es un parámetro que no está controlado por el investigador, no se puede identificar con el nivel de significación.

Además, la tasa de falsos positivos se utiliza normalmente en relación con una prueba médica o un dispositivo de diagnóstico (es decir, "la tasa de falsos positivos de un determinado dispositivo de diagnóstico es del 1%"), mientras que el error tipo I es un término asociado a las pruebas estadísticas, donde el significado de la palabra "positivo" no es tan claro (es decir, "el error tipo I de una prueba es del 1%").

La tasa de falsos positivos tampoco debe confundirse con la tasa de error por familia , que se define como . A medida que aumenta el número de pruebas, la tasa de error por familia generalmente converge a 1, mientras que la tasa de falsos positivos permanece fija. ${\boldsymbol {\mathrm {FWER}}=\Pr(V\geq 1)\,$

Por último, es importante destacar la profunda diferencia entre la tasa de falsos positivos y la tasa de falsos descubrimientos : mientras que la primera se define como , la segunda se define como . $E(V/m_{0})$ $E(V/R)$

Véase también

Referencias

^ Burke, Donald; Brundage, John; Redfield, Robert (1988). "Medición de la tasa de falsos positivos en un programa de detección de infecciones por el virus de la inmunodeficiencia humana". The New England Journal of Medicine . 319 (15): 961–964. doi :10.1056/NEJM198810133191501. PMID 3419477.