Prueba de razón de probabilidad secuencial

La prueba de razón de probabilidad secuencial (SPRT) es una prueba de hipótesis secuencial específica , desarrollada por Abraham Wald ^[1] y posteriormente demostrada como óptima por Wald y Jacob Wolfowitz ^[2] . El resultado de Neyman y Pearson de 1933 inspiró a Wald a reformularlo como un problema de análisis secuencial. El lema de Neyman-Pearson, por el contrario, ofrece una regla general para cuando se recopilan todos los datos (y se conoce su razón de verosimilitud).

Aunque originalmente se desarrolló para su uso en estudios de control de calidad en el ámbito de la fabricación, la SPRT se ha formulado para su uso en pruebas computarizadas de sujetos humanos como criterio de finalización. ^[3]^[4]^[5]

Teoría

Al igual que en las pruebas de hipótesis clásicas , la SPRT comienza con un par de hipótesis, por ejemplo , para la hipótesis nula y la hipótesis alternativa, respectivamente. Deben especificarse de la siguiente manera: $Estilo de visualización H_{0}$ $Estilo de visualización H_{1}$

H_{0}:p=p_{0}

H_{1}:p=p_{1}

El siguiente paso es calcular la suma acumulada del cociente de verosimilitud logarítmica , a medida que llegan nuevos datos: con , entonces, para =1,2,..., $\log \Lambda _ {i}$ $Estilo de visualización S_{0}=0$ ${\estilo de visualización i}$

S_{i}=S_{i-1}+\log \Lambda _{i}

La regla de detención es un esquema de umbral simple:

$a<S_{i}<b$ : continuar monitoreando ( desigualdad crítica )
$Estilo de visualización S_{i}\geq b$ : Aceptar $Estilo de visualización H_{1}$
$S_{i}\leq a$ : Aceptar $Estilo de visualización H_{0}$

donde y ( ) dependen de los errores de tipo I y tipo II deseados , y . Pueden elegirse de la siguiente manera: ${\estilo de visualización a}$ ${\estilo de visualización b}$ $a<0<b<\infty$ ${\estilo de visualización \alpha}$ ${\estilo de visualización \beta}$

$a\approx \log {\frac {\beta }{1-\alpha }}$ y $b\approx \log {\frac {1-\beta }{\alpha }}$

En otras palabras, y debe decidirse de antemano para establecer los umbrales de forma adecuada. El valor numérico dependerá de la aplicación. La razón por la que es solo una aproximación es que, en el caso discreto, la señal puede cruzar el umbral entre muestras. Por lo tanto, dependiendo de la penalización por cometer un error y de la frecuencia de muestreo , se pueden establecer los umbrales de forma más agresiva. Los límites exactos son correctos en el caso continuo. ${\estilo de visualización \alpha}$ ${\estilo de visualización \beta}$

Ejemplo

Un ejemplo clásico es la estimación de parámetros de una función de distribución de probabilidad . Consideremos la distribución exponencial :

f_{\theta}(x)=\theta ^{-1}e^{-{\frac {x}{\theta }}},\qquad x,\theta >0

Las hipótesis son

{\begin{cases}H_{0}:\theta =\theta _{0}\\H_{1}:\theta =\theta _{1}\end{cases}}\qquad \theta _{1}>\theta _{0}.

Entonces la función de log-verosimilitud (LLF) para una muestra es

{\begin{aligned}\log \Lambda (x)&=\log \left({\frac {\theta _{1}^{-1}e^{-{\frac {x}{\theta _{1}}}}}{\theta _{0}^{-1}e^{-{\frac {x}{\theta _{0}}}}}}\right)\\&=\log \left({\frac {\theta _{0}}{\theta _{1}}}e^{{\frac {x}{\theta _{0}}}-{\frac {x}{\theta _{1}}}}\right)\\&=\log \left({\frac {\theta _{0}}{\theta _{1}}}\right)+\log \left(e^{{\frac {x}{\theta _{0}}}-{\frac {x}{\theta _{1}}}}\right)\\&=-\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)+\left({\frac {x}{\theta _{0}}}-{\frac {x}{\theta _{1}}}\right)\\&=-\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)+\left({\frac {\theta _{1}-\theta _{0}}{\theta _{0}\theta _{1}}}\right)x\end{aligned}}

La suma acumulada de los LLF para todos $los x$ es

S_{n}=\sum _{i=1}^{n}\log \Lambda (x_{i})=-n\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)+\left({\frac {\theta _{1}-\theta _{0}}{\theta _{0}\theta _{1}}}\right)\sum _{i=1}^{n}x_{i}

En consecuencia, la regla de detención es:

a<-n\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)+\left({\frac {\theta _{1}-\theta _{0}}{\theta _{0}\theta _{1}}}\right)\sum _{i=1}^{n}x_{i}<b

Después de reorganizarlo finalmente encontramos

a+n\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)<\left({\frac {\theta _{1}-\theta _{0}}{\theta _{0}\theta _{1}}}\right)\sum _{i=1}^{n}x_{i}<b+n\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)

Los umbrales son simplemente dos líneas paralelas con pendiente . El muestreo debe detenerse cuando la suma de las muestras se desvía fuera de la región de muestreo continuo . $\log(\theta _{1}/\theta _{0})$

Aplicaciones

Fabricación

La prueba se realiza sobre la métrica de proporción y prueba que una variable p es igual a uno de dos puntos deseados, p ₁ o p ₂ . La región entre estos dos puntos se conoce como la región de indiferencia (RI). Por ejemplo, suponga que está realizando un estudio de control de calidad en un lote de fábrica de widgets. A la gerencia le gustaría que el lote tuviera un 3% o menos de widgets defectuosos, pero el 1% o menos es el lote ideal que pasaría con gran éxito. En este ejemplo, p ₁ = 0,01 y p ₂ = 0,03 y la región entre ellos es la RI porque la gerencia considera que estos lotes son marginales y está de acuerdo con que se clasifiquen de cualquier manera. Los widgets se muestrearían uno a la vez del lote (análisis secuencial) hasta que la prueba determine, dentro de un nivel de error aceptable, que el lote es ideal o debe rechazarse.

Pruebas de sujetos humanos examinados

El SPRT es actualmente el método predominante para clasificar a los examinados en una prueba de clasificación computarizada de longitud variable (CCT) ^{[ cita requerida ]} . Los dos parámetros son p ₁ y p ₂ y se especifican determinando una puntuación de corte (umbral) para los examinados en la métrica de proporción correcta y seleccionando un punto por encima y por debajo de esa puntuación de corte. Por ejemplo, supongamos que la puntuación de corte se establece en 70% para una prueba. Podríamos seleccionar p ₁ = 0,65 y p ₂ = 0,75 . La prueba luego evalúa la probabilidad de que la puntuación real de un examinado en esa métrica sea igual a uno de esos dos puntos. Si se determina que el examinado está en 75%, aprueba, y suspende si se determina que está en 65%.

Estos puntos no se especifican de forma completamente arbitraria. Una puntuación de corte siempre debe establecerse con un método legalmente defendible, como un procedimiento Angoff modificado . Nuevamente, la región de indiferencia representa la región de puntuaciones que el diseñador de la prueba está de acuerdo con que vayan en cualquier dirección (aprobado o reprobado). El parámetro superior p ₂ es conceptualmente el nivel más alto que el diseñador de la prueba está dispuesto a aceptar para un reprobado (porque todos los que están por debajo de él tienen una buena probabilidad de reprobar), y el parámetro inferior p ₁ es el nivel más bajo que el diseñador de la prueba está dispuesto a aceptar para un aprobado (porque todos los que están por encima de él tienen una probabilidad decente de aprobar). Si bien esta definición puede parecer una carga relativamente pequeña, considere el caso de alto riesgo de una prueba de licencia para médicos: ¿en qué punto deberíamos considerar que alguien está en uno de estos dos niveles?

Si bien la SPRT se aplicó por primera vez a las pruebas en la época de la teoría clásica de las pruebas , como se aplica en el párrafo anterior, Reckase (1983) sugirió que se utilizara la teoría de respuesta al ítem para determinar los parámetros p ₁ y p ₂ . La puntuación de corte y la región de indiferencia se definen en la métrica de capacidad latente (theta) y se traducen a la métrica de proporción para el cálculo. La investigación sobre CCT desde entonces ha aplicado esta metodología por varias razones:

Los bancos de artículos grandes tienden a calibrarse con IRT
Esto permite una especificación más precisa de los parámetros.
Al utilizar la función de respuesta del elemento para cada elemento, es fácil permitir que los parámetros varíen entre elementos.

Detección de resultados médicos anómalos

Spiegelhalter et al. ^[6] han demostrado que la SPRT puede utilizarse para supervisar el desempeño de médicos, cirujanos y otros profesionales de la medicina de forma que se pueda advertir con antelación de posibles resultados anómalos. En su artículo de 2003, demostraron que podría haber ayudado a identificar a Harold Shipman como asesino mucho antes de que fuera identificado en realidad.

Extensiones

Máximo SPRT

Más recientemente, en 2011, se introdujo una extensión del método SPRT denominada Prueba de Razón de Probabilidad Secuencial Maximizada (MaxSPRT) ^[7] . La característica destacada de MaxSPRT es la posibilidad de una hipótesis alternativa unilateral compuesta y la introducción de un límite de parada superior. El método se ha utilizado en varios estudios de investigación médica. ^[8]

Véase también

Referencias

^ Wald, Abraham (junio de 1945). "Pruebas secuenciales de hipótesis estadísticas". Anales de estadística matemática . 16 (2): 117–186. doi : 10.1214/aoms/1177731118 . JSTOR 2235829.
^ Wald, A.; Wolfowitz, J. (1948). "Carácter óptimo de la prueba de razón de probabilidad secuencial". Anales de estadística matemática . 19 (3): 326–339. doi : 10.1214/aoms/1177730197 . JSTOR 2235638.
^ Ferguson, Richard L. (1969). El desarrollo, la implementación y la evaluación de una prueba ramificada asistida por computadora para un programa de instrucción prescrita individualmente. Tesis doctoral inédita, Universidad de Pittsburgh.
^ Reckase, MD (1983). Un procedimiento para la toma de decisiones utilizando pruebas personalizadas. En DJ Weiss (Ed.), Nuevos horizontes en las pruebas: teoría de rasgos latentes y pruebas adaptativas computarizadas (pp. 237-254). Nueva York: Academic Press.
^ Eggen, TJHM (1999). "Selección de ítems en pruebas adaptativas con la prueba de razón de probabilidad secuencial". Medición psicológica aplicada . 23 (3): 249–261. doi :10.1177/01466219922031365. S2CID 120780131.
^ Pruebas de razón de probabilidad secuencial ajustadas al riesgo: aplicación a la cirugía cardíaca de Bristol, Shipman y de adultos Spiegelhalter, D. et al Int J Qual Health Care vol 15 7-13 (2003) ^{[ enlace muerto ]}
^ Kulldorff, Martin; Davis, Robert L.; Kolczak†, Margarette; Lewis, Edwin; Lieu, Tracy; Platt, Richard (2011). "Una prueba de razón de probabilidad secuencial maximizada para la vigilancia de la seguridad de medicamentos y vacunas". Análisis secuencial . 30 : 58–78. doi : 10.1080/07474946.2011.539924 .
^ 2do párrafo al último de la sección 1: http://www.tandfonline.com/doi/full/10.1080/07474946.2011.539924 Una prueba de razón de probabilidad secuencial maximizada para la vigilancia de la seguridad de medicamentos y vacunas Kulldorff, M. et al Análisis secuencial: métodos de diseño y aplicaciones vol 30, número 1

Lectura adicional

Ghosh, Bhaskar Kumar (1970). Pruebas secuenciales de hipótesis estadísticas . Lectura: Addison-Wesley .
Holger Wilker: Sequential-Statistik in der Praxis , BoD, Norderstedt 2012, ISBN 978-3848232529 .

Enlaces externos

Prueba de razón de probabilidad secuencial de Wald para R por Stéphane Bottine
Prueba de razón de probabilidad secuencial de Wald para Python por Zhenning Yu