La prueba de razón de probabilidad secuencial (SPRT) es una prueba de hipótesis secuencial específica , desarrollada por Abraham Wald [1] y posteriormente demostrada como óptima por Wald y Jacob Wolfowitz [2] . El resultado de Neyman y Pearson de 1933 inspiró a Wald a reformularlo como un problema de análisis secuencial. El lema de Neyman-Pearson, por el contrario, ofrece una regla general para cuando se recopilan todos los datos (y se conoce su razón de verosimilitud).
Aunque originalmente se desarrolló para su uso en estudios de control de calidad en el ámbito de la fabricación, la SPRT se ha formulado para su uso en pruebas computarizadas de sujetos humanos como criterio de finalización. [3] [4] [5]
Al igual que en las pruebas de hipótesis clásicas , la SPRT comienza con un par de hipótesis, por ejemplo , para la hipótesis nula y la hipótesis alternativa, respectivamente. Deben especificarse de la siguiente manera:
El siguiente paso es calcular la suma acumulada del cociente de verosimilitud logarítmica , a medida que llegan nuevos datos: con , entonces, para =1,2,...,
La regla de detención es un esquema de umbral simple:
donde y ( ) dependen de los errores de tipo I y tipo II deseados , y . Pueden elegirse de la siguiente manera:
y
En otras palabras, y debe decidirse de antemano para establecer los umbrales de forma adecuada. El valor numérico dependerá de la aplicación. La razón por la que es solo una aproximación es que, en el caso discreto, la señal puede cruzar el umbral entre muestras. Por lo tanto, dependiendo de la penalización por cometer un error y de la frecuencia de muestreo , se pueden establecer los umbrales de forma más agresiva. Los límites exactos son correctos en el caso continuo.
Un ejemplo clásico es la estimación de parámetros de una función de distribución de probabilidad . Consideremos la distribución exponencial :
Las hipótesis son
Entonces la función de log-verosimilitud (LLF) para una muestra es
La suma acumulada de los LLF para todos los x es
En consecuencia, la regla de detención es:
Después de reorganizarlo finalmente encontramos
Los umbrales son simplemente dos líneas paralelas con pendiente . El muestreo debe detenerse cuando la suma de las muestras se desvía fuera de la región de muestreo continuo .
La prueba se realiza sobre la métrica de proporción y prueba que una variable p es igual a uno de dos puntos deseados, p 1 o p 2 . La región entre estos dos puntos se conoce como la región de indiferencia (RI). Por ejemplo, suponga que está realizando un estudio de control de calidad en un lote de fábrica de widgets. A la gerencia le gustaría que el lote tuviera un 3% o menos de widgets defectuosos, pero el 1% o menos es el lote ideal que pasaría con gran éxito. En este ejemplo, p 1 = 0,01 y p 2 = 0,03 y la región entre ellos es la RI porque la gerencia considera que estos lotes son marginales y está de acuerdo con que se clasifiquen de cualquier manera. Los widgets se muestrearían uno a la vez del lote (análisis secuencial) hasta que la prueba determine, dentro de un nivel de error aceptable, que el lote es ideal o debe rechazarse.
El SPRT es actualmente el método predominante para clasificar a los examinados en una prueba de clasificación computarizada de longitud variable (CCT) [ cita requerida ] . Los dos parámetros son p 1 y p 2 y se especifican determinando una puntuación de corte (umbral) para los examinados en la métrica de proporción correcta y seleccionando un punto por encima y por debajo de esa puntuación de corte. Por ejemplo, supongamos que la puntuación de corte se establece en 70% para una prueba. Podríamos seleccionar p 1 = 0,65 y p 2 = 0,75 . La prueba luego evalúa la probabilidad de que la puntuación real de un examinado en esa métrica sea igual a uno de esos dos puntos. Si se determina que el examinado está en 75%, aprueba, y suspende si se determina que está en 65%.
Estos puntos no se especifican de forma completamente arbitraria. Una puntuación de corte siempre debe establecerse con un método legalmente defendible, como un procedimiento Angoff modificado . Nuevamente, la región de indiferencia representa la región de puntuaciones que el diseñador de la prueba está de acuerdo con que vayan en cualquier dirección (aprobado o reprobado). El parámetro superior p 2 es conceptualmente el nivel más alto que el diseñador de la prueba está dispuesto a aceptar para un reprobado (porque todos los que están por debajo de él tienen una buena probabilidad de reprobar), y el parámetro inferior p 1 es el nivel más bajo que el diseñador de la prueba está dispuesto a aceptar para un aprobado (porque todos los que están por encima de él tienen una probabilidad decente de aprobar). Si bien esta definición puede parecer una carga relativamente pequeña, considere el caso de alto riesgo de una prueba de licencia para médicos: ¿en qué punto deberíamos considerar que alguien está en uno de estos dos niveles?
Si bien la SPRT se aplicó por primera vez a las pruebas en la época de la teoría clásica de las pruebas , como se aplica en el párrafo anterior, Reckase (1983) sugirió que se utilizara la teoría de respuesta al ítem para determinar los parámetros p 1 y p 2 . La puntuación de corte y la región de indiferencia se definen en la métrica de capacidad latente (theta) y se traducen a la métrica de proporción para el cálculo. La investigación sobre CCT desde entonces ha aplicado esta metodología por varias razones:
Spiegelhalter et al. [6] han demostrado que la SPRT puede utilizarse para supervisar el desempeño de médicos, cirujanos y otros profesionales de la medicina de forma que se pueda advertir con antelación de posibles resultados anómalos. En su artículo de 2003, demostraron que podría haber ayudado a identificar a Harold Shipman como asesino mucho antes de que fuera identificado en realidad.
Más recientemente, en 2011, se introdujo una extensión del método SPRT denominada Prueba de Razón de Probabilidad Secuencial Maximizada (MaxSPRT) [7] . La característica destacada de MaxSPRT es la posibilidad de una hipótesis alternativa unilateral compuesta y la introducción de un límite de parada superior. El método se ha utilizado en varios estudios de investigación médica. [8]