En las pruebas de hipótesis estadísticas , los valores e cuantifican la evidencia en los datos contra una hipótesis nula (por ejemplo, "la moneda es justa" o, en un contexto médico, "este nuevo tratamiento no tiene ningún efecto"). Sirven como una alternativa más sólida a los valores p , abordando algunas deficiencias de estos últimos.
A diferencia de los valores p, los valores e pueden manejar la continuación opcional: los valores e de experimentos subsiguientes (por ejemplo, ensayos clínicos relacionados con el mismo tratamiento) pueden simplemente multiplicarse para proporcionar un nuevo valor e "producto" que represente la evidencia en el experimento conjunto. Esto funciona incluso si, como sucede a menudo en la práctica, la decisión de realizar experimentos posteriores puede depender de formas vagas y desconocidas de los datos observados en experimentos anteriores, y no se sabe de antemano cuántos ensayos se realizarán: el valor e del producto sigue siendo una cantidad significativa, lo que lleva a pruebas con control de error de tipo I. Por esta razón, los valores e y su extensión secuencial, el proceso e , son los bloques de construcción fundamentales para métodos estadísticos válidos en cualquier momento (por ejemplo, secuencias de confianza). Otra ventaja sobre los valores p es que cualquier promedio ponderado de valores e sigue siendo un valor e, incluso si los valores e individuales son arbitrariamente dependientes. Esta es una de las razones por las que los valores e también han resultado ser herramientas útiles en pruebas múltiples . [1]
Los valores e se pueden interpretar de varias maneras diferentes: primero, el recíproco de cualquier valor e es en sí mismo un valor p, pero uno especial, conservador, bastante diferente de los valores p utilizados en la práctica. En segundo lugar, son generalizaciones amplias de los cocientes de verosimilitud y también están relacionados con los factores de Bayes , aunque son distintos de ellos. En tercer lugar, tienen una interpretación como apuestas. Por último, en un contexto secuencial, también se pueden interpretar como incrementos de supermartingalas no negativas . El interés por los valores e se ha disparado desde 2019, cuando se acuñó el término "valor e" y varios grupos de investigación lograron una serie de resultados innovadores. El primer artículo de descripción general apareció en 2023. [2]
Sea la hipótesis nula un conjunto de distribuciones de datos . Generalmente, cada una de ellas tiene un único resultado y un tamaño de muestra fijo o un tiempo de detención. Nos referiremos a tales , que representan la secuencia completa de resultados de un experimento estadístico, como una muestra o lote de resultados. Pero en algunos casos también puede ser una bolsa desordenada de resultados o un único resultado.
Una variable e o estadística e es una variable aleatoria no negativa tal que, bajo todos los supuestos , su valor esperado está limitado por 1:
.
El valor que toma la variable e se denomina valor e . En la práctica, el término valor e (un número) se utiliza a menudo cuando en realidad se hace referencia a la variable e subyacente (una variable aleatoria, es decir, una función medible de los datos).
Para cualquier variable e y cualquier y todos , se cumple que
En palabras: es un valor p, y la prueba basada en el valor e con nivel de significancia , que rechaza si , tiene un error de tipo I limitado por . Pero, mientras que con los valores p estándar la desigualdad (*) anterior suele ser una igualdad (con datos de valores continuos) o una casi igualdad (con datos discretos), este no es el caso con las variables e. Esto hace que las pruebas basadas en el valor e sean más conservadoras (menos potencia) que las basadas en valores p estándar, y es el precio a pagar por la seguridad (es decir, mantener las garantías de error de tipo I) bajo la continuación y el promedio opcionales.
Sea una hipótesis nula simple. Sea cualquier otra distribución en , y sea
sea su razón de verosimilitud. Entonces es una variable e. Por el contrario, cualquier variable e relativa a una hipótesis nula simple puede escribirse como una razón de verosimilitud con respecto a alguna distribución . Por lo tanto, cuando la hipótesis nula es simple, las variables e coinciden con las razones de verosimilitud. Sin embargo, también existen variables e para hipótesis nulas compuestas generales, y pueden considerarse entonces como generalizaciones de razones de verosimilitud. Las dos formas principales de construir variables e, UI y RIPr (ver más abajo), conducen a expresiones que también son variaciones de razones de verosimilitud.
Otras dos generalizaciones estándar de la razón de verosimilitud son (a) la razón de verosimilitud generalizada, como se utiliza en la prueba de razón de verosimilitud clásica estándar, y (b) el factor de Bayes . Es importante destacar que ni (a) ni (b) son variables e en general: las razones de verosimilitud generalizadas en el sentido (a) no son variables e a menos que la alternativa sea simple (ver más abajo en "inferencia universal"). Los factores de Bayes son variables e si la hipótesis nula es simple. Para ver esto, observe que, si representa un modelo estadístico y una densidad previa en , entonces podemos establecer como se indicó anteriormente que es la distribución marginal de Bayes con densidad
y luego también es un factor de Bayes de vs. Si la hipótesis nula es compuesta, entonces algunas variables e especiales pueden escribirse como factores de Bayes con algunos valores previos muy especiales, pero la mayoría de los factores de Bayes que uno encuentra en la práctica no son variables e y muchas variables e que uno encuentra en la práctica no son factores de Bayes. [2]
Supongamos que puede comprar un billete por 1 unidad monetaria, con un beneficio no negativo . Las afirmaciones " es una variable e " y " si la hipótesis nula es verdadera, no espera ganar dinero si participa en esta apuesta " son lógicamente equivalentes. Esto se debe a que ser una variable e significa que la ganancia esperada de comprar el billete es el beneficio menos el costo, es decir , que tiene una expectativa . Con base en esta interpretación, el valor e del producto para una secuencia de pruebas se puede interpretar como la cantidad de dinero que ha ganado al apostar secuencialmente con los beneficios dados por las variables e individuales y siempre reinvirtiendo todas sus ganancias. [3]
La interpretación de las apuestas se hace particularmente visible si reescribimos una variable e como donde tiene expectativa bajo todos y se elige de modo que como Cualquier variable e se puede escribir en la forma aunque con nulos paramétricos , escribirlo como una razón de verosimilitud suele ser matemáticamente más conveniente. La forma, por otro lado, suele ser más conveniente en entornos no paramétricos . Como ejemplo prototípico, [4] considere el caso en el que con los tomando valores en el intervalo acotado . Según , los son iid de acuerdo con una distribución con media ; no se hacen otras suposiciones acerca de . Entonces podemos construir primero una familia de variables e para resultados individuales, , para cualquier (estos son los para los que se garantiza que no son negativos). Luego podemos definir una nueva variable e para el vector de datos completo tomando el producto
,
donde es una estimación para , basada únicamente en datos pasados , y diseñada para hacerla lo más grande posible en el sentido de "e-power" o "GRO" (ver más abajo). Waudby-Smith y Ramdas usan este enfoque para construir intervalos de confianza "no paramétricos" para la media que tienden a ser significativamente más estrechos que aquellos basados en métodos más clásicos como los límites de Chernoff, Hoeffding y Bernstein . [4]
Los valores E son más adecuados que los valores p cuando se esperan pruebas de seguimiento que impliquen la misma hipótesis nula con diferentes datos o configuraciones experimentales. Esto incluye, por ejemplo, la combinación de resultados individuales en un metanálisis . La ventaja de los valores E en este contexto es que permiten una continuación opcional. De hecho, se han empleado en lo que puede ser el primer metanálisis completamente "en línea" del mundo con control explícito de errores de tipo I. [5]
De manera informal, la continuación opcional implica que el producto de cualquier número de valores e, , definido en muestras independientes , es en sí mismo un valor e, incluso si se permite que la definición de cada valor e dependa de todos los resultados anteriores, y sin importar qué regla se use para decidir cuándo dejar de recolectar nuevas muestras (por ejemplo, para realizar nuevos ensayos). De ello se deduce que, para cualquier nivel de significancia , si la hipótesis nula es verdadera, entonces la probabilidad de que un producto de valores e alguna vez se vuelva mayor que está limitada por . Por lo tanto, si decidimos combinar las muestras observadas hasta ahora y rechazamos la hipótesis nula si el valor e del producto es mayor que , entonces nuestra probabilidad de error Tipo I permanece limitada por . Decimos que las pruebas basadas en valores e siguen siendo seguras (válidas para el Tipo I) bajo la continuación opcional .
Matemáticamente, esto se demuestra mostrando primero que las variables e del producto forman una martingala de tiempo discreto no negativa en la filtración generada por (las variables e individuales son entonces incrementos de esta martingala). Los resultados se obtienen como consecuencia del teorema de detención opcional de Doob y la desigualdad de Ville .
Ya hemos utilizado implícitamente las variables e de producto en el ejemplo anterior, donde definimos las variables e en resultados individuales y diseñamos un nuevo valor e tomando productos. Por lo tanto, en el ejemplo, los resultados individuales desempeñan el papel de "lotes" (muestras completas) anteriores y, por lo tanto, incluso podemos realizar una detención opcional "dentro" del lote original : podemos detener el análisis de datos en cualquier resultado individual (no solo "lote de resultados") que nos guste, por cualquier razón, y rechazarlo si el producto hasta ahora excede . Sin embargo, no todas las variables e definidas para lotes de resultados se pueden descomponer como un producto de valores e por resultado de esta manera. Si esto no es posible, no podemos usarlas para la detención opcional (dentro de una muestra ) sino solo para la continuación opcional (de una muestra a la siguiente , etc.).
Si establecemos la variable independientemente de los datos obtenemos un valor e trivial : es una variable e por definición, pero nunca nos permitirá rechazar la hipótesis nula. Este ejemplo muestra que algunas variables e pueden ser mejores que otras, en un sentido que se definirá más adelante. Intuitivamente, una buena variable e es aquella que tiende a ser grande (mucho mayor que 1) si la alternativa es verdadera. Esto es análogo a la situación con los valores p: tanto los valores e como los valores p pueden definirse sin hacer referencia a una alternativa, pero si hay una alternativa disponible, nos gustaría que fueran pequeños (valores p) o grandes (valores e) con alta probabilidad. En las pruebas de hipótesis estándar, la calidad de una prueba válida se formaliza mediante la noción de potencia estadística , pero esta noción debe modificarse adecuadamente en el contexto de los valores e. [2] [6]
La noción estándar de calidad de una e-variable relativa a una alternativa dada , utilizada por la mayoría de los autores en el campo, es una generalización del criterio de Kelly en economía y (ya que exhibe relaciones cercanas con la potencia clásica) a veces se llama e-potencia ; [7] la e-variable óptima en este sentido se conoce como log-óptima u óptima de tasa de crecimiento (a menudo abreviada como GRO [6] ). En el caso de una alternativa simple , la e-potencia de una e-variable dada se define simplemente como la expectativa ; en el caso de alternativas compuestas, hay varias versiones (por ejemplo, absoluta del peor caso, relativa del peor caso) [6] de e-potencia y GRO.
Sea y ambos simples. Entonces la variable e de razón de verosimilitud tiene máxima potencia e en el sentido anterior, es decir, es GRO. [2]
Sea simple y sea compuesta, de modo que todos los elementos de tengan densidades (indicadas por letras minúsculas) relativas a la misma medida subyacente. Grünwald et al. muestran que, en condiciones de regularidad débil, la variable e de GRO existe, es esencialmente única y está dada por
donde es la Proyección de Información Inversa (RIPr) de sobre la envoltura convexa de . [6] Bajo otras condiciones de regularidad (y en todos los casos prácticamente relevantes encontrados hasta ahora), viene dada por una densidad marginal de Bayes : existe una distribución específica y única en tal que .
En el mismo contexto que el anterior, [8] muestra que, bajo ninguna condición de regularidad,
es una variable electrónica (la segunda igualdad se cumple si el estimador de máxima verosimilitud (MLE ) basado en los datos está siempre bien definido). Esta forma de construir variables electrónicas se ha denominado método de inferencia universal (IU) , "universal" en referencia al hecho de que no se requieren condiciones de regularidad.
Ahora, sea simple y sea compuesto, de modo que todos los elementos de tengan densidades relativas a la misma medida subyacente. Ahora hay dos formas genéricas, estrechamente relacionadas, de obtener variables e que estén cerca del crecimiento óptimo (redefinido apropiadamente [2] para compuesto ): el método de mezclas de Robbins y el método de complemento , originalmente debido a Wald [9] pero, en esencia, redescubierto por Philip Dawid como "complemento precuencial" [10] y Jorma Rissanen como " MDL predictivo ". [11] El método de mezclas esencialmente equivale a "ser bayesiano sobre el numerador" (la razón por la que no se llama "método bayesiano" es que, cuando tanto la nula como la alternativa son compuestas, el numerador a menudo puede no ser un marginal de Bayes): postulamos cualquier distribución previa en y establecemos
y utiliza la variable e .
Para explicar el método de complemento, supongamos que donde constituyen un proceso estocástico y sea un estimador de basado en datos para . En la práctica, se suele tomar un estimador de máxima verosimilitud "suavizado" (como, por ejemplo, los coeficientes de regresión en la regresión de cresta ), inicialmente fijados en algún "valor predeterminado" . Ahora se construye recursivamente una densidad para fijando .
En efecto, tanto el método de mezclas como el método de complementos pueden considerarse como el aprendizaje de una instanciación específica de la alternativa que explique bien los datos. [2]
En configuraciones paramétricas , podemos simplemente combinar los métodos principales para la alternativa compuesta (obtención de o ) con los métodos principales para la nula compuesta (UI o RIPr, utilizando la distribución única o como alternativa). Tenga en cuenta en particular que al utilizar el método de complemento junto con el método UI, la variable electrónica resultante se verá así
que se parece, pero es fundamentalmente diferente, de la razón de verosimilitud generalizada utilizada en la prueba de razón de verosimilitud clásica .
La ventaja del método UI comparado con RIPr es que (a) se puede aplicar siempre que la MLE se pueda calcular de manera eficiente - en muchos de esos casos, no se sabe si se puede calcular la proyección de información inversa/cómo; y (b) que "automáticamente" proporciona no solo una variable e sino un e-proceso completo (ver más abajo): si reemplazamos en la fórmula anterior por un tiempo de detención general , la relación resultante sigue siendo una variable e; para la proyección de información inversa, esta generación automática de e-proceso solo se cumple en casos especiales.
Su principal desventaja en comparación con RIPr es que puede ser sustancialmente subóptimo en términos del criterio e-power/GRO, lo que significa que conduce a pruebas que también tienen menos poder estadístico clásico que los métodos basados en RIPr. Por lo tanto, para entornos en los que el método RIPr es computacionalmente factible y conduce a procesos electrónicos, es preferible. Estos incluyen la prueba z, la prueba t y las regresiones lineales correspondientes, las pruebas de k muestras con distribuciones de Bernoulli, Gaussiana y Poisson y la prueba de rango logarítmico (hay un paquete R disponible para un subconjunto de estas), así como las pruebas de independencia condicional bajo un supuesto de modelo X. [12] Sin embargo, en muchos otros problemas de pruebas estadísticas, actualmente (2023) se desconoce si existen implementaciones rápidas de la proyección de información inversa , y es muy posible que no existan (por ejemplo, modelos lineales generalizados sin el supuesto de modelo X).
En entornos no paramétricos (como la prueba de una media como en el ejemplo anterior, o la prueba no paramétrica de 2 muestras), suele ser más natural considerar variables electrónicas de este tipo. Sin embargo, aunque superficialmente parecen muy diferentes de los cocientes de verosimilitud, a menudo pueden interpretarse como tales y, a veces, incluso pueden reinterpretarse como la implementación de una versión de la construcción RIPr. [2]
Finalmente, en la práctica, a veces se recurre a combinaciones matemática o computacionalmente convenientes de RIPr, UI y otros métodos. [2] Por ejemplo, RIPr se aplica para obtener variables electrónicas óptimas para pequeños bloques de resultados y estos luego se multiplican para obtener variables electrónicas para muestras más grandes; estas variables electrónicas funcionan bien en la práctica, pero ya no pueden considerarse óptimas.
Existen funciones que convierten valores p en valores e. [13] [14] [15] Estas funciones se denominan calibradores p a e . Formalmente, un calibrador es una función decreciente no negativa que, cuando se aplica a una variable p (una variable aleatoria cuyo valor es un valor p ), produce una variable e. Se dice que un calibrador domina a otro calibrador si , y esta dominación es estricta si la desigualdad es estricta. Un calibrador admisible es uno que no está estrictamente dominado por ningún otro calibrador. Se puede demostrar que para que una función sea un calibrador, debe tener una integral de como máximo 1 sobre la medida de probabilidad uniforme.
Una familia de calibradores admisibles está dada por el conjunto de funciones con . Otro calibrador está dado por la integración de :
Por el contrario, un calibrador e-to-p transforma los valores e en variables p. Curiosamente, el siguiente calibrador domina a todos los demás calibradores e-to-p:
Si bien la calibración tiene importancia teórica, no se utiliza mucho en el diseño práctico de variables electrónicas, ya que las variables electrónicas resultantes a menudo están lejos de ser óptimas para el crecimiento de un determinado grupo . [6]
Consideremos ahora los datos que llegan secuencialmente, lo que constituye un proceso estocástico de tiempo discreto . Sea otro proceso de tiempo discreto donde para cada uno puede escribirse como una función (medible) de los primeros resultados. Llamamos e -proceso si para cualquier tiempo de detención es una e-variable, es decir, para todos .
En casos básicos, el tiempo de detención puede definirse por cualquier regla que determine, en cada tamaño de muestra , basándose únicamente en los datos observados hasta el momento, si se debe detener la recolección de datos o no. Por ejemplo, esto podría ser "detenerse cuando haya visto cuatro resultados consecutivos mayores que 1", "detenerse en ", o la regla de nivel -agresivo , "detenerse tan pronto como pueda rechazar en el nivel -nivel, es decir, en el más pequeño tal que ", y así sucesivamente. Con los procesos electrónicos, obtenemos una variable electrónica con cualquier regla de este tipo. Fundamentalmente, el analista de datos puede no conocer la regla utilizada para detenerse. Por ejemplo, su jefe puede decirle que deje de recopilar datos y es posible que ella no sepa exactamente por qué; sin embargo, obtiene una variable electrónica válida y un control de error de tipo I. Esto contrasta marcadamente con el análisis de datos basado en valores p (que se vuelve inválido si las reglas de detención no se determinan de antemano) o en el análisis secuencial clásico de estilo Wald (que funciona con datos de longitud variable pero, nuevamente, con tiempos de detención que deben determinarse de antemano). En casos más complejos, el tiempo de parada debe definirse en relación con una filtración ligeramente reducida , pero esto no es una gran restricción en la práctica. En particular, siempre se permite la regla de niveles agresivos. Debido a esta validez bajo parada opcional, los procesos electrónicos son el componente fundamental de las secuencias de confianza, también conocidas como intervalos de confianza válidos en cualquier momento. [16] [2]
Técnicamente, los e-procesos son generalizaciones de las supermartingalas de prueba , que son supermartingalas no negativas con valor inicial 1: cualquier supermartingala de prueba constituye un e-proceso, pero no al revés.
Los procesos electrónicos se pueden construir de varias maneras. A menudo, se comienza con un valor electrónico cuya definición depende de datos previos, es decir,
a pesar de
(de nuevo, en problemas de prueba complejos, esta definición debe modificarse un poco utilizando filtraciones reducidas). Entonces, el proceso del producto con es una supermartingala de prueba y, por lo tanto, también un proceso electrónico (tenga en cuenta que ya usamos esta construcción en el ejemplo descrito en "valores electrónicos como apuestas" más arriba: para fixed , los valores electrónicos no dependían de datos pasados, pero al usar depender del pasado, se volvieron dependientes de datos pasados).
Otra forma de construir un e-proceso es utilizar la construcción de inferencia universal descrita anteriormente para tamaños de muestra. La secuencia resultante de valores e siempre será un e-proceso. [2]
Históricamente, los valores e aparecen implícitamente como bloques de construcción de supermartingalas no negativas en el trabajo pionero sobre métodos de confianza válidos en cualquier momento del conocido matemático Herbert Robbins y algunos de sus estudiantes. [16] La primera vez que los valores e (o algo muy parecido a ellos) se tratan como una cantidad de interés independiente es por otro conocido matemático, Leonid Levin , en 1976, dentro de la teoría de la aleatoriedad algorítmica. Con la excepción de las contribuciones del pionero V. Vovk en varios artículos con varios colaboradores (por ejemplo, [14] [13] ), y una reinvención independiente del concepto en un campo completamente diferente, [17] el concepto no se popularizó en absoluto hasta 2019, cuando, en solo unos pocos meses, aparecieron varios artículos pioneros de varios grupos de investigación en arXiv (las publicaciones de revistas correspondientes a las que se hace referencia a continuación a veces aparecen años después). En estos, el concepto finalmente recibió un nombre propio ("Valor S" [6] y "Valor E"; [15] en versiones posteriores de su artículo, [6] también adaptó "Valor E"); describiendo sus propiedades generales, [15] dos formas genéricas de construirlos, [8] y su íntima relación con las apuestas [3] ). Desde entonces, el interés por parte de investigadores de todo el mundo ha ido en aumento. En 2023, apareció el primer artículo de descripción general sobre "métodos seguros y válidos en cualquier momento", en el que los valores e desempeñan un papel central. [2]