En las pruebas de hipótesis estadísticas , los valores e cuantifican la evidencia de los datos contra una hipótesis nula (por ejemplo, "la moneda es justa" o, en un contexto médico, "este nuevo tratamiento no tiene ningún efecto"). Sirven como una alternativa más sólida a los valores p , abordando algunas deficiencias de estos últimos.
A diferencia de los valores p, los valores e pueden abordar una continuación opcional: los valores e de experimentos posteriores (por ejemplo, ensayos clínicos relacionados con el mismo tratamiento) pueden simplemente multiplicarse para proporcionar un nuevo valor e de "producto" que represente la evidencia. en el experimento conjunto. Esto funciona incluso si, como sucede a menudo en la práctica, la decisión de realizar experimentos posteriores puede depender de manera vaga y desconocida de los datos observados en experimentos anteriores, y no se sabe de antemano cuántas pruebas se realizarán: el valor e del producto sigue siendo una cantidad significativa, lo que lleva a pruebas con control de errores tipo I. Por esta razón, los valores e y su extensión secuencial, el proceso e , son los componentes fundamentales de los métodos estadísticos válidos en cualquier momento (por ejemplo, secuencias de confianza). Otra ventaja sobre los valores p es que cualquier promedio ponderado de los valores e sigue siendo un valor e, incluso si los valores e individuales son arbitrariamente dependientes. Esta es una de las razones por las que los valores electrónicos también han resultado ser herramientas útiles en múltiples pruebas . [1]
Los valores e pueden interpretarse de varias maneras diferentes: en primer lugar, el recíproco de cualquier valor e es en sí mismo un valor p, pero especial y conservador, bastante diferente de los valores p utilizados en la práctica. En segundo lugar, son generalizaciones amplias de razones de verosimilitud y también están relacionadas con los factores de Bayes , aunque son distintas de ellos . En tercer lugar, tienen una interpretación como apuestas. Finalmente, en un contexto secuencial, también pueden interpretarse como incrementos de supermartingalas no negativas . El interés por los valores electrónicos se ha disparado desde 2019, cuando se acuñó el término "valor electrónico" y varios grupos de investigación lograron una serie de resultados revolucionarios. El primer artículo general apareció en 2023. [2]
Sea la hipótesis nula dada como un conjunto de distribuciones de datos . Por lo general , cada uno tiene un resultado único y un tamaño de muestra fijo o un tiempo de parada. Nos referiremos a aquellos que representan la secuencia completa de resultados de un experimento estadístico, como muestra o lote de resultados. Pero en algunos casos también puede tratarse de un conjunto desordenado de resultados o de un único resultado.
Una variable e o estadística e es una variable aleatoria no negativa tal que, bajo todo , su valor esperado está acotado por 1:
.
El valor tomado por la variable e se llama valor e . En la práctica, el término valor e (un número) se utiliza a menudo cuando en realidad nos referimos a la variable e subyacente (una variable aleatoria, es decir, una función mensurable de los datos).
Para cualquier variable e y todos y cada uno , se cumple que
En palabras: es un valor p, y la prueba basada en el valor e con nivel de significancia , que rechaza si , tiene un error de tipo I limitado por . Pero, mientras que con los valores p estándar la desigualdad (*) anterior suele ser una igualdad (con datos de valores continuos) o casi una igualdad (con datos discretos), este no es el caso con las variables e. Esto hace que las pruebas basadas en valores e sean más conservadoras (menos potencia) que aquellas basadas en valores p estándar, y es el precio a pagar por la seguridad (es decir, conservar las garantías de error Tipo I) bajo la continuación y el promedio opcionales.
Sea una hipótesis nula simple. Sea cualquier otra distribución en , y sea
sea su razón de verosimilitud. Entonces es una variable e. Por el contrario, cualquier variable e relativa a un nulo simple se puede escribir como una razón de verosimilitud con respecto a alguna distribución . Por tanto, cuando la nula es simple, las variables e coinciden con los índices de verosimilitud. Sin embargo, también existen variables E para nulos compuestos generales, y entonces pueden considerarse como generalizaciones de razones de verosimilitud. Las dos formas principales de construir variables-e, UI y RIPr (ver más abajo), conducen a expresiones que también son variaciones de razones de verosimilitud.
Otras dos generalizaciones estándar del índice de verosimilitud son (a) el índice de verosimilitud generalizado tal como se utiliza en la prueba clásica estándar del índice de verosimilitud y (b) el factor de Bayes . Es importante destacar que ni (a) ni (b) son variables e en general: los ratios de probabilidad generalizados en el sentido (a) no son variables e a menos que la alternativa sea simple (ver más abajo en "inferencia universal"). Los factores de Bayes son variables e si la nula es simple. Para ver esto, tenga en cuenta que, si representa un modelo estadístico y una densidad previa , entonces podemos establecer como arriba la distribución marginal de Bayes con densidad.
y luego también es un factor de Bayes de vs. Si el nulo es compuesto, entonces algunas variables e especiales se pueden escribir como factores de Bayes con algunos antecedentes muy especiales, pero la mayoría de los factores de Bayes que uno encuentra en la práctica no son variables e y muchas variables e que uno encuentra en la práctica no son factores de Bayes . [2]
Suponga que puede comprar un billete por 1 unidad monetaria, con un pago no negativo . Las afirmaciones " es una variable e" y "si la hipótesis nula es cierta, no esperas ganar dinero si haces esta apuesta" son lógicamente equivalentes. Esto se debe a que ser una e-variable significa que la ganancia esperada de comprar el boleto es la recompensa menos el costo, es decir , lo que tiene la expectativa . Según esta interpretación, el valor e del producto para una secuencia de pruebas se puede interpretar como la cantidad de dinero que ha ganado apostando secuencialmente con pagos dados por las variables e individuales y siempre reinvirtiendo todas sus ganancias. [3]
La interpretación de las apuestas se vuelve particularmente visible si reescribimos una variable e como donde tiene expectativa debajo de todo y se elige de modo que cualquier variable e se pueda escribir en la forma, aunque con nulos paramétricos , escribirla como una razón de probabilidad suele ser matemáticamente más conveniente. Por otro lado, la forma suele ser más conveniente en entornos no paramétricos . Como ejemplo prototípico, [4] considere el caso en el que se toman valores en el intervalo acotado . Según , los iid son según una distribución con media ; no se hacen otras suposiciones al respecto . Entonces podemos construir primero una familia de variables e para resultados únicos, , para cualquiera (éstas son las que se garantiza que no serán negativas). Luego podemos definir una nueva variable e para el vector de datos completo tomando el producto
,
donde es una estimación de , basada únicamente en datos anteriores y diseñada para ser lo más grande posible en el sentido de "e-power" o "GRO" (ver más abajo). Waudby-Smith y Ramdas utilizan este enfoque para construir intervalos de confianza "no paramétricos" para la media que tienden a ser significativamente más estrechos que los basados en métodos más clásicos como los límites de Chernoff, Hoeffding y Bernstein . [4]
Los valores E son más adecuados que el valor p cuando se esperan pruebas de seguimiento que involucren la misma hipótesis nula con diferentes datos o configuraciones experimentales. Esto incluye, por ejemplo, combinar resultados individuales en un metanálisis . La ventaja de los valores e en este entorno es que permiten una continuación opcional. De hecho, se han empleado en lo que podría ser el primer metanálisis totalmente "en línea" del mundo con control explícito de errores de tipo I. [5]
Informalmente, la continuación opcional implica que el producto de cualquier número de valores e , definidos en muestras independientes , es en sí mismo un valor e, incluso si se permite que la definición de cada valor e dependa de todos los resultados anteriores, y no importa qué regla se utiliza para decidir cuándo dejar de recolectar nuevas muestras (por ejemplo, para realizar nuevos ensayos). De ello se deduce que, para cualquier nivel de significancia , si la nula es verdadera, entonces la probabilidad de que un producto de los valores de e llegue a ser mayor que , está limitada por . Por lo tanto, si decidimos combinar las muestras observadas hasta ahora y rechazar el valor nulo si el valor e del producto es mayor que , entonces nuestra probabilidad de error tipo I permanece limitada por . Decimos que las pruebas basadas en valores e siguen siendo seguras (válidas de Tipo I) bajo la continuación opcional .
Matemáticamente, esto se demuestra mostrando primero que las variables e del producto forman una martingala de tiempo discreto no negativo en la filtración generada por (las variables e individuales son entonces incrementos de esta martingala). Los resultados luego se siguen como consecuencia del teorema de detención opcional de Doob y la desigualdad de Ville .
Ya utilizamos implícitamente variables electrónicas de producto en el ejemplo anterior, donde definimos variables electrónicas en resultados individuales y diseñamos un nuevo valor electrónico tomando productos. Por lo tanto, en el ejemplo anterior, los resultados individuales desempeñan el papel de "lotes" (muestras completas) y, por lo tanto, podemos incluso realizar una detención opcional "dentro" del lote original : podemos detener el análisis de datos en cualquier resultado individual (no solo "lote de resultados") nos gusta, por cualquier motivo, y lo rechazamos si el producto supera con creces . Sin embargo , no todas las variables e definidas para lotes de resultados pueden descomponerse de esta manera como un producto de los valores e por resultado. Si esto no es posible, no podemos usarlos para una parada opcional (dentro de una muestra ), sino solo para una continuación opcional (de una muestra a la siguiente , etc.).
Si establecemos independientemente de los datos obtenemos un valor e trivial : es una variable e por definición, pero nunca nos permitirá rechazar la hipótesis nula. Este ejemplo muestra que algunas variables e pueden ser mejores que otras, en el sentido que se definirá más adelante. Intuitivamente, una buena variable e es aquella que tiende a ser grande (mucho mayor que 1) si la alternativa es cierta. Esto es análogo a la situación con los valores p: tanto los valores e como los valores p se pueden definir sin hacer referencia a una alternativa, pero si hay una alternativa disponible, nos gustaría que fueran pequeños (valores p) o grandes ( valores e) con alta probabilidad. En las pruebas de hipótesis estándar, la calidad de una prueba válida se formaliza mediante la noción de poder estadístico , pero esta noción debe modificarse adecuadamente en el contexto de los valores e. [2] [6]
La noción estándar de calidad de una variable e en relación con una alternativa dada , utilizada por la mayoría de los autores en este campo, es una generalización del criterio de Kelly en economía y (dado que muestra estrechas relaciones con el poder clásico) a veces se denomina e-variable. fuerza ; [7] la variable e óptima en este sentido se conoce como log-óptima o tasa de crecimiento óptima (a menudo abreviada como GRO [6] ). En el caso de una alternativa simple , la potencia e de una variable e dada se define simplemente como la expectativa ; en el caso de alternativas compuestas, existen varias versiones (por ejemplo, en el peor de los casos absoluto, en el peor de los casos relativo) [6] de e-power y GRO.
Sean y ambos simples. Entonces la variable e del índice de verosimilitud tiene potencia e máxima en el sentido anterior, es decir, es GRO. [2]
Seamos simples y compuestos, de modo que todos los elementos de tengan densidades (indicadas con letras minúsculas) en relación con la misma medida subyacente. Grünwald et al. muestran que bajo condiciones de regularidad débil, la variable e GRO existe, es esencialmente única y está dada por
¿Dónde está la proyección de información inversa (RIPr) de hacia el casco convexo de ? [6] En condiciones de regularidad adicionales (y en todos los casos prácticamente relevantes encontrados hasta ahora), está dada por una densidad marginal de Bayes : existe una distribución específica y única tal que .
En el mismo escenario anterior, [8] muestran que, sin ninguna condición de regularidad,
es una variable e (la segunda igualdad se mantiene si el MLE ( estimador de máxima verosimilitud ) basado en datos siempre está bien definido). Esta forma de construir variables e se ha denominado método de inferencia universal (UI) , "universal" en referencia al hecho de que no se requieren condiciones de regularidad.
Ahora seamos simples y compuestos, de modo que todos los elementos de tengan densidades relativas a la misma medida subyacente. Ahora existen dos formas genéricas y estrechamente relacionadas de obtener variables e que se acerquen al crecimiento óptimo (apropiadamente redefinidas [2] para compuestos ): el método de mezclas de Robbins y el método plug-in , originalmente debido a Wald [9] pero, en esencia, redescubierto por Philip Dawid como "plug-in prequential" [10] y Jorma Rissanen como " MDL predictivo ". [11] El método de mezclas equivale esencialmente a "ser bayesiano en cuanto al numerador" (la razón por la que no se llama "método bayesiano" es que, cuando tanto nulo como alternativo son compuestos, es posible que el numerador a menudo no sea un marginal de Bayes): planteamos cualquier distribución previa y establecemos
y utilizar la variable e .
Para explicar el método del complemento, supongamos que donde constituye un proceso estocástico y que es un estimador de basado en datos para . En la práctica, normalmente se utiliza un estimador de máxima verosimilitud "suavizado" (como, por ejemplo, los coeficientes de regresión en la regresión de cresta ), inicialmente establecido en algún "valor predeterminado" . Ahora se construye recursivamente una densidad para estableciendo .
Efectivamente, se puede pensar que tanto el método de mezclas como el método de complemento aprenden una instancia específica de la alternativa que explica bien los datos. [2]
En configuraciones paramétricas , podemos simplemente combinar los métodos principales para la alternativa compuesta (obteniendo o ) con los métodos principales para el nulo compuesto (UI o RIPr, usando la distribución única o como alternativa). Tenga en cuenta en particular que cuando se utiliza el método de complemento junto con el método UI, la variable e resultante tendrá el siguiente aspecto
que se parece, pero sigue siendo fundamentalmente diferente, al índice de probabilidad generalizado tal como se utiliza en la prueba clásica del índice de probabilidad .
La ventaja del método UI en comparación con RIPr es que (a) se puede aplicar siempre que el MLE se pueda calcular de manera eficiente; en muchos de estos casos, no se sabe si se puede calcular la proyección de información inversa y cómo; y (b) que 'automáticamente' proporciona no sólo una variable e sino un proceso e completo (ver más abajo): si reemplazamos en la fórmula anterior por un tiempo de parada general , la relación resultante sigue siendo una variable e; Para la proyección inversa de información, esta generación automática de procesos electrónicos sólo es válida en casos especiales.
Su principal desventaja en comparación con RIPr es que puede ser sustancialmente subóptimo en términos del criterio e-power/GRO, lo que significa que conduce a pruebas que también tienen menos poder estadístico clásico que los métodos basados en RIPr. Por lo tanto, para entornos en los que el método RIPr es computacionalmente factible y conduce a procesos electrónicos, es preferible. Estos incluyen la prueba z, la prueba t y las regresiones lineales correspondientes, pruebas de muestras k con distribuciones de Bernoulli, Gauss y Poisson y la prueba de rango logarítmico (hay un paquete R disponible para un subconjunto de estas), así como pruebas de independencia condicional bajo un supuesto del modelo X. [12] Sin embargo, en muchos otros problemas de pruebas estadísticas, actualmente (2023) se desconoce si existen implementaciones rápidas de la proyección de información inversa, y es muy posible que no existan (por ejemplo, modelos lineales generalizados sin el supuesto del modelo X).
En entornos no paramétricos (como probar una media como en el ejemplo anterior, o pruebas no paramétricas de 2 muestras), a menudo es más natural considerar variables e del tipo. Sin embargo, aunque superficialmente parecen muy diferentes de los índices de probabilidad, a menudo aún pueden interpretarse como tales y, a veces, incluso pueden reinterpretarse como si implementaran una versión de la construcción RIPr. [2]
Finalmente, en la práctica, a veces se recurre a combinaciones matemática o computacionalmente convenientes de RIPr, UI y otros métodos. [2] Por ejemplo, RIPr se aplica para obtener variables-e óptimas para pequeños bloques de resultados y luego se multiplican para obtener variables-e para muestras más grandes; estas variables-e funcionan bien en la práctica, pero ya no pueden considerarse óptimas.
Existen funciones que convierten los valores p en valores e. [13] [14] [15] Estas funciones se denominan calibradores p-to-e . Formalmente, un calibrador es una función decreciente no negativa que, cuando se aplica a una variable p (una variable aleatoria cuyo valor es un valor p ), produce una variable e. Se dice que un calibrador domina a otro calibrador si , y esta dominación es estricta si la desigualdad es estricta. Un calibrador admisible es aquel que no está estrictamente dominado por ningún otro calibrador. Se puede demostrar que para que una función sea un calibrador, debe tener una integral de como máximo 1 sobre la medida de probabilidad uniforme.
Una familia de calibradores admisibles viene dada por el conjunto de funciones con . Otro calibrador se obtiene integrando :
Por el contrario, un calibrador e-to-p transforma los valores e nuevamente en variables p. Curiosamente, el siguiente calibrador domina a todos los demás calibradores e-to-p:
Si bien tiene importancia teórica, la calibración no se utiliza mucho en el diseño práctico de variables electrónicas, ya que las variables electrónicas resultantes a menudo están lejos de ser óptimas para un crecimiento determinado . [6]
Consideremos ahora los datos que llegan secuencialmente, lo que constituye un proceso estocástico de tiempo discreto . Sea otro proceso de tiempo discreto donde cada uno puede escribirse como una función (medible) de los primeros resultados. Llamamos proceso -e si para algún tiempo de parada es una variable-e, es decir, para todos .
En casos básicos, el tiempo de parada puede definirse mediante cualquier regla que determine, para cada tamaño de muestra , basándose únicamente en los datos observados hasta el momento, si se debe dejar de recopilar datos o no. Por ejemplo, esto podría ser "deténgase cuando haya visto cuatro resultados consecutivos mayores que 1", "deténgase en ", o la regla de nivel agresivo , "deténgase tan pronto como pueda rechazar en el nivel -nivel, es decir, en el nivel más pequeño tal que ", y así sucesivamente. Con los procesos electrónicos, obtenemos una variable electrónica con cualquier regla de este tipo. Fundamentalmente, es posible que el analista de datos no conozca la regla utilizada para detenerse. Por ejemplo, su jefe puede decirle que deje de recopilar datos y es posible que ella no sepa exactamente por qué; sin embargo, obtiene una variable electrónica válida y un control de errores de tipo I. Esto contrasta marcadamente con el análisis de datos basado en valores p (que deja de ser válido si las reglas de detención no se determinan de antemano) o en el análisis secuencial clásico de estilo Wald (que trabaja con datos de longitud variable pero nuevamente, con tiempos de detención que necesitan por determinar con antelación). En casos más complejos, el tiempo de parada debe definirse en relación con una filtración ligeramente reducida , pero esto no supone una gran restricción en la práctica. En particular, siempre se permite la regla del nivel agresivo. Debido a esta validez bajo detención opcional, los procesos electrónicos son el componente fundamental de las secuencias de confianza, también conocidas como intervalos de confianza válidos en cualquier momento. [16] [2]
Técnicamente, los procesos electrónicos son generalizaciones de las supermartingalas de prueba , que son supermartingalas no negativas con valor inicial 1: cualquier supermartingala de prueba constituye un proceso electrónico, pero no al revés.
Los procesos electrónicos se pueden construir de varias maneras. A menudo, se comienza con un valor e cuya definición se permite depender de datos anteriores, es decir,
para todos
(Nuevamente, en problemas de prueba complejos, esta definición debe modificarse un poco utilizando filtraciones reducidas). Entonces el proceso del producto con es una supermartingala de prueba y, por lo tanto, también un proceso e (tenga en cuenta que ya usamos esta construcción en el ejemplo descrito en "valores e como apuestas" arriba: para fijo , los valores e no dependían de datos pasados, pero al usar dependiendo del pasado, se volvieron dependientes de datos pasados).
Otra forma de construir un proceso-e es utilizar la construcción de inferencia universal descrita anteriormente para tamaños de muestra. La secuencia resultante de valores-e siempre será un proceso-e. [2]
Históricamente, los valores e aparecen implícitamente como componentes básicos de supermartingalas no negativas en el trabajo pionero sobre métodos de confianza válidos en cualquier momento realizado por el conocido matemático Herbert Robbins y algunos de sus estudiantes. [16] La primera vez que los valores e (o algo muy parecido a ellos) son tratados como una cantidad de interés independiente fue por otro conocido matemático, Leonid Levin , en 1976, dentro de la teoría de la aleatoriedad algorítmica. Con la excepción de las contribuciones del pionero V. Vovk en varios artículos con varios colaboradores (por ejemplo, [14] [13] ), y una reinvención independiente del concepto en un campo completamente diferente, [17] el concepto no tuvo éxito. en absoluto hasta 2019, cuando, en tan solo unos meses, aparecieron en arXiv varios artículos pioneros de varios grupos de investigación (las publicaciones de revistas correspondientes a las que se hace referencia a continuación a veces llegan años después). En estos, al concepto finalmente se le dio un nombre propio ("S-Value" [6] y "E-Value"; [15] en versiones posteriores de su artículo, [6] también adaptó "E-Value"); describiendo sus propiedades generales, [15] dos formas genéricas de construirlos, [8] y su íntima relación con las apuestas [3] ). Desde entonces, el interés de investigadores de todo el mundo ha ido en aumento. En 2023 apareció el primer documento general sobre "métodos seguros y válidos en cualquier momento", en el que los valores electrónicos desempeñan un papel central. [2]