Una prueba de permutación (también llamada prueba de realeatorización o prueba de barajado) es una prueba de hipótesis estadística exacta que utiliza la prueba por contradicción . Una prueba de permutación involucra dos o más muestras. La hipótesis nula es que todas las muestras provienen de la misma distribución . Bajo la hipótesis nula , la distribución del estadístico de prueba se obtiene calculando todos los valores posibles del estadístico de prueba bajo posibles reordenamientos de los datos observados. Las pruebas de permutación son, por lo tanto, una forma de remuestreo .
Las pruebas de permutación pueden entenderse como pruebas de datos sustitutos donde los datos sustitutos bajo la hipótesis nula se obtienen a través de permutaciones de los datos originales. [1]
En otras palabras, el método por el cual se asignan los tratamientos a los sujetos en un diseño experimental se refleja en el análisis de ese diseño. Si las etiquetas son intercambiables bajo la hipótesis nula, entonces las pruebas resultantes arrojan niveles de significación exactos; véase también intercambiabilidad . Los intervalos de confianza pueden derivarse de las pruebas. La teoría ha evolucionado a partir de los trabajos de Ronald Fisher y EJG Pitman en la década de 1930.
Las pruebas de permutación no deben confundirse con las pruebas aleatorias . [2]
Para ilustrar la idea básica de una prueba de permutación, supongamos que recopilamos variables aleatorias y para cada individuo de dos grupos y cuyas medias muestrales son y , y que queremos saber si y provienen de la misma distribución. Sea y el tamaño de la muestra recopilada de cada grupo. La prueba de permutación está diseñada para determinar si la diferencia observada entre las medias muestrales es lo suficientemente grande como para rechazar, en algún nivel de significancia, la hipótesis nula H de que los datos extraídos de son de la misma distribución que los datos extraídos de .
La prueba se desarrolla de la siguiente manera. En primer lugar, se calcula la diferencia de medias entre las dos muestras: este es el valor observado del estadístico de prueba, .
A continuación, se agrupan las observaciones de los grupos y y se calcula y registra la diferencia en las medias de la muestra para cada forma posible de dividir los valores agrupados en dos grupos de tamaño y (es decir, para cada permutación de las etiquetas de grupo A y B). El conjunto de estas diferencias calculadas es la distribución exacta de las posibles diferencias (para esta muestra) bajo la hipótesis nula de que las etiquetas de grupo son intercambiables (es decir, se asignan aleatoriamente).
El valor p unilateral de la prueba se calcula como la proporción de permutaciones muestreadas donde la diferencia de medias fue mayor que . El valor p bilateral de la prueba se calcula como la proporción de permutaciones muestreadas donde la diferencia absoluta fue mayor que . Muchas implementaciones de pruebas de permutación requieren que los datos observados se cuenten como una de las permutaciones para que el valor p de la permutación nunca sea cero. [3]
Alternativamente, si el único propósito de la prueba es rechazar o no la hipótesis nula, se podrían ordenar las diferencias registradas y luego observar si está contenida dentro del % medio de ellas, para algún nivel de significancia . Si no lo está, rechazamos la hipótesis de curvas de probabilidad idénticas en el nivel de significancia.
Para muestras pareadas se debe aplicar la prueba de permutación pareada.
Las pruebas de permutación son un subconjunto de las estadísticas no paramétricas . Suponiendo que nuestros datos experimentales provienen de datos medidos de dos grupos de tratamiento, el método simplemente genera la distribución de las diferencias de medias bajo el supuesto de que los dos grupos no son distintos en términos de la variable medida. A partir de esto, uno luego usa la estadística observada ( arriba) para ver hasta qué punto esta estadística es especial, es decir, la probabilidad de observar la magnitud de dicho valor (o mayor) si las etiquetas de tratamiento simplemente se hubieran aleatorizado después del tratamiento.
A diferencia de las pruebas de permutación, las distribuciones subyacentes a muchas pruebas estadísticas "clásicas" populares , como la prueba t , la prueba F , la prueba z y la prueba χ 2 , se obtienen a partir de distribuciones de probabilidad teóricas . La prueba exacta de Fisher es un ejemplo de una prueba paramétrica comúnmente utilizada para evaluar la asociación entre dos variables dicotómicas. Cuando los tamaños de muestra son muy grandes, la prueba de chi-cuadrado de Pearson dará resultados precisos. Para muestras pequeñas, no se puede asumir que la distribución de referencia de chi-cuadrado brinde una descripción correcta de la distribución de probabilidad de la estadística de prueba y, en esta situación, el uso de la prueba exacta de Fisher se vuelve más apropiado.
Las pruebas de permutación existen en muchas situaciones en las que las pruebas paramétricas no existen (por ejemplo, cuando se deriva una prueba óptima cuando las pérdidas son proporcionales al tamaño de un error en lugar de a su cuadrado). Todas las pruebas paramétricas simples y muchas relativamente complejas tienen una versión de prueba de permutación correspondiente que se define utilizando el mismo estadístico de prueba que la prueba paramétrica, pero obtiene el valor p de la distribución de permutación específica de la muestra de ese estadístico, en lugar de a partir de la distribución teórica derivada del supuesto paramétrico. Por ejemplo, de esta manera es posible construir una prueba t de permutación, una prueba de asociación de permutación , una versión de permutación de la prueba de Aly para comparar varianzas, etc.
Las principales desventajas de las pruebas de permutación son que
Existen pruebas de permutación para cualquier estadística de prueba, independientemente de que se conozca o no su distribución. Por lo tanto, siempre se tiene la libertad de elegir la estadística que mejor discrimine entre hipótesis y alternativas y que minimice las pérdidas.
Las pruebas de permutación se pueden utilizar para analizar diseños no balanceados [4] y para combinar pruebas dependientes en mezclas de datos categóricos, ordinales y métricos (Pesarin, 2001) [ cita requerida ] . También se pueden utilizar para analizar datos cualitativos que se han cuantificado (es decir, convertidos en números). Las pruebas de permutación pueden ser ideales para analizar datos cuantificados que no satisfacen los supuestos estadísticos subyacentes a las pruebas paramétricas tradicionales (por ejemplo, pruebas t, ANOVA), [5] consulte PERMANOVA .
Antes de la década de 1980, la carga de crear la distribución de referencia era abrumadora, excepto para conjuntos de datos con tamaños de muestra pequeños.
Desde la década de 1980, la confluencia de computadoras rápidas relativamente económicas y el desarrollo de nuevos algoritmos de trayectoria sofisticados aplicables en situaciones especiales hicieron que la aplicación de métodos de prueba de permutación fuera práctica para una amplia gama de problemas. También inició la adición de opciones de prueba exacta en los principales paquetes de software estadístico y la aparición de software especializado para realizar una amplia gama de pruebas exactas uni y multivariables y calcular intervalos de confianza "exactos" basados en pruebas.
Un supuesto importante detrás de una prueba de permutación es que las observaciones son intercambiables bajo la hipótesis nula. Una consecuencia importante de este supuesto es que las pruebas de diferencia en la ubicación (como una prueba t de permutación) requieren varianza igual bajo el supuesto de normalidad. En este sentido, la prueba t de permutación clásica comparte la misma debilidad que la prueba t de Student clásica (el problema de Behrens-Fisher ). Esto se puede abordar de la misma manera que la prueba t clásica se ha extendido para manejar varianzas desiguales: empleando el estadístico de Welch con ajuste de Satterthwaite a los grados de libertad. [6] Una tercera alternativa en esta situación es utilizar una prueba basada en bootstrap. El estadístico Phillip Good explica la diferencia entre pruebas de permutación y pruebas bootstrap de la siguiente manera: "Las permutaciones prueban hipótesis relacionadas con distribuciones; las pruebas bootstrap prueban hipótesis relacionadas con parámetros. Como resultado, el bootstrap implica supuestos menos estrictos". [7] Las pruebas bootstrap no son exactas. En algunos casos, una prueba de permutación basada en una estadística adecuadamente estudentizada puede ser asintóticamente exacta incluso cuando se viola el supuesto de intercambiabilidad. [8] Las pruebas basadas en bootstrap pueden probar con la hipótesis nula y, por lo tanto, son adecuadas para realizar pruebas de equivalencia .
Se puede crear una prueba de permutación asintóticamente equivalente cuando hay demasiados ordenamientos posibles de los datos para permitir una enumeración completa de una manera conveniente. Esto se hace generando la distribución de referencia mediante muestreo de Monte Carlo , que toma una pequeña muestra aleatoria (en relación con el número total de permutaciones) de las posibles réplicas. La comprensión de que esto podría aplicarse a cualquier prueba de permutación en cualquier conjunto de datos fue un avance importante en el área de la estadística aplicada. Las primeras referencias conocidas a este enfoque son Eden y Yates (1933) y Dwass (1957). [9] [10] Este tipo de prueba de permutación se conoce con varios nombres: prueba de permutación aproximada , pruebas de permutación de Monte Carlo o pruebas de permutación aleatoria . [11]
Después de realizar permutaciones aleatorias, es posible obtener un intervalo de confianza para el valor p basado en la distribución binomial, véase Intervalo de confianza de la proporción binomial . Por ejemplo, si después de realizar permutaciones aleatorias se estima que el valor p es , entonces un intervalo de confianza del 99 % para el valor verdadero (el que resultaría de probar todas las permutaciones posibles) es .
Por otra parte, el propósito de estimar el valor p es, en la mayoría de los casos, decidir si , donde es el umbral en el que se rechazará la hipótesis nula (normalmente ). En el ejemplo anterior, el intervalo de confianza solo nos dice que hay aproximadamente un 50 % de posibilidades de que el valor p sea menor que 0,05, es decir, no está del todo claro si la hipótesis nula debería rechazarse en un nivel .
Si solo es importante saber si para un determinado , es lógico continuar simulando hasta que se pueda establecer que la afirmación es verdadera o falsa con una probabilidad muy baja de error. Dado un límite en la probabilidad admisible de error (la probabilidad de encontrar que cuando en realidad o viceversa), la cuestión de cuántas permutaciones generar puede verse como la cuestión de cuándo dejar de generar permutaciones, en función de los resultados de las simulaciones hasta el momento, para garantizar que la conclusión (que es o ) es correcta con una probabilidad al menos tan grande como . ( normalmente se elegirá que sea extremadamente pequeña, p. ej. 1/1000). Se han desarrollado reglas de detención para lograr esto [12] que se pueden incorporar con un costo computacional adicional mínimo. De hecho, dependiendo del verdadero valor p subyacente, a menudo se encontrará que el número de simulaciones requeridas es notablemente pequeño (p. ej. tan bajo como 5 y a menudo no mayor que 100) antes de que se pueda llegar a una decisión con certeza virtual.
Referencias originales:
Referencias modernas:
Métodos computacionales: