La prueba exacta de Fisher es una prueba de significancia estadística utilizada en el análisis de tablas de contingencia . [1] [2] [3] Aunque en la práctica se emplea cuando los tamaños de muestra son pequeños, es válida para todos los tamaños de muestra. Recibe su nombre en honor a su inventor, Ronald Fisher , y pertenece a una clase de pruebas exactas , llamadas así porque la significancia de la desviación de una hipótesis nula (por ejemplo, el valor p ) se puede calcular con exactitud, en lugar de depender de una aproximación que se vuelve exacta en el límite a medida que el tamaño de la muestra crece hasta el infinito, como ocurre con muchas pruebas estadísticas.
Se dice que Fisher ideó la prueba a raíz de un comentario de Muriel Bristol , que afirmaba poder detectar si se había añadido primero el té o la leche a su taza. Ponió a prueba su afirmación en el experimento de la " señora que prueba el té ". [4]
La prueba es útil para datos categóricos que resultan de clasificar objetos de dos maneras diferentes; se utiliza para examinar la significancia de la asociación (contingencia) entre los dos tipos de clasificación. Así, en el ejemplo original de Fisher, un criterio de clasificación podría ser si se puso primero la leche o el té en la taza; el otro podría ser si Bristol piensa que se puso primero la leche o el té. Queremos saber si estas dos clasificaciones están asociadas, es decir, si Bristol realmente puede decir si se sirvió primero la leche o el té. La mayoría de los usos de la prueba de Fisher implican, como este ejemplo, una tabla de contingencia de 2 × 2 (que se analiza a continuación). El valor p de la prueba se calcula como si los márgenes de la tabla fueran fijos, es decir, como si, en el ejemplo de la cata de té, Bristol supiera el número de tazas con cada tratamiento (leche o té primero) y, por lo tanto, proporcionara conjeturas con el número correcto en cada categoría. Como señaló Fisher, esto conduce, bajo una hipótesis nula de independencia, a una distribución hipergeométrica de los números en las celdas de la tabla.
Con muestras grandes, se puede utilizar una prueba de chi-cuadrado (o mejor aún, una prueba G ) en esta situación. Sin embargo, el valor de significancia que proporciona es solo una aproximación, porque la distribución de muestreo de la estadística de prueba que se calcula es solo aproximadamente igual a la distribución de chi-cuadrado teórica. La aproximación es deficiente cuando los tamaños de muestra son pequeños o los datos están distribuidos de manera muy desigual entre las celdas de la tabla, lo que da como resultado que los recuentos de celdas predichos en la hipótesis nula (los "valores esperados") sean bajos. La regla habitual para decidir si la aproximación de chi-cuadrado es lo suficientemente buena es que la prueba de chi-cuadrado no es adecuada cuando los valores esperados en cualquiera de las celdas de una tabla de contingencia son inferiores a 5, o inferiores a 10 cuando solo hay un grado de libertad (ahora se sabe que esta regla es demasiado conservadora [5] ). De hecho, para datos pequeños, dispersos o desequilibrados, los valores p exactos y asintóticos pueden ser bastante diferentes y pueden llevar a conclusiones opuestas con respecto a la hipótesis de interés. [6] [7] Por el contrario, la prueba exacta de Fisher es, como su nombre lo indica, exacta siempre que el procedimiento experimental mantenga fijos los totales de filas y columnas, y por lo tanto puede utilizarse independientemente de las características de la muestra. Resulta difícil realizar el cálculo con muestras grandes o tablas bien balanceadas, pero afortunadamente estas son exactamente las condiciones en las que resulta adecuada la prueba de chi-cuadrado.
Para los cálculos manuales, la prueba sólo es factible en el caso de una tabla de contingencia de 2 × 2. Sin embargo, el principio de la prueba se puede extender al caso general de una tabla de m × n , [8] [9] y algunos paquetes estadísticos proporcionan un cálculo (a veces utilizando un método de Monte Carlo para obtener una aproximación) para el caso más general. [10]
La prueba también se puede utilizar para cuantificar la superposición entre dos conjuntos. Por ejemplo, en los análisis de enriquecimiento en genética estadística, se puede anotar un conjunto de genes para un fenotipo determinado y el usuario puede estar interesado en probar la superposición de su propio conjunto con esos. En este caso, se puede generar una tabla de contingencia de 2 × 2 y aplicar la prueba exacta de Fisher mediante la identificación
La prueba supone que los genes de cada lista se han tomado de un conjunto más amplio de genes (por ejemplo, todos los genes restantes). Luego se puede calcular un valor p que resuma la importancia de la superposición entre las dos listas. [11]
[12]
Configuramos el siguiente modelo de probabilidad subyacente a la prueba exacta de Fisher.
Supongamos que tenemos bolas azules y bolas rojas. Las arrojamos juntas en una caja negra, las agitamos bien y luego las retiramos una por una hasta que hayamos sacado exactamente las bolas. A estas bolas las llamamos “clase I” y a las bolas restantes, “clase II”.
La cuestión es calcular la probabilidad de que exactamente bolas azules estén en la clase I. Todas las demás entradas de la tabla se fijan una vez que completamos una entrada de la tabla.
Supongamos que pretendemos que cada bola está etiquetada y, antes de empezar a sacar las bolas, las permutamos de manera uniforme y aleatoria y, luego, sacamos las primeras . Esto nos da posibilidades.
De estas posibilidades, condicionamos el caso en que las primeras bolas contengan exactamente bolas azules. Para contar estas posibilidades, hacemos lo siguiente: primero seleccionamos de manera uniforme al azar un subconjunto de tamaño entre las bolas de clase I con posibilidades, luego seleccionamos de manera uniforme al azar un subconjunto de tamaño entre las bolas de clase II con posibilidades.
Los dos conjuntos seleccionados se rellenarían con bolas azules y el resto con bolas rojas.
Una vez que hemos seleccionado los conjuntos, podemos rellenarlos con un orden arbitrario de las bolas azules. Esto nos da posibilidades. Lo mismo ocurre con las bolas rojas, con posibilidades.
En total tenemos posibilidades.
Por lo tanto la probabilidad de este evento es
Otra derivación:
Supongamos que cada bola azul y cada bola roja tienen una probabilidad igual e independiente de estar en la clase I y de estar en la clase II. Entonces, el número de bolas azules de clase I se distribuye binomialmente. La probabilidad de que haya exactamente de ellas es , y la probabilidad de que haya exactamente de bolas rojas de clase I es .
La probabilidad de que haya exactamente bolas de clase I, independientemente del número de bolas rojas o azules que contenga, es .
Por lo tanto, condicionado a tener bolas de clase I, la probabilidad condicional de tener una mesa como la que se muestra es
Por ejemplo, una muestra de adolescentes podría dividirse en hombres y mujeres por un lado, y aquellos que están y no están estudiando actualmente para un examen de estadística por el otro. Por ejemplo, planteamos la hipótesis de que la proporción de estudiantes que estudian es mayor entre las mujeres que entre los hombres, y queremos comprobar si cualquier diferencia en las proporciones que observamos es significativa.
Los datos podrían verse así:
La pregunta que nos hacemos sobre estos datos es: sabiendo que 10 de estos 24 adolescentes están estudiando y que 12 de los 24 son mujeres, y asumiendo la hipótesis nula de que los hombres y las mujeres tienen la misma probabilidad de estudiar, ¿cuál es la probabilidad de que estos 10 adolescentes que están estudiando estén distribuidos de manera tan desigual entre las mujeres y los hombres? Si eligiéramos 10 de los adolescentes al azar, ¿cuál es la probabilidad de que 9 o más de ellos estén entre las 12 mujeres y sólo 1 o menos entre los 12 hombres?
Antes de continuar con la prueba de Fisher, primero introducimos algunas notaciones. Representamos las celdas con las letras a, b, c y d , llamamos totales marginales a los totales en filas y columnas y representamos el total general con n . Así que la tabla ahora se ve así:
Fisher demostró que, en función de los márgenes de la tabla, a se distribuye como una distribución hipergeométrica con a+c valores extraídos de una población con a+b éxitos y c+d fracasos. La probabilidad de obtener dicho conjunto de valores está dada por:
donde es el coeficiente binomial y el símbolo ! indica el operador factorial . Esto se puede ver de la siguiente manera. Si se conocen los totales marginales (es decir , , , y ), solo queda un único grado de libertad: el valor, por ejemplo, de basta para deducir los otros valores. Ahora bien, es la probabilidad de que los elementos sean positivos en una selección aleatoria (sin reemplazo) de elementos de un conjunto más grande que contiene elementos en total de los cuales son positivos, que es precisamente la definición de la distribución hipergeométrica.
Con los datos anteriores (utilizando la primera de las formas equivalentes), se obtiene:
La fórmula anterior da la probabilidad hipergeométrica exacta de observar esta disposición particular de los datos, suponiendo los totales marginales dados, en la hipótesis nula de que los hombres y las mujeres tienen la misma probabilidad de ser estudiantes. Para decirlo de otra manera, si suponemos que la probabilidad de que un hombre sea un estudiante es , la probabilidad de que una mujer sea una estudiante también es , y suponemos que tanto hombres como mujeres entran en nuestra muestra independientemente de si son o no estudiantes, entonces esta fórmula hipergeométrica da la probabilidad condicional de observar los valores a, b, c, d en las cuatro celdas, condicionalmente en los marginales observados (es decir, suponiendo que se dan los totales de fila y columna que se muestran en los márgenes de la tabla). Esto sigue siendo cierto incluso si los hombres entran en nuestra muestra con diferentes probabilidades que las mujeres. El requisito es simplemente que las dos características de clasificación, género y estudiante (o no), no estén asociadas.
Por ejemplo, supongamos que conocemos las probabilidades con tal que (hombre que estudia, hombre que no estudia, mujer que estudia, mujer que no estudia) tienen probabilidades respectivas para cada individuo encontrado bajo nuestro procedimiento de muestreo. Entonces, aun así, si calculáramos la distribución de las entradas de celdas condicionalmente dadas las marginales, obtendríamos la fórmula anterior en la que no ocurre ni . Por lo tanto, podemos calcular la probabilidad exacta de cualquier disposición de los 24 adolescentes en las cuatro celdas de la tabla, pero Fisher demostró que para generar un nivel de significación, necesitamos considerar solo los casos donde los totales marginales son los mismos que en la tabla observada, y entre ellos, solo los casos donde la disposición es tan extrema como la disposición observada, o más. (La prueba de Barnard relaja esta restricción en un conjunto de los totales marginales). En el ejemplo, hay 11 casos de este tipo. De estos, solo uno es más extremo en la misma dirección que nuestros datos; se ve así:
Para esta tabla (con proporciones de estudio extremadamente desiguales) la probabilidad es .
Para calcular la significancia de los datos observados, es decir, la probabilidad total de observar datos como extremos o más extremos si la hipótesis nula es verdadera, tenemos que calcular los valores de p para ambas tablas y sumarlos. Esto da una prueba de una cola , con p aproximadamente 0,001346076 + 0,000033652 = 0,001379728. Por ejemplo, en el entorno de computación estadística R , este valor se puede obtener como fisher.test(rbind(c(1,9),c(11,3)), alternative="less")$p.value
, o en Python, usando scipy.stats.fisher_exact(table=[[1,9],[11,3]], alternative="less")
(donde uno recibe tanto la razón de probabilidades previa como el valor p). Este valor se puede interpretar como la suma de la evidencia proporcionada por los datos observados, o cualquier tabla más extrema, para la hipótesis nula (que no hay diferencia en las proporciones de estudiantes entre hombres y mujeres). Cuanto menor sea el valor de p , mayor será la evidencia para rechazar la hipótesis nula; por lo que aquí la evidencia es fuerte de que los hombres y las mujeres no tienen la misma probabilidad de ser estudiantes.
Para una prueba de dos colas, también debemos considerar tablas que sean igualmente extremas, pero en la dirección opuesta. Desafortunadamente, la clasificación de las tablas según sean o no "tan extremas" es problemática. Un enfoque utilizado por la fisher.test
función en R es calcular el valor p sumando las probabilidades para todas las tablas con probabilidades menores o iguales a la de la tabla observada. En este ejemplo, el valor p de dos colas es el doble del valor de una cola, pero en general estos pueden diferir sustancialmente para tablas con recuentos pequeños, a diferencia del caso de las estadísticas de prueba que tienen una distribución de muestreo simétrica.
La prueba de Fisher proporciona valores p exactos , pero algunos autores han argumentado que es conservadora, es decir, que su tasa de rechazo real está por debajo del nivel de significación nominal. [13] [14] [15] La aparente contradicción surge de la combinación de una estadística discreta con niveles de significación fijos. [16] [17] Considere la siguiente propuesta para una prueba de significación en el nivel del 5%: rechazar la hipótesis nula para cada tabla a la que la prueba de Fisher asigne un valor p igual o menor que el 5%. Debido a que el conjunto de todas las tablas es discreto, puede que no haya una tabla para la que se logre la igualdad. Si es el valor p más grande menor que el 5% que realmente puede ocurrir para alguna tabla, entonces la prueba propuesta prueba efectivamente en el nivel . Para tamaños de muestra pequeños, podría ser significativamente menor que el 5%. [13] [14] [15] Si bien este efecto ocurre para cualquier estadística discreta (no sólo en tablas de contingencia o para la prueba de Fisher), se ha argumentado que el problema se agrava por el hecho de que la prueba de Fisher condiciona los marginales. [18] Para evitar el problema, muchos autores desaconsejan el uso de niveles de significación fijos cuando se trata de problemas discretos. [16] [17]
La decisión de condicionar los márgenes de la tabla también es controvertida. [19] [20] Los valores p derivados de la prueba de Fisher provienen de la distribución que condiciona los totales de los márgenes. En este sentido, la prueba es exacta solo para la distribución condicional y no para la tabla original donde los totales de los márgenes pueden cambiar de un experimento a otro. Es posible obtener un valor p exacto para la tabla 2×2 cuando los márgenes no se mantienen fijos. La prueba de Barnard , por ejemplo, permite márgenes aleatorios. Sin embargo, algunos autores [16] [17] [20] (incluido, más tarde, el propio Barnard) [16] han criticado la prueba de Barnard basándose en esta propiedad. Argumentan que el total de éxito marginal es una estadística (casi [17] ) auxiliar , que no contiene (casi) ninguna información sobre la propiedad probada.
Se puede demostrar que el acto de condicionar la tasa de éxito marginal a partir de una tabla 2x2 ignora cierta información en los datos sobre la razón de probabilidades desconocida. [21] El argumento de que los totales marginales son (casi) auxiliares implica que la función de probabilidad apropiada para hacer inferencias sobre esta razón de probabilidades debería estar condicionada a la tasa de éxito marginal. [21] La esencia de la controversia es si esta información perdida es importante para fines inferenciales. [21]
Se ha desarrollado una prueba exacta alternativa, la prueba exacta de Barnard , y sus defensores [22] sugieren que este método es más potente, particularmente en tablas 2×2. [23] Además, la prueba de Boschloo es una prueba exacta que es uniformemente más potente que la prueba exacta de Fisher por construcción. [24]
La mayoría de los programas estadísticos modernos calculan la significancia de las pruebas de Fisher, en algunos casos incluso en los que la aproximación de chi-cuadrado también sería aceptable. Los cálculos reales que realizan los programas estadísticos por lo general difieren de los descritos anteriormente, porque pueden surgir dificultades numéricas debido a los grandes valores que toman los factoriales. Un enfoque computacional simple y algo mejor se basa en una función gamma o una función log-gamma, pero los métodos para el cálculo preciso de probabilidades hipergeométricas y binomiales siguen siendo un área de investigación activa.
Para datos categóricos estratificados se debe utilizar la prueba de Cochran-Mantel-Haenszel en lugar de la prueba de Fisher.
Choi et al. [21] proponen un valor p derivado de la prueba de razón de verosimilitud basada en la distribución condicional de la razón de probabilidades dada la tasa de éxito marginal. Este valor p es inferencialmente consistente con las pruebas clásicas de datos distribuidos normalmente, así como con razones de verosimilitud e intervalos de apoyo basados en esta función de verosimilitud condicional. También es fácilmente computable. [25]
{{cite journal}}
: CS1 maint: varios nombres: lista de autores ( enlace )