stringtranslate.com

Prueba exacta de Fisher

La prueba exacta de Fisher es una prueba de significancia estadística utilizada en el análisis de tablas de contingencia . [1] [2] [3] Aunque en la práctica se emplea cuando los tamaños de muestra son pequeños, es válida para todos los tamaños de muestra. Recibe su nombre en honor a su inventor, Ronald Fisher , y pertenece a una clase de pruebas exactas , llamadas así porque la significancia de la desviación de una hipótesis nula (por ejemplo, el valor p ) se puede calcular con exactitud, en lugar de depender de una aproximación que se vuelve exacta en el límite a medida que el tamaño de la muestra crece hasta el infinito, como ocurre con muchas pruebas estadísticas.

Se dice que Fisher ideó la prueba a raíz de un comentario de Muriel Bristol , que afirmaba poder detectar si se había añadido primero el té o la leche a su taza. Ponió a prueba su afirmación en el experimento de la " señora que prueba el té ". [4]

Propósito y alcance

Una tetera , una jarra para leche y una taza de té llenas de té con leche : ¿puede un catador saber si la leche entró primero?

La prueba es útil para datos categóricos que resultan de clasificar objetos de dos maneras diferentes; se utiliza para examinar la significancia de la asociación (contingencia) entre los dos tipos de clasificación. Así, en el ejemplo original de Fisher, un criterio de clasificación podría ser si se puso primero la leche o el té en la taza; el otro podría ser si Bristol piensa que se puso primero la leche o el té. Queremos saber si estas dos clasificaciones están asociadas, es decir, si Bristol realmente puede decir si se sirvió primero la leche o el té. La mayoría de los usos de la prueba de Fisher implican, como este ejemplo, una tabla de contingencia de 2 × 2 (que se analiza a continuación). El valor p de la prueba se calcula como si los márgenes de la tabla fueran fijos, es decir, como si, en el ejemplo de la cata de té, Bristol supiera el número de tazas con cada tratamiento (leche o té primero) y, por lo tanto, proporcionara conjeturas con el número correcto en cada categoría. Como señaló Fisher, esto conduce, bajo una hipótesis nula de independencia, a una distribución hipergeométrica de los números en las celdas de la tabla.

Con muestras grandes, se puede utilizar una prueba de chi-cuadrado (o mejor aún, una prueba G ) en esta situación. Sin embargo, el valor de significancia que proporciona es solo una aproximación, porque la distribución de muestreo de la estadística de prueba que se calcula es solo aproximadamente igual a la distribución de chi-cuadrado teórica. La aproximación es deficiente cuando los tamaños de muestra son pequeños o los datos están distribuidos de manera muy desigual entre las celdas de la tabla, lo que da como resultado que los recuentos de celdas predichos en la hipótesis nula (los "valores esperados") sean bajos. La regla habitual para decidir si la aproximación de chi-cuadrado es lo suficientemente buena es que la prueba de chi-cuadrado no es adecuada cuando los valores esperados en cualquiera de las celdas de una tabla de contingencia son inferiores a 5, o inferiores a 10 cuando solo hay un grado de libertad (ahora se sabe que esta regla es demasiado conservadora [5] ). De hecho, para datos pequeños, dispersos o desequilibrados, los valores p exactos y asintóticos pueden ser bastante diferentes y pueden llevar a conclusiones opuestas con respecto a la hipótesis de interés. [6] [7] Por el contrario, la prueba exacta de Fisher es, como su nombre lo indica, exacta siempre que el procedimiento experimental mantenga fijos los totales de filas y columnas, y por lo tanto puede utilizarse independientemente de las características de la muestra. Resulta difícil realizar el cálculo con muestras grandes o tablas bien balanceadas, pero afortunadamente estas son exactamente las condiciones en las que resulta adecuada la prueba de chi-cuadrado.

Para los cálculos manuales, la prueba sólo es factible en el caso de una tabla de contingencia de 2 × 2. Sin embargo, el principio de la prueba se puede extender al caso general de una tabla de m  ×  n , [8] [9] y algunos paquetes estadísticos proporcionan un cálculo (a veces utilizando un método de Monte Carlo para obtener una aproximación) para el caso más general. [10]

La prueba también se puede utilizar para cuantificar la superposición entre dos conjuntos. Por ejemplo, en los análisis de enriquecimiento en genética estadística, se puede anotar un conjunto de genes para un fenotipo determinado y el usuario puede estar interesado en probar la superposición de su propio conjunto con esos. En este caso, se puede generar una tabla de contingencia de 2 × 2 y aplicar la prueba exacta de Fisher mediante la identificación

  1. Genes que se proporcionan en ambas listas
  2. Genes que se proporcionan en la primera lista y no en la segunda
  3. Genes que se proporcionan en la segunda lista y no en la primera
  4. Genes que no se proporcionan en ninguna de las listas

La prueba supone que los genes de cada lista se toman de un conjunto más amplio de genes (por ejemplo, todos los genes restantes). Luego se puede calcular un valor p que resuma la importancia de la superposición entre las dos listas. [11]

Derivación

[12]


Derivación

Establecemos el siguiente modelo de probabilidad que sustenta la prueba exacta de Fisher.

Supongamos que tenemos bolas azules y bolas rojas. Las arrojamos juntas en una caja negra, las agitamos bien y luego las retiramos una por una hasta que hayamos sacado exactamente las bolas. A estas bolas las llamamos “clase I” y a las bolas restantes, “clase II”.

La cuestión es calcular la probabilidad de que exactamente bolas azules estén en la clase I. Todas las demás entradas de la tabla se fijan una vez que completamos una entrada de la tabla.

Supongamos que pretendemos que cada bola está etiquetada y, antes de empezar a sacar las bolas, las permutamos de manera uniforme y aleatoria y, luego, sacamos las primeras . Esto nos da posibilidades.

De estas posibilidades, condicionamos el caso en que las primeras bolas contengan exactamente bolas azules. Para contar estas posibilidades, hacemos lo siguiente: primero seleccionamos de manera uniforme al azar un subconjunto de tamaño entre las bolas de clase I con posibilidades, luego seleccionamos de manera uniforme al azar un subconjunto de tamaño entre las bolas de clase II con posibilidades.

Los dos conjuntos seleccionados se rellenarían con bolas azules y el resto con bolas rojas.

Una vez que hemos seleccionado los conjuntos, podemos rellenarlos con un orden arbitrario de las bolas azules. Esto nos da posibilidades. Lo mismo ocurre con las bolas rojas, con posibilidades.

En total tenemos posibilidades.

Por lo tanto la probabilidad de este evento es

Otra derivación:

Derivación

Supongamos que cada bola azul y cada bola roja tienen una probabilidad igual e independiente de estar en la clase I y de estar en la clase II. Entonces, el número de bolas azules de clase I se distribuye binomialmente. La probabilidad de que haya exactamente de ellas es , y la probabilidad de que haya exactamente de bolas rojas de clase I es .

La probabilidad de que haya exactamente bolas de clase I, independientemente del número de bolas rojas o azules que contenga, es .

Por lo tanto, condicionado a tener bolas de clase I, la probabilidad condicional de tener una mesa como la que se muestra es

Ejemplo

Por ejemplo, una muestra de adolescentes podría dividirse en hombres y mujeres por un lado, y aquellos que están y no están estudiando actualmente para un examen de estadística por el otro. Por ejemplo, planteamos la hipótesis de que la proporción de estudiantes que estudian es mayor entre las mujeres que entre los hombres, y queremos comprobar si cualquier diferencia en las proporciones que observamos es significativa.

Los datos podrían verse así:

La pregunta que nos hacemos sobre estos datos es: sabiendo que 10 de estos 24 adolescentes están estudiando y que 12 de los 24 son mujeres, y asumiendo la hipótesis nula de que los hombres y las mujeres tienen la misma probabilidad de estudiar, ¿cuál es la probabilidad de que estos 10 adolescentes que están estudiando estén distribuidos de manera tan desigual entre las mujeres y los hombres? Si eligiéramos 10 de los adolescentes al azar, ¿cuál es la probabilidad de que 9 o más de ellos estén entre las 12 mujeres y sólo 1 o menos entre los 12 hombres?

Primer ejemplo

Antes de continuar con la prueba de Fisher, primero introducimos algunas notaciones. Representamos las celdas con las letras a, b, c y d , llamamos totales marginales a los totales en filas y columnas y representamos el total general con n . Así que la tabla ahora se ve así:

Fisher demostró que, en función de los márgenes de la tabla, a se distribuye como una distribución hipergeométrica con a+c valores extraídos de una población con a+b éxitos y c+d fracasos. La probabilidad de obtener dicho conjunto de valores está dada por:

donde es el coeficiente binomial y el símbolo ! indica el operador factorial . Esto se puede ver de la siguiente manera. Si se conocen los totales marginales (es decir , , , y ), solo queda un único grado de libertad: el valor, por ejemplo, de basta para deducir los otros valores. Ahora bien, es la probabilidad de que los elementos sean positivos en una selección aleatoria (sin reemplazo) de elementos de un conjunto más grande que contiene elementos en total de los cuales son positivos, que es precisamente la definición de la distribución hipergeométrica.

Con los datos anteriores (utilizando la primera de las formas equivalentes), se obtiene:

Segundo ejemplo

La fórmula anterior da la probabilidad hipergeométrica exacta de observar esta disposición particular de los datos, suponiendo los totales marginales dados, en la hipótesis nula de que los hombres y las mujeres tienen la misma probabilidad de ser estudiantes. Para decirlo de otra manera, si suponemos que la probabilidad de que un hombre sea un estudiante es , la probabilidad de que una mujer sea una estudiante también es , y suponemos que tanto hombres como mujeres entran en nuestra muestra independientemente de si son o no estudiantes, entonces esta fórmula hipergeométrica da la probabilidad condicional de observar los valores a, b, c, d en las cuatro celdas, condicionalmente en los marginales observados (es decir, suponiendo que se dan los totales de fila y columna que se muestran en los márgenes de la tabla). Esto sigue siendo cierto incluso si los hombres entran en nuestra muestra con diferentes probabilidades que las mujeres. El requisito es simplemente que las dos características de clasificación, género y estudiante (o no), no estén asociadas.

Por ejemplo, supongamos que conocemos las probabilidades con tal que (hombre que estudia, hombre que no estudia, mujer que estudia, mujer que no estudia) tienen probabilidades respectivas para cada individuo encontrado bajo nuestro procedimiento de muestreo. Entonces, aun así, si calculáramos la distribución de las entradas de celdas condicionalmente dadas las marginales, obtendríamos la fórmula anterior en la que no ocurre ni . Por lo tanto, podemos calcular la probabilidad exacta de cualquier disposición de los 24 adolescentes en las cuatro celdas de la tabla, pero Fisher demostró que para generar un nivel de significación, necesitamos considerar solo los casos donde los totales marginales son los mismos que en la tabla observada, y entre ellos, solo los casos donde la disposición es tan extrema como la disposición observada, o más. (La prueba de Barnard relaja esta restricción en un conjunto de los totales marginales). En el ejemplo, hay 11 casos de este tipo. De estos, solo uno es más extremo en la misma dirección que nuestros datos; se ve así:

Para esta tabla (con proporciones de estudio extremadamente desiguales) la probabilidad es .

pruebas de valor p

Para calcular la significancia de los datos observados, es decir, la probabilidad total de observar datos como extremos o más extremos si la hipótesis nula es verdadera, tenemos que calcular los valores de p para ambas tablas y sumarlos. Esto da una prueba de una cola , con p aproximadamente 0,001346076 + 0,000033652 = 0,001379728. Por ejemplo, en el entorno de computación estadística R , este valor se puede obtener como fisher.test(rbind(c(1,9),c(11,3)), alternative="less")$p.value, o en Python, usando scipy.stats.fisher_exact(table=[[1,9],[11,3]], alternative="less")(donde uno recibe tanto la razón de probabilidades previa como el valor p). Este valor se puede interpretar como la suma de la evidencia proporcionada por los datos observados (o cualquier tabla más extrema) para la hipótesis nula (que no hay diferencia en las proporciones de estudiantes entre hombres y mujeres). Cuanto menor sea el valor de p , mayor será la evidencia para rechazar la hipótesis nula; por lo que aquí la evidencia es fuerte de que los hombres y las mujeres no tienen la misma probabilidad de ser estudiantes.

Para una prueba de dos colas, también debemos considerar tablas que sean igualmente extremas, pero en la dirección opuesta. Desafortunadamente, la clasificación de las tablas según sean o no "tan extremas" es problemática. Un enfoque utilizado por la fisher.testfunción en R es calcular el valor p sumando las probabilidades para todas las tablas con probabilidades menores o iguales a la de la tabla observada. En este ejemplo, el valor p de dos colas es el doble del valor de una cola, pero en general estos pueden diferir sustancialmente para tablas con recuentos pequeños, a diferencia del caso de las estadísticas de prueba que tienen una distribución de muestreo simétrica.

Controversias

La prueba de Fisher proporciona valores p exactos , pero algunos autores han argumentado que es conservadora, es decir, que su tasa de rechazo real está por debajo del nivel de significancia nominal. [13] [14] [15] La aparente contradicción surge de la combinación de una estadística discreta con niveles de significancia fijos. [16] [17] Considere la siguiente propuesta para una prueba de significancia al nivel del 5%: rechace la hipótesis nula para cada tabla a la que la prueba de Fisher asigne un valor p igual o menor que el 5%. Debido a que el conjunto de todas las tablas es discreto, puede que no haya una tabla para la que se logre la igualdad. Si es el valor p más grande menor que el 5% que realmente puede ocurrir para alguna tabla, entonces la prueba propuesta prueba efectivamente al nivel . Para tamaños de muestra pequeños, podría ser significativamente menor que el 5%. [13] [14] [15] Si bien este efecto ocurre para cualquier estadística discreta (no sólo en tablas de contingencia o para la prueba de Fisher), se ha argumentado que el problema se agrava por el hecho de que la prueba de Fisher condiciona los valores marginales. [18] Para evitar el problema, muchos autores desaconsejan el uso de niveles de significación fijos cuando se trata de problemas discretos. [16] [17]

La decisión de condicionar los márgenes de la tabla también es controvertida. [19] [20] Los valores p derivados de la prueba de Fisher provienen de la distribución que condiciona los totales de los márgenes. En este sentido, la prueba es exacta solo para la distribución condicional y no para la tabla original donde los totales de los márgenes pueden cambiar de un experimento a otro. Es posible obtener un valor p exacto para la tabla 2×2 cuando los márgenes no se mantienen fijos. La prueba de Barnard , por ejemplo, permite márgenes aleatorios. Sin embargo, algunos autores [16] [17] [20] (incluido, más tarde, el propio Barnard) [16] han criticado la prueba de Barnard basándose en esta propiedad. Argumentan que el total de éxito marginal es una estadística (casi [17] ) auxiliar , que no contiene (casi) ninguna información sobre la propiedad probada.

Se puede demostrar que el acto de condicionar la tasa de éxito marginal a partir de una tabla 2x2 ignora cierta información en los datos sobre la razón de probabilidades desconocida. [21] El argumento de que los totales marginales son (casi) auxiliares implica que la función de probabilidad apropiada para hacer inferencias sobre esta razón de probabilidades debería estar condicionada a la tasa de éxito marginal. [21] La esencia de la controversia es si esta información perdida es importante para fines inferenciales. [21]

Alternativas

Se ha desarrollado una prueba exacta alternativa, la prueba exacta de Barnard , y sus defensores [22] sugieren que este método es más potente, particularmente en tablas 2×2. [23] Además, la prueba de Boschloo es una prueba exacta que es uniformemente más potente que la prueba exacta de Fisher por construcción. [24]

La mayoría de los programas estadísticos modernos calculan la significancia de las pruebas de Fisher, incluso en algunos casos en los que la aproximación de chi-cuadrado también sería aceptable. Los cálculos reales que realizan los programas estadísticos suelen diferir de los descritos anteriormente, porque los grandes valores que toman los factoriales pueden dar lugar a dificultades numéricas. Un enfoque computacional simple y algo mejor se basa en una función gamma o una función log-gamma, pero los métodos para el cálculo preciso de probabilidades hipergeométricas y binomiales siguen siendo un área de investigación activa.

Para datos categóricos estratificados se debe utilizar la prueba de Cochran-Mantel-Haenszel en lugar de la prueba de Fisher.

Choi et al. [21] proponen un valor p derivado de la prueba de razón de verosimilitud basada en la distribución condicional de la razón de probabilidades dada la tasa de éxito marginal. Este valor p es inferencialmente consistente con las pruebas clásicas de datos distribuidos normalmente, así como con razones de verosimilitud e intervalos de apoyo basados ​​en esta función de verosimilitud condicional. También es fácilmente computable. [25]

Véase también

Referencias

  1. ^ Fisher, RA (1922). "Sobre la interpretación de χ2 a partir de tablas de contingencia y el cálculo de P". Revista de la Royal Statistical Society . 85 (1): 87–94. doi :10.2307/2340521. JSTOR  2340521.
  2. ^ Fisher, RA (1954). Métodos estadísticos para investigadores . Oliver y Boyd. ISBN 0-05-002170-2.
  3. ^ Agresti, Alan (1992). "Un estudio de inferencia exacta para tablas de contingencia". Ciencia estadística . 7 (1): 131–153. CiteSeerX 10.1.1.296.874 . doi :10.1214/ss/1177011454. JSTOR  2246001. 
  4. ^ Fisher, Sir Ronald A. (1956) [ El diseño de experimentos (1935)]. "Matemáticas de una dama que prueba el té". En James Roy Newman (ed.). El mundo de las matemáticas, volumen 3. Courier Dover Publications. ISBN 978-0-486-41151-4.
  5. ^ Larntz, Kinley (1978). "Comparaciones de muestras pequeñas de niveles exactos para estadísticas de bondad de ajuste de chi-cuadrado". Journal of the American Statistical Association . 73 (362): 253–263. doi :10.2307/2286650. JSTOR  2286650.
  6. ^ Mehta, Cyrus R; Patel, Nitin R; Tsiatis, Anastasios A (1984). "Prueba de significación exacta para establecer la equivalencia de tratamiento con datos categóricos ordenados". Biometrics . 40 (3): 819–825. doi :10.2307/2530927. JSTOR  2530927. PMID  6518249.
  7. ^ Mehta, CR 1995. Prueba exacta de SPSS 6.1 para Windows. Englewood Cliffs, NJ: Prentice Hall.
  8. ^ Mehta CR; Patel NR (1983). "Un algoritmo de red para realizar la prueba exacta de Fisher en tablas de contingencia r X c ". Revista de la Asociación Estadounidense de Estadística . 78 (382): 427–434. doi :10.2307/2288652. JSTOR  2288652.
  9. ^ mathworld.wolfram.com Página que proporciona la fórmula para la forma general de la prueba exacta de Fisher para tablas de contingencia m  ×  n
  10. ^ Cyrus R. Mehta; Nitin R. Patel (1986). "ALGORITMO 643: FEXACT: una subrutina FORTRAN para la prueba exacta de Fisher en tablas de contingencia r×c desordenadas". ACM Trans. Software de matemáticas . 12 (2): 154–161. doi : 10.1145/6497.214326 . S2CID  : 207666979.
  11. ^ Mi, Huaiyu; Muruganujan, Anushya; Casagrande, John T.; Thomas, Paul D. (2013). "Análisis de la función genética a gran escala con el sistema de clasificación PANTHER". Nature Protocols . 8 (8): 1551–1566. doi :10.1038/nprot.2013.092. PMC 6519453 . PMID  23868073. 
  12. ^ STAT 226: Clase 7, Sección 2.6, Pruebas exactas de Fisher. Yibi Huang, Universidad de Chicago
  13. ^ ab Liddell, Douglas (1976). "Pruebas prácticas de tablas de contingencia 2×2". The Statistician . 25 (4): 295–304. doi :10.2307/2988087. JSTOR  2988087.
  14. ^ ab Berkson, Joseph (1978). "En descrédito de la prueba exacta". Revista de planificación estadística e inferencia . 2 : 27–42. doi :10.1016/0378-3758(78)90019-8.
  15. ^ ab D'Agostino, RB; Chase, W. y Belanger, A. (1988). "La idoneidad de algunos procedimientos comunes para probar la igualdad de dos proporciones binomiales independientes". The American Statistician . 42 (3): 198–202. doi :10.2307/2685002. JSTOR  2685002.
  16. ^ abcd Yates, F. (1984). "Pruebas de significación para tablas de contingencia 2 × 2 (con discusión)". Revista de la Royal Statistical Society, Serie A . 147 (3): 426–463. doi :10.2307/2981577. JSTOR  2981577. S2CID  15760519.
  17. ^ abcd Little, Roderick JA (1989). "Prueba de la igualdad de dos proporciones binomiales independientes". The American Statistician . 43 (4): 283–288. doi :10.2307/2685390. JSTOR  2685390.
  18. ^ Mehta, Cyrus R.; Senchaudhuri, Pralay (4 de septiembre de 2003). "Pruebas exactas condicionales e incondicionales para comparar dos binomios" (PDF) . Consultado el 20 de noviembre de 2009 .
  19. ^ Barnard, GA (1945). "Una nueva prueba para tablas 2×2". Nature . 156 (3954): 177. Bibcode :1945Natur.156..177B. doi : 10.1038/156177a0 .
  20. ^ ab Fisher (1945). "Una nueva prueba para tablas 2 × 2". Nature . 156 (3961): 388. Código Bibliográfico :1945Natur.156..388F. doi : 10.1038/156388a0 . S2CID  4113420.; Barnard, GA (1945). "Una nueva prueba para tablas 2×2". Nature . 156 (3974): 783–784. Código Bibliográfico :1945Natur.156..783B. doi :10.1038/156783b0. S2CID  4099311.
  21. ^ abcd Choi L, Blume JD, Dupont WD (2015). "Elucidación de los fundamentos de la inferencia estadística con tablas 2×2". PLOS ONE . ​​10 (4): e0121263. Bibcode :2015PLoSO..1021263C. doi : 10.1371/journal.pone.0121263 . PMC 4388855 . PMID  25849515. 
  22. ^ Lydersen, S., Fagerland, MW y Laake, P. (2009). "Pruebas recomendadas para asociación en tablas 2×2". Estadística en Medicina . 28 (7): 1159–1175. doi :10.1002/sim.3531. PMID  19170020. S2CID  3900997.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
  23. ^ Berger RL (1994). "Comparación de potencia de pruebas incondicionales exactas para comparar dos proporciones binomiales". Instituto de Estadística, Serie Mimeo N.º 2266 : 1–19.
  24. ^ Boschloo RD (1970). "Nivel de significación condicional elevado para la tabla 2 x 2 al probar la igualdad de dos probabilidades". Statistica Neerlandica . 24 : 1–35. doi :10.1111/j.1467-9574.1970.tb00104.x.
  25. ^ Choi, Leena (2011). "ProfileLikelihood: probabilidad de perfil para un parámetro en modelos estadísticos de uso común; 2011. Versión 1.1 del paquete R".Véase también: Estadísticas de razón de verosimilitud para tablas 2 x 2 Archivado el 4 de junio de 2016 en Wayback Machine . (Calculadora en línea).

Enlaces externos