En estadística , la transformación de Fisher (o transformación z de Fisher ) de un coeficiente de correlación de Pearson es su tangente hiperbólica inversa (artanh). Cuando el coeficiente de correlación de la muestra r está cerca de 1 o -1, su distribución está altamente sesgada , lo que dificulta la estimación de intervalos de confianza y la aplicación de pruebas de significancia para el coeficiente de correlación de la población ρ. [1] [2] [3] La transformación de Fisher resuelve este problema al producir una variable cuya distribución se distribuye
aproximadamente de manera normal , con una varianza que es estable sobre diferentes valores de r .
Aquí representa la covarianza entre las variables y y representa la desviación estándar de la variable respectiva. La transformación z de Fisher de r se define como
donde N es el tamaño de la muestra y ρ es el coeficiente de correlación real.
Esta transformación y su inversa
se puede utilizar para construir un intervalo de confianza de muestra grande para r utilizando la teoría normal estándar y derivaciones. Véase también aplicación a la correlación parcial .
Derivación
Hotelling ofrece una derivación concisa de la transformación de Fisher. [4]
Para derivar la transformación de Fisher, se comienza considerando una función arbitraria creciente, dos veces diferenciable de , digamos . Encontrar el primer término en la expansión grande de los resultados de asimetría correspondientes [5] en
Al establecer y resolver la ecuación diferencial correspondiente se obtiene la función tangente hiperbólica inversa .
De manera similar, expandiendo la media m y la varianza v de , se obtiene
m=
y
v =
respectivamente.
Los términos adicionales no forman parte de la transformación de Fisher habitual. Para valores grandes de y pequeños de representan una gran mejora de la precisión con un coste mínimo, aunque complican enormemente el cálculo de la inversa (no se dispone de una expresión en forma cerrada ). La varianza casi constante de la transformación es el resultado de eliminar su asimetría (la mejora real se consigue mediante esta última, no mediante los términos adicionales). Al incluir los términos adicionales, es decir, al calcular (zm)/v 1/2 , se obtiene:
La aplicación de la transformación de Fisher se puede mejorar utilizando una calculadora de software como se muestra en la figura. Suponiendo que el valor r-cuadrado encontrado es 0,80, que hay 30 datos [ aclaración necesaria ] y aceptando un intervalo de confianza del 90%, el valor r-cuadrado en otra muestra aleatoria de la misma población puede oscilar entre 0,588 y 0,921. Cuando r-cuadrado está fuera de este rango, se considera que la población es diferente.
Discusión
La transformación de Fisher es una transformación de estabilización de varianza aproximada para r cuando X e Y siguen una distribución normal bivariada. Esto significa que la varianza de z es aproximadamente constante para todos los valores del coeficiente de correlación poblacional ρ . Sin la transformación de Fisher, la varianza de r se hace más pequeña a medida que | ρ | se acerca a 1. Dado que la transformación de Fisher es aproximadamente la función identidad cuando | r | < 1/2, a veces es útil recordar que la varianza de r se aproxima bien por 1/ N siempre que | ρ | no sea demasiado grande y N no sea demasiado pequeño. Esto está relacionado con el hecho de que la varianza asintótica de r es 1 para datos normales bivariados.
El comportamiento de esta transformación ha sido ampliamente estudiado desde que Fisher la introdujo en 1915. El propio Fisher encontró la distribución exacta de z para datos de una distribución normal bivariada en 1921; Gayen en 1951 [8]
determinó la distribución exacta de z para datos de una distribución Edgeworth Tipo A bivariada. Hotelling en 1953 calculó las expresiones de la serie de Taylor para los momentos de z y varias estadísticas relacionadas [9] y Hawkins en 1989 descubrió la distribución asintótica de z para datos de una distribución con cuartos momentos acotados. [10]
Una alternativa a la transformación de Fisher es utilizar la densidad de distribución de confianza exacta para ρ dada por [11] [12]
donde es la función hipergeométrica gaussiana y .
^ Fisher, RA (1915). "Distribución de frecuencias de los valores del coeficiente de correlación en muestras de una población indefinidamente grande". Biometrika . 10 (4): 507–521. doi :10.2307/2331838. hdl : 2440/15166 . JSTOR 2331838.
^ Fisher, RA (1921). "Sobre el 'error probable' de un coeficiente de correlación deducido a partir de una muestra pequeña" (PDF) . Metron . 1 : 3–32.
^ Rick Wicklin. Transformación de Fisher del coeficiente de correlación. 20 de septiembre de 2017. https://blogs.sas.com/content/iml/2017/09/20/fishers-transformation-correlation.html. Consultado el 15 de febrero de 2022.
^ Hotelling, Harold (1953). "Nueva luz sobre el coeficiente de correlación y sus transformadas". Revista de la Royal Statistical Society, Serie B (Metodológica) . 15 (2): 193–225. doi :10.1111/j.2517-6161.1953.tb00135.x. ISSN 0035-9246.
^ Winterbottom, Alan (1979). "Una nota sobre la derivación de la transformación de Fisher del coeficiente de correlación". The American Statistician . 33 (3): 142–143. doi :10.2307/2683819. ISSN 0003-1305. JSTOR 2683819.
^ Vrbik, Jan (diciembre de 2005). "Momentos poblacionales de distribuciones de muestreo". Computational Statistics . 20 (4): 611–621. doi :10.1007/BF02741318. S2CID 120592303.
^ Calculadora de r-cuadrado
^ Gayen, AK (1951). "La distribución de frecuencia del coeficiente de correlación producto-momento en muestras aleatorias de cualquier tamaño extraídas de universos no normales". Biometrika . 38 (1/2): 219–247. doi :10.1093/biomet/38.1-2.219. JSTOR 2332329.
^ Hotelling, H (1953). "Nueva luz sobre el coeficiente de correlación y sus transformadas". Journal of the Royal Statistical Society, Serie B . 15 (2): 193–225. JSTOR 2983768.
^ Taraldsen, Gunnar (2021). "La densidad de confianza para la correlación". Sankhya A . doi : 10.1007/s13171-021-00267-y . ISSN 0976-8378. S2CID 244594067.
^ Taraldsen, Gunnar (2020). "Confianza en la correlación". doi :10.13140/RG.2.2.23673.49769.{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Zar, Jerrold H. (2005). "Correlación de rangos de Spearman: descripción general". Enciclopedia de bioestadística . doi :10.1002/9781118445112.stat05964. ISBN9781118445112.