stringtranslate.com

Transformación de Fisher

Un gráfico de la transformación (en naranja). El coeficiente de correlación de la muestra no transformada se representa en el eje horizontal y el coeficiente transformado en el eje vertical. También se muestra la función de identidad (gris) a modo de comparación.

En estadística , la transformación de Fisher (o transformación z de Fisher ) de un coeficiente de correlación de Pearson es su tangente hiperbólica inversa (artanh). Cuando el coeficiente de correlación de la muestra r está cerca de 1 o -1, su distribución está altamente sesgada , lo que dificulta la estimación de intervalos de confianza y la aplicación de pruebas de significancia para el coeficiente de correlación de la población ρ. [1] [2] [3] La transformación de Fisher resuelve este problema al producir una variable cuya distribución se distribuye aproximadamente de manera normal , con una varianza que es estable sobre diferentes valores de r .

Definición

Dado un conjunto de N pares de muestras bivariadas ( X iY i ), i  = 1, ...,  N , el coeficiente de correlación de muestra r viene dado por

Aquí representa la covarianza entre las variables y y representa la desviación estándar de la variable respectiva. La transformación z de Fisher de r se define como

donde "ln" es la función logaritmo natural y "artanh" es la función tangente hiperbólica inversa .

Si ( XY ) tiene una distribución normal bivariada con correlación ρ y los pares ( X iY i ) son independientes y se distribuyen de forma idéntica , entonces z se distribuye aproximadamente de forma normal con media

y una desviación estándar que no depende del valor de la correlación rho (es decir, una transformación estabilizadora de varianza )

donde N es el tamaño de la muestra y ρ es el coeficiente de correlación real.

Esta transformación y su inversa

se puede utilizar para construir un intervalo de confianza de muestra grande para  r utilizando la teoría normal estándar y derivaciones. Véase también aplicación a la correlación parcial .

Derivación

Transformación de Fisher con y . Se ilustra la función de densidad de probabilidad exacta de (en negro), junto con las funciones de densidad de probabilidad de la transformación de Fisher habitual (azul) y la obtenida al incluir términos adicionales que dependen de (rojo). La última aproximación es visualmente indistinguible de la respuesta exacta (su error máximo es 0,3%, en comparación con el 3,4% de la transformación básica de Fisher).

Hotelling ofrece una derivación concisa de la transformación de Fisher. [4]

Para derivar la transformación de Fisher, se comienza considerando una función arbitraria creciente, dos veces diferenciable de , digamos . Encontrar el primer término en la expansión grande de los resultados de asimetría correspondientes [5] en

Al establecer y resolver la ecuación diferencial correspondiente se obtiene la función tangente hiperbólica inversa .

De manera similar, expandiendo la media m y la varianza v de , se obtiene

m=

y

v =

respectivamente.

Los términos adicionales no forman parte de la transformación de Fisher habitual. Para valores grandes de y pequeños de representan una gran mejora de la precisión con un coste mínimo, aunque complican enormemente el cálculo de la inversa (no se dispone de una expresión en forma cerrada ). La varianza casi constante de la transformación es el resultado de eliminar su asimetría (la mejora real se consigue mediante esta última, no mediante los términos adicionales). Al incluir los términos adicionales, es decir, al calcular (zm)/v 1/2 , se obtiene:

que tiene, en una excelente aproximación, una distribución normal estándar . [6]

Calculadora del cinturón de confianza de los valores r-cuadrado (o coeficiente de determinación/explicación o bondad de ajuste). [7]

Solicitud

La aplicación de la transformación de Fisher se puede mejorar utilizando una calculadora de software como se muestra en la figura. Suponiendo que el valor r-cuadrado encontrado es 0,80, que hay 30 datos [ aclaración necesaria ] y aceptando un intervalo de confianza del 90%, el valor r-cuadrado en otra muestra aleatoria de la misma población puede oscilar entre 0,588 y 0,921. Cuando r-cuadrado está fuera de este rango, se considera que la población es diferente.

Discusión

La transformación de Fisher es una transformación de estabilización de varianza aproximada para r cuando X e Y siguen una distribución normal bivariada. Esto significa que la varianza de z es aproximadamente constante para todos los valores del coeficiente de correlación poblacional ρ . Sin la transformación de Fisher, la varianza de r se hace más pequeña a medida que | ρ | se acerca a 1. Dado que la transformación de Fisher es aproximadamente la función identidad cuando | r | < 1/2, a veces es útil recordar que la varianza de r se aproxima bien por 1/ N siempre que | ρ | no sea demasiado grande y N no sea demasiado pequeño. Esto está relacionado con el hecho de que la varianza asintótica de r es 1 para datos normales bivariados.

El comportamiento de esta transformación ha sido ampliamente estudiado desde que Fisher la introdujo en 1915. El propio Fisher encontró la distribución exacta de z para datos de una distribución normal bivariada en 1921; Gayen en 1951 [8] determinó la distribución exacta de z para datos de una distribución Edgeworth Tipo A bivariada. Hotelling en 1953 calculó las expresiones de la serie de Taylor para los momentos de z y varias estadísticas relacionadas [9] y Hawkins en 1989 descubrió la distribución asintótica de z para datos de una distribución con cuartos momentos acotados. [10]

Una alternativa a la transformación de Fisher es utilizar la densidad de distribución de confianza exacta para ρ dada por [11] [12] donde es la función hipergeométrica gaussiana y .

Otros usos

Si bien la transformación de Fisher se asocia principalmente con el coeficiente de correlación producto-momento de Pearson para observaciones normales bivariadas, también se puede aplicar al coeficiente de correlación de rango de Spearman en casos más generales. [13] Se aplica un resultado similar para la distribución asintótica , pero con un factor de ajuste menor: consulte el artículo citado para obtener más detalles.

Véase también

Referencias

  1. ^ Fisher, RA (1915). "Distribución de frecuencias de los valores del coeficiente de correlación en muestras de una población indefinidamente grande". Biometrika . 10 (4): 507–521. doi :10.2307/2331838. hdl : 2440/15166 . JSTOR  2331838.
  2. ^ Fisher, RA (1921). "Sobre el 'error probable' de un coeficiente de correlación deducido a partir de una muestra pequeña" (PDF) . Metron . 1 : 3–32.
  3. ^ Rick Wicklin. Transformación de Fisher del coeficiente de correlación. 20 de septiembre de 2017. https://blogs.sas.com/content/iml/2017/09/20/fishers-transformation-correlation.html. Consultado el 15 de febrero de 2022.
  4. ^ Hotelling, Harold (1953). "Nueva luz sobre el coeficiente de correlación y sus transformadas". Revista de la Royal Statistical Society, Serie B (Metodológica) . 15 (2): 193–225. doi :10.1111/j.2517-6161.1953.tb00135.x. ISSN  0035-9246.
  5. ^ Winterbottom, Alan (1979). "Una nota sobre la derivación de la transformación de Fisher del coeficiente de correlación". The American Statistician . 33 (3): 142–143. doi :10.2307/2683819. ISSN  0003-1305. JSTOR  2683819.
  6. ^ Vrbik, Jan (diciembre de 2005). "Momentos poblacionales de distribuciones de muestreo". Computational Statistics . 20 (4): 611–621. doi :10.1007/BF02741318. S2CID  120592303.
  7. ^ Calculadora de r-cuadrado
  8. ^ Gayen, AK (1951). "La distribución de frecuencia del coeficiente de correlación producto-momento en muestras aleatorias de cualquier tamaño extraídas de universos no normales". Biometrika . 38 (1/2): 219–247. doi :10.1093/biomet/38.1-2.219. JSTOR  2332329.
  9. ^ Hotelling, H (1953). "Nueva luz sobre el coeficiente de correlación y sus transformadas". Journal of the Royal Statistical Society, Serie B . 15 (2): 193–225. JSTOR  2983768.
  10. ^ Hawkins, DL (1989). "Uso de la estadística U para derivar la distribución asintótica de la estadística Z de Fisher" . The American Statistician . 43 (4): 235–237. doi :10.2307/2685369. JSTOR  2685369.
  11. ^ Taraldsen, Gunnar (2021). "La densidad de confianza para la correlación". Sankhya A . doi : 10.1007/s13171-021-00267-y . ISSN  0976-8378. S2CID  244594067.
  12. ^ Taraldsen, Gunnar (2020). "Confianza en la correlación". doi :10.13140/RG.2.2.23673.49769. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  13. ^ Zar, Jerrold H. (2005). "Correlación de rangos de Spearman: descripción general". Enciclopedia de bioestadística . doi :10.1002/9781118445112.stat05964. ISBN 9781118445112.

Enlaces externos