stringtranslate.com

Relación de correlación

En estadística , el índice de correlación es una medida de la relación curvilínea entre la dispersión estadística dentro de categorías individuales y la dispersión en toda la población o muestra. La medida se define como el cociente de dos desviaciones estándar que representan estos tipos de variación. El contexto aquí es el mismo que el del coeficiente de correlación intraclase , cuyo valor es el cuadrado del índice de correlación.

Definición

Supongamos que cada observación es y xi , donde x indica la categoría en la que se encuentra la observación e i es la etiqueta de la observación particular. Sea n x el número de observaciones en la categoría x y

y

donde es la media de la categoría x y es la media de toda la población. La razón de correlación η ( eta ) se define como para satisfacer

que puede escribirse como

es decir, la varianza ponderada de las medias de las categorías dividida por la varianza de todas las muestras.

Si la relación entre los valores de y los valores de es lineal (lo que es cierto cuando solo hay dos posibilidades para x ), esto dará el mismo resultado que el cuadrado del coeficiente de correlación de Pearson ; de lo contrario, la razón de correlación será mayor en magnitud. Por lo tanto, se puede utilizar para juzgar relaciones no lineales.

Rango

La razón de correlación toma valores entre 0 y 1. El límite representa el caso especial de no dispersión entre las medias de las diferentes categorías, mientras que se refiere a la no dispersión dentro de las respectivas categorías. no está definido cuando todos los puntos de datos de la población completa toman el mismo valor.

Ejemplo

Supongamos que hay una distribución de puntuaciones de pruebas en tres temas (categorías):

Luego los promedios de las asignaturas son 36, 33 y 78, con un promedio general de 52.

Las sumas de los cuadrados de las diferencias con los promedios de las asignaturas son 1952 para Álgebra, 308 para Geometría y 600 para Estadística, lo que suma 2860. La suma total de los cuadrados de las diferencias con el promedio general es 9640. La diferencia de 6780 entre estos es también la suma ponderada de los cuadrados de las diferencias entre los promedios de las asignaturas y el promedio general:

Esto da

lo que sugiere que la mayor parte de la dispersión general es resultado de diferencias entre temas, en lugar de dentro de los mismos. Al tomar la raíz cuadrada se obtiene

En el caso de la muestra general, la dispersión se debe únicamente a la dispersión entre las categorías y no a la dispersión dentro de las categorías individuales. Para una comprensión rápida, simplemente imagine que todas las puntuaciones de Álgebra, Geometría y Estadística son las mismas respectivamente, por ejemplo, 5 por 36, 4 por 33, 6 por 78.

El límite se refiere al caso en que no hay dispersión entre las categorías que contribuyan a la dispersión general. El requisito trivial para este extremo es que todas las medias de las categorías sean iguales.

Pearson contra Fisher

La razón de correlación fue introducida por Karl Pearson como parte del análisis de varianza . Ronald Fisher comentó:

"Como estadística descriptiva, la utilidad de la razón de correlación es extremadamente limitada. Se observará que el número de grados de libertad en el numerador depende del número de matrices" [1]

A lo que Egon Pearson (hijo de Karl) respondió diciendo

"Una vez más, un método establecido desde hace mucho tiempo como el uso de la razón de correlación [§45 La "Razón de Correlación" η] se pasa por alto en unas pocas palabras sin una descripción adecuada, lo que quizás no sea justo para el estudiante a quien no se le da la oportunidad de juzgar su alcance por sí mismo". [2]

Referencias

  1. ^ Ronald Fisher (1926) " Métodos estadísticos para investigadores ", ISBN  0-05-002170-2 (extracto)
  2. ^ Pearson ES (1926) "Revisión de métodos estadísticos para investigadores (RA Fisher)", "Science Progress", 20, 733-734. (extracto)