stringtranslate.com

V de Cramér

En estadística , la V de Cramér (a veces denominada phi de Cramér y denotada como φ c ) es una medida de asociación entre dos variables nominales , que da un valor entre 0 y +1 (inclusive). Se basa en la estadística de chi-cuadrado de Pearson y fue publicada por Harald Cramér en 1946. [1]

Uso e interpretación

φ c es la intercorrelación de dos variables discretas [2] y puede utilizarse con variables que tengan dos o más niveles. φ c es una medida simétrica: no importa qué variable coloquemos en las columnas y cuál en las filas. Además, el orden de las filas/columnas no importa, por lo que φ c puede utilizarse con tipos de datos nominales o superiores (en particular, ordenados o numéricos).

La V de Cramér varía de 0 (que corresponde a la ausencia de asociación entre las variables) a 1 (asociación completa) y puede llegar a 1 solo cuando cada variable está completamente determinada por la otra. Puede considerarse como la asociación entre dos variables expresada como porcentaje de su variación máxima posible.

φ c 2 es la correlación canónica cuadrática media entre las variables. [ cita requerida ]

En el caso de una tabla de contingencia de 2 × 2 , V de Cramér es igual al valor absoluto del coeficiente Phi .

Cálculo

Sea una muestra de tamaño n de las variables distribuidas simultáneamente y para dada por las frecuencias

Número de veces que se observaron los valores .

La estadística chi-cuadrado entonces es:

donde es el número de veces que se observa el valor y es el número de veces que se observa el valor.

La V de Cramér se calcula tomando la raíz cuadrada del estadístico chi-cuadrado dividido por el tamaño de la muestra y la dimensión mínima menos 1:

dónde:

El valor p para la significancia de V es el mismo que se calcula utilizando la prueba de chi-cuadrado de Pearson . [ cita requerida ]

Se conoce la fórmula para la varianza de V = φ c . [3]

En R, la función cramerV()del paquete rcompanion[4] calcula V utilizando la función chisq.test del paquete stats. A diferencia de la función cramersV()del paquete lsr[5] , cramerV()también ofrece una opción para corregir el sesgo. Aplica la corrección descrita en la siguiente sección.

Corrección de sesgo

La V de Cramér puede ser un estimador muy sesgado de su contraparte poblacional y tenderá a sobrestimar la fuerza de la asociación. Una corrección del sesgo, utilizando la notación anterior, se da mediante [6]

 

dónde

 

y

 
 

Luego estima la misma cantidad de población que la V de Cramér pero con un error cuadrático medio típicamente mucho menor . La razón para la corrección es que, en condiciones de independencia, . [7]

Véase también

Otras medidas de correlación para datos nominales:

Otros artículos relacionados:

Referencias

  1. ^ Cramér, Harald. 1946. Métodos matemáticos de estadística . Princeton: Princeton University Press, página 282 (Capítulo 21. El caso bidimensional). ISBN  0-691-08004-6 (tabla de contenido Archivado el 16 de agosto de 2016 en Wayback Machine )
  2. ^ Sheskin, David J. (1997). Manual de procedimientos estadísticos paramétricos y no paramétricos. Boca Raton, Florida: CRC Press.
  3. ^ Liebetrau, Albert M. (1983). Medidas de asociación . Newbury Park, CA: Sage Publications. Serie Aplicaciones cuantitativas en las ciencias sociales n.º 32. (páginas 15-16)
  4. ^ "Rcompanion: Funciones para apoyar la evaluación de programas de extensión educativa". 2019-01-03.
  5. ^ "Lsr: complemento para "Aprender estadística con R"". 2 de marzo de 2015.
  6. ^ Bergsma, Wicher (2013). "Una corrección de sesgo para la V de Cramér y la T de Tschuprow". Revista de la Sociedad Estadística de Corea . 42 (3): 323–328. doi :10.1016/j.jkss.2012.10.002.
  7. ^ Bartlett, Maurice S. (1937). "Propiedades de suficiencia y pruebas estadísticas". Actas de la Royal Society de Londres . Serie A. 160 (901): 268–282. Bibcode :1937RSPSA.160..268B. doi :10.1098/rspa.1937.0109. JSTOR  96803.
  8. ^ Tyler, Scott R.; Bunyavanich, Supinda; Schadt, Eric E. (19 de noviembre de 2021). "PMD descubre un borrado generalizado del estado celular mediante métodos de corrección por lotes de scRNAseq". BioRxiv : 2021.11.15.468733. doi :10.1101/2021.11.15.468733.

Enlaces externos