En estadística , y especialmente en bioestadística , la correlación cofenética [1] (más precisamente, el coeficiente de correlación cofenética ) es una medida de la fidelidad con la que un dendrograma preserva las distancias por pares entre los puntos de datos originales no modelados. Aunque se ha aplicado más ampliamente en el campo de la bioestadística (normalmente para evaluar modelos basados en grupos de secuencias de ADN u otros modelos taxonómicos ), también se puede utilizar en otros campos de investigación en los que los datos brutos tienden a aparecer en grupos o agrupaciones. [2] Este coeficiente también se ha propuesto para su uso como prueba de agrupaciones anidadas. [3]
Cálculo del coeficiente de correlación cofenética
Supongamos que los datos originales { X i } se han modelado utilizando un método de agrupamiento para producir un dendrograma { T i }; es decir, un modelo simplificado en el que los datos que están "cerca" se han agrupado en un árbol jerárquico. Defina las siguientes medidas de distancia.
- , la distancia euclidiana entre las observaciones i y j .
- , la distancia dendrogramática entre los puntos del modelo y . Esta distancia es la altura del nodo en el que estos dos puntos se unen por primera vez.
Entonces, siendo x ( i , j ) , y siendo t ( i , j ) , el coeficiente de correlación cofenética c está dado por [4]
Implementación de software
Es posible calcular la correlación cofenética en R utilizando el paquete R dendextend. [5]
En Python , el paquete SciPy también tiene una implementación. [6]
En MATLAB , la caja de herramientas de estadística y aprendizaje automático contiene una implementación. [7]
Véase también
Referencias
- ^ Sokal, RR y FJ Rohlf. 1962. Comparación de dendrogramas mediante métodos objetivos. Taxon, 11:33-40
- ^ Dorthe B. Carr, Chris J. Young, Richard C. Aster y Xioabing Zhang, Cluster Analysis for CTBT Seismic Event Monitoring (un estudio preparado para el Departamento de Energía de los EE. UU .)
- ^ Rohlf, FJ y David L. Fisher. 1968. Prueba de estructura jerárquica en conjuntos de datos aleatorios. Systematic Zool., 17:407-412 (enlace)
- ^ Caja de herramientas de estadística de Mathworks
- ^ "Introducción a dendextend".
- ^ "scipy.cluster.hierarchy.cophenet — Guía de referencia de SciPy v0.14.0" . docs.scipy.org . Consultado el 11 de julio de 2019 .
- ^ "Coeficiente de correlación cofenética - MATLAB cophenet".
Enlaces externos
- Ejemplo numérico de correlación cofenética
- Cálculo y visualización de distancias cofenéticas