En estadística , el análisis de conglomerados es la agrupación algorítmica de objetos en grupos homogéneos basándose en mediciones numéricas. La agrupación basada en modelos [1] basa esto en un modelo estadístico para los datos, generalmente un modelo mixto . Esto tiene varias ventajas, incluida una base estadística de principios para la agrupación y formas de elegir el número de agrupaciones, elegir el mejor modelo de agrupación, evaluar la incertidumbre de la agrupación e identificar valores atípicos que no pertenecen a ningún grupo.
Supongamos que para cada una de las observaciones tenemos datos sobre variables, denotadas por para observación . Luego, la agrupación basada en modelos expresa la función de densidad de probabilidad como una mezcla finita o un promedio ponderado de las funciones de densidad de probabilidad de los componentes :
donde es una función de densidad de probabilidad con parámetro , es la probabilidad de mezcla correspondiente donde . Luego, en su forma más simple, la agrupación basada en modelos ve cada componente del modelo de mezcla como un grupo, estima los parámetros del modelo y asigna cada observación al grupo correspondiente a su componente de mezcla más probable.
El modelo más común para datos continuos es una distribución normal multivariada con vector medio y matriz de covarianza , de modo que . Esto define un modelo de mezcla gaussiana . Los parámetros del modelo, y para , generalmente se estiman mediante estimación de máxima verosimilitud utilizando el algoritmo de maximización de expectativas (EM); consulte también algoritmo EM y modelo GMM .
La inferencia bayesiana también se utiliza a menudo para inferir modelos de mezclas finitas. [2] El enfoque bayesiano también permite el caso en el que el número de componentes, , es infinito, utilizando un proceso de Dirichlet previamente, lo que produce un modelo de mezcla de proceso de Dirichlet para agrupación. [3]
Una ventaja de la agrupación basada en modelos es que proporciona formas basadas en principios estadísticos para elegir el número de agrupaciones. Cada elección diferente del número de grupos corresponde a un modelo de mezcla diferente. Luego, para elegir, se pueden utilizar criterios de selección de modelos estadísticos estándar , como el criterio de información bayesiano (BIC) . [4] La probabilidad completa integrada (ICL) [5] es un criterio diferente diseñado para elegir el número de conglomerados en lugar del número de componentes de la mezcla en el modelo; estos a menudo serán diferentes si están presentes grupos altamente no gaussianos.
Para datos de alta dimensión, el uso de una matriz de covarianza completa para cada componente de la mezcla requiere la estimación de muchos parámetros, lo que puede resultar en una pérdida de precisión, generalización e interpretabilidad. Por tanto, es común utilizar matrices de covarianza de componentes más parsimoniosas que exploten su interpretación geométrica. Los grupos gaussianos son elipsoidales y su volumen, forma y orientación están determinados por la matriz de covarianza. Considere la descomposición propia de una matriz.
donde es la matriz de vectores propios de , es una matriz diagonal cuyos elementos son proporcionales a los valores propios de en orden descendente, y es la constante de proporcionalidad asociada. Luego controla el volumen del elipsoide, su forma y su orientación. [6] [7]
Cada uno de los volúmenes, formas y orientaciones de los grupos puede limitarse a ser igual (E) o permitirse que varíe (V); la orientación también puede ser esférica, con valores propios idénticos (I). Esto produce 14 posibles modelos de agrupación, que se muestran en esta tabla:
Se puede observar que muchos de estos modelos son más parsimoniosos, con muchos menos parámetros que el modelo sin restricciones que tiene 90 parámetros cuando y .
Varios de estos modelos corresponden a métodos heurísticos de agrupamiento bien conocidos. Por ejemplo, la agrupación de k-medias es equivalente a la estimación del modelo de agrupación EII utilizando el algoritmo de clasificación EM. [8] El criterio de información bayesiano (BIC) se puede utilizar para elegir el mejor modelo de agrupación, así como el número de agrupaciones. También se puede utilizar como base para un método para elegir las variables en el modelo de agrupamiento, eliminando variables que no son útiles para el agrupamiento. [9] [10]
Se han desarrollado diferentes métodos de agrupamiento basados en modelos gaussianos con miras a manejar datos de alta dimensión. Estos incluyen el método pgmm, [11] que se basa en el modelo de mezcla de analizadores de factores, y el método HDclassif, basado en la idea de agrupamiento subespacial. [12]
El marco de combinación de expertos amplía la agrupación basada en modelos para incluir covariables. [13] [14]
Ilustramos el método con un conjunto de fechas que consta de tres mediciones (glucosa, insulina, sspg) en 145 sujetos con el fin de diagnosticar la diabetes y el tipo de diabetes presente. [15] Los sujetos fueron clasificados clínicamente en tres grupos: diabetes normal, química y diabetes manifiesta, pero utilizamos esta información solo para evaluar métodos de agrupamiento, no para clasificar sujetos.
El gráfico BIC muestra los valores BIC para cada combinación del número de conglomerados y el modelo de agrupamiento de la tabla. Cada curva corresponde a un modelo de agrupación diferente. El BIC favorece 3 grupos, lo que corresponde a la evaluación clínica. También favorece el modelo de covarianza sin restricciones, VVV. Esto se ajusta bien a los datos, porque los pacientes normales tienen valores bajos tanto de sspg como de insulina, mientras que las distribuciones de los grupos de diabetes química y manifiesta son alargadas, pero en diferentes direcciones. Por lo tanto, los volúmenes, formas y orientaciones de los tres grupos son claramente diferentes, por lo que el modelo sin restricciones es apropiado, seleccionado mediante el método de agrupamiento basado en modelos.
El gráfico de clasificación muestra la clasificación de los sujetos mediante agrupación basada en modelos. La clasificación fue bastante precisa, con una tasa de error del 12% según lo definido por la clasificación clínica. Otros métodos de agrupación conocidos obtuvieron peores resultados con tasas de error más altas, como la agrupación de enlace único con un 46 %, la agrupación de enlace promedio con un 30 %, la agrupación de enlace completo también con un 30 % y la agrupación de k-medias con un 28 %.
Un valor atípico en la agrupación es un punto de datos que no pertenece a ninguno de los grupos. Una forma de modelar valores atípicos en la agrupación basada en modelos es incluir un componente de mezcla adicional que esté muy disperso, con, por ejemplo, una distribución uniforme. [6] [16] Otro enfoque es reemplazar las densidades normales multivariadas por distribuciones -, [17] con la idea de que las colas largas de la distribución garantizarían robustez ante los valores atípicos. Sin embargo, esto no es resistente a las averías. [18] Un tercer enfoque es el "tclust" o enfoque de recorte de datos [19] que excluye las observaciones identificadas como valores atípicos al estimar los parámetros del modelo.
A veces uno o más grupos se desvían fuertemente del supuesto gaussiano. Si se ajusta una mezcla gaussiana a dichos datos, un grupo fuertemente no gaussiano a menudo estará representado por varios componentes de la mezcla en lugar de uno solo. En ese caso, se puede utilizar la fusión de clústeres para encontrar una mejor agrupación. [20] Un enfoque diferente es utilizar mezclas de densidades de componentes complejos para representar grupos no gaussianos. [21] [22]
La agrupación de datos categóricos multivariados se realiza con mayor frecuencia mediante el modelo de clase latente . Esto supone que los datos surgen de un modelo de mezcla finita, donde dentro de cada grupo las variables son independientes.
Surgen cuando las variables son de diferentes tipos, como datos continuos, categóricos u ordinales. Un modelo de clases latentes para datos mixtos supone independencia local entre las variables. [23] El modelo de ubicación relaja el supuesto de independencia local. [24] El enfoque clustMD supone que las variables observadas son manifestaciones de variables latentes gaussianas continuas subyacentes. [25]
El enfoque de agrupamiento basado en modelos más simple para datos de recuento multivariados se basa en mezclas finitas con distribuciones de Poisson localmente independientes, similar al modelo de clases latentes . Los enfoques más realistas permiten la dependencia y la dispersión excesiva en los recuentos. [26] Estos incluyen métodos basados en la distribución multivariada de Poisson, la distribución normal multivariada de Poisson-log, el modelo autorregresivo de valores enteros (INAR) y el modelo gaussiano de Cox.
Estos consisten en secuencias de valores categóricos de un conjunto finito de posibilidades, como las trayectorias del curso de vida. Los enfoques de agrupación basados en modelos incluyen modelos de mezcla de crecimiento y trayectoria basados en grupos [27] y un modelo de mezcla basado en la distancia. [28]
Surgen cuando los individuos clasifican los objetos en orden de preferencia. Los datos luego son listas ordenadas de objetos, que surgen en la votación, la educación, el marketing y otras áreas. Los métodos de agrupamiento basados en modelos para datos de clasificación incluyen mezclas de modelos de Plackett-Luce y mezclas de modelos de Benter, [29] [30] y mezclas de modelos de Mallows. [31]
Estos consisten en la presencia, ausencia o fuerza de conexiones entre individuos o nodos, y están muy extendidos en las ciencias sociales y la biología. El modelo de bloques estocástico lleva a cabo una agrupación basada en modelos de los nodos de una red asumiendo que existe una agrupación latente y que las conexiones se forman de forma independiente dada la agrupación. [32] El modelo de grupo de posiciones latentes supone que cada nodo ocupa una posición en un espacio latente no observado, que estas posiciones surgen de una mezcla de distribuciones gaussianas y que la presencia o ausencia de una conexión está asociada con la distancia en el espacio latente. [33]
Gran parte del software de agrupación en clústeres basado en modelos se presenta en forma de un paquete R disponible pública y gratuitamente . Muchos de estos se enumeran en la Vista de tareas de CRAN sobre análisis de conglomerados y modelos de mezclas finitas. [34] El paquete de este tipo más utilizado es mclust , [35] [36] que se utiliza para agrupar datos continuos y se ha descargado más de 8 millones de veces. [37]
El paquete poLCA [38] agrupa datos categóricos utilizando el modelo de clase latente . El paquete clustMD [25] agrupa datos mixtos, incluidas variables continuas, binarias, ordinales y nominales.
El paquete flexmix [39] realiza agrupaciones basadas en modelos para una variedad de distribuciones de componentes. El paquete mixtools [40] puede agrupar diferentes tipos de datos. Tanto flexmix como mixtools implementan agrupaciones basadas en modelos con covariables.
La agrupación basada en modelos fue inventada por primera vez en 1950 por Paul Lazarsfeld para agrupar datos discretos multivariados, en la forma del modelo de clases latentes . [41]
En 1959, Lazarsfeld dio una conferencia sobre análisis de estructuras latentes en la Universidad de California-Berkeley, donde John H. Wolfe era estudiante de maestría. Esto llevó a Wolfe a pensar en cómo hacer lo mismo con datos continuos, y en 1965 lo hizo, proponiendo el modelo de mezcla gaussiana para la agrupación. [42] [43] También produjo el primer software para estimarlo, llamado NORMIX. Day (1969), trabajando de forma independiente, fue el primero en publicar un artículo en una revista sobre este enfoque. [44] Sin embargo, Wolfe merece crédito como inventor de la agrupación basada en modelos para datos continuos.
Murtagh y Raftery (1984) desarrollaron un método de agrupamiento basado en modelos basado en la descomposición de valores propios de las matrices de covarianza de los componentes. [45] McLachlan y Basford (1988) fue el primer libro sobre este enfoque, avanzando en la metodología y despertando interés. [46] Banfield y Raftery (1993) acuñaron el término "agrupación basada en modelos", introdujeron la familia de modelos parsimoniosos, describieron un criterio de información para elegir el número de agrupaciones, propusieron el modelo uniforme para valores atípicos e introdujeron el software mclust . [6] Celeux y Govaert (1995) mostraron cómo realizar una estimación de máxima verosimilitud para los modelos. [7] Así, en 1995 los componentes centrales de la metodología estaban en su lugar, sentando las bases para un amplio desarrollo desde entonces.
Descarga gratuita: https://math.univ-cotedazur.fr/~cbouveyr/MBCbook/