En estadística , el análisis de conglomerados es la agrupación algorítmica de objetos en grupos homogéneos en función de mediciones numéricas. La agrupación basada en modelos [1] se basa en un modelo estadístico para los datos, normalmente un modelo de mezcla . Esto tiene varias ventajas, entre ellas, una base estadística basada en principios para la agrupación y formas de elegir el número de conglomerados, elegir el mejor modelo de agrupación, evaluar la incertidumbre de la agrupación e identificar valores atípicos que no pertenecen a ningún grupo.
Supongamos que para cada una de las observaciones tenemos datos sobre las variables, denotadas por para la observación . Entonces, la agrupación basada en modelos expresa la función de densidad de probabilidad de como una mezcla finita o un promedio ponderado de las funciones de densidad de probabilidad de los componentes :
donde es una función de densidad de probabilidad con parámetro , es la probabilidad de mezcla correspondiente donde . Luego, en su forma más simple, la agrupación basada en modelos considera cada componente del modelo de mezcla como un grupo, estima los parámetros del modelo y asigna cada observación al grupo correspondiente a su componente de mezcla más probable.
El modelo más común para datos continuos es el que es una distribución normal multivariante con vector de media y matriz de covarianza , de modo que . Esto define un modelo de mezcla gaussiana . Los parámetros del modelo, y para , se estiman típicamente mediante estimación de máxima verosimilitud utilizando el algoritmo de maximización de expectativas (EM); consulte también algoritmo EM y modelo GMM .
La inferencia bayesiana también se utiliza a menudo para la inferencia sobre modelos de mezcla finita. [2] El enfoque bayesiano también permite el caso en el que el número de componentes, , es infinito, utilizando un proceso Dirichlet a priori, lo que produce un modelo de mezcla de proceso Dirichlet para agrupamiento. [3]
Una ventaja de la agrupación basada en modelos es que proporciona formas basadas en principios estadísticos para elegir el número de conglomerados. Cada elección diferente del número de grupos corresponde a un modelo de mezcla diferente. Luego, se pueden utilizar criterios de selección de modelos estadísticos estándar , como el criterio de información bayesiano (BIC), para elegir . [4] La verosimilitud completa integrada (ICL) [5] es un criterio diferente diseñado para elegir el número de conglomerados en lugar del número de componentes de mezcla en el modelo; estos a menudo serán diferentes si hay conglomerados altamente no gaussianos.
Para datos de gran dimensión, el uso de una matriz de covarianza completa para cada componente de la mezcla requiere la estimación de muchos parámetros, lo que puede dar como resultado una pérdida de precisión, generalización e interpretabilidad. Por lo tanto, es común utilizar matrices de covarianza de componentes más parsimoniosas que aprovechen su interpretación geométrica. Los clústeres gaussianos son elipsoidales, y su volumen, forma y orientación están determinados por la matriz de covarianza. Considere la descomposición propia de una matriz
donde es la matriz de vectores propios de , es una matriz diagonal cuyos elementos son proporcionales a los valores propios de en orden descendente, y es la constante asociada de proporcionalidad. Entonces controla el volumen del elipsoide, su forma y su orientación. [6] [7]
El volumen, la forma y la orientación de cada uno de los grupos se pueden limitar para que sean iguales (E) o se puede permitir que varíen (V); la orientación también puede ser esférica, con valores propios idénticos (I). Esto produce 14 modelos de agrupamiento posibles, que se muestran en esta tabla:
Se puede observar que muchos de estos modelos son más parsimoniosos, con muchos menos parámetros que el modelo sin restricciones que tiene 90 parámetros cuando y .
Varios de estos modelos corresponden a métodos de agrupamiento heurístico bien conocidos. Por ejemplo, el agrupamiento k-means es equivalente a la estimación del modelo de agrupamiento EII utilizando el algoritmo de clasificación EM. [8] El criterio de información bayesiano (BIC) se puede utilizar para elegir el mejor modelo de agrupamiento, así como el número de agrupamientos. También se puede utilizar como base para un método para elegir las variables en el modelo de agrupamiento, eliminando las variables que no son útiles para el agrupamiento. [9] [10]
Se han desarrollado diferentes métodos de agrupamiento basados en modelos gaussianos con el objetivo de manejar datos de alta dimensión. Entre ellos se incluyen el método pgmm [11] , que se basa en el modelo de mezcla de analizadores factoriales, y el método HDclassif, basado en la idea de agrupamiento de subespacios. [12]
El marco de mezcla de expertos extiende la agrupación basada en modelos para incluir covariables. [13] [14]
Ilustramos el método con un conjunto de datos que consta de tres mediciones (glucosa, insulina, sspg) en 145 sujetos con el fin de diagnosticar diabetes y el tipo de diabetes presente. [15] Los sujetos se clasificaron clínicamente en tres grupos: normal, diabetes química y diabetes manifiesta, pero utilizamos esta información solo para evaluar métodos de agrupamiento, no para clasificar a los sujetos.
El gráfico BIC muestra los valores BIC para cada combinación del número de grupos, y el modelo de agrupamiento de la Tabla. Cada curva corresponde a un modelo de agrupamiento diferente. El BIC favorece a 3 grupos, que corresponde a la evaluación clínica. También favorece al modelo de covarianza sin restricciones, VVV. Esto se ajusta bien a los datos, porque los pacientes normales tienen valores bajos tanto de sspg como de insulina, mientras que las distribuciones de los grupos de diabetes química y manifiesta son alargadas, pero en diferentes direcciones. Por lo tanto, los volúmenes, formas y orientaciones de los tres grupos son claramente diferentes, por lo que el modelo sin restricciones es apropiado, tal como se seleccionó mediante el método de agrupamiento basado en modelos.
El gráfico de clasificación muestra la clasificación de los sujetos según el agrupamiento basado en modelos. La clasificación fue bastante precisa, con un índice de error del 12%, tal como se define en la clasificación clínica. Otros métodos de agrupamiento conocidos tuvieron un peor desempeño con índices de error más altos, como el agrupamiento de ligamiento simple con un 46%, el agrupamiento de ligamiento promedio con un 30%, el agrupamiento de ligamiento completo también con un 30% y el agrupamiento de k-medias con un 28%.
Un valor atípico en la agrupación es un punto de datos que no pertenece a ninguno de los grupos. Una forma de modelar los valores atípicos en la agrupación basada en modelos es incluir un componente de mezcla adicional que esté muy disperso, con, por ejemplo, una distribución uniforme. [6] [16] Otro enfoque es reemplazar las densidades normales multivariadas por distribuciones α, [17] con la idea de que las colas largas de la distribución α garantizarían la robustez ante los valores atípicos. Sin embargo, esto no es robusto frente a las descomposiciones. [18] Un tercer enfoque es el "tclust" o enfoque de recorte de datos [19] que excluye las observaciones identificadas como valores atípicos al estimar los parámetros del modelo.
En ocasiones, uno o más grupos se desvían considerablemente del supuesto gaussiano. Si se ajusta una mezcla gaussiana a dichos datos, un grupo fuertemente no gaussiano a menudo estará representado por varios componentes de la mezcla en lugar de uno solo. En ese caso, se puede utilizar la fusión de grupos para encontrar un mejor agrupamiento. [20] Un enfoque diferente es utilizar mezclas de densidades de componentes complejos para representar grupos no gaussianos. [21] [22]
La agrupación de datos categóricos multivariados se realiza con mayor frecuencia mediante el modelo de clase latente . Este supone que los datos surgen de un modelo de mezcla finita, donde dentro de cada grupo las variables son independientes.
Estos surgen cuando las variables son de diferentes tipos, como datos continuos, categóricos u ordinales. Un modelo de clase latente para datos mixtos supone independencia local entre las variables. [23] El modelo de ubicación relaja el supuesto de independencia local. [24] El enfoque clustMD supone que las variables observadas son manifestaciones de variables latentes gaussianas continuas subyacentes. [25]
El enfoque de agrupamiento basado en modelos más simple para datos de recuento multivariados se basa en mezclas finitas con distribuciones de Poisson localmente independientes, similares al modelo de clase latente . Los enfoques más realistas permiten la dependencia y la sobredispersión en los recuentos. [26] Estos incluyen métodos basados en la distribución de Poisson multivariada, la distribución normal de Poisson-log multivariada, el modelo autorregresivo de valores enteros (INAR) y el modelo de Cox gaussiano.
Estos consisten en secuencias de valores categóricos de un conjunto finito de posibilidades, como las trayectorias del ciclo de vida. Los enfoques de agrupamiento basados en modelos incluyen modelos de trayectorias y mezclas de crecimiento basados en grupos [27] y un modelo de mezcla basado en la distancia. [28]
Estos surgen cuando los individuos clasifican objetos en orden de preferencia. Los datos son entonces listas ordenadas de objetos, que surgen en las áreas de votación, educación, marketing y otras. Los métodos de agrupamiento basados en modelos para datos de clasificación incluyen mezclas de modelos de Plackett-Luce y mezclas de modelos de Benter, [29] [30] y mezclas de modelos de Mallows. [31]
Estos consisten en la presencia, ausencia o fuerza de conexiones entre individuos o nodos, y están muy extendidos en las ciencias sociales y la biología. El modelo de bloques estocástico lleva a cabo una agrupación basada en modelos de los nodos de una red asumiendo que existe una agrupación latente y que las conexiones se forman independientemente dada la agrupación. [32] El modelo de agrupación de posición latente supone que cada nodo ocupa una posición en un espacio latente no observado, que estas posiciones surgen de una mezcla de distribuciones gaussianas y que la presencia o ausencia de una conexión está asociada con la distancia en el espacio latente. [33]
Gran parte del software de agrupamiento basado en modelos se presenta en forma de un paquete R disponible públicamente y de forma gratuita . Muchos de ellos se encuentran en la Vista de tareas de CRAN sobre análisis de clústeres y modelos de mezcla finita. [34] El paquete de este tipo más utilizado es mclust , [35] [36] que se utiliza para agrupar datos continuos y se ha descargado más de 8 millones de veces. [37]
El paquete poLCA [38] agrupa datos categóricos utilizando el modelo de clase latente . El paquete clustMD [25] agrupa datos mixtos, incluidas variables continuas, binarias, ordinales y nominales.
El paquete flexmix [39] realiza agrupaciones basadas en modelos para una variedad de distribuciones de componentes. El paquete mixtools [40] puede agrupar diferentes tipos de datos. Tanto flexmix como mixtools implementan agrupaciones basadas en modelos con covariables.
La agrupación basada en modelos fue inventada por primera vez en 1950 por Paul Lazarsfeld para agrupar datos discretos multivariados, en la forma del modelo de clase latente . [41]
En 1959, Lazarsfeld dio una conferencia sobre análisis de estructura latente en la Universidad de California-Berkeley, donde John H. Wolfe era estudiante de maestría. Esto llevó a Wolfe a pensar en cómo hacer lo mismo para datos continuos, y en 1965 lo hizo, proponiendo el modelo de mezcla gaussiana para agrupamiento. [42] [43] También produjo el primer software para estimarlo, llamado NORMIX. Day (1969), trabajando de forma independiente, fue el primero en publicar un artículo de revista sobre el enfoque. [44] Sin embargo, Wolfe merece crédito como el inventor del agrupamiento basado en modelos para datos continuos.
Murtagh y Raftery (1984) desarrollaron un método de agrupamiento basado en modelos basado en la descomposición de valores propios de las matrices de covarianza de los componentes. [45] McLachlan y Basford (1988) fue el primer libro sobre el enfoque, avanzando la metodología y despertando interés. [46] Banfield y Raftery (1993) acuñaron el término "agrupamiento basado en modelos", introdujeron la familia de modelos parsimoniosos, describieron un criterio de información para elegir el número de clústeres, propusieron el modelo uniforme para valores atípicos e introdujeron el software mclust . [6] Celeux y Govaert (1995) mostraron cómo realizar la estimación de máxima verosimilitud para los modelos. [7] Por lo tanto, en 1995 los componentes centrales de la metodología estaban en su lugar, sentando las bases para un amplio desarrollo desde entonces.
Descarga gratuita: https://math.univ-cotedazur.fr/~cbouveyr/MBCbook/