stringtranslate.com

Agrupación basada en modelos

En estadística , el análisis de conglomerados es la agrupación algorítmica de objetos en grupos homogéneos basándose en mediciones numéricas. La agrupación basada en modelos [1] basa esto en un modelo estadístico para los datos, generalmente un modelo mixto . Esto tiene varias ventajas, incluida una base estadística de principios para la agrupación y formas de elegir el número de agrupaciones, elegir el mejor modelo de agrupación, evaluar la incertidumbre de la agrupación e identificar valores atípicos que no pertenecen a ningún grupo.

Agrupación basada en modelos

Supongamos que para cada una de las observaciones tenemos datos sobre variables, denotadas por para observación . Luego, la agrupación basada en modelos expresa la función de densidad de probabilidad como una mezcla finita o un promedio ponderado de las funciones de densidad de probabilidad de los componentes :

donde es una función de densidad de probabilidad con parámetro , es la probabilidad de mezcla correspondiente donde . Luego, en su forma más simple, la agrupación basada en modelos ve cada componente del modelo de mezcla como un grupo, estima los parámetros del modelo y asigna cada observación al grupo correspondiente a su componente de mezcla más probable.

modelo de mezcla gaussiana

El modelo más común para datos continuos es una distribución normal multivariada con vector medio y matriz de covarianza , de modo que . Esto define un modelo de mezcla gaussiana . Los parámetros del modelo, y para , generalmente se estiman mediante estimación de máxima verosimilitud utilizando el algoritmo de maximización de expectativas (EM); consulte también algoritmo EM y modelo GMM .

La inferencia bayesiana también se utiliza a menudo para inferir modelos de mezclas finitas. [2] El enfoque bayesiano también permite el caso en el que el número de componentes, , es infinito, utilizando un proceso de Dirichlet previamente, lo que produce un modelo de mezcla de proceso de Dirichlet para agrupación. [3]

Elegir el número de grupos

Una ventaja de la agrupación basada en modelos es que proporciona formas basadas en principios estadísticos para elegir el número de agrupaciones. Cada elección diferente del número de grupos corresponde a un modelo de mezcla diferente. Luego, para elegir, se pueden utilizar criterios de selección de modelos estadísticos estándar , como el criterio de información bayesiano (BIC) . [4] La probabilidad completa integrada (ICL) [5] es un criterio diferente diseñado para elegir el número de conglomerados en lugar del número de componentes de la mezcla en el modelo; estos a menudo serán diferentes si están presentes grupos altamente no gaussianos.

Modelo de mezcla gaussiana parsimoniosa

Para datos de alta dimensión, el uso de una matriz de covarianza completa para cada componente de la mezcla requiere la estimación de muchos parámetros, lo que puede resultar en una pérdida de precisión, generalización e interpretabilidad. Por tanto, es común utilizar matrices de covarianza de componentes más parsimoniosas que exploten su interpretación geométrica. Los grupos gaussianos son elipsoidales y su volumen, forma y orientación están determinados por la matriz de covarianza. Considere la descomposición propia de una matriz.

donde es la matriz de vectores propios de , es una matriz diagonal cuyos elementos son proporcionales a los valores propios de en orden descendente, y es la constante de proporcionalidad asociada. Luego controla el volumen del elipsoide, su forma y su orientación. [6] [7]

Cada uno de los volúmenes, formas y orientaciones de los grupos puede limitarse a ser igual (E) o permitirse que varíe (V); la orientación también puede ser esférica, con valores propios idénticos (I). Esto produce 14 posibles modelos de agrupación, que se muestran en esta tabla:

Se puede observar que muchos de estos modelos son más parsimoniosos, con muchos menos parámetros que el modelo sin restricciones que tiene 90 parámetros cuando y .

Varios de estos modelos corresponden a métodos heurísticos de agrupamiento bien conocidos. Por ejemplo, la agrupación de k-medias es equivalente a la estimación del modelo de agrupación EII utilizando el algoritmo de clasificación EM. [8] El criterio de información bayesiano (BIC) se puede utilizar para elegir el mejor modelo de agrupación, así como el número de agrupaciones. También se puede utilizar como base para un método para elegir las variables en el modelo de agrupamiento, eliminando variables que no son útiles para el agrupamiento. [9] [10]

Se han desarrollado diferentes métodos de agrupamiento basados ​​en modelos gaussianos con miras a manejar datos de alta dimensión. Estos incluyen el método pgmm, [11] que se basa en el modelo de mezcla de analizadores de factores, y el método HDclassif, basado en la idea de agrupamiento subespacial. [12]

El marco de combinación de expertos amplía la agrupación basada en modelos para incluir covariables. [13] [14]

Ejemplo

Ilustramos el método con un conjunto de fechas que consta de tres mediciones (glucosa, insulina, sspg) en 145 sujetos con el fin de diagnosticar la diabetes y el tipo de diabetes presente. [15] Los sujetos fueron clasificados clínicamente en tres grupos: diabetes normal, química y diabetes manifiesta, pero utilizamos esta información solo para evaluar métodos de agrupamiento, no para clasificar sujetos.

Gráfico BIC para agrupación de datos de diabetes basada en modelos

El gráfico BIC muestra los valores BIC para cada combinación del número de conglomerados y el modelo de agrupamiento de la tabla. Cada curva corresponde a un modelo de agrupación diferente. El BIC favorece 3 grupos, lo que corresponde a la evaluación clínica. También favorece el modelo de covarianza sin restricciones, VVV. Esto se ajusta bien a los datos, porque los pacientes normales tienen valores bajos tanto de sspg como de insulina, mientras que las distribuciones de los grupos de diabetes química y manifiesta son alargadas, pero en diferentes direcciones. Por lo tanto, los volúmenes, formas y orientaciones de los tres grupos son claramente diferentes, por lo que el modelo sin restricciones es apropiado, seleccionado mediante el método de agrupamiento basado en modelos.

Clasificación basada en modelos de datos sobre diabetes.

El gráfico de clasificación muestra la clasificación de los sujetos mediante agrupación basada en modelos. La clasificación fue bastante precisa, con una tasa de error del 12% según lo definido por la clasificación clínica. Otros métodos de agrupación conocidos obtuvieron peores resultados con tasas de error más altas, como la agrupación de enlace único con un 46 %, la agrupación de enlace promedio con un 30 %, la agrupación de enlace completo también con un 30 % y la agrupación de k-medias con un 28 %.

Valores atípicos en la agrupación

Un valor atípico en la agrupación es un punto de datos que no pertenece a ninguno de los grupos. Una forma de modelar valores atípicos en la agrupación basada en modelos es incluir un componente de mezcla adicional que esté muy disperso, con, por ejemplo, una distribución uniforme. [6] [16] Otro enfoque es reemplazar las densidades normales multivariadas por distribuciones -, [17] con la idea de que las colas largas de la distribución garantizarían robustez ante los valores atípicos. Sin embargo, esto no es resistente a las averías. [18] Un tercer enfoque es el "tclust" o enfoque de recorte de datos [19] que excluye las observaciones identificadas como valores atípicos al estimar los parámetros del modelo.

Clústeres no gaussianos y fusión

A veces uno o más grupos se desvían fuertemente del supuesto gaussiano. Si se ajusta una mezcla gaussiana a dichos datos, un grupo fuertemente no gaussiano a menudo estará representado por varios componentes de la mezcla en lugar de uno solo. En ese caso, se puede utilizar la fusión de clústeres para encontrar una mejor agrupación. [20] Un enfoque diferente es utilizar mezclas de densidades de componentes complejos para representar grupos no gaussianos. [21] [22]

Datos no continuos

Datos categóricos

La agrupación de datos categóricos multivariados se realiza con mayor frecuencia mediante el modelo de clase latente . Esto supone que los datos surgen de un modelo de mezcla finita, donde dentro de cada grupo las variables son independientes.

Datos mixtos

Surgen cuando las variables son de diferentes tipos, como datos continuos, categóricos u ordinales. Un modelo de clases latentes para datos mixtos supone independencia local entre las variables. [23] El modelo de ubicación relaja el supuesto de independencia local. [24] El enfoque clustMD supone que las variables observadas son manifestaciones de variables latentes gaussianas continuas subyacentes. [25]

Contar datos

El enfoque de agrupamiento basado en modelos más simple para datos de recuento multivariados se basa en mezclas finitas con distribuciones de Poisson localmente independientes, similar al modelo de clases latentes . Los enfoques más realistas permiten la dependencia y la dispersión excesiva en los recuentos. [26] Estos incluyen métodos basados ​​en la distribución multivariada de Poisson, la distribución normal multivariada de Poisson-log, el modelo autorregresivo de valores enteros (INAR) y el modelo gaussiano de Cox.

Datos de secuencia

Estos consisten en secuencias de valores categóricos de un conjunto finito de posibilidades, como las trayectorias del curso de vida. Los enfoques de agrupación basados ​​en modelos incluyen modelos de mezcla de crecimiento y trayectoria basados ​​en grupos [27] y un modelo de mezcla basado en la distancia. [28]

Clasificar datos

Surgen cuando los individuos clasifican los objetos en orden de preferencia. Los datos luego son listas ordenadas de objetos, que surgen en la votación, la educación, el marketing y otras áreas. Los métodos de agrupamiento basados ​​en modelos para datos de clasificación incluyen mezclas de modelos de Plackett-Luce y mezclas de modelos de Benter, [29] [30] y mezclas de modelos de Mallows. [31]

Datos de red

Estos consisten en la presencia, ausencia o fuerza de conexiones entre individuos o nodos, y están muy extendidos en las ciencias sociales y la biología. El modelo de bloques estocástico lleva a cabo una agrupación basada en modelos de los nodos de una red asumiendo que existe una agrupación latente y que las conexiones se forman de forma independiente dada la agrupación. [32] El modelo de grupo de posiciones latentes supone que cada nodo ocupa una posición en un espacio latente no observado, que estas posiciones surgen de una mezcla de distribuciones gaussianas y que la presencia o ausencia de una conexión está asociada con la distancia en el espacio latente. [33]

Software

Gran parte del software de agrupación en clústeres basado en modelos se presenta en forma de un paquete R disponible pública y gratuitamente . Muchos de estos se enumeran en la Vista de tareas de CRAN sobre análisis de conglomerados y modelos de mezclas finitas. [34] El paquete de este tipo más utilizado es mclust , [35] [36] que se utiliza para agrupar datos continuos y se ha descargado más de 8 millones de veces. [37]

El paquete poLCA [38] agrupa datos categóricos utilizando el modelo de clase latente . El paquete clustMD [25] agrupa datos mixtos, incluidas variables continuas, binarias, ordinales y nominales.

El paquete flexmix [39] realiza agrupaciones basadas en modelos para una variedad de distribuciones de componentes. El paquete mixtools [40] puede agrupar diferentes tipos de datos. Tanto flexmix como mixtools implementan agrupaciones basadas en modelos con covariables.

Historia

La agrupación basada en modelos fue inventada por primera vez en 1950 por Paul Lazarsfeld para agrupar datos discretos multivariados, en la forma del modelo de clases latentes . [41]

En 1959, Lazarsfeld dio una conferencia sobre análisis de estructuras latentes en la Universidad de California-Berkeley, donde John H. Wolfe era estudiante de maestría. Esto llevó a Wolfe a pensar en cómo hacer lo mismo con datos continuos, y en 1965 lo hizo, proponiendo el modelo de mezcla gaussiana para la agrupación. [42] [43] También produjo el primer software para estimarlo, llamado NORMIX. Day (1969), trabajando de forma independiente, fue el primero en publicar un artículo en una revista sobre este enfoque. [44] Sin embargo, Wolfe merece crédito como inventor de la agrupación basada en modelos para datos continuos.

Murtagh y Raftery (1984) desarrollaron un método de agrupamiento basado en modelos basado en la descomposición de valores propios de las matrices de covarianza de los componentes. [45] McLachlan y Basford (1988) fue el primer libro sobre este enfoque, avanzando en la metodología y despertando interés. [46] Banfield y Raftery (1993) acuñaron el término "agrupación basada en modelos", introdujeron la familia de modelos parsimoniosos, describieron un criterio de información para elegir el número de agrupaciones, propusieron el modelo uniforme para valores atípicos e introdujeron el software mclust . [6] Celeux y Govaert (1995) mostraron cómo realizar una estimación de máxima verosimilitud para los modelos. [7] Así, en 1995 los componentes centrales de la metodología estaban en su lugar, sentando las bases para un amplio desarrollo desde entonces.

Otras lecturas

Descarga gratuita: https://math.univ-cotedazur.fr/~cbouveyr/MBCbook/

Referencias

  1. ^ Fraley, C.; Raftery, AE (2002). "Agrupación basada en modelos, análisis discriminante y estimación de densidad". Revista de la Asociación Estadounidense de Estadística . 97 (458): 611–631. doi :10.1198/016214502760047131. S2CID  14462594.
  2. ^ Fruhwirth-Schnatter, S. (2006). Modelos de mezcla finita y conmutación de Markov . Saltador. ISBN 978-0-387-32909-3.
  3. ^ Quintana, FA; Iglesias, PL (2003). "Modelos de partición de productos y agrupación bayesiana". Revista de la Royal Statistical Society, Serie B. 65 (2): 557–575. doi :10.1111/1467-9868.00402. S2CID  120362310.
  4. ^ Dasgupta, A.; Raftery, AE (1998). "Detección de características en procesos de puntos espaciales con desorden mediante agrupación basada en modelos". Revista de la Asociación Estadounidense de Estadística . 93 (441): 294–302. doi :10.1080/01621459.1998.10474110.
  5. ^ Biernacki, C.; Celebux, G.; Govaert, G. (2000). "Evaluación de un modelo mixto para agrupación con probabilidad completa integrada". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 22 (7): 719–725. doi : 10.1109/34.865189.
  6. ^ abc Banfield, JD; Raftery, AE (1993). "Agrupación gaussiana y no gaussiana basada en modelos". Biometría . 49 (3): 803–821. doi :10.2307/2532201. JSTOR  2532201.
  7. ^ ab Celebux, G.; Govaert, G. (1995). "Modelos de agrupamiento parsimonioso gaussiano" (PDF) . Reconocimiento de patrones . 28 (5): 781–793. Código Bib : 1995PatRe..28..781C. doi :10.1016/0031-3203(94)00125-6.
  8. ^ Celeux, G.; Govaert, G. (1992). "Un algoritmo EM de clasificación para agrupamiento y dos versiones estocásticas" (PDF) . Estadística computacional y análisis de datos . 14 (3): 315–332. doi :10.1016/0167-9473(92)90042-E. S2CID  121694251.
  9. ^ Vigas, AE; Decano, N. (2006). "Selección de variables para agrupación basada en modelos". Revista de la Asociación Estadounidense de Estadística . 101 (473): 168-178. doi :10.1198/016214506000000113. S2CID  7738576.
  10. ^ Maugis, C.; Celebux, G.; Martín-Magniette, ML (2009). "Selección de variables para agrupamiento con modelos de mezcla gaussiana" (PDF) . Biometría . 65 (3): 701–709. doi :10.1111/j.1541-0420.2008.01160.x. PMID  19210744. S2CID  1326823.
  11. ^ McNicholas, PD; Murphy, tuberculosis (2008). "Modelos parsimoniosos de mezcla gaussiana". Estadística y Computación . 18 (3): 285–296. doi :10.1007/s11222-008-9056-0. S2CID  13287886.
  12. ^ Bouveyron, C.; Girard, S.; Schmid, C. (2007). "Agrupación de datos de alta dimensión". Estadística Computacional y Análisis de Datos . 52 : 502–519. arXiv : matemáticas/0604064 . doi : 10.1016/j.csda.2007.02.009.
  13. ^ Murphy, K.; Murphy, TB (2020). "Modelos de agrupamiento parsimonioso gaussiano con covariables y un componente de ruido". Avances en Análisis y Clasificación de Datos . 14 (2): 293–325. arXiv : 1711.05632 . doi :10.1007/s11634-019-00373-8. S2CID  204210043.
  14. ^ Jacobs, RA; Jordania, Michigan; Nowlan, SJ; Hinton, GE (1991). "Mezclas de adaptación de los expertos locales". Computación neuronal . 3 (1): 79–87. doi :10.1162/neco.1991.3.1.79. PMID  31141872. S2CID  572361.
  15. ^ Reaven, director general; Molinero, RG (1979). "Un intento de definir la naturaleza de la diabetes química mediante un análisis multidimensional". Diabetología . 16 (1): 17–24. doi :10.1007/BF00423145. PMID  761733.
  16. ^ Hennig, C. (2004). "Puntos de desglose para estimadores de máxima verosimilitud de mezclas de escala de ubicación". Anales de Estadística . 32 (4): 1313-1340. arXiv : matemáticas/0410073 . doi :10.1214/009053604000000571.
  17. ^ McLachlan, GJ; Pelar, D. (2000). Modelos de mezclas finitas . Wiley-Interscience. ISBN 9780471006268.
  18. ^ Coretto, P.; Hennig, C. (2016). "Máxima verosimilitud robusta e inadecuada: ajuste, cálculo y comparación con otros métodos para una agrupación gaussiana robusta". Revista de la Asociación Estadounidense de Estadística . 111 (516): 1648-1659. arXiv : 1406.0808 . doi :10.1080/01621459.2015.1100996.
  19. ^ García-Escudero, LA; Gordaliza, A.; Matrán, C.; Mayo-Iscar, A. (2008). "Un enfoque de recorte general para un análisis de conglomerados sólido". Anales de Estadística . 36 (3): 1324-1345. arXiv : 0806.2976 . doi :10.1214/07-AOS515.
  20. ^ Baudry, JP; Raftery, AE; Celebux, G.; He aquí, K.; Gottardo, R. (2010). "Combinación de componentes de mezclas para agrupación". Revista de Estadística Computacional y Gráfica . 19 (2): 332–353. doi : 10.1198/jcgs.2010.08111. PMC 2953822 . PMID  20953302. 
  21. ^ Murray, primer ministro; Browne, RP; McNicholas, PD (2020). "Mezclas de analizadores de factores hiperbólicos de truncamiento oculto". Revista de Clasificación . 37 (2): 366–379. arXiv : 1711.01504 . doi :10.1007/s00357-019-9309-y.
  22. ^ Lee, SX; McLachlan, GJ (2022). "Una descripción general de las distribuciones asimétricas en la agrupación basada en modelos". Revista de análisis multivariado . 188 : 104853. doi : 10.1016/j.jmva.2021.104853.
  23. ^ Everitt, B. (1984). Introducción a los modelos de variables latentes . Chapman y Hall.
  24. ^ Caza, L.; Jorgensen, M. (1999). "Teoría y métodos: agrupamiento de modelos mixtos utilizando el programa MULTIMIX". Revista de estadística de Australia y Nueva Zelanda . 41 (2): 154-171. doi :10.1111/1467-842X.00071. S2CID  118269232.
  25. ^ ab McParland, D.; Gormley, IC (2016). "Agrupación basada en modelos para datos mixtos: clustMD". Avances en Análisis y Clasificación de Datos . 10 (2): 155-169. arXiv : 1511.01720 . doi :10.1007/s11634-016-0238-x. S2CID  29492339.
  26. ^ Karlis, D. (2019). "Modelado mixto de datos discretos". En Fruhwirth-Schnatter, S.; Celebux, G.; Robert, CP (eds.). Manual de análisis de mezclas . Chapman y Hall/CRC Press. págs. 193-218. ISBN 9780429055911.
  27. ^ Erosheva, EA; Matsueda, RL; Telesca, D. (2014). "Breaking bad: dos décadas de análisis de datos sobre el curso de la vida en criminología, psicología del desarrollo y más". Revisión Anual de las Estadísticas y sus Aplicaciones . 1 (1): 301–332. Código Bib : 2014AnRSA...1..301E. doi :10.1146/annurev-statistics-022513-115701.
  28. ^ Murphy, K.; Murphy, tuberculosis; Piccarreta, R.; Gormley, IC (2021). "Agrupación de secuencias longitudinales del curso de vida utilizando mezclas de modelos de distancia exponencial" (PDF) . Revista de la Royal Statistical Society, Serie A. 184 (4): 1414-1451. doi :10.1111/rssa.12712. S2CID  235828978.
  29. ^ Gormley, IC; Murphy, tuberculosis (2008). "Explorando bloques de votación dentro del electorado irlandés: un enfoque de modelado mixto". Revista de la Asociación Estadounidense de Estadística . 103 : 1014-1027. doi :10.1198/016214507000001049. hdl : 10197/7122 . S2CID  55004915.
  30. ^ Mollica, C.; Tardella, L. (2017). "Modelos de mezcla bayesiana de Plackett-Luce para datos parcialmente clasificados". Psicometrika . 82 (2): 442–458. arXiv : 1501.03519 . doi :10.1007/s11336-016-9530-0. PMID  27734294. S2CID  6903655.
  31. ^ Biernacki, C.; Jacques, J. (2013). "Un modelo generativo para clasificar datos basado en un algoritmo de clasificación por inserción" (PDF) . Estadística Computacional y Análisis de Datos . 58 : 162-176. doi :10.1016/j.csda.2012.08.008.
  32. ^ Nowicki, K.; Snijders, TAB (2001). "Estimación y predicción de estructuras de bloques estocásticas". Revista de la Asociación Estadounidense de Estadística . 96 (455): 1077–1087. doi :10.1198/016214501753208735. S2CID  9478789.
  33. ^ Handcock, EM; Raftery, AE; Rabieta, JM (2007). "Agrupación basada en modelos para redes sociales". Revista de la Royal Statistical Society, Serie A. 107 (2): 1–22. doi :10.1111/j.1467-985X.2007.00471.x.
  34. ^ https://cran.r-project.org/web/views/Cluster.html, consultado el 25 de febrero de 2024
  35. ^ Scrucca, L.; Fop, M.; Murphy, tuberculosis; Raftery, AE (2016). "mclust 5: agrupación, clasificación y estimación de densidad utilizando modelos gaussianos de mezcla finita". Diario R. 8 (1): 289–317. doi :10.32614/RJ-2016-021. PMC 5096736 . PMID  27818791. 
  36. ^ Scrucca, L.; Fraley, C.; Murphy, tuberculosis; Raftery, AE (2023). Estimación de densidad, clasificación y agrupamiento basada en modelos . Chapman y Hall/CRC Press. ISBN 9781032234953.
  37. ^ https://www.datasciencemeta.com/rpackages, consultado el 25 de febrero de 2024
  38. ^ Linzer, DA; Lewis, JB (2011). "poLCA: un paquete R para análisis de clases latentes de variables politómicas". Revista de software estadístico . 42 (10): 1–29. doi : 10.18637/jss.v042.i10.
  39. ^ Grun, B.; Leisch, F. (2008). "FlexMix versión 2: Mezclas finitas con variables concomitantes y parámetros variables y constantes". Revista de software estadístico . 28 (4): 1–35. doi : 10.18637/jss.v028.i04.
  40. ^ Benaglia, T.; Chauveau, D.; Cazador, DR; Joven, D. (2009). "mixtools: un paquete R para analizar modelos de mezclas finitas". Revista de software estadístico . 32 (6): 1–29. doi : 10.18637/jss.v032.i06.
  41. ^ Lazarsfeld, PF (1950). "Los fundamentos lógicos y matemáticos del análisis de estructuras latentes". En Stouffer, SA; Guttman, L.; Suchman, EA; Lazarsfeld, PF (eds.). Estudios de Psicología Social en la Segunda Guerra Mundial. Volumen IV: Medición y Predicción . Prensa de la Universidad de Princeton. págs. 362–412.
  42. ^ Wolfe, JH (1965). Un programa informático para el análisis de tipos de máxima verosimilitud. Boletín técnico de USNPRA 65-15 (Reporte). Personal naval estadounidense. Res. Act., San Diego, CA.
  43. ^ Bouveyron, C.; Celebux, G.; Murphy, tuberculosis; Raftery, AE (2019). "Sección 2.8". Agrupación y clasificación basadas en modelos para ciencia de datos: con aplicaciones en R. Prensa de la Universidad de Cambridge. ISBN 9781108494205.
  44. ^ Día, NE (1969). "Estimación de los componentes de una mezcla de dos distribuciones normales". Biometrika . 56 (3): 463–474. doi :10.1093/biomet/56.3.463.
  45. ^ Murtagh, F.; Raftery, AE (1984). "Ajustar líneas rectas a patrones de puntos". Reconocimiento de patrones . 17 (5): 479–483. Código Bib : 1984PatRe..17..479M. doi :10.1016/0031-3203(84)90045-1.
  46. ^ McLachlan, GJ; Basford, KE (1988). Modelos de mezclas: inferencia y aplicaciones a la agrupación . Marcel Dekker. ISBN 978-0824776916.