stringtranslate.com

Agrupamiento basado en modelos

En estadística , el análisis de conglomerados es la agrupación algorítmica de objetos en grupos homogéneos en función de mediciones numéricas. La agrupación basada en modelos [1] se basa en un modelo estadístico para los datos, normalmente un modelo de mezcla . Esto tiene varias ventajas, entre ellas, una base estadística basada en principios para la agrupación y formas de elegir el número de conglomerados, elegir el mejor modelo de agrupación, evaluar la incertidumbre de la agrupación e identificar valores atípicos que no pertenecen a ningún grupo.

Agrupamiento basado en modelos

Supongamos que para cada una de las observaciones tenemos datos sobre las variables, denotadas por para la observación . Entonces, la agrupación basada en modelos expresa la función de densidad de probabilidad de como una mezcla finita o un promedio ponderado de las funciones de densidad de probabilidad de los componentes :

donde es una función de densidad de probabilidad con parámetro , es la probabilidad de mezcla correspondiente donde . Luego, en su forma más simple, la agrupación basada en modelos considera cada componente del modelo de mezcla como un grupo, estima los parámetros del modelo y asigna cada observación al grupo correspondiente a su componente de mezcla más probable.

Modelo de mezcla gaussiana

El modelo más común para datos continuos es el que es una distribución normal multivariante con vector de media y matriz de covarianza , de modo que . Esto define un modelo de mezcla gaussiana . Los parámetros del modelo, y para , se estiman típicamente mediante estimación de máxima verosimilitud utilizando el algoritmo de maximización de expectativas (EM); consulte también algoritmo EM y modelo GMM .

La inferencia bayesiana también se utiliza a menudo para la inferencia sobre modelos de mezcla finita. [2] El enfoque bayesiano también permite el caso en el que el número de componentes, , es infinito, utilizando un proceso Dirichlet a priori, lo que produce un modelo de mezcla de proceso Dirichlet para agrupamiento. [3]

Elección del número de clústeres

Una ventaja de la agrupación basada en modelos es que proporciona formas basadas en principios estadísticos para elegir el número de conglomerados. Cada elección diferente del número de grupos corresponde a un modelo de mezcla diferente. Luego, se pueden utilizar criterios de selección de modelos estadísticos estándar , como el criterio de información bayesiano (BIC), para elegir . [4] La verosimilitud completa integrada (ICL) [5] es un criterio diferente diseñado para elegir el número de conglomerados en lugar del número de componentes de mezcla en el modelo; estos a menudo serán diferentes si hay conglomerados altamente no gaussianos.

Modelo de mezcla gaussiana parsimoniosa

Para datos de gran dimensión, el uso de una matriz de covarianza completa para cada componente de la mezcla requiere la estimación de muchos parámetros, lo que puede dar como resultado una pérdida de precisión, generalización e interpretabilidad. Por lo tanto, es común utilizar matrices de covarianza de componentes más parsimoniosas que aprovechen su interpretación geométrica. Los clústeres gaussianos son elipsoidales, y su volumen, forma y orientación están determinados por la matriz de covarianza. Considere la descomposición propia de una matriz

donde es la matriz de vectores propios de , es una matriz diagonal cuyos elementos son proporcionales a los valores propios de en orden descendente, y es la constante asociada de proporcionalidad. Entonces controla el volumen del elipsoide, su forma y su orientación. [6] [7]

El volumen, la forma y la orientación de cada uno de los grupos se pueden limitar para que sean iguales (E) o se puede permitir que varíen (V); la orientación también puede ser esférica, con valores propios idénticos (I). Esto produce 14 modelos de agrupamiento posibles, que se muestran en esta tabla:

Se puede observar que muchos de estos modelos son más parsimoniosos, con muchos menos parámetros que el modelo sin restricciones que tiene 90 parámetros cuando y .

Varios de estos modelos corresponden a métodos de agrupamiento heurístico bien conocidos. Por ejemplo, el agrupamiento k-means es equivalente a la estimación del modelo de agrupamiento EII utilizando el algoritmo de clasificación EM. [8] El criterio de información bayesiano (BIC) se puede utilizar para elegir el mejor modelo de agrupamiento, así como el número de agrupamientos. También se puede utilizar como base para un método para elegir las variables en el modelo de agrupamiento, eliminando las variables que no son útiles para el agrupamiento. [9] [10]

Se han desarrollado diferentes métodos de agrupamiento basados ​​en modelos gaussianos con el objetivo de manejar datos de alta dimensión. Entre ellos se incluyen el método pgmm [11] , que se basa en el modelo de mezcla de analizadores factoriales, y el método HDclassif, basado en la idea de agrupamiento de subespacios. [12]

El marco de mezcla de expertos extiende la agrupación basada en modelos para incluir covariables. [13] [14]

Ejemplo

Ilustramos el método con un conjunto de datos que consta de tres mediciones (glucosa, insulina, sspg) en 145 sujetos con el fin de diagnosticar diabetes y el tipo de diabetes presente. [15] Los sujetos se clasificaron clínicamente en tres grupos: normal, diabetes química y diabetes manifiesta, pero utilizamos esta información solo para evaluar métodos de agrupamiento, no para clasificar a los sujetos.

Diagrama BIC para la agrupación basada en modelos de datos de diabetes

El gráfico BIC muestra los valores BIC para cada combinación del número de grupos, y el modelo de agrupamiento de la Tabla. Cada curva corresponde a un modelo de agrupamiento diferente. El BIC favorece a 3 grupos, que corresponde a la evaluación clínica. También favorece al modelo de covarianza sin restricciones, VVV. Esto se ajusta bien a los datos, porque los pacientes normales tienen valores bajos tanto de sspg como de insulina, mientras que las distribuciones de los grupos de diabetes química y manifiesta son alargadas, pero en diferentes direcciones. Por lo tanto, los volúmenes, formas y orientaciones de los tres grupos son claramente diferentes, por lo que el modelo sin restricciones es apropiado, tal como se seleccionó mediante el método de agrupamiento basado en modelos.

Clasificación de datos de diabetes basada en modelos

El gráfico de clasificación muestra la clasificación de los sujetos según el agrupamiento basado en modelos. La clasificación fue bastante precisa, con un índice de error del 12%, tal como se define en la clasificación clínica. Otros métodos de agrupamiento conocidos tuvieron un peor desempeño con índices de error más altos, como el agrupamiento de ligamiento simple con un 46%, el agrupamiento de ligamiento promedio con un 30%, el agrupamiento de ligamiento completo también con un 30% y el agrupamiento de k-medias con un 28%.

Valores atípicos en la agrupación

Un valor atípico en la agrupación es un punto de datos que no pertenece a ninguno de los grupos. Una forma de modelar los valores atípicos en la agrupación basada en modelos es incluir un componente de mezcla adicional que esté muy disperso, con, por ejemplo, una distribución uniforme. [6] [16] Otro enfoque es reemplazar las densidades normales multivariadas por distribuciones α, [17] con la idea de que las colas largas de la distribución α garantizarían la robustez ante los valores atípicos. Sin embargo, esto no es robusto frente a las descomposiciones. [18] Un tercer enfoque es el "tclust" o enfoque de recorte de datos [19] que excluye las observaciones identificadas como valores atípicos al estimar los parámetros del modelo.

Cúmulos no gaussianos y fusión

En ocasiones, uno o más grupos se desvían considerablemente del supuesto gaussiano. Si se ajusta una mezcla gaussiana a dichos datos, un grupo fuertemente no gaussiano a menudo estará representado por varios componentes de la mezcla en lugar de uno solo. En ese caso, se puede utilizar la fusión de grupos para encontrar un mejor agrupamiento. [20] Un enfoque diferente es utilizar mezclas de densidades de componentes complejos para representar grupos no gaussianos. [21] [22]

Datos no continuos

Datos categóricos

La agrupación de datos categóricos multivariados se realiza con mayor frecuencia mediante el modelo de clase latente . Este supone que los datos surgen de un modelo de mezcla finita, donde dentro de cada grupo las variables son independientes.

Datos mixtos

Estos surgen cuando las variables son de diferentes tipos, como datos continuos, categóricos u ordinales. Un modelo de clase latente para datos mixtos supone independencia local entre las variables. [23] El modelo de ubicación relaja el supuesto de independencia local. [24] El enfoque clustMD supone que las variables observadas son manifestaciones de variables latentes gaussianas continuas subyacentes. [25]

Contar datos

El enfoque de agrupamiento basado en modelos más simple para datos de recuento multivariados se basa en mezclas finitas con distribuciones de Poisson localmente independientes, similares al modelo de clase latente . Los enfoques más realistas permiten la dependencia y la sobredispersión en los recuentos. [26] Estos incluyen métodos basados ​​en la distribución de Poisson multivariada, la distribución normal de Poisson-log multivariada, el modelo autorregresivo de valores enteros (INAR) y el modelo de Cox gaussiano.

Datos de secuencia

Estos consisten en secuencias de valores categóricos de un conjunto finito de posibilidades, como las trayectorias del ciclo de vida. Los enfoques de agrupamiento basados ​​en modelos incluyen modelos de trayectorias y mezclas de crecimiento basados ​​en grupos [27] y un modelo de mezcla basado en la distancia. [28]

Datos de clasificación

Estos surgen cuando los individuos clasifican objetos en orden de preferencia. Los datos son entonces listas ordenadas de objetos, que surgen en las áreas de votación, educación, marketing y otras. Los métodos de agrupamiento basados ​​en modelos para datos de clasificación incluyen mezclas de modelos de Plackett-Luce y mezclas de modelos de Benter, [29] [30] y mezclas de modelos de Mallows. [31]

Datos de red

Estos consisten en la presencia, ausencia o fuerza de conexiones entre individuos o nodos, y están muy extendidos en las ciencias sociales y la biología. El modelo de bloques estocástico lleva a cabo una agrupación basada en modelos de los nodos de una red asumiendo que existe una agrupación latente y que las conexiones se forman independientemente dada la agrupación. [32] El modelo de agrupación de posición latente supone que cada nodo ocupa una posición en un espacio latente no observado, que estas posiciones surgen de una mezcla de distribuciones gaussianas y que la presencia o ausencia de una conexión está asociada con la distancia en el espacio latente. [33]

Software

Gran parte del software de agrupamiento basado en modelos se presenta en forma de un paquete R disponible públicamente y de forma gratuita . Muchos de ellos se encuentran en la Vista de tareas de CRAN sobre análisis de clústeres y modelos de mezcla finita. [34] El paquete de este tipo más utilizado es mclust , [35] [36] que se utiliza para agrupar datos continuos y se ha descargado más de 8 millones de veces. [37]

El paquete poLCA [38] agrupa datos categóricos utilizando el modelo de clase latente . El paquete clustMD [25] agrupa datos mixtos, incluidas variables continuas, binarias, ordinales y nominales.

El paquete flexmix [39] realiza agrupaciones basadas en modelos para una variedad de distribuciones de componentes. El paquete mixtools [40] puede agrupar diferentes tipos de datos. Tanto flexmix como mixtools implementan agrupaciones basadas en modelos con covariables.

Historia

La agrupación basada en modelos fue inventada por primera vez en 1950 por Paul Lazarsfeld para agrupar datos discretos multivariados, en la forma del modelo de clase latente . [41]

En 1959, Lazarsfeld dio una conferencia sobre análisis de estructura latente en la Universidad de California-Berkeley, donde John H. Wolfe era estudiante de maestría. Esto llevó a Wolfe a pensar en cómo hacer lo mismo para datos continuos, y en 1965 lo hizo, proponiendo el modelo de mezcla gaussiana para agrupamiento. [42] [43] También produjo el primer software para estimarlo, llamado NORMIX. Day (1969), trabajando de forma independiente, fue el primero en publicar un artículo de revista sobre el enfoque. [44] Sin embargo, Wolfe merece crédito como el inventor del agrupamiento basado en modelos para datos continuos.

Murtagh y Raftery (1984) desarrollaron un método de agrupamiento basado en modelos basado en la descomposición de valores propios de las matrices de covarianza de los componentes. [45] McLachlan y Basford (1988) fue el primer libro sobre el enfoque, avanzando la metodología y despertando interés. [46] Banfield y Raftery (1993) acuñaron el término "agrupamiento basado en modelos", introdujeron la familia de modelos parsimoniosos, describieron un criterio de información para elegir el número de clústeres, propusieron el modelo uniforme para valores atípicos e introdujeron el software mclust . [6] Celeux y Govaert (1995) mostraron cómo realizar la estimación de máxima verosimilitud para los modelos. [7] Por lo tanto, en 1995 los componentes centrales de la metodología estaban en su lugar, sentando las bases para un amplio desarrollo desde entonces.

Lectura adicional

Descarga gratuita: https://math.univ-cotedazur.fr/~cbouveyr/MBCbook/

Referencias

  1. ^ Fraley, C.; Raftery, AE (2002). "Agrupamiento basado en modelos, análisis discriminante y estimación de densidad". Revista de la Asociación Estadounidense de Estadística . 97 (458): 611–631. doi :10.1198/016214502760047131. S2CID  14462594.
  2. ^ Fruhwirth-Schnatter, S. (2006). Modelos de mezcla finita y de conmutación de Markov . Springer. ISBN 978-0-387-32909-3.
  3. ^ Quintana, FA; Iglesias, PL (2003). "Agrupamiento bayesiano y modelos de partición de productos". Journal of the Royal Statistical Society, Serie B . 65 (2): 557–575. doi :10.1111/1467-9868.00402. S2CID  120362310.
  4. ^ Dasgupta, A.; Raftery, AE (1998). "Detección de características en procesos puntuales espaciales con desorden mediante agrupamiento basado en modelos". Revista de la Asociación Estadounidense de Estadística . 93 (441): 294–302. doi :10.1080/01621459.1998.10474110.
  5. ^ Biernacki, C.; Celeux, G.; Govaert, G. (2000). "Evaluación de un modelo de mezcla para agrupamiento con la probabilidad completa integrada". IEEE Transactions on Pattern Analysis and Machine Intelligence . 22 (7): 719–725. doi :10.1109/34.865189.
  6. ^ abc Banfield, JD; Raftery, AE (1993). "Agrupamiento gaussiano y no gaussiano basado en modelos". Biometrics . 49 (3): 803–821. doi :10.2307/2532201. JSTOR  2532201.
  7. ^ ab Celeux, G.; Govaert, G. (1995). "Modelos de agrupamiento parsimonioso gaussiano" (PDF) . Reconocimiento de patrones . 28 (5): 781–793. Código Bibliográfico :1995PatRe..28..781C. doi :10.1016/0031-3203(94)00125-6.
  8. ^ Celeux, G.; Govaert, G. (1992). "Un algoritmo EM de clasificación para agrupamiento y dos versiones estocásticas" (PDF) . Computational Statistics & Data Analysis . 14 (3): 315–332. doi :10.1016/0167-9473(92)90042-E. S2CID  121694251.
  9. ^ Raftery, AE; Dean, N. (2006). "Selección de variables para agrupamiento basado en modelos". Revista de la Asociación Estadounidense de Estadística . 101 (473): 168–178. doi :10.1198/016214506000000113. S2CID  7738576.
  10. ^ Maugis, C.; Celeux, G.; Martin-Magniette, ML (2009). "Selección de variables para agrupamiento con modelos de mezcla gaussiana" (PDF) . Biometrics . 65 (3): 701–709. doi :10.1111/j.1541-0420.2008.01160.x. PMID  19210744. S2CID  1326823.
  11. ^ McNicholas, PD; Murphy, TB (2008). "Modelos de mezcla gaussiana parsimoniosos". Estadística y computación . 18 (3): 285–296. doi :10.1007/s11222-008-9056-0. S2CID  13287886.
  12. ^ Bouveyron, C.; Girard, S.; Schmid, C. (2007). "Agrupamiento de datos de alta dimensión". Estadística computacional y análisis de datos . 52 : 502–519. arXiv : math/0604064 . doi :10.1016/j.csda.2007.02.009.
  13. ^ Murphy, K.; Murphy, TB (2020). "Modelos de agrupamiento parsimonioso gaussiano con covariables y un componente de ruido". Avances en análisis y clasificación de datos . 14 (2): 293–325. arXiv : 1711.05632 . doi :10.1007/s11634-019-00373-8. S2CID  204210043.
  14. ^ Jacobs, RA; Jordan, MI; Nowlan, SJ; Hinton, GE (1991). "Mezclas adaptativas de expertos locales". Computación neuronal . 3 (1): 79–87. doi :10.1162/neco.1991.3.1.79. PMID  31141872. S2CID  572361.
  15. ^ Reaven, GM; Miller, RG (1979). "Un intento de definir la naturaleza de la diabetes química mediante un análisis multidimensional". Diabetologia . 16 (1): 17–24. doi :10.1007/BF00423145. PMID  761733.
  16. ^ Hennig, C. (2004). "Puntos de ruptura para estimadores de máxima verosimilitud de mezclas de localización y escala". Anales de estadística . 32 (4): 1313–1340. arXiv : math/0410073 . doi :10.1214/009053604000000571.
  17. ^ McLachlan, GJ; Peel, D. (2000). Modelos de mezcla finita . Wiley-Interscience. ISBN 9780471006268.
  18. ^ Coretto, P.; Hennig, C. (2016). "Máxima verosimilitud impropia robusta: ajuste, cálculo y una comparación con otros métodos para el agrupamiento gaussiano robusto". Revista de la Asociación Estadounidense de Estadística . 111 (516): 1648–1659. arXiv : 1406.0808 . doi :10.1080/01621459.2015.1100996.
  19. ^ Garcia-Escudero, LA; Gordaliza, A.; Matran, C.; Mayo-Iscar, A. (2008). "Un enfoque general de recorte para el análisis de conglomerados robusto". Anales de Estadística . 36 (3): 1324–1345. arXiv : 0806.2976 . doi :10.1214/07-AOS515.
  20. ^ Baudry, JP; Raftery, AE; Celeux, G.; Lo, K.; Gottardo, R. (2010). "Combinación de componentes de mezcla para agrupamiento". Journal of Computational and Graphical Statistics . 19 (2): 332–353. doi :10.1198/jcgs.2010.08111. PMC 2953822 . PMID  20953302. 
  21. ^ Murray, PM; Browne, RP; McNicholas, PD (2020). "Mezclas de analizadores factoriales hiperbólicos de truncamiento oculto". Revista de clasificación . 37 (2): 366–379. arXiv : 1711.01504 . doi :10.1007/s00357-019-9309-y.
  22. ^ Lee, SX; McLachlan, GJ (2022). "Una descripción general de las distribuciones sesgadas en la agrupación basada en modelos". Revista de análisis multivariante . 188 : 104853. doi :10.1016/j.jmva.2021.104853.
  23. ^ Everitt, B. (1984). Introducción a los modelos de variables latentes . Chapman y Hall.
  24. ^ Hunt, L.; Jorgensen, M. (1999). "Teoría y métodos: agrupamiento de modelos de mezcla utilizando el programa MULTIMIX". Revista Australiana y Neozelandesa de Estadística . 41 (2): 154–171. doi :10.1111/1467-842X.00071. S2CID  118269232.
  25. ^ ab McParland, D.; Gormley, IC (2016). "Agrupamiento basado en modelos para datos mixtos: clustMD". Avances en análisis y clasificación de datos . 10 (2): 155–169. arXiv : 1511.01720 . doi :10.1007/s11634-016-0238-x. S2CID  29492339.
  26. ^ Karlis, D. (2019). "Modelado de mezclas de datos discretos". En Fruhwirth-Schnatter, S.; Celeux, G.; Robert, CP (eds.). Manual de análisis de mezclas . Chapman y Hall/CRC Press. págs. 193–218. ISBN 9780429055911.
  27. ^ Erosheva, EA; Matsueda, RL; Telesca, D. (2014). "Breaking bad: two decade of life-course data analysis in criminology, developmental psychology, and beyond" (Haciendo el mal: dos décadas de análisis de datos del ciclo vital en criminología, psicología del desarrollo y más allá). Revisión anual de estadísticas y sus aplicaciones . 1 (1): 301–332. Bibcode :2014AnRSA...1..301E. doi :10.1146/annurev-statistics-022513-115701.
  28. ^ Murphy, K.; Murphy, TB; Piccarreta, R.; Gormley, IC (2021). "Agrupamiento de secuencias longitudinales del ciclo vital mediante mezclas de modelos de distancia exponencial" (PDF) . Revista de la Royal Statistical Society, Serie A . 184 (4): 1414–1451. doi :10.1111/rssa.12712. S2CID  235828978.
  29. ^ Gormley, IC; Murphy, TB (2008). "Explorando los bloques de votación dentro del electorado irlandés: un enfoque de modelado mixto". Revista de la Asociación Estadounidense de Estadística . 103 : 1014–1027. doi :10.1198/016214507000001049. hdl : 10197/7122 . S2CID :  55004915.
  30. ^ Mollica, C.; Tardella, L. (2017). "Modelos de mezcla bayesianos de Plackett-Luce para datos parcialmente clasificados". Psychometrika . 82 (2): 442–458. arXiv : 1501.03519 . doi :10.1007/s11336-016-9530-0. PMID  27734294. S2CID  6903655.
  31. ^ Biernacki, C.; Jacques, J. (2013). "Un modelo generativo para datos de rango basado en un algoritmo de ordenamiento por inserción" (PDF) . Computational Statistics and Data Analysis . 58 : 162–176. doi :10.1016/j.csda.2012.08.008.
  32. ^ Nowicki, K.; Snijders, TAB (2001). "Estimación y predicción de estructuras de bloques estocásticas". Revista de la Asociación Estadounidense de Estadística . 96 (455): 1077–1087. doi :10.1198/016214501753208735. S2CID  9478789.
  33. ^ Handcock, MS; Raftery, AE; Tantrum, JM (2007). "Agrupamiento basado en modelos para redes sociales". Revista de la Royal Statistical Society, Serie A . 107 (2): 1–22. doi :10.1111/j.1467-985X.2007.00471.x.
  34. ^ https://cran.r-project.org/web/views/Cluster.html, consultado el 25 de febrero de 2024
  35. ^ Scrucca, L.; Fop, M.; Murphy, TB; Raftery, AE (2016). "mclust 5: Agrupamiento, clasificación y estimación de densidad utilizando modelos de mezcla finita gaussiana". R Journal . 8 (1): 289–317. doi :10.32614/RJ-2016-021. PMC 5096736 . PMID  27818791. 
  36. ^ Scrucca, L.; Fraley, C.; Murphy, TB; Raftery, AE (2023). Agrupamiento, clasificación y estimación de densidad basados ​​en modelos . Chapman and Hall/CRC Press. ISBN 9781032234953.
  37. ^ https://www.datasciencemeta.com/rpackages, consultado el 25 de febrero de 2024
  38. ^ Linzer, DA; Lewis, JB (2011). "poLCA: Un paquete R para el análisis de clases latentes de variables politómicas". Journal of Statistical Software . 42 (10): 1–29. doi :10.18637/jss.v042.i10.
  39. ^ Grun, B.; Leisch, F. (2008). "FlexMix versión 2: mezclas finitas con variables concomitantes y parámetros variables y constantes". Revista de software estadístico . 28 (4): 1–35. doi :10.18637/jss.v028.i04.
  40. ^ Benaglia, T.; Chauveau, D.; Hunter, DR; Young, D. (2009). "mixtools: Un paquete R para analizar modelos de mezcla finitos". Revista de software estadístico . 32 (6): 1–29. doi :10.18637/jss.v032.i06.
  41. ^ Lazarsfeld, PF (1950). "Los fundamentos lógicos y matemáticos del análisis de la estructura latente". En Stouffer, SA; Guttman, L.; Suchman, EA; Lazarsfeld, PF (eds.). Estudios de psicología social en la Segunda Guerra Mundial. Volumen IV: Medición y predicción . Princeton University Press. págs. 362–412.
  42. ^ Wolfe, JH (1965). Un programa informático para el análisis de tipos de máxima verosimilitud. Boletín técnico 65-15 de la USNPRA (informe). Ley de protección personal de la Armada de los EE. UU., San Diego, CA.
  43. ^ Bouveyron, C.; Celeux, G.; Murphy, TB; Raftery, AE (2019). "Sección 2.8". Agrupamiento y clasificación basados ​​en modelos para la ciencia de datos: con aplicaciones en R . Cambridge University Press. ISBN 9781108494205.
  44. ^ Day, NE (1969). "Estimación de los componentes de una mezcla de dos distribuciones normales". Biometrika . 56 (3): 463–474. doi :10.1093/biomet/56.3.463.
  45. ^ Murtagh, F.; Raftery, AE (1984). "Ajuste de líneas rectas a patrones de puntos". Reconocimiento de patrones . 17 (5): 479–483. Código Bibliográfico :1984PatRe..17..479M. doi :10.1016/0031-3203(84)90045-1.
  46. ^ McLachlan, GJ; Basford, KE (1988). Modelos de mezcla: inferencia y aplicaciones a la agrupación en clústeres . Marcel Dekker. ISBN 978-0824776916.