Método de percolación por camarilla

El método de percolación de camarillas ^[1] es un enfoque popular para analizar la estructura comunitaria superpuesta de las redes . El término comunidad de red (también llamado módulo, clúster o grupo cohesivo) no tiene una definición única ampliamente aceptada y generalmente se define como un grupo de nodos que están conectados más densamente entre sí que con otros nodos de la red. Existen numerosos métodos alternativos para detectar comunidades en redes, ^[2] por ejemplo, el algoritmo de Girvan-Newman , la agrupación jerárquica y la maximización de la modularidad .

Definiciones

Método de percolación por camarillas (CPM)

El método de percolación de camarillas construye las comunidades a partir de k -camarillas , que corresponden a subgrafos completos (totalmente conectados) de k nodos. (Por ejemplo, una k -camarilla en k = 3 es equivalente a un triángulo). Dos k -camarillas se consideran adyacentes si comparten k − 1 nodos. Una comunidad se define como la unión máxima de k -camarillas a las que se puede llegar entre sí a través de una serie de k -camarillas adyacentes. Dichas comunidades se pueden interpretar mejor con la ayuda de una plantilla de k -camarillas (un objeto isomorfo a un grafo completo de k nodos). Dicha plantilla se puede colocar sobre cualquier k -camarilla en el grafo y rodar a una k -camarilla adyacente reubicando uno de sus nodos y manteniendo fijos sus otros k − 1 nodos. Por lo tanto, las comunidades de k -camarillas de una red son todos aquellos subgrafos que se pueden explorar completamente rodando una plantilla de k -camarillas en ellos, pero que no se pueden abandonar por esta plantilla.

Esta definición permite superposiciones entre las comunidades de una manera natural, como se ilustra en la Fig.1, que muestra cuatro comunidades k -clique en k = 4. Las comunidades están codificadas por colores y la superposición entre ellas se enfatiza en rojo. La definición anterior también es local: si un determinado subgrafo cumple los criterios para ser considerado como una comunidad, entonces seguirá siendo una comunidad independientemente de lo que le suceda a otra parte de la red que esté lejos. Por el contrario, cuando se buscan las comunidades optimizando con respecto a una cantidad global, un cambio que se encuentre lejos en la red también puede remodelar las comunidades en las regiones no perturbadas. Además, se ha demostrado que los métodos globales pueden sufrir un problema de límite de resolución, ^[3] donde el tamaño de la comunidad más pequeña que se puede extraer depende del tamaño del sistema. Una definición de comunidad local como la que se muestra aquí evita este problema automáticamente.

Dado que incluso las redes pequeñas pueden contener una gran cantidad de k -cliques, la implementación de este enfoque se basa en la localización de todos los cliques máximos en lugar de los k -cliques individuales. ^{[1] Esto requiere inevitablemente encontrar el clique}máximo del grafo , que es un problema NP-hard . (Enfatizamos al lector que encontrar un clique máximo es mucho más difícil que encontrar un solo clique máximo). Esto significa que, aunque ya se han analizado redes con unos pocos millones de nodos con éxito con este enfoque, ^[4] la complejidad del tiempo de ejecución del peor caso es exponencial en el número de nodos.

Fig.1. Ilustración de las comunidades k -clique en k = 4.

Método de percolación por camarilla dirigida (CPMd)

En una red con enlaces dirigidos, una k -clique dirigida es un subgrafo completo con k nodos que cumplen la siguiente condición. Los k nodos pueden ordenarse de tal manera que entre un par arbitrario de ellos exista un enlace dirigido que apunte desde el nodo con el rango más alto hacia el nodo con el rango más bajo. El método de percolación de cliques dirigidos define las comunidades de redes dirigidas como los clústeres de percolación de k -cliques dirigidos.

Método de percolación por camarilla ponderada (CPMw)

En una red con enlaces ponderados, una k -clique ponderada es un subgrafo completo con k nodos de modo que la media geométrica de los k ( k - 1) / 2 pesos de los enlaces dentro de la k -clique es mayor que un valor umbral seleccionado, I . El método de percolación de clique ponderado define las comunidades de red ponderadas como los clústeres de percolación de k -cliques ponderados . Nótese que la media geométrica de los pesos de los enlaces dentro de un subgrafo se denomina intensidad de ese subgrafo. ^[5]

Generalizaciones de gráficos de camarillas

Los métodos de percolación de camarillas se pueden generalizar registrando diferentes cantidades de superposición entre las diversas k -camarillas. Esto define un nuevo tipo de gráfico, un gráfico de camarillas , ^[6] donde cada k -camarilla en el gráfico original está representada por un vértice en el nuevo gráfico de camarillas. Los bordes del gráfico de camarillas se utilizan para registrar la fuerza de la superposición de camarillas en el gráfico original. A continuación, se puede aplicar cualquier método de detección de comunidades a este gráfico de camarillas para identificar los grupos en el gráfico original a través de la estructura de k -camarillas.

Por ejemplo, en un gráfico simple, podemos definir la superposición entre dos k -cliques como el número de vértices comunes a ambos k -cliques. El método de percolación de cliques es entonces equivalente a establecer un umbral para este gráfico de cliques, descartando todos los bordes con un peso menor que (k-1), y los componentes conectados restantes forman las comunidades de cliques que se encuentran en CPM. Para k=2 , los cliques son los bordes del gráfico original y el gráfico de cliques en este caso es el gráfico lineal de la red original.

En la práctica, el uso del número de vértices comunes como medida de la fuerza de la superposición de camarillas puede dar malos resultados, ya que las camarillas grandes en el grafo original, aquellas con muchos más de k vértices, dominarán el grafo de camarillas. El problema surge porque si un vértice está en n k -camarillas diferentes , contribuirá a n(n-1)/2 aristas en dicho grafo de camarillas. Una solución simple es permitir que cada vértice común a dos k- camarillas superpuestas contribuya con un peso igual a 1/n al medir la fuerza de la superposición de las dos k -camarillas.

En general, el punto de vista del gráfico de camarillas es una forma útil de encontrar generalizaciones de los métodos estándar de percolación de camarillas para evitar cualquier problema que surja. Incluso muestra cómo describir extensiones de estos métodos en función de otros motivos , subgrafos distintos de k -camarillas. En este caso, lo mejor es pensar en un gráfico de camarillas como un ejemplo particular de un hipergrafo .

Transición de percolación en el CPM

El modelo de Erdős–Rényi muestra una serie de transiciones interesantes cuando aumenta la probabilidad p de que dos nodos estén conectados. Para cada k se puede encontrar una cierta probabilidad umbral p _c por encima de la cual las k -camarillas se organizan en una comunidad gigante. ^[7]^[8]^[9] (El tamaño de la comunidad gigante es comparable al tamaño del sistema, en otras palabras, la comunidad gigante ocupa una parte finita del sistema incluso en el límite termodinámico). Esta transición es análoga a la transición de percolación en física estadística . También se puede observar un fenómeno similar en muchas redes reales: si k es grande, solo las partes más densamente vinculadas se aceptan como comunidades, por lo tanto, generalmente permanecen pequeñas y dispersas. Cuando k se reduce, tanto el número como el tamaño de las comunidades comienzan a crecer. Sin embargo, en la mayoría de los casos se puede alcanzar un valor crítico de k , por debajo del cual surge una comunidad gigante, difuminando los detalles de la estructura de la comunidad al fusionar (y hacer invisibles) muchas comunidades más pequeñas.

Aplicaciones

El método de percolación de camarillas se ha utilizado para detectar comunidades a partir de los estudios de metástasis del cáncer ^[10]^[11] a través de varias redes sociales ^[4]^[12]^[13]^[14]^[15] para documentar la agrupación ^[16] y las redes económicas. ^[17]

Algoritmos y software

Existen varias implementaciones de la percolación de camarillas. El método de percolación de camarillas fue implementado y popularizado por primera vez por CFinder [1] (software gratuito para uso no comercial) para detectar y visualizar comunidades superpuestas en redes. El programa permite una visualización personalizable y permite recorrer fácilmente las comunidades encontradas. El paquete también contiene una versión de línea de comandos del programa, que es adecuada para la creación de scripts.

Otro grupo ha implementado una implementación más rápida (disponible bajo la GPL). ^[18] Otro ejemplo, que también es muy rápido en ciertos contextos, es el algoritmo SCP. ^[19]

Algoritmos paralelos

S. Mainardi et al. diseñaron y desarrollaron una versión paralela del método de percolación de camarillas . ^[20] Al explotar las arquitecturas informáticas multinúcleo/multiprocesador actuales, el método permite la extracción de comunidades k -camarillas de redes muy grandes como Internet. ^[21] Los autores publicaron el código fuente del método bajo la GPL y lo pusieron a disposición de la comunidad de forma gratuita.

Véase también

Red social
Estructura de la comunidad
Artículo de encuesta Comunidades en redes
Fortunato, Santo (2010). "Detección de comunidades en grafos". Physics Reports . 486 (3–5): 75–174. arXiv : 0906.0612 . Bibcode :2010PhR...486...75F. doi :10.1016/j.physrep.2009.11.002. S2CID 10211629.
Bibliografía de enlaces sobre la estructura comunitaria

Referencias

^ ab Palla, Gergely (2005). "Descubrimiento de la estructura comunitaria superpuesta de redes complejas en la naturaleza y la sociedad". Nature . 435 (7043): 814–818. arXiv : physics/0506133 . Bibcode :2005Natur.435..814P. doi :10.1038/nature03607. PMID 15944704. S2CID 3250746.
^ Fortunato, Santo (2010). "Detección de comunidades en grafos". Physics Reports . 486 (3–5): 75–174. arXiv : 0906.0612 . Bibcode :2010PhR...486...75F. doi :10.1016/j.physrep.2009.11.002. S2CID 10211629.
^ Fortunato, S. (2007). "Límite de resolución en la detección de comunidades". Actas de la Academia Nacional de Ciencias . 104 (1): 36–41. arXiv : physics/0607100 . Bibcode :2007PNAS..104...36F. doi : 10.1073/pnas.0605965104 . PMC 1765466 . PMID 17190818.
^ ab Palla, Gergely (2007). "Cuantificación de la evolución de los grupos sociales". Nature . 446 (7136): 664–667. arXiv : 0704.0744 . Bibcode :2007Natur.446..664P. doi :10.1038/nature05670. PMID 17410175. S2CID 4420074.
^ Onnela, Jukka-Pekka; Saramäki, Jari; Kertész, János; Kaski, Kimmo (2005). "Intensidad y coherencia de motivos en redes complejas ponderadas". Revisión física E. 71 (6): 065103. arXiv : cond-mat/0408629 . Código bibliográfico : 2005PhRvE..71f5103O. doi :10.1103/PhysRevE.71.065103. PMID 16089800. S2CID 14259722.
^ Evans, TS (2010). "Gráficos de camarilla y comunidades superpuestas". Journal of Statistical Mechanics: Theory and Experiment . 2010 (12): P12037. arXiv : 1009.0638 . Bibcode :2010JSMTE..12..037E. doi :10.1088/1742-5468/2010/12/P12037. S2CID 2783670.
^ Derényi, Imre; Pala, Gergely; Vicsek, Tamás (2005). "Percolación de camarillas en redes aleatorias". Cartas de revisión física . 94 (16): 160202. arXiv : cond-mat/0504551 . Código bibliográfico : 2005PhRvL..94p0202D. doi :10.1103/PhysRevLett.94.160202. PMID 15904198. S2CID 15452087.
^ Pala, Gergely; Derényi, Imre; Vicsek, Tamás (2006). "El punto crítico de la percolación k-Clique en el gráfico Erdős-Rényi". Revista de Física Estadística . 128 (1–2): 219–227. arXiv : cond-mat/0610298 . Código Bib : 2007JSP...128..219P. doi :10.1007/s10955-006-9184-x. S2CID 14499453.
^ Li, Ming; Deng, Youjin; Wang, Bing-Hong (2015). "Percolación de camarillas en grafos aleatorios". Physical Review E . 92 (4): 042116. arXiv : 1508.01878 . Código Bibliográfico :2015PhRvE..92d2116L. doi :10.1103/PhysRevE.92.042116. PMID 26565177. S2CID 7298260.
^ Jonsson, PF (2006). "Características topológicas globales de las proteínas del cáncer en el interactoma humano". Bioinformática . 22 (18): 2291–2297. doi :10.1093/bioinformatics/btl390. PMC 1865486 . PMID 16844706.
^ Jonsson, PF; Cavanna, T; Zicha, D; Bates, PA (2006). "Análisis de conglomerados de redes generadas a través de homología: identificación automática de comunidades proteínicas importantes implicadas en la metástasis del cáncer". BMC Bioinformatics . 7 : 2. doi : 10.1186/1471-2105-7-2 . PMC 1363365 . PMID 16398927.
^ González, Marta C.; Lind, Pedro G.; Herrmann, Hans J. (2006). "Sistema de agentes móviles para modelar redes sociales". Physical Review Letters . 96 (8): 088702. arXiv : physics/0602091 . Bibcode :2006PhRvL..96h8702G. doi :10.1103/PhysRevLett.96.088702. PMID 16606237. S2CID 17587824.
^ Kumpula, Jussi M.; Onnela, Jukka-Pekka; Saramäki, Jari; Kaski, Kimmo; Kertész, János (2007). "Surgimiento de comunidades en redes ponderadas". Cartas de revisión física . 99 (22): 228701. arXiv : 0708.0925 . Código Bib : 2007PhRvL..99v8701K. doi : 10.1103/PhysRevLett.99.228701. PMID 18233339. S2CID 11806575.
^ Toivonen, Riitta; Onnela, Jukka-Pekka; Saramäki, Jari; Hyvönen, Jörkki; Kaski, Kimmo (2006). "Un modelo para las redes sociales". Physica A: Mecánica estadística y sus aplicaciones . 371 (2): 851–860. arXiv : física/0601114 . Código Bib : 2006PhyA..371..851T. doi :10.1016/j.physa.2006.03.050. S2CID 13919003.
^ González, MC; Herrmann, HJ; Kertész, J.; Vicsek, T. (2007). "Estructura comunitaria y preferencias étnicas en redes de amistad escolar". Physica A: Mecánica estadística y sus aplicaciones . 379 (1): 307–316. arXiv : physics/0611268 . Bibcode :2007PhyA..379..307G. doi :10.1016/j.physa.2007.01.002. S2CID 18069092.
^ Gao, Wei; Wong, Kam-Fai (2006). "Agrupamiento de documentos naturales por percolación de camarillas en gráficos aleatorios". Tecnología de recuperación de información. Apuntes de clase en informática. Vol. 4182. págs. 119–131. doi :10.1007/11880592_10. ISBN 978-3-540-45780-0.
^ Heimo, Tapio; Saramäki, Jari; Onnela, Jukka-Pekka; Kaski, Kimmo (2007). "Métodos espectrales y de red en el análisis de matrices de correlación de retornos de acciones". Physica A: Mecánica estadística y sus aplicaciones . 383 (1): 147–151. arXiv : physics/0703061 . Código Bibliográfico :2007PhyA..383..147H. doi :10.1016/j.physa.2007.04.124. S2CID 41788246.
^ Reid, F.; McDaid, A.; Hurley, N.; Vicsek, Tamas (2012). "Computación de percolación en redes complejas". Conferencia internacional IEEE/ACM de 2012 sobre avances en análisis y minería de redes sociales . págs. 274–281. arXiv : 1205.0038 . doi :10.1109/ASONAM.2012.54. ISBN . 978-1-4673-2497-7.S2CID14088073 .
^ Kumpula, Jussi M.; Kivelä, Mikko; Kaski, Kimmo; Saramäki, Jari (2008). "Algoritmo secuencial para percolación rápida de camarillas". Revisión física E. 78 (2): 026109. arXiv : 0805.1449 . Código bibliográfico : 2008PhRvE..78b6109K. doi : 10.1103/PhysRevE.78.026109. PMID 18850899. S2CID 15531110.
^ Gregori, Enrico; Lenzini, Luciano; Mainardi, Simone (2013). "Detección de comunidades k-Clique paralelas en redes a gran escala" (PDF) . IEEE Transactions on Parallel and Distributed Systems . 24 (8): 1651–1660. doi :10.1109/TPDS.2012.229. S2CID 14740818.
^ Gregori, Enrico; Lenzini, Luciano; Orsini, Chiara (2011). "Comunidades K-clique en el grafo de topología de nivel AS de Internet". Talleres de la 31.ª Conferencia Internacional sobre Sistemas de Computación Distribuida de 2011. págs. 134–139. doi :10.1109/ICDCSW.2011.17. ISBN 978-1-4577-0384-3.S2CID 9921893 .