stringtranslate.com

Modelos de gráficos aleatorios familiares exponenciales.

Los modelos de gráficos aleatorios exponenciales (ERGM) son una familia de modelos estadísticos para analizar datos de redes sociales y de otro tipo . [1] [2] Ejemplos de redes examinadas utilizando ERGM incluyen redes de conocimiento, [3] redes organizacionales, [4] redes de colegas, [5] redes de medios sociales, redes de desarrollo científico, [6] y otras.

Fondo

Existen muchas métricas para describir las características estructurales de una red observada, como la densidad, la centralidad o la surtatividad. [7] [8] Sin embargo, estas métricas describen la red observada, que es solo una instancia de una gran cantidad de posibles redes alternativas. Este conjunto de redes alternativas puede tener características estructurales similares o diferentes. Para respaldar la inferencia estadística sobre los procesos que influyen en la formación de la estructura de la red, un modelo estadístico debe considerar el conjunto de todas las redes alternativas posibles ponderadas en función de su similitud con una red observada. Sin embargo, debido a que los datos de la red son inherentemente relacionales, violan los supuestos de independencia y distribución idéntica de los modelos estadísticos estándar como la regresión lineal . [9] [10] Los modelos estadísticos alternativos deben reflejar la incertidumbre asociada con una observación determinada, permitir inferencias sobre la frecuencia relativa de las subestructuras de red de interés teórico, eliminar la ambigüedad de la influencia de procesos de confusión, representar eficientemente estructuras complejas y vincular procesos a nivel local. a propiedades a nivel global. [11] La aleatorización con preservación de grados , por ejemplo, es una forma específica en la que una red observada podría considerarse en términos de múltiples redes alternativas.

Definición

La familia Exponential es una amplia familia de modelos para cubrir muchos tipos de datos, no solo redes. Un ERGM es un modelo de esta familia que describe redes.

Formalmente un grafo aleatorio consta de un conjunto de nodos y una colección de variables ligadas , indexadas por pares de nodos , donde si los nodos están conectados por una arista y en caso contrario. Un par de nodos se llama pareja y una pareja es una arista si .

El supuesto básico de estos modelos es que la estructura de un gráfico observado puede explicarse mediante un vector dado de estadísticas suficientes que son función de la red observada y, en algunos casos, de atributos nodales. De esta forma, es posible describir cualquier tipo de dependencia entre las variables no diádicas:

donde es un vector de parámetros del modelo asociados y es una constante de normalización.

Estos modelos representan una distribución de probabilidad en cada red posible en nodos. Sin embargo, el tamaño del conjunto de redes posibles para una red no dirigida (gráfico simple) de tamaño es . Debido a que el número de redes posibles en el conjunto supera ampliamente el número de parámetros que pueden restringir el modelo, la distribución de probabilidad ideal es aquella que maximiza la entropía de Gibbs . [12]

Ejemplo

Sea un conjunto de tres nodos y sea el conjunto de todos los gráficos no dirigidos y sin bucles en . Sin bucle implica que para todos es y no dirigido implica que para todos es , de modo que hay tres variables binarias vinculantes ( ) y gráficos diferentes en este ejemplo.

Defina un vector bidimensional de estadísticas por , donde se define como el número de aristas en el gráfico y se define como el número de triángulos cerrados en . Finalmente, definamos el vector de parámetros por , de modo que la probabilidad de cada gráfico en este ejemplo esté dada por:

Observamos que en este ejemplo, hay solo cuatro clases de isomorfismo de gráficos : el gráfico con cero aristas, tres gráficos con exactamente una arista, tres gráficos con exactamente dos aristas y el gráfico con tres aristas. Dado que los gráficos isomórficos tienen el mismo número de aristas y el mismo número de triángulos, también tienen la misma probabilidad en este ejemplo ERGM. Para un representante de cada clase de isomorfismo, primero calculamos el término , que es proporcional a la probabilidad de (hasta la constante de normalización ).

Si es la gráfica con aristas cero , entonces es y , de modo que

Si es una gráfica con exactamente una arista , entonces es y , de modo que

Si es una gráfica con exactamente dos aristas , entonces es y , de modo que

Si es la gráfica con exactamente tres aristas , entonces es y , de modo que

La constante de normalización se calcula sumando los ocho gráficos diferentes . Esto produce:

Finalmente, la probabilidad de cada gráfica viene dada por . Explícitamente, obtenemos que el gráfico con cero aristas tiene probabilidad , cada gráfico con exactamente una arista tiene probabilidad , cada gráfico con exactamente dos aristas tiene probabilidad y el gráfico con exactamente tres aristas tiene probabilidad en este ejemplo.

Intuitivamente, la estructura de las probabilidades gráficas en este ejemplo de ERGM es consistente con patrones típicos de redes sociales o de otro tipo . El parámetro negativo ( ) asociado con el número de aristas implica que, en igualdad de condiciones, las redes con menos aristas tienen una mayor probabilidad que las redes con más aristas. Esto es consistente con la escasez que a menudo se encuentra en las redes empíricas, es decir, que el número empírico de aristas generalmente crece a un ritmo más lento que el número máximo posible de aristas. El parámetro positivo ( ) asociado con el número de triángulos cerrados implica que, en igualdad de condiciones, las redes con más triángulos tienen una mayor probabilidad que las redes con menos triángulos. Esto es consistente con una tendencia al cierre triádico que a menudo se encuentra en ciertos tipos de redes sociales. Compare estos patrones con las probabilidades gráficas calculadas anteriormente. La suma de cada arista divide la probabilidad por dos. Sin embargo, al pasar de un gráfico con dos aristas a un gráfico con tres aristas, el número de triángulos aumenta en uno, lo que además multiplica la probabilidad por tres.

Observamos que el cálculo explícito de todas las probabilidades de los gráficos solo es posible porque hay muy pocos gráficos diferentes en este ejemplo. Dado que el número de gráficos diferentes aumenta exponencialmente en el número de variables vinculadas, que a su vez aumenta cuadráticamente en el número de nodos, calcular la constante de normalización es en general computacionalmente intratable , ya para un número moderado de nodos.

Muestreo de un ERGM

El muestreo exacto de un ERGM determinado es computacionalmente intratable en general, ya que calcular la constante de normalización requiere una suma total . Se puede realizar un muestreo aproximado eficiente de un ERGM mediante cadenas de Markov y se aplica en los métodos actuales para aproximar los valores esperados y estimar los parámetros del ERGM. [13] De manera informal, dado un ERGM en un conjunto de gráficos con función de masa de probabilidad , se selecciona un gráfico inicial (que podría ser elegido de manera arbitraria o aleatoria o podría representar una red observada) e implícitamente define las probabilidades de transición (o probabilidades de salto) , que son las probabilidades condicionales de que la cadena de Markov esté en el gráfico después del Paso , dado que está en el gráfico después del Paso . Las probabilidades de transición no dependen de las gráficas de los pasos anteriores ( ), que es una propiedad definitoria de las cadenas de Markov , y no dependen de , es decir, la cadena de Markov es homogénea en el tiempo. El objetivo es definir las probabilidades de transición de modo que para todos sea

independiente de la gráfica inicial . Si esto se logra, se puede ejecutar la cadena de Markov durante una gran cantidad de pasos y luego devolver el gráfico actual como una muestra aleatoria del ERGM dado. La probabilidad de devolver un gráfico después de un número finito pero grande de pasos de actualización es aproximadamente la probabilidad definida por el ERGM.

Los métodos actuales para el muestreo de ERGM con cadenas de Markov [13] generalmente definen un paso de actualización en dos subpasos: primero, seleccionar aleatoriamente un candidato en una vecindad del gráfico actual y, segundo, aceptarlo con una probabilidad que depende de la probabilidad relación del gráfico actual y el candidato . (Si el candidato no es aceptado, la cadena de Markov permanece en el gráfico actual ). Si el conjunto de gráficos no tiene restricciones (es decir, contiene cualquier combinación de valores en las variables binarias de enlace), un método simple para la selección de candidatos es elegir uno vincular la variable uniformemente al azar y definir el candidato invirtiendo esta única variable (es decir, establecer ; todas las demás variables toman el mismo valor que en ). Una forma común de definir la probabilidad de aceptación es aceptar con la probabilidad condicional

donde las probabilidades del gráfico están definidas por el ERGM. Fundamentalmente, la constante de normalización se cancela en esta fracción, de modo que las probabilidades de aceptación se pueden calcular de manera eficiente.

Referencias

  1. ^ Lusher, decano; Koskinen, Johan; Robins, Garry (2012). Modelos de gráficos aleatorios exponenciales para redes sociales: teoría, métodos y aplicaciones (análisis estructural en las ciencias sociales) . doi :10.1017/CBO9780511894701. ISBN 9780521141383. OCLC  1120539699.
  2. ^ Harris, Jenine K (2014). Una introducción al modelado de gráficos aleatorios exponenciales . ISBN 9781452220802. OCLC  870698788.
  3. ^ Brennecke, Julia; Rango, Olaf (1 de mayo de 2017). "La red de conocimiento de la empresa y la transferencia de asesoramiento entre inventores corporativos: un estudio de red multinivel". Política de investigación . 46 (4): 768–783. doi :10.1016/j.respol.2017.02.002. ISSN  0048-7333.
  4. ^ Harris, Jenine K (2013). "Lazos de comunicación a través de la red nacional de departamentos de salud locales". AMEPRE Revista Americana de Medicina Preventiva . 44 (3): 247–253. doi :10.1016/j.amepre.2012.10.028. ISSN  0749-3797. OCLC  4937103196. PMID  23415121.
  5. ^ Brennecke, Julia (2019). "Lazos disonantes en redes intraorganizacionales: por qué las personas buscan ayuda de colegas difíciles para resolver problemas". Revista de la Academia de Gestión AMJ . ISSN  0001-4273. OCLC  8163488129.
  6. ^ Harris, Jenine K; Lucas, Douglas A; Shelton, Sarah C; Zuckerman, Rachael B (2009). "Cuarenta años de investigación sobre el humo de segunda mano. La brecha entre el descubrimiento y la entrega". Revista Estadounidense de Medicina Preventiva . 36 (6): 538–548. doi :10.1016/j.amepre.2009.01.039. ISSN  0749-3797. OCLC  6980180781. PMID  19372026.
  7. ^ Wasserman, Stanley ; Fausto, Katherine (1994). Análisis de redes sociales: métodos y aplicaciones . ISBN 978-0-521-38707-1.
  8. ^ Newman, MEJ (2003). "La estructura y función de redes complejas". Revisión SIAM . 45 (2): 167–256. arXiv : cond-mat/0303516 . Código Bib : 2003SIAMR..45..167N. doi :10.1137/S003614450342480.
  9. ^ Contratista, Noshir; Wasserman, Stanley; Fausto, Katherine (2006). "Prueba de hipótesis multiteóricas y multinivel sobre redes organizativas: un marco analítico y un ejemplo empírico" (PDF) . Revisión de la Academia de Gestión . 31 (3): 681–703. doi :10.5465/AMR.2006.21318925. S2CID  10837327. Archivado desde el original (PDF) el 25 de febrero de 2020.
  10. ^ Harris, Jenine K (2014). Una introducción al modelado de gráficos aleatorios exponenciales . ISBN 9781452220802. OCLC  870698788.
  11. ^ Petirrojos, G.; Pattison, P.; Kalish, Y.; Lusher, D. (2007). "Una introducción a los modelos de gráficos aleatorios exponenciales para redes sociales". Redes sociales . 29 (2): 173–191. doi :10.1016/j.socnet.2006.08.002. hdl : 1959.3/216571 .
  12. ^ Newman, MEJ (25 de marzo de 2010). "Otros modelos de red". Redes . págs. 565–585. ISBN 978-0-19-920665-0.
  13. ^ ab Hunter, DR; Handcock, MS (2006). "Inferencia en modelos de familias exponenciales curvas para redes". Revista de Estadística Computacional y Gráfica . 15 (3): 565–583. CiteSeerX 10.1.1.205.9670 . doi :10.1198/106186006X133069. 

Otras lecturas

  1. ^ Harris, Jenine K (2014). Una introducción al modelado de gráficos aleatorios exponenciales . ISBN 9781452220802. OCLC  870698788.