El enfoque de redes de dependencia proporciona un análisis a nivel de sistema de la actividad y la topología de redes dirigidas . El enfoque extrae relaciones topológicas causales entre los nodos de la red (cuando se analiza la estructura de la red) y proporciona un paso importante hacia la inferencia de relaciones de actividad causal entre los nodos de la red (al analizar la actividad de la red). Esta metodología se introdujo originalmente para el estudio de datos financieros, [1] [2] se ha extendido y aplicado a otros sistemas, como el sistema inmunológico , [3] y las redes semánticas . [4]
En el caso de la actividad de la red, el análisis se basa en correlaciones parciales . [5] [6] [7] [8] [9] En palabras simples, la correlación parcial (o residual) es una medida del efecto (o contribución) de un nodo dado, digamos j , sobre las correlaciones entre otro par de nodos, digamos i y k . Usando este concepto, la dependencia de un nodo sobre otro nodo se calcula para toda la red. Esto da como resultado una matriz de adyacencia ponderada dirigida de una red completamente conectada. Una vez que se ha construido la matriz de adyacencia, se pueden usar diferentes algoritmos para construir la red, como una red de umbral, un árbol de expansión mínimo (MST) , un gráfico planar de filtrado máximo (PMFG) y otros.
La red de dependencia basada en correlación parcial es una clase de red de correlación, capaz de descubrir relaciones ocultas entre sus nodos.
Esta metodología original fue presentada por primera vez a finales de 2010, publicada en PLoS ONE . [1] Los autores descubrieron cuantitativamente información oculta sobre la estructura subyacente del mercado de valores de EE. UU ., información que no estaba presente en las redes de correlación estándar . Uno de los principales resultados de este trabajo es que para el período de tiempo investigado (2001-2003), la estructura de la red estaba dominada por empresas pertenecientes al sector financiero , que son los centros de la red de dependencia. Por lo tanto, pudieron mostrar cuantitativamente por primera vez las relaciones de dependencia entre los diferentes sectores económicos . A raíz de este trabajo, la metodología de la red de dependencia se ha aplicado al estudio del sistema inmunológico , [3] y las redes semánticas . [4]
Para ser más específicos, la correlación parcial del par (i, k) dado j , es la correlación entre ellos después de la sustracción adecuada de las correlaciones entre i y j y entre k y j . Definida de esta manera, la diferencia entre las correlaciones y las correlaciones parciales proporciona una medida de la influencia del nodo j en la correlación . Por lo tanto, definimos la influencia del nodo j en el nodo i , o la dependencia del nodo i en el nodo j − D ( i , j ), como la suma de la influencia del nodo j en las correlaciones del nodo i con todos los demás nodos.
En el caso de la topología de red, el análisis se basa en el efecto de la eliminación de nodos en las rutas más cortas entre los nodos de la red. Más específicamente, definimos la influencia del nodo j en cada par de nodos (i,k) como la inversa de la distancia topológica entre estos nodos en presencia de j menos la distancia inversa entre ellos en ausencia del nodo j . Luego definimos la influencia del nodo j en el nodo i , o la dependencia del nodo i en el nodo j − D ( i , j ), como la suma de la influencia del nodo j en las distancias entre el nodo i y todos los demás nodos k .
Las correlaciones nodo-nodo se pueden calcular mediante la fórmula de Pearson :
Donde y son la actividad de los nodos i y j del sujeto n, μ representa el promedio y sigma la desviación estándar de los perfiles dinámicos de los nodos i y j . Nótese que las correlaciones nodo-nodo (o para simplificar, las correlaciones de nodo) para todos los pares de nodos definen una matriz de correlación simétrica cuyo elemento es la correlación entre los nodos i y j .
A continuación, utilizamos las correlaciones de nodos resultantes para calcular las correlaciones parciales. El coeficiente de correlación parcial de primer orden es una medida estadística que indica cómo una tercera variable afecta la correlación entre otras dos variables. La correlación parcial entre los nodos i y k con respecto a un tercer nodo se define como:
donde y son las correlaciones de nodos definidas anteriormente.
El efecto relativo de las correlaciones y del nodo j sobre la correlación C ( i , k ) viene dado por:
Esto evita el caso trivial en el que el nodo j parece afectar fuertemente la correlación , principalmente porque y tienen valores pequeños. Observamos que esta cantidad puede verse como la dependencia de la correlación de C ( i , k ) en el nodo j (el término utilizado aquí) o como la influencia de la correlación del nodo j en la correlación C ( i , k ).
A continuación, definimos la influencia total del nodo j sobre el nodo i , o la dependencia D ( i , j ) del nodo i sobre el nodo j como:
Como se define, D ( i , j ) es una medida de la influencia promedio del nodo j en las correlaciones C(i,k) sobre todos los nodos k no iguales a j . Las dependencias de actividad del nodo definen una matriz de dependencia D cuyo elemento ( i , j ) es la dependencia del nodo i en el nodo j . Es importante notar que mientras que la matriz de correlación C es una matriz simétrica, la matriz de dependencia D es asimétrica – ya que la influencia del nodo j en el nodo i no es igual a la influencia del nodo i en el nodo j . Por esta razón, algunos de los métodos usados en los análisis de la matriz de correlación (por ejemplo, el PCA) tienen que ser reemplazados o son menos eficientes. Sin embargo, hay otros métodos, como los usados aquí, que pueden explicar adecuadamente la naturaleza asimétrica de la matriz de dependencia.
Influencia de la ruta y dependencia de la distancia: El efecto relativo del nodo j sobre la ruta dirigida – la ruta topológica más corta con cada segmento corresponde a una distancia 1, entre los nodos i y k se da:
donde y son la ruta topológica dirigida más corta desde el nodo i al nodo k en presencia y ausencia del nodo j respectivamente.
A continuación, definimos la influencia total del nodo j sobre el nodo i , o la dependencia D ( i , j ) del nodo i sobre el nodo j como:
Como se define, D ( i , j ) es una medida de la influencia promedio del nodo j en las rutas dirigidas desde el nodo i a todos los demás nodos k . Las dependencias estructurales de los nodos definen una matriz de dependencia D cuyo elemento ( i , j ) es la dependencia del nodo i en el nodo j , o la influencia del nodo j en el nodo i . Es importante notar que la matriz de dependencia D no es simétrica, ya que la influencia del nodo j en el nodo i no es igual a la influencia del nodo i en el nodo j .
La matriz de dependencia es la matriz de adyacencia ponderada, que representa la red completamente conectada. Se pueden aplicar diferentes algoritmos para filtrar la red completamente conectada para obtener la información más significativa, como usar un enfoque de umbral, [1] o diferentes algoritmos de poda. Un método ampliamente utilizado para construir subgrafos informativos de una red completa es el árbol de expansión mínimo (MST). [10] [11] [12] [13] [14] Otro subgrafo informativo, que retiene más información (en comparación con el MST) es el grafo planar de filtrado máximo (PMFG) [15] que se utiliza aquí. Ambos métodos se basan en la agrupación jerárquica y los subgrafos resultantes incluyen todos los N nodos en la red cuyos bordes representan las correlaciones de asociación más relevantes. El subgrafo MST contiene bordes sin bucles, mientras que el subgrafo PMFG contiene bordes.