La inferencia de redes biológicas es el proceso de realizar inferencias y predicciones sobre redes biológicas . [1] Al utilizar estas redes para analizar patrones en sistemas biológicos, como las redes alimentarias, podemos visualizar la naturaleza y la fuerza de estas interacciones entre especies, ADN, proteínas y más.
El análisis de redes biológicas en relación con las enfermedades ha llevado al desarrollo del campo de la medicina de redes . [2] Ejemplos recientes de aplicación de la teoría de redes en biología incluyen aplicaciones para comprender el ciclo celular [3] así como un marco cuantitativo para los procesos de desarrollo. [4] Una buena inferencia de redes requiere una planificación y ejecución adecuadas de un experimento, asegurando así la adquisición de datos de calidad. El diseño experimental óptimo en principio se refiere al uso de conceptos estadísticos y/o matemáticos para planificar la adquisición de datos. Esto debe hacerse de tal manera que el contenido de información de los datos se enriquezca y se recopile una cantidad suficiente de datos con suficientes réplicas técnicas y biológicas cuando sea necesario. [ cita requerida ]
El ciclo general para modelar redes biológicas es el siguiente: [ cita requerida ]
Una red es un conjunto de nodos y un conjunto de bordes dirigidos o no dirigidos entre los nodos. Existen muchos tipos de redes biológicas, incluidas las transcripcionales, de señalización y metabólicas. Se conocen pocas redes de este tipo en algo que se acerque a su estructura completa, incluso en las bacterias más simples . Aún se sabe menos sobre los parámetros que rigen el comportamiento de dichas redes a lo largo del tiempo, cómo interactúan las redes en diferentes niveles en una célula y cómo predecir la descripción completa del estado de una célula eucariota o un organismo bacteriano en un punto dado en el futuro. La biología de sistemas , en este sentido, todavía está en su infancia [ cita requerida ] .
Existe un gran interés en la medicina de redes para el modelado de sistemas biológicos . Este artículo se centra en la inferencia de la estructura de la red biológica utilizando los conjuntos crecientes de datos de expresión de alto rendimiento para genes , proteínas y metabolitos . [10] Brevemente, los métodos que utilizan datos de alto rendimiento para la inferencia de redes reguladoras se basan en la búsqueda de patrones de correlación parcial o probabilidades condicionales que indiquen influencia causal. [7] [11] Dichos patrones de correlaciones parciales encontrados en los datos de alto rendimiento, posiblemente combinados con otros datos complementarios sobre los genes o proteínas en las redes propuestas, o combinados con otra información sobre el organismo, forman la base sobre la que funcionan dichos algoritmos . Dichos algoritmos pueden ser de utilidad para inferir la topología de cualquier red donde el cambio en el estado de un nodo puede afectar el estado de otros nodos.
Los genes son los nodos y los bordes son dirigidos. Un gen sirve como fuente de un borde regulador directo a un gen objetivo al producir una molécula de ARN o proteína que funciona como un activador o inhibidor transcripcional del gen objetivo. Si el gen es un activador, entonces es la fuente de una conexión reguladora positiva; si es un inhibidor, entonces es la fuente de una conexión reguladora negativa. Los algoritmos computacionales toman como datos de entrada primarios mediciones de los niveles de expresión de ARNm de los genes bajo consideración para su inclusión en la red, devolviendo una estimación de la topología de la red . Dichos algoritmos se basan típicamente en supuestos de linealidad, independencia o normalidad, que deben verificarse caso por caso. [12] La agrupación o alguna forma de clasificación estadística se emplea típicamente para realizar una organización inicial de los valores de expresión de ARNm de alto rendimiento derivados de experimentos de microarrays, en particular para seleccionar conjuntos de genes como candidatos para nodos de red. [13] Entonces surge la pregunta: ¿cómo se pueden conectar los resultados de la agrupación o clasificación con la biología subyacente? Estos resultados pueden ser útiles para la clasificación de patrones (por ejemplo, para clasificar subtipos de cáncer o para predecir respuestas diferenciales a un fármaco [farmacogenómica]). Pero para entender las relaciones entre los genes, es decir, para definir con mayor precisión la influencia de cada gen sobre los demás, el científico normalmente intenta reconstruir la red reguladora de la transcripción.
Una red de coexpresión genética es un gráfico no dirigido , donde cada nodo corresponde a un gen y un par de nodos está conectado con un borde si existe una relación de coexpresión significativa entre ellos.
Las redes de transducción de señales utilizan proteínas para los nodos y los bordes dirigidos para representar la interacción en la que la conformación bioquímica del niño se modifica por la acción del padre (por ejemplo, mediada por fosforilación , ubiquitinación, metilación, etc.). La entrada principal en el algoritmo de inferencia serían los datos de un conjunto de experimentos que midan la activación / inactivación de proteínas (por ejemplo, fosforilación / desfosforilación) en un conjunto de proteínas. La inferencia para tales redes de señalización es complicada por el hecho de que las concentraciones totales de proteínas de señalización fluctuarán con el tiempo debido a la regulación transcripcional y traduccional. Tal variación puede conducir a una confusión estadística . En consecuencia, se deben aplicar técnicas estadísticas más sofisticadas para analizar dichos conjuntos de datos. [14] (muy importante en la biología del cáncer)
Las redes de metabolitos utilizan nodos para representar reacciones químicas y bordes dirigidos para las vías metabólicas y las interacciones reguladoras que guían estas reacciones. La entrada principal de un algoritmo serían los datos de un conjunto de experimentos que midan los niveles de metabolitos.
Una de las redes más estudiadas en biología , las redes de interacción proteína-proteína (PIN) visualizan las relaciones físicas entre las proteínas dentro de una célula. En una PIN, las proteínas son los nodos y sus interacciones son los bordes no dirigidos. Las PIN se pueden descubrir con una variedad de métodos que incluyen; detección de dos híbridos , in vitro : co-inmunoprecipitación , [15] electroforesis en gel nativo azul, [16] y más. [17]
Una red neuronal está compuesta para representar neuronas con cada nodo y sinapsis para los bordes, que normalmente están ponderados y dirigidos. Los pesos de los bordes suelen ajustarse mediante la activación de los nodos conectados. La red suele estar organizada en capas de entrada, capas ocultas y capas de salida.
Una red alimentaria es un gráfico direccional interconectado de lo que se come a lo que se come en un ecosistema. Los miembros del ecosistema son los nodos y si un miembro se come a otro miembro, existe una arista dirigida entre esos dos nodos.
Estas redes se definen por un conjunto de interacciones por pares entre especies y dentro de ellas que se utilizan para comprender la estructura y la función de redes ecológicas más grandes . [18] Mediante el uso del análisis de redes podemos descubrir y comprender cómo estas interacciones se vinculan entre sí dentro de la red del sistema. También nos permite cuantificar las asociaciones entre individuos, lo que hace posible inferir detalles sobre la red en su conjunto a nivel de especie y/o población. [19]
Las redes de cromatina ADN-ADN se utilizan para aclarar la activación o supresión de genes a través de la ubicación relativa de las hebras de cromatina . Estas interacciones se pueden entender mediante el análisis de los puntos en común entre diferentes loci , una posición fija en un cromosoma donde se encuentra un gen o marcador genético en particular . El análisis de redes puede proporcionar un apoyo vital para comprender las relaciones entre las diferentes áreas del genoma.
Una red reguladora de genes [20] es un conjunto de reguladores moleculares que interactúan entre sí y con otras sustancias en la célula. El regulador puede ser ADN , ARN , proteínas y complejos de estos. Las redes reguladoras de genes se pueden modelar de numerosas formas, incluidas: ecuaciones diferenciales ordinarias acopladas, redes booleanas, redes continuas y redes de genes estocásticos.
Los datos iniciales utilizados para hacer la inferencia pueden tener un gran impacto en la precisión de la inferencia final. Los datos de la red son inherentemente ruidosos e incompletos, a veces debido a la evidencia de múltiples fuentes que no se superponen o a datos contradictorios. Los datos se pueden obtener de múltiples formas, que incluyen la curación manual de literatura científica colocada en bases de datos, conjuntos de datos de alto rendimiento, predicciones computacionales y minería de texto de artículos académicos antiguos de antes de la era digital.
El diámetro de una red es el número máximo de pasos que separan dos nodos y se puede utilizar para determinar qué tan conectado está un gráfico, en el análisis de topología y en el análisis de agrupamiento.
La transitividad o coeficiente de agrupamiento de una red es una medida de la tendencia de los nodos a agruparse. Una transitividad alta significa que la red contiene comunidades o grupos de nodos que están densamente conectados internamente. En las redes biológicas, encontrar estas comunidades es muy importante, porque pueden reflejar módulos funcionales y complejos proteicos [21]. La incertidumbre sobre la conectividad puede distorsionar los resultados y debe tenerse en cuenta cuando se calculan la transitividad y otros descriptores topológicos para las redes inferidas. [9]
La confianza de la red es una forma de medir qué tan seguro se puede estar de que la red representa una interacción biológica real. Podemos hacerlo a través de información biológica contextual, contando el número de veces que se informa una interacción en la literatura o agrupando diferentes estrategias en una sola puntuación. El método MIscore para evaluar la confiabilidad de los datos de interacción proteína-proteína se basa en el uso de estándares. [22] MIscore brinda una estimación de la ponderación de la confianza en toda la evidencia disponible para un par de proteínas interactuantes. El método permite ponderar la evidencia proporcionada por diferentes fuentes, siempre que los datos se representen siguiendo los estándares creados por el consorcio IMEx. Los pesos son el número de publicaciones, el método de detección y el tipo de evidencia de interacción.
La cercanía, también conocida como centralidad de cercanía, es una medida de la centralidad en una red y se calcula como el recíproco de la suma de las longitudes de las rutas más cortas entre el nodo y todos los demás nodos del gráfico. Esta medida se puede utilizar para hacer inferencias en todos los tipos de gráficos y métodos de análisis.
La centralidad de intermediación, también conocida como betweeness, es una medida de centralidad en un gráfico basada en los caminos más cortos. La centralidad de intermediación para cada nodo es la cantidad de estos caminos más cortos que pasan por el nodo.
Para nuestros propósitos, el análisis de redes está estrechamente relacionado con la teoría de grafos . Al medir los atributos de la sección anterior, podemos utilizar muchas técnicas diferentes para crear inferencias precisas basadas en datos biológicos.
El análisis topológico analiza la topología de una red para identificar participantes y subestructuras relevantes que puedan tener importancia biológica. El término abarca toda una clase de técnicas, como la búsqueda de motivos de red , el análisis de centralidad, la agrupación topológica y las rutas más cortas. Estos son solo algunos ejemplos; cada una de estas técnicas utiliza la idea general de centrarse en la topología de una red para realizar inferencias.
Un motivo se define como un subgrafo frecuente y único. Al contar todas las instancias posibles, enumerar todos los patrones y probar isomorfismos, podemos obtener información crucial sobre una red. Se sugiere que son los bloques básicos de construcción de redes biológicas complejas. La investigación computacional se ha centrado en mejorar las herramientas de detección de motivos existentes para ayudar a las investigaciones biológicas y permitir el análisis de redes más grandes. Hasta ahora se han proporcionado varios algoritmos diferentes, que se detallan en la siguiente sección.
La centralidad proporciona una estimación de la importancia de un nodo o borde para la conectividad o el flujo de información de la red. Es un parámetro útil en las redes de señalización y se utiliza a menudo cuando se intenta encontrar objetivos farmacológicos. [23] Se utiliza más comúnmente en PIN para determinar proteínas importantes y sus funciones. La centralidad se puede medir de diferentes maneras según el gráfico y la pregunta que se necesita responder, incluyen el grado de nodos o el número de bordes conectados a un nodo, medidas de centralidad global o mediante recorridos aleatorios que utiliza el algoritmo Google PageRank para asignar peso a cada página web. [24] Las medidas de centralidad pueden verse afectadas por errores debido al ruido en la medición y otras causas. [25] Por lo tanto, los descriptores topológicos deben definirse como una variable aleatoria con la distribución de probabilidad asociada que codifica la incertidumbre sobre su valor. [9]
El agrupamiento topológico o análisis de datos topológicos (TDA) proporciona un marco general para analizar datos de alta dimensión, incompletos y ruidosos de una manera que reduce la dimensión y da robustez al ruido. La idea es que la forma de los conjuntos de datos contiene información relevante. Cuando esta información es un grupo de homología , existe una interpretación matemática que supone que las características que persisten para un amplio rango de parámetros son características "verdaderas" y las características que persisten solo para un rango estrecho de parámetros son ruido, aunque la justificación teórica para esto no está clara. [26] Esta técnica se ha utilizado para el análisis de la progresión de enfermedades, [27] [28] la evolución viral, [29] la propagación de contagios en redes, [30] la clasificación de bacterias mediante espectroscopia molecular, [31] y mucho más dentro y fuera de la biología.
El problema del camino más corto es un problema común en la teoría de grafos que intenta encontrar el camino entre dos vértices (o nodos) en un grafo de manera que la suma de los pesos de sus aristas constituyentes se minimice. Este método se puede utilizar para determinar el diámetro de la red o la redundancia en una red. Hay muchos algoritmos para esto, incluidos el algoritmo de Dijkstra , el algoritmo de Bellman-Ford y el algoritmo de Floyd-Warshall , solo por nombrar algunos.
El análisis de conglomerados agrupa objetos (nodos) de tal manera que los objetos del mismo conglomerado sean más similares entre sí que a los de otros conglomerados. Esto se puede utilizar para realizar reconocimiento de patrones , análisis de imágenes , recuperación de información , análisis de datos estadísticos y mucho más. Tiene aplicaciones en ecología vegetal y animal , análisis de secuencias, análisis de actividad antimicrobiana y muchos otros campos. Los algoritmos de análisis de conglomerados también vienen en muchas formas, como agrupamiento jerárquico , agrupamiento k-medias , agrupamiento basado en distribución, agrupamiento basado en densidad y agrupamiento basado en cuadrícula.
Las bases de datos de anotación de genes se utilizan comúnmente para evaluar las propiedades funcionales de conjuntos de genes derivados experimentalmente. El análisis de enriquecimiento de anotaciones (AEA) se utiliza para superar los sesgos de los métodos estadísticos de superposición utilizados para evaluar estas asociaciones. [32] Esto se logra mediante el uso de anotaciones de genes/proteínas para inferir qué anotaciones están sobrerrepresentadas en una lista de genes/proteínas tomadas de una red.