Vía es el término de la biología molecular para una representación esquemática curada de un segmento bien caracterizado de la maquinaria fisiológica molecular, como una vía metabólica que describe un proceso enzimático dentro de una célula o tejido o un modelo de vía de señalización que representa un proceso regulador que podría, a su vez, habilitar un proceso metabólico u otro proceso regulador aguas abajo. Un modelo de vía típico comienza con una molécula de señalización extracelular que activa un receptor específico , desencadenando así una cadena de interacciones moleculares. [2] Una vía se representa con mayor frecuencia como un gráfico relativamente pequeño con nodos de genes, proteínas y/o moléculas pequeñas conectados por bordes de relaciones funcionales conocidas. Si bien una vía más simple puede aparecer como una cadena, [3] las topologías de vías complejas con bucles y rutas alternativas son mucho más comunes. Los análisis computacionales emplean formatos especiales de representación de vías. [4] [5] Sin embargo, en la forma más simple, una vía podría representarse como una lista de moléculas miembro con orden y relaciones no especificados. Tal representación, generalmente llamada Conjunto de Genes Funcionales (FGS), también puede referirse a otros grupos caracterizados funcionalmente tales como familias de proteínas , términos de Ontología Génica (GO) y Ontología de Enfermedades (DO), etc. En bioinformática, los métodos de análisis de vías podrían usarse para identificar genes / proteínas clave dentro de una vía previamente conocida en relación con un experimento/condición patológica particular o construir una vía de novo a partir de proteínas que han sido identificadas como elementos clave afectados. Al examinar cambios en, por ejemplo, la expresión génica en una vía, se puede explorar su actividad biológica. Sin embargo, con mayor frecuencia, el análisis de vías se refiere a un método de caracterización e interpretación inicial de una condición experimental (o patológica) que fue estudiada con herramientas ómicas o un estudio de asociación de todo el genoma . [6] Tales estudios podrían identificar largas listas de genes alterados. Una inspección visual es entonces un desafío y la información es difícil de resumir, ya que los genes alterados se asignan a una amplia gama de vías, procesos y funciones moleculares (con una gran fracción de genes que carece de cualquier anotación). En tales situaciones, la forma más productiva de explorar la lista es identificar el enriquecimiento de FGS específicos en ella. El enfoque general de los análisis de enriquecimiento es identificar los FGS cuyos miembros fueron más frecuentementeo más fuertemente alterados en la condición dada, en comparación con un conjunto de genes muestreados al azar. En otras palabras, el enriquecimiento puede mapear el conocimiento previo canónico estructurado en forma de FGS a la condición representada por genes alterados.
Los datos para el análisis de vías provienen de biología de alto rendimiento . Esto incluye datos de secuenciación de alto rendimiento y datos de microarrays . Antes de que se pueda realizar el análisis de vías, se debe evaluar la alteración de cada gen utilizando el conjunto de datos ómicos en forma cuantitativa ( análisis de expresión diferencial ) o cualitativa (detección de mutaciones puntuales somáticas o mapeo de genes vecinos a un SNP asociado a la enfermedad ). También es posible combinar conjuntos de datos de diferentes grupos de investigación o múltiples plataformas ómicas con un metanálisis y regularización multiplataforma. [7] [8] Además, una lista donde los identificadores de genes están acompañados por los atributos de alteración se somete a un análisis de vías. Al utilizar software de análisis de vías, los investigadores pueden determinar qué FGS están enriquecidos con los genes experimentales alterados [9] [10] Por ejemplo, el análisis de vías de varios experimentos de microarrays independientes ( metanálisis ) ayudó a descubrir biomarcadores potenciales en una sola vía importante para la transición del tipo de fibra de cambio rápido a lento en la distrofia muscular de Duchenne . [11] En otro estudio, un metanálisis identificó dos biomarcadores en la sangre de pacientes con enfermedad de Parkinson que pueden ser útiles para monitorear la enfermedad. [12] Los alelos de genes candidatos causantes de la enfermedad de Alzheimer y la demencia en la tercera edad se descubrieron por primera vez a través de un estudio de asociación de todo el genoma y se validaron posteriormente con un análisis de enriquecimiento de red contra FGS que consiste en genes conocidos de Alzheimer. [13] [14]
Las colecciones de rutas y redes de interacción constituyen la base de conocimiento necesaria para un análisis de rutas. El contenido, la estructura, el formato y la funcionalidad de las rutas varían entre diferentes recursos de bases de datos como KEGG , [15] WikiPathways o Reactome . [16] También existen colecciones de rutas patentadas utilizadas por, por ejemplo, Pathway Studio [17] y las herramientas Ingenuity Pathway Analysis [18] . Las herramientas públicas en línea pueden proporcionar menús precompilados y listos para usar de rutas y redes de diferentes fuentes abiertas (por ejemplo, EviNet).
El software de análisis de vías se puede encontrar en forma de programas de escritorio, aplicaciones basadas en la web o paquetes codificados en lenguajes como R y Python y compartidos abiertamente a través de los proyectos BioConductor [19] y GitHub [20] . La metodología de análisis de vías evoluciona rápidamente y la clasificación aún es discutible, [21] [22] con las siguientes categorías principales de análisis de enriquecimiento de vías aplicables a datos de alto rendimiento: [21]
Este método mide la superposición entre, por un lado, un conjunto de genes (o proteínas) en un FGS y, por otro lado, una lista de los genes más alterados generalmente llamados Conjuntos de Genes Alterados (AGS). Un ejemplo típico de AGS es una lista de los N principales genes expresados diferencialmente de un ensayo de ARN-Seq . La suposición básica detrás de ORA es que una vía biológicamente relevante puede identificarse por el exceso de genes AGS en ella en comparación con el número esperado por casualidad. El objetivo de ORA es identificar dichas vías enriquecidas, a juzgar por la significación estadística de la superposición entre FGS y AGS, determinada ya sea por una estadística apropiada, como el índice de Jaccard o por una prueba estadística que produzca valores p ( prueba exacta de Fisher o la prueba que utiliza la distribución hipergeométrica ).
Este método identifica los genes FGS considerando sus posiciones relativas en la lista completa de genes estudiados en el experimento. Por lo tanto, esta lista completa debe clasificarse de antemano mediante una estadística (como el cambio de plegamiento de la expresión del ARNm , la prueba t de Student , etc.) o un valor p, mientras se observa la dirección del cambio de plegamiento, ya que los valores p no son direccionales. Por lo tanto, el FCS tiene en cuenta cada gen FGS independientemente de su importancia estadística y no requiere un AGS compilado previamente . Uno de los primeros y más populares métodos que implementaron el enfoque FCS fue el análisis de enriquecimiento del conjunto de genes (GSEA). [10]
De manera similar a FCS , PTA representa datos de alto rendimiento para cada gen FGS . [23] Además, se utiliza información topológica específica sobre el papel, la posición y las direcciones de interacción de los genes de la vía. Esto requiere datos de entrada adicionales de una base de datos de la vía en un formato preespecificado, como el lenguaje de marcado KEGG (KGML). Usando esta información, PTA estima la importancia de la vía al considerar cuánto cada alteración genética individual podría haber afectado a toda la vía. Se pueden usar múltiples tipos de alteración en paralelo ( variaciones somáticas del número de copias , mutaciones puntuales , etc.) cuando estén disponibles. [21] El conjunto de métodos PTA incluye el análisis de impacto, [24] [25] EnrichNet, [26] GGEA, [27] y TopoGSA. [28]
El análisis de enriquecimiento de redes (NEA) ha sido una extensión del análisis de enriquecimiento de conjuntos de genes al dominio de las redes de genes globales [29] [30] [31] [32] El principio principal de NEA se puede entender en comparación con ORA , donde el enriquecimiento de FGS en genes de AGS está determinado por cuántos genes son compartidos directamente por AGS y FGS. En NEA, por el contrario, se buscan en la red global bordes de red que conecten cualquier gen de AGS con cualquier gen de FGS. Dado que la importancia del enriquecimiento está influenciada por los grados de nodo altamente variables de los genes AGS y FGS individuales, debe determinarse mediante una prueba estadística dedicada, que compara el número observado de bordes de red con el número esperado por casualidad en el mismo contexto de red. Algunas propiedades valiosas de NEA son que:
Más allá de las herramientas de código abierto, como STRING o Cytoscape , varias empresas venden productos de software con licencia para analizar conjuntos de genes. Si bien la mayoría de las soluciones disponibles públicamente utilizan colecciones de vías públicas y en línea, los productos comerciales en su mayoría promueven vías y redes propias y patentadas. La elección de dichos productos puede estar impulsada por las habilidades, los recursos financieros y de tiempo y las necesidades de los clientes. [6] Ingenuity , por ejemplo, mantiene una base de conocimiento para el análisis comparativo de datos de expresión genética. [36] Pathways Studio [37] es un software comercial que permite buscar hechos biológicamente relevantes, analizar experimentos y crear vías. Pathways Studio Viewer [38] es un recurso gratuito de la misma empresa para presentar la colección y base de datos de vías interactivas Pathway Studio. Dos soluciones comerciales ofrecen PTA : iPathwayGuide de Advaita Corporation y MetaCore de Thomson Reuters. [39] Advaita utiliza el método de análisis de impacto revisado por pares [24] [25] mientras que el método MetaCore no está publicado. [39] Correlation Engine utiliza el algoritmo Running Fisher para el enriquecimiento del conjunto de genes dentro de su aplicación Pathway Enrichment. [40]
La aplicación de los métodos de análisis de vías depende de las anotaciones que se encuentran en las bases de datos existentes , como la pertenencia del conjunto de genes a las vías, la topología de las vías, la presencia de genes en la red global, etc. Estas anotaciones, sin embargo, están lejos de ser completas y tienen grados de confianza muy variables. Además, dicha información suele ser general, es decir, privada de, por ejemplo, tipo de célula, compartimento o contexto de desarrollo. Por lo tanto, la interpretación de los resultados del análisis de vías para conjuntos de datos ómicos debe hacerse con cautela [22]. En parte, el problema se puede abordar analizando conjuntos de genes más grandes en un conjunto más amplio, como grandes colecciones de vías o redes de interacción global. [41]
{{cite book}}
: CS1 maint: DOI inactivo a partir de noviembre de 2024 ( enlace )