Análisis de vías

Vía es el término de la biología molecular para una representación esquemática curada de un segmento bien caracterizado de la maquinaria fisiológica molecular, como una vía metabólica que describe un proceso enzimático dentro de una célula o tejido o un modelo de vía de señalización que representa un proceso regulador que podría, a su vez, habilitar un proceso metabólico u otro proceso regulador aguas abajo. Un modelo de vía típico comienza con una molécula de señalización extracelular que activa un receptor específico , desencadenando así una cadena de interacciones moleculares. ^[2] Una vía se representa con mayor frecuencia como un gráfico relativamente pequeño con nodos de genes, proteínas y/o moléculas pequeñas conectados por bordes de relaciones funcionales conocidas. Si bien una vía más simple puede aparecer como una cadena, ^[3] las topologías de vías complejas con bucles y rutas alternativas son mucho más comunes. Los análisis computacionales emplean formatos especiales de representación de vías. ^[4]^[5] Sin embargo, en la forma más simple, una vía podría representarse como una lista de moléculas miembro con orden y relaciones no especificados. Tal representación, generalmente llamada Conjunto de Genes Funcionales (FGS), también puede referirse a otros grupos caracterizados funcionalmente tales como familias de proteínas , términos de Ontología Génica (GO) y Ontología de Enfermedades (DO), etc. En bioinformática, los métodos de análisis de vías podrían usarse para identificar genes / proteínas clave dentro de una vía previamente conocida en relación con un experimento/condición patológica particular o construir una vía de novo a partir de proteínas que han sido identificadas como elementos clave afectados. Al examinar cambios en, por ejemplo, la expresión génica en una vía, se puede explorar su actividad biológica. Sin embargo, con mayor frecuencia, el análisis de vías se refiere a un método de caracterización e interpretación inicial de una condición experimental (o patológica) que fue estudiada con herramientas ómicas o un estudio de asociación de todo el genoma . ^[6] Tales estudios podrían identificar largas listas de genes alterados. Una inspección visual es entonces un desafío y la información es difícil de resumir, ya que los genes alterados se asignan a una amplia gama de vías, procesos y funciones moleculares (con una gran fracción de genes que carece de cualquier anotación). En tales situaciones, la forma más productiva de explorar la lista es identificar el enriquecimiento de FGS específicos en ella. El enfoque general de los análisis de enriquecimiento es identificar los FGS cuyos miembros fueron más frecuentementeo más fuertemente alterados en la condición dada, en comparación con un conjunto de genes muestreados al azar. En otras palabras, el enriquecimiento puede mapear el conocimiento previo canónico estructurado en forma de FGS a la condición representada por genes alterados.

Usar

Los datos para el análisis de vías provienen de biología de alto rendimiento . Esto incluye datos de secuenciación de alto rendimiento y datos de microarrays . Antes de que se pueda realizar el análisis de vías, se debe evaluar la alteración de cada gen utilizando el conjunto de datos ómicos en forma cuantitativa ( análisis de expresión diferencial ) o cualitativa (detección de mutaciones puntuales somáticas o mapeo de genes vecinos a un SNP asociado a la enfermedad ). También es posible combinar conjuntos de datos de diferentes grupos de investigación o múltiples plataformas ómicas con un metanálisis y regularización multiplataforma. ^[7]^[8] Además, una lista donde los identificadores de genes están acompañados por los atributos de alteración se somete a un análisis de vías. Al utilizar software de análisis de vías, los investigadores pueden determinar qué FGS están enriquecidos con los genes experimentales alterados ^[9]^[10] Por ejemplo, el análisis de vías de varios experimentos de microarrays independientes ( metanálisis ) ayudó a descubrir biomarcadores potenciales en una sola vía importante para la transición del tipo de fibra de cambio rápido a lento en la distrofia muscular de Duchenne . ^[11] En otro estudio, un metanálisis identificó dos biomarcadores en la sangre de pacientes con enfermedad de Parkinson que pueden ser útiles para monitorear la enfermedad. ^[12] Los alelos de genes candidatos causantes de la enfermedad de Alzheimer y la demencia en la tercera edad se descubrieron por primera vez a través de un estudio de asociación de todo el genoma y se validaron posteriormente con un análisis de enriquecimiento de red contra FGS que consiste en genes conocidos de Alzheimer. ^[13]^[14]

Bases de datos

Las colecciones de rutas y redes de interacción constituyen la base de conocimiento necesaria para un análisis de rutas. El contenido, la estructura, el formato y la funcionalidad de las rutas varían entre diferentes recursos de bases de datos como KEGG , ^[15] WikiPathways o Reactome . ^[16] También existen colecciones de rutas patentadas utilizadas por, por ejemplo, Pathway Studio ^[17] y las herramientas Ingenuity Pathway Analysis ^[18] . Las herramientas públicas en línea pueden proporcionar menús precompilados y listos para usar de rutas y redes de diferentes fuentes abiertas (por ejemplo, EviNet).

Métodos y software

El software de análisis de vías se puede encontrar en forma de programas de escritorio, aplicaciones basadas en la web o paquetes codificados en lenguajes como R y Python y compartidos abiertamente a través de los proyectos BioConductor ^[19] y GitHub ^[20] . La metodología de análisis de vías evoluciona rápidamente y la clasificación aún es discutible, ^[21]^[22] con las siguientes categorías principales de análisis de enriquecimiento de vías aplicables a datos de alto rendimiento: ^[21]

Análisis de sobrerrepresentación (ORA)

Este método mide la superposición entre, por un lado, un conjunto de genes (o proteínas) en un FGS y, por otro lado, una lista de los genes más alterados generalmente llamados Conjuntos de Genes Alterados (AGS). Un ejemplo típico de AGS es una lista de los N principales genes expresados diferencialmente de un ensayo de ARN-Seq . La suposición básica detrás de ORA es que una vía biológicamente relevante puede identificarse por el exceso de genes AGS en ella en comparación con el número esperado por casualidad. El objetivo de ORA es identificar dichas vías enriquecidas, a juzgar por la significación estadística de la superposición entre FGS y AGS, determinada ya sea por una estadística apropiada, como el índice de Jaccard o por una prueba estadística que produzca valores p ( prueba exacta de Fisher o la prueba que utiliza la distribución hipergeométrica ).

Puntuación de clase funcional (FCS)

Este método identifica los genes FGS considerando sus posiciones relativas en la lista completa de genes estudiados en el experimento. Por lo tanto, esta lista completa debe clasificarse de antemano mediante una estadística (como el cambio de plegamiento de la expresión del ARNm , la prueba t de Student , etc.) o un valor p, mientras se observa la dirección del cambio de plegamiento, ya que los valores p no son direccionales. Por lo tanto, el FCS tiene en cuenta cada gen FGS independientemente de su importancia estadística y no requiere un AGS compilado previamente . Uno de los primeros y más populares métodos que implementaron el enfoque FCS fue el análisis de enriquecimiento del conjunto de genes (GSEA). ^[10]

Análisis de topología de vías (PTA)

De manera similar a FCS , PTA representa datos de alto rendimiento para cada gen FGS . ^[23] Además, se utiliza información topológica específica sobre el papel, la posición y las direcciones de interacción de los genes de la vía. Esto requiere datos de entrada adicionales de una base de datos de la vía en un formato preespecificado, como el lenguaje de marcado KEGG (KGML). Usando esta información, PTA estima la importancia de la vía al considerar cuánto cada alteración genética individual podría haber afectado a toda la vía. Se pueden usar múltiples tipos de alteración en paralelo ( variaciones somáticas del número de copias , mutaciones puntuales , etc.) cuando estén disponibles. ^[21] El conjunto de métodos PTA incluye el análisis de impacto, ^[24]^[25] EnrichNet, ^[26] GGEA, ^[27] y TopoGSA. ^[28]

Análisis de enriquecimiento de red (NEA)

El análisis de enriquecimiento de redes (NEA) ha sido una extensión del análisis de enriquecimiento de conjuntos de genes al dominio de las redes de genes globales ^[29]^[30]^[31]^[32] El principio principal de NEA se puede entender en comparación con ORA , donde el enriquecimiento de FGS en genes de AGS está determinado por cuántos genes son compartidos directamente por AGS y FGS. En NEA, por el contrario, se buscan en la red global bordes de red que conecten cualquier gen de AGS con cualquier gen de FGS. Dado que la importancia del enriquecimiento está influenciada por los grados de nodo altamente variables de los genes AGS y FGS individuales, debe determinarse mediante una prueba estadística dedicada, que compara el número observado de bordes de red con el número esperado por casualidad en el mismo contexto de red. Algunas propiedades valiosas de NEA son que:

Es más robusto a la variabilidad biológica y técnica entre réplicas de muestras; ^[8]^[33]
Los genes AGS no necesariamente pueden estar anotados como miembros de la vía; ^[34]
Los miembros del FGS no tienen que ser alterados, pero aún así se los tiene en cuenta por poseer vínculos de red con los genes del AGS. ^[35]

Soluciones comerciales

Más allá de las herramientas de código abierto, como STRING o Cytoscape , varias empresas venden productos de software con licencia para analizar conjuntos de genes. Si bien la mayoría de las soluciones disponibles públicamente utilizan colecciones de vías públicas y en línea, los productos comerciales en su mayoría promueven vías y redes propias y patentadas. La elección de dichos productos puede estar impulsada por las habilidades, los recursos financieros y de tiempo y las necesidades de los clientes. ^[6] Ingenuity , por ejemplo, mantiene una base de conocimiento para el análisis comparativo de datos de expresión genética. ^[36] Pathways Studio ^[37] es un software comercial que permite buscar hechos biológicamente relevantes, analizar experimentos y crear vías. Pathways Studio Viewer ^[38] es un recurso gratuito de la misma empresa para presentar la colección y base de datos de vías interactivas Pathway Studio. Dos soluciones comerciales ofrecen PTA : iPathwayGuide de Advaita Corporation y MetaCore de Thomson Reuters. ^[39] Advaita utiliza el método de análisis de impacto revisado por pares ^[24]^[25] mientras que el método MetaCore no está publicado. ^[39] Correlation Engine utiliza el algoritmo Running Fisher para el enriquecimiento del conjunto de genes dentro de su aplicación Pathway Enrichment. ^[40]

Limitaciones

Falta de anotaciones

La aplicación de los métodos de análisis de vías depende de las anotaciones que se encuentran en las bases de datos existentes , como la pertenencia del conjunto de genes a las vías, la topología de las vías, la presencia de genes en la red global, etc. Estas anotaciones, sin embargo, están lejos de ser completas y tienen grados de confianza muy variables. Además, dicha información suele ser general, es decir, privada de, por ejemplo, tipo de célula, compartimento o contexto de desarrollo. Por lo tanto, la interpretación de los resultados del análisis de vías para conjuntos de datos ómicos debe hacerse con cautela ^[22]. En parte, el problema se puede abordar analizando conjuntos de genes más grandes en un conjunto más amplio, como grandes colecciones de vías o redes de interacción global. ^[41]

Véase también

Vía biológica

Referencias

^ Mubeen S, Hoyt CT, Gemünd A, Hofmann-Apitius M, Fröhlich H, Domingo-Fernández D (2019). "El impacto de la elección de la base de datos Pathway en el análisis de enriquecimiento estadístico y el modelado predictivo". Frontiers in Genetics . 10 : 1203. doi : 10.3389/fgene.2019.01203 . PMC 6883970 . PMID 31824580.
^ Berg JM, Tymoczko JL, Stryer L (2002). Bioquímica (5ª ed.). Nueva York: WH Freeman. ISBN 978-0-7167-3051-4.
^ Ohlrogge J, Browse J (julio de 1995). "Biosíntesis de lípidos". The Plant Cell . 7 (7): 957–70. doi : 10.1105/tpc.7.7.957 . PMC 160893 . PMID 7640528. S2CID 219201001.
^ "Página principal - SBML.caltech.edu". sbml.org .
^ "KGML (lenguaje de marcado KEGG)". www.genome.jp .
^ ab García-Campos MA, Espinal-Enríquez J, Hernández-Lemus E (2015). "Análisis de vías: estado del arte". Fronteras en Fisiología . 6 : 383. doi : 10.3389/fphys.2015.00383 . PMC 4681784 . PMID 26733877.
^ Walsh CJ, Hu P, Batt J, Santos CC (agosto de 2015). "Metaanálisis de microarrays y normalización multiplataforma: genómica integrativa para el descubrimiento robusto de biomarcadores". Microarrays . 4 (3): 389–406. doi : 10.3390/microarrays4030389 . PMC 4996376 . PMID 27600230.
^ ab Suo C, Hrydziuszko O, Lee D, Pramana S, Saputra D, Joshi H, et al. (agosto de 2015). "La integración de datos funcionales, de expresión y de mutación somática revela posibles genes impulsores predictivos de la supervivencia del cáncer de mama". Bioinformática . 31 (16): 2607–13. doi : 10.1093/bioinformatics/btv164 . PMID 25810432.
^ Tavazoie S, Hughes JD, Campbell MJ, Cho RJ, Church GM (julio de 1999). "Determinación sistemática de la arquitectura de la red genética". Nature Genetics . 22 (3): 281–5. doi :10.1038/10343. PMID 10391217. S2CID 14688842.
^ ab Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, et al. (octubre de 2005). "Análisis de enriquecimiento del conjunto de genes: un enfoque basado en el conocimiento para interpretar los perfiles de expresión de todo el genoma". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 102 (43): 15545–50. Bibcode :2005PNAS..10215545S. doi : 10.1073/pnas.0506580102 . PMC 1239896 . PMID 16199517.
^ Kotelnikova E, Shkrob MA, Pyatnitskiy MA, Ferlini A, Daraselia N (febrero de 2012). "Un nuevo enfoque para el metaanálisis de conjuntos de datos de microarrays revela objetivos farmacológicos y biomarcadores relacionados con la remodelación muscular en la distrofia muscular de Duchenne". PLOS Computational Biology . 8 (2): e1002365. Bibcode :2012PLSCB...8E2365K. doi : 10.1371/journal.pcbi.1002365 . PMC 3271016 . PMID 22319435.
^ Santiago JA, Potashkin JA (febrero de 2015). "Un metaanálisis basado en redes identifica HNF4A y PTBP1 como biomarcadores longitudinalmente dinámicos para la enfermedad de Parkinson". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 112 (7): 2257–62. Bibcode :2015PNAS..112.2257S. doi : 10.1073/pnas.1423573112 . PMC 4343174 . PMID 25646437.
^ Reynolds CA, Hong MG, Eriksson UK, Blennow K, Wiklund F, Johansson B, et al. (mayo de 2010). "El análisis de los genes de la vía lipídica indica la asociación de la variación de secuencia cerca de SREBF1/TOM1L2/ATPAF2 con el riesgo de demencia". Human Molecular Genetics . 19 (10): 2068–78. doi :10.1093/hmg/ddq079. PMC 2860895 . PMID 20167577.
^ Bennet AM, Reynolds CA, Eriksson UK, Hong MG, Blennow K, Gatz M, et al. (1 de enero de 2011). "Asociación genética de variantes de secuencia cerca de AGER/NOTCH4 y demencia". Journal of Alzheimer's Disease . 24 (3): 475–84. doi :10.3233/jad-2011-101848. PMC 3477600 . PMID 21297263.
^ Ogata H, Goto S, Sato K, Fujibuchi W, Bono H, Kanehisa M (enero de 1999). "KEGG: Enciclopedia de Kioto de genes y genomas". Investigación de ácidos nucleicos . 27 (1): 29–34. doi :10.1093/nar/27.1.29. PMC 148090 . PMID 9847135.
^ Vastrik I, D'Eustachio P, Schmidt E, Joshi-Tope G, Gopinath G, Croft D, et al. (2007). "Reactome: una base de conocimiento de vías y procesos biológicos". Genome Biology . 8 (3): R39. doi : 10.1186/gb-2007-8-3-r39 . PMC 1868929 . PMID 17367534.
^ Estudio Pathway Pathways
^ Camino central
^ Gentleman RC, Carey VJ, Bates DM, Bolstad B, Dettling M, Dudoit S , et al. (2004). "Bioconductor: desarrollo de software abierto para biología computacional y bioinformática". Genome Biology . 5 (10): R80. doi : 10.1186/gb-2004-5-10-r80 . PMC 545600 . PMID 15461798.
^ Dabbish L, Stuart C, Tsay J, Herbsleb J (febrero de 2012). "Codificación social en GitHub: transparencia y colaboración en un repositorio de software abierto". (PDF) . Actas de la Conferencia ACM 2012 sobre Trabajo Cooperativo Apoyado por Computadora . Nueva York: Association for Computing Machinery. págs. 1277–1286. doi :10.1145/2145204.21453 (inactivo el 1 de noviembre de 2024).{{cite book}}: CS1 maint: DOI inactivo a partir de noviembre de 2024 ( enlace )
^ abc Khatri P, Sirota M, Butte AJ (23 de febrero de 2012). "Diez años de análisis de vías: enfoques actuales y desafíos pendientes". PLOS Computational Biology . 8 (2): e1002375. Bibcode :2012PLSCB...8E2375K. doi : 10.1371/journal.pcbi.1002375 . PMC 3285573 . PMID 22383865.
^ ab Henderson-Maclennan NK, Papp JC, Talbot CC, McCabe ER, Presson AP (2010). "Software de análisis de vías: errores de anotación y soluciones". Genética molecular y metabolismo . 101 (2–3): 134–40. doi :10.1016/j.ymgme.2010.06.005. PMC 2950253 . PMID 20663702.
^ Emmert-Streib F, Dehmer M (mayo de 2011). "Redes para la biología de sistemas: conexión conceptual de datos y funciones". IET Systems Biology . 5 (3): 185–207. doi :10.1049/iet-syb.2010.0025. PMID 21639592.
^ ab Draghici S, Khatri P, Tarca AL, Amin K, Done A, Voichita C, et al. (octubre de 2007). "Un enfoque de biología de sistemas para el análisis a nivel de vías". Genome Research . 17 (10): 1537–45. doi :10.1101/gr.6202607. PMC 1987343 . PMID 17785539.
^ ab Tarca AL, Draghici S, Khatri P, Hassan SS, Mittal P, Kim JS, et al. (enero de 2009). "Un nuevo análisis del impacto de la vía de señalización". Bioinformática . 25 (1): 75–82. doi :10.1093/bioinformatics/btn577. PMC 2732297 . PMID 18990722.
^ Glaab E, Baudot A, Krasnogor N, Schneider R, Valencia A (septiembre de 2012). "EnrichNet: análisis de enriquecimiento de conjuntos de genes basado en redes". Bioinformática . 28 (18): i451–i457. doi :10.1093/bioinformatics/bts389. PMC 3436816 . PMID 22962466.
^ Geistlinger L, Csaba G, Küffner R, Mulder N, Zimmer R (julio de 2011). "De conjuntos a grafos: hacia un análisis de enriquecimiento realista de sistemas transcriptómicos". Bioinformática . 27 (13): i366-73. doi :10.1093/bioinformatics/btr228. PMC 3117393 . PMID 21685094.
^ Glaab E, Baudot A, Krasnogor N, Valencia A (mayo de 2010). "TopoGSA: análisis topológico de conjuntos de genes en red". Bioinformática . 26 (9): 1271–2. doi :10.1093/bioinformatics/btq131. PMC 2859135 . PMID 20335277.
^ Shojaie A, Michailidis G (22 de mayo de 2010). "Análisis de enriquecimiento de redes en experimentos complejos". Aplicaciones estadísticas en genética y biología molecular . 9 (1): Artículo 22. doi :10.2202/1544-6115.1483. PMC 2898649. PMID 20597848 .
^ Huttenhower C, Haley EM, Hibbs MA, Dumeaux V, Barrett DR, Coller HA, et al. (junio de 2009). "Explorando el genoma humano con mapas funcionales". Genome Research . 19 (6): 1093–106. doi : 10.1101/gr.082214.108 . PMC 2694471 . PMID 19246570.
^ Alexeyenko A, Lee W, Pernemalm M, Guegan J, Dessen P, Lazar V, et al. (septiembre de 2012). "Análisis de enriquecimiento de redes: extensión del análisis de enriquecimiento de conjuntos de genes a redes de genes". BMC Bioinformatics . 13 : 226. doi : 10.1186/1471-2105-13-226 . PMC 3505158 . PMID 22966941.
^ Signorelli M, Vinciotti V, Wit EC (septiembre de 2016). "NEAT: una prueba de análisis de enriquecimiento de red eficiente". BMC Bioinformatics . 17 (1): 352. arXiv : 1604.01210 . doi : 10.1186/s12859-016-1203-6 . PMC 5011912 . PMID 27597310. S2CID 2274758.
^ Jeggari A, Alexeyenko A (marzo de 2017). "NEArender: un paquete R para la interpretación funcional de datos 'ómicos' mediante análisis de enriquecimiento de redes". BMC Bioinformatics . 18 (Supl 5): 118. doi : 10.1186/s12859-017-1534-y . PMC 5374688 . PMID 28361684.
^ Hong MG, Alexeyenko A, Lambert JC, Amouyel P, Prince JA (octubre de 2010). "El análisis de la vía genómica implica el transporte intracelular de proteínas transmembrana en la enfermedad de Alzheimer". Journal of Human Genetics . 55 (10): 707–9. doi : 10.1038/jhg.2010.92 . PMID 20668461. S2CID 27020289.
^ Jeggari A, Alekseenko Z, Petrov I, Dias JM, Ericson J, Alexeyenko A (julio de 2018). "EviNet: una plataforma web para el análisis de enriquecimiento de redes con una definición flexible de conjuntos de genes". Nucleic Acids Research . 46 (W1): W163–W170. doi :10.1093/nar/gky485. PMC 6030852 . PMID 29893885.
^ "Ingenuity IPA: Integrar y comprender datos ómicos complejos". Ingenuity . 8 de abril de 2015.
^ Estudio Pathway
^ Visor de Pathway Studio
^ ab Mitrea C, Taghavi Z, Bokanizad B, Hanoudi S, Tagett R, Donato M, et al. (octubre de 2013). "Métodos y enfoques en el análisis basado en la topología de las vías biológicas". Frontiers in Physiology . 4 : 278. doi : 10.3389/fphys.2013.00278 . PMC 3794382 . PMID 24133454.
^ Kupershmidt I, Su QJ, Grewal A, Sundaresh S, Halperin I, Flynn J, et al. (septiembre de 2010). Aziz RK (ed.). "Metaanálisis basado en ontología de colecciones globales de datos públicos de alto rendimiento". PLOS ONE . 5 (9): e13066. Bibcode :2010PLoSO...513066K. doi : 10.1371/journal.pone.0013066 . PMC 2947508 . PMID 20927376.
^ Franco M, Jeggari A, Peuget S, Böttger F, Selivanova G, Alexeyenko A (febrero de 2019). "La predicción de la respuesta a los fármacos contra el cáncer se vuelve robusta mediante la integración en red de datos moleculares". Scientific Reports . 9 (1): 2379. Bibcode :2019NatSR...9.2379F. doi :10.1038/s41598-019-39019-2. PMC 6382934 . PMID 30787419.