stringtranslate.com

Predicción de la función de las proteínas

Los métodos de predicción de la función de las proteínas son técnicas que utilizan los investigadores en bioinformática para asignar funciones biológicas o bioquímicas a las proteínas . Estas proteínas suelen ser las que están poco estudiadas o predichas en base a datos de secuencias genómicas. Estas predicciones suelen estar impulsadas por procedimientos computacionales que hacen un uso intensivo de los datos. La información puede provenir de la homología de secuencias de ácidos nucleicos , perfiles de expresión genética , estructuras de dominios proteicos , minería de textos de publicaciones, perfiles filogenéticos, perfiles fenotípicos e interacción proteína-proteína. La función de las proteínas es un término amplio: las funciones de las proteínas van desde la catálisis de reacciones bioquímicas hasta el transporte y la transducción de señales , y una sola proteína puede desempeñar un papel en múltiples procesos o vías celulares. [1]

En general, se puede pensar en la función como "todo lo que le sucede a una proteína o a través de ella". [1] El Consorcio de Ontología Génica proporciona una clasificación útil de funciones, basada en un diccionario de términos bien definidos divididos en tres categorías principales de función molecular, proceso biológico y componente celular . [2] Los investigadores pueden consultar esta base de datos con el nombre de una proteína o un número de acceso para recuperar términos o anotaciones de Ontología Génica (GO) asociados en base a evidencia computacional o experimental.

Si bien las técnicas como el análisis de microarrays , la interferencia de ARN y el sistema de dos híbridos de levadura se pueden utilizar para demostrar experimentalmente la función de una proteína, los avances en las tecnologías de secuenciación han hecho que la velocidad a la que las proteínas pueden caracterizarse experimentalmente sea mucho más lenta que la velocidad a la que se encuentran disponibles nuevas secuencias. [3] Por lo tanto, la anotación de nuevas secuencias se realiza principalmente mediante predicción a través de métodos computacionales, ya que este tipo de anotación a menudo se puede realizar rápidamente y para muchos genes o proteínas a la vez. Los primeros métodos de este tipo inferían la función basándose en proteínas homólogas con funciones conocidas ( predicción de función basada en homología ). El desarrollo de métodos basados ​​en el contexto y la estructura han ampliado la información que se puede predecir, y ahora se puede utilizar una combinación de métodos para obtener una imagen de las vías celulares completas basadas en datos de secuencia. [3] La importancia y prevalencia de la predicción computacional de la función genética se destaca mediante un análisis de los "códigos de evidencia" utilizados por la base de datos GO: en 2010, el 98% de las anotaciones estaban incluidas bajo el código IEA (inferido a partir de la anotación electrónica), mientras que solo el 0,6% se basaba en evidencia experimental. [4]

Métodos basados ​​en homología

Parte de una alineación de secuencias múltiples de cuatro secuencias de proteínas de hemoglobina diferentes. Las secuencias de proteínas similares suelen indicar funciones compartidas.

Las proteínas de secuencia similar suelen ser homólogas [5] y, por lo tanto, tienen una función similar. Por ello, las proteínas de un genoma recién secuenciado se anotan de forma rutinaria utilizando las secuencias de proteínas similares en genomas relacionados.

Sin embargo, las proteínas estrechamente relacionadas no siempre comparten la misma función. [6] Por ejemplo, las proteínas Gal1 y Gal3 de levadura son parálogas (73% de identidad y 92% de similitud) que han desarrollado funciones muy diferentes, siendo Gal1 una galactoquinasa y Gal3 un inductor transcripcional. [7]

No existe un umbral estricto de similitud de secuencias para predecir de forma "segura" la función; muchas proteínas con una similitud de secuencias apenas detectable tienen la misma función, mientras que otras (como Gal1 y Gal3) son muy similares, pero han desarrollado funciones diferentes. Como regla general, las secuencias que tienen una identidad superior al 30-40% suelen considerarse como si tuvieran la misma función o una función muy similar.

En el caso de las enzimas , las predicciones de funciones específicas son especialmente difíciles, ya que solo necesitan unos pocos residuos clave en su sitio activo , por lo que secuencias muy diferentes pueden tener actividades muy similares. Por el contrario, incluso con una identidad de secuencia del 70 % o más, el 10 % de cualquier par de enzimas tiene sustratos diferentes; y las diferencias en las reacciones enzimáticas reales no son poco comunes cerca del 50 % de identidad de secuencia. [8] [9]

Métodos basados ​​en motivos de secuencia

El desarrollo de bases de datos de dominios proteicos como Pfam (Protein Families Database) [10] nos permite encontrar dominios conocidos dentro de una secuencia de consulta, proporcionando evidencia de funciones probables. El sitio web dcGO [11] contiene anotaciones tanto de los dominios individuales como de los supradominios (es decir, combinaciones de dos o más dominios sucesivos), por lo que a través de dcGO Predictor se permiten las predicciones de funciones de una manera más realista. Dentro de los dominios proteicos , las firmas más cortas conocidas como " motivos " se asocian con funciones particulares, [12] y las bases de datos de motivos como PROSITE ("base de datos de dominios proteicos, familias y sitios funcionales") se pueden buscar utilizando una secuencia de consulta. [13] Los motivos se pueden utilizar, por ejemplo, para predecir la localización subcelular de una proteína (dónde en la célula se envía la proteína después de la síntesis). Los péptidos señal cortos dirigen ciertas proteínas a una ubicación particular como las mitocondrias, y existen varias herramientas para la predicción de estas señales en una secuencia proteica. [14] Por ejemplo, SignalP, que se ha actualizado varias veces a medida que se mejoran los métodos. [15] Por lo tanto, se pueden predecir aspectos de la función de una proteína sin compararla con otras secuencias de proteínas homólogas de longitud completa.

Métodos basados ​​en la estructura

Alineamiento de las proteínas tóxicas ricina y abrina . Los alineamientos estructurales pueden utilizarse para determinar si dos proteínas tienen funciones similares incluso cuando sus secuencias difieren.

Debido a que la estructura de proteínas 3D generalmente está mejor conservada que la secuencia de proteínas, la similitud estructural es un buen indicador de una función similar en dos o más proteínas. [6] [12] Se han desarrollado muchos programas para examinar una estructura de proteína conocida contra el Protein Data Bank [16] e informar estructuras similares (por ejemplo, FATCAT (Flexible structure AlignmenT by Chaining AFPs (Aligned Fragment Pairs) with Twists), [17] CE (combinatorial extension) [18] ) y DeepAlign (protein structurealign beyond space proximity). [19] De manera similar, las principales bases de datos de proteínas, como UniProt , tienen herramientas integradas para buscar cualquier secuencia de proteína dada contra bases de datos de estructura y vincularlas a proteínas relacionadas de estructura conocida.

Predicción de la estructura de las proteínas

Para abordar la situación de que muchas secuencias de proteínas no tienen estructuras resueltas, también se han desarrollado algunos servidores de predicción de funciones como RaptorX que pueden predecir primero el modelo 3D de una secuencia y luego usar un método basado en la estructura para predecir funciones basadas en el modelo 3D predicho. En muchos casos, en lugar de la estructura completa de la proteína, se puede apuntar a la estructura 3D de un motivo particular que representa un sitio activo o un sitio de unión. [12] [20] [21] [22] [23] El método de Sitios Locales de Actividad Alineados Estructuralmente (SALSA) [21] , desarrollado por Mary Jo Ondrechen y estudiantes, utiliza propiedades químicas calculadas de los aminoácidos individuales para identificar sitios bioquímicamente activos locales. Se han desarrollado bases de datos como Catalytic Site Atlas [24] que se pueden buscar utilizando secuencias de proteínas novedosas para predecir sitios funcionales específicos.

Mapeo computacional de solventes

Mapeo computacional de solventes de la proteína AMA1 utilizando mapeo computacional de solventes basado en fragmentos (FTMAP) escaneando computacionalmente la superficie de AMA1 con 16 sondas (pequeñas moléculas orgánicas) y definiendo las ubicaciones donde se agrupan las sondas (marcadas como regiones coloridas en la superficie de la proteína) [25]

Uno de los desafíos que implica la predicción de la función de las proteínas es el descubrimiento del sitio activo. Esto se complica porque ciertos sitios activos no se forman (esencialmente no existen) hasta que la proteína sufre cambios conformacionales provocados por la unión de moléculas pequeñas. La mayoría de las estructuras de las proteínas se han determinado mediante cristalografía de rayos X , que requiere un cristal de proteína purificado . Como resultado, los modelos estructurales existentes son generalmente de una proteína purificada y, como tal, carecen de los cambios conformacionales que se crean cuando la proteína interactúa con moléculas pequeñas. [26]

El mapeo computacional de solventes utiliza sondas (pequeñas moléculas orgánicas) que se "mueven" computacionalmente sobre la superficie de la proteína en busca de sitios donde tienden a agruparse. Generalmente se aplican múltiples sondas diferentes con el objetivo de obtener una gran cantidad de conformaciones proteína-sonda diferentes. Luego, los grupos generados se clasifican según la energía libre promedio del grupo. Después de mapear computacionalmente múltiples sondas, el sitio de la proteína donde se forman cantidades relativamente grandes de grupos generalmente corresponde a un sitio activo en la proteína. [26]

Esta técnica es una adaptación computacional del trabajo de "laboratorio húmedo" de 1996. Se descubrió que determinar la estructura de una proteína mientras está suspendida en diferentes solventes y luego superponer esas estructuras unas sobre otras produce datos donde las moléculas de solvente orgánico (en las que estaban suspendidas las proteínas) típicamente se agrupan en el sitio activo de la proteína. Este trabajo se llevó a cabo como respuesta a darse cuenta de que las moléculas de agua son visibles en los mapas de densidad electrónica producidos por cristalografía de rayos X. Las moléculas de agua están interactuando con la proteína y tienden a agruparse en las regiones polares de la proteína. Esto llevó a la idea de sumergir el cristal de proteína purificada en otros solventes (por ejemplo, etanol , isopropanol , etc.) para determinar dónde se agrupan estas moléculas en la proteína. Los solventes se pueden elegir en función de lo que se aproximan, es decir, con qué molécula puede interactuar esta proteína (por ejemplo, el etanol puede investigar interacciones con el aminoácido serina , el isopropanol una sonda para treonina , etc.). Es vital que el cristal proteico mantenga su estructura terciaria en cada disolvente. Este proceso se repite para múltiples disolventes y luego estos datos se pueden utilizar para intentar determinar los posibles sitios activos en la proteína. [27] Diez años más tarde, Clodfelter et al. desarrollaron esta técnica en un algoritmo.

Métodos basados ​​en el contexto del genoma

Muchos de los métodos más nuevos para predecir la función de las proteínas no se basan en la comparación de secuencias o estructuras como se mencionó anteriormente, sino en algún tipo de correlación entre los genes o proteínas nuevos y aquellos que ya tienen anotaciones. Se han desarrollado varios métodos para predecir la función de los genes en el contexto genómico o filogenómico local y la estructura de los genes:

El perfil filogenético se basa en la observación de que dos o más proteínas con el mismo patrón de presencia o ausencia en muchos genomas diferentes probablemente tengan un vínculo funcional. [12] [28] Mientras que los métodos basados ​​en homología a menudo se pueden utilizar para identificar funciones moleculares de una proteína, los enfoques basados ​​en el contexto se pueden utilizar para predecir la función celular o el proceso biológico en el que actúa una proteína. [3] [28] Por ejemplo, es probable que las proteínas involucradas en la misma vía metabólica estén presentes en un genoma juntas o estén ausentes por completo, lo que sugiere que estos genes trabajan juntos en un contexto funcional.

Un operón conservado en tres genomas bacterianos (aquí: genes implicados en la biosíntesis del triptófano ). El orden conservado sugiere que estos genes actúan juntos.

Los operones son grupos de genes que se transcriben juntos. Según los datos de cotranscripción, pero también según el hecho de que el orden de los genes en los operones suele conservarse en muchas bacterias, esto indica que actúan juntos. [29]

La fusión genética ocurre cuando dos o más genes codifican dos o más proteínas en un organismo y, a través de la evolución, se combinan para convertirse en un solo gen en otro organismo (o viceversa para la fisión genética ). [3] [30] Este concepto se ha utilizado, por ejemplo, para buscar homología en todas las secuencias de proteínas de E. coli en otros genomas y encontrar más de 6000 pares de secuencias con homología compartida con proteínas individuales en otro genoma, lo que indica una posible interacción entre cada uno de los pares. [30] Debido a que las dos secuencias en cada par de proteínas no son homólogas, estas interacciones no se pudieron predecir utilizando métodos basados ​​en homología.

Expresión genética y métodos basados ​​en la localización

En los procariotas , los grupos de genes que están físicamente cerca entre sí en el genoma a menudo se conservan juntos a través de la evolución y tienden a codificar proteínas que interactúan o son parte del mismo operón . [3] Por lo tanto, la proximidad cromosómica , también llamada método de vecindad génica [31], se puede utilizar para predecir la similitud funcional entre proteínas, al menos en procariotas. También se ha visto que la proximidad cromosómica se aplica a algunas vías en genomas eucariotas seleccionados, incluido el Homo sapiens , [32] y con un mayor desarrollo, los métodos de vecindad génica pueden ser valiosos para estudiar las interacciones de proteínas en eucariotas. [28]

Los genes que participan en funciones similares también suelen cotranscribirse, de modo que a menudo se puede predecir que una proteína no anotada tiene una función relacionada con las proteínas con las que se coexpresa. [12] Los algoritmos de culpabilidad por asociación desarrollados con base en este enfoque se pueden utilizar para analizar grandes cantidades de datos de secuencias e identificar genes con patrones de expresión similares a los de los genes conocidos. [33] [34] A menudo, un estudio de culpabilidad por asociación compara un grupo de genes candidatos (función desconocida) con un grupo objetivo (por ejemplo, un grupo de genes que se sabe que están asociados con una enfermedad particular) y clasifica los genes candidatos por su probabilidad de pertenecer al grupo objetivo según los datos. [35] Sin embargo, con base en estudios recientes, se ha sugerido que existen algunos problemas con este tipo de análisis. Por ejemplo, debido a que muchas proteínas son multifuncionales, los genes que las codifican pueden pertenecer a varios grupos objetivo. Se argumenta que es más probable que dichos genes se identifiquen en estudios de culpabilidad por asociación y, por lo tanto, las predicciones no son específicas. [35]

Con la acumulación de datos de secuenciación de ARN que son capaces de estimar perfiles de expresión para isoformas empalmadas alternativamente, también se han desarrollado algoritmos de aprendizaje automático para predecir y diferenciar funciones a nivel de isoforma. [36] Esto representa un área de investigación emergente en la predicción de funciones, que integra datos genómicos heterogéneos a gran escala para inferir funciones a nivel de isoforma. [37]

Métodos basados ​​en redes

Ejemplo de red de interacción de proteínas, generada a través del recurso web STRING . Los patrones de interacciones de proteínas dentro de las redes se utilizan para inferir la función. Aquí, se muestra que los productos de los genes trp bacterianos que codifican la triptófano sintasa interactúan entre sí y con otras proteínas relacionadas.

Los algoritmos de asociación de culpabilidad se pueden utilizar para producir una red de asociación funcional para un grupo objetivo determinado de genes o proteínas. [38] Estas redes sirven como una representación de la evidencia de una función compartida/similar dentro de un grupo de genes, donde los nodos representan genes/proteínas y están vinculados entre sí por bordes que representan evidencia de una función compartida. [39]

Redes integradas

Varias redes basadas en diferentes fuentes de datos se pueden combinar en una red compuesta, que luego puede ser utilizada por un algoritmo de predicción para anotar genes o proteínas candidatos. [40] Por ejemplo, los desarrolladores del sistema bioPIXIE utilizaron una amplia variedad de datos genómicos de Saccharomyces cerevisiae (levadura) para producir una red funcional compuesta para esa especie. [41] Este recurso permite la visualización de redes conocidas que representan procesos biológicos, así como la predicción de nuevos componentes de esas redes. Se han desarrollado muchos algoritmos para predecir la función basándose en la integración de varias fuentes de datos (por ejemplo, genómicos, proteómicos, interacción de proteínas, etc.), y las pruebas en genes anotados previamente indican un alto nivel de precisión. [39] [42] Las desventajas de algunos algoritmos de predicción de funciones han incluido la falta de accesibilidad y el tiempo requerido para el análisis. Sin embargo, en los últimos años se han desarrollado algoritmos más rápidos y precisos como GeneMANIA (algoritmo de integración de redes de asociación múltiple) [40] y están disponibles públicamente en la web, lo que indica la dirección futura de la predicción de funciones.

Herramientas y bases de datos para la predicción de la función de las proteínas

STRING : herramienta web que integra varias fuentes de datos para la predicción de funciones. [43]

VisANT: Análisis visual de redes y minería de datos visual integradora. [44]

Mantis: una herramienta de predicción de funciones basada en consenso que integra dinámicamente múltiples bases de datos de referencia. [45]

Véase también

Referencias

  1. ^ ab Rost B, Liu J, Nair R, Wrzeszczynski KO, Ofran Y (diciembre de 2003). "Predicción automática de la función de las proteínas". Ciencias de la vida celular y molecular . 60 (12): 2637–50. doi :10.1007/s00018-003-3114-8. PMC  11138487 . PMID  14685688. S2CID  8800506.
  2. ^ Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (mayo de 2000). "Ontología genética: herramienta para la unificación de la biología. El Consorcio de Ontología Genética". Nature Genetics . 25 (1): 25–9. doi :10.1038/75556. PMC 3037419 . PMID  10802651. 
  3. ^ abcde Gabaldón T, Huynen MA (abril de 2004). "Predicción de la función y las vías proteínicas en la era del genoma". Ciencias de la vida celular y molecular . 61 (7–8): 930–44. doi :10.1007/s00018-003-3387-y. PMC 11138568 . PMID  15095013. S2CID  18032660. 
  4. ^ du Plessis L, Skunca N, Dessimoz C (noviembre de 2011). "El qué, dónde, cómo y por qué de la ontología genética: una introducción para bioinformáticos". Briefings in Bioinformatics . 12 (6): 723–35. doi :10.1093/bib/bbr002. PMC 3220872 . PMID  21330331. 
  5. ^ Reeck GR, de Haën C, Teller DC, Doolittle RF, Fitch WM, Dickerson RE, et al. (Agosto de 1987). ""Homología" en proteínas y ácidos nucleicos: un embrollo terminológico y una salida al mismo". Cell . 50 (5): 667. doi :10.1016/0092-8674(87)90322-9. PMID  3621342. S2CID  42949514.
  6. ^ ab Whisstock JC, Lesk AM (agosto de 2003). "Predicción de la función de las proteínas a partir de la secuencia y la estructura de las proteínas". Quarterly Reviews of Biophysics . 36 (3): 307–40. doi :10.1017/S0033583503003901. PMID  15029827. S2CID  27123114.
  7. ^ Platt A, Ross HC, Hankin S, Reece RJ (marzo de 2000). "La inserción de dos aminoácidos en un inductor transcripcional lo convierte en una galactoquinasa". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 97 (7): 3154–9. Bibcode :2000PNAS...97.3154P. doi : 10.1073/pnas.97.7.3154 . PMC 16208 . PMID  10737789. 
  8. ^ Rost B (abril de 2002). "Función enzimática menos conservada de lo previsto". Journal of Molecular Biology . 318 (2): 595–608. doi :10.1016/S0022-2836(02)00016-5. PMID  12051862.
  9. ^ Tian W, Skolnick J (octubre de 2003). "¿Qué tan bien se conserva la función enzimática en función de la identidad de secuencias por pares?". Journal of Molecular Biology . 333 (4): 863–82. CiteSeerX 10.1.1.332.4052 . doi :10.1016/j.jmb.2003.08.057. PMID  14568541. 
  10. ^ Finn RD, Mistry J, Tate J, Coggill P, Heger A, Pollington JE, Gavin OL, Gunasekaran P, Ceric G, Forslund K, Holm L, Sonnhammer EL, Eddy SR, Bateman A (enero de 2010). "La base de datos de familias de proteínas Pfam". Investigación de ácidos nucleicos . 38 (Problema de la base de datos): D211–22. doi :10.1093/nar/gkp985. PMC 2808889 . PMID  19920124. 
  11. ^ Fang H, Gough J (enero de 2013). "DcGO: base de datos de ontologías centradas en el dominio sobre funciones, fenotipos, enfermedades y más". Nucleic Acids Research . 41 (número de la base de datos): D536–44. doi :10.1093/nar/gks1080. PMC 3531119 . PMID  23161684. 
  12. ^ abcde Sleator RD, Walsh P (marzo de 2010). "Una descripción general de la predicción in silico de la función de las proteínas". Archivos de Microbiología . 192 (3): 151–5. doi :10.1007/s00203-010-0549-9. PMID  20127480. S2CID  8932206.
  13. ^ Sigrist CJ, Cerutti L, de Castro E, Langendijk-Genevaux PS, Bulliard V, Bairoch A, Hulo N (enero de 2010). "PROSITE, una base de datos de dominios de proteínas para anotación y caracterización funcional". Investigación de ácidos nucleicos . 38 (Problema de la base de datos): D161–6. doi : 10.1093/nar/gkp885. PMC 2808866 . PMID  19858104. 
  14. ^ Menne KM, Hermjakob H, Apweiler R (agosto de 2000). "Una comparación de métodos de predicción de secuencias de señal utilizando un conjunto de prueba de péptidos de señal". Bioinformática . 16 (8): 741–2. doi : 10.1093/bioinformatics/16.8.741 . PMID  11099261.
  15. ^ Petersen TN, Brunak S, von Heijne G, Nielsen H (septiembre de 2011). "SignalP 4.0: discriminación de péptidos señal de regiones transmembrana". Nature Methods . 8 (10): 785–6. doi : 10.1038/nmeth.1701 . PMID  21959131. S2CID  16509924.
  16. ^ Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE (enero de 2000). "El banco de datos de proteínas". Investigación de ácidos nucleicos . 28 (1): 235–42. doi :10.1093/nar/28.1.235. PMC 102472 . PMID  10592235. 
  17. ^ Ye Y, Godzik A (julio de 2004). "FATCAT: un servidor web para la comparación flexible de estructuras y la búsqueda de similitudes estructurales". Nucleic Acids Research . 32 (edición del servidor web): W582–5. doi :10.1093/nar/gkh430. PMC 441568 . PMID  15215455. 
  18. ^ Shindyalov IN, Bourne PE (septiembre de 1998). "Alineación de la estructura de proteínas mediante extensión combinatoria incremental (CE) de la ruta óptima". Ingeniería de proteínas . 11 (9): 739–47. doi : 10.1093/protein/11.9.739 . PMID  9796821.
  19. ^ Wang S, Ma J, Peng J, Xu J (marzo de 2013). "Alineación de la estructura de proteínas más allá de la proximidad espacial". Scientific Reports . 3 : 1448. Bibcode :2013NatSR...3E1448W. doi :10.1038/srep01448. PMC 3596798 . PMID  23486213. 
  20. ^ Parasuram R, Lee JS, Yin P, Somarowthu S, Ondrechen MJ (diciembre de 2010). "Clasificación funcional de estructuras 3D de proteínas a partir de sitios de interacción local predichos". Journal of Bioinformatics and Computational Biology . 8 (Supl 1): 1–15. doi :10.1142/s0219720010005166. PMID  21155016.
  21. ^ ab Wang Z, Yin P, Lee JS, Parasuram R, Somarowthu S, Ondrechen MJ (2013). "Anotación de la función de las proteínas con sitios locales de actividad estructuralmente alineados (SALSAs)". BMC Bioinformatics . 14 (Supl 3): S13. doi : 10.1186/1471-2105-14-S3-S13 . PMC 3584854 . PMID  23514271. 
  22. ^ Garma LD, Juffer AH (abril de 2016). "Comparación de conjuntos no secuenciales de residuos proteicos". Computational Biology and Chemistry . 61 : 23–38. doi :10.1016/j.compbiolchem.2015.12.004. PMID  26773655.
  23. ^ Garma LD, Medina M, Juffer AH (noviembre de 2016). "Clasificación basada en la estructura de los sitios de unión de FAD: un estudio comparativo de herramientas de alineación estructural". Proteins . 84 (11): 1728–1747. doi :10.1002/prot.25158. PMID  27580869. S2CID  26066208.
  24. ^ Porter CT, Bartlett GJ, Thornton JM (enero de 2004). "Atlas de sitios catalíticos: un recurso de sitios catalíticos y residuos identificados en enzimas utilizando datos estructurales". Nucleic Acids Research . 32 (número de la base de datos): D129–33. doi :10.1093/nar/gkh028. PMC 308762 . PMID  14681376. 
  25. ^ Wang G, MacRaild CA, Mohanty B, Mobli M, Cowieson NP, Anders RF, Simpson JS, McGowan S, Norton RS, Scanlon MJ (2014). "Información molecular sobre la interacción entre el antígeno 1 de membrana apical de Plasmodium falciparum y un péptido inhibidor de la invasión". PLOS ONE . ​​9 (10): e109674. Bibcode :2014PLoSO...9j9674W. doi : 10.1371/journal.pone.0109674 . PMC 4208761 . PMID  25343578. 
  26. ^ ab Clodfelter KH, Waxman DJ, Vajda S (agosto de 2006). "El mapeo computacional de solventes revela la importancia de los cambios conformacionales locales para una amplia especificidad de sustrato en los citocromos P450 de mamíferos". Bioquímica . 45 (31): 9393–407. doi :10.1021/bi060343v. PMID  16878974.
  27. ^ Mattos C, Ringe D (mayo de 1996). "Localización y caracterización de sitios de unión en proteínas". Nature Biotechnology . 14 (5): 595–9. doi :10.1038/nbt0596-595. PMID  9630949. S2CID  20273975.
  28. ^ abc Eisenberg D, Marcotte EM, Xenarios I, Yeates TO (junio de 2000). "Función de las proteínas en la era posgenómica". Nature . 405 (6788): 823–6. doi :10.1038/35015694. PMID  10866208. S2CID  4398864.
  29. ^ Okuda S, Yoshizawa AC (enero de 2011). "ODB: una base de datos para organizaciones de operones, actualización de 2011". Nucleic Acids Research . 39 (número de la base de datos): D552–D555. doi :10.1093/nar/gkq1090. PMC 3013687 . PMID  21051344. 
  30. ^ ab Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO, Eisenberg D (julio de 1999). "Detección de la función proteica y de las interacciones proteína-proteína a partir de secuencias genómicas". Science . 285 (5428): 751–3. CiteSeerX 10.1.1.535.9650 . doi :10.1126/science.285.5428.751. PMID  10427000. 
  31. ^ Overbeek R, Fonstein M, D'Souza M, Pusch GD, Maltsev N (marzo de 1999). "El uso de grupos de genes para inferir acoplamiento funcional". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 96 (6): 2896–901. Bibcode :1999PNAS...96.2896O. doi : 10.1073/pnas.96.6.2896 . PMC 15866 . PMID  10077608. 
  32. ^ Lee JM, Sonnhammer EL (mayo de 2003). "Análisis de agrupamiento de genes genómicos de vías en eucariotas". Genome Research . 13 (5): 875–82. doi :10.1101/gr.737703. PMC 430880 . PMID  12695325. 
  33. ^ Walker MG, Volkmuth W, Sprinzak E, Hodgson D, Klingler T (diciembre de 1999). "Predicción de la función genética mediante análisis de expresión a escala del genoma: genes asociados al cáncer de próstata". Genome Research . 9 (12): 1198–203. doi :10.1101/gr.9.12.1198. PMC 310991 . PMID  10613842. 
  34. ^ Klomp JA, Furge KA (julio de 2012). "Coincidencia de genes en todo el genoma con funciones celulares utilizando modelos de culpabilidad por asociación derivados de análisis de una sola muestra". BMC Research Notes . 5 (1): 370. doi : 10.1186/1756-0500-5-370 . PMC 3599284 . PMID  22824328. 
  35. ^ ab Pavlidis P, Gillis J (2012). "Progreso y desafíos en la predicción computacional de la función genética utilizando redes". F1000Research . 1 (14): 14. doi : 10.3410/f1000research.1-14.v1 . PMC 3782350 . PMID  23936626. 
  36. ^ Eksi R, Li HD, Menon R, Wen Y, Omenn GS, Kretzler M, Guan Y (noviembre de 2013). "Diferenciación sistemática de funciones para isoformas con empalme alternativo mediante la integración de datos de secuenciación de ARN". PLOS Computational Biology . 9 (11): e1003314. Bibcode :2013PLSCB...9E3314E. doi : 10.1371/journal.pcbi.1003314 . PMC 3820534 . PMID  24244129. 
  37. ^ Li HD, Menon R, Omenn GS, Guan Y (agosto de 2014). "La era emergente de la integración de datos genómicos para analizar la función de las isoformas de empalme". Tendencias en genética . 30 (8): 340–7. doi :10.1016/j.tig.2014.05.005. PMC 4112133 . PMID  24951248. 
  38. ^ Schwikowski, Benno; Uetz, Peter; Fields, Stanley (diciembre de 2000). "Una red de interacciones proteína-proteína en levadura". Nature Biotechnology . 18 (12): 1257–1261. doi :10.1038/82360. ISSN  1087-0156. PMID  11101803. S2CID  3009359.
  39. ^ ab Sharan R, Ulitsky I, Shamir R (2007). "Predicción basada en redes de la función de las proteínas". Biología de sistemas moleculares . 3 (88): 88. doi :10.1038/msb4100129. PMC 1847944 . PMID  17353930. 
  40. ^ ab Mostafavi S, Ray D, Warde-Farley D, Grouios C, Morris Q (2008). "GeneMANIA: un algoritmo de integración de redes de asociación múltiple en tiempo real para predecir la función genética". Genome Biology . 9 (Suppl 1): S4. doi : 10.1186/gb-2008-9-s1-s4 . PMC 2447538 . PMID  18613948. 
  41. ^ Myers CL, Robson D, Wible A, Hibbs MA, Chiriac C, Theesfeld CL, Dolinski K, Troyanskaya OG (2005). "Descubrimiento de redes biológicas a partir de diversos datos genómicos funcionales". Genome Biology . 6 (13): R114. doi : 10.1186/gb-2005-6-13-r114 . PMC 1414113 . PMID  16420673. 
  42. ^ Peña-Castillo L, Tasan M, Myers CL, Lee H, Joshi T, Zhang C, Guan Y, Leone M, Pagnani A, Kim WK, Krumpelman C, Tian W, Obozinski G, Qi Y, Mostafavi S, Lin GN, Berriz GF, Gibbons FD, Lanckriet G, Qiu J, Grant C, Barutcuoglu Z, Hill DP, Warde-Farley D, Grouios C, Ray D, Blake JA, Deng M, Jordan MI, Noble WS, Morris Q, Klein-Seetharaman J, Bar-Joseph Z, Chen T, Sun F, Troyanskaya OG, Marcotte EM, Xu D, Hughes TR, Roth FP (2008). "Una evaluación crítica de la predicción de la función génica de Mus musculus utilizando evidencia genómica integrada". Genome Biology . 9 (Supl 1): S2. doi : 10.1186/gb-2008-9-s1-s2 . PMC 2447536. PMID  18613946 . 
  43. ^ Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, Santos A, Doncheva NT, Roth A, Bork P, Jensen LJ, von Mering C (enero de 2017). "La base de datos STRING en 2017: redes de asociación proteína-proteína con control de calidad, ampliamente accesibles". Nucleic Acids Research . 45 (D1): D362–D368. doi :10.1093/nar/gkw937. PMC 5210637 . PMID  27924014. 
  44. ^ Granger BR, Chang YC, Wang Y, DeLisi C, Segrè D, Hu Z (abril de 2016). "Visualización de redes de interacción metabólica en comunidades microbianas utilizando VisANT 5.0". PLOS Computational Biology . 12 (4): e1004875. Bibcode :2016PLSCB..12E4875G. doi : 10.1371/journal.pcbi.1004875 . PMC 4833320 . PMID  27081850. 
  45. ^ Queirós P, Delogu F, Hickl O, May P, Wilmes P (junio de 2021). "Mantis: anotación genómica flexible e impulsada por consenso". GigaScience . 10 (6). doi :10.1093/gigascience/giab042. PMC 8170692 . PMID  34076241. 

Enlaces externos