Predicción de la interacción proteína-proteína

La predicción de interacciones proteína-proteína es un campo que combina la bioinformática y la biología estructural en un intento de identificar y catalogar interacciones físicas entre pares o grupos de proteínas. Comprender las interacciones proteína-proteína es importante para la investigación de las vías de señalización intracelular, el modelado de estructuras de complejos proteicos y para obtener información sobre diversos procesos bioquímicos.

Experimentalmente , las interacciones físicas entre pares de proteínas se pueden inferir a partir de una variedad de técnicas, incluidos los sistemas de dos híbridos de levadura, los ensayos de complementación de fragmentos de proteína (PCA), la purificación por afinidad/ espectrometría de masas , los microarreglos de proteínas , la transferencia de energía por resonancia de fluorescencia (FRET) y la termoforesis a microescala (MST). Se están realizando esfuerzos para determinar experimentalmente el interactoma de numerosas especies. Las interacciones determinadas experimentalmente suelen proporcionar la base para los métodos computacionales para predecir interacciones, por ejemplo, utilizando secuencias de proteínas homólogas en todas las especies. Sin embargo, también hay métodos que predicen interacciones de novo , sin conocimiento previo de las interacciones existentes.

Métodos

Las proteínas que interactúan tienen más probabilidades de coevolucionar, ^[1]^[2]^[3]^[4] por lo tanto, es posible hacer inferencias sobre las interacciones entre pares de proteínas en función de sus distancias filogenéticas. También se ha observado en algunos casos que pares de proteínas interactuantes tienen ortólogos fusionados en otros organismos. Además, se han resuelto estructuralmente varios complejos proteicos unidos y se pueden utilizar para identificar los residuos que median la interacción de modo que se puedan localizar motivos similares en otros organismos.

Perfil filogenético

El método del perfil filogenético se basa en la hipótesis de que si dos o más proteínas están presentes o ausentes simultáneamente en varios genomas, es probable que estén funcionalmente relacionadas.^[5] La Figura A ilustra una situación hipotética en la que las proteínas A y B se identifican como funcionalmente vinculadas debido a sus perfiles filogenéticos idénticos en 5 genomas diferentes. El Joint Genome Institute ofrece una base de datos integrada de genomas y microbiomas microbianos (JGI IMG) que tiene una herramienta de creación de perfiles filogenéticos para genes individuales y casetes de genes.

Predicción de pares de proteínas coevolucionadas en base a árboles filogenéticos similares

Se observó que los árboles filogenéticos de ligandos y receptores eran a menudo más similares que debido al azar. ^[4] Esto es probable porque enfrentaron presiones de selección similares y coevolucionaron. Este método ^[6] utiliza los árboles filogenéticos de pares de proteínas para determinar si existen interacciones. Para ello, se encuentran homólogos de las proteínas de interés (utilizando una herramienta de búsqueda de secuencias como BLAST ) y se realizan alineaciones de múltiples secuencias (con herramientas de alineamiento como Clustal ) para construir matrices de distancia para cada una de las proteínas de interés. ^[4] Las matrices de distancia deberían usarse luego para construir árboles filogenéticos. Sin embargo, las comparaciones entre árboles filogenéticos son difíciles, y los métodos actuales evitan esto simplemente comparando matrices de distancia ^[4] . Las matrices de distancia de las proteínas se utilizan para calcular un coeficiente de correlación, en el que un valor mayor corresponde a la coevolución. El beneficio de comparar matrices de distancia en lugar de árboles filogenéticos es que los resultados no dependen del método de construcción de árboles que se utilizó. La desventaja es que las matrices de diferencia no son representaciones perfectas de los árboles filogenéticos, y pueden resultar imprecisiones al usar este atajo. ^[4] Otro factor digno de mención es que existen similitudes de fondo entre los árboles filogenéticos de cualquier proteína, incluso las que no interactúan. Si no se tienen en cuenta, esto podría conducir a una alta tasa de falsos positivos. Por esta razón, ciertos métodos construyen un árbol de fondo utilizando secuencias de ARNr 16S que utilizan como el árbol de la vida canónico. La matriz de distancia construida a partir de este árbol de la vida luego se resta de las matrices de distancia de las proteínas de interés. ^[7] Sin embargo, debido a que las matrices de distancia de ARN y las matrices de distancia de ADN tienen una escala diferente, presumiblemente porque el ARN y el ADN tienen diferentes tasas de mutación, la matriz de ARN necesita ser reescalada antes de que pueda ser restada de las matrices de ADN. ^[7] Al usar proteínas de reloj molecular, se puede calcular el coeficiente de escala para la distancia de la proteína/distancia del ARN. ^[7] Este coeficiente se utiliza para reescalar la matriz de ARN.

Figura B. La enzima succinil-CoA-transferasa humana está representada por las dos barras azules y verdes en la parte superior de la imagen. La subunidad alfa de la enzima acetato-CoA-transferasa es homóloga con la primera mitad de la enzima, representada por la barra azul. La subunidad beta de la enzima acetato-CoA-transferasa es homóloga con la segunda mitad de la enzima, representada por la barra verde. Esta imagen fue adaptada de Uetz, P. y Pohl, E. (2018) Protein–Protein and Protein–DNA Interactions . En: Wink, M. (ed.), Introduction to Molecular Biotechnology, 3rd ed. Wiley-VCH, en prensa .

Método de la piedra de Rosetta (fusión de genes)

El método de fusión de dominios o de piedra de Rosetta se basa en la hipótesis de que las proteínas que interactúan a veces se fusionan en una sola proteína. ^[3] Por ejemplo, dos o más proteínas separadas en un genoma pueden identificarse como fusionadas en una sola proteína en otro genoma. Es probable que las proteínas separadas interactúen y, por lo tanto, es probable que estén relacionadas funcionalmente. Un ejemplo de esto es la enzima humana Succinyl coA Transferase , que se encuentra como una proteína en los humanos pero como dos proteínas separadas, Acetate coA Transferase alpha y Acetate coA Transferase beta , en Escherichia coli . ^[3] Para identificar estas secuencias, es necesario un algoritmo de similitud de secuencia como el utilizado por BLAST . Por ejemplo, si tuviéramos las secuencias de aminoácidos de las proteínas A y B y las secuencias de aminoácidos de todas las proteínas en un genoma determinado, podríamos verificar cada proteína en ese genoma en busca de regiones no superpuestas de similitud de secuencia con ambas proteínas A y B. La Figura B representa la alineación de secuencia BLAST de Succinyl coA Transferase con sus dos homólogos separados en E. coli. Las dos subunidades tienen regiones no superpuestas de similitud de secuencia con la proteína humana, indicadas por las regiones rosas, siendo la subunidad alfa similar a la primera mitad de la proteína y la beta similar a la segunda mitad. Una limitación de este método es que no todas las proteínas que interactúan se pueden encontrar fusionadas en otro genoma y, por lo tanto, no se pueden identificar mediante este método. Por otro lado, la fusión de dos proteínas no necesita que interactúen físicamente. Por ejemplo, se sabe que los dominios SH2 y SH3 en la proteína src interactúan. Sin embargo, muchas proteínas poseen homólogos de estos dominios y no todas interactúan. ^[3]

Vecindario genético conservado

El método de vecindad conservada se basa en la hipótesis de que si los genes que codifican dos proteínas son vecinos en un cromosoma en muchos genomas, entonces es probable que estén funcionalmente relacionados. El método se basa en una observación de Bork et al. de la conservación de pares de genes en nueve genomas bacterianos y arqueológicos. El método es más eficaz en procariotas con operones, ya que la organización de los genes en un operón generalmente está relacionada con la función. ^[8] Por ejemplo, los genes trpA y trpB en Escherichia coli codifican las dos subunidades de la enzima triptófano sintasa que se sabe que interactúan para catalizar una sola reacción. Se demostró que la adyacencia de estos dos genes se conserva en nueve genomas bacterianos y arqueológicos diferentes. ^[8]

Métodos de clasificación

Los métodos de clasificación utilizan datos para entrenar un programa (clasificador) para distinguir ejemplos positivos de pares de proteínas/dominios interactuantes con ejemplos negativos de pares que no interactúan. Los clasificadores populares utilizados son Random Forest Decision (RFD) y Support Vector Machines. RFD produce resultados basados en la composición del dominio de pares de proteínas interactuantes y no interactuantes. Cuando se le da un par de proteínas para clasificar, RFD primero crea una representación del par de proteínas en un vector. ^[9] El vector contiene todos los tipos de dominio utilizados para entrenar RFD, y para cada tipo de dominio el vector también contiene un valor de 0, 1 o 2. Si el par de proteínas no contiene un cierto dominio, entonces el valor para ese dominio es 0. Si una de las proteínas del par contiene el dominio, entonces el valor es 1. Si ambas proteínas contienen el dominio, entonces el valor es 2. ^[9] Usando datos de entrenamiento, RFD construye un bosque de decisiones, que consiste en muchos árboles de decisiones. Cada árbol de decisión evalúa varios dominios y, en función de la presencia o ausencia de interacciones en estos dominios, toma una decisión sobre si el par de proteínas interactúa. La representación vectorial del par de proteínas es evaluada por cada árbol para determinar si son un par interactuante o un par que no interactúa. El bosque cuenta toda la entrada de los árboles para llegar a una decisión final. ^[9] La fortaleza de este método es que no asume que los dominios interactúan independientemente unos de otros. Esto hace que se puedan usar múltiples dominios en proteínas en la predicción. ^[9] Este es un gran avance con respecto a los métodos anteriores que solo podían predecir en función de un solo par de dominios. La limitación de este método es que se basa en el conjunto de datos de entrenamiento para producir resultados. Por lo tanto, el uso de diferentes conjuntos de datos de entrenamiento podría influir en los resultados. Una advertencia de la mayoría de los métodos es la falta de datos negativos, por ejemplo, no interacciones para proteínas que se pueden superar utilizando un muestreo negativo impulsado por la topología. ^[10]

Inferencia de interacciones a partir de estructuras homólogas

Este grupo de métodos ^[11]^[9]^[12]^[13]^[14] hace uso de estructuras de complejos proteicos conocidos para predecir y modelar estructuralmente las interacciones entre secuencias de proteínas de consulta. El proceso de predicción generalmente comienza empleando un método basado en secuencias (por ejemplo, Interolog ) para buscar estructuras de complejos proteicos que sean homólogas a las secuencias de consulta. Estas estructuras complejas conocidas se utilizan luego como plantillas para modelar estructuralmente la interacción entre secuencias de consulta. Este método tiene la ventaja de no solo inferir interacciones proteicas, sino que también sugiere modelos de cómo las proteínas interactúan estructuralmente, lo que puede proporcionar algunas ideas sobre el mecanismo de nivel atómico de esa interacción. Por otro lado, la capacidad de estos métodos para hacer una predicción está restringida por un número limitado de estructuras de complejos proteicos conocidas.

Métodos de asociación

Los métodos de asociación buscan secuencias o motivos característicos que puedan ayudar a distinguir entre pares interactuantes y no interactuantes. Un clasificador se entrena buscando pares de firmas de secuencia donde una proteína contiene una firma de secuencia y su pareja interactuante contiene otra firma de secuencia. ^[15] Buscan específicamente firmas de secuencia que se encuentran juntas con más frecuencia que por casualidad. Esto utiliza una puntuación de probabilidades logarítmicas que se calcula como log2(Pij/PiPj), donde Pij es la frecuencia observada de los dominios i y j que aparecen en un par de proteínas; Pi y Pj son las frecuencias de fondo de los dominios i y j en los datos. Las interacciones de dominios predichas son aquellas con puntuaciones de probabilidades logarítmicas positivas y que también tienen varias ocurrencias dentro de la base de datos. ^[15] La desventaja de este método es que analiza cada par de dominios interactuantes por separado y asume que interactúan independientemente uno del otro.

Identificación de patrones estructurales

Este método ^[16]^[17] construye una biblioteca de interfaces proteína-proteína conocidas a partir del PDB , donde las interfaces se definen como pares de fragmentos de polipéptidos que están por debajo de un umbral ligeramente mayor que el radio de Van der Waals de los átomos involucrados. Las secuencias en la biblioteca se agrupan en función de la alineación estructural y se eliminan las secuencias redundantes. Los residuos que tienen un alto nivel de frecuencia (generalmente >50%) para una posición dada se consideran puntos calientes. ^[18] Esta biblioteca se utiliza luego para identificar interacciones potenciales entre pares de objetivos, siempre que tengan una estructura conocida (es decir, presentes en el PDB ).

Modelado de redes bayesianas

Los métodos bayesianos ^[19] integran datos de una amplia variedad de fuentes, incluidos tanto resultados experimentales como predicciones computacionales previas, y utilizan estas características para evaluar la probabilidad de que una interacción proteica potencial particular sea un resultado positivo verdadero. Estos métodos son útiles porque los procedimientos experimentales, en particular los experimentos de dos híbridos en levadura, son extremadamente ruidosos y producen muchos falsos positivos, mientras que los métodos computacionales mencionados anteriormente solo pueden proporcionar evidencia circunstancial de que un par particular de proteínas podría interactuar. ^[20]

Análisis de exclusión de pares de dominios

El análisis de exclusión de pares de dominios ^[21] detecta interacciones específicas de dominios que son difíciles de detectar utilizando métodos bayesianos. Los métodos bayesianos son buenos para detectar interacciones promiscuas no específicas y no muy buenos para detectar interacciones específicas raras. El método de análisis de exclusión de pares de dominios calcula un puntaje E que mide si dos dominios interactúan. Se calcula como log(probabilidad de que las dos proteínas interactúen dado que los dominios interactúan/probabilidad de que las dos proteínas interactúen dado que los dominios no interactúan). Las probabilidades requeridas en la fórmula se calculan utilizando un procedimiento de maximización de expectativas, que es un método para estimar parámetros en modelos estadísticos. Los puntajes E altos indican que es probable que los dos dominios interactúen, mientras que los puntajes bajos indican que es más probable que otros dominios que forman el par de proteínas sean responsables de la interacción. El inconveniente de este método es que no tiene en cuenta los falsos positivos y falsos negativos en los datos experimentales.

Problema de aprendizaje supervisado

El problema de la predicción de PPI puede enmarcarse como un problema de aprendizaje supervisado. En este paradigma, las interacciones proteínicas conocidas supervisan la estimación de una función que puede predecir si existe o no una interacción entre dos proteínas a partir de datos sobre las proteínas (por ejemplo, niveles de expresión de cada gen en diferentes condiciones experimentales, información de ubicación, perfil filogenético, etc.).

Relación con los métodos de acoplamiento

El campo de la predicción de interacciones proteína-proteína está estrechamente relacionado con el campo del acoplamiento proteína-proteína , que intenta utilizar consideraciones geométricas y estéricas para encajar dos proteínas de estructura conocida en un complejo unido. Este es un modo de investigación útil en los casos en los que ambas proteínas del par tienen estructuras conocidas y se sabe (o al menos se sospecha firmemente) que interactúan, pero como muchas proteínas no tienen estructuras determinadas experimentalmente, los métodos de predicción de interacciones basados en secuencias son especialmente útiles junto con estudios experimentales del interactoma de un organismo .

Véase también

Referencias

^ ab Dandekar T., Snel B., Huynen M. y Bork P. (1998) "Conservación del orden genético: una huella de proteínas que interactúan físicamente". Trends Biochem. Sci. (23), 324-328
^ Enright AJ, Iliopoulos I., Kyripides NC y Ouzounis CA (1999) "Mapas de interacción de proteínas para genomas completos basados en eventos de fusión de genes". Nature (402), 86-90
^ abcd Marcotte EM, Pellegrini M., Ng HL, Rice DW, Yeates TO, Eisenberg D. (1999) "Detección de la función de las proteínas y de las interacciones proteína-proteína a partir de secuencias del genoma". Science (285), 751-753
^ abcde Pazos, F.; Valencia, A. (2001). "Similitud de árboles filogenéticos como indicador de interacción proteína-proteína". Ingeniería de Proteínas . 9 (14): 609–614. doi : 10.1093/protein/14.9.609 . PMID 11707606.
^ ab Raman, Karthik (15 de febrero de 2010). "Construcción y análisis de redes de interacción proteína-proteína". Experimentación automatizada . 2 (1): 2. doi : 10.1186/1759-4499-2-2 . ISSN 1759-4499. PMC 2834675 . PMID 20334628.
^ Tan SH, Zhang Z., Ng SK (2004) "ADVICE: Detección y validación automatizadas de la interacción por coevolución". Nucleic Acids Res. , 32 (número del servidor web): W69-72.
^ abc Pazos, F; Ranea, JA; Juan, D; Sternberg, MJ (2005). "La evaluación de la coevolución de proteínas en el contexto del árbol de la vida ayuda a predecir el interactoma". J Mol Biol . 352 (4): 1002–1015. doi :10.1016/j.jmb.2005.07.005. PMID 16139301.
^ ab Dandekar, T. (1998-09-01). "Conservación del orden genético: una huella de proteínas que interactúan físicamente". Tendencias en Ciencias Bioquímicas . 23 (9): 324–328. doi :10.1016/S0968-0004(98)01274-2. ISSN 0968-0004. PMID 9787636.
^ abcde Chen, XW; Liu, M (2005). "Predicción de interacciones proteína-proteína utilizando el marco de bosque de decisión aleatorio". Bioinformática . 21 (24): 4394–4400. doi : 10.1093/bioinformatics/bti721 . PMID 16234318.
^ Chatterjee, Ayan; Ravandi, Babak; Philip, Naomi H.; Abdelmessih, Mario; Mowrey, William R.; Ricchiuto, Piero; Liang, Yupu; Ding, Wei; Mobarec, Juan C. (2024-04-29), El muestreo negativo impulsado por topología mejora la generalización en la predicción de interacciones proteína-proteína, doi :10.1101/2024.04.27.591478 , consultado el 2024-05-04
^ Aloy, P.; Russell, RB (2003). "InterPreTS: predicción de la interacción de proteínas a través de la estructura terciaria". Bioinformática . 19 (1): 161–162. doi : 10.1093/bioinformatics/19.1.161 . PMID 12499311.
^ Fukuhara, Naoshi y Takeshi Kawabata. (2008) "HOMCOS: un servidor para predecir pares de proteínas interactuantes y sitios interactuantes mediante modelado de homología de estructuras complejas" Nucleic Acids Research , 36 (S2): 185-.
^ Kittichotirat W, M Guerquin, RE Bumgarner y R Samudrala (2009) "Protinfo PPC: un servidor web para la predicción a nivel atómico de complejos de proteínas" Nucleic Acids Research , 37 (número del servidor web): 519-25.
^ Shoemaker, BA; Zhang, D; Thangudu, RR; Tyagi, M; Fong, JH; Marchler-Bauer, A; Bryant, SH; Madej, T; Panchenko, AR (enero de 2010). "Servidor de interacción biomolecular inferida: un servidor web para analizar y predecir los sitios de unión y los socios de interacción de proteínas". Nucleic Acids Res . 38 (número de la base de datos): D518–24. doi :10.1093/nar/gkp842. PMC 2808861 . PMID 19843613.
^ ab Sprinzak, E; Margalit, H (2001). "Firmas de secuencias correlacionadas como marcadores de interacción proteína-proteína". J Mol Biol . 311 (4): 681–692. doi :10.1006/jmbi.2001.4920. PMID 11518523.
^ Aytuna, AS; Keskin, O.; Gursoy, A. (2005). "Predicción de interacciones proteína-proteína mediante la combinación de conservación de la estructura y la secuencia en interfaces proteínicas". Bioinformática . 21 (12): 2850–2855. doi : 10.1093/bioinformatics/bti443 . PMID 15855251.
^ Ogmen, U.; Keskin, O.; Aytuna, AS; Nussinov, R.; Gursoy, A. (2005). "PRISM: interacciones proteicas por correspondencia estructural". Nucleic Acids Res . 33 (número del servidor web): W331–336. doi : 10.1093/nar/gki585 . PMC 1160261 . PMID 15991339.
^ Keskin, O.; Ma, B.; Nussinov, R. (2004). "Regiones calientes en interacciones proteína-proteína: la organización y contribución de residuos de puntos calientes estructuralmente conservados". J. Mol. Biol . 345 (5): 1281–1294. doi :10.1016/j.jmb.2004.10.077. PMID 15644221.
^ Jansen, R; Yu, H; Greenbaum, D; Kluger, Y; Krogan, NJ; Chung, S; Emili, A; Snyder, M; Greenblatt, JF; Gerstein, M (2003). "Un enfoque de redes bayesianas para predecir interacciones proteína-proteína a partir de datos genómicos". Science . 302 (5644): 449–53. Bibcode :2003Sci...302..449J. CiteSeerX 10.1.1.217.8151 . doi :10.1126/science.1087361. PMID 14564010. S2CID 5293611.
^ Zhang, QC; Petrey, D; Deng, L; Qiang, L; Shi, Y; Thu, CA; Bisikirska, B; Lefebvre, C; Accili, D; Hunter, T; Maniatis, T; Califano, A; Honig, B (2012). "Predicción basada en la estructura de interacciones proteína-proteína a escala del genoma". Nature . 490 (7421): 556–60. Bibcode :2012Natur.490..556Z. doi :10.1038/nature11503. PMC 3482288 . PMID 23023127.
^ Shoemaker, BA; Panchenko, AR (2007). "Descifrando interacciones proteína-proteína. Parte II. Métodos computacionales para predecir interacciones entre proteínas y dominios". PLOS Comput Biol . 3 (4): e43. Bibcode :2007PLSCB...3...43S. doi : 10.1371/journal.pcbi.0030043 . PMC 1857810 . PMID 17465672.

Enlaces externos

Descripción general de las bases de datos de interacción de proteínas