Acoplamiento macromolecular

El acoplamiento macromolecular es el modelado computacional de la estructura cuaternaria de complejos formados por dos o más macromoléculas biológicas en interacción . Los complejos proteína -proteína son los objetivos más comúnmente intentados para dicho modelado, seguidos por los complejos proteína- ácido nucleico . ^[1]

El objetivo final del acoplamiento es predecir la estructura tridimensional del complejo macromolecular de interés tal como se daría en un organismo vivo. El acoplamiento en sí solo produce estructuras candidatas plausibles. Estas estructuras candidatas deben clasificarse utilizando métodos como funciones de puntuación para identificar las estructuras que tienen más probabilidades de darse en la naturaleza.

El término "acoplamiento" se originó a fines de la década de 1970, con un significado más restringido; en ese entonces, "acoplamiento" significaba refinar un modelo de una estructura compleja optimizando la separación entre los interactuantes pero manteniendo fijas sus orientaciones relativas. Más tarde, se permitió que las orientaciones relativas de los socios interactuantes en el modelado variaran, pero la geometría interna de cada uno de los socios se mantuvo fija. Este tipo de modelado a veces se denomina "acoplamiento rígido". Con mayores aumentos en la potencia computacional, se hizo posible modelar cambios en la geometría interna de los socios interactuantes que pueden ocurrir cuando se forma un complejo. Este tipo de modelado se conoce como "acoplamiento flexible".

Fondo

Las funciones biológicas de la mayoría de las proteínas, caracterizadas por las otras macromoléculas con las que interactúan , se conocen en el mejor de los casos de manera incompleta. Incluso aquellas proteínas que participan en un proceso biológico bien estudiado (por ejemplo, el ciclo de Krebs ) pueden tener socios de interacción inesperados o funciones que no están relacionadas con ese proceso.

En los casos en que se conocen interacciones proteína-proteína, surgen otras preguntas. Se sabe que las enfermedades genéticas (por ejemplo, la fibrosis quística ) son causadas por proteínas mal plegadas o mutadas , y existe el deseo de comprender qué interacciones proteína-proteína anómalas (si las hay) puede causar una mutación determinada. En un futuro lejano, es posible que se diseñen proteínas para que realicen funciones biológicas, y será esencial determinar las interacciones potenciales de dichas proteínas.

Para cualquier conjunto dado de proteínas, las siguientes preguntas pueden ser de interés, desde el punto de vista de la tecnología o de la historia natural:

¿Estas proteínas se unen in vivo ?

Si se unen,

¿Cuál es la configuración espacial que adoptan en su estado ligado ?
¿Qué tan fuerte o débil es su interacción?

Si no se vinculan,

¿Es posible lograr que se unan induciendo una mutación?

En última instancia, se prevé que el acoplamiento proteína-proteína resuelva todos estos problemas. Además, dado que los métodos de acoplamiento pueden basarse en principios puramente físicos , incluso proteínas de función desconocida (o que se han estudiado relativamente poco) pueden acoplarse. El único requisito previo es que su estructura molecular se haya determinado experimentalmente o se pueda estimar mediante una técnica de predicción de la estructura de proteínas .

Las interacciones proteína-ácido nucleico ocupan un lugar destacado en la célula viva. Los factores de transcripción , que regulan la expresión génica , y las polimerasas , que catalizan la replicación , están compuestos de proteínas, y el material genético con el que interactúan está compuesto de ácidos nucleicos. El modelado de complejos proteína-ácido nucleico presenta algunos desafíos únicos, como se describe a continuación.

Historia

En la década de 1970, el modelado complejo giraba en torno a la identificación manual de características en las superficies de los interactores y la interpretación de las consecuencias para la unión, la función y la actividad; los programas informáticos se utilizaban normalmente al final del proceso de modelado, para discriminar entre las relativamente pocas configuraciones que quedaban después de que se hubieran impuesto todas las restricciones heurísticas. El primer uso de las computadoras fue en un estudio sobre la interacción de la hemoglobina en las fibras de células falciformes . ^[2] A esto le siguió en 1978 un trabajo sobre el complejo tripsina - BPTI . ^[3] Las computadoras discriminaban entre modelos buenos y malos utilizando una función de puntuación que recompensaba el área de interfaz grande y los pares de moléculas en contacto pero que no ocupaban el mismo espacio. La computadora utilizaba una representación simplificada de las proteínas interactuantes, con un centro de interacción para cada residuo. Las interacciones electrostáticas favorables , incluidos los enlaces de hidrógeno , se identificaban a mano. ^[4]

A principios de los años 1990, se determinaron más estructuras de complejos y la potencia computacional disponible había aumentado sustancialmente. Con la aparición de la bioinformática , el enfoque se trasladó al desarrollo de técnicas generalizadas que pudieran aplicarse a un conjunto arbitrario de complejos con un costo computacional aceptable. Se concibió que los nuevos métodos se aplicarían incluso en ausencia de pistas filogenéticas o experimentales; cualquier conocimiento previo específico aún podría introducirse en la etapa de elección entre los modelos de salida de mayor rango, o enmarcarse como entrada si el algoritmo lo contemplaba. En 1992 se publicó el método de correlación ^[5] , un algoritmo que utilizaba la transformada rápida de Fourier para brindar una escalabilidad enormemente mejorada para evaluar la complementariedad de forma gruesa en modelos de cuerpo rígido. Esto se amplió en 1997 para cubrir la electrostática gruesa. ^[6]

En 1996 se publicaron los resultados del primer ensayo a ciegas ^[7] , en el que seis grupos de investigación intentaron predecir la estructura compleja de la beta-lactamasa TEM-1 con la proteína inhibidora de la beta-lactamasa (BLIP). El ejercicio puso de relieve la necesidad de acomodar el cambio conformacional y la dificultad de discriminar entre conformadores. También sirvió como prototipo para la serie de evaluación CAPRI, que debutó en 2001. ^{[ cita requerida ]}

Acoplamiento de cuerpo rígidocontra. acoplamiento flexible

Si los ángulos de enlace, las longitudes de enlace y los ángulos de torsión de los componentes no se modifican en ninguna etapa de la generación del complejo, se conoce como acoplamiento de cuerpo rígido . Un tema de especulación es si el acoplamiento de cuerpo rígido es suficientemente bueno para la mayoría de los acoplamientos. Cuando se produce un cambio conformacional sustancial dentro de los componentes en el momento de la formación del complejo, el acoplamiento de cuerpo rígido es inadecuado. Sin embargo, puntuar todos los posibles cambios conformacionales es prohibitivamente costoso en tiempo de computadora. Los procedimientos de acoplamiento que permiten el cambio conformacional, o procedimientos de acoplamiento flexible , deben seleccionar inteligentemente un pequeño subconjunto de posibles cambios conformacionales para su consideración.

Métodos

Para que el acoplamiento sea exitoso se requieren dos criterios:

Generar un conjunto de configuraciones que incluya de manera confiable al menos una casi correcta.
Distinguir de forma fiable configuraciones casi correctas de las demás.

En muchas interacciones, se conoce el sitio de unión en una o más de las proteínas que se van a acoplar. Este es el caso de los anticuerpos y de los inhibidores competitivos . En otros casos, la evidencia mutagénica o filogenética puede sugerir firmemente un sitio de unión . Las configuraciones en las que las proteínas se interpenetran intensamente también pueden descartarse a priori .

Después de hacer las exclusiones basadas en el conocimiento previo o en el choque estereoquímico , el espacio restante de posibles estructuras complejadas debe muestrearse de manera exhaustiva, uniforme y con una cobertura suficiente para garantizar un resultado casi correcto. Cada configuración debe puntuar con una medida que sea capaz de clasificar una estructura casi correcta por encima de al menos 100.000 alternativas. Esta es una tarea que requiere un gran esfuerzo computacional y se han desarrollado diversas estrategias.

Métodos de espacio recíproco

Cada una de las proteínas puede representarse como una red cúbica simple. Entonces, para la clase de puntuaciones que son convoluciones discretas , las configuraciones relacionadas entre sí por la traducción de una proteína por un vector de red exacto pueden calificarse casi simultáneamente aplicando el teorema de convolución . ^[5] Es posible construir funciones de puntuación similares a las de las convoluciones razonables, aunque aproximadas, que representen tanto la aptitud estereoquímica como la electrostática.

Los métodos de espacio recíproco se han utilizado ampliamente por su capacidad de evaluar enormes cantidades de configuraciones. Pierden su ventaja de velocidad si se introducen cambios torsionales. Otro inconveniente es que es imposible hacer un uso eficiente del conocimiento previo. También queda la pregunta de si las convoluciones son una clase de función de puntuación demasiado limitada para identificar el mejor complejo de manera confiable.

Métodos de Monte Carlo

En Monte Carlo , una configuración inicial se refina tomando pasos aleatorios que se aceptan o rechazan en función de la mejora inducida en la puntuación (véase el criterio de Metropolis ), hasta que se haya intentado una cierta cantidad de pasos. Se supone que la convergencia a la mejor estructura debería ocurrir a partir de una gran clase de configuraciones iniciales, de las cuales solo se debe considerar una. Las configuraciones iniciales se pueden muestrear de forma aproximada y se puede ahorrar mucho tiempo de cálculo. Debido a la dificultad de encontrar una función de puntuación que sea altamente discriminante para la configuración correcta y que también converja a la configuración correcta desde la distancia, se ha propuesto el uso de dos niveles de refinamiento, con diferentes funciones de puntuación. ^[8] La torsión se puede introducir de forma natural en Monte Carlo como una propiedad adicional de cada movimiento aleatorio.

No se garantiza que los métodos de Monte Carlo realicen una búsqueda exhaustiva, por lo que es posible que no se encuentre la mejor configuración incluso si se utiliza una función de puntuación que, en teoría, la identificaría. No se ha determinado con certeza hasta qué punto esto supone un problema para el acoplamiento.

Evaluación

Funciones de puntuación

Para encontrar una puntuación que sirva de base coherente para seleccionar la mejor configuración, se realizan estudios sobre un parámetro estándar (véase más abajo) de casos de interacción proteína-proteína. Las funciones de puntuación se evalúan en función del rango que asignan a la mejor estructura (lo ideal sería que la mejor estructura tuviera el primer puesto) y de su cobertura (la proporción de casos de referencia para los que obtienen un resultado aceptable). Los tipos de puntuaciones estudiados incluyen:

Puntuaciones heurísticas basadas en contactos de residuos .
Complementariedad de formas de superficies moleculares ("estereoquímica").
Energías libres, estimadas utilizando parámetros de campos de fuerza de mecánica molecular como CHARMM o AMBER .
Deseabilidad filogenética de las regiones interactuantes.
Coeficientes de agrupamiento.
Señales basadas en información.

Es habitual crear puntuaciones híbridas combinando una o más categorías anteriores en una suma ponderada cuyos pesos se optimizan en casos del punto de referencia. Para evitar sesgos, los casos de referencia utilizados para optimizar los pesos no deben superponerse con los casos utilizados para realizar la prueba final de la puntuación.

El objetivo final en el acoplamiento proteína-proteína es seleccionar la solución de clasificación ideal según un esquema de puntuación que también daría una idea de la afinidad del complejo. Tal desarrollo impulsaría la ingeniería de proteínas in silico , el diseño de fármacos asistido por computadora y/o la anotación de alto rendimiento de qué proteínas se unen o no (anotación del interactoma ). Se han propuesto varias funciones de puntuación para la predicción de la afinidad de unión / energía libre. ^[8]^[9]^[10]^[11]^[12] Sin embargo, se ha encontrado que la correlación entre las afinidades de unión determinadas experimentalmente y las predicciones de nueve funciones de puntuación comúnmente utilizadas son casi ortogonales (R ² ~ 0). ^[13] También se observó que algunos componentes de los algoritmos de puntuación pueden mostrar una mejor correlación con las energías de unión experimentales que la puntuación completa, lo que sugiere que se podría obtener un rendimiento significativamente mejor combinando las contribuciones apropiadas de diferentes algoritmos de puntuación. Los métodos experimentales para la determinación de las afinidades de unión son: resonancia de plasmón superficial (SPR), transferencia de energía por resonancia de Förster , técnicas basadas en radioligandos , calorimetría de titulación isotérmica (ITC), termoforesis a microescala (MST) o mediciones espectroscópicas y otras técnicas de fluorescencia. La información textual de artículos científicos puede proporcionar pistas útiles para la puntuación. ^[14]

Puntos de referencia

Se ha desarrollado un conjunto de 84 interacciones proteína-proteína con estructuras complejadas conocidas para probar métodos de acoplamiento. ^[15] El conjunto se ha elegido para cubrir una amplia gama de tipos de interacción y para evitar características repetidas, como el perfil de las familias estructurales de los interactores según la base de datos SCOP . Los elementos de referencia se clasifican en tres niveles de dificultad (el más difícil contiene el cambio más grande en la conformación de la estructura principal). El conjunto de referencia de acoplamiento proteína-proteína contiene ejemplos de complejos enzima-inhibidor, antígeno-anticuerpo y homomultiméricos.

La última versión del benchmark de acoplamiento proteína-proteína consta de 230 complejos. ^[16] Un benchmark de acoplamiento proteína-ADN consta de 47 casos de prueba. ^[17] Un benchmark de acoplamiento proteína-ARN fue curado como un conjunto de datos de 45 casos de prueba no redundantes ^[18] con complejos resueltos solo por cristalografía de rayos X , así como un conjunto de datos extendido de 71 casos de prueba con estructuras derivadas del modelado de homología también. ^[19] El benchmark proteína-ARN se ha actualizado para incluir más estructuras resueltas por cristalografía de rayos X y ahora consta de 126 casos de prueba. ^[20] Los benchmarks tienen un conjunto de datos combinado de 209 complejos. ^[21]

Se ha elaborado un parámetro de afinidad de unión basado en el parámetro de acoplamiento proteína-proteína. ^[13] Se incluyen 81 complejos proteína-proteína con afinidades experimentales conocidas; estos complejos abarcan más de 11 órdenes de magnitud en términos de afinidad. Cada entrada del parámetro incluye varios parámetros bioquímicos asociados con los datos experimentales, junto con el método utilizado para determinar la afinidad. Este parámetro se utilizó para evaluar hasta qué punto las funciones de puntuación también podían predecir las afinidades de los complejos macromoleculares.

Este punto de referencia fue revisado por pares posteriormente y se amplió significativamente. ^[22] El nuevo conjunto es diverso en términos de las funciones biológicas que representa, con complejos que involucran proteínas G y dominios extracelulares de receptores, así como complejos antígeno/anticuerpo, enzima/inhibidor y enzima/sustrato. También es diverso en términos de la afinidad de los socios entre sí, con K _d que varía entre 10 ⁻⁵ y 10 ⁻¹⁴ M. Nueve pares de entradas representan complejos estrechamente relacionados que tienen una estructura similar, pero una afinidad muy diferente, cada par comprende un ensamblaje cognado y uno no cognado. Al estar disponibles las estructuras no unidas de las proteínas componentes, se pueden evaluar los cambios de conformación. Son significativos en la mayoría de los complejos, y con frecuencia se observan grandes movimientos o transiciones de desorden a orden. El conjunto puede utilizarse para evaluar modelos biofísicos que buscan relacionar la afinidad con la estructura en las interacciones proteína-proteína, teniendo en cuenta los reactantes y los cambios de conformación que acompañan la reacción de asociación, en lugar de solo el producto final. ^[22]

La evaluación CAPRI

La evaluación crítica de la predicción de interacciones ^[23] es una serie de eventos en curso en los que los investigadores de toda la comunidad intentan acoplar las mismas proteínas, según lo proporcionado por los evaluadores. Las rondas se llevan a cabo aproximadamente cada 6 meses. Cada ronda contiene entre uno y seis complejos proteína-proteína objetivo cuyas estructuras se han determinado recientemente de manera experimental. Las coordenadas y se mantienen en privado por los evaluadores, con la cooperación de los biólogos estructurales que las determinaron. La evaluación de las presentaciones es doble ciego .

CAPRI atrae un alto nivel de participación (37 grupos participaron en todo el mundo en la séptima ronda) y un alto nivel de interés de la comunidad biológica en general. Aunque los resultados de CAPRI tienen poca importancia estadística debido al pequeño número de objetivos en cada ronda, el papel de CAPRI en la estimulación del debate es significativo. (La evaluación CASP es un ejercicio similar en el campo de la predicción de la estructura de las proteínas).

Véase también

Complejo biomolecular : cualquier complejo biológico de proteínas, ARN, ADN (a veces tiene lípidos y carbohidratos)
Acoplamiento (molecular) : acoplamiento de moléculas pequeñas a proteínas

Referencias

^ Yousif, Ragheed Hussam, et al. "Exploración de las interacciones moleculares entre la neoculina y los receptores humanos del gusto dulce mediante enfoques computacionales". Sains Malaysiana 49.3 (2020): 517-525.
^ Levinthal C, Wodak SJ, Kahn P, Dadivanian AK (1975). "Interacciones de hemoglobina en fibras de células falciformes: I. Enfoques teóricos de los contactos moleculares". Actas de la Academia Nacional de Ciencias . 72 (4): 1330–1334. Bibcode :1975PNAS...72.1330L. doi : 10.1073/pnas.72.4.1330 . PMC 432527 . PMID 1055409.
^ Wodak SJ, Janin J (1978). "Análisis informático de interacciones proteína-proteína". Revista de biología molecular . 124 (2): 323–342. doi :10.1016/0022-2836(78)90302-9. PMID 712840.
^ Wodak SJ, De Crombrugghe M, Janin J (1987). "Estudios informáticos de interacciones entre macromoléculas". Progreso en biofísica y biología molecular . 49 (1): 29–63. doi : 10.1016/0079-6107(87)90008-3 . PMID 3310103.
^ ab Katchalski-Katzir E, Shariv I, Eisenstein M, Friesem AA, Aflalo C, Vakser IA (1992). "Reconocimiento de superficies moleculares: determinación del ajuste geométrico entre proteínas y sus ligandos mediante técnicas de correlación". Proc. Natl. Sci. EE. UU . . 89 (6): 2195–2199. Bibcode :1992PNAS...89.2195K. doi : 10.1073/pnas.89.6.2195 . PMC 48623 . PMID 1549581.
^ Gabb HA, Jackson RM, Sternberg MJ (septiembre de 1997). "Modelado del acoplamiento de proteínas utilizando complementariedad de forma, electrostática e información bioquímica". J. Mol. Biol . 272 (1): 106–120. doi :10.1006/jmbi.1997.1203. PMID 9299341.
^ Strynadka NC, Eisenstein M, Katchalski-Katzir E, Shoichet BK, Kuntz ID, Abagyan R, Totrov M, Janin J, Cherfils J, Zimmerman F, Olson A, Duncan B, Rao M, Jackson R, Sternberg M, James MN (1996). "Los programas de acoplamiento molecular predicen con éxito la unión de una proteína inhibidora de beta-lactamasa a la beta-lactamasa TEM-1". Nature Structural & Molecular Biology . 3 (3): 233–239. doi :10.1038/nsb0396-233. PMID 8605624. S2CID 40212654.
^ ab Gray JJ, Moughon S, Wang C, Schueler-Furman O, Kuhlman B, Rohl CA, Baker D (2003). "Acoplamiento proteína-proteína con optimización simultánea del desplazamiento del cuerpo rígido y las conformaciones de la cadena lateral". J. Mol. Biol . 331 (1): 281–299. doi :10.1016/S0022-2836(03)00670-3. PMID 12875852.
^ Camacho CJ, Vajda S (2008). "Acoplamiento de proteínas a lo largo de vías de asociación suaves". Actas de la Academia Nacional de Ciencias . 98 (19): 10636–10641. doi : 10.1073/pnas.181147798 . PMC 58518 . PMID 11517309.
^ Camacho CJ, Vajda S (2007). "Cribado in silico de los efectos mutacionales en la afinidad enzima-inhibidor proteico: un enfoque basado en el acoplamiento". BMC Structural Biology . 7 : 37. doi : 10.1186/1472-6807-7-37 . PMC 1913526 . PMID 17559675.
^ Zhang C, Liu S, Zhu Q, Zhou Y (2005). "Una función energética basada en el conocimiento para complejos proteína-ligando, proteína-proteína y proteína-ADN". Journal of Medicinal Chemistry . 48 (7): 2325–2335. doi :10.1021/jm049314d. PMID 15801826.
^ Esmaielbeiki R, Nebel JC (2014). "Puntuación de conformaciones de acoplamiento utilizando interfaces de proteínas predichas". BMC Bioinformatics . 15 : 171. doi : 10.1186/1471-2105-15-171 . PMC 4057934 . PMID 24906633.
^ ab Kastritis PL, Bonvin AM (mayo de 2010). "¿Las funciones de puntuación en el acoplamiento proteína-proteína están preparadas para predecir interactomas? Pistas de un nuevo parámetro de referencia de afinidad de unión". J. Proteome Res . 9 (5): 2216–2225. doi :10.1021/pr9009854. hdl : 1874/202590 . PMID 20329755.
^ Badal, VD, Kundrotas, PJ, Vakser, IA (2018). "Procesamiento de lenguaje natural en minería de texto para modelado estructural de complejos proteicos". BMC Bioinformatics . 19 (1): 84. doi : 10.1186/s12859-018-2079-4 . PMC 5838950 . PMID 29506465.
^ Mintseris J, Wiehe K, Pierce B, Anderson R, Chen R, Janin J, Weng Z (2005). "Protein-Protein Docking Benchmark 2.0: una actualización". Proteins . 60 (2): 214–216. doi :10.1002/prot.20560. PMID 15981264. S2CID 24049376.
^ Vreven T, Moal IH, Vangone A, Pierce BG, Kastritis PL, Torchala M, Chaleil R, Jiménez-García B, Bates PA, Fernandez-Recio J, Bonvin AM, Weng Z (septiembre de 2015). "Actualizaciones de los puntos de referencia de interacción proteína-proteína integrada: punto de referencia de acoplamiento versión 5 y punto de referencia de afinidad versión 2". Revista de biología molecular . 427 (19): 3031–41. doi :10.1016/j.jmb.2015.07.016. PMC 4677049 . PMID 26231283.
^ van Dijk M, Bonvin AM (agosto de 2008). "Un punto de referencia para el acoplamiento proteína-ADN". Nucleic Acids Research . 36 (14): e88. doi :10.1093/nar/gkn386. PMC 2504314 . PMID 18583363.
^ Barik A, CN, PM, Bahadur RP (julio de 2012). "Un punto de referencia de acoplamiento proteína-ARN (I): casos no redundantes". Proteins . 80 (7): 1866–71. doi :10.1002/prot.24083. PMID 22488669. S2CID 437472.
^ Pérez-Cano L, Jiménez-García B, Fernández-Recio J (julio de 2012). "Un modelo de acoplamiento proteína-ARN (II): conjunto extendido a partir de datos experimentales y de modelado de homología". Proteins . 80 (7): 1872–82. doi :10.1002/prot.24075. PMID 22488990. S2CID 20322388.
^ Nithin C, Mukherjee S, Bahadur RP (noviembre de 2016). "Versión 2.0 de un modelo de referencia de acoplamiento proteína-ARN no redundante". Proteins . 85 (2): 256–267. doi :10.1002/prot.25211. PMID 27862282. S2CID 26814049.
^ Nithin, Chandran; Ghosh, Pritha; Bujnicki, Janusz; Nithin, Chandran; Ghosh, Pritha; Bujnicki, Janusz M. (25 de agosto de 2018). "Herramientas bioinformáticas y puntos de referencia para el acoplamiento computacional y la predicción de la estructura 3D de complejos ARN-proteína". Genes . 9 (9): 432. doi : 10.3390/genes9090432 . PMC 6162694 . PMID 30149645.
^ ab Kastritis PL, Moal IH, Hwang H, Weng Z, Bates PA, Bonvin AM, Janin J (marzo de 2011). "Un punto de referencia basado en la estructura para la afinidad de unión proteína-proteína". Protein Science . 20 (3): 482–491. doi :10.1002/pro.580. PMC 3064828 . PMID 21213247.
^ Janin J, Henrick K, Moult J, Eyck LT, Sternberg MJ, Vajda S, Vakser I, Wodak SJ (2003). "CAPRI: una evaluación crítica de interacciones predichas". Proteínas . 52 (1): 2–9. CiteSeerX 10.1.1.461.3355 . doi :10.1002/prot.10381. PMID 12784359. S2CID 31489448.