El acoplamiento macromolecular es el modelado computacional de la estructura cuaternaria de complejos formados por dos o más macromoléculas biológicas en interacción . Los complejos proteína -proteína son los objetivos más comúnmente intentados para dicho modelado, seguidos por los complejos proteína- ácido nucleico . [1]
El objetivo final del acoplamiento es predecir la estructura tridimensional del complejo macromolecular de interés tal como se daría en un organismo vivo. El acoplamiento en sí solo produce estructuras candidatas plausibles. Estas estructuras candidatas deben clasificarse utilizando métodos como funciones de puntuación para identificar las estructuras que tienen más probabilidades de darse en la naturaleza.
El término "acoplamiento" se originó a fines de la década de 1970, con un significado más restringido; en ese entonces, "acoplamiento" significaba refinar un modelo de una estructura compleja optimizando la separación entre los interactuantes pero manteniendo fijas sus orientaciones relativas. Más tarde, se permitió que las orientaciones relativas de los socios interactuantes en el modelado variaran, pero la geometría interna de cada uno de los socios se mantuvo fija. Este tipo de modelado a veces se denomina "acoplamiento rígido". Con mayores aumentos en la potencia computacional, se hizo posible modelar cambios en la geometría interna de los socios interactuantes que pueden ocurrir cuando se forma un complejo. Este tipo de modelado se conoce como "acoplamiento flexible".
Las funciones biológicas de la mayoría de las proteínas, caracterizadas por las otras macromoléculas con las que interactúan , se conocen en el mejor de los casos de manera incompleta. Incluso aquellas proteínas que participan en un proceso biológico bien estudiado (por ejemplo, el ciclo de Krebs ) pueden tener socios de interacción inesperados o funciones que no están relacionadas con ese proceso.
En los casos en que se conocen interacciones proteína-proteína, surgen otras preguntas. Se sabe que las enfermedades genéticas (por ejemplo, la fibrosis quística ) son causadas por proteínas mal plegadas o mutadas , y existe el deseo de comprender qué interacciones proteína-proteína anómalas (si las hay) puede causar una mutación determinada. En un futuro lejano, es posible que se diseñen proteínas para que realicen funciones biológicas, y será esencial determinar las interacciones potenciales de dichas proteínas.
Para cualquier conjunto dado de proteínas, las siguientes preguntas pueden ser de interés, desde el punto de vista de la tecnología o de la historia natural:
Si se unen,
Si no se vinculan,
En última instancia, se prevé que el acoplamiento proteína-proteína resuelva todos estos problemas. Además, dado que los métodos de acoplamiento pueden basarse en principios puramente físicos , incluso proteínas de función desconocida (o que se han estudiado relativamente poco) pueden acoplarse. El único requisito previo es que su estructura molecular se haya determinado experimentalmente o se pueda estimar mediante una técnica de predicción de la estructura de proteínas .
Las interacciones proteína-ácido nucleico ocupan un lugar destacado en la célula viva. Los factores de transcripción , que regulan la expresión génica , y las polimerasas , que catalizan la replicación , están compuestos de proteínas, y el material genético con el que interactúan está compuesto de ácidos nucleicos. El modelado de complejos proteína-ácido nucleico presenta algunos desafíos únicos, como se describe a continuación.
En la década de 1970, el modelado complejo giraba en torno a la identificación manual de características en las superficies de los interactores y la interpretación de las consecuencias para la unión, la función y la actividad; los programas informáticos se utilizaban normalmente al final del proceso de modelado, para discriminar entre las relativamente pocas configuraciones que quedaban después de que se hubieran impuesto todas las restricciones heurísticas. El primer uso de las computadoras fue en un estudio sobre la interacción de la hemoglobina en las fibras de células falciformes . [2] A esto le siguió en 1978 un trabajo sobre el complejo tripsina - BPTI . [3] Las computadoras discriminaban entre modelos buenos y malos utilizando una función de puntuación que recompensaba el área de interfaz grande y los pares de moléculas en contacto pero que no ocupaban el mismo espacio. La computadora utilizaba una representación simplificada de las proteínas interactuantes, con un centro de interacción para cada residuo. Las interacciones electrostáticas favorables , incluidos los enlaces de hidrógeno , se identificaban a mano. [4]
A principios de los años 1990, se determinaron más estructuras de complejos y la potencia computacional disponible había aumentado sustancialmente. Con la aparición de la bioinformática , el enfoque se trasladó al desarrollo de técnicas generalizadas que pudieran aplicarse a un conjunto arbitrario de complejos con un costo computacional aceptable. Se concibió que los nuevos métodos se aplicarían incluso en ausencia de pistas filogenéticas o experimentales; cualquier conocimiento previo específico aún podría introducirse en la etapa de elección entre los modelos de salida de mayor rango, o enmarcarse como entrada si el algoritmo lo contemplaba. En 1992 se publicó el método de correlación [5] , un algoritmo que utilizaba la transformada rápida de Fourier para brindar una escalabilidad enormemente mejorada para evaluar la complementariedad de forma gruesa en modelos de cuerpo rígido. Esto se amplió en 1997 para cubrir la electrostática gruesa. [6]
En 1996 se publicaron los resultados del primer ensayo a ciegas [7] , en el que seis grupos de investigación intentaron predecir la estructura compleja de la beta-lactamasa TEM-1 con la proteína inhibidora de la beta-lactamasa (BLIP). El ejercicio puso de relieve la necesidad de acomodar el cambio conformacional y la dificultad de discriminar entre conformadores. También sirvió como prototipo para la serie de evaluación CAPRI, que debutó en 2001. [ cita requerida ]
Si los ángulos de enlace, las longitudes de enlace y los ángulos de torsión de los componentes no se modifican en ninguna etapa de la generación del complejo, se conoce como acoplamiento de cuerpo rígido . Un tema de especulación es si el acoplamiento de cuerpo rígido es suficientemente bueno para la mayoría de los acoplamientos. Cuando se produce un cambio conformacional sustancial dentro de los componentes en el momento de la formación del complejo, el acoplamiento de cuerpo rígido es inadecuado. Sin embargo, puntuar todos los posibles cambios conformacionales es prohibitivamente costoso en tiempo de computadora. Los procedimientos de acoplamiento que permiten el cambio conformacional, o procedimientos de acoplamiento flexible , deben seleccionar inteligentemente un pequeño subconjunto de posibles cambios conformacionales para su consideración.
Para que el acoplamiento sea exitoso se requieren dos criterios:
En muchas interacciones, se conoce el sitio de unión en una o más de las proteínas que se van a acoplar. Este es el caso de los anticuerpos y de los inhibidores competitivos . En otros casos, la evidencia mutagénica o filogenética puede sugerir firmemente un sitio de unión . Las configuraciones en las que las proteínas se interpenetran intensamente también pueden descartarse a priori .
Después de hacer las exclusiones basadas en el conocimiento previo o en el choque estereoquímico , el espacio restante de posibles estructuras complejadas debe muestrearse de manera exhaustiva, uniforme y con una cobertura suficiente para garantizar un resultado casi correcto. Cada configuración debe puntuar con una medida que sea capaz de clasificar una estructura casi correcta por encima de al menos 100.000 alternativas. Esta es una tarea que requiere un gran esfuerzo computacional y se han desarrollado diversas estrategias.
Cada una de las proteínas puede representarse como una red cúbica simple. Entonces, para la clase de puntuaciones que son convoluciones discretas , las configuraciones relacionadas entre sí por la traducción de una proteína por un vector de red exacto pueden calificarse casi simultáneamente aplicando el teorema de convolución . [5] Es posible construir funciones de puntuación similares a las de las convoluciones razonables, aunque aproximadas, que representen tanto la aptitud estereoquímica como la electrostática.
Los métodos de espacio recíproco se han utilizado ampliamente por su capacidad de evaluar enormes cantidades de configuraciones. Pierden su ventaja de velocidad si se introducen cambios torsionales. Otro inconveniente es que es imposible hacer un uso eficiente del conocimiento previo. También queda la pregunta de si las convoluciones son una clase de función de puntuación demasiado limitada para identificar el mejor complejo de manera confiable.
En Monte Carlo , una configuración inicial se refina tomando pasos aleatorios que se aceptan o rechazan en función de la mejora inducida en la puntuación (véase el criterio de Metropolis ), hasta que se haya intentado una cierta cantidad de pasos. Se supone que la convergencia a la mejor estructura debería ocurrir a partir de una gran clase de configuraciones iniciales, de las cuales solo se debe considerar una. Las configuraciones iniciales se pueden muestrear de forma aproximada y se puede ahorrar mucho tiempo de cálculo. Debido a la dificultad de encontrar una función de puntuación que sea altamente discriminante para la configuración correcta y que también converja a la configuración correcta desde la distancia, se ha propuesto el uso de dos niveles de refinamiento, con diferentes funciones de puntuación. [8] La torsión se puede introducir de forma natural en Monte Carlo como una propiedad adicional de cada movimiento aleatorio.
No se garantiza que los métodos de Monte Carlo realicen una búsqueda exhaustiva, por lo que es posible que no se encuentre la mejor configuración incluso si se utiliza una función de puntuación que, en teoría, la identificaría. No se ha determinado con certeza hasta qué punto esto supone un problema para el acoplamiento.
Para encontrar una puntuación que sirva de base coherente para seleccionar la mejor configuración, se realizan estudios sobre un parámetro estándar (véase más abajo) de casos de interacción proteína-proteína. Las funciones de puntuación se evalúan en función del rango que asignan a la mejor estructura (lo ideal sería que la mejor estructura tuviera el primer puesto) y de su cobertura (la proporción de casos de referencia para los que obtienen un resultado aceptable). Los tipos de puntuaciones estudiados incluyen:
Es habitual crear puntuaciones híbridas combinando una o más categorías anteriores en una suma ponderada cuyos pesos se optimizan en casos del punto de referencia. Para evitar sesgos, los casos de referencia utilizados para optimizar los pesos no deben superponerse con los casos utilizados para realizar la prueba final de la puntuación.
El objetivo final en el acoplamiento proteína-proteína es seleccionar la solución de clasificación ideal según un esquema de puntuación que también daría una idea de la afinidad del complejo. Tal desarrollo impulsaría la ingeniería de proteínas in silico , el diseño de fármacos asistido por computadora y/o la anotación de alto rendimiento de qué proteínas se unen o no (anotación del interactoma ). Se han propuesto varias funciones de puntuación para la predicción de la afinidad de unión / energía libre. [8] [9] [10] [11] [12] Sin embargo, se ha encontrado que la correlación entre las afinidades de unión determinadas experimentalmente y las predicciones de nueve funciones de puntuación comúnmente utilizadas son casi ortogonales (R 2 ~ 0). [13] También se observó que algunos componentes de los algoritmos de puntuación pueden mostrar una mejor correlación con las energías de unión experimentales que la puntuación completa, lo que sugiere que se podría obtener un rendimiento significativamente mejor combinando las contribuciones apropiadas de diferentes algoritmos de puntuación. Los métodos experimentales para la determinación de las afinidades de unión son: resonancia de plasmón superficial (SPR), transferencia de energía por resonancia de Förster , técnicas basadas en radioligandos , calorimetría de titulación isotérmica (ITC), termoforesis a microescala (MST) o mediciones espectroscópicas y otras técnicas de fluorescencia. La información textual de artículos científicos puede proporcionar pistas útiles para la puntuación. [14]
Se ha desarrollado un conjunto de 84 interacciones proteína-proteína con estructuras complejadas conocidas para probar métodos de acoplamiento. [15] El conjunto se ha elegido para cubrir una amplia gama de tipos de interacción y para evitar características repetidas, como el perfil de las familias estructurales de los interactores según la base de datos SCOP . Los elementos de referencia se clasifican en tres niveles de dificultad (el más difícil contiene el cambio más grande en la conformación de la estructura principal). El conjunto de referencia de acoplamiento proteína-proteína contiene ejemplos de complejos enzima-inhibidor, antígeno-anticuerpo y homomultiméricos.
La última versión del benchmark de acoplamiento proteína-proteína consta de 230 complejos. [16] Un benchmark de acoplamiento proteína-ADN consta de 47 casos de prueba. [17] Un benchmark de acoplamiento proteína-ARN fue curado como un conjunto de datos de 45 casos de prueba no redundantes [18] con complejos resueltos solo por cristalografía de rayos X , así como un conjunto de datos extendido de 71 casos de prueba con estructuras derivadas del modelado de homología también. [19] El benchmark proteína-ARN se ha actualizado para incluir más estructuras resueltas por cristalografía de rayos X y ahora consta de 126 casos de prueba. [20] Los benchmarks tienen un conjunto de datos combinado de 209 complejos. [21]
Se ha elaborado un parámetro de afinidad de unión basado en el parámetro de acoplamiento proteína-proteína. [13] Se incluyen 81 complejos proteína-proteína con afinidades experimentales conocidas; estos complejos abarcan más de 11 órdenes de magnitud en términos de afinidad. Cada entrada del parámetro incluye varios parámetros bioquímicos asociados con los datos experimentales, junto con el método utilizado para determinar la afinidad. Este parámetro se utilizó para evaluar hasta qué punto las funciones de puntuación también podían predecir las afinidades de los complejos macromoleculares.
Este punto de referencia fue revisado por pares posteriormente y se amplió significativamente. [22] El nuevo conjunto es diverso en términos de las funciones biológicas que representa, con complejos que involucran proteínas G y dominios extracelulares de receptores, así como complejos antígeno/anticuerpo, enzima/inhibidor y enzima/sustrato. También es diverso en términos de la afinidad de los socios entre sí, con K d que varía entre 10 −5 y 10 −14 M. Nueve pares de entradas representan complejos estrechamente relacionados que tienen una estructura similar, pero una afinidad muy diferente, cada par comprende un ensamblaje cognado y uno no cognado. Al estar disponibles las estructuras no unidas de las proteínas componentes, se pueden evaluar los cambios de conformación. Son significativos en la mayoría de los complejos, y con frecuencia se observan grandes movimientos o transiciones de desorden a orden. El conjunto puede utilizarse para evaluar modelos biofísicos que buscan relacionar la afinidad con la estructura en las interacciones proteína-proteína, teniendo en cuenta los reactantes y los cambios de conformación que acompañan la reacción de asociación, en lugar de solo el producto final. [22]
La evaluación crítica de la predicción de interacciones [23] es una serie de eventos en curso en los que los investigadores de toda la comunidad intentan acoplar las mismas proteínas, según lo proporcionado por los evaluadores. Las rondas se llevan a cabo aproximadamente cada 6 meses. Cada ronda contiene entre uno y seis complejos proteína-proteína objetivo cuyas estructuras se han determinado recientemente de manera experimental. Las coordenadas y se mantienen en privado por los evaluadores, con la cooperación de los biólogos estructurales que las determinaron. La evaluación de las presentaciones es doble ciego .
CAPRI atrae un alto nivel de participación (37 grupos participaron en todo el mundo en la séptima ronda) y un alto nivel de interés de la comunidad biológica en general. Aunque los resultados de CAPRI tienen poca importancia estadística debido al pequeño número de objetivos en cada ronda, el papel de CAPRI en la estimulación del debate es significativo. (La evaluación CASP es un ejercicio similar en el campo de la predicción de la estructura de las proteínas).