Los modelos gráficos se han convertido en potentes marcos para la predicción de la estructura de proteínas , la interacción proteína-proteína y los cálculos de energía libre para las estructuras de proteínas. El uso de un modelo gráfico para representar la estructura de proteínas permite la solución de muchos problemas, incluida la predicción de la estructura secundaria, las interacciones proteína-proteína, la interacción proteína-fármaco y los cálculos de energía libre.
Existen dos enfoques principales para utilizar modelos gráficos en el modelado de la estructura de proteínas. El primer enfoque utiliza variables discretas para representar las coordenadas o los ángulos diedros de la estructura de la proteína. Las variables son originalmente todas valores continuos y, para transformarlas en valores discretos, se aplica típicamente un proceso de discretización. El segundo enfoque utiliza variables continuas para las coordenadas o los ángulos diedros.
Los campos aleatorios de Markov , también conocidos como modelos gráficos no dirigidos, son representaciones comunes para este problema. Dado un grafo no dirigido G = ( V , E ), un conjunto de variables aleatorias X = ( X v ) v ∈ V indexadas por V , forman un campo aleatorio de Markov con respecto a G si satisfacen la propiedad de Markov por pares:
En el modelo discreto, las variables continuas se discretizan en un conjunto de valores discretos favorables. Si las variables elegidas son ángulos diedros , la discretización se realiza normalmente asignando cada valor a la conformación del rotámero correspondiente .
Sea X = { X b , X s } la variable aleatoria que representa la estructura completa de la proteína. X b puede representarse mediante un conjunto de coordenadas tridimensionales de los átomos de la cadena principal o, equivalentemente, mediante una secuencia de longitudes de enlace y ángulos diedros . La probabilidad de una conformación particular x puede entonces escribirse como:
donde representa cualquier parámetro utilizado para describir este modelo, incluida la información de la secuencia, la temperatura, etc. Con frecuencia, se supone que la estructura principal es rígida con una conformación conocida y, luego, el problema se transforma en un problema de colocación de cadenas laterales. La estructura del gráfico también está codificada en . Esta estructura muestra qué dos variables son condicionalmente independientes. Como ejemplo, los ángulos de la cadena lateral de dos residuos muy separados pueden ser independientes dados todos los demás ángulos en la proteína. Para extraer esta estructura, los investigadores utilizan un umbral de distancia y solo un par de residuos que están dentro de ese umbral se consideran conectados (es decir, tienen un borde entre ellos).
Dada esta representación, la probabilidad de una conformación particular de la cadena lateral x s dada la conformación de la cadena principal x b se puede expresar como
donde C ( G ) es el conjunto de todas las camarillas en G , es una función potencial definida sobre las variables, y Z es la función de partición .
Para caracterizar completamente la MRF, es necesario definir la función potencial . Para simplificar, las camarillas de un grafo suelen estar restringidas únicamente a las camarillas de tamaño 2, lo que significa que la función potencial solo se define sobre pares de variables. En el sistema Goblin, estas funciones por pares se definen como
donde es la energía de interacción entre el estado de rotámero p del residuo y el estado de rotámero q del residuo y es la constante de Boltzmann .
Utilizando un archivo PDB, se puede construir este modelo sobre la estructura de la proteína. A partir de este modelo, se puede calcular la energía libre.
Se ha demostrado que la energía libre de un sistema se calcula como
donde E es la entalpía del sistema, T la temperatura y S la entropía. Ahora bien, si asociamos una probabilidad a cada estado del sistema (p(x) para cada valor de conformación, x), G puede reescribirse como
El cálculo de p(x) en grafos discretos se realiza mediante el algoritmo de propagación de creencias generalizadas . Este algoritmo calcula una aproximación a las probabilidades y no garantiza que converja a un conjunto de valores finales. Sin embargo, en la práctica, se ha demostrado que converge con éxito en muchos casos.
Los modelos gráficos también se pueden utilizar cuando las variables elegidas son continuas. En estos casos, la distribución de probabilidad se representa como una distribución de probabilidad multivariada sobre variables continuas. Cada familia de distribución impondrá entonces ciertas propiedades al modelo gráfico. La distribución gaussiana multivariada es una de las distribuciones más convenientes en este problema. La forma simple de la probabilidad y la relación directa con el modelo gráfico correspondiente la convierten en una opción popular entre los investigadores.
Los modelos gráficos gaussianos son distribuciones de probabilidad multivariadas que codifican una red de dependencias entre variables. Sea un conjunto de variables, como los ángulos diedros , y sea el valor de la función de densidad de probabilidad en un valor particular D . Un modelo gráfico gaussiano multivariado define esta probabilidad de la siguiente manera:
Donde es la forma cerrada de la función de partición . Los parámetros de esta distribución son y . es el vector de valores medios de cada variable, y , la inversa de la matriz de covarianza , también conocida como matriz de precisión . La matriz de precisión contiene las dependencias por pares entre las variables. Un valor cero en significa que, condicionado a los valores de las otras variables, las dos variables correspondientes son independientes entre sí.
Para aprender la estructura del grafo como un modelo gráfico gaussiano multivariante, podemos usar la regularización L-1 o algoritmos de selección de vecindad. Estos algoritmos aprenden simultáneamente una estructura de grafo y la fuerza de borde de los nodos conectados. La fuerza de borde corresponde a la función potencial definida en la clique de dos nodos correspondiente . Usamos un conjunto de entrenamiento de varias estructuras PDB para aprender y .
Una vez aprendido el modelo, podemos repetir el mismo paso que en el caso discreto, para obtener las funciones de densidad en cada nodo, y utilizar la forma analítica para calcular la energía libre. Aquí, la función de partición ya tiene una forma cerrada , por lo que la inferencia , al menos para los modelos gráficos gaussianos, es trivial. Si la forma analítica de la función de partición no está disponible, se puede utilizar el filtrado de partículas o la propagación de expectativas para aproximar Z y, luego, realizar la inferencia y calcular la energía libre.