Potencial estadístico

Ejemplo de pseudopotencial interatómico , entre carbonos β de residuos de isoleucina y valina, generado mediante el uso de MyPMFs. ^[1]

En la predicción de la estructura de proteínas , los potenciales estadísticos o potenciales basados en el conocimiento son funciones de puntuación derivadas de un análisis de estructuras de proteínas conocidas en el Banco de Datos de Proteínas (PDB).

El método original para obtener tales potenciales es la aproximación cuasiquímica , debido a Miyazawa y Jernigan. ^[2] Posteriormente fue seguido por el potencial de fuerza media (PMF estadístico ^{[Nota 1]} ), desarrollado por Sippl. ^[3] Aunque los valores obtenidos a menudo se consideran como aproximaciones de la energía libre —por lo que se denominan pseudoenergías— esta interpretación física es incorrecta. ^[4]^[5] Sin embargo, se aplican con éxito en muchos casos, porque con frecuencia se correlacionan con las diferencias reales de energía libre de Gibbs . ^[6]

Descripción general

Las posibles características a las que se puede asignar una pseudoenergía incluyen:

La aplicación clásica, sin embargo, se basa en contactos o distancias de aminoácidos por pares , produciendo así potenciales interatómicos estadísticos . Para los contactos de aminoácidos por pares, se formula un potencial estadístico como una matriz de interacción que asigna un peso o valor de energía a cada par posible de aminoácidos estándar . La energía de un modelo estructural particular es entonces la energía combinada de todos los contactos por pares (definidos como dos aminoácidos dentro de una cierta distancia entre sí) en la estructura. Las energías se determinan utilizando estadísticas sobre los contactos de aminoácidos en una base de datos de estructuras de proteínas conocidas (obtenidas del PDB ).

Historia

Desarrollo inicial

Muchos libros de texto presentan los PMF estadísticos propuestos por Sippl ^[3] como una simple consecuencia de la distribución de Boltzmann , aplicada a distancias por pares entre aminoácidos. Esto es incorrecto, pero es un comienzo útil para introducir la construcción del potencial en la práctica. La distribución de Boltzmann aplicada a un par específico de aminoácidos, viene dada por:

P(r\right)={\frac {1}{Z}}e^{-{\frac {F(r\right)}{kT}}}

donde es la distancia, es la constante de Boltzmann , es la temperatura y es la función de partición , con ${\estilo de visualización r}$ ${\estilo de visualización k}$ ${\estilo de visualización T}$ ${\estilo de visualización Z}$

Z=\int e^{-{\frac {F(r)}{kT}}}dr

La cantidad es la energía libre asignada al sistema por pares. Una simple reorganización da como resultado la fórmula inversa de Boltzmann , que expresa la energía libre como una función de : $F(r)$ $F(r)$ $P(r)$

F(r)=-kT\ln P(r)-kT\ln Z

Para construir un PMF, se introduce un llamado estado de referencia con una función de distribución y partición correspondiente , y se calcula la siguiente diferencia de energía libre: $Estilo de visualización Q_{R}$ $Estilo de visualización Z_ {R}}$

\Delta F(r)=-kT\ln {\frac {P(r)}{Q_{R}(r)}}-kT\ln {\frac {Z}{Z_{R}}}

El estado de referencia suele ser el resultado de un sistema hipotético en el que no existen interacciones específicas entre los aminoácidos. El segundo término que implica y puede ignorarse, ya que es una constante. ${\estilo de visualización Z}$ $Estilo de visualización Z_ {R}}$

En la práctica, se estima a partir de la base de datos de estructuras proteínicas conocidas, mientras que normalmente resulta de cálculos o simulaciones. Por ejemplo, podría ser la probabilidad condicional de encontrar los átomos de una valina y una serina a una distancia dada entre sí, lo que da lugar a la diferencia de energía libre . Se afirma entonces que la diferencia de energía libre total de una proteína, , es la suma de todas las energías libres por pares: $P(r)$ $Estilo de visualización Q_{R}(r)}$ $P(r)$ ${\estilo de visualización C\beta}$ ${\estilo de visualización r}$ $\Delta F$ $\Delta F_{\textrm {T}}$

$\Delta F_{\textrm {T}}=\sum _{i<j}\Delta F(r_{ij}\mid a_{i},a_{j})=-kT\sum _{i<j}\ln {\frac {P\left(r_{ij}\mid a_{i},a_{j}\right)}{Q_{R}\left(r_{ij}\mid a_{i},a_{j}\right)}}$

donde la suma se aplica a todos los pares de aminoácidos (con ) y es su distancia correspondiente. En muchos estudios no depende de la secuencia de aminoácidos . ^[7] $Estilo de visualización ai, aj$ $i<j$ $estilo de visualización r_ {ij}}$ $Estilo de visualización Q_{R}$

Cuestiones conceptuales

Intuitivamente, resulta claro que un valor bajo de indica que el conjunto de distancias en una estructura es más probable en proteínas que en el estado de referencia. Sin embargo, el significado físico de estos PMF estadísticos ha sido ampliamente discutido desde su introducción. ^[4]^[5]^[8]^[9] Los principales problemas son: $\Delta F_{\textrm {T}}$

La interpretación errónea de este "potencial" como un potencial verdadero y físicamente válido de fuerza media ;
La naturaleza del llamado estado de referencia y su formulación óptima;
La validez de las generalizaciones más allá de las distancias entre pares.

Analogía controvertida

En respuesta a la cuestión relativa a la validez física, la primera justificación de las FMP estadísticas fue intentada por Sippl. ^[10] Se basó en una analogía con la física estadística de líquidos. Para los líquidos, el potencial de fuerza media está relacionado con la función de distribución radial , que viene dada por: ^[11] $g(r)$

g(r)={\frac {P(r)}{Q_{R}(r)}}

donde y son las probabilidades respectivas de encontrar dos partículas a distancia una de otra en el líquido y en el estado de referencia. Para los líquidos, el estado de referencia está claramente definido; corresponde al gas ideal, que consiste en partículas que no interactúan. El potencial de dos partículas de fuerza media está relacionado con por: $P(r)$ $Estilo de visualización Q_{R}(r)}$ ${\estilo de visualización r}$ $W(r)$ $g(r)$

W(r)=-kT\log g(r)=-kT\log {\frac {P(r)}{Q_{R}(r)}}

Según el teorema del trabajo reversible, el potencial de fuerza media de dos partículas es el trabajo reversible necesario para llevar dos partículas en el líquido desde una separación infinita a una distancia entre sí. ^[11] $W(r)$ ${\estilo de visualización r}$

Sippl justificó el uso de los PMF estadísticos (unos años después de que los introdujera para su uso en la predicción de la estructura de proteínas) apelando a la analogía con el teorema del trabajo reversible para líquidos. En el caso de los líquidos, se puede medir experimentalmente utilizando la dispersión de rayos X de ángulo pequeño ; en el caso de las proteínas, se obtiene a partir del conjunto de estructuras proteínicas conocidas, como se explicó en la sección anterior. Sin embargo, como escribió Ben-Naim en una publicación sobre el tema: ^[5] $g(r)$ $P(r)$

[...] las cantidades, denominadas "potenciales estadísticos", "potenciales basados en la estructura" o "potenciales de pares de fuerza media", tal como se derivan del banco de datos de proteínas (PDB), no son "potenciales" ni "potenciales de fuerza media", en el sentido ordinario tal como se utiliza en la literatura sobre líquidos y soluciones.

Además, esta analogía no resuelve el problema de cómo especificar un estado de referencia adecuado para las proteínas.

Aprendizaje automático

A mediados de la década de 2000, los autores comenzaron a combinar múltiples potenciales estadísticos, derivados de diferentes características estructurales, en puntuaciones compuestas . ^[12] Para ese propósito, utilizaron técnicas de aprendizaje automático , como máquinas de vectores de soporte (SVM). Las redes neuronales probabilísticas (PNN) también se han aplicado para el entrenamiento de un potencial estadístico dependiente de la distancia y específico de la posición. ^[13] En 2016, el laboratorio de investigación de inteligencia artificial DeepMind comenzó a aplicar técnicas de aprendizaje profundo al desarrollo de un potencial estadístico dependiente de la torsión y la distancia. ^[14] El método resultante, llamado AlphaFold , ganó la 13.ª Evaluación crítica de técnicas para la predicción de la estructura de proteínas (CASP) al predecir correctamente la estructura más precisa para 25 de los 43 dominios de modelado libres .

Explicación

Probabilidad bayesiana

Baker y colaboradores ^[15] justificaron los PMF estadísticos desde un punto de vista bayesiano y utilizaron estos conocimientos en la construcción de la función de energía de grano grueso ROSETTA . Según el cálculo de probabilidad bayesiano , la probabilidad condicional de una estructura , dada la secuencia de aminoácidos , se puede escribir como: $P(X\mid A)$ ${\estilo de visualización X}$ ${\estilo de visualización A}$

P(X\mid A\right)={\frac {P(A\mid X\right)P(X\right)}{P(A\right)}}\propto P(A\mid X\right)P(X\right)

$P(X\mid A)$ es proporcional al producto de la probabilidad por la probabilidad anterior . Suponiendo que la probabilidad se puede aproximar como un producto de probabilidades por pares y aplicando el teorema de Bayes , la probabilidad se puede escribir como: $P\izquierda(A\mid X\derecha)$ $P\izquierda(X\derecha)$

$P\left(A\mid X\right)\approx \prod _{i<j}P\left(a_{i},a_{j}\mid r_{ij}\right)\propto \prod _{i<j}{\frac {P\left(r_{ij}\mid a_{i},a_{j}\right)}{P(r_{ij})}}$

donde el producto se aplica a todos los pares de aminoácidos (con ), y es la distancia entre los aminoácidos y . Obviamente, el negativo del logaritmo de la expresión tiene la misma forma funcional que los PMF estadísticos de distancia por pares clásicos, donde el denominador desempeña el papel del estado de referencia. Esta explicación tiene dos deficiencias: se basa en la suposición infundada de que la probabilidad se puede expresar como un producto de probabilidades por pares, y es puramente cualitativa . $a_{i},a_{j}$ $i<j$ $r_{ij}$ $i$ $j$

Cinemática de probabilidad

Hamelryck y colaboradores ^[6] posteriormente dieron una explicación cuantitativa de los potenciales estadísticos, según la cual se aproximan a una forma de razonamiento probabilístico debida a Richard Jeffrey y denominada cinemática de probabilidad . Esta variante del pensamiento bayesiano (a veces llamada " condicionamiento de Jeffrey ") permite actualizar una distribución previa basándose en nueva información sobre las probabilidades de los elementos de una partición con el apoyo de la previa. Desde este punto de vista, (i) no es necesario asumir que la base de datos de estructuras de proteínas —utilizada para construir los potenciales— sigue una distribución de Boltzmann, (ii) los potenciales estadísticos se generalizan fácilmente más allá de las diferencias por pares, y (iii) la relación de referencia está determinada por la distribución previa.

Relación de referencia

Expresiones que se asemejan a los PMF estadísticos resultan naturalmente de la aplicación de la teoría de probabilidad para resolver un problema fundamental que surge en la predicción de la estructura de proteínas: cómo mejorar una distribución de probabilidad imperfecta sobre una primera variable usando una distribución de probabilidad sobre una segunda variable , con . ^[6] Normalmente, y son variables de grano fino y grueso, respectivamente. Por ejemplo, podría referirse a la estructura local de la proteína, mientras que podría referirse a las distancias por pares entre los aminoácidos. En ese caso, podría ser, por ejemplo, un vector de ángulos diedros que especifica todas las posiciones de los átomos (asumiendo longitudes y ángulos de enlace ideales). Para combinar las dos distribuciones, de modo que la estructura local se distribuya de acuerdo con , mientras que las distancias por pares se distribuyan de acuerdo con , se necesita la siguiente expresión: $Q(X)$ $X$ $P(Y)$ $Y$ $Y=f(X)$ $X$ $Y$ $Q(X)$ $P(Y)$ $X$ $Q(X)$ $P(Y)$

P(X,Y)={\frac {P(Y)}{Q(Y)}}Q(X)

donde es la distribución sobre lo que implica . La razón en la expresión corresponde al PMF. Normalmente, se obtiene mediante muestreo (normalmente de una biblioteca de fragmentos) y no se evalúa explícitamente; la razón, que en contraste se evalúa explícitamente, corresponde al PMF de Sippl. Esta explicación es cuantitativa y permite la generalización de los PMF estadísticos desde distancias por pares a variables arbitrarias de grano grueso. También proporciona una definición rigurosa del estado de referencia, que está implícito en . Las aplicaciones convencionales de los PMF estadísticos de distancia por pares suelen carecer de dos características necesarias para que sean completamente rigurosas: el uso de una distribución de probabilidad adecuada sobre distancias por pares en proteínas y el reconocimiento de que el estado de referencia está definido rigurosamente por . $Q(Y)$ $Y$ $Q(X)$ $Q(X)$ $Q(X)$ $Q(X)$

Aplicaciones

Los potenciales estadísticos se utilizan como funciones de energía en la evaluación de un conjunto de modelos estructurales producidos por modelado de homología o enhebrado de proteínas . Se ha demostrado que muchos potenciales estadísticos parametrizados de forma diferente identifican con éxito la estructura del estado nativo a partir de un conjunto de estructuras señuelo o no nativas. ^[16] Los potenciales estadísticos no solo se utilizan para la predicción de la estructura de proteínas , sino también para modelar la vía de plegamiento de proteínas . ^[17]^[18]

Véase también

Notas

^ No debe confundirse con el PMF real .

Referencias

^ Postic, Guillaume; Hamelryck, Thomas; Chomilier, Jacques; Stratmann, Dirk (2018). "MyPMFs: una herramienta sencilla para crear potenciales estadísticos para evaluar modelos estructurales de proteínas". Biochimie . 151 : 37–41. doi :10.1016/j.biochi.2018.05.013. ISSN 0300-9084. PMID 29857183. S2CID 46923560.
^ Miyazawa S, Jernigan R (1985). "Estimación de energías efectivas de contacto entre residuos a partir de estructuras cristalinas de proteínas: aproximación cuasiquímica". Macromolecules . 18 (3): 534–552. Bibcode :1985MaMol..18..534M. CiteSeerX 10.1.1.206.715 . doi :10.1021/ma00145a039.
^ ab Sippl MJ (1990). "Cálculo de conjuntos conformacionales a partir de potenciales de fuerza media. Un enfoque para la predicción basada en el conocimiento de estructuras locales en proteínas globulares". J Mol Biol . 213 (4): 859–883. doi :10.1016/s0022-2836(05)80269-4. PMID 2359125.
^ ab Thomas PD, Dill KA (1996). "Potenciales estadísticos extraídos de estructuras proteínicas: ¿cuán precisos son?". J Mol Biol . 257 (2): 457–469. doi :10.1006/jmbi.1996.0175. PMID 8609636.
^ abc Ben-Naim A (1997). "Potenciales estadísticos extraídos de estructuras proteínicas: ¿son estos potenciales significativos?". J Chem Phys . 107 (9): 3698–3706. Bibcode :1997JChPh.107.3698B. doi :10.1063/1.474725.
^ abc Hamelryck T, Borg M, Paluszewski M, et al. (2010). Flower DR (ed.). "Potenciales de fuerza media para la predicción de la estructura de proteínas reivindicados, formalizados y generalizados". PLOS ONE . 5 (11): e13714. arXiv : 1008.4006 . Bibcode :2010PLoSO...513714H. doi : 10.1371/journal.pone.0013714 . PMC 2978081 . PMID 21103041.
^ Rooman M, Wodak S (1995). "¿Son válidos los potenciales derivados de bases de datos para medir el plegamiento de proteínas tanto hacia adelante como hacia atrás?". Protein Eng . 8 (9): 849–858. doi :10.1093/protein/8.9.849. PMID 8746722.
^ Koppensteiner WA, Sippl MJ (1998). "Potenciales basados en el conocimiento: de vuelta a las raíces". Bioquímica Mosc . 63 (3): 247–252. PMID 9526121.
^ Shortle D (2003). "Propensiones, probabilidades y la hipótesis de Boltzmann". Protein Sci . 12 (6): 1298–1302. doi :10.1110/ps.0306903. PMC 2323900 . PMID 12761401.
^ Sippl MJ, Ortner M, Jaritz M, Lackner P, Flockner H (1996). "Energías libres de Helmholtz de interacciones de pares de átomos en proteínas". Fold Des . 1 (4): 289–98. doi :10.1016/s1359-0278(96)00042-9. PMID 9079391.
^ ab Chandler D (1987) Introducción a la mecánica estadística moderna. Nueva York: Oxford University Press, EE. UU.
^ Eramian, David; Shen, Min‐yi; Devos, Damien; Melo, Francisco; Sali, Andrej; Marti-Renom, Marc (2006). "Una puntuación compuesta para predecir errores en modelos de estructura de proteínas". Protein Science . 15 (7): 1653–1666. doi :10.1110/ps.062095806. PMC 2242555 . PMID 16751606.
^ Zhao, Feng; Xu, Jinbo (2012). "Un potencial estadístico dependiente de la distancia y específico de la posición para el estudio funcional y estructural de proteínas". Structure . 20 (6): 1118–1126. doi :10.1016/j.str.2012.04.003. PMC 3372698 . PMID 22608968.
^ Senior AW, Evans R, Jumper J, et al. (2020). "Predicción mejorada de la estructura de proteínas utilizando potenciales de aprendizaje profundo" (PDF) . Nature . 577 (7792): 706–710. Bibcode :2020Natur.577..706S. doi :10.1038/s41586-019-1923-7. PMID 31942072. S2CID 210221987.
^ Simons KT, Kooperberg C, Huang E, Baker D (1997). "Ensamblaje de estructuras terciarias de proteínas a partir de fragmentos con secuencias locales similares utilizando funciones de puntuación bayesianas y de recocido simulado". J Mol Biol . 268 (1): 209–225. CiteSeerX 10.1.1.579.5647 . doi :10.1006/jmbi.1997.0959. PMID 9149153.
^ Lam SD, Das S, Sillitoe I, Orengo C (2017). "Una descripción general del modelado comparativo y los recursos dedicados al modelado a gran escala de secuencias genómicas". Acta Crystallogr D . 73 (8): 628–640. doi :10.1107/S2059798317008920. PMC 5571743 . PMID 28777078. {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Kmiecik S y Kolinski A (2007). "Caracterización de las vías de plegamiento de proteínas mediante modelado en espacio reducido". Proc. Natl. Sci. USA . 104 (30): 12330–12335. Bibcode :2007PNAS..10412330K. doi : 10.1073/pnas.0702265104 . PMC 1941469 . PMID 17636132.
^ Adhikari AN, Freed KF, Sosnick TR (2012). "Predicción de novo de las vías de plegamiento de proteínas y su estructura utilizando el principio de estabilización secuencial". Proc. Natl. Sci. USA . 109 (43): 17442–17447. Bibcode :2012PNAS..10917442A. doi : 10.1073/pnas.1209000109 . PMC 3491489 . PMID 23045636.