Predicción de la estructura de proteínas de novo

En biología computacional , la predicción de la estructura de proteínas de novo se refiere a un proceso algorítmico mediante el cual se predice la estructura terciaria de una proteína a partir de su secuencia primaria de aminoácidos . El problema en sí ha ocupado a los principales científicos durante décadas y aún permanece sin resolver. Según Science , el problema sigue siendo uno de los 125 problemas más importantes de la ciencia moderna. ^[1] En la actualidad, algunos de los métodos más exitosos tienen una probabilidad razonable de predecir los pliegues de proteínas pequeñas de un solo dominio dentro de 1,5 angstroms en toda la estructura. ^[2]

Los métodos de novo tienden a requerir vastos recursos computacionales y, por lo tanto, solo se han llevado a cabo para proteínas relativamente pequeñas. El modelado de la estructura de proteínas de novo se distingue del modelado basado en plantillas (TBM) por el hecho de que no se utiliza ningún homólogo resuelto de la proteína de interés, lo que dificulta enormemente los esfuerzos para predecir la estructura de la proteína a partir de la secuencia de aminoácidos. La predicción de la estructura de proteínas de novo para proteínas más grandes requerirá mejores algoritmos y mayores recursos computacionales, como los que ofrecen las supercomputadoras potentes (como Blue Gene o MDGRAPE-3) o los proyectos de computación distribuida (como Folding@home , Rosetta@home , el Proyecto de plegado del proteoma humano o Nutritious Rice for the World ). Aunque las barreras computacionales son enormes, los beneficios potenciales de la genómica estructural (por métodos predictivos o experimentales) para campos como la medicina y el diseño de fármacos hacen que la predicción de la estructura de novo sea un campo de investigación activo.

Fondo

En la actualidad, la brecha entre las secuencias de proteínas conocidas y las estructuras de proteínas confirmadas es inmensa. A principios de 2008, sólo alrededor del 1% de las secuencias listadas en la base de datos UniProtKB correspondían a estructuras del Protein Data Bank (PDB), lo que dejaba una brecha entre la secuencia y la estructura de aproximadamente cinco millones. ^[3] Las técnicas experimentales para determinar la estructura terciaria se han enfrentado a serios obstáculos en su capacidad para determinar las estructuras de proteínas particulares. Por ejemplo, mientras que la cristalografía de rayos X ha tenido éxito en la cristalización de aproximadamente 80.000 proteínas citosólicas, ha tenido mucho menos éxito en la cristalización de proteínas de membrana: aproximadamente 280. ^[4] A la luz de las limitaciones experimentales, se cree que diseñar programas informáticos eficientes para cerrar la brecha entre la secuencia conocida y la estructura es la única opción viable. ^[4]

Los métodos de predicción de la estructura de proteínas de novo intentan predecir estructuras terciarias a partir de secuencias basadas en principios generales que rigen la energía del plegamiento de proteínas y/o las tendencias estadísticas de las características conformacionales que adquieren las estructuras nativas, sin el uso de plantillas explícitas . La investigación sobre la predicción de la estructura de novo se ha centrado principalmente en tres áreas: representaciones alternativas de proteínas de menor resolución, funciones energéticas precisas y métodos de muestreo eficientes.

Un paradigma general para la predicción de novo implica el muestreo del espacio de conformación , guiado por funciones de puntuación y otros sesgos dependientes de la secuencia, de modo que se genere un gran conjunto de estructuras candidatas ("señuelo"). Luego, se seleccionan conformaciones similares a las nativas de estos señuelos utilizando funciones de puntuación, así como agrupamiento de confórmeros. El refinamiento de alta resolución a veces se utiliza como paso final para ajustar las estructuras similares a las nativas. Hay dos clases principales de funciones de puntuación. Las funciones basadas en la física se basan en modelos matemáticos que describen aspectos de la física conocida de la interacción molecular. Las funciones basadas en el conocimiento se forman con modelos estadísticos que capturan aspectos de las propiedades de las conformaciones de proteínas nativas. ^[5]

La secuencia de aminoácidos determina la estructura terciaria de la proteína

Se han presentado varias líneas de evidencia a favor de la noción de que la secuencia primaria de la proteína contiene toda la información requerida para la estructura proteica tridimensional global, haciendo posible la idea de una predicción de proteínas de novo. En primer lugar, las proteínas con diferentes funciones suelen tener diferentes secuencias de aminoácidos. En segundo lugar, varias enfermedades humanas diferentes, como la distrofia muscular de Duchenne , pueden estar relacionadas con la pérdida de la función de la proteína resultante de un cambio en un solo aminoácido en la secuencia primaria. En tercer lugar, las proteínas con funciones similares en muchas especies diferentes a menudo tienen secuencias de aminoácidos similares. La ubiquitina, por ejemplo, es una proteína involucrada en la regulación de la degradación de otras proteínas; su secuencia de aminoácidos es casi idéntica en especies tan distantes como Drosophila melanogaster y Homo sapiens . En cuarto lugar, mediante un experimento mental, se puede deducir que el plegamiento de proteínas no debe ser un proceso completamente aleatorio y que la información necesaria para el plegamiento debe estar codificada dentro de la estructura primaria. Por ejemplo, si suponemos que cada uno de los 100 residuos de aminoácidos de un polipéptido pequeño podría adoptar 10 conformaciones diferentes en promedio, lo que daría 10^100 conformaciones diferentes para el polipéptido, si se probara una conformación posible cada 10^-13 segundos, se necesitarían unos 10^77 años para muestrear todas las conformaciones posibles. Sin embargo, las proteínas se pliegan correctamente dentro del cuerpo en escalas de tiempo cortas todo el tiempo, lo que significa que el proceso no puede ser aleatorio y, por lo tanto, potencialmente puede modelarse.

Una de las líneas de evidencia más sólidas para la suposición de que toda la información relevante necesaria para codificar la estructura terciaria de la proteína se encuentra en la secuencia primaria fue demostrada en la década de 1950 por Christian Anfinsen . En un experimento clásico, demostró que la ribonucleasa A podía desnaturalizarse por completo sumergiéndola en una solución de urea (para romper los enlaces hidrofóbicos estabilizadores) en presencia de un agente reductor (para romper los enlaces disulfuro estabilizadores). Al retirar la proteína de este entorno, la proteína ribonucleasa desnaturalizada y sin función retrocedió espontáneamente y recuperó la función, lo que demuestra que la estructura terciaria de la proteína está codificada en la secuencia primaria de aminoácidos. Si la proteína se hubiera reformado aleatoriamente, podrían haberse formado más de cien combinaciones diferentes de cuatro enlaces disulfuro. Sin embargo, en la mayoría de los casos, las proteínas requerirán la presencia de chaperonas moleculares dentro de la célula para un plegamiento adecuado. La forma general de una proteína puede estar codificada en su estructura de aminoácidos, pero su plegamiento puede depender de chaperonas que ayuden en el plegamiento. ^[6]

Primaria a Terciaria
Estructura primaria de la artemina humana (Isoforma 1 [UniParc])
Estructura terciaria de la artemina humana (PDB: 2GYR) generada con PyMOL (Delano Scientific Freeware)

ExitosoDe nuevoRequisitos de modelado

Los predictores de conformación de novo suelen funcionar produciendo conformaciones candidatas (señuelos) y luego eligiendo entre ellas en función de su estabilidad termodinámica y estado energético. La mayoría de los predictores exitosos tendrán los siguientes tres factores en común:

1) Una función energética precisa que corresponde al estado termodinámicamente más estable con la estructura nativa de una proteína.

2) Un método de búsqueda eficiente capaz de identificar rápidamente estados de baja energía a través de la búsqueda conformacional

3) La capacidad de seleccionar modelos similares a los nativos a partir de una colección de estructuras señuelo ^[3]

Los programas de novo buscarán en el espacio tridimensional y, en el proceso, producirán conformaciones de proteínas candidatas. A medida que una proteína se acerca a su estado nativo correctamente plegado, la entropía y la energía libre disminuirán. Con esta información, los predictores de novo pueden discriminar entre los señuelos. Específicamente, los programas de novo seleccionarán posibles conformaciones con energías libres más bajas, que tienen más probabilidades de ser correctas que aquellas estructuras con energías libres más altas. ^[2]^[6]^[7] Como afirma David A. Baker con respecto a cómo funciona su predictor Rosetta de novo, "durante el plegado, cada segmento local de la cadena oscila entre un subconjunto diferente de conformaciones locales... el plegado a la estructura nativa ocurre cuando las conformaciones adoptadas por los segmentos locales y sus orientaciones relativas permiten... características de baja energía de las estructuras de proteínas nativas. En el algoritmo Rosetta... el programa busca entonces la combinación de estas conformaciones locales que tenga la energía total más baja". ^[8]

Sin embargo, algunos métodos de novo funcionan enumerando primero todo el espacio conformacional utilizando una representación simplificada de la estructura de una proteína y luego seleccionando las que tienen más probabilidades de ser similares a las nativas. Un ejemplo de este enfoque es uno basado en la representación de los pliegues de proteínas utilizando redes tetraédricas y la construcción de todos los modelos de átomos sobre la base de todas las conformaciones posibles obtenidas utilizando la representación tetraédrica. Este enfoque se utilizó con éxito en CASP3 para predecir un pliegue de proteína cuya topología no había sido observada antes por el equipo de Michael Levitt. ^[9]

Al desarrollar el programa QUARK, Xu y Zhang demostraron que la estructura ab initio de algunas proteínas se puede construir con éxito a través de un campo de fuerza basado en el conocimiento. ^[10]^[11]

Estrategias de predicción

Si una proteína de estructura terciaria conocida comparte al menos el 30% de su secuencia con un homólogo potencial de estructura indeterminada, se pueden utilizar métodos comparativos que superponen la supuesta estructura desconocida con la conocida para predecir la estructura probable de la desconocida. Sin embargo, por debajo de este umbral se utilizan otras tres clases de estrategias para determinar la posible estructura a partir de un modelo inicial: predicción de proteínas ab initio, reconocimiento de pliegues y enhebrado.

Métodos ab initio: En los métodos ab initio, se realiza un esfuerzo inicial para dilucidar las estructuras secundarias (hélice alfa, lámina beta, giro beta, etc.) a partir de la estructura primaria mediante el uso de parámetros fisicoquímicos y algoritmos de redes neuronales. A partir de ese punto, los algoritmos predicen el plegamiento terciario. Una desventaja de esta estrategia es que aún no es capaz de incorporar las ubicaciones y la orientación de las cadenas laterales de aminoácidos.
Predicción de pliegues: en las estrategias de reconocimiento de pliegues, primero se realiza una predicción de la estructura secundaria y luego se compara con una biblioteca de pliegues de proteínas conocidos, como CATH o SCOP, o con lo que se conoce como una "tabla periódica" de posibles formas de estructura secundaria. Luego se asigna un puntaje de confianza a las coincidencias probables.
Enhebrado: en las estrategias de enhebrado, la técnica de reconocimiento de pliegues se amplía aún más. En este proceso, se utilizan funciones de energía basadas en datos empíricos para la interacción de pares de residuos con el fin de colocar la proteína desconocida en una supuesta estructura principal como la mejor opción, acomodando los espacios vacíos cuando sea apropiado. Luego, se acentúan las mejores interacciones para discriminar entre posibles señuelos y predecir la conformación más probable.

El objetivo de las estrategias de pliegue y enhebrado es determinar si un pliegue de una proteína desconocida es similar a un dominio de una proteína conocida depositada en una base de datos, como el banco de datos de proteínas (PDB). Esto contrasta con los métodos de novo (ab initio) en los que la estructura se determina utilizando un enfoque basado en la física en lugar de comparar los pliegues de la proteína con las estructuras de una base de datos. ^[12]

Limitaciones deDe nuevométodos de predicción

Una de las principales limitaciones de los métodos de predicción de proteínas de novo es la extraordinaria cantidad de tiempo de computación que se requiere para resolver con éxito la conformación nativa de una proteína. Los métodos distribuidos, como Rosetta@home, han intentado mejorar esto reclutando personas que luego ofrecen tiempo libre en la computadora de su casa para procesar datos. Sin embargo, incluso estos métodos enfrentan desafíos. Por ejemplo, un equipo de investigadores de la Universidad de Washington y el Instituto Médico Howard Hughes utilizó un método distribuido para predecir la estructura terciaria de la proteína T0283 a partir de su secuencia de aminoácidos. En una prueba a ciegas que comparaba la precisión de esta técnica distribuida con la estructura confirmada experimentalmente depositada en el Banco de Datos de Proteínas (PDB), el predictor produjo una excelente concordancia con la estructura depositada. Sin embargo, el tiempo y la cantidad de computadoras necesarias para esta hazaña fueron enormes: casi dos años y aproximadamente 70.000 computadoras domésticas, respectivamente. ^[13]

Un método propuesto para superar estas limitaciones implica el uso de modelos de Markov (véase el modelo de Monte Carlo de cadenas de Markov ). Una posibilidad es que estos modelos se puedan construir para ayudar con el cálculo de energía libre y la predicción de la estructura de las proteínas, tal vez refinando las simulaciones computacionales. ^[14] Otra forma de sortear las limitaciones de potencia computacional es utilizando modelos de grano grueso . Los modelos de proteínas de grano grueso permiten la predicción de novo de la estructura de proteínas pequeñas o fragmentos de proteínas grandes en un corto tiempo computacional. ^[15]

Predicción de la estructura deDe nuevoProteínas

Otra limitación del software de predicción de la estructura de proteínas se refiere a una clase específica de proteínas, a saber, las proteínas de novo . El software de predicción de la estructura como AlphaFold se basa en datos coevolutivos derivados de la alineación de secuencias múltiples (MSA) y secuencias de proteínas homólogas para predecir las estructuras de las proteínas. Sin embargo, por definición, las proteínas de novo carecen de secuencias homólogas, ya que son nuevas desde el punto de vista evolutivo. ^[16] Por lo tanto, se puede esperar que el software de predicción de la estructura que se basa en dicha homología tenga un rendimiento deficiente en la predicción de las estructuras de las proteínas de novo . ^[17] Para mejorar la precisión de la predicción de la estructura de las proteínas de novo , se han desarrollado nuevos softwares. En concreto, ESMFold es un modelo de lenguaje grande (LLM) desarrollado recientemente para la predicción de estructuras de proteínas basándose únicamente en sus secuencias de aminoácidos. Puede predecir una estructura 3D de una proteína con resolución a nivel atómico con una entrada de una sola secuencia de aminoácidos. ^[18]

Evaluación crítica de la predicción de la estructura de las proteínas

“El progreso de todas las variantes de los métodos computacionales de predicción de la estructura de las proteínas se evalúa en los experimentos de Evaluación crítica de la predicción de la estructura de las proteínas ( CASP ) que se realizan cada dos años en toda la comunidad. En los experimentos CASP, se invita a los grupos de investigación a aplicar sus métodos de predicción a secuencias de aminoácidos cuya estructura nativa no se conoce, pero que está por determinar y publicarse pronto. Aunque el número de secuencias de aminoácidos proporcionadas por los experimentos CASP es pequeño, estas competiciones proporcionan una buena medida para comparar los métodos y el progreso en el campo de una manera posiblemente imparcial”. ^[19]

Notas

Samudrala, R, Xia, Y, Huang, ES, Levitt, M. Predicción ab initio de la estructura de proteínas utilizando un enfoque jerárquico combinado. (1999). Proteins Suppl 3: 194-198.
Bradley, P.; Malmstrom, L.; Qian, B.; Schonbrun, J.; Chivian, D.; Kim, DE; Meiler, J.; Misura, KM; Baker, D. (2005). "Modelado libre con Rosetta en CASP6". Proteins . 61 (Supl. 7): 128–34. doi :10.1002/prot.20729. PMID 16187354. S2CID 36366681.
Bonneau ; Baker, D (2001). "Predicción de la estructura de proteínas ab initio: progreso y perspectivas". Annu. Rev. Biophys. Biomol. Struct . 30 : 173–89. doi :10.1146/annurev.biophys.30.1.173. PMID 11340057.
J. Skolnick, Y. Zhang y A. Kolinski. Modelado ab initio. Genómica estructural y biología estructural de alto rendimiento. M. Sundsrom, M. Norin y A. Edwards, eds. 2006: 137-162.
J Lee, S Wu, Y Zhang. Predicción de la estructura de proteínas ab initio. De la estructura de proteínas a la función con bioinformática, Capítulo 1, editado por DJ Rigden, (Springer-Londres, 2009), págs. 1-26.

Véase también

Referencias

^ "Editorial: Mucho más por saber". Science . 309 (5731): 78–102. 2005. doi : 10.1126/science.309.5731.78b . PMID 15994524.
^ ab Dill, Ken A. ; et al. (2007). "El problema del plegamiento de proteínas: ¿cuándo se resolverá?". Current Opinion in Structural Biology . 17 (3): 342–346. doi :10.1016/j.sbi.2007.06.001. PMID 17572080.
^ ab Rigden, Daniel J. De la estructura de las proteínas a la función con bioinformática. Springer Science. 2009. ISBN 978-1-4020-9057-8 .
^ ab Yonath, Ada. La cristalografía de rayos X en el corazón de las ciencias de la vida. Current Opinion in Structural Biology. Volumen 21, número 5, octubre de 2011, páginas 622–626.
^ Samudrala, R; Moult, J (1998). "Una función discriminatoria de probabilidad condicional dependiente de la distancia de todos los átomos para la predicción de la estructura de proteínas". Journal of Molecular Biology . 275 (5): 893–914. CiteSeerX 10.1.1.70.4101 . doi :10.1006/jmbi.1997.1479. PMID 9480776.
^ ab Nelson, David L. y Cox, Michael. Principios de bioquímica de Lehninger, quinta edición. MWH Freeman; 15 de junio de 2008. ISBN 1429224169 .
^ "El Laboratorio Baker". Archivado desde el original el 13 de noviembre de 2012.
^ "Artículo de noticias de Rosetta".
^ Samudrala, R; Xia, Y; Huang, ES; Levitt, M (1999). " Predicción ab initio de la estructura de proteínas utilizando un enfoque jerárquico combinado ". Proteínas: Estructura, Función y Genética . S3 (S3): 194–198. doi :10.1002/(SICI)1097-0134(1999)37:3+<194::AID-PROT24>3.0.CO;2-F. S2CID 1566472.
^ Xu D, Zhang Y (julio de 2012). "Ensamblaje de la estructura de proteínas ab initio utilizando fragmentos de estructura continua y un campo de fuerza basado en el conocimiento optimizado". Proteins . 80 (7): 1715–35. doi :10.1002/prot.24065. PMC 3370074 . PMID 22411565.
^ Xu D, Zhang J, Roy A, Zhang Y (agosto de 2011). "Modelado automatizado de la estructura de proteínas en CASP9 mediante el proceso I-TASSER combinado con plegamiento ab initio basado en QUARK y refinamiento de la estructura basado en FG-MD". Proteins . 79 (Supl 10): 147–60. doi :10.1002/prot.23111. PMC 3228277 . PMID 22069036.
^ Gibson, Greg y Muse, Spencer V. A Primer of Genome Science 3.ª edición. Sinauer Associates, Inc. 2009. ISBN 978-0-87893-236-8 .
^ Qian et al. Predicción de estructuras de alta resolución y el problema de la fase cristalográfica. (2007). Nature. Volumen 450.
^ Jayachandran, Guha et al. (2006). Uso de modelos markovianos y de simulación masivamente paralela para estudiar el plegamiento de proteínas: análisis de la dinámica de la cabeza de la villina. Publicado en línea.
^ Kmiecik, Sebastián; Gront, Dominik; Kolinski, Michal; Wieteska, Lukasz; Dawid, Aleksandra Elzbieta; Kolinski, Andrzej (22 de junio de 2016). "Modelos de proteínas de grano grueso y sus aplicaciones". Reseñas químicas . 116 (14): 7898–936. doi : 10.1021/acs.chemrev.6b00163 . ISSN 0009-2665. PMID 27333362.
^ Schmitz, Jonathan F; Bornberg-Bauer, Erich (19 de enero de 2017). "Realidad o ficción: actualizaciones sobre cómo los genes codificadores de proteínas podrían surgir de novo a partir de ADN previamente no codificante". F1000Research . 6 : 57. doi : 10.12688/f1000research.10079.1 . ISSN 2046-1402. PMC 5247788 . PMID 28163910.
^ Middendorf, Lasse; Eicholt, Lars A. (junio de 2024). "Proteínas aleatorias, de novo y conservadas: cómo los predictores de estructura y desorden funcionan de manera diferente". Proteínas: estructura, función y bioinformática . 92 (6): 757–767. doi : 10.1002/prot.26652 . ISSN 0887-3585. PMID 38226524.
^ Lin, Zeming; Akin, Halil; Rao, Roshan; Hie, Brian; Zhu, Zhongkai; Lu, Wenting; dos Santos Costa, Allan; Fazel-Zarandi, Maryam; Sercu, Tom; Candido, Sal; Rives, Alexander (21 de julio de 2022). "Los modelos lingüísticos de secuencias de proteínas a escala de evolución permiten una predicción precisa de la estructura" (PDF) . bioRxiv . doi :10.1101/2022.07.20.500902.
^ CA Floudas et al. Avances en la predicción de la estructura de proteínas y el diseño de proteínas de novo: una revisión. Chemical Engineering Science 61 (2006) 966 – 988.

Enlaces externos

CASP
Folding@Home Archivado el 8 de septiembre de 2012 en Wayback Machine
Proyecto HPF
Foldit Archivado el 4 de abril de 2011 en Wayback Machine
UniProtKB
Banco de datos de proteínas (PDB)
Sistema de análisis de proteínas experto: enlaces a herramientas de predicción de proteínas