Enhebrado (secuencia de proteínas)

En biología molecular , el enhebrado de proteínas , también conocido como reconocimiento de pliegues , es un método de modelado de proteínas que se utiliza para modelar aquellas proteínas que tienen el mismo pliegue que las proteínas de estructuras conocidas , pero que no tienen proteínas homólogas con estructura conocida. Se diferencia del método de modelado por homología de predicción de la estructura, ya que (enhebrado de proteínas) se utiliza para proteínas que no tienen sus estructuras proteicas homólogas depositadas en el Banco de Datos de Proteínas (PDB), mientras que el modelado por homología se utiliza para aquellas proteínas que sí las tienen. El enhebrado funciona utilizando el conocimiento estadístico de la relación entre las estructuras depositadas en el PDB y la secuencia de la proteína que se desea modelar.

La predicción se realiza "enhebrando" (es decir, colocando, alineando) cada aminoácido en la secuencia objetivo con una posición en la estructura de la plantilla, y evaluando qué tan bien se ajusta el objetivo a la plantilla. Una vez que se selecciona la plantilla que mejor se ajusta, se construye el modelo estructural de la secuencia en función de la alineación con la plantilla elegida. El enhebrado de proteínas se basa en dos observaciones básicas: que el número de pliegues diferentes en la naturaleza es bastante pequeño (aproximadamente 1300); y que el 90% de las nuevas estructuras presentadas al PDB en los últimos tres años tienen pliegues estructurales similares a los que ya figuran en el PDB.

Clasificación de la estructura de las proteínas

La base de datos de Clasificación estructural de proteínas (SCOP) proporciona una descripción detallada y completa de las relaciones estructurales y evolutivas de las estructuras conocidas. Las proteínas se clasifican para reflejar tanto la relación estructural como la evolutiva. Existen muchos niveles en la jerarquía, pero los principales son familia , superfamilia y plegamiento:

Familia (relación evolutiva clara): las proteínas agrupadas en familias están claramente relacionadas evolutivamente. En general, esto significa que las identidades de residuos entre pares de proteínas son del 30 % o más. Sin embargo, en algunos casos, funciones y estructuras similares proporcionan evidencia definitiva de descendencia común en ausencia de una alta identidad de secuencia; por ejemplo, muchas globinas forman una familia aunque algunos miembros tienen identidades de secuencia de solo el 15 %.
Superfamilia (probable origen evolutivo común): las proteínas que tienen identidades de secuencia bajas, pero cuyas características estructurales y funcionales sugieren que es probable que tengan un origen evolutivo común, se colocan juntas en superfamilias. Por ejemplo, la actina , el dominio ATPasa de la proteína de choque térmico y la hexoquinasa forman juntas una superfamilia.
Pliegue (similitud estructural principal): Se define que las proteínas tienen un pliegue común si tienen las mismas estructuras secundarias principales en la misma disposición y con las mismas conexiones topológicas. Diferentes proteínas con el mismo pliegue a menudo tienen elementos periféricos de estructura secundaria y regiones de giro que difieren en tamaño y conformación. En algunos casos, estas diferentes regiones periféricas pueden comprender la mitad de la estructura. Las proteínas ubicadas juntas en la misma categoría de pliegue pueden no tener un origen evolutivo común: las similitudes estructurales podrían surgir simplemente de la física y la química de las proteínas que favorecen ciertas disposiciones de empaquetamiento y topologías de cadena.

Método

Un paradigma general del enhebrado de proteínas consta de los cuatro pasos siguientes:

Construcción de una base de datos de plantillas de estructura : seleccione estructuras de proteínas de las bases de datos de estructuras de proteínas como plantillas estructurales. Esto generalmente implica seleccionar estructuras de proteínas de bases de datos como Protein Data Bank (PDB), Families of Structurally Similar Proteins database (FSSP), Structural Classification of Proteins database (SCOP) o CATH database , después de eliminar las estructuras de proteínas con altas similitudes de secuencia.
El diseño de la función de puntuación: Diseñe una buena función de puntuación para medir la aptitud entre las secuencias objetivo y las plantillas basándose en el conocimiento de las relaciones conocidas entre las estructuras y las secuencias. Una buena función de puntuación debe contener potencial de mutación, potencial de aptitud ambiental, potencial de pares, compatibilidades de estructuras secundarias y penalizaciones por brechas. La calidad de la función de energía está estrechamente relacionada con la precisión de la predicción, especialmente la precisión de la alineación.
Alineación de subprocesos: alinee la secuencia objetivo con cada una de las plantillas de estructura optimizando la función de puntuación diseñada. Este paso es una de las principales tareas de todos los programas de predicción de estructura basados en subprocesos que tienen en cuenta el potencial de contacto por pares; de lo contrario, un algoritmo de programación dinámica puede realizarlo.
Predicción de enhebrado: seleccione la alineación de enhebrado que sea estadísticamente más probable como predicción de enhebrado. Luego, construya un modelo de estructura para el objetivo colocando los átomos de la cadena principal de la secuencia objetivo en sus posiciones de cadena principal alineadas de la plantilla estructural seleccionada.

Comparación con el modelado de homología

El modelado por homología y el enhebrado de proteínas son métodos basados en plantillas y no existe un límite riguroso entre ellos en términos de técnicas de predicción. Pero las estructuras proteínicas de sus objetivos son diferentes. El modelado por homología es para aquellos objetivos que tienen proteínas homólogas con estructura conocida (generalmente/tal vez de la misma familia), mientras que el enhebrado de proteínas es para aquellos objetivos en los que solo se encontró homología a nivel de plegamiento. En otras palabras, el modelado por homología es para objetivos "más fáciles" y el enhebrado de proteínas es para objetivos "más difíciles".

El modelado por homología trata la plantilla en una alineación como una secuencia y solo se utiliza la homología de secuencia para la predicción. El enhebrado de proteínas trata la plantilla en una alineación como una estructura y tanto la información de la secuencia como la de la estructura extraída de la alineación se utilizan para la predicción. Cuando no se encuentra una homología significativa, el enhebrado de proteínas puede hacer una predicción basada en la información de la estructura. Eso también explica por qué el enhebrado de proteínas puede ser más eficaz que el modelado por homología en muchos casos.

En la práctica, cuando la identidad de secuencia en una alineación de secuencias es baja (es decir, <25 %), el modelado de homología puede no producir una predicción significativa. En este caso, si se encuentra una homología distante para el objetivo, el enhebrado de proteínas puede generar una buena predicción.

Más información sobre el enhebrado

Los métodos de reconocimiento de pliegues se pueden dividir en dos tipos: los que derivan un perfil 1-D para cada estructura en la biblioteca de pliegues y alinean la secuencia objetivo con estos perfiles; y los que consideran la estructura 3-D completa de la plantilla de proteína. Un ejemplo simple de una representación de perfil sería tomar cada aminoácido en la estructura y simplemente etiquetarlo de acuerdo a si está enterrado en el núcleo de la proteína o expuesto en la superficie. Los perfiles más elaborados podrían tener en cuenta la estructura secundaria local (por ejemplo, si el aminoácido es parte de una hélice alfa ) o incluso información evolutiva (qué tan conservado está el aminoácido). En la representación 3-D, la estructura se modela como un conjunto de distancias interatómicas, es decir, las distancias se calculan entre algunos o todos los pares de átomos en la estructura. Esta es una descripción mucho más rica y mucho más flexible de la estructura, pero es mucho más difícil de usar para calcular una alineación. El enfoque de reconocimiento de pliegues basado en perfiles fue descrito por primera vez por Bowie, Lüthy y David Eisenberg en 1991. ^[1] El término "enhebrado" fue acuñado por primera vez por David Jones , William R. Taylor y Janet Thornton en 1992, ^[2] y originalmente se refería específicamente al uso de una representación atómica de la estructura tridimensional completa de la plantilla de proteína en el reconocimiento de pliegues. Hoy en día, los términos "enhebrado" y "reconocimiento de pliegues" se usan con frecuencia (aunque de manera algo incorrecta) de manera intercambiable.

Los métodos de reconocimiento de pliegues se utilizan ampliamente y son eficaces porque se cree que existe un número estrictamente limitado de pliegues proteicos diferentes en la naturaleza, principalmente como resultado de la evolución, pero también debido a las restricciones impuestas por la física y la química básicas de las cadenas polipeptídicas. Por lo tanto, existe una buena probabilidad (actualmente del 70-80 %) de que una proteína que tenga un pliegue similar al de la proteína objetivo ya haya sido estudiada mediante cristalografía de rayos X o espectroscopia de resonancia magnética nuclear (RMN) y se pueda encontrar en el PDB. Actualmente se conocen casi 1300 pliegues proteicos diferentes, pero se siguen descubriendo nuevos pliegues cada año debido en gran parte a los proyectos de genómica estructural en curso .

Se han propuesto muchos algoritmos diferentes para encontrar el enhebrado correcto de una secuencia en una estructura, aunque muchos hacen uso de la programación dinámica en alguna forma. Para el enhebrado completo en 3-D, el problema de identificar la mejor alineación es muy difícil (es un problema NP-hard para algunos modelos de enhebrado). ^{[ cita requerida ]} Los investigadores han hecho uso de muchos métodos de optimización combinatoria como campos aleatorios condicionales , recocido simulado , ramificación y acotación y programación lineal , buscando llegar a soluciones heurísticas. Es interesante comparar los métodos de enhebrado con los métodos que intentan alinear dos estructuras de proteínas ( alineamiento estructural de proteínas ), y de hecho muchos de los mismos algoritmos se han aplicado a ambos problemas.

Software de enhebrado de proteínas

HHpred es un servidor de subprocesos popular que ejecuta HHsearch , un software ampliamente utilizado para la detección de homología remota basada en la comparación por pares de modelos ocultos de Markov .
RAPTOR es un software de enhebrado de proteínas basado en programación de números enteros. Ha sido reemplazado por un nuevo programa de enhebrado de proteínas RaptorX , que emplea modelos gráficos probabilísticos e inferencia estadística tanto para el enhebrado de proteínas basado en una sola plantilla como en múltiples plantillas. ^[3]^[4]^[5]^[6] RaptorX supera significativamente a RAPTOR y es especialmente bueno para alinear proteínas con un perfil de secuencia dispersa. El servidor RaptorX es gratuito para el público.
Phyre es un servidor de subprocesos popular que combina HHsearch con modelado ab initio y de múltiples plantillas.
MUSTER es un algoritmo de subprocesamiento estándar basado en programación dinámica y alineación de perfiles de secuencias. También combina múltiples recursos estructurales para ayudar a la alineación de perfiles de secuencias. ^[7]
SPARKS X es un sistema de comparación de secuencias y estructuras basado en la probabilidad entre las propiedades estructurales unidimensionales predichas de la consulta y las propiedades nativas correspondientes de las plantillas. ^[8]
BioShell es un algoritmo de subprocesamiento que utiliza un algoritmo de programación dinámica de perfil a perfil optimizado combinado con una estructura secundaria predicha. ^[9]

Véase también

Referencias

^ Bowie JU, Lüthy R, Eisenberg D (1991). "Un método para identificar secuencias de proteínas que se pliegan en una estructura tridimensional conocida". Science . 253 (5016): 164–170. Bibcode :1991Sci...253..164B. doi :10.1126/science.1853201. PMID 1853201.
^ Jones DT, Taylor WR, Thornton JM (1992). "Un nuevo enfoque para el reconocimiento de plegamientos de proteínas". Nature . 358 (6381): 86–89. Bibcode :1992Natur.358...86J. doi :10.1038/358086a0. PMID 1614539. S2CID 4266346.
^ Peng, Jian; Jinbo Xu (2011). "RaptorX: explotación de la información estructural para el alineamiento de proteínas mediante inferencia estadística". Proteins . 79 Suppl 10 (Suppl 10): 161–171. doi :10.1002/prot.23175. PMC 3226909 . PMID 21987485.
^ Peng, Jian; Jinbo Xu (2010). "Enhebrado de proteínas de baja homología". Bioinformática . 26 (12): i294–i300. doi :10.1093/bioinformatics/btq192. PMC 2881377 . PMID 20529920.
^ Peng, Jian; Jinbo Xu (abril de 2011). "Un enfoque de múltiples plantillas para el enhebrado de proteínas". Proteins . 79 (6): 1930–1939. doi :10.1002/prot.23016. PMC 3092796 . PMID 21465564.
^ Ma, Jianzhu; Sheng Wang; Jinbo Xu (junio de 2012). "Un modelo de campos neuronales condicionales para el enhebrado de proteínas". Bioinformática . 28 (12): i59–66. doi :10.1093/bioinformatics/bts213. PMC 3371845 . PMID 22689779.
^ Wu S, Zhang Y (2008). "MUSTER: Mejora de los alineamientos entre perfiles de secuencias de proteínas mediante el uso de múltiples fuentes de información estructural". Proteins . 72 (2): 547–56. doi :10.1002/prot.21945. PMC 2666101 . PMID 18247410.
^ Yang Y, Faraggi E, Zhao H, Zhou Y (2011). "Mejora del reconocimiento de pliegues de proteínas y el modelado basado en plantillas mediante el empleo de una correspondencia basada en la probabilidad entre las propiedades estructurales unidimensionales predichas de la consulta y las propiedades nativas correspondientes de las plantillas". Bioinformática . 27 (15): 2076–2082. doi :10.1093/bioinformatics/btr350. PMC 3137224 . PMID 21666270.
^ Gront D, Blaszczyk M, Wojciechowski P, Kolinski A (2012). "BioShell Threader: detección de homología de proteínas basada en perfiles de secuencia y perfiles de estructura secundaria". Investigación de ácidos nucleicos . 40 (W1): W257–W262. doi :10.1093/nar/gks555. PMC 3394251 . PMID 22693216.

Lectura adicional

Finkelstein, AV; Reva, BA (junio de 1991). "Una búsqueda de los pliegues más estables de las cadenas proteínicas". Nature . 351 (6326): 497–9. Bibcode :1991Natur.351..497F. doi :10.1038/351497a0. PMID 2046752. S2CID 4319142.
Lathrop RH (1994). "El problema de enhebrado de proteínas con preferencias de interacción de aminoácidos de secuencia es NP-completo". Protein Eng . 7 (9): 1059–1068. CiteSeerX 10.1.1.367.9081 . doi :10.1093/protein/7.9.1059. PMID 7831276.
Jones DT, Hadley C (2000). "Métodos de enhebrado para la predicción de la estructura de proteínas". En Higgins D, Taylor WR (eds.). Bioinformática: secuencia, estructura y bancos de datos . Heidelberg: Springer-Verlag. págs. 1–13.
Xu J, Li M, Kim D, Xu Y (2003). "RAPTOR: Optimal Protein Threading by Linear Programming, número inaugural". J Bioinform Comput Biol . 1 (1): 95–117. CiteSeerX 10.1.1.5.4844 . doi :10.1142/S0219720003000186. PMID 15290783.
Xu J, Li M, Lin G, Kim D, Xu Y (2003). "Enhebrado de proteínas mediante programación lineal". Pac Symp Biocomput : 264–275. PMID 12603034.