Threading (secuencia de proteínas)

En biología molecular , el enhebrado de proteínas , también conocido como reconocimiento de pliegues , es un método de modelado de proteínas que se utiliza para modelar aquellas proteínas que tienen el mismo pliegue que las proteínas de estructuras conocidas , pero que no tienen proteínas homólogas con estructura conocida. Se diferencia del método de predicción de estructuras de modelado por homología en que (enhebrado de proteínas) se usa para proteínas que no tienen sus estructuras proteicas homólogas depositadas en el Banco de datos de proteínas (PDB), mientras que el modelado por homología se usa para aquellas proteínas que sí las tienen. Threading funciona utilizando el conocimiento estadístico de la relación entre las estructuras depositadas en el PDB y la secuencia de la proteína que se desea modelar.

La predicción se realiza "enhebrando" (es decir, colocando, alineando) cada aminoácido en la secuencia diana en una posición en la estructura de la plantilla, y evaluando qué tan bien se ajusta la diana a la plantilla. Una vez seleccionada la plantilla que mejor se ajusta, se construye el modelo estructural de la secuencia en función de la alineación con la plantilla elegida. El enhebrado de proteínas se basa en dos observaciones básicas: que el número de pliegues diferentes en la naturaleza es bastante pequeño (aproximadamente 1300); y que el 90% de las nuevas estructuras presentadas al AP en los últimos tres años tienen pliegues estructurales similares a los que ya están en el AP.

Clasificación de la estructura de las proteínas.

La base de datos de Clasificación Estructural de Proteínas (SCOP) proporciona una descripción detallada y completa de las relaciones estructurales y evolutivas de la estructura conocida. Las proteínas se clasifican para reflejar la relación tanto estructural como evolutiva. Existen muchos niveles en la jerarquía, pero los niveles principales son familia , superfamilia y pliegue:

Familia (clara relación evolutiva): Las proteínas agrupadas en familias están claramente relacionadas evolutivamente. Generalmente, esto significa que las identidades de residuos por pares entre las proteínas son del 30% y mayores. Sin embargo, en algunos casos funciones y estructuras similares proporcionan evidencia definitiva de descendencia común en ausencia de una alta identidad de secuencia; por ejemplo, muchas globinas forman una familia, aunque algunos miembros tienen identidades de secuencia de sólo el 15%.
Superfamilia (probable origen evolutivo común): proteínas que tienen identidades de secuencia bajas, pero cuyas características estructurales y funcionales sugieren que es probable un origen evolutivo común, se colocan juntas en superfamilias. Por ejemplo, la actina , el dominio ATPasa de la proteína de choque térmico y la hexocinasa forman juntas una superfamilia.
Pliegue (similitud estructural importante): Se define que las proteínas tienen un pliegue común si tienen las mismas estructuras secundarias principales en la misma disposición y con las mismas conexiones topológicas. Diferentes proteínas con el mismo pliegue suelen tener elementos periféricos de estructura secundaria y regiones de giro que difieren en tamaño y conformación. En algunos casos, estas diferentes regiones periféricas pueden comprender la mitad de la estructura. Es posible que las proteínas colocadas juntas en la misma categoría de plegado no tengan un origen evolutivo común: las similitudes estructurales podrían surgir simplemente de la física y la química de las proteínas que favorecen ciertas disposiciones de empaquetamiento y topologías de cadena.

Método

Un paradigma general de enhebrado de proteínas consta de los siguientes cuatro pasos:

La construcción de una base de datos de plantillas de estructuras: seleccione estructuras de proteínas de las bases de datos de estructuras de proteínas como plantillas estructurales. Esto generalmente implica seleccionar estructuras de proteínas de bases de datos como PDB , FSSP , SCOP o CATH , después de eliminar estructuras de proteínas con altas similitudes de secuencia.
El diseño de la función de puntuación: Diseñe una buena función de puntuación para medir la adecuación entre las secuencias objetivo y las plantillas basándose en el conocimiento de las relaciones conocidas entre las estructuras y las secuencias. Una buena función de puntuación debe contener potencial de mutación, potencial de aptitud ambiental, potencial por pares, compatibilidades de estructuras secundarias y penalizaciones por brecha. La calidad de la función de energía está estrechamente relacionada con la precisión de la predicción, especialmente la precisión de la alineación.
Alineación de subprocesos: alinee la secuencia objetivo con cada una de las plantillas de estructura optimizando la función de puntuación diseñada. Este paso es una de las tareas principales de todos los programas de predicción de estructuras basados en subprocesos que tienen en cuenta el potencial de contacto por pares; de lo contrario, un algoritmo de programación dinámica puede cumplirlo.
Predicción de subprocesos: seleccione la alineación de subprocesos que sea estadísticamente más probable como predicción de subprocesos. Luego, construya un modelo de estructura para el objetivo colocando los átomos del esqueleto de la secuencia objetivo en sus posiciones alineadas del esqueleto de la plantilla estructural seleccionada.

Comparación con el modelado de homología.

El modelado de homología y el subprocesamiento de proteínas son métodos basados en plantillas y no existe un límite riguroso entre ellos en términos de técnicas de predicción. Pero las estructuras proteicas de sus objetivos son diferentes. El modelado de homología es para aquellos objetivos que tienen proteínas homólogas con estructura conocida (generalmente/tal vez de la misma familia), mientras que el enhebrado de proteínas es para aquellos objetivos en los que solo se encuentra homología a nivel de pliegue. En otras palabras, el modelado de homología es para objetivos "más fáciles" y el enhebrado de proteínas es para objetivos "más difíciles".

El modelado de homología trata la plantilla en una alineación como una secuencia y solo se utiliza la homología de secuencia para la predicción. El enhebrado de proteínas trata la plantilla en una alineación como una estructura, y tanto la información de secuencia como la estructura extraída de la alineación se utilizan para la predicción. Cuando no se encuentra una homología significativa, el enhebrado de proteínas puede hacer una predicción basada en la información de la estructura. Eso también explica por qué el enhebrado de proteínas puede ser más eficaz que el modelado por homología en muchos casos.

En la práctica, cuando la identidad de secuencia en una alineación de secuencia es baja (es decir, <25%), el modelado de homología puede no producir una predicción significativa. En este caso, si se encuentra una homología distante para el objetivo, el enhebrado de proteínas puede generar una buena predicción.

Más sobre enhebrar

Los métodos de reconocimiento de pliegues se pueden dividir en términos generales en dos tipos: aquellos que derivan un perfil 1-D para cada estructura en la biblioteca de pliegues y alinean la secuencia objetivo con estos perfiles; y aquellos que consideran la estructura tridimensional completa de la plantilla de proteína. Un ejemplo sencillo de representación de perfil sería tomar cada aminoácido de la estructura y simplemente etiquetarlo según si está enterrado en el núcleo de la proteína o expuesto en la superficie. Perfiles más elaborados podrían tener en cuenta la estructura secundaria local (por ejemplo, si el aminoácido es parte de una hélice alfa ) o incluso información evolutiva (qué tan conservado está el aminoácido). En la representación tridimensional, la estructura se modela como un conjunto de distancias interatómicas, es decir, las distancias se calculan entre algunos o todos los pares de átomos de la estructura. Esta es una descripción mucho más rica y flexible de la estructura, pero es mucho más difícil de utilizar para calcular una alineación. El enfoque de reconocimiento de pliegues basado en perfiles fue descrito por primera vez por Bowie, Lüthy y David Eisenberg en 1991. ^[1] El término threading fue acuñado por primera vez por David Jones , William R. Taylor y Janet Thornton en 1992, ^[2] y originalmente se refería específicamente al uso de una representación atómica de estructura tridimensional completa de la plantilla de proteína en el reconocimiento de pliegues. Hoy en día, los términos enhebrado y reconocimiento de pliegues se utilizan con frecuencia (aunque de forma algo incorrecta) indistintamente.

Los métodos de reconocimiento de pliegues se utilizan ampliamente y son eficaces porque se cree que existe un número estrictamente limitado de pliegues de proteínas diferentes en la naturaleza, principalmente como resultado de la evolución, pero también debido a las limitaciones impuestas por la física y la química básicas de las cadenas polipeptídicas. Por lo tanto, existe una buena probabilidad (actualmente entre el 70 y el 80 %) de que una proteína que tenga un pliegue similar al de la proteína diana ya haya sido estudiada mediante cristalografía de rayos X o espectroscopia de resonancia magnética nuclear (RMN) y pueda encontrarse en el AP.D. Actualmente se conocen casi 1.300 pliegues de proteínas diferentes, pero cada año se siguen descubriendo nuevos pliegues debido en gran parte a los proyectos de genómica estructural en curso .

Se han propuesto muchos algoritmos diferentes para encontrar el enhebrado correcto de una secuencia en una estructura, aunque muchos utilizan programación dinámica de alguna forma. Para el roscado 3-D completo, el problema de identificar la mejor alineación es muy difícil (es un problema NP-difícil para algunos modelos de roscado). ^{[ cita necesaria ]} Los investigadores han utilizado muchos métodos de optimización combinatoria, como campos aleatorios condicionales , recocido simulado , programación lineal y de ramificación , buscando llegar a soluciones heurísticas. Es interesante comparar los métodos de subprocesos con métodos que intentan alinear dos estructuras de proteínas ( alineamiento estructural de proteínas ) y, de hecho, se han aplicado muchos de los mismos algoritmos a ambos problemas.

Software de enhebrado de proteínas

HHpred es un popular servidor de subprocesos que ejecuta HHsearch , un software ampliamente utilizado para la detección remota de homología basada en la comparación por pares de modelos ocultos de Markov .
RAPTOR (software) es un software de subprocesamiento de proteínas basado en programación entera. Ha sido reemplazado por un nuevo programa de enhebrado de proteínas RaptorX/software para modelado y análisis de proteínas , que emplea modelos gráficos probabilísticos e inferencia estadística para enhebrado de proteínas basado tanto en plantilla única como en plantilla múltiple. ^[3]^[4]^[5]^[6] RaptorX supera significativamente a RAPTOR y es especialmente bueno para alinear proteínas con un perfil de secuencia disperso. El servidor RaptorX es gratuito para el público.
Phyre es un popular servidor de subprocesos que combina HHsearch con ab initio y modelado de múltiples plantillas.
MUSTER es un algoritmo de subprocesos estándar basado en programación dinámica y alineación de perfil de secuencia. También combina múltiples recursos estructurales para ayudar en la alineación del perfil de secuencia. ^[7]
SPARKS X es una coincidencia de secuencia a estructura basada en probabilidades entre las propiedades estructurales unidimensionales predichas de la consulta y las propiedades nativas correspondientes de las plantillas. ^[8]
BioShell es un algoritmo de subprocesos que utiliza un algoritmo de programación dinámica optimizado de perfil a perfil combinado con una estructura secundaria prevista. ^[9]

Ver también

Referencias

^ Bowie JU, Lüthy R, Eisenberg D (1991). "Un método para identificar secuencias de proteínas que se pliegan en una estructura tridimensional conocida". Ciencia . 253 (5016): 164-170. Código Bib : 1991 Ciencia... 253.. 164B. doi : 10.1126/ciencia.1853201. PMID 1853201.
^ Jones DT, Taylor WR, Thornton JM (1992). "Un nuevo enfoque para el reconocimiento de pliegues de proteínas". Naturaleza . 358 (6381): 86–89. Código Bib :1992Natur.358...86J. doi :10.1038/358086a0. PMID 1614539. S2CID 4266346.
^ Peng, Jian; Jinbo Xu (2011). "RaptorX: explotación de información estructural para la alineación de proteínas mediante inferencia estadística". Proteínas . 79 Suplemento 10 (Suplemento 10): 161–171. doi :10.1002/prot.23175. PMC 3226909 . PMID 21987485.
^ Peng, Jian; Jinbo Xu (2010). "Enhebrado de proteínas de baja homología". Bioinformática . 26 (12): i294-i300. doi : 10.1093/bioinformática/btq192. PMC 2881377 . PMID 20529920.
^ Peng, Jian; Jinbo Xu (abril de 2011). "Un enfoque de plantillas múltiples para el procesamiento de proteínas". Proteínas . 79 (6): 1930-1939. doi :10.1002/prot.23016. PMC 3092796 . PMID 21465564.
^ Mamá, Jianzhu; Sheng Wang; Jinbo Xu (junio de 2012). "Un modelo de campos neuronales condicional para el enhebrado de proteínas". Bioinformática . 28 (12): i59–66. doi : 10.1093/bioinformática/bts213. PMC 3371845 . PMID 22689779.
^ Wu S, Zhang Y (2008). "MUSTER: Mejora de las alineaciones perfil-perfil de secuencia de proteínas mediante el uso de múltiples fuentes de información estructural". Proteínas . 72 (2): 547–56. doi :10.1002/prot.21945. PMC 2666101 . PMID 18247410.
^ Yang Y, Faraggi E, Zhao H, Zhou Y (2011). "Mejora del reconocimiento de pliegues de proteínas y el modelado basado en plantillas mediante el empleo de coincidencias basadas en probabilidades entre las propiedades estructurales unidimensionales predichas de la consulta y las propiedades nativas correspondientes de las plantillas". Bioinformática . 27 (15): 2076–2082. doi : 10.1093/bioinformática/btr350. PMC 3137224 . PMID 21666270.
^ Gront D, Blaszczyk M, Wojciechowski P, Kolinski A (2012). "BioShell Threader: detección de homología de proteínas basada en perfiles de secuencia y perfiles de estructura secundaria". Investigación de ácidos nucleicos . 40 (W1): W257-W262. doi : 10.1093/nar/gks555. PMC 3394251 . PMID 22693216.

Otras lecturas

Finkelstein, AV; Reva, BA (junio de 1991). "Una búsqueda de los pliegues más estables de las cadenas de proteínas". Naturaleza . 351 (6326): 497–9. Código Bib :1991Natur.351..497F. doi :10.1038/351497a0. PMID 2046752. S2CID 4319142.
Lathrop RH (1994). "El problema del enhebrado de proteínas con las preferencias de interacción de secuencias de aminoácidos es NP completo". Ing. Proteínas . 7 (9): 1059–1068. CiteSeerX 10.1.1.367.9081 . doi : 10.1093/proteína/7.9.1059. PMID 7831276.
Jones DT, Hadley C (2000). "Métodos de subprocesamiento para la predicción de la estructura de proteínas". En Higgins D, Taylor WR (eds.). Bioinformática: Secuencia, estructura y bancos de datos . Heidelberg: Springer-Verlag. págs. 1-13.
Xu J, Li M, Kim D, Xu Y (2003). "RAPTOR: Enhebrado óptimo de proteínas mediante programación lineal, el número inaugural". J Bioinform Comput Biol . 1 (1): 95-117. CiteSeerX 10.1.1.5.4844 . doi :10.1142/S0219720003000186. PMID 15290783.
Xu J, Li M, Lin G, Kim D, Xu Y (2003). "Enhebrado de proteínas mediante programación lineal". Biocomputación Pac Symp : 264–275. PMID 12603034.