stringtranslate.com

Threading (secuencia de proteínas)

En biología molecular , el enhebrado de proteínas , también conocido como reconocimiento de pliegues , es un método de modelado de proteínas que se utiliza para modelar aquellas proteínas que tienen el mismo pliegue que las proteínas de estructuras conocidas , pero que no tienen proteínas homólogas con estructura conocida. Se diferencia del método de predicción de estructuras de modelado por homología en que (enhebrado de proteínas) se usa para proteínas que no tienen sus estructuras proteicas homólogas depositadas en el Banco de datos de proteínas (PDB), mientras que el modelado por homología se usa para aquellas proteínas que sí las tienen. Threading funciona utilizando el conocimiento estadístico de la relación entre las estructuras depositadas en el PDB y la secuencia de la proteína que se desea modelar.

La predicción se realiza "enhebrando" (es decir, colocando, alineando) cada aminoácido en la secuencia diana en una posición en la estructura de la plantilla, y evaluando qué tan bien se ajusta la diana a la plantilla. Una vez seleccionada la plantilla que mejor se ajusta, se construye el modelo estructural de la secuencia en función de la alineación con la plantilla elegida. El enhebrado de proteínas se basa en dos observaciones básicas: que el número de pliegues diferentes en la naturaleza es bastante pequeño (aproximadamente 1300); y que el 90% de las nuevas estructuras presentadas al AP en los últimos tres años tienen pliegues estructurales similares a los que ya están en el AP.

Clasificación de la estructura de las proteínas.

La base de datos de Clasificación Estructural de Proteínas (SCOP) proporciona una descripción detallada y completa de las relaciones estructurales y evolutivas de la estructura conocida. Las proteínas se clasifican para reflejar la relación tanto estructural como evolutiva. Existen muchos niveles en la jerarquía, pero los niveles principales son familia , superfamilia y pliegue:

Método

Un paradigma general de enhebrado de proteínas consta de los siguientes cuatro pasos:

  1. La construcción de una base de datos de plantillas de estructuras: seleccione estructuras de proteínas de las bases de datos de estructuras de proteínas como plantillas estructurales. Esto generalmente implica seleccionar estructuras de proteínas de bases de datos como PDB , FSSP , SCOP o CATH , después de eliminar estructuras de proteínas con altas similitudes de secuencia.
  2. El diseño de la función de puntuación: Diseñe una buena función de puntuación para medir la adecuación entre las secuencias objetivo y las plantillas basándose en el conocimiento de las relaciones conocidas entre las estructuras y las secuencias. Una buena función de puntuación debe contener potencial de mutación, potencial de aptitud ambiental, potencial por pares, compatibilidades de estructuras secundarias y penalizaciones por brecha. La calidad de la función de energía está estrechamente relacionada con la precisión de la predicción, especialmente la precisión de la alineación.
  3. Alineación de subprocesos: alinee la secuencia objetivo con cada una de las plantillas de estructura optimizando la función de puntuación diseñada. Este paso es una de las tareas principales de todos los programas de predicción de estructuras basados ​​en subprocesos que tienen en cuenta el potencial de contacto por pares; de lo contrario, un algoritmo de programación dinámica puede cumplirlo.
  4. Predicción de subprocesos: seleccione la alineación de subprocesos que sea estadísticamente más probable como predicción de subprocesos. Luego, construya un modelo de estructura para el objetivo colocando los átomos del esqueleto de la secuencia objetivo en sus posiciones alineadas del esqueleto de la plantilla estructural seleccionada.

Comparación con el modelado de homología.

El modelado de homología y el subprocesamiento de proteínas son métodos basados ​​en plantillas y no existe un límite riguroso entre ellos en términos de técnicas de predicción. Pero las estructuras proteicas de sus objetivos son diferentes. El modelado de homología es para aquellos objetivos que tienen proteínas homólogas con estructura conocida (generalmente/tal vez de la misma familia), mientras que el enhebrado de proteínas es para aquellos objetivos en los que solo se encuentra homología a nivel de pliegue. En otras palabras, el modelado de homología es para objetivos "más fáciles" y el enhebrado de proteínas es para objetivos "más difíciles".

El modelado de homología trata la plantilla en una alineación como una secuencia y solo se utiliza la homología de secuencia para la predicción. El enhebrado de proteínas trata la plantilla en una alineación como una estructura, y tanto la información de secuencia como la estructura extraída de la alineación se utilizan para la predicción. Cuando no se encuentra una homología significativa, el enhebrado de proteínas puede hacer una predicción basada en la información de la estructura. Eso también explica por qué el enhebrado de proteínas puede ser más eficaz que el modelado por homología en muchos casos.

En la práctica, cuando la identidad de secuencia en una alineación de secuencia es baja (es decir, <25%), el modelado de homología puede no producir una predicción significativa. En este caso, si se encuentra una homología distante para el objetivo, el enhebrado de proteínas puede generar una buena predicción.

Más sobre enhebrar

Los métodos de reconocimiento de pliegues se pueden dividir en términos generales en dos tipos: aquellos que derivan un perfil 1-D para cada estructura en la biblioteca de pliegues y alinean la secuencia objetivo con estos perfiles; y aquellos que consideran la estructura tridimensional completa de la plantilla de proteína. Un ejemplo sencillo de representación de perfil sería tomar cada aminoácido de la estructura y simplemente etiquetarlo según si está enterrado en el núcleo de la proteína o expuesto en la superficie. Perfiles más elaborados podrían tener en cuenta la estructura secundaria local (por ejemplo, si el aminoácido es parte de una hélice alfa ) o incluso información evolutiva (qué tan conservado está el aminoácido). En la representación tridimensional, la estructura se modela como un conjunto de distancias interatómicas, es decir, las distancias se calculan entre algunos o todos los pares de átomos de la estructura. Esta es una descripción mucho más rica y flexible de la estructura, pero es mucho más difícil de utilizar para calcular una alineación. El enfoque de reconocimiento de pliegues basado en perfiles fue descrito por primera vez por Bowie, Lüthy y David Eisenberg en 1991. [1] El término threading fue acuñado por primera vez por David Jones , William R. Taylor y Janet Thornton en 1992, [2] y originalmente se refería específicamente al uso de una representación atómica de estructura tridimensional completa de la plantilla de proteína en el reconocimiento de pliegues. Hoy en día, los términos enhebrado y reconocimiento de pliegues se utilizan con frecuencia (aunque de forma algo incorrecta) indistintamente.

Los métodos de reconocimiento de pliegues se utilizan ampliamente y son eficaces porque se cree que existe un número estrictamente limitado de pliegues de proteínas diferentes en la naturaleza, principalmente como resultado de la evolución, pero también debido a las limitaciones impuestas por la física y la química básicas de las cadenas polipeptídicas. Por lo tanto, existe una buena probabilidad (actualmente entre el 70 y el 80 %) de que una proteína que tenga un pliegue similar al de la proteína diana ya haya sido estudiada mediante cristalografía de rayos X o espectroscopia de resonancia magnética nuclear (RMN) y pueda encontrarse en el AP.D. Actualmente se conocen casi 1.300 pliegues de proteínas diferentes, pero cada año se siguen descubriendo nuevos pliegues debido en gran parte a los proyectos de genómica estructural en curso .

Se han propuesto muchos algoritmos diferentes para encontrar el enhebrado correcto de una secuencia en una estructura, aunque muchos utilizan programación dinámica de alguna forma. Para el roscado 3-D completo, el problema de identificar la mejor alineación es muy difícil (es un problema NP-difícil para algunos modelos de roscado). [ cita necesaria ] Los investigadores han utilizado muchos métodos de optimización combinatoria, como campos aleatorios condicionales , recocido simulado , programación lineal y de ramificación , buscando llegar a soluciones heurísticas. Es interesante comparar los métodos de subprocesos con métodos que intentan alinear dos estructuras de proteínas ( alineamiento estructural de proteínas ) y, de hecho, se han aplicado muchos de los mismos algoritmos a ambos problemas.

Software de enhebrado de proteínas

Ver también

Referencias

  1. ^ Bowie JU, Lüthy R, Eisenberg D (1991). "Un método para identificar secuencias de proteínas que se pliegan en una estructura tridimensional conocida". Ciencia . 253 (5016): 164-170. Código Bib : 1991 Ciencia... 253.. 164B. doi : 10.1126/ciencia.1853201. PMID  1853201.
  2. ^ Jones DT, Taylor WR, Thornton JM (1992). "Un nuevo enfoque para el reconocimiento de pliegues de proteínas". Naturaleza . 358 (6381): 86–89. Código Bib :1992Natur.358...86J. doi :10.1038/358086a0. PMID  1614539. S2CID  4266346.
  3. ^ Peng, Jian; Jinbo Xu (2011). "RaptorX: explotación de información estructural para la alineación de proteínas mediante inferencia estadística". Proteínas . 79 Suplemento 10 (Suplemento 10): 161–171. doi :10.1002/prot.23175. PMC 3226909 . PMID  21987485. 
  4. ^ Peng, Jian; Jinbo Xu (2010). "Enhebrado de proteínas de baja homología". Bioinformática . 26 (12): i294-i300. doi : 10.1093/bioinformática/btq192. PMC 2881377 . PMID  20529920. 
  5. ^ Peng, Jian; Jinbo Xu (abril de 2011). "Un enfoque de plantillas múltiples para el procesamiento de proteínas". Proteínas . 79 (6): 1930-1939. doi :10.1002/prot.23016. PMC 3092796 . PMID  21465564. 
  6. ^ Mamá, Jianzhu; Sheng Wang; Jinbo Xu (junio de 2012). "Un modelo de campos neuronales condicional para el enhebrado de proteínas". Bioinformática . 28 (12): i59–66. doi : 10.1093/bioinformática/bts213. PMC 3371845 . PMID  22689779. 
  7. ^ Wu S, Zhang Y (2008). "MUSTER: Mejora de las alineaciones perfil-perfil de secuencia de proteínas mediante el uso de múltiples fuentes de información estructural". Proteínas . 72 (2): 547–56. doi :10.1002/prot.21945. PMC 2666101 . PMID  18247410. 
  8. ^ Yang Y, Faraggi E, Zhao H, Zhou Y (2011). "Mejora del reconocimiento de pliegues de proteínas y el modelado basado en plantillas mediante el empleo de coincidencias basadas en probabilidades entre las propiedades estructurales unidimensionales predichas de la consulta y las propiedades nativas correspondientes de las plantillas". Bioinformática . 27 (15): 2076–2082. doi : 10.1093/bioinformática/btr350. PMC 3137224 . PMID  21666270. 
  9. ^ Gront D, Blaszczyk M, Wojciechowski P, Kolinski A (2012). "BioShell Threader: detección de homología de proteínas basada en perfiles de secuencia y perfiles de estructura secundaria". Investigación de ácidos nucleicos . 40 (W1): W257-W262. doi : 10.1093/nar/gks555. PMC 3394251 . PMID  22693216. 

Otras lecturas