stringtranslate.com

Enhebrado (secuencia de proteínas)

En biología molecular , el enhebrado de proteínas , también conocido como reconocimiento de pliegues , es un método de modelado de proteínas que se utiliza para modelar aquellas proteínas que tienen el mismo pliegue que las proteínas de estructuras conocidas , pero que no tienen proteínas homólogas con estructura conocida. Se diferencia del método de modelado por homología de predicción de la estructura, ya que (enhebrado de proteínas) se utiliza para proteínas que no tienen sus estructuras proteicas homólogas depositadas en el Banco de Datos de Proteínas (PDB), mientras que el modelado por homología se utiliza para aquellas proteínas que sí las tienen. El enhebrado funciona utilizando el conocimiento estadístico de la relación entre las estructuras depositadas en el PDB y la secuencia de la proteína que se desea modelar.

La predicción se realiza "enhebrando" (es decir, colocando, alineando) cada aminoácido en la secuencia objetivo con una posición en la estructura de la plantilla, y evaluando qué tan bien se ajusta el objetivo a la plantilla. Una vez que se selecciona la plantilla que mejor se ajusta, se construye el modelo estructural de la secuencia en función de la alineación con la plantilla elegida. El enhebrado de proteínas se basa en dos observaciones básicas: que el número de pliegues diferentes en la naturaleza es bastante pequeño (aproximadamente 1300); y que el 90% de las nuevas estructuras presentadas al PDB en los últimos tres años tienen pliegues estructurales similares a los que ya figuran en el PDB.

Clasificación de la estructura de las proteínas

La base de datos de Clasificación estructural de proteínas (SCOP) proporciona una descripción detallada y completa de las relaciones estructurales y evolutivas de las estructuras conocidas. Las proteínas se clasifican para reflejar tanto la relación estructural como la evolutiva. Existen muchos niveles en la jerarquía, pero los principales son familia , superfamilia y plegamiento:

Método

Un paradigma general del enhebrado de proteínas consta de los cuatro pasos siguientes:

  1. Construcción de una base de datos de plantillas de estructura : seleccione estructuras de proteínas de las bases de datos de estructuras de proteínas como plantillas estructurales. Esto generalmente implica seleccionar estructuras de proteínas de bases de datos como Protein Data Bank (PDB), Families of Structurally Similar Proteins database (FSSP), Structural Classification of Proteins database (SCOP) o CATH database , después de eliminar las estructuras de proteínas con altas similitudes de secuencia.
  2. El diseño de la función de puntuación: Diseñe una buena función de puntuación para medir la aptitud entre las secuencias objetivo y las plantillas basándose en el conocimiento de las relaciones conocidas entre las estructuras y las secuencias. Una buena función de puntuación debe contener potencial de mutación, potencial de aptitud ambiental, potencial de pares, compatibilidades de estructuras secundarias y penalizaciones por brechas. La calidad de la función de energía está estrechamente relacionada con la precisión de la predicción, especialmente la precisión de la alineación.
  3. Alineación de subprocesos: alinee la secuencia objetivo con cada una de las plantillas de estructura optimizando la función de puntuación diseñada. Este paso es una de las principales tareas de todos los programas de predicción de estructura basados ​​en subprocesos que tienen en cuenta el potencial de contacto por pares; de lo contrario, un algoritmo de programación dinámica puede realizarlo.
  4. Predicción de enhebrado: seleccione la alineación de enhebrado que sea estadísticamente más probable como predicción de enhebrado. Luego, construya un modelo de estructura para el objetivo colocando los átomos de la cadena principal de la secuencia objetivo en sus posiciones de cadena principal alineadas de la plantilla estructural seleccionada.

Comparación con el modelado de homología

El modelado por homología y el enhebrado de proteínas son métodos basados ​​en plantillas y no existe un límite riguroso entre ellos en términos de técnicas de predicción. Pero las estructuras proteínicas de sus objetivos son diferentes. El modelado por homología es para aquellos objetivos que tienen proteínas homólogas con estructura conocida (generalmente/tal vez de la misma familia), mientras que el enhebrado de proteínas es para aquellos objetivos en los que solo se encontró homología a nivel de plegamiento. En otras palabras, el modelado por homología es para objetivos "más fáciles" y el enhebrado de proteínas es para objetivos "más difíciles".

El modelado por homología trata la plantilla en una alineación como una secuencia y solo se utiliza la homología de secuencia para la predicción. El enhebrado de proteínas trata la plantilla en una alineación como una estructura y tanto la información de la secuencia como la de la estructura extraída de la alineación se utilizan para la predicción. Cuando no se encuentra una homología significativa, el enhebrado de proteínas puede hacer una predicción basada en la información de la estructura. Eso también explica por qué el enhebrado de proteínas puede ser más eficaz que el modelado por homología en muchos casos.

En la práctica, cuando la identidad de secuencia en una alineación de secuencias es baja (es decir, <25 %), el modelado de homología puede no producir una predicción significativa. En este caso, si se encuentra una homología distante para el objetivo, el enhebrado de proteínas puede generar una buena predicción.

Más información sobre el enhebrado

Los métodos de reconocimiento de pliegues se pueden dividir en dos tipos: los que derivan un perfil 1-D para cada estructura en la biblioteca de pliegues y alinean la secuencia objetivo con estos perfiles; y los que consideran la estructura 3-D completa de la plantilla de proteína. Un ejemplo simple de una representación de perfil sería tomar cada aminoácido en la estructura y simplemente etiquetarlo de acuerdo a si está enterrado en el núcleo de la proteína o expuesto en la superficie. Los perfiles más elaborados podrían tener en cuenta la estructura secundaria local (por ejemplo, si el aminoácido es parte de una hélice alfa ) o incluso información evolutiva (qué tan conservado está el aminoácido). En la representación 3-D, la estructura se modela como un conjunto de distancias interatómicas, es decir, las distancias se calculan entre algunos o todos los pares de átomos en la estructura. Esta es una descripción mucho más rica y mucho más flexible de la estructura, pero es mucho más difícil de usar para calcular una alineación. El enfoque de reconocimiento de pliegues basado en perfiles fue descrito por primera vez por Bowie, Lüthy y David Eisenberg en 1991. [1] El término "enhebrado" fue acuñado por primera vez por David Jones , William R. Taylor y Janet Thornton en 1992, [2] y originalmente se refería específicamente al uso de una representación atómica de la estructura tridimensional completa de la plantilla de proteína en el reconocimiento de pliegues. Hoy en día, los términos "enhebrado" y "reconocimiento de pliegues" se usan con frecuencia (aunque de manera algo incorrecta) de manera intercambiable.

Los métodos de reconocimiento de pliegues se utilizan ampliamente y son eficaces porque se cree que existe un número estrictamente limitado de pliegues proteicos diferentes en la naturaleza, principalmente como resultado de la evolución, pero también debido a las restricciones impuestas por la física y la química básicas de las cadenas polipeptídicas. Por lo tanto, existe una buena probabilidad (actualmente del 70-80 %) de que una proteína que tenga un pliegue similar al de la proteína objetivo ya haya sido estudiada mediante cristalografía de rayos X o espectroscopia de resonancia magnética nuclear (RMN) y se pueda encontrar en el PDB. Actualmente se conocen casi 1300 pliegues proteicos diferentes, pero se siguen descubriendo nuevos pliegues cada año debido en gran parte a los proyectos de genómica estructural en curso .

Se han propuesto muchos algoritmos diferentes para encontrar el enhebrado correcto de una secuencia en una estructura, aunque muchos hacen uso de la programación dinámica en alguna forma. Para el enhebrado completo en 3-D, el problema de identificar la mejor alineación es muy difícil (es un problema NP-hard para algunos modelos de enhebrado). [ cita requerida ] Los investigadores han hecho uso de muchos métodos de optimización combinatoria como campos aleatorios condicionales , recocido simulado , ramificación y acotación y programación lineal , buscando llegar a soluciones heurísticas. Es interesante comparar los métodos de enhebrado con los métodos que intentan alinear dos estructuras de proteínas ( alineamiento estructural de proteínas ), y de hecho muchos de los mismos algoritmos se han aplicado a ambos problemas.

Software de enhebrado de proteínas

Véase también

Referencias

  1. ^ Bowie JU, Lüthy R, Eisenberg D (1991). "Un método para identificar secuencias de proteínas que se pliegan en una estructura tridimensional conocida". Science . 253 (5016): 164–170. Bibcode :1991Sci...253..164B. doi :10.1126/science.1853201. PMID  1853201.
  2. ^ Jones DT, Taylor WR, Thornton JM (1992). "Un nuevo enfoque para el reconocimiento de plegamientos de proteínas". Nature . 358 (6381): 86–89. Bibcode :1992Natur.358...86J. doi :10.1038/358086a0. PMID  1614539. S2CID  4266346.
  3. ^ Peng, Jian; Jinbo Xu (2011). "RaptorX: explotación de la información estructural para el alineamiento de proteínas mediante inferencia estadística". Proteins . 79 Suppl 10 (Suppl 10): 161–171. doi :10.1002/prot.23175. PMC 3226909 . PMID  21987485. 
  4. ^ Peng, Jian; Jinbo Xu (2010). "Enhebrado de proteínas de baja homología". Bioinformática . 26 (12): i294–i300. doi :10.1093/bioinformatics/btq192. PMC 2881377 . PMID  20529920. 
  5. ^ Peng, Jian; Jinbo Xu (abril de 2011). "Un enfoque de múltiples plantillas para el enhebrado de proteínas". Proteins . 79 (6): 1930–1939. doi :10.1002/prot.23016. PMC 3092796 . PMID  21465564. 
  6. ^ Ma, Jianzhu; Sheng Wang; Jinbo Xu (junio de 2012). "Un modelo de campos neuronales condicionales para el enhebrado de proteínas". Bioinformática . 28 (12): i59–66. doi :10.1093/bioinformatics/bts213. PMC 3371845 . PMID  22689779. 
  7. ^ Wu S, Zhang Y (2008). "MUSTER: Mejora de los alineamientos entre perfiles de secuencias de proteínas mediante el uso de múltiples fuentes de información estructural". Proteins . 72 (2): 547–56. doi :10.1002/prot.21945. PMC 2666101 . PMID  18247410. 
  8. ^ Yang Y, Faraggi E, Zhao H, Zhou Y (2011). "Mejora del reconocimiento de pliegues de proteínas y el modelado basado en plantillas mediante el empleo de una correspondencia basada en la probabilidad entre las propiedades estructurales unidimensionales predichas de la consulta y las propiedades nativas correspondientes de las plantillas". Bioinformática . 27 (15): 2076–2082. doi :10.1093/bioinformatics/btr350. PMC 3137224 . PMID  21666270. 
  9. ^ Gront D, Blaszczyk M, Wojciechowski P, Kolinski A (2012). "BioShell Threader: detección de homología de proteínas basada en perfiles de secuencia y perfiles de estructura secundaria". Investigación de ácidos nucleicos . 40 (W1): W257–W262. doi :10.1093/nar/gks555. PMC 3394251 . PMID  22693216. 

Lectura adicional