stringtranslate.com

Modelado de homología

Modelo de homología de la proteína DHRS7B creado con Swiss-model y renderizado con PyMOL

El modelado de homología , también conocido como modelado comparativo de proteínas, se refiere a la construcción de un modelo de resolución atómica de la proteína " objetivo " a partir de su secuencia de aminoácidos y una estructura tridimensional experimental de una proteína homóloga relacionada (la " plantilla "). El modelado de homología se basa en la identificación de una o más estructuras proteicas conocidas que probablemente se parezcan a la estructura de la secuencia de consulta y en la producción de una alineación que mapee los residuos de la secuencia de consulta con los residuos de la secuencia plantilla. Se ha visto que las estructuras de las proteínas están más conservadas que las secuencias de proteínas entre homólogos, pero las secuencias que caen por debajo de una identidad de secuencia del 20% pueden tener una estructura muy diferente. [1]

Las proteínas relacionadas evolutivamente tienen secuencias similares y las proteínas homólogas naturales tienen una estructura proteica similar. Se ha demostrado que la estructura tridimensional de las proteínas está evolutivamente más conservada de lo que se esperaría basándose únicamente en la conservación de la secuencia. [2]

Luego, la alineación de secuencias y la estructura de la plantilla se utilizan para producir un modelo estructural de la diana. Porque las estructuras de las proteínas están más conservadas que las secuencias de ADN, y los niveles detectables de similitud de secuencia generalmente implican una similitud estructural significativa. [3]

La calidad del modelo de homología depende de la calidad de la alineación de secuencias y la estructura de la plantilla. El enfoque puede complicarse por la presencia de espacios de alineación (comúnmente llamados indeles) que indican una región estructural presente en el objetivo pero no en la plantilla, y por espacios de estructura en la plantilla que surgen de una mala resolución en el procedimiento experimental (generalmente X -cristalografía de rayos ) utilizado para resolver la estructura. La calidad del modelo disminuye al disminuir la identidad de secuencia ; un modelo típico tiene una desviación cuadrática media de ~ 1–2 Å entre los átomos de C α emparejados con una identidad de secuencia del 70%, pero solo una concordancia de 2–4 Å con una identidad de secuencia del 25%. Sin embargo, los errores son significativamente mayores en las regiones de bucle, donde las secuencias de aminoácidos de las proteínas diana y molde pueden ser completamente diferentes.

Las regiones del modelo que se construyeron sin una plantilla, normalmente mediante modelado de bucles , suelen ser mucho menos precisas que el resto del modelo. Los errores en el empaque y la posición de la cadena lateral también aumentan al disminuir la identidad, y las variaciones en estas configuraciones de empaque se han sugerido como una de las principales razones de la mala calidad del modelo con baja identidad. [4] En conjunto, estos diversos errores de posición atómica son importantes e impiden el uso de modelos de homología para fines que requieren datos de resolución atómica, como el diseño de fármacos y las predicciones de interacciones proteína-proteína ; incluso la estructura cuaternaria de una proteína puede ser difícil de predecir a partir de modelos de homología de su(s) subunidad(es). Sin embargo, los modelos de homología pueden ser útiles para llegar a conclusiones cualitativas sobre la bioquímica de la secuencia de consulta, especialmente al formular hipótesis sobre por qué se conservan ciertos residuos, lo que a su vez puede conducir a experimentos para probar esas hipótesis. Por ejemplo, la disposición espacial de los residuos conservados puede sugerir si un residuo particular se conserva para estabilizar el plegamiento, para participar en la unión de alguna molécula pequeña o para fomentar la asociación con otra proteína o ácido nucleico.

El modelado de homología puede producir modelos estructurales de alta calidad cuando el objetivo y la plantilla están estrechamente relacionados, lo que ha inspirado la formación de un consorcio de genómica estructural dedicado a la producción de estructuras experimentales representativas para todas las clases de pliegues de proteínas. [5] Las principales imprecisiones en el modelado de homología, que empeoran con una menor identidad de secuencia , se derivan de errores en la alineación inicial de la secuencia y de una selección inadecuada de la plantilla. [6] Al igual que otros métodos de predicción de estructuras, la práctica actual en el modelado de homología se evalúa en un experimento bienal a gran escala conocido como Evaluación Crítica de Técnicas para la Predicción de la Estructura de Proteínas, o CASP .

Motivo

El método de modelado por homología se basa en la observación de que la estructura terciaria de las proteínas se conserva mejor que la secuencia de aminoácidos . [3] Por lo tanto, incluso las proteínas que han divergido apreciablemente en secuencia pero que aún comparten similitudes detectables también compartirán propiedades estructurales comunes, particularmente el pliegue general. Debido a que es difícil y requiere mucho tiempo obtener estructuras experimentales a partir de métodos como la cristalografía de rayos X y la RMN de proteínas para cada proteína de interés, el modelado por homología puede proporcionar modelos estructurales útiles para generar hipótesis sobre la función de una proteína y dirigir trabajos experimentales adicionales.

Hay excepciones a la regla general de que las proteínas que comparten una identidad de secuencia significativa compartirán un pliegue. Por ejemplo, un conjunto de mutaciones cuidadosamente elegido de menos del 50% de una proteína puede hacer que la proteína adopte un pliegue completamente diferente. [7] [8] Sin embargo, es poco probable que se produzca un reordenamiento estructural tan masivo en la evolución , especialmente porque la proteína suele estar bajo la restricción de que debe plegarse adecuadamente y llevar a cabo su función en la célula. En consecuencia, la estructura toscamente plegada de una proteína (su "topología") se conserva por más tiempo que su secuencia de aminoácidos y mucho más que la secuencia de ADN correspondiente; en otras palabras, dos proteínas pueden compartir un pliegue similar incluso si su relación evolutiva es tan distante que no puede discernirse de manera confiable. En comparación, la función de una proteína se conserva mucho menos que la secuencia de la proteína, ya que se requieren relativamente pocos cambios en la secuencia de aminoácidos para asumir una función relacionada.

Pasos en la producción de modelos.

El procedimiento de modelado de homología se puede dividir en cuatro pasos secuenciales: selección de plantilla, alineación de plantilla objetivo, construcción de modelo y evaluación del modelo. [3] Los dos primeros pasos a menudo se realizan esencialmente juntos, ya que los métodos más comunes para identificar plantillas se basan en la producción de alineamientos de secuencias; sin embargo, estas alineaciones pueden no ser de suficiente calidad porque las técnicas de búsqueda en bases de datos priorizan la velocidad sobre la calidad de la alineación. Estos procesos se pueden realizar de forma iterativa para mejorar la calidad del modelo final, aunque aún se están desarrollando evaluaciones de calidad que no dependen de la verdadera estructura objetivo.

Optimizar la velocidad y precisión de estos pasos para su uso en la predicción automatizada de estructuras a gran escala es un componente clave de las iniciativas de genómica estructural, en parte porque el volumen de datos resultante será demasiado grande para procesarlo manualmente y en parte porque el objetivo de la genómica estructural requiere proporcionar modelos de calidad razonable a investigadores que no sean expertos en predicción de estructuras. [3]

Selección de plantillas y alineación de secuencias.

El primer paso fundamental en el modelado de homología es la identificación de la mejor estructura de plantilla, si es que hay alguna disponible. El método más simple de identificación de plantillas se basa en alineamientos de secuencias en pares en serie con la ayuda de técnicas de búsqueda en bases de datos como FASTA y BLAST . Los métodos más sensibles basados ​​en el alineamiento de secuencias múltiples , de los cuales PSI-BLAST es el ejemplo más común, actualizan iterativamente su matriz de puntuación específica de la posición para identificar sucesivamente homólogos relacionados más lejanamente. Se ha demostrado que esta familia de métodos produce una mayor cantidad de plantillas potenciales e identifica mejores plantillas para secuencias que solo tienen relaciones distantes con cualquier estructura resuelta. El enhebrado de proteínas , [9] también conocido como reconocimiento de pliegues o alineación 3D-1D, también se puede utilizar como técnica de búsqueda para identificar plantillas que se utilizarán en métodos tradicionales de modelado por homología. [3] Experimentos recientes de CASP indican que algunos métodos de enhebrado de proteínas, como RaptorX , de hecho son más sensibles que los métodos basados ​​puramente en secuencias (perfiles) cuando solo están disponibles plantillas relacionadas lejanamente para las proteínas bajo predicción. Al realizar una búsqueda BLAST, un primer enfoque confiable es identificar resultados con un valor E suficientemente bajo , que se consideran lo suficientemente cercanos en evolución para crear un modelo de homología confiable. Otros factores pueden inclinar la balanza en casos marginales; por ejemplo, la plantilla puede tener una función similar a la de la secuencia de consulta, o puede pertenecer a un operón homólogo . Sin embargo, generalmente no se debe elegir una plantilla con un valor E deficiente , incluso si es la única disponible, ya que puede tener una estructura incorrecta, lo que conduciría a la producción de un modelo equivocado. Un mejor enfoque es enviar la secuencia primaria a servidores de reconocimiento de pliegues [9] o, mejor aún, metaservidores de consenso que mejoran los servidores de reconocimiento de pliegues individuales al identificar similitudes (consenso) entre predicciones independientes.

A menudo, estos enfoques identifican varias estructuras de plantilla candidatas. Aunque algunos métodos pueden generar modelos híbridos con mayor precisión a partir de múltiples plantillas, [9] [10] la mayoría de los métodos se basan en una única plantilla. Por lo tanto, elegir la mejor plantilla entre las candidatas es un paso clave y puede afectar significativamente a la precisión final de la estructura. Esta elección está guiada por varios factores, como la similitud de las secuencias de consulta y plantilla, de sus funciones y de la consulta predicha y las estructuras secundarias de plantilla observadas . Quizás lo más importante sea la cobertura de las regiones alineadas: la fracción de la estructura de la secuencia de consulta que se puede predecir a partir de la plantilla y la plausibilidad del modelo resultante. Por lo tanto, a veces se producen varios modelos de homología para una única secuencia de consulta, y el candidato más probable se elige sólo en el paso final.

Es posible utilizar la alineación de secuencias generada por la técnica de búsqueda en bases de datos como base para la posterior producción del modelo; sin embargo, también se han explorado enfoques más sofisticados. Una propuesta genera un conjunto de alineamientos por pares definidos estocásticamente entre la secuencia objetivo y una única plantilla identificada como un medio para explorar el "espacio de alineación" en regiones de secuencia con baja similitud local. [11] Alineaciones "perfil-perfil" que primero generan un perfil de secuencia del objetivo y lo comparan sistemáticamente con los perfiles de secuencia de estructuras resueltas; Se cree que el grano grueso inherente a la construcción del perfil reduce el ruido introducido por la deriva de la secuencia en regiones no esenciales de la secuencia. [12]

Generación de modelos

Dada una plantilla y una alineación, la información contenida en ella debe usarse para generar un modelo estructural tridimensional del objetivo, representado como un conjunto de coordenadas cartesianas para cada átomo de la proteína. Se han propuesto tres clases principales de métodos de generación de modelos. [13] [14]

Conjunto de fragmentos

El método original de modelado por homología se basaba en el ensamblaje de un modelo completo a partir de fragmentos estructurales conservados identificados en estructuras resueltas estrechamente relacionadas. Por ejemplo, un estudio de modelado de serina proteasas en mamíferos identificó una marcada distinción entre regiones estructurales "centrales" conservadas en todas las estructuras experimentales de la clase y regiones variables típicamente ubicadas en los bucles donde se localizaban la mayoría de las diferencias de secuencia. Por lo tanto, las proteínas no resueltas podrían modelarse construyendo primero el núcleo conservado y luego sustituyendo regiones variables de otras proteínas en el conjunto de estructuras resueltas. [15] Las implementaciones actuales de este método difieren principalmente en la forma en que tratan las regiones que no se conservan o que carecen de una plantilla. [16] Las regiones variables a menudo se construyen con la ayuda de bibliotecas de fragmentos .

Coincidencia de segmentos

El método de coincidencia de segmentos divide el objetivo en una serie de segmentos cortos, cada uno de los cuales se compara con su propia plantilla obtenida del Protein Data Bank . Por tanto, el alineamiento de secuencias se realiza sobre segmentos en lugar de sobre la proteína completa. La selección de la plantilla para cada segmento se basa en la similitud de secuencia, comparaciones de coordenadas de carbono alfa y conflictos estéricos previstos que surgen de los radios de van der Waals de los átomos divergentes entre el objetivo y la plantilla. [17]

Satisfacción de las restricciones espaciales.

El método de modelado de homología actual más común se inspira en los cálculos necesarios para construir una estructura tridimensional a partir de datos generados por espectroscopia de RMN . Se utilizan una o más alineaciones de plantilla objetivo para construir un conjunto de criterios geométricos que luego se convierten en funciones de densidad de probabilidad para cada restricción. Las restricciones aplicadas a las principales coordenadas internas de las proteínas ( distancias de la columna vertebral de las proteínas y ángulos diédricos ) sirven como base para un procedimiento de optimización global que originalmente utilizó la minimización de energía del gradiente conjugado para refinar iterativamente las posiciones de todos los átomos pesados ​​en la proteína. [18]

Este método se ha ampliado drásticamente para aplicarlo específicamente al modelado de bucles, lo que puede resultar extremadamente difícil debido a la alta flexibilidad de los bucles en las proteínas en solución acuosa . [19] Una expansión más reciente aplica el modelo de restricción espacial a mapas de densidad electrónica derivados de estudios de microscopía crioelectrónica , que proporcionan información de baja resolución que generalmente no es suficiente en sí misma para generar modelos estructurales de resolución atómica. [20] Para abordar el problema de las imprecisiones en la alineación inicial de la secuencia objetivo-plantilla, también se ha introducido un procedimiento iterativo para refinar la alineación sobre la base del ajuste estructural inicial. [21] El software más comúnmente utilizado en el modelado basado en restricciones espaciales es MODELLER y se ha establecido una base de datos llamada ModBase para modelos confiables generados con él. [22]

Modelado de bucles

Las regiones de la secuencia objetivo que no están alineadas con una plantilla se modelan mediante modelado de bucles ; son los más susceptibles a errores importantes de modelado y ocurren con mayor frecuencia cuando el objetivo y la plantilla tienen una identidad de secuencia baja. Las coordenadas de secciones no coincidentes determinadas por programas de modelado de bucles son generalmente mucho menos precisas que las obtenidas simplemente copiando las coordenadas de una estructura conocida, particularmente si el bucle tiene más de 10 residuos. Los dos primeros ángulos diédricos de la cadena lateral (χ 1 y χ 2 ) generalmente se pueden estimar dentro de los 30 ° para obtener una estructura central precisa; sin embargo, los ángulos diédricos posteriores que se encuentran en cadenas laterales más largas, como la lisina y la arginina, son muy difíciles de predecir. Además, pequeños errores en χ 1 (y, en menor medida, en χ 2 ) pueden causar errores relativamente grandes en las posiciones de los átomos en el extremo de la cadena lateral; Estos átomos suelen tener una importancia funcional, particularmente cuando se encuentran cerca del sitio activo .

Evaluación del modelo

Se han desarrollado una gran cantidad de métodos para seleccionar una estructura similar a la nativa a partir de un conjunto de modelos. Las funciones de puntuación se han basado tanto en funciones de energía de mecánica molecular (Lazaridis y Karplus 1999; Petrey y Honig 2000; Feig y Brooks 2002; Felts et al. 2002; Lee y Duan 2004), potenciales estadísticos (Sippl 1995; Melo y Feytmans 1998; Samudrala y Moult 1998; Rojnuckarin y Subramaniam 1999; Lu y Skolnick 2001; Wallqvist et al. 2002; Park et al. 1997; Summa et al. al. al. 2005), interacciones locales de cadena lateral y columna vertebral (Fang y Shortle 2005), propiedades dependientes de la orientación (Buchete et al. 2004a,b; Hamelryck 2005), estimaciones de empaquetamiento (Berglund et al. 2004), energía de solvatación (Petrey). y Honig 2000; McConkey et al. 2003; Wallner y Elofsson 2003; Berglund et al. 2004), enlaces de hidrógeno (Kortemme et al. 2003) y propiedades geométricas (Colovos y Yeates 1993; Kleywegt 2000; Lovell et al. 2003; Mihalek et al. 2003). Varios métodos combinan diferentes potenciales en una puntuación global, generalmente utilizando una combinación lineal de términos (Kortemme et al. 2003; Tosatto 2005), o con la ayuda de técnicas de aprendizaje automático, como redes neuronales (Wallner y Elofsson 2003) y máquinas de vectores de soporte (SVM) (Eramian et al. 2006). Se pueden encontrar comparaciones de diferentes programas de evaluación de la calidad de modelos globales en artículos recientes de Pettitt et al. (2005), Tosatto (2005) y Eramian et al. (2006).

Se ha informado de menos trabajo sobre la evaluación de la calidad local de los modelos. Las puntuaciones locales son importantes en el contexto del modelado porque pueden dar una estimación de la confiabilidad de diferentes regiones de una estructura predicha. Esta información se puede utilizar a su vez para determinar qué regiones deben refinarse, cuáles deben considerarse para el modelado mediante múltiples plantillas y cuáles deben predecirse desde el principio. La información sobre la calidad del modelo local también podría usarse para reducir el problema combinatorio al considerar alineamientos alternativos; por ejemplo, al calificar diferentes modelos locales por separado, se tendrían que construir menos modelos (suponiendo que las interacciones entre las distintas regiones sean insignificantes o puedan estimarse por separado).

Uno de los métodos de puntuación local más utilizados es Verify3D (Luthy et al. 1992; Eisenberg et al. 1997), que combina estructura secundaria, accesibilidad a disolventes y polaridad de los entornos de residuos. ProsaII (Sippl 1993), que se basa en una combinación de un potencial estadístico por pares y un término de solvatación, también se aplica ampliamente en la evaluación de modelos. Otros métodos incluyen el programa Errat (Colovos y Yeates 1993), que considera distribuciones de átomos no enlazados según el tipo de átomo y la distancia, y el método de deformación energética (Maiorov y Abagyan 1998), que utiliza diferencias de las energías residuales promedio en diferentes ambientes para indicar qué partes de la estructura de una proteína podrían ser problemáticas. Melo y Feytmans (1998) utilizan un potencial de pares atómicos y un potencial de solvatación basado en la superficie (ambos basados ​​en el conocimiento) para evaluar las estructuras de las proteínas. Aparte del método de deformación energética, que es un enfoque semiempírico basado en el campo de fuerza ECEPP3 (Nemethy et al. 1992), todos los métodos locales enumerados anteriormente se basan en potenciales estadísticos. Un enfoque conceptualmente distinto es el método ProQres, introducido recientemente por Wallner y Elofsson (2006). ProQres se basa en una red neuronal que combina características estructurales para distinguir las regiones correctas de las incorrectas. Se demostró que ProQres supera a metodologías anteriores basadas en enfoques estadísticos (Verify3D, ProsaII y Errat). Los datos presentados en el estudio de Wallner y Elofsson sugieren que su enfoque de aprendizaje automático basado en características estructurales es de hecho superior a los métodos basados ​​en estadísticas. Sin embargo, los métodos basados ​​en el conocimiento examinados en su trabajo, Verify3D (Luthy et al. 1992; Eisenberg et al. 1997), Prosa (Sippl 1993) y Errat (Colovos y Yeates 1993), no se basan en potenciales estadísticos más nuevos.

Evaluación comparativa

Se han realizado varios esfuerzos de evaluación comparativa a gran escala para evaluar la calidad relativa de varios métodos actuales de modelado de homología. CASP es un experimento de predicción comunitario que se realiza cada dos años durante los meses de verano y desafía a los equipos de predicción a presentar modelos estructurales para una serie de secuencias cuyas estructuras se han resuelto experimentalmente recientemente pero aún no se han publicado. Su socio CAFASP ha trabajado en paralelo con CASP, pero sólo evalúa modelos producidos a través de servidores totalmente automatizados. Los experimentos que se ejecutan continuamente y que no tienen "estaciones" de predicción se centran principalmente en la evaluación comparativa de servidores web disponibles públicamente. LiveBench y EVA se ejecutan continuamente para evaluar el rendimiento de los servidores participantes en la predicción de estructuras liberadas inminentemente desde el PDB. CASP y CAFASP sirven principalmente como evaluaciones del estado del arte en modelado, mientras que las evaluaciones continuas buscan evaluar la calidad del modelo que obtendría un usuario no experto empleando herramientas disponibles públicamente.

Exactitud

La precisión de las estructuras generadas por el modelado de homología depende en gran medida de la identidad de secuencia entre el objetivo y la plantilla. Por encima del 50% de identidad de secuencia, los modelos tienden a ser confiables, con solo errores menores en el empaquetamiento de la cadena lateral y el estado rotamérico , y un RMSD general entre la estructura modelada y experimental que cae alrededor de 1 Å . Este error es comparable a la resolución típica de una estructura resuelta por RMN. En el rango de identidad del 30% al 50%, los errores pueden ser más graves y, a menudo, se ubican en bucles. Por debajo del 30% de identidad, se producen errores graves, que a veces dan lugar a que se prediga mal el pliegue básico. [13] Esta región de baja identidad a menudo se conoce como la "zona crepuscular" dentro de la cual el modelado de homología es extremadamente difícil y para la cual posiblemente sea menos adecuado que los métodos de reconocimiento de pliegues . [23]

En identidades de secuencia altas, la principal fuente de error en el modelado de homología se deriva de la elección de la plantilla o plantillas en las que se basa el modelo, mientras que las identidades más bajas exhiben errores graves en la alineación de secuencias que inhiben la producción de modelos de alta calidad. [6] Se ha sugerido que el principal impedimento para la producción de modelos de calidad son las deficiencias en el alineamiento de secuencias, ya que los alineamientos estructurales "óptimos" entre dos proteínas de estructura conocida pueden usarse como entrada para los métodos de modelado actuales para producir reproducciones bastante precisas del original. estructura experimental. [24]

Se han realizado intentos para mejorar la precisión de los modelos de homología construidos con métodos existentes sometiéndolos a simulación de dinámica molecular en un esfuerzo por mejorar su RMSD con respecto a la estructura experimental. Sin embargo, las parametrizaciones actuales del campo de fuerza pueden no ser lo suficientemente precisas para esta tarea, ya que los modelos de homología utilizados como estructuras iniciales para la dinámica molecular tienden a producir estructuras ligeramente peores. [25] Se han observado ligeras mejoras en los casos en los que se utilizaron restricciones significativas durante la simulación. [26]

Fuentes de error

Las dos fuentes de error más comunes y a gran escala en el modelado de homología son la mala selección de la plantilla y las imprecisiones en la alineación de la secuencia objetivo-plantilla. [6] [27] Controlar estos dos factores mediante el uso de una alineación estructural , o una alineación de secuencia producida sobre la base de comparar dos estructuras resueltas, reduce drásticamente los errores en los modelos finales; Estas alineaciones "estándar de oro" se pueden utilizar como entrada para los métodos de modelado actuales para producir reproducciones bastante precisas de la estructura experimental original. [24] Los resultados del experimento CASP más reciente sugieren que los métodos de "consenso" que recopilan los resultados del reconocimiento múltiple y las búsquedas de alineamiento múltiple aumentan la probabilidad de identificar la plantilla correcta; de manera similar, el uso de múltiples plantillas en el paso de construcción del modelo puede ser peor que el uso de una única plantilla correcta, pero mejor que el uso de una única subóptima. [27] Los errores de alineación pueden minimizarse mediante el uso de una alineación múltiple incluso si solo se utiliza una plantilla, y mediante el refinamiento iterativo de regiones locales de baja similitud. [3] [11] Una fuente menor de errores del modelo son los errores en la estructura de la plantilla. La base de datos PDBREPORT enumera varios millones de errores, en su mayoría muy pequeños pero ocasionalmente dramáticos, en estructuras experimentales (plantillas) que se han depositado en el PDB .

Pueden surgir errores locales graves en los modelos de homología donde una mutación de inserción o deleción o un espacio en una estructura resuelta dan como resultado una región de la secuencia objetivo para la que no existe una plantilla correspondiente. Este problema puede minimizarse mediante el uso de múltiples plantillas, pero el método se complica por las diferentes estructuras locales de las plantillas alrededor del espacio y por la probabilidad de que una región faltante en una estructura experimental también falte en otras estructuras de la misma familia de proteínas. . Las regiones faltantes son más comunes en bucles donde la alta flexibilidad local aumenta la dificultad de resolver la región mediante métodos de determinación de estructura. Aunque se proporciona cierta orientación incluso con una sola plantilla mediante la colocación de los extremos de la región faltante, cuanto mayor sea el espacio, más difícil será modelar. En algunos casos, se pueden modelar bucles de hasta aproximadamente 9 residuos con precisión moderada si la alineación local es correcta. [3] Las regiones más grandes a menudo se modelan individualmente utilizando técnicas de predicción de estructuras ab initio , aunque este enfoque sólo ha tenido un éxito aislado. [28]

Los estados rotaméricos de las cadenas laterales y su disposición de empaquetamiento interno también presentan dificultades en el modelado de homología, incluso en objetivos cuya estructura principal es relativamente fácil de predecir. Esto se debe en parte al hecho de que muchas cadenas laterales en las estructuras cristalinas no se encuentran en su estado rotamérico "óptimo" como resultado de factores energéticos en el núcleo hidrofóbico y en el empaquetamiento de las moléculas individuales en un cristal de proteína. [29] Un método para abordar este problema requiere buscar en una biblioteca romérica para identificar combinaciones de estados de empaquetamiento localmente de baja energía. [30] Se ha sugerido que una de las principales razones por las que el modelado de homología es tan difícil cuando la identidad de la secuencia objetivo-plantilla se encuentra por debajo del 30% es que dichas proteínas tienen pliegues muy similares pero disposiciones de empaquetado de cadenas laterales muy divergentes. [4]

Utilidad

Los usos de los modelos estructurales incluyen la predicción de la interacción proteína-proteína , el acoplamiento proteína-proteína , el acoplamiento molecular y la anotación funcional de genes identificados en el genoma de un organismo . [31] Incluso los modelos de homología de baja precisión pueden ser útiles para estos fines, porque sus imprecisiones tienden a ubicarse en los bucles de la superficie de la proteína, que normalmente son más variables incluso entre proteínas estrechamente relacionadas. Las regiones funcionales de la proteína, especialmente su sitio activo , tienden a estar más conservadas y, por tanto, modeladas con mayor precisión. [13]

Los modelos de homología también se pueden utilizar para identificar diferencias sutiles entre proteínas relacionadas que no todas se han resuelto estructuralmente. Por ejemplo, el método se utilizó para identificar sitios de unión de cationes en la Na + /K + ATPasa y para proponer hipótesis sobre la afinidad de unión de diferentes ATPasas. [32] Utilizados junto con simulaciones de dinámica molecular , los modelos de homología también pueden generar hipótesis sobre la cinética y la dinámica de una proteína, como en los estudios de la selectividad iónica de un canal de potasio . [33] Se ha intentado realizar un modelado automatizado a gran escala de todas las regiones codificantes de proteínas identificadas en un genoma para la levadura Saccharomyces cerevisiae , lo que ha dado como resultado casi 1000 modelos de calidad para proteínas cuyas estructuras aún no se habían determinado en el momento del estudio, y identificando nuevas relaciones entre 236 proteínas de levadura y otras estructuras previamente resueltas. [34]

Ver también

Referencias

  1. ^ Chothia, C; Lesk, AM (1986). "La relación entre la divergencia de secuencia y estructura en proteínas". EMBO J. 5 (4): 823–6. doi :10.1002/j.1460-2075.1986.tb04288.x. PMC  1166865 . PMID  3709526.
  2. ^ Kaczanowski, S; Zielenkiewicz, P (2010). "¿Por qué secuencias de proteínas similares codifican estructuras tridimensionales similares?" (PDF) . Cuentas de Química Teórica . 125 (3–6): 643–50. doi :10.1007/s00214-009-0656-3. S2CID  95593331.
  3. ^ abcdefg Marti-Renom, MA; Estuardo, AC; Fiser, A; Sánchez, R; Melo, F; Sali, A. (2000). "Modelado comparativo de estructuras proteicas de genes y genomas". Estructura Annu Rev Biophys Biomol . 29 : 291–325. doi :10.1146/annurev.biophys.29.1.291. PMID  10940251. S2CID  11498685.
  4. ^ ab Chung SY, Subbiah S. (1996.) Una explicación estructural de la zona crepuscular de la homología de secuencia de proteínas. Estructura 4: 1123–27.
  5. ^ Williamson AR (2000). "Creación de un consorcio de genómica estructural". Nat Struct Biol . 7 (T1 (11s)): 953. doi : 10.1038/80726 . PMID  11103997. S2CID  35185565.
  6. ^ abc Venclovas C, Margeleviĉius M (2005). "Modelado comparativo en CASP6 utilizando un enfoque de consenso para la selección de plantillas, alineación de secuencia-estructura y evaluación de estructuras". Proteínas . 61 (T7): 99-105. doi :10.1002/prot.20725. PMID  16187350. S2CID  45345271.
  7. ^ Dalal, S; Balasubramanian, S; Reagan, L (1997). "Transmutación de hélices alfa y láminas beta". Doblar Des . 2 (5): R71–9. doi :10.1016/s1359-0278(97)00036-9. PMID  9377709.
  8. ^ Dalal, S; Balasubramanian, S; Reagan, L. (1997). "Alquimia de proteínas: cambio de hoja beta en hélice alfa". Nat Struct Biol . 4 (7): 548–52. doi :10.1038/nsb0797-548. PMID  9228947. S2CID  5608132.
  9. ^ abc Peng, Jian; Jinbo Xu (2011). "RaptorX: explotación de la información estructural para la alineación de proteínas mediante inferencia estadística". Proteínas . 79 (Suplemento 10): 161–71. doi :10.1002/prot.23175. PMC 3226909 . PMID  21987485. 
  10. ^ Peng, Jian; Jinbo Xu (abril de 2011). "un enfoque de plantillas múltiples para el procesamiento de proteínas". Proteínas . 79 (6): 1930-1939. doi :10.1002/prot.23016. PMC 3092796 . PMID  21465564. 
  11. ^ ab Muckstein, U; Hofacker, Illinois; Stadler, PF (2002). "Alineaciones estocásticas por pares". Bioinformática . 18 (Suplemento 2): S153–60. doi : 10.1093/bioinformática/18.suppl_2.S153 . PMID  12385998.
  12. ^ Rychlewski, L; Zhang, B; Godzik, A. (1998). "Predicciones de plegado y función de las proteínas de Mycoplasma genitalium". Doblar Des . 3 (4): 229–38. doi :10.1016/S1359-0278(98)00034-0. PMID  9710568.
  13. ^ abc panadero, D; Sali, A (2001). "Predicción de la estructura de proteínas y genómica estructural". Ciencia . 294 (5540): 93–96. Código Bib : 2001 Ciencia... 294... 93B. doi : 10.1126/ciencia.1065659. PMID  11588250. S2CID  7193705.
  14. ^ Zhang Y (2008). "Avances y desafíos en la predicción de la estructura de proteínas". Estructura de opinión actual Biol . 18 (3): 342–348. doi :10.1016/j.sbi.2008.02.004. PMC 2680823 . PMID  18436442. 
  15. ^ Greer, J. (1981). "Construcción de modelos comparativos de serina proteasas de mamíferos". Revista de biología molecular . 153 (4): 1027–42. doi :10.1016/0022-2836(81)90465-4. PMID  7045378.
  16. ^ Wallner, B; Elofsson, A (2005). "No todos son iguales: un referente de diferentes programas de modelado de homología". Ciencia de las proteínas . 14 (5): 1315-1327. doi : 10.1110/ps.041253405. PMC 2253266 . PMID  15840834. 
  17. ^ Levitt, M. (1992). "Modelado preciso de la conformación de proteínas mediante coincidencia automática de segmentos". J Mol Biol . 226 (2): 507–33. doi : 10.1016/0022-2836(92)90964-L . PMID  1640463.
  18. ^ Sali, A; Blundell, TL. (1993). "Modelado comparativo de proteínas mediante satisfacción de restricciones espaciales". J Mol Biol . 234 (3): 779–815. doi :10.1006/jmbi.1993.1626. PMID  8254673.
  19. ^ Fiser, A; Sali, A. (2003). "ModLoop: modelado automatizado de bucles en estructuras de proteínas". Bioinformática . 19 (18): 2500–1. doi : 10.1093/bioinformática/btg362 . PMID  14668246.
  20. ^ Topf, M; panadero, ML; Marti-Renom, MA; Chiu, W; Sali, A. (2006). "Refinamiento de estructuras de proteínas mediante modelado comparativo iterativo y ajuste de densidad CryoEM". J Mol Biol . 357 (5): 1655–68. doi :10.1016/j.jmb.2006.01.062. PMID  16490207.
  21. ^ Juan, B; Sali, A. (2003). "Modelado comparativo de estructuras de proteínas mediante alineación iterativa, construcción de modelos y evaluación de modelos". Ácidos nucleicos Res . 31 (14): 3982–92. doi :10.1093/nar/gkg460. PMC 165975 . PMID  12853614. 
  22. ^ Ursula Pieper, Narayanan Eswar, Hannes Braberg, MS Madhusudhan, Fred Davis, Ashley C. Stuart, Nebojsa Mirkovic, Andrea Rossi, Marc A. Marti-Renom, Andras Fiser, Ben Webb, Daniel Greenblatt, Conrad Huang, Tom Ferrin, Andrej Salí. MODBASE, una base de datos de modelos comparativos de estructuras de proteínas anotados y recursos asociados. Ácidos nucleicos Res 32, D217-D222, 2004.
  23. ^ Blake, JD; Cohen, FE. (2001). "Alineación de secuencia por pares debajo de la zona del crepúsculo". J Mol Biol . 307 (2): 721–35. doi :10.1006/jmbi.2001.4495. PMID  11254392.
  24. ^ abZhang , Y; Skolnick, J. (2005). "El problema de predicción de la estructura de las proteínas podría resolverse utilizando la biblioteca PDB actual". Proc. Nacional. Acad. Ciencia. EE.UU . 102 (4): 1029–34. Código Bib : 2005PNAS..102.1029Z. doi : 10.1073/pnas.0407152101 . PMC 545829 . PMID  15653774. 
  25. ^ Köhl, P; Levitt, M. (1999). "Un futuro mejor para la predicción de la estructura de las proteínas". Nat Struct Biol . 6 (2): 108–11. doi :10.1038/5794. PMID  10048917. S2CID  3162636.
  26. ^ Flohil, JA; Amigo, G; Berendsen, HJ. (2002). "Finalización y refinamiento de modelos de homología 3-D con dinámica molecular restringida: aplicación a las dianas 47, 58 y 111 en el concurso de modelado CASP y análisis posterior". Proteínas . 48 (4): 593–604. doi :10.1002/prot.10105. PMID  12211026. S2CID  11280977.
  27. ^ ab Ginalski, K. (2006). "Modelado comparativo para la predicción de la estructura de proteínas". Estructura de opinión actual Biol . 16 (2): 172–7. doi :10.1016/j.sbi.2006.02.003. PMID  16510277.
  28. ^ Kryshtafovych A, Venclovas C, Fidelis K, Moult J. (2005). Progreso durante la primera década de experimentos CASP. Proteínas 61 (S7): 225–36.
  29. ^ Vásquez, M. (1996). "Modelado de la conformación de la cadena lateral". Estructura de opinión actual Biol . 6 (2): 217–21. doi :10.1016/S0959-440X(96)80077-7. PMID  8728654.
  30. ^ Wilson, C; Gregoret, LM; Agard, DA. (1993). "Modelado de la conformación de cadenas laterales para proteínas homólogas mediante una búsqueda de rotámeros basada en energía". J Mol Biol . 229 (4): 996–1006. doi :10.1006/jmbi.1993.1100. PMID  8445659.
  31. ^ Gopal, S; Schroeder, M; Pieper, U; Sczyrba, A; Aytekin-Kurban, G; Bekiranov, S; Fajardo, JE; Eswar, N; Sánchez, R; et al. (2001). "La anotación basada en homología produce 1.042 nuevos genes candidatos en el genoma de Drosophila melanogaster". Nat Genet . 27 (3): 337–40. doi :10.1038/85922. PMID  11242120. S2CID  2144435.
  32. ^ Ogawa, H; Toyoshima, C. (2002). "Modelado de homología de los sitios de unión de cationes de Na + K + -ATPasa". Proc Natl Acad Sci Estados Unidos . 99 (25): 15977–15982. Código bibliográfico : 2002PNAS...9915977O. doi : 10.1073/pnas.202622299 . PMC 138550 . PMID  12461183. 
  33. ^ Capener, CE; Shrivastava, IH; Ranatunga, KM; Forrest, LR; Smith, GR; Sansom, MSP (2000). "Estudios de simulación de dinámica molecular y modelado de homología de un canal de potasio rectificador interno". Biophys J. 78 (6): 2929–2942. Código Bib : 2000BpJ....78.2929C. doi :10.1016/S0006-3495(00)76833-0. PMC 1300878 . PMID  10827973. 
  34. ^ Sánchez, R; Sali, A. (1998). "Modelado de la estructura proteica a gran escala del genoma de Saccharomyces cerevisiae". Proc Natl Acad Sci Estados Unidos . 95 (23): 13597–13602. Código bibliográfico : 1998PNAS...9513597S. doi : 10.1073/pnas.95.23.13597 . PMC 24864 . PMID  9811845.