stringtranslate.com

Genómica estructural

Un ejemplo de estructura proteica del Protein Data Bank .

La genómica estructural busca describir la estructura tridimensional de cada proteína codificada por un genoma determinado . Este enfoque basado en el genoma permite un método de alto rendimiento para la determinación de la estructura mediante una combinación de enfoques experimentales y de modelado . La principal diferencia entre la genómica estructural y la predicción estructural tradicional es que la genómica estructural intenta determinar la estructura de cada proteína codificada por el genoma, en lugar de centrarse en una proteína en particular. Con secuencias de genoma completo disponibles, la predicción de la estructura se puede hacer más rápidamente mediante una combinación de enfoques experimentales y de modelado, especialmente porque la disponibilidad de una gran cantidad de genomas secuenciados y estructuras de proteínas previamente resueltas permite a los científicos modelar la estructura de las proteínas a partir de estructuras de proteínas previamente resueltas. homólogos.

Debido a que la estructura de las proteínas está estrechamente relacionada con la función de las proteínas, la genómica estructural tiene el potencial de informar el conocimiento de la función de las proteínas. Además de dilucidar las funciones de las proteínas, la genómica estructural se puede utilizar para identificar nuevos pliegues de proteínas y objetivos potenciales para el descubrimiento de fármacos. La genómica estructural implica adoptar una gran cantidad de enfoques para la determinación de la estructura, incluidos métodos experimentales que utilizan secuencias genómicas o enfoques basados ​​en modelos basados ​​en la homología secuencial o estructural con una proteína de estructura conocida o basados ​​en principios químicos y físicos para una proteína sin homología con cualquier estructura conocida.

A diferencia de la biología estructural tradicional , la determinación de la estructura de una proteína a través de un esfuerzo de genómica estructural a menudo (pero no siempre) ocurre antes de que se sepa algo sobre la función de la proteína. Esto plantea nuevos desafíos en bioinformática estructural , es decir, determinar la función de las proteínas a partir de su estructura tridimensional .

La genómica estructural enfatiza la determinación de alto rendimiento de las estructuras de las proteínas. Esto se realiza en centros dedicados a la genómica estructural .

Mientras que la mayoría de los biólogos estructurales buscan estructuras de proteínas individuales o grupos de proteínas, los especialistas en genómica estructural buscan estructuras de proteínas a gran escala del genoma. Esto implica clonación, expresión y purificación a gran escala. Una de las principales ventajas de este enfoque es la economía de escala. Por otro lado, en ocasiones se cuestiona el valor científico de algunas estructuras resultantes. Un artículo de Science de enero de 2006 analiza el campo de la genómica estructural. [1]

Una ventaja de la genómica estructural, como la Protein Structure Initiative , es que la comunidad científica obtiene acceso inmediato a nuevas estructuras, así como a reactivos como clones y proteínas. Una desventaja es que muchas de estas estructuras son de proteínas de función desconocida y no tienen publicaciones correspondientes. Esto requiere nuevas formas de comunicar esta información estructural a la comunidad investigadora en general. El núcleo de Bioinformática del Centro Conjunto de Genómica Estructural (JCSG) ha desarrollado recientemente un enfoque basado en wiki llamado Red abierta de anotación de estructuras de proteínas (TOPSAN) para anotar estructuras de proteínas que emergen de centros de genómica estructural de alto rendimiento.

Objetivos

Uno de los objetivos de la genómica estructural es identificar nuevos pliegues de proteínas. Los métodos experimentales de determinación de la estructura de proteínas requieren proteínas que se expresen y/o cristalicen bien, lo que inherentemente puede sesgar los tipos de pliegues de proteínas que estos datos experimentales aclaran. Un enfoque genómico basado en modelos, como el modelado ab initio, puede ser más capaz de identificar nuevos pliegues de proteínas que los enfoques experimentales porque no están limitados por restricciones experimentales.

La función de las proteínas depende de la estructura tridimensional y estas estructuras tridimensionales están más conservadas que las secuencias . Por lo tanto, los métodos de determinación de estructuras de alto rendimiento de la genómica estructural tienen el potencial de informar nuestra comprensión de las funciones de las proteínas. Esto también tiene implicaciones potenciales para el descubrimiento de fármacos y la ingeniería de proteínas. [2] Además, cada proteína que se agrega a la base de datos estructural aumenta la probabilidad de que la base de datos incluya secuencias homólogas de otras proteínas desconocidas. La Iniciativa de Estructura de Proteínas (PSI) es un esfuerzo multifacético financiado por los Institutos Nacionales de Salud con varios socios académicos e industriales que tiene como objetivo aumentar el conocimiento de la estructura de las proteínas utilizando un enfoque de genómica estructural y mejorar la metodología de determinación de la estructura.

Métodos

La genómica estructural aprovecha secuencias genómicas completas de varias maneras para determinar las estructuras de las proteínas. La secuencia genética de la proteína diana también se puede comparar con una secuencia conocida y luego se puede inferir información estructural a partir de la estructura de la proteína conocida. La genómica estructural se puede utilizar para predecir nuevos pliegues de proteínas basándose en otros datos estructurales. La genómica estructural también puede adoptar un enfoque basado en modelos que se basa en la homología entre la proteína desconocida y una estructura proteica resuelta.

métodos de novo

Las secuencias completas del genoma permiten clonar y expresar como proteína cada marco de lectura abierto (ORF), la parte de un gen que probablemente contenga la secuencia del ARN mensajero y la proteína. Luego, estas proteínas se purifican y cristalizan, y luego se someten a uno de dos tipos de determinación de estructura: cristalografía de rayos X y resonancia magnética nuclear (RMN). La secuencia completa del genoma permite diseñar cada cebador necesario para amplificar todos los ORF, clonarlos en bacterias y luego expresarlos. Al utilizar un enfoque de genoma completo para este método tradicional de determinación de la estructura de proteínas, todas las proteínas codificadas por el genoma se pueden expresar a la vez. Este enfoque permite la determinación estructural de cada proteína codificada por el genoma.

Métodos basados ​​en modelado

modelado ab initio

Este enfoque utiliza datos de secuencias de proteínas y las interacciones químicas y físicas de los aminoácidos codificados para predecir las estructuras tridimensionales de proteínas sin homología con las estructuras proteicas resueltas. Un método muy exitoso para el modelado ab initio es el programa Rosetta , que divide la proteína en segmentos cortos y organiza la cadena polipeptídica corta en una conformación local de baja energía. Rosetta está disponible para uso comercial y no comercial a través de su programa público, Robetta.

Modelado basado en secuencias

Esta técnica de modelado compara la secuencia genética de una proteína desconocida con secuencias de proteínas con estructuras conocidas. Dependiendo del grado de similitud entre las secuencias, la estructura de la proteína conocida se puede utilizar como modelo para resolver la estructura de la proteína desconocida. Se considera que el modelado de alta precisión requiere al menos un 50 % de identidad de secuencia de aminoácidos entre la proteína desconocida y la estructura resuelta. Una identidad de secuencia del 30 al 50 % proporciona un modelo de precisión intermedia, y una identidad de secuencia inferior al 30 % proporciona modelos de precisión baja. Se ha predicho que será necesario determinar al menos 16.000 estructuras de proteínas para que todos los motivos estructurales se representen al menos una vez y así permitir que la estructura de cualquier proteína desconocida se resuelva con precisión mediante el modelado. [3] Sin embargo, una desventaja de este método es que la estructura está más conservada que la secuencia y, por lo tanto, el modelado basado en secuencias puede no ser la forma más precisa de predecir las estructuras de las proteínas.

Enhebrado

Threading basa el modelado estructural en similitudes de pliegues en lugar de identidad de secuencia. Este método puede ayudar a identificar proteínas lejanamente relacionadas y puede usarse para inferir funciones moleculares.

Ejemplos de genómica estructural.

Actualmente se están realizando varios esfuerzos para resolver las estructuras de cada proteína en un proteoma determinado.

Proteoma de Thermotoga maritima

Un objetivo actual del Centro Conjunto de Genómica Estructural (JCSG), que forma parte de la Iniciativa de Estructura de Proteínas (PSI), es resolver las estructuras de todas las proteínas de Thermotoga maritima , una bacteria termófila. Se seleccionó T. maritima como objetivo de genómica estructural debido a su genoma relativamente pequeño que consta de 1.877 genes y la hipótesis de que las proteínas expresadas por una bacteria termófila serían más fáciles de cristalizar.

Lesley et al utilizaron Escherichia coli para expresar todos los marcos de lectura abierta (ORF) de T. martima . Luego, estas proteínas se cristalizaron y se determinaron las estructuras de las proteínas cristalizadas con éxito mediante cristalografía de rayos X. Entre otras estructuras, este enfoque de genómica estructural permitió determinar la estructura de la proteína TM0449, que mostró un pliegue novedoso ya que no compartía homología estructural con ninguna proteína conocida. [4]

Proteoma de Mycobacterium tuberculosis

El objetivo del Consorcio de Genómica Estructural de la Tuberculosis es determinar las estructuras de posibles objetivos farmacológicos en Mycobacterium tuberculosis , la bacteria que causa la tuberculosis. El desarrollo de nuevas terapias farmacológicas contra la tuberculosis es particularmente importante dado el creciente problema de la tuberculosis multirresistente .

El genoma completamente secuenciado de M. tuberculosis ha permitido a los científicos clonar muchas de estas proteínas dianas en vectores de expresión para su purificación y determinación de estructura mediante cristalografía de rayos X. Los estudios han identificado una serie de proteínas diana para la determinación de la estructura, incluidas proteínas extracelulares que pueden estar involucradas en la patogénesis, proteínas reguladoras del hierro, dianas farmacológicas actuales y proteínas que se predice que tendrán nuevos pliegues. Hasta el momento se han determinado las estructuras de 708 de las proteínas codificadas por M. tuberculosis .

Bases de datos y clasificaciones de estructuras de proteínas.

Ver también

Referencias

  1. ^ Chandonia JM, Brenner SE (enero de 2006). "El impacto de la genómica estructural: expectativas y resultados". Ciencia . 311 (5759): 347–51. Código Bib : 2006 Ciencia... 311.. 347C. doi : 10.1126/ciencia.1121018. PMID  16424331. S2CID  800902.
  2. ^ Kuhn P, Wilson K, Patch MG, Stevens RC (octubre de 2002). "La génesis del descubrimiento de fármacos basado en estructuras de alto rendimiento mediante cristalografía de proteínas". Opinión actual Chem Biol . 6 (5): 704–10. doi :10.1016/S1367-5931(02)00361-7. PMID  12413557.
  3. ^ Baker D, Sali A (octubre de 2001). "Predicción de la estructura de proteínas y genómica estructural". Ciencia . 294 (5540): 93–6. Código Bib : 2001 Ciencia... 294... 93B. doi : 10.1126/ciencia.1065659. PMID  11588250. S2CID  7193705.
  4. ^ Lesley SA, Kuhn P, Godzik A, et al. (Septiembre de 2002). "Genómica estructural del proteoma de Thermotoga maritima implementada en un proceso de determinación de estructuras de alto rendimiento". Proc. Nacional. Acad. Ciencia. EE.UU . 99 (18): 11664–9. Código bibliográfico : 2002PNAS...9911664L. doi : 10.1073/pnas.142413399 . PMC 129326 . PMID  12193646. 

Otras lecturas

enlaces externos