Genómica estructural

La genómica estructural busca describir la estructura tridimensional de cada proteína codificada por un genoma determinado . Este enfoque basado en el genoma permite un método de alto rendimiento para determinar la estructura mediante una combinación de enfoques experimentales y de modelado . La principal diferencia entre la genómica estructural y la predicción estructural tradicional es que la genómica estructural intenta determinar la estructura de cada proteína codificada por el genoma, en lugar de centrarse en una proteína en particular. Con secuencias de genoma completo disponibles, la predicción de la estructura se puede realizar más rápidamente mediante una combinación de enfoques experimentales y de modelado, especialmente porque la disponibilidad de una gran cantidad de genomas secuenciados y estructuras de proteínas resueltas previamente permite a los científicos modelar la estructura de las proteínas en las estructuras de homólogos previamente resueltos.

Debido a que la estructura de las proteínas está estrechamente relacionada con su función, la genómica estructural tiene el potencial de aportar información sobre la función de las proteínas. Además de dilucidar las funciones de las proteínas, la genómica estructural se puede utilizar para identificar nuevos pliegues proteicos y posibles objetivos para el descubrimiento de fármacos. La genómica estructural implica la adopción de una gran cantidad de enfoques para la determinación de la estructura, incluidos métodos experimentales que utilizan secuencias genómicas o enfoques basados en modelos basados en la homología de secuencia o estructural con una proteína de estructura conocida o basados en principios químicos y físicos para una proteína sin homología con ninguna estructura conocida.

A diferencia de la biología estructural tradicional , la determinación de la estructura de una proteína mediante un estudio de genómica estructural suele realizarse (aunque no siempre) antes de que se conozca nada sobre la función de la proteína. Esto plantea nuevos desafíos en la bioinformática estructural , es decir, la determinación de la función de una proteína a partir de su estructura 3D .

La genómica estructural se centra en la determinación de alto rendimiento de las estructuras de las proteínas. Esto se lleva a cabo en centros especializados en genómica estructural .

Mientras que la mayoría de los biólogos estructurales estudian las estructuras de proteínas individuales o grupos de proteínas, los especialistas en genómica estructural estudian las estructuras de las proteínas a escala del genoma. Esto implica clonación, expresión y purificación a gran escala. Una de las principales ventajas de este enfoque es la economía de escala. Por otra parte, a veces se cuestiona el valor científico de algunas estructuras resultantes. Un artículo de Science de enero de 2006 analiza el campo de la genómica estructural. ^[1]

Una ventaja de la genómica estructural, como la Protein Structure Initiative , es que la comunidad científica obtiene acceso inmediato a nuevas estructuras, así como a reactivos como clones y proteínas. Una desventaja es que muchas de estas estructuras son de proteínas de función desconocida y no tienen publicaciones correspondientes. Esto requiere nuevas formas de comunicar esta información estructural a la comunidad de investigación más amplia. El núcleo de bioinformática del Centro conjunto de genómica estructural (JCSG) ha desarrollado recientemente un enfoque basado en wiki, denominado Red abierta de anotación de estructuras de proteínas (TOPSAN), para anotar las estructuras de proteínas que surgen de centros de genómica estructural de alto rendimiento.

Objetivos

Uno de los objetivos de la genómica estructural es identificar nuevos pliegues proteicos. Los métodos experimentales de determinación de la estructura proteica requieren proteínas que se expresen y/o cristalicen bien, lo que puede sesgar inherentemente los tipos de pliegues proteicos que estos datos experimentales dilucidan. Un enfoque basado en la genómica, como el modelado ab initio, puede ser más capaz de identificar nuevos pliegues proteicos que los enfoques experimentales porque no están limitados por restricciones experimentales.

La función de las proteínas depende de la estructura tridimensional, y estas estructuras tridimensionales están más conservadas que las secuencias . Por lo tanto, los métodos de determinación de la estructura de alto rendimiento de la genómica estructural tienen el potencial de informar nuestra comprensión de las funciones de las proteínas. Esto también tiene implicaciones potenciales para el descubrimiento de fármacos y la ingeniería de proteínas. ^[2] Además, cada proteína que se agrega a la base de datos estructural aumenta la probabilidad de que la base de datos incluya secuencias homólogas de otras proteínas desconocidas. La Iniciativa de Estructura de Proteínas (PSI) es un esfuerzo multifacético financiado por los Institutos Nacionales de Salud con varios socios académicos e industriales que tiene como objetivo aumentar el conocimiento de la estructura de las proteínas utilizando un enfoque de genómica estructural y mejorar la metodología de determinación de la estructura.

Métodos

La genómica estructural aprovecha las secuencias completas del genoma de varias maneras para determinar las estructuras de las proteínas. La secuencia genética de la proteína objetivo también se puede comparar con una secuencia conocida y, a partir de ella, se puede inferir la información estructural. La genómica estructural se puede utilizar para predecir nuevos pliegues de proteínas basándose en otros datos estructurales. La genómica estructural también puede adoptar un enfoque basado en modelos que se apoya en la homología entre la proteína desconocida y una estructura proteica resuelta.

De nuevométodos

Las secuencias completas del genoma permiten clonar y expresar como proteína cada marco de lectura abierto (ORF), la parte de un gen que probablemente contenga la secuencia del ARN mensajero y la proteína. A continuación, estas proteínas se purifican y cristalizan, y luego se someten a uno de los dos tipos de determinación de la estructura: cristalografía de rayos X y resonancia magnética nuclear (RMN). La secuencia completa del genoma permite diseñar todos los cebadores necesarios para amplificar todos los ORF, clonarlos en bacterias y luego expresarlos. Al utilizar un enfoque de genoma completo para este método tradicional de determinación de la estructura de las proteínas, se pueden expresar a la vez todas las proteínas codificadas por el genoma. Este enfoque permite la determinación estructural de cada proteína codificada por el genoma.

Métodos basados en modelado

desde el principio modelado

Este enfoque utiliza datos de secuencias de proteínas y las interacciones químicas y físicas de los aminoácidos codificados para predecir las estructuras tridimensionales de las proteínas sin homología con las estructuras proteínicas resueltas. Un método de gran éxito para el modelado ab initio es el programa Rosetta , que divide la proteína en segmentos cortos y organiza la cadena polipeptídica corta en una conformación local de baja energía. Rosetta está disponible para uso comercial y no comercial a través de su programa público, Robetta.

Modelado basado en secuencias

Esta técnica de modelado compara la secuencia genética de una proteína desconocida con secuencias de proteínas con estructuras conocidas. Dependiendo del grado de similitud entre las secuencias, la estructura de la proteína conocida puede usarse como modelo para resolver la estructura de la proteína desconocida. Se considera que un modelado de alta precisión requiere al menos un 50% de identidad de secuencia de aminoácidos entre la proteína desconocida y la estructura resuelta. Una identidad de secuencia del 30-50% proporciona un modelo de precisión intermedia, y una identidad de secuencia por debajo del 30% proporciona modelos de baja precisión. Se ha predicho que será necesario determinar al menos 16.000 estructuras de proteínas para que todos los motivos estructurales se representen al menos una vez y, de este modo, permitir que la estructura de cualquier proteína desconocida se resuelva con precisión mediante el modelado. ^[3] Sin embargo, una desventaja de este método es que la estructura se conserva más que la secuencia y, por lo tanto, el modelado basado en secuencias puede no ser la forma más precisa de predecir las estructuras de las proteínas.

Enhebrado

El método de enhebrado basa el modelado estructural en similitudes de pliegues en lugar de en la identidad de secuencias. Este método puede ayudar a identificar proteínas distantes y puede utilizarse para inferir funciones moleculares.

Ejemplos de genómica estructural

Actualmente se están realizando varios esfuerzos para resolver las estructuras de cada proteína en un proteoma determinado.

Termotoga marítimaproteoma

Un objetivo actual del Centro Conjunto de Genómica Estructural (JCSG), parte de la Iniciativa de Estructura de Proteínas (PSI), es resolver las estructuras de todas las proteínas de Thermotoga maritima , una bacteria termófila. Se seleccionó a T. maritima como objetivo de genómica estructural en función de su genoma relativamente pequeño, que consta de 1.877 genes, y de la hipótesis de que las proteínas expresadas por una bacteria termófila serían más fáciles de cristalizar.

Lesley et al. utilizaron Escherichia coli para expresar todos los marcos de lectura abiertos (ORF) de T. martima . Luego, estas proteínas se cristalizaron y se determinaron las estructuras de las proteínas cristalizadas con éxito mediante cristalografía de rayos X. Entre otras estructuras, este enfoque de genómica estructural permitió la determinación de la estructura de la proteína TM0449, que se encontró que exhibía un nuevo plegamiento ya que no compartía homología estructural con ninguna proteína conocida. ^[4]

Micobacteria tuberculosisproteoma

El objetivo del Consorcio de Genómica Estructural de la TB es determinar las estructuras de posibles dianas farmacológicas en Mycobacterium tuberculosis , la bacteria que causa la tuberculosis. El desarrollo de nuevas terapias farmacológicas contra la tuberculosis es particularmente importante dado el creciente problema de la tuberculosis resistente a múltiples fármacos .

El genoma completamente secuenciado de M. tuberculosis ha permitido a los científicos clonar muchas de estas proteínas diana en vectores de expresión para su purificación y determinación de la estructura mediante cristalografía de rayos X. Los estudios han identificado una serie de proteínas diana para la determinación de la estructura, incluidas proteínas extracelulares que pueden estar implicadas en la patogénesis, proteínas reguladoras del hierro, dianas farmacológicas actuales y proteínas que se prevé que tengan nuevos pliegues. Hasta el momento, se han determinado las estructuras de 708 de las proteínas codificadas por M. tuberculosis .

Bases de datos y clasificaciones de estructuras de proteínas

Banco de datos de proteínas (PDB): repositorio de información estructural y de secuencias de proteínas
UniProt : proporciona información funcional y secuencial
Clasificación estructural de proteínas (clasificaciones SCOP): enfoque basado en la jerarquía
Clase, arquitectura, topología y superfamilia homóloga (CATH): enfoque basado en la jerarquía

Véase también

Referencias

^ Chandonia JM, Brenner SE (enero de 2006). "El impacto de la genómica estructural: expectativas y resultados". Science . 311 (5759): 347–51. Bibcode :2006Sci...311..347C. doi :10.1126/science.1121018. PMID 16424331. S2CID 800902.
^ Kuhn P, Wilson K, Patch MG, Stevens RC (octubre de 2002). "La génesis del descubrimiento de fármacos basado en la estructura de alto rendimiento mediante cristalografía de proteínas". Curr Opin Chem Biol . 6 (5): 704–10. doi :10.1016/S1367-5931(02)00361-7. PMID 12413557.
^ Baker D, Sali A (octubre de 2001). "Predicción de la estructura de proteínas y genómica estructural". Science . 294 (5540): 93–6. Bibcode :2001Sci...294...93B. doi :10.1126/science.1065659. PMID 11588250. S2CID 7193705.
^ Lesley SA, Kuhn P, Godzik A, et al. (septiembre de 2002). "Genómica estructural del proteoma de Thermotoga maritima implementada en un proceso de determinación de estructura de alto rendimiento". Proc. Natl. Sci. USA . 99 (18): 11664–9. Bibcode :2002PNAS...9911664L. doi : 10.1073/pnas.142413399 . PMC 129326 . PMID 12193646.

Lectura adicional

Hooft RW, Vriend G, Sander C, Abola EE (mayo de 1996). "Errores en las estructuras proteínicas". Nature . 381 (6580): 272. Bibcode :1996Natur.381..272H. doi : 10.1038/381272a0 . PMID 8692262. S2CID 4368507.
Marsden RL, Lewis TA, Orengo CA (2007). "Hacia una cobertura estructural integral de genomas completos: un punto de vista de la genómica estructural". BMC Bioinformatics . 8 : 86. doi : 10.1186/1471-2105-8-86 . PMC 1829165 . PMID 17349043.
Baker EN, Arcus VL, Lott JS (2003). "Predicción y análisis de la estructura de proteínas como herramienta para la genómica funcional". Appl. Bioinform . 2 (3 Suppl): S3–10. PMID 15130810.
Goulding CW, Perry LJ, Anderson D, et al. (septiembre de 2003). "Genómica estructural de Mycobacterium tuberculosis: un informe preliminar de progreso en la UCLA". Biophys. Chem . 105 (2–3): 361–70. CiteSeerX 10.1.1.318.7988 . doi :10.1016/S0301-4622(03)00101-7. PMID 14499904.
Skolnick J, Fetrow JS, Kolinski A (marzo de 2000). "Genómica estructural y su importancia para el análisis de la función génica". Nat. Biotechnol . 18 (3): 283–7. doi :10.1038/73723. PMID 10700142. S2CID 2723601.

Enlaces externos

Iniciativa de Estructura de Proteínas (PSI)
Base de conocimientos de biología estructural del PSI: una puerta de entrada a la naturaleza