stringtranslate.com

Bioinformática estructural

Estructura tridimensional de una proteína

La bioinformática estructural es la rama de la bioinformática que se relaciona con el análisis y predicción de la estructura tridimensional de macromoléculas biológicas como proteínas , ARN y ADN . Se ocupa de generalizaciones sobre estructuras macromoleculares 3D como comparaciones de pliegues generales y motivos locales, principios de plegamiento molecular, evolución, interacciones de enlace y relaciones estructura/función, trabajando tanto a partir de estructuras resueltas experimentalmente como de modelos computacionales. El término estructural tiene el mismo significado que en biología estructural , y la bioinformática estructural puede verse como una parte de la biología estructural computacional. El objetivo principal de la bioinformática estructural es la creación de nuevos métodos de análisis y manipulación de datos macromoleculares biológicos para resolver problemas en biología y generar nuevos conocimientos. [1]

Introducción

Estructura de la proteína

La estructura de una proteína está directamente relacionada con su función. La presencia de ciertos grupos químicos en ubicaciones específicas permite que las proteínas actúen como enzimas , catalizando varias reacciones químicas. [2] En general, las estructuras de las proteínas se clasifican en cuatro niveles: primaria (secuencias), secundaria (conformación local de la cadena polipeptídica), terciaria (estructura tridimensional del pliegue proteico) y cuaternaria (asociación de múltiples estructuras polipeptídicas). La bioinformática estructural aborda principalmente las interacciones entre estructuras tomando en consideración sus coordenadas espaciales. Así, la estructura primaria se analiza mejor en las ramas tradicionales de la bioinformática. Sin embargo, la secuencia implica restricciones que permiten la formación de conformaciones locales conservadas de la cadena polipeptídica, como alfa-hélice , beta-láminas y bucles (estructura secundaria [3] ). Además, las interacciones débiles (como los enlaces de hidrógeno ) estabilizan el pliegue proteico. Las interacciones pueden ser intracatenarias, es decir, cuando se producen entre partes del mismo monómero proteico (estructura terciaria), o intercatenarias, es decir, cuando se producen entre estructuras diferentes (estructura cuaternaria). Por último, la disposición topológica de las interacciones, ya sean fuertes o débiles, y los entrelazamientos se están estudiando en el campo de la bioinformática estructural, utilizando marcos como la topología de circuitos .

Visualización de estructuras

Visualización estructural de la LISOZIMA DEL BACTERIOFAGO T4 (PDB ID: 2LZM). (A) Dibujo animado; (B) Líneas; (C) Superficie; (D) Palitos.

La visualización de la estructura de las proteínas es un tema importante para la bioinformática estructural. [4] Permite a los usuarios observar representaciones estáticas o dinámicas de las moléculas, permitiendo también la detección de interacciones que pueden utilizarse para realizar inferencias sobre los mecanismos moleculares. Los tipos de visualización más comunes son:

Estructura del ADN

La estructura clásica de los dúplex de ADN fue descrita inicialmente por Watson y Crick (y contribuciones de Rosalind Franklin ). La molécula de ADN está compuesta por tres sustancias: un grupo fosfato , una pentosa y una base nitrogenada ( adenina , timina , citosina o guanina ). La estructura de doble hélice del ADN está estabilizada por enlaces de hidrógeno formados entre pares de bases: adenina con timina (AT) y citosina con guanina (CG). Muchos estudios de bioinformática estructural se han centrado en comprender las interacciones entre el ADN y las moléculas pequeñas, lo que ha sido el objetivo de varios estudios de diseño de fármacos.

Interacciones

Las interacciones son contactos que se establecen entre partes de moléculas a diferentes niveles. Son responsables de estabilizar las estructuras proteicas y realizan una gama variada de actividades. En bioquímica , las interacciones se caracterizan por la proximidad de grupos de átomos o regiones de moléculas que presentan un efecto entre sí, como fuerzas electrostáticas , enlaces de hidrógeno y efecto hidrofóbico . Las proteínas pueden realizar varios tipos de interacciones, como interacciones proteína-proteína (PPI) , interacciones proteína-péptido [5] , interacciones proteína-ligando (PLI) [6] e interacción proteína-ADN.

Contactos entre dos residuos de aminoácidos: Q196-R200 (PDB ID- 2X1C) [7]

Calcular contactos

El cálculo de contactos es una tarea importante en bioinformática estructural, siendo importante para la predicción correcta de la estructura y el plegamiento de proteínas, la estabilidad termodinámica, las interacciones proteína-proteína y proteína-ligando, el acoplamiento y los análisis de dinámica molecular, etc. [8]

Tradicionalmente, los métodos computacionales han utilizado la distancia umbral entre átomos (también llamada cutoff) para detectar posibles interacciones. [9] Esta detección se realiza en base a la distancia euclidiana y a los ángulos entre átomos de tipos determinados. Sin embargo, la mayoría de los métodos basados ​​en la distancia euclidiana simple no pueden detectar contactos ocluidos. Por ello, los métodos sin cutoff, como la triangulación de Delaunay , han ganado protagonismo en los últimos años. Además, se ha utilizado la combinación de un conjunto de criterios, por ejemplo, propiedades fisicoquímicas, distancia, geometría y ángulos, para mejorar la determinación de contactos. [8]

Banco de datos de proteínas (PDB)

Número de estructuras de PDB. (A) Crecimiento general de estructuras liberadas en Protein DataBank por año. (B) Crecimiento de estructuras depositadas en PDB a partir de experimentos de cristalografía de rayos X , espectroscopia de RMN y microscopía electrónica 3D por año. Fuente: https://www.rcsb.org/stats/growth

El Banco de Datos de Proteínas (PDB) es una base de datos de datos de estructura 3D para moléculas biológicas grandes, como proteínas , ADN y ARN . El PDB es administrado por una organización internacional llamada Banco Mundial de Datos de Proteínas ( wwPDB ), que está compuesta por varias organizaciones locales, como PDBe, PDBj, RCSB y BMRB. Son responsables de mantener copias de los datos del PDB disponibles en Internet sin cargo. La cantidad de datos de estructura disponibles en el PDB ha aumentado cada año, y se obtienen típicamente mediante cristalografía de rayos X , espectroscopia de RMN o microscopía crioelectrónica .

Formato de datos

El formato PDB (.pdb) es el formato de archivo de texto heredado que se utiliza para almacenar información de estructuras tridimensionales de macromoléculas utilizadas por el Protein Data Bank. Debido a restricciones en la concepción de la estructura del formato, el formato PDB no permite estructuras grandes que contengan más de 62 cadenas o 99999 registros de átomos. [10]

El PDBx/ mmCIF (archivo de información cristalográfica macromolecular) es un formato de archivo de texto estándar para representar información cristalográfica. [11] Desde 2014, el formato PDB fue sustituido como la distribución estándar de archivos PDB por el formato de archivo PDBx/mmCIF (.cif). Mientras que el formato PDB contiene un conjunto de registros identificados por una palabra clave de hasta seis caracteres, el formato PDBx/mmCIF utiliza una estructura basada en clave y valor, donde la clave es un nombre que identifica alguna característica y el valor es la información variable. [12]

Otras bases de datos estructurales

Además del Protein Data Bank (PDB) , existen varias bases de datos de estructuras de proteínas y otras macromoléculas. Algunos ejemplos son:

Comparación de estructuras

Alineación estructural

El alineamiento estructural es un método de comparación entre estructuras 3D en función de su forma y conformación. [23] Podría utilizarse para inferir la relación evolutiva entre un conjunto de proteínas incluso con baja similitud de secuencia. El alineamiento estructural implica superponer una estructura 3D sobre una segunda, rotando y trasladando átomos en posiciones correspondientes (en general, utilizando los átomos C α o incluso los átomos pesados ​​de la cadena principal C , N , O y C α ). Por lo general, la calidad del alineamiento se evalúa en función de la desviación cuadrática media (RMSD) de las posiciones atómicas, es decir , la distancia promedio entre átomos después de la superposición:

donde δ i es la distancia entre el átomo i y un átomo de referencia correspondiente en la otra estructura o la coordenada media de los N átomos equivalentes. En general, el resultado de RMSD se mide en unidades Ångström (Å), que equivalen a 10 −10 m. Cuanto más cerca de cero esté el valor de RMSD, más similares son las estructuras.

Firmas estructurales basadas en gráficos

Las firmas estructurales, también llamadas huellas dactilares, son representaciones de patrones de macromoléculas que se pueden utilizar para inferir similitudes y diferencias. Las comparaciones entre un gran conjunto de proteínas utilizando RMSD aún son un desafío debido al alto costo computacional de las alineaciones estructurales. Las firmas estructurales basadas en patrones de distancia de grafos entre pares de átomos se han utilizado para determinar vectores de identificación de proteínas y para detectar información no trivial. [24] Además, el álgebra lineal y el aprendizaje automático se pueden utilizar para agrupar firmas de proteínas, detectar interacciones proteína-ligando, predecir ΔΔG y proponer mutaciones basadas en la distancia euclidiana . [25]

Predicción de estructura

Un gráfico de Ramachandran generado a partir de PCNA humano ( PDB ID 1AXC). Las regiones roja, marrón y amarilla representan las regiones favorecidas, permitidas y "generosamente permitidas" según lo define ProCheck. Este gráfico se puede utilizar para verificar aminoácidos modelados incorrectamente.

Las estructuras atómicas de las moléculas se pueden obtener mediante varios métodos, como la cristalografía de rayos X (XRC) , la espectroscopia de RMN y la microscopía electrónica 3D ; sin embargo, estos procesos pueden presentar altos costos y, en ocasiones, algunas estructuras pueden ser difíciles de establecer, como las proteínas de membrana . Por lo tanto, es necesario utilizar enfoques computacionales para determinar las estructuras 3D de las macromoléculas. Los métodos de predicción de la estructura se clasifican en modelado comparativo y modelado de novo .

Modelado comparativo

El modelado comparativo , también conocido como modelado de homología, corresponde a la metodología para construir estructuras tridimensionales a partir de una secuencia de aminoácidos de una proteína diana y un molde con estructura conocida. La literatura ha descrito que las proteínas relacionadas evolutivamente tienden a presentar una estructura tridimensional conservada. [26] Además, secuencias de proteínas distantemente relacionadas con una identidad menor al 20% pueden presentar diferentes plegamientos. [27]

De nuevomodelado

En bioinformática estructural, el modelado de novo , también conocido como modelado ab initio , se refiere a métodos para obtener estructuras tridimensionales a partir de secuencias sin la necesidad de una estructura 3D homóloga conocida. A pesar de los nuevos algoritmos y métodos propuestos en los últimos años, la predicción de la estructura de proteínas de novo todavía se considera uno de los problemas pendientes en la ciencia moderna. [28]

Validación de estructura

Después del modelado de la estructura, es necesario un paso adicional de validación de la estructura, ya que muchos de los algoritmos y herramientas de modelado comparativo y "de novo" utilizan heurísticas para intentar ensamblar la estructura 3D, lo que puede generar muchos errores. Algunas estrategias de validación consisten en calcular puntuaciones de energía y compararlas con estructuras determinadas experimentalmente. Por ejemplo, la puntuación DOPE es una puntuación de energía utilizada por la herramienta MODELLER para determinar el mejor modelo. [29]

Otra estrategia de validación es calcular los ángulos diedros φ y ψ de la estructura principal de todos los residuos y construir un diagrama de Ramachandran . La cadena lateral de aminoácidos y la naturaleza de las interacciones en la estructura principal restringen estos dos ángulos y, por lo tanto, la visualización de las conformaciones permitidas se puede realizar en función del diagrama de Ramachandran . Una gran cantidad de aminoácidos asignados en posiciones no permisivas del diagrama es una indicación de un modelado de baja calidad.

Herramientas de predicción

En la lista de software de predicción de estructura de proteínas se encuentra disponible una lista con herramientas de software de uso común para la predicción de la estructura de proteínas , incluidos el modelado comparativo , el enhebrado de proteínas , la predicción de la estructura de proteínas de novo y la predicción de la estructura secundaria .

Acoplamiento molecular

Representación del acoplamiento de un ligando (verde) a una proteína objetivo (negro).

El acoplamiento molecular (también conocido simplemente como acoplamiento) es un método utilizado para predecir las coordenadas de orientación de una molécula ( ligando ) cuando se une a otra (receptor o diana). La unión puede ser principalmente a través de interacciones no covalentes, aunque también se puede estudiar la unión mediante enlaces covalentes. El acoplamiento molecular tiene como objetivo predecir posibles poses (modos de unión) del ligando cuando interactúa con regiones específicas del receptor. Las herramientas de acoplamiento utilizan campos de fuerza para estimar una puntuación para clasificar las mejores poses que favorecieron mejores interacciones entre las dos moléculas.

En general, los protocolos de acoplamiento se utilizan para predecir las interacciones entre moléculas pequeñas y proteínas. Sin embargo, el acoplamiento también se puede utilizar para detectar asociaciones y modos de unión entre proteínas , péptidos , moléculas de ADN o ARN , carbohidratos y otras macromoléculas .

Proyección virtual

El cribado virtual (VS) es un método computacional utilizado para el cribado rápido de grandes bibliotecas de compuestos para el descubrimiento de fármacos . Por lo general, el cribado virtual utiliza algoritmos de acoplamiento para clasificar las moléculas pequeñas con la mayor afinidad por un receptor objetivo.

En los últimos tiempos, se han utilizado varias herramientas para evaluar el uso del cribado virtual en el proceso de descubrimiento de nuevos fármacos. Sin embargo, problemas como la falta de información, la comprensión inexacta de las propiedades moleculares similares a las de los fármacos, las funciones de puntuación débiles o las estrategias de acoplamiento insuficientes dificultan el proceso de acoplamiento. Por ello, la literatura ha descrito que todavía no se considera una tecnología madura. [30] [31]

Dinámica molecular

Ejemplo: dinámica molecular de una β-glucosidasa tolerante a la glucosa [32]

La dinámica molecular (MD) es un método computacional para simular interacciones entre moléculas y sus átomos durante un periodo de tiempo determinado. [33] Este método permite observar el comportamiento de las moléculas y sus interacciones, considerando el sistema como un todo. Para calcular el comportamiento de los sistemas y, así, determinar las trayectorias, una MD puede utilizar la ecuación de movimiento de Newton , además de utilizar métodos de mecánica molecular para estimar las fuerzas que se dan entre partículas ( campos de fuerza ). [34]

Aplicaciones

Los enfoques informáticos utilizados en la bioinformática estructural son:

Herramientas

Véase también

Referencias

  1. ^ Gu J, Bourne PE (2011). Bioinformática estructural (2ª ed.). Hoboken: John Wiley e hijos. ISBN 978-1-118-21056-7.OCLC 778339075  .
  2. ^ Gu J, Bourne PE (16 de marzo de 2009). Bioinformática estructural. John Wiley & Sons. ISBN 978-0-470-18105-8.
  3. ^ Kocincová L, Jarešová M, Byška J, Parulek J, Hauser H, Kozlíková B (febrero de 2017). "Visualización comparativa de estructuras secundarias de proteínas". Bioinformática BMC . 18 (Suplemento 2): 23. doi : 10.1186/s12859-016-1449-z . PMC 5333176 . PMID  28251875. 
  4. ^ Shi M, Gao J, Zhang MQ (julio de 2017). "Web3DMol: visualización interactiva de la estructura de proteínas basada en WebGL". Nucleic Acids Research . 45 (W1): W523–W527. doi :10.1093/nar/gkx383. PMC 5570197 . PMID  28482028. 
  5. ^ Stanfield RL, Wilson IA (febrero de 1995). "Interacciones proteína-péptido". Current Opinion in Structural Biology . 5 (1): 103–13. doi :10.1016/0959-440X(95)80015-S. PMID  7773739.
  6. ^ Klebe G (2015). "Interacciones proteína-ligando como base para la acción de los fármacos". En Scapin G, Patel D, Arnold E (eds.). Drug Design . Serie A de Ciencia para la Paz y la Seguridad de la OTAN: Química y Biología. Dordrecht: Springer. págs. 83–92. doi :10.1007/978-3-642-17907-5_4. ISBN 978-3-642-17906-8.
  7. ^ "Proteus | Patrocinador de ingeniería de PROTein |". proteus.dcc.ufmg.br . Consultado el 26 de febrero de 2020 .
  8. ^ abc Martins PM, Mayrink VD, de Silveira S, da Silveira CH, de Lima LH, de Melo-Minardi RC (2018). "¿Cómo calcular los contactos de residuos de proteínas con mayor precisión?". Actas del 33.° Simposio Anual de la ACM sobre Informática Aplicada . Pau, Francia: ACM Press. págs. 60–67. doi :10.1145/3167132.3167136. ISBN 978-1-4503-5191-1.S2CID 49562347  .
  9. ^ da Silveira CH, Pires DE, Minardi RC, Ribeiro C, Veloso CJ, Lopes JC, et al. (febrero de 2009). "Escaneo de puntos de corte de proteínas: un análisis comparativo de métodos dependientes y libres de puntos de corte para la prospección de contactos en proteínas" (PDF) . Proteínas . 74 (3): 727–43. doi :10.1002/prot.22187. PMID  18704933. S2CID  1208256.
  10. ^ "Preguntas frecuentes generales sobre PDBx/mmCIF". mmcif.wwpdb.org . Consultado el 26 de febrero de 2020 .
  11. ^ wwPDB.org. «wwPDB: formatos de archivo y PDB». www.wwpdb.org . Consultado el 26 de febrero de 2020 .
  12. ^ "Recursos del diccionario PDBx/mmCIF". mmcif.wwpdb.org . Consultado el 26 de febrero de 2020 .
  13. ^ "Grupo de recursos sobre estructuras macromoleculares". www.ncbi.nlm.nih.gov . Consultado el 13 de abril de 2020 .
  14. ^ "Base de datos de ácidos nucleicos (NDB)". ndbserver.rutgers.edu . Consultado el 13 de abril de 2020 .
  15. ^ "SCOP: Clasificación estructural de proteínas". 2007-09-11. Archivado desde el original el 2007-09-11 . Consultado el 2020-04-13 .
  16. ^ Ilyin VA, Abyzov A, Leslin CM (julio de 2004). "Alineación estructural de proteínas mediante un nuevo método TOPOFIT, como una superposición de volúmenes comunes en un punto topomax". Protein Science . 13 (7): 1865–74. doi :10.1110/ps.04672604. PMC 2279929 . PMID  15215530. 
  17. ^ "EDS - Servidor de densidad electrónica de Uppsala". eds.bmc.uu.se . Consultado el 13 de abril de 2020 .
  18. ^ "Inicio - Centro de Predicciones". www.predictioncenter.org . Consultado el 13 de abril de 2020 .
  19. ^ ":: Laboratorio Dunbrack". dunbrack.fccc.edu . Consultado el 13 de abril de 2020 .
  20. ^ "Base de conocimientos de biología estructural SBKB - SBKB". sbkb.org . Consultado el 13 de abril de 2020 .
  21. ^ "Base de datos de interfaz común de proteínas". dunbrack2.fccc.edu . Consultado el 13 de abril de 2020 .
  22. ^ "Pliegue alfa".
  23. ^ "Alineamiento estructural (genómica)". ScienceDaily . Consultado el 26 de febrero de 2020 .
  24. ^ Pires DE, de Melo-Minardi RC, dos Santos MA, da Silveira CH, Santoro MM, Meira W (diciembre de 2011). "Cutoff Scanning Matrix (CSM): clasificación estructural y predicción de funciones mediante patrones de distancia entre residuos de proteínas". BMC Genomics . 12 Suppl 4 (S4): S12. doi : 10.1186/1471-2164-12-S4-S12 . PMC 3287581 . PMID  22369665. 
  25. ^ Mariano DC, Santos LH, Machado KD, Werhli AV, de Lima LH, de Melo-Minardi RC (enero de 2019). "Un método computacional para proponer mutaciones en enzimas basado en la variación de la firma estructural (SSV)". Revista Internacional de Ciencias Moleculares . 20 (2): 333. doi : 10.3390/ijms20020333 . PMC 6359350 . PMID  30650542. 
  26. ^ Kaczanowski S, Zielenkiewicz P (marzo de 2010). "¿Por qué secuencias proteicas similares codifican estructuras tridimensionales similares?" (PDF) . Theoretical Chemistry Accounts . 125 (3–6): 643–650. doi :10.1007/s00214-009-0656-3. ISSN  1432-881X. S2CID  95593331.
  27. ^ Chothia C, Lesk AM (abril de 1986). "La relación entre la divergencia de la secuencia y la estructura en las proteínas". The EMBO Journal . 5 (4): 823–6. doi :10.1002/j.1460-2075.1986.tb04288.x. PMC 1166865 . PMID  3709526. 
  28. ^ "Hay mucho más por saber". Science . 309 (5731): 78–102. Julio de 2005. doi : 10.1126/science.309.5731.78b . PMID  15994524.
  29. ^ Webb B, Sali A (septiembre de 2014). "Modelado comparativo de la estructura de proteínas con MODELLER". Protocolos actuales en bioinformática . 47 (1): 5.6.1–32. doi :10.1002/0471250953.bi0506s47. PMC 4186674 . PMID  25199792. 
  30. ^ Dhasmana A, Raza S, Jahan R, Lohani M, Arif JM (1 de enero de 2019). "Capítulo 19: cribado virtual de alto rendimiento (HTVS) de compuestos naturales y exploración de sus mecanismos biomoleculares: un enfoque in silico". En Ahmad Khan MS, Ahmad I, Chattopadhyay D (eds.). Una nueva mirada a la fitomedicina . Academic Press. págs. 523–548. doi :10.1016/b978-0-12-814619-4.00020-3. ISBN . 978-0-12-814619-4.S2CID69534557  .​
  31. ^ Wermuth CG, Villoutreix B, Grisoni S, Olivier A, Rocher JP (enero de 2015). "Estrategias en la búsqueda de nuevos compuestos de referencia o hipótesis de trabajo originales". En Wermuth CG, Aldous D, Raboisson P, Rognan D (eds.). La práctica de la química medicinal . Academic Press. págs. 73–99. doi :10.1016/B978-0-12-417205-0.00004-3. ISBN 978-0-12-417205-0.
  32. ^ Costa LS, Mariano DC, Rocha RE, Kraml J, Silveira CH, Liedl KR, et al. (septiembre de 2019). "La dinámica molecular ofrece nuevos conocimientos sobre la tolerancia a la glucosa y los mecanismos de inhibición de las β-glucosidasas". Moléculas . 24 (18): 3215. doi : 10.3390/molecules24183215 . PMC 6766793 . PMID  31487855. 
  33. ^ Alder BJ, Wainwright TE (agosto de 1959). "Estudios en dinámica molecular. I. Método general". The Journal of Chemical Physics . 31 (2): 459–466. Código Bibliográfico :1959JChPh..31..459A. doi :10.1063/1.1730376. ISSN  0021-9606.
  34. ^ Yousif, Ragheed Hussam (2020). "Explorando las interacciones moleculares entre la neoculina y los receptores humanos del gusto dulce a través de enfoques computacionales" (PDF) . Sains Malaysiana . 49 (3): 517–525. doi : 10.17576/jsm-2020-4903-06 .
  35. ^ Ministerio de Educación
  36. ^ Vista de BALL
  37. ^ PyMOL
  38. ^ VMD-V
  39. ^ Gromacos
  40. ^ LÁMPARAS
  41. ^ JUEGOS
  42. ^ PASO

Lectura adicional