La bioinformática estructural es la rama de la bioinformática que se relaciona con el análisis y predicción de la estructura tridimensional de macromoléculas biológicas como proteínas , ARN y ADN . Se ocupa de generalizaciones sobre estructuras macromoleculares 3D como comparaciones de pliegues generales y motivos locales, principios de plegamiento molecular, evolución, interacciones de enlace y relaciones estructura/función, trabajando tanto a partir de estructuras resueltas experimentalmente como de modelos computacionales. El término estructural tiene el mismo significado que en biología estructural , y la bioinformática estructural puede verse como una parte de la biología estructural computacional. El objetivo principal de la bioinformática estructural es la creación de nuevos métodos de análisis y manipulación de datos macromoleculares biológicos para resolver problemas en biología y generar nuevos conocimientos. [1]
La estructura de una proteína está directamente relacionada con su función. La presencia de ciertos grupos químicos en ubicaciones específicas permite que las proteínas actúen como enzimas , catalizando varias reacciones químicas. [2] En general, las estructuras de las proteínas se clasifican en cuatro niveles: primaria (secuencias), secundaria (conformación local de la cadena polipeptídica), terciaria (estructura tridimensional del pliegue proteico) y cuaternaria (asociación de múltiples estructuras polipeptídicas). La bioinformática estructural aborda principalmente las interacciones entre estructuras tomando en consideración sus coordenadas espaciales. Así, la estructura primaria se analiza mejor en las ramas tradicionales de la bioinformática. Sin embargo, la secuencia implica restricciones que permiten la formación de conformaciones locales conservadas de la cadena polipeptídica, como alfa-hélice , beta-láminas y bucles (estructura secundaria [3] ). Además, las interacciones débiles (como los enlaces de hidrógeno ) estabilizan el pliegue proteico. Las interacciones pueden ser intracatenarias, es decir, cuando se producen entre partes del mismo monómero proteico (estructura terciaria), o intercatenarias, es decir, cuando se producen entre estructuras diferentes (estructura cuaternaria). Por último, la disposición topológica de las interacciones, ya sean fuertes o débiles, y los entrelazamientos se están estudiando en el campo de la bioinformática estructural, utilizando marcos como la topología de circuitos .
La visualización de la estructura de las proteínas es un tema importante para la bioinformática estructural. [4] Permite a los usuarios observar representaciones estáticas o dinámicas de las moléculas, permitiendo también la detección de interacciones que pueden utilizarse para realizar inferencias sobre los mecanismos moleculares. Los tipos de visualización más comunes son:
La estructura clásica de los dúplex de ADN fue descrita inicialmente por Watson y Crick (y contribuciones de Rosalind Franklin ). La molécula de ADN está compuesta por tres sustancias: un grupo fosfato , una pentosa y una base nitrogenada ( adenina , timina , citosina o guanina ). La estructura de doble hélice del ADN está estabilizada por enlaces de hidrógeno formados entre pares de bases: adenina con timina (AT) y citosina con guanina (CG). Muchos estudios de bioinformática estructural se han centrado en comprender las interacciones entre el ADN y las moléculas pequeñas, lo que ha sido el objetivo de varios estudios de diseño de fármacos.
Las interacciones son contactos que se establecen entre partes de moléculas a diferentes niveles. Son responsables de estabilizar las estructuras proteicas y realizan una gama variada de actividades. En bioquímica , las interacciones se caracterizan por la proximidad de grupos de átomos o regiones de moléculas que presentan un efecto entre sí, como fuerzas electrostáticas , enlaces de hidrógeno y efecto hidrofóbico . Las proteínas pueden realizar varios tipos de interacciones, como interacciones proteína-proteína (PPI) , interacciones proteína-péptido [5] , interacciones proteína-ligando (PLI) [6] e interacción proteína-ADN.
El cálculo de contactos es una tarea importante en bioinformática estructural, siendo importante para la predicción correcta de la estructura y el plegamiento de proteínas, la estabilidad termodinámica, las interacciones proteína-proteína y proteína-ligando, el acoplamiento y los análisis de dinámica molecular, etc. [8]
Tradicionalmente, los métodos computacionales han utilizado la distancia umbral entre átomos (también llamada cutoff) para detectar posibles interacciones. [9] Esta detección se realiza en base a la distancia euclidiana y a los ángulos entre átomos de tipos determinados. Sin embargo, la mayoría de los métodos basados en la distancia euclidiana simple no pueden detectar contactos ocluidos. Por ello, los métodos sin cutoff, como la triangulación de Delaunay , han ganado protagonismo en los últimos años. Además, se ha utilizado la combinación de un conjunto de criterios, por ejemplo, propiedades fisicoquímicas, distancia, geometría y ángulos, para mejorar la determinación de contactos. [8]
El Banco de Datos de Proteínas (PDB) es una base de datos de datos de estructura 3D para moléculas biológicas grandes, como proteínas , ADN y ARN . El PDB es administrado por una organización internacional llamada Banco Mundial de Datos de Proteínas ( wwPDB ), que está compuesta por varias organizaciones locales, como PDBe, PDBj, RCSB y BMRB. Son responsables de mantener copias de los datos del PDB disponibles en Internet sin cargo. La cantidad de datos de estructura disponibles en el PDB ha aumentado cada año, y se obtienen típicamente mediante cristalografía de rayos X , espectroscopia de RMN o microscopía crioelectrónica .
El formato PDB (.pdb) es el formato de archivo de texto heredado que se utiliza para almacenar información de estructuras tridimensionales de macromoléculas utilizadas por el Protein Data Bank. Debido a restricciones en la concepción de la estructura del formato, el formato PDB no permite estructuras grandes que contengan más de 62 cadenas o 99999 registros de átomos. [10]
El PDBx/ mmCIF (archivo de información cristalográfica macromolecular) es un formato de archivo de texto estándar para representar información cristalográfica. [11] Desde 2014, el formato PDB fue sustituido como la distribución estándar de archivos PDB por el formato de archivo PDBx/mmCIF (.cif). Mientras que el formato PDB contiene un conjunto de registros identificados por una palabra clave de hasta seis caracteres, el formato PDBx/mmCIF utiliza una estructura basada en clave y valor, donde la clave es un nombre que identifica alguna característica y el valor es la información variable. [12]
Además del Protein Data Bank (PDB) , existen varias bases de datos de estructuras de proteínas y otras macromoléculas. Algunos ejemplos son:
El alineamiento estructural es un método de comparación entre estructuras 3D en función de su forma y conformación. [23] Podría utilizarse para inferir la relación evolutiva entre un conjunto de proteínas incluso con baja similitud de secuencia. El alineamiento estructural implica superponer una estructura 3D sobre una segunda, rotando y trasladando átomos en posiciones correspondientes (en general, utilizando los átomos C α o incluso los átomos pesados de la cadena principal C , N , O y C α ). Por lo general, la calidad del alineamiento se evalúa en función de la desviación cuadrática media (RMSD) de las posiciones atómicas, es decir , la distancia promedio entre átomos después de la superposición:
donde δ i es la distancia entre el átomo i y un átomo de referencia correspondiente en la otra estructura o la coordenada media de los N átomos equivalentes. En general, el resultado de RMSD se mide en unidades Ångström (Å), que equivalen a 10 −10 m. Cuanto más cerca de cero esté el valor de RMSD, más similares son las estructuras.
Las firmas estructurales, también llamadas huellas dactilares, son representaciones de patrones de macromoléculas que se pueden utilizar para inferir similitudes y diferencias. Las comparaciones entre un gran conjunto de proteínas utilizando RMSD aún son un desafío debido al alto costo computacional de las alineaciones estructurales. Las firmas estructurales basadas en patrones de distancia de grafos entre pares de átomos se han utilizado para determinar vectores de identificación de proteínas y para detectar información no trivial. [24] Además, el álgebra lineal y el aprendizaje automático se pueden utilizar para agrupar firmas de proteínas, detectar interacciones proteína-ligando, predecir ΔΔG y proponer mutaciones basadas en la distancia euclidiana . [25]
Las estructuras atómicas de las moléculas se pueden obtener mediante varios métodos, como la cristalografía de rayos X (XRC) , la espectroscopia de RMN y la microscopía electrónica 3D ; sin embargo, estos procesos pueden presentar altos costos y, en ocasiones, algunas estructuras pueden ser difíciles de establecer, como las proteínas de membrana . Por lo tanto, es necesario utilizar enfoques computacionales para determinar las estructuras 3D de las macromoléculas. Los métodos de predicción de la estructura se clasifican en modelado comparativo y modelado de novo .
El modelado comparativo , también conocido como modelado de homología, corresponde a la metodología para construir estructuras tridimensionales a partir de una secuencia de aminoácidos de una proteína diana y un molde con estructura conocida. La literatura ha descrito que las proteínas relacionadas evolutivamente tienden a presentar una estructura tridimensional conservada. [26] Además, secuencias de proteínas distantemente relacionadas con una identidad menor al 20% pueden presentar diferentes plegamientos. [27]
En bioinformática estructural, el modelado de novo , también conocido como modelado ab initio , se refiere a métodos para obtener estructuras tridimensionales a partir de secuencias sin la necesidad de una estructura 3D homóloga conocida. A pesar de los nuevos algoritmos y métodos propuestos en los últimos años, la predicción de la estructura de proteínas de novo todavía se considera uno de los problemas pendientes en la ciencia moderna. [28]
Después del modelado de la estructura, es necesario un paso adicional de validación de la estructura, ya que muchos de los algoritmos y herramientas de modelado comparativo y "de novo" utilizan heurísticas para intentar ensamblar la estructura 3D, lo que puede generar muchos errores. Algunas estrategias de validación consisten en calcular puntuaciones de energía y compararlas con estructuras determinadas experimentalmente. Por ejemplo, la puntuación DOPE es una puntuación de energía utilizada por la herramienta MODELLER para determinar el mejor modelo. [29]
Otra estrategia de validación es calcular los ángulos diedros φ y ψ de la estructura principal de todos los residuos y construir un diagrama de Ramachandran . La cadena lateral de aminoácidos y la naturaleza de las interacciones en la estructura principal restringen estos dos ángulos y, por lo tanto, la visualización de las conformaciones permitidas se puede realizar en función del diagrama de Ramachandran . Una gran cantidad de aminoácidos asignados en posiciones no permisivas del diagrama es una indicación de un modelado de baja calidad.
En la lista de software de predicción de estructura de proteínas se encuentra disponible una lista con herramientas de software de uso común para la predicción de la estructura de proteínas , incluidos el modelado comparativo , el enhebrado de proteínas , la predicción de la estructura de proteínas de novo y la predicción de la estructura secundaria .
El acoplamiento molecular (también conocido simplemente como acoplamiento) es un método utilizado para predecir las coordenadas de orientación de una molécula ( ligando ) cuando se une a otra (receptor o diana). La unión puede ser principalmente a través de interacciones no covalentes, aunque también se puede estudiar la unión mediante enlaces covalentes. El acoplamiento molecular tiene como objetivo predecir posibles poses (modos de unión) del ligando cuando interactúa con regiones específicas del receptor. Las herramientas de acoplamiento utilizan campos de fuerza para estimar una puntuación para clasificar las mejores poses que favorecieron mejores interacciones entre las dos moléculas.
En general, los protocolos de acoplamiento se utilizan para predecir las interacciones entre moléculas pequeñas y proteínas. Sin embargo, el acoplamiento también se puede utilizar para detectar asociaciones y modos de unión entre proteínas , péptidos , moléculas de ADN o ARN , carbohidratos y otras macromoléculas .
El cribado virtual (VS) es un método computacional utilizado para el cribado rápido de grandes bibliotecas de compuestos para el descubrimiento de fármacos . Por lo general, el cribado virtual utiliza algoritmos de acoplamiento para clasificar las moléculas pequeñas con la mayor afinidad por un receptor objetivo.
En los últimos tiempos, se han utilizado varias herramientas para evaluar el uso del cribado virtual en el proceso de descubrimiento de nuevos fármacos. Sin embargo, problemas como la falta de información, la comprensión inexacta de las propiedades moleculares similares a las de los fármacos, las funciones de puntuación débiles o las estrategias de acoplamiento insuficientes dificultan el proceso de acoplamiento. Por ello, la literatura ha descrito que todavía no se considera una tecnología madura. [30] [31]
La dinámica molecular (MD) es un método computacional para simular interacciones entre moléculas y sus átomos durante un periodo de tiempo determinado. [33] Este método permite observar el comportamiento de las moléculas y sus interacciones, considerando el sistema como un todo. Para calcular el comportamiento de los sistemas y, así, determinar las trayectorias, una MD puede utilizar la ecuación de movimiento de Newton , además de utilizar métodos de mecánica molecular para estimar las fuerzas que se dan entre partículas ( campos de fuerza ). [34]
Los enfoques informáticos utilizados en la bioinformática estructural son: