Alineación estructural

La alineación estructural intenta establecer homología entre dos o más estructuras de polímeros en función de su forma y conformación tridimensional . Este proceso se aplica habitualmente a las estructuras terciarias de proteínas , pero también se puede utilizar para moléculas de ARN grandes . A diferencia de la superposición estructural simple, donde se conocen al menos algunos residuos equivalentes de las dos estructuras, la alineación estructural no requiere un conocimiento a priori de las posiciones equivalentes. La alineación estructural es una herramienta valiosa para la comparación de proteínas con baja similitud de secuencia, donde las relaciones evolutivas entre proteínas no se pueden detectar fácilmente mediante técnicas de alineación de secuencias estándar . Por lo tanto, la alineación estructural se puede utilizar para implicar relaciones evolutivas entre proteínas que comparten muy poca secuencia común. Sin embargo, se debe tener precaución al utilizar los resultados como evidencia de una ascendencia evolutiva compartida debido a los posibles efectos de confusión de la evolución convergente por la que múltiples secuencias de aminoácidos no relacionadas convergen en una estructura terciaria común .

Los alineamientos estructurales pueden comparar dos secuencias o múltiples secuencias . Debido a que estos alineamientos se basan en información sobre las conformaciones tridimensionales de todas las secuencias de consulta, el método solo se puede utilizar en secuencias donde se conocen estas estructuras. Estas se encuentran generalmente mediante cristalografía de rayos X o espectroscopia de RMN . Es posible realizar un alineamiento estructural en estructuras producidas por métodos de predicción de estructura . De hecho, la evaluación de tales predicciones a menudo requiere un alineamiento estructural entre el modelo y la estructura verdadera conocida para evaluar la calidad del modelo. ^[1] Los alineamientos estructurales son especialmente útiles para analizar datos de esfuerzos de genómica y proteómica estructural , y se pueden utilizar como puntos de comparación para evaluar alineamientos producidos por métodos bioinformáticos puramente basados en secuencias . ^[2]^[3]^[4]

Los resultados de una alineación estructural son una superposición de los conjuntos de coordenadas atómicas y una desviación cuadrática media mínima ( RMSD ) entre las estructuras. La RMSD de dos estructuras alineadas indica su divergencia entre sí. La alineación estructural puede complicarse por la existencia de múltiples dominios proteicos dentro de una o más de las estructuras de entrada, porque los cambios en la orientación relativa de los dominios entre dos estructuras que se van a alinear pueden inflar artificialmente la RMSD.

Datos producidos por alineación estructural

La información mínima producida a partir de una alineación estructural exitosa es un conjunto de residuos que se consideran equivalentes entre las estructuras. Este conjunto de equivalencias se utiliza típicamente para superponer las coordenadas tridimensionales para cada estructura de entrada. (Tenga en cuenta que un elemento de entrada puede ser fijo como referencia y, por lo tanto, sus coordenadas superpuestas no cambian). Las estructuras ajustadas se pueden utilizar para calcular valores RMSD mutuos, así como otras medidas más sofisticadas de similitud estructural, como la prueba de distancia global (GDT, ^[5] la métrica utilizada en CASP ). La alineación estructural también implica una alineación de secuencia unidimensional correspondiente a partir de la cual se puede calcular una identidad de secuencia, o el porcentaje de residuos que son idénticos entre las estructuras de entrada, como una medida de qué tan estrechamente están relacionadas las dos secuencias.

Tipos de comparaciones

Debido a que las estructuras de las proteínas están compuestas de aminoácidos cuyas cadenas laterales están unidas por una estructura proteica común, se pueden utilizar varios subconjuntos posibles de los átomos que forman una macromolécula proteica para producir una alineación estructural y calcular los valores RMSD correspondientes. Al alinear estructuras con secuencias muy diferentes, los átomos de la cadena lateral generalmente no se tienen en cuenta porque sus identidades difieren entre muchos residuos alineados. Por esta razón, es común que los métodos de alineación estructural utilicen por defecto solo los átomos de la estructura principal incluidos en el enlace peptídico . Por simplicidad y eficiencia, a menudo solo se consideran las posiciones de carbono alfa , ya que el enlace peptídico tiene una conformación plana mínimamente variante . Solo cuando las estructuras que se van a alinear son muy similares o incluso idénticas es significativo alinear las posiciones de los átomos de la cadena lateral, en cuyo caso el RMSD refleja no solo la conformación de la estructura principal de la proteína sino también los estados rotámeros de las cadenas laterales. Otros criterios de comparación que reducen el ruido y refuerzan las coincidencias positivas incluyen la asignación de estructura secundaria , los mapas de contacto nativos o los patrones de interacción de residuos, las medidas de empaquetamiento de la cadena lateral y las medidas de retención de enlaces de hidrógeno . ^[6]

Superposición estructural

La comparación más básica posible entre las estructuras de las proteínas no intenta alinear las estructuras de entrada y requiere una alineación precalculada como entrada para determinar cuáles de los residuos de la secuencia se pretende considerar en el cálculo de RMSD. La superposición estructural se utiliza comúnmente para comparar múltiples conformaciones de la misma proteína (en cuyo caso no es necesaria ninguna alineación, ya que las secuencias son las mismas) y para evaluar la calidad de las alineaciones producidas utilizando solo información de secuencia entre dos o más secuencias cuyas estructuras se conocen. Este método utiliza tradicionalmente un algoritmo de ajuste de mínimos cuadrados simple, en el que las rotaciones y traslaciones óptimas se encuentran minimizando la suma de las distancias al cuadrado entre todas las estructuras en la superposición. ^[7] Más recientemente, los métodos de máxima verosimilitud y bayesianos han aumentado en gran medida la precisión de las rotaciones, traslaciones y matrices de covarianza estimadas para la superposición. ^[8]^[9]

Se han desarrollado algoritmos basados en rotaciones multidimensionales y cuaterniones modificados para identificar relaciones topológicas entre estructuras proteínicas sin la necesidad de una alineación predeterminada. Dichos algoritmos han identificado con éxito pliegues canónicos como el haz de cuatro hélices . ^[10] El método SuperPose es lo suficientemente extensible para corregir rotaciones de dominio relativas y otros problemas estructurales. ^[11]

Evaluación de similitud

A menudo, el propósito de buscar una superposición estructural no es tanto la superposición en sí, sino una evaluación de la similitud de dos estructuras o una confianza en una alineación remota. ^[1]^[2]^[3] Una distinción sutil pero importante de la superposición estructural máxima es la conversión de una alineación a una puntuación de similitud significativa. ^[12]^[13] La mayoría de los métodos generan algún tipo de "puntuación" que indica la calidad de la superposición. ^[5]^[14]^[15]^[12]^[13] Sin embargo, lo que uno realmente quiere no es simplemente una "puntuación Z" estimada o un valor E estimado de ver la superposición observada por casualidad, sino que uno desea que el valor E estimado esté estrechamente correlacionado con el valor E verdadero. Críticamente, incluso si el valor E estimado de un método es precisamente correcto en promedio , si carece de una desviación estándar baja en su proceso de generación de valor estimado, entonces el orden de clasificación de las similitudes relativas de una proteína de consulta con un conjunto de comparación rara vez coincidirá con el orden "verdadero". ^[12]^[13]

Los distintos métodos superpondrán diferentes cantidades de residuos porque utilizan diferentes garantías de calidad y diferentes definiciones de "superposición"; algunos solo incluyen residuos que cumplen múltiples criterios de superposición local y global, y otros son más ambiciosos, flexibles y promiscuos. Una mayor cantidad de átomos superpuestos puede significar una mayor similitud, pero puede que no siempre produzca el mejor valor E que cuantifique la improbabilidad de la superposición y, por lo tanto, no sea tan útil para evaluar la similitud, especialmente en homólogos remotos. ^[1]^[2]^[3]^[4]

Complejidad algorítmica

Solución óptima

Se ha demostrado que el " enhebrado " óptimo de una secuencia de proteínas sobre una estructura conocida y la producción de un alineamiento óptimo de múltiples secuencias son NP-completos . ^[16]^[17] Sin embargo, esto no implica que el problema de alineamiento estructural sea NP-completo. Estrictamente hablando, solo se conoce una solución óptima al problema de alineamiento de la estructura de las proteínas para ciertas medidas de similitud de la estructura de las proteínas, como las medidas utilizadas en los experimentos de predicción de la estructura de las proteínas, GDT_TS ^[5] y MaxSub. ^[14] Estas medidas se pueden optimizar rigurosamente utilizando un algoritmo capaz de maximizar el número de átomos en dos proteínas que se pueden superponer bajo un límite de distancia predefinido. ^[15] Desafortunadamente, el algoritmo para la solución óptima no es práctico, ya que su tiempo de ejecución depende no solo de las longitudes sino también de la geometría intrínseca de las proteínas de entrada.

Solución aproximada

Se han desarrollado algoritmos de tiempo polinómico aproximados para el alineamiento estructural que producen una familia de soluciones "óptimas" dentro de un parámetro de aproximación para una función de puntuación dada. ^[15]^[18] Aunque estos algoritmos clasifican teóricamente el problema de alineamiento aproximado de la estructura de proteínas como "manejable", todavía son computacionalmente demasiado costosos para el análisis de la estructura de proteínas a gran escala. Como consecuencia, no existen algoritmos prácticos que converjan a las soluciones globales del alineamiento, dada una función de puntuación. La mayoría de los algoritmos son, por lo tanto, heurísticos, pero se han desarrollado algoritmos que garantizan la convergencia al menos a maximizadores locales de las funciones de puntuación, y son prácticos. ^[19]

Representación de estructuras

Las estructuras de proteínas deben representarse en algún espacio independiente de las coordenadas para que sean comparables. Esto se logra típicamente construyendo una matriz de secuencia a secuencia o una serie de matrices que abarcan métricas comparativas: en lugar de distancias absolutas relativas a un espacio de coordenadas fijo. Una representación intuitiva es la matriz de distancia , que es una matriz bidimensional que contiene todas las distancias por pares entre algún subconjunto de los átomos en cada estructura (como los carbonos alfa ). La matriz aumenta en dimensionalidad a medida que aumenta el número de estructuras que se alinearán simultáneamente. Reducir la proteína a una métrica gruesa como elementos de estructura secundaria (SSE) o fragmentos estructurales también puede producir alineaciones sensatas, a pesar de la pérdida de información al descartar distancias, ya que también se descarta el ruido . ^[20] Elegir una representación que facilite el cálculo es fundamental para desarrollar un mecanismo de alineación eficiente.

Métodos

Las técnicas de alineamiento estructural se han utilizado para comparar estructuras individuales o conjuntos de estructuras, así como para producir bases de datos de comparación "todos con todos" que miden la divergencia entre cada par de estructuras presentes en el Protein Data Bank (PDB). Dichas bases de datos se utilizan para clasificar las proteínas por su plegamiento .

Dalí

Ilustración de los vectores átomo a átomo calculados en SSAP. A partir de estos vectores se construiría una serie de diferencias vectoriales, por ejemplo, entre (FA) en la proteína 1 y (SI) en la proteína 2. Las dos secuencias se trazan en las dos dimensiones de una matriz para formar una matriz de diferencias entre las dos proteínas. Se aplica programación dinámica a todas las matrices de diferencias posibles para construir una serie de rutas de alineación local óptimas que luego se suman para formar la matriz resumen, sobre la que se realiza una segunda ronda de programación dinámica.

Un método de alineación estructural común y popular es el método DALI, o Distance-matrix ALIgnment, que divide las estructuras de entrada en fragmentos hexapeptídicos y calcula una matriz de distancia evaluando los patrones de contacto entre fragmentos sucesivos. ^{[21] Las características} de la estructura secundaria que involucran residuos que son contiguos en secuencia aparecen en la diagonal principal de la matriz ; otras diagonales en la matriz reflejan contactos espaciales entre residuos que no están cerca uno del otro en la secuencia. Cuando estas diagonales son paralelas a la diagonal principal, las características que representan son paralelas; cuando son perpendiculares, sus características son antiparalelas. Esta representación requiere mucha memoria porque las características en la matriz cuadrada son simétricas (y por lo tanto redundantes) con respecto a la diagonal principal.

Cuando las matrices de distancia de dos proteínas comparten características iguales o similares en aproximadamente las mismas posiciones, se puede decir que tienen pliegues similares con bucles de longitud similar que conectan sus elementos de estructura secundaria. El proceso de alineación real de DALI requiere una búsqueda de similitud después de que se construyen las matrices de distancia de las dos proteínas; esto normalmente se lleva a cabo a través de una serie de submatrices superpuestas de tamaño 6x6. Las coincidencias de submatrices luego se vuelven a ensamblar en una alineación final a través de un algoritmo de maximización de puntaje estándar: la versión original de DALI usó una simulación de Monte Carlo para maximizar un puntaje de similitud estructural que es una función de las distancias entre los átomos putativos correspondientes. En particular, los átomos más distantes dentro de las características correspondientes se ponderan exponencialmente para reducir los efectos del ruido introducido por la movilidad de bucles, torsiones de hélice y otras variaciones estructurales menores. ^[20] Debido a que DALI se basa en una matriz de distancia de todos a todos, puede dar cuenta de la posibilidad de que las características alineadas estructuralmente puedan aparecer en diferentes órdenes dentro de las dos secuencias que se comparan.

El método DALI también se ha utilizado para construir una base de datos conocida como FSSP (Fold classification based on Structure-Structure alinement of Proteins, or Families of Structurally Similar Proteins) en la que se alinean entre sí todas las estructuras proteínicas conocidas para determinar sus vecinas estructurales y su clasificación por plegamiento. Existe una base de datos de búsqueda basada en DALI, así como un programa descargable y una búsqueda web basada en una versión independiente conocida como DaliLite.

Extensión combinatoria

El método de extensión combinatoria (CE) es similar a DALI en que también divide cada estructura en el conjunto de consulta en una serie de fragmentos que luego intenta reensamblar en una alineación completa. Se utiliza una serie de combinaciones de fragmentos por pares, llamadas pares de fragmentos alineados, o AFP, para definir una matriz de similitud a través de la cual se genera una ruta óptima para identificar la alineación final. Solo los AFP que cumplen con los criterios dados para la similitud local se incluyen en la matriz como un medio para reducir el espacio de búsqueda necesario y, por lo tanto, aumentar la eficiencia. ^[22] Son posibles varias métricas de similitud; la definición original del método CE incluía solo superposiciones estructurales y distancias entre residuos, pero desde entonces se ha ampliado para incluir propiedades ambientales locales como la estructura secundaria, la exposición a solventes, los patrones de enlaces de hidrógeno y los ángulos diedros . ^[22]

Una ruta de alineación se calcula como la ruta óptima a través de la matriz de similitud progresando linealmente a través de las secuencias y extendiendo la alineación con el siguiente par de AFP de alto puntaje posible. El par de AFP inicial que nuclea la alineación puede ocurrir en cualquier punto en la matriz de secuencia. Las extensiones luego proceden con la siguiente AFP que cumple con los criterios de distancia dados restringiendo la alineación a tamaños de brecha bajos. El tamaño de cada AFP y el tamaño máximo de brecha son parámetros de entrada requeridos pero generalmente se establecen en valores determinados empíricamente de 8 y 30 respectivamente. ^[22] Al igual que DALI y SSAP, CE se ha utilizado para construir una base de datos de clasificación de pliegues de todos a todos Archivado el 3 de diciembre de 1998 en Wayback Machine a partir de las estructuras de proteínas conocidas en el PDB.

El RCSB PDB ha publicado recientemente una versión actualizada de CE, Mammoth y FATCAT como parte de la herramienta de comparación de proteínas del RCSB PDB. Proporciona una nueva variación de CE que puede detectar permutaciones circulares en las estructuras de las proteínas. ^[23]

Mamut

MAMMOTH ^[12] aborda el problema de la alineación desde un objetivo diferente al de casi todos los demás métodos. En lugar de intentar encontrar una alineación que superponga al máximo el mayor número de residuos, busca el subconjunto de la alineación estructural con menos probabilidades de ocurrir por casualidad. Para ello, marca una alineación de motivo local con indicadores para indicar qué residuos satisfacen simultáneamente criterios más estrictos: 1) Superposición de estructura local 2) Estructura secundaria regular 3) Superposición 3D 4) Mismo orden en la secuencia primaria. Convierte las estadísticas de la cantidad de residuos con coincidencias de alta confianza y el tamaño de la proteína para calcular un valor de expectativa para el resultado por casualidad. Se destaca en la coincidencia de homólogos remotos, en particular estructuras generadas por predicción de estructura ab initio con familias de estructuras como SCOP, porque enfatiza la extracción de una subalineación estadísticamente confiable y no en lograr la alineación de secuencia máxima o la superposición 3D máxima. ^[2]^[3]

Para cada ventana superpuesta de 7 residuos consecutivos, calcula el conjunto de vectores unitarios de dirección de desplazamiento entre residuos C-alfa adyacentes. Los motivos locales todos contra todos se comparan en función de la puntuación URMS. Estos valores se convierten en las entradas de puntuación de alineación de pares para la programación dinámica que produce una alineación de residuos por pares de semillas. La segunda fase utiliza un algoritmo MaxSub modificado: se utiliza un único par alineado de 7 residuos en cada proteína para orientar las dos estructuras de proteínas de longitud completa para superponer al máximo estos solo estos 7 C-alfa, luego en esta orientación escanea para cualquier par alineado adicional que esté cerca en 3D. Reorienta las estructuras para superponer este conjunto expandido e itera hasta que no coincidan más pares en 3D. Este proceso se reinicia para cada ventana de 7 residuos en la alineación de semillas. El resultado es el número máximo de átomos encontrados de cualquiera de estas semillas iniciales. Esta estadística se convierte en un valor E calibrado para la similitud de las proteínas.

Mammoth no intenta repetir la alineación inicial ni extender el subconjunto de alta calidad. Por lo tanto, la alineación inicial que muestra no se puede comparar de manera justa con DALI o TM align, ya que se formó simplemente como una heurística para podar el espacio de búsqueda. (Se puede usar si se desea una alineación basada únicamente en la similitud de estructura-motivo local, independiente de la alineación atómica de cuerpo rígido de largo alcance). Debido a esa misma parsimonia, es mucho más de diez veces más rápido que DALI, CE y TM-align. ^[24] A menudo se usa junto con estas herramientas más lentas para preseleccionar grandes bases de datos para extraer solo las mejores estructuras relacionadas con el valor E para una superposición más exhaustiva o cálculos costosos. ^[25]^[26]

Ha sido particularmente exitoso en el análisis de estructuras "señuelo" a partir de la predicción de la estructura ab initio. ^[1]^[2]^[3] Estos señuelos son conocidos por obtener la estructura del motivo del fragmento local correcta y formar algunos núcleos de estructura terciaria 3D correcta pero obtener la estructura terciaria de longitud completa incorrectamente. En este régimen de homología remota crepuscular, se ha demostrado que los valores e de Mammoth para la evaluación de la predicción de la estructura de la proteína CASP ^[1] están significativamente más correlacionados con la clasificación humana que SSAP o DALI. ^[12] La capacidad de Mammoth para extraer las superposiciones parciales de criterios múltiples con proteínas de estructura conocida y clasificarlas con valores E adecuados, combinada con su velocidad, facilita el escaneo de grandes cantidades de modelos de señuelo contra la base de datos PDB para identificar los señuelos más probablemente correctos en función de su homología remota con proteínas conocidas. ^[2]

APSS

El método SSAP (Sequential Structure Alignment Program) utiliza una doble programación dinámica para producir una alineación estructural basada en vectores átomo a átomo en el espacio estructural. En lugar de los carbonos alfa que se utilizan habitualmente en la alineación estructural, SSAP construye sus vectores a partir de los carbonos beta para todos los residuos excepto la glicina, un método que, por tanto, tiene en cuenta el estado rotámero de cada residuo, así como su ubicación a lo largo de la cadena principal. SSAP funciona construyendo primero una serie de vectores de distancia entre residuos y sus vecinos no contiguos más cercanos en cada proteína. A continuación, se construye una serie de matrices que contienen las diferencias de vectores entre vecinos para cada par de residuos para los que se construyeron los vectores. La programación dinámica aplicada a cada matriz resultante determina una serie de alineaciones locales óptimas que luego se suman en una matriz "resumen" a la que se aplica de nuevo la programación dinámica para determinar la alineación estructural general.

SSAP originalmente producía solo alineaciones por pares, pero desde entonces se ha extendido también a alineaciones múltiples. ^[27] Se ha aplicado de manera general para producir un esquema de clasificación de plegamiento jerárquico conocido como CATH (Clase, Arquitectura, Topología, Homología), ^[28] que se ha utilizado para construir la base de datos de clasificación de estructura de proteínas CATH.

Acontecimientos recientes

Las mejoras en los métodos de alineación estructural constituyen un área activa de investigación y a menudo se proponen métodos nuevos o modificados que se afirma que ofrecen ventajas sobre las técnicas más antiguas y más ampliamente distribuidas. Un ejemplo reciente, TM-align, utiliza un método novedoso para ponderar su matriz de distancia, a la que luego se aplica la programación dinámica estándar. ^[29]^[13] Se propone que la ponderación acelere la convergencia de la programación dinámica y corrija los efectos que surgen de las longitudes de alineación. En un estudio de evaluación comparativa, se informó que TM-align mejora tanto en velocidad como en precisión con respecto a DALI y CE. ^[29]

Otros métodos prometedores de alineación estructural son los métodos de alineación estructural local. Estos proporcionan una comparación de partes preseleccionadas de proteínas (por ejemplo, sitios de unión, motivos estructurales definidos por el usuario) ^[30]^[31]^[32] contra sitios de unión o bases de datos estructurales de proteínas completas. Los servidores MultiBind y MAPPIS ^[32]^[33] permiten la identificación de disposiciones espaciales comunes de propiedades fisicoquímicas como donante de enlaces de H, aceptor, alifático, aromático o hidrófobo en un conjunto de sitios de unión de proteínas proporcionados por el usuario definidos por interacciones con moléculas pequeñas (MultiBind) o en un conjunto de interfaces proteína-proteína proporcionadas por el usuario (MAPPIS). Otros proporcionan una comparación de estructuras de proteínas completas ^[34] contra una serie de estructuras enviadas por el usuario o contra una gran base de datos de estructuras de proteínas en un tiempo razonable ( ProBiS ^[35] ). A diferencia de los enfoques de alineación global, los enfoques de alineación estructural local son adecuados para la detección de patrones localmente conservados de grupos funcionales, que a menudo aparecen en sitios de unión y tienen una participación significativa en la unión de ligandos. ^[33] Como ejemplo, si comparamos G-Losa, ^[36] una herramienta de alineación de estructura local, con TM-align, un método basado en la alineación de estructura global, vemos que, si bien G-Losa predice las posiciones de los ligandos similares a fármacos en proteínas monocatenarias con mayor precisión que TM-align, la tasa de éxito general de TM-align es mejor. ^[37]

Sin embargo, a medida que las mejoras algorítmicas y el rendimiento de las computadoras han borrado las deficiencias puramente técnicas de los enfoques más antiguos, ha quedado claro que no existe un criterio universal para la alineación estructural "óptima". TM-align, por ejemplo, es particularmente robusto en la cuantificación de comparaciones entre conjuntos de proteínas con grandes disparidades en longitudes de secuencia, pero solo captura indirectamente los enlaces de hidrógeno o la conservación del orden de la estructura secundaria, que podrían ser mejores métricas para la alineación de proteínas relacionadas evolutivamente. Por lo tanto, los desarrollos recientes se han centrado en optimizar atributos particulares como la velocidad, la cuantificación de las puntuaciones, la correlación con estándares de oro alternativos o la tolerancia a la imperfección en los datos estructurales o en los modelos estructurales ab initio. Una metodología alternativa que está ganando popularidad es utilizar el consenso de varios métodos para determinar las similitudes estructurales de las proteínas. ^[38]

Alineamiento estructural del ARN

Las técnicas de alineamiento estructural se han aplicado tradicionalmente de forma exclusiva a las proteínas, como las macromoléculas biológicas primarias que asumen estructuras tridimensionales características. Sin embargo, las moléculas de ARN grandes también forman estructuras terciarias características , que están mediadas principalmente por enlaces de hidrógeno formados entre pares de bases , así como por apilamiento de bases . Las moléculas de ARN no codificantes funcionalmente similares pueden ser especialmente difíciles de extraer de los datos genómicos porque la estructura se conserva más fuertemente que la secuencia en el ARN, así como en las proteínas, ^[40] y el alfabeto más limitado del ARN disminuye el contenido de información de cualquier nucleótido dado en cualquier posición dada.

Sin embargo, debido al creciente interés en las estructuras de ARN y al crecimiento del número de estructuras de ARN 3D determinadas experimentalmente, recientemente se han desarrollado pocos métodos de similitud de estructuras de ARN. Uno de esos métodos es, por ejemplo, SETTER ^[41] , que descompone cada estructura de ARN en partes más pequeñas llamadas unidades de estructura secundaria general (GSSU). Las GSSU se alinean posteriormente y estas alineaciones parciales se fusionan en la alineación de estructura de ARN final y se califican. El método se ha implementado en el servidor web SETTER. ^[42]

Recientemente se ha publicado un método para el alineamiento estructural por pares de secuencias de ARN con baja identidad de secuencia y se ha implementado en el programa FOLDALIGN. ^[43] Sin embargo, este método no es verdaderamente análogo a las técnicas de alineamiento estructural de proteínas porque predice computacionalmente las estructuras de las secuencias de entrada de ARN en lugar de requerir estructuras determinadas experimentalmente como entrada. Aunque la predicción computacional del proceso de plegamiento de proteínas no ha sido particularmente exitosa hasta la fecha, las estructuras de ARN sin pseudonudos a menudo se pueden predecir de manera sensata utilizando métodos de puntuación basados en energía libre que tienen en cuenta el apareamiento y apilamiento de bases. ^[44]

Software

Elegir una herramienta de software para la alineación estructural puede ser un desafío debido a la gran variedad de paquetes disponibles que difieren significativamente en metodología y confiabilidad. En ^[38] se presentó una solución parcial a este problema y se hizo accesible al público a través del servidor web ProCKSI. Se puede encontrar una lista más completa del software de alineación estructural disponible actualmente y de distribución gratuita en software de alineación estructural .

Las propiedades de algunos servidores y paquetes de software de alineación estructural se resumen y prueban con ejemplos en Herramientas de alineación estructural en Proteopedia.Org.

Véase también

Referencias

^ abcde Kryshtafovych A, Monastyrskyy B, Fidelis K (2016). "Estadísticas de CASP11 y el sistema de evaluación del centro de predicción". Proteins . 84 (Supl. 1): (Supl. 1):15–19. doi : 10.1002/prot.25005 . PMC 5479680 . PMID 26857434.
^ abcdef Lars Malmström Michael Riffle; Charlie EM Strauss; Dylan Chivian; Trisha N Davis; Richard Bonneau; David Baker (2007). "Asignaciones de superfamilias para el proteoma de levadura a través de la integración de la predicción de la estructura con la ontología génica". PLOS Biol . 5 (4): e76 autor correspondiente 1, 2. doi : 10.1371/journal.pbio.0050076 . PMC 1828141 . PMID 17373854.
^ abcde David E. Kim; Dylan Chivian; David Baker (2004). "Predicción y análisis de la estructura de proteínas utilizando el servidor Robetta". Nucleic Acids Research . 32 (edición del servidor web): W526–W531 (edición del servidor web): W526–W531. doi : 10.1093/nar/gkh468 . PMC 441606 . PMID 15215442.
^ ab Zhang Y, Skolnick J (2005). "El problema de predicción de la estructura de proteínas podría resolverse utilizando la biblioteca PDB actual". Proc Natl Acad Sci USA . 102 (4): 1029–34. Bibcode :2005PNAS..102.1029Z. doi : 10.1073/pnas.0407152101 . PMC 545829 . PMID 15653774.
^ abc Zemla A. (2003). "LGA — Un método para encontrar similitudes tridimensionales en las estructuras de las proteínas". Investigación de ácidos nucleicos . 31 (13): 3370–3374. doi :10.1093/nar/gkg571. PMC 168977 . PMID 12824330.
^ Godzik A (1996). "La alineación estructural entre dos proteínas: ¿hay una respuesta única?". Protein Science . 5 (7): 1325–38. doi :10.1002/pro.5560050711. PMC 2143456 . PMID 8819165.
^ Martin ACR (1982). "Comparación rápida de estructuras de proteínas". Acta Crystallogr A . 38 (6): 871–873. Código Bibliográfico :1982AcCrA..38..871M. doi :10.1107/S0567739482001806.
^ Theobald DL, Wuttke DS (2006). "Modelos jerárquicos bayesianos empíricos para regularizar la estimación de máxima verosimilitud en el problema de Procrustes gaussiano matricial". Actas de la Academia Nacional de Ciencias . 103 (49): 18521–18527. Bibcode :2006PNAS..10318521T. doi : 10.1073/pnas.0508445103 . PMC 1664551 . PMID 17130458.
^ Theobald DL, Wuttke DS (2006). "THESEUS: Superposición de máxima verosimilitud y análisis de estructuras macromoleculares". Bioinformática . 22 (17): 2171–2172. doi :10.1093/bioinformatics/btl332. PMC 2584349 . PMID 16777907.
^ Diederichs K. (1995). "Superposición estructural de proteínas con alineamiento desconocido y detección de similitud topológica utilizando un algoritmo de búsqueda de seis dimensiones". Proteínas . 23 (2): 187–95. doi :10.1002/prot.340230208. PMID 8592700. S2CID 3469775.
^ Maiti R, Van Domselaar GH, Zhang H, Wishart DS (2004). "SuperPose: un servidor simple para superposición estructural sofisticada". Nucleic Acids Res . 32 (edición del servidor web): W590–4. doi :10.1093/nar/gkh477. PMC 441615 . PMID 15215457.
^ abcde Ortiz, AR; Strauss CE; Olmea O. (2002). "MAMMOTH (emparejamiento de modelos moleculares obtenidos a partir de la teoría): un método automatizado para la comparación de modelos". Protein Science . 11 (11): 2606–2621. doi : 10.1110/ps.0215902 . PMC 2373724 . PMID 12381844.
^ abcd Zhang Y, Skolnick J (2004). "Función de puntuación para la evaluación automatizada de la calidad de la plantilla de estructura de proteínas". Proteins . 57 (4): 702–710. doi :10.1002/prot.20264. PMID 15476259. S2CID 7954787.
^ ab Siew N, Elofsson A, Rychlewsk L, Fischer D (2000). "MaxSub: una medida automatizada para la evaluación de la calidad de la predicción de la estructura de proteínas". Bioinformática . 16 (9): 776–85. doi : 10.1093/bioinformatics/16.9.776 . PMID 11108700.
^ abc Poleksic A (2009). "Algoritmos para la alineación óptima de la estructura de proteínas". Bioinformática . 25 (21): 2751–2756. doi : 10.1093/bioinformatics/btp530 . PMID 19734152.
^ Lathrop RH. (1994). "El problema de enhebrado de proteínas con preferencias de interacción de aminoácidos de secuencia es NP-completo". Protein Eng . 7 (9): 1059–68. CiteSeerX 10.1.1.367.9081 . doi :10.1093/protein/7.9.1059. PMID 7831276.
^ Wang L, Jiang T (1994). "Sobre la complejidad del alineamiento de secuencias múltiples". Journal of Computational Biology . 1 (4): 337–48. CiteSeerX 10.1.1.408.894 . doi :10.1089/cmb.1994.1.337. PMID 8790475.
^ Kolodny R, Linial N (2004). "Alineamiento estructural aproximado de proteínas en tiempo polinomial". PNAS . 101 (33): 12201–12206. doi : 10.1073/pnas.0404383101 . PMC 514457 . PMID 15304646.
^ Martinez L, Andreani, R, Martinez, JM. (2007). "Algoritmos convergentes para el alineamiento estructural de proteínas". BMC Bioinformatics . 8 : 306. doi : 10.1186/1471-2105-8-306 . PMC 1995224 . PMID 17714583. {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ ab Mount DM. (2004). Bioinformática: análisis de secuencias y genomas 2.ª ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY ISBN 0879697121
^ Holm L, Sander C (1996). "Mapping the protein universe" (Mapeo del universo proteínico). Science . 273 (5275): 595–603. Bibcode :1996Sci...273..595H. doi :10.1126/science.273.5275.595. PMID 8662544. S2CID 7509134.
^ abc Shindyalov, IN; Bourne PE (1998). "Alineación de la estructura de proteínas mediante extensión combinatoria incremental (CE) de la ruta óptima". Ingeniería de proteínas . 11 (9): 739–747. doi : 10.1093/protein/11.9.739 . PMID 9796821.
^ Prlic A, Bliven S, Rose PW, Bluhm WF, Bizon C, Godzik A, Bourne PE (2010). "Alineaciones de estructura de proteínas precalculadas en el sitio web de RCSB PDB". Bioinformática . 26 (23): 2983–2985. doi :10.1093/bioinformatics/btq572. PMC 3003546 . PMID 20937596.
^ Pin-Hao Chi; Bin Pang; Dmitry Korkin; Chi-Ren Shyu (2009). "Clasificación y recuperación eficiente de plegamientos SCOP utilizando alineaciones de subestructuras de proteínas basadas en índices". Bioinformática . 25 (19): 2559–2565. doi : 10.1093/bioinformatics/btp474 . PMID 19667079.
^ Sara Cheek; Yuan Qi; Sri Krishna; Lisa N Kinch; Nick V Grishin (2004). "SCOPmap: Asignación automatizada de estructuras proteínicas a superfamilias evolutivas". BMC Bioinformatics . 5 (197): 197. doi : 10.1186/1471-2105-5-197 . PMC 544345 . PMID 15598351.
^ Kai Wang; Ram Samudrala (2005). "FSSA: un nuevo método para identificar firmas funcionales a partir de alineaciones estructurales". Bioinformática . 21 (13): 2969–2977. doi : 10.1093/bioinformatics/bti471 . PMID 15860561.
^ Taylor WR, Flores TP, Orengo CA (1994). "Alineamiento de estructuras de proteínas múltiples". Protein Sci . 3 (10): 1858–70. doi :10.1002/pro.5560031025. PMC 2142613 . PMID 7849601.
^ Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). "CATH: Una clasificación jerárquica de las estructuras de dominios proteicos". Structure . 5 (8): 1093–1108. doi : 10.1016/S0969-2126(97)00260-8 . PMID 9309224.
^ ab Zhang Y, Skolnick J (2005). "TM-align: Un algoritmo de alineación de la estructura de proteínas basado en el TM-score". Investigación de ácidos nucleicos . 33 (7): 2302–2309. doi :10.1093/nar/gki524. PMC 1084323 . PMID 15849316.
^ Stefano Angaran; Mary Ellen Bock ; Claudio Garutti; Concettina Guerra1 (2009). "MolLoc: una herramienta web para la alineación estructural local de superficies moleculares". Nucleic Acids Research . 37 (número del servidor web): W565–70. doi :10.1093/nar/gkp405. PMC 2703929 . PMID 19465382. {{cite journal}}: CS1 maint: numeric names: authors list (link)
^ Gaëlle Debret; Arnaud Martel; Philippe Cuniasse (2009). "RASMOT-3D PRO: un servidor web de búsqueda de motivos en 3D". Nucleic Acids Research . 37 (número de servidor web): W459–64. doi :10.1093/nar/gkp304. PMC 2703991 . PMID 19417073.
^ por Alexandra Shulman-Peleg; Maxim Shatsky; Ruth Nussinov; Haim J. Wolfson (2008). "MultiBind y MAPPIS: servidores web para la alineación múltiple de sitios de unión 3D de proteínas y sus interacciones". Nucleic Acids Research . 36 (número de servidor web): W260–4. doi :10.1093/nar/gkn185. PMC 2447750 . PMID 18467424.
^ ab Alexandra Shulman-Peleg; Maxim Shatsky; Ruth Nussinov; Haim J Wolfson (2007). "Conservación química espacial de interacciones de puntos calientes en complejos proteína-proteína". BMC Biology . 5 (43): 43. doi : 10.1186/1741-7007-5-43 . PMC 2231411 . PMID 17925020.
^ Gabriele Ausiello; Pier Federico Gherardini; Paolo Marcatili; Anna Tramontano; Allegra Via; Manuela Helmer-Citterich (2008). "FunClust: un servidor web para la identificación de motivos estructurales en un conjunto de estructuras proteínicas no homólogas". BMC Biology . 9 (Suppl 2): S2. doi : 10.1186/1471-2105-9-S2-S2 . PMC 2323665 . PMID 18387204.
^ Janez Konc; Dušanka Janežič (2010). "Algoritmo ProBiS para la detección de sitios de unión de proteínas estructuralmente similares mediante alineamiento estructural local". Bioinformática . 26 (9): 1160–1168. doi :10.1093/bioinformatics/btq100. PMC 2859123 . PMID 20305268.
^ Hui Sun Lee; Wonpil Im (2012). "Identificación de plantillas de ligandos mediante alineación de estructura local para el diseño de fármacos basado en la estructura". Revista de información y modelado químico . 52 (10): 2784–2795. doi :10.1021/ci300178e. PMC 3478504 . PMID 22978550.
^ Hui Sun Lee; Wonpil Im (2013). "Detección del sitio de unión del ligando por alineación de la estructura local y su complementariedad de rendimiento". Revista de información y modelado químico . 53 (9): 2462–2470. doi :10.1021/ci4003602. PMC 3821077 . PMID 23957286.
^ ab Barthel D., Hirst JD, Blazewicz J., Burke EK y Krasnogor N. (2007). "ProCKSI: un sistema de apoyo a la toma de decisiones para la comparación, el conocimiento, la similitud y la información de la estructura de las proteínas". BMC Bioinformatics . 8 : 416. doi : 10.1186/1471-2105-8-416 . PMC 2222653 . PMID 17963510. {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Sippl, M.; Wiederstein, M. (2012). "Detección de correlaciones espaciales en estructuras proteínicas y complejos moleculares". Structure . 20 (4): 718–728. doi :10.1016/j.str.2012.01.024. PMC 3320710 . PMID 22483118.
^ Torarinsson E, Sawera M, Havgaard JH, Fredholm M, Gorodkin J (2006). "Miles de regiones genómicas humanas y de ratón correspondientes que no se pueden alinear en la secuencia primaria contienen una estructura de ARN común". Genome Res . 16 (7): 885–9. doi :10.1101/gr.5226606. PMC 1484455 . PMID 16751343.
^ Hoksza D, Svozil D (2012). "Comparación eficiente de la estructura de pares de ARN mediante el método SETTER". Bioinformática . 28 (14): 1858–1864. doi : 10.1093/bioinformatics/bts301 . PMID 22611129.
^ Cech P, Svozil D, Hoksza D (2012). "SETTER: servidor web para la comparación de la estructura del ARN". Nucleic Acids Research . 40 (W1): W42–W48. doi :10.1093/nar/gks560. PMC 3394248 . PMID 22693209.
^ Havgaard JH, Lyngso RB, Stormo GD, Gorodkin J (2005). "Pairwise local structural alignment of RNA sequences with sequence similarity less than 40%". Bioinformatics. 21 (9): 1815–24. doi:10.1093/bioinformatics/bti279. PMID 15657094.
^ Mathews DH, Turner DH (2006). "Prediction of RNA secondary structure by free energy minimization". Curr Opin Struct Biol. 16 (3): 270–8. doi:10.1016/j.sbi.2006.05.010. PMID 16713706.