stringtranslate.com

Alineación estructural

"Alineación estructural de tiorredoxinas de humanos y la mosca Drosophila melanogaster" . Las proteínas se muestran como cintas, con la proteína humana en rojo y la proteína de mosca en amarillo. Generado a partir de PDB 3TRX y 1XWC.

La alineación estructural intenta establecer homología entre dos o más estructuras poliméricas en función de su forma y conformación tridimensional . Este proceso suele aplicarse a estructuras terciarias de proteínas , pero también se puede utilizar para moléculas de ARN grandes . A diferencia de la superposición estructural simple, donde se conocen al menos algunos residuos equivalentes de las dos estructuras, el alineamiento estructural no requiere conocimiento a priori de posiciones equivalentes. La alineación estructural es una herramienta valiosa para la comparación de proteínas con baja similitud de secuencia, donde las relaciones evolutivas entre proteínas no pueden detectarse fácilmente mediante técnicas estándar de alineación de secuencias . Por lo tanto, la alineación estructural se puede utilizar para implicar relaciones evolutivas entre proteínas que comparten muy poca secuencia común. Sin embargo, se debe tener precaución al utilizar los resultados como evidencia de una ascendencia evolutiva compartida debido a los posibles efectos de confusión de la evolución convergente mediante la cual múltiples secuencias de aminoácidos no relacionadas convergen en una estructura terciaria común .

Los alineamientos estructurales pueden comparar dos secuencias o múltiples secuencias . Debido a que estas alineaciones se basan en información sobre las conformaciones tridimensionales de todas las secuencias de consulta, el método sólo se puede utilizar en secuencias donde se conocen estas estructuras. Generalmente se encuentran mediante cristalografía de rayos X o espectroscopia de RMN . Es posible realizar una alineación estructural en estructuras producidas mediante métodos de predicción de estructuras . De hecho, evaluar tales predicciones a menudo requiere una alineación estructural entre el modelo y la verdadera estructura conocida para evaluar la calidad del modelo. [1] Los alineamientos estructurales son especialmente útiles para analizar datos de esfuerzos de genómica y proteómica estructural , y pueden usarse como puntos de comparación para evaluar alineamientos producidos mediante métodos bioinformáticos puramente basados ​​en secuencias . [2] [3] [4]

Los resultados de una alineación estructural son una superposición de los conjuntos de coordenadas atómicas y una desviación cuadrática media mínima ( RMSD ) entre las estructuras. El RMSD de dos estructuras alineadas indica su divergencia entre sí. La alineación estructural puede complicarse por la existencia de múltiples dominios proteicos dentro de una o más de las estructuras de entrada, porque los cambios en la orientación relativa de los dominios entre dos estructuras a alinear pueden inflar artificialmente el RMSD.

Datos producidos por alineación estructural.

La información mínima producida a partir de una alineación estructural exitosa es un conjunto de residuos que se consideran equivalentes entre las estructuras. Este conjunto de equivalencias se utiliza normalmente para superponer las coordenadas tridimensionales de cada estructura de entrada. (Tenga en cuenta que un elemento de entrada puede fijarse como referencia y, por lo tanto, sus coordenadas superpuestas no cambian). Las estructuras ajustadas se pueden utilizar para calcular valores RMSD mutuos, así como otras medidas más sofisticadas de similitud estructural, como la prueba de distancia global. (GDT, [5] la métrica utilizada en CASP ). El alineamiento estructural también implica un alineamiento de secuencia unidimensional correspondiente a partir del cual se puede calcular una identidad de secuencia, o el porcentaje de residuos que son idénticos entre las estructuras de entrada, como una medida de cuán estrechamente están relacionadas las dos secuencias.

Tipos de comparaciones

Debido a que las estructuras proteicas están compuestas de aminoácidos cuyas cadenas laterales están unidas por una estructura proteica común, se pueden utilizar varios subconjuntos posibles diferentes de átomos que componen una macromolécula proteica para producir una alineación estructural y calcular los valores RMSD correspondientes. Cuando se alinean estructuras con secuencias muy diferentes, los átomos de las cadenas laterales generalmente no se tienen en cuenta porque sus identidades difieren entre muchos residuos alineados. Por esta razón, es común que los métodos de alineación estructural utilicen por defecto sólo los átomos del esqueleto incluidos en el enlace peptídico . Por simplicidad y eficiencia, a menudo sólo se consideran las posiciones del carbono alfa , ya que el enlace peptídico tiene una conformación plana mínimamente variante. Sólo cuando las estructuras a alinear son muy similares o incluso idénticas tiene sentido alinear las posiciones de los átomos de las cadenas laterales, en cuyo caso el RMSD refleja no sólo la conformación de la columna vertebral de la proteína sino también los estados rotaméricos de las cadenas laterales. Otros criterios de comparación que reducen el ruido y refuerzan las coincidencias positivas incluyen la asignación de estructuras secundarias , mapas de contacto nativos o patrones de interacción de residuos, medidas de empaquetamiento de cadenas laterales y medidas de retención de enlaces de hidrógeno . [6]

Superposición estructural

La comparación más básica posible entre estructuras de proteínas no intenta alinear las estructuras de entrada y requiere una alineación precalculada como entrada para determinar cuáles de los residuos en la secuencia deben considerarse en el cálculo de RMSD. La superposición estructural se usa comúnmente para comparar múltiples conformaciones de la misma proteína (en cuyo caso no es necesario el alineamiento, ya que las secuencias son las mismas) y para evaluar la calidad de los alineamientos producidos usando solo información de secuencia entre dos o más secuencias cuyas estructuras se conocen. . Este método utiliza tradicionalmente un algoritmo de ajuste de mínimos cuadrados simple, en el que las rotaciones y traslaciones óptimas se encuentran minimizando la suma de las distancias al cuadrado entre todas las estructuras en la superposición. [7] Más recientemente, los métodos bayesianos y de máxima verosimilitud han aumentado considerablemente la precisión de las rotaciones, traslaciones y matrices de covarianza estimadas para la superposición. [8] [9]

Se han desarrollado algoritmos basados ​​en rotaciones multidimensionales y cuaterniones modificados para identificar relaciones topológicas entre estructuras proteicas sin necesidad de un alineamiento predeterminado. Dichos algoritmos han identificado con éxito pliegues canónicos como el haz de cuatro hélices . [10] El método SuperPose es suficientemente extensible para corregir rotaciones relativas de dominio y otros problemas estructurales. [11]

Evaluación de similitud

A menudo el propósito de buscar una superposición estructural no es tanto la superposición en sí, sino una evaluación de la similitud de dos estructuras o la confianza en una alineación remota. [1] [2] [3] Una distinción sutil pero importante de la superposición estructural máxima es la conversión de una alineación en una puntuación de similitud significativa. [12] [13] La mayoría de los métodos generan algún tipo de "puntuación" que indica la calidad de la superposición. [5] [14] [15] [12] [13] Sin embargo, lo que uno realmente quiere no es simplemente una "puntuación Z" estimada o un valor E estimado de ver la superposición observada por casualidad, sino que uno desea que la El valor E estimado está estrechamente correlacionado con el valor E verdadero. Fundamentalmente, incluso si el valor E estimado de un método es precisamente correcto en promedio , si carece de una desviación estándar baja en su proceso de generación de valor estimado, entonces el orden de clasificación de las similitudes relativas de una proteína de consulta con un conjunto de comparación rara vez coincidirá con el orden "verdadero". [12] [13]

Diferentes métodos superpondrán diferentes números de residuos porque utilizan diferentes garantías de calidad y diferentes definiciones de "superposición"; algunos solo incluyen residuos que cumplen múltiples criterios de superposición locales y globales y otros son más codiciosos, flexibles y promiscuos. Un mayor número de átomos superpuestos puede significar más similitud, pero no siempre puede producir el mejor valor E que cuantifique la improbabilidad de la superposición y, por lo tanto, no es tan útil para evaluar la similitud, especialmente en homólogos remotos. [1] [2] [3] [4]

Complejidad algorítmica

Solucion optima

Se ha demostrado que el " enhebrado " óptimo de una secuencia de proteínas en una estructura conocida y la producción de un alineamiento de secuencia múltiple óptimo es NP-completo . [16] [17] Sin embargo, esto no implica que el problema de alineación estructural sea NP-completo. Estrictamente hablando, solo se conoce una solución óptima al problema de alineación de la estructura de las proteínas para ciertas medidas de similitud de la estructura de las proteínas, como las medidas utilizadas en los experimentos de predicción de la estructura de las proteínas, GDT_TS [5] y MaxSub. [14] Estas medidas se pueden optimizar rigurosamente utilizando un algoritmo capaz de maximizar el número de átomos en dos proteínas que se pueden superponer bajo un límite de distancia predefinido. [15] Desafortunadamente, el algoritmo para la solución óptima no es práctico, ya que su tiempo de ejecución depende no sólo de las longitudes sino también de la geometría intrínseca de las proteínas de entrada.

solución aproximada

Se han desarrollado algoritmos aproximados de tiempo polinomial para la alineación estructural que producen una familia de soluciones "óptimas" dentro de un parámetro de aproximación para una función de puntuación determinada. [15] [18] Aunque estos algoritmos clasifican teóricamente el problema de alineación aproximada de la estructura de las proteínas como "manejable", todavía son computacionalmente demasiado costosos para el análisis de la estructura de las proteínas a gran escala. Como consecuencia, no existen algoritmos prácticos que converjan a las soluciones globales del alineamiento, dada una función de puntuación. La mayoría de los algoritmos son, por lo tanto, heurísticos, pero se han desarrollado algoritmos que garantizan la convergencia al menos a maximizadores locales de las funciones de puntuación y que son prácticos. [19]

Representación de estructuras

Las estructuras de las proteínas deben representarse en algún espacio independiente de las coordenadas para que sean comparables. Esto generalmente se logra mediante la construcción de una matriz de secuencia a secuencia o una serie de matrices que abarcan métricas comparativas: en lugar de distancias absolutas relativas a un espacio de coordenadas fijo. Una representación intuitiva es la matriz de distancias , que es una matriz bidimensional que contiene todas las distancias por pares entre algún subconjunto de átomos en cada estructura (como los carbonos alfa ). La matriz aumenta en dimensionalidad a medida que aumenta el número de estructuras a alinear simultáneamente. Reducir la proteína a una métrica aproximada, como elementos de estructura secundaria (SSE) o fragmentos estructurales, también puede producir alineamientos sensibles, a pesar de la pérdida de información al descartar distancias, ya que también se descarta el ruido . [20] Elegir una representación para facilitar el cálculo es fundamental para desarrollar un mecanismo de alineación eficiente.

Métodos

Se han utilizado técnicas de alineación estructural para comparar estructuras individuales o conjuntos de estructuras, así como en la producción de bases de datos de comparación "todos contra todos" que miden la divergencia entre cada par de estructuras presentes en el Banco de datos de proteínas (PDB). Estas bases de datos se utilizan para clasificar proteínas por su plegamiento .

DALÍ

Ilustración de los vectores átomo a átomo calculados en SSAP. A partir de estos vectores se construiría una serie de diferencias de vectores, por ejemplo, entre (FA) en la Proteína 1 y (SI) en la Proteína 2. Las dos secuencias se trazan en las dos dimensiones de una matriz para formar una matriz diferenciada entre las dos proteínas. La programación dinámica se aplica a todas las matrices de diferencias posibles para construir una serie de rutas de alineación local óptimas que luego se suman para formar la matriz resumen, en la que se realiza una segunda ronda de programación dinámica.

Un método de alineación estructural común y popular es el DALI, o método de alineación de matriz de distancia, que divide las estructuras de entrada en fragmentos de hexapéptidos y calcula una matriz de distancia evaluando los patrones de contacto entre fragmentos sucesivos. [21] Las características de la estructura secundaria que involucran residuos que son contiguos en secuencia aparecen en la diagonal principal de la matriz ; otras diagonales en la matriz reflejan contactos espaciales entre residuos que no están cerca entre sí en la secuencia. Cuando estas diagonales son paralelas a la diagonal principal, los rasgos que representan son paralelos; cuando son perpendiculares, sus características son antiparalelas. Esta representación requiere mucha memoria porque las características de la matriz cuadrada son simétricas (y por lo tanto redundantes) con respecto a la diagonal principal.

Cuando las matrices de distancia de dos proteínas comparten características iguales o similares en aproximadamente las mismas posiciones, se puede decir que tienen pliegues similares con bucles de longitud similar que conectan sus elementos de estructura secundaria. El proceso de alineación real de DALI requiere una búsqueda de similitud después de que se construyen las matrices de distancia de las dos proteínas; Esto normalmente se realiza mediante una serie de submatrices superpuestas de tamaño 6x6. Luego, las coincidencias de submatriz se vuelven a ensamblar en una alineación final mediante un algoritmo estándar de maximización de puntuación: la versión original de DALI utilizó una simulación de Monte Carlo para maximizar una puntuación de similitud estructural que es función de las distancias entre los supuestos átomos correspondientes. En particular, los átomos más distantes dentro de las características correspondientes se reducen exponencialmente para reducir los efectos del ruido introducido por la movilidad del bucle, las torsiones de hélice y otras variaciones estructurales menores. [20] Debido a que DALI se basa en una matriz de distancias de todos a todos, puede tener en cuenta la posibilidad de que características estructuralmente alineadas puedan aparecer en diferentes órdenes dentro de las dos secuencias que se comparan.

El método DALI también se ha utilizado para construir una base de datos conocida como FSSP (clasificación de pliegues basada en el alineamiento estructura-estructura de proteínas o familias de proteínas estructuralmente similares) en la que todas las estructuras de proteínas conocidas se alinean entre sí para determinar sus vecinas estructurales y clasificación de pliegues. Existe una base de datos con capacidad de búsqueda basada en DALI, así como un programa descargable y una búsqueda web basada en una versión independiente conocida como DaliLite.

Extensión combinatoria

El método de extensión combinatoria (CE) es similar a DALI en que también divide cada estructura del conjunto de consultas en una serie de fragmentos que luego intenta volver a ensamblar en una alineación completa. Se utiliza una serie de combinaciones de fragmentos por pares llamadas pares de fragmentos alineados, o AFP, para definir una matriz de similitud a través de la cual se genera una ruta óptima para identificar la alineación final. Sólo las AFP que cumplen determinados criterios de similitud local se incluyen en la matriz como una forma de reducir el espacio de búsqueda necesario y, por tanto, aumentar la eficiencia. [22] Son posibles varias métricas de similitud; La definición original del método CE incluía solo superposiciones estructurales y distancias entre residuos, pero desde entonces se ha ampliado para incluir propiedades ambientales locales como la estructura secundaria, la exposición a solventes, los patrones de enlaces de hidrógeno y los ángulos diédricos . [22]

Una ruta de alineación se calcula como la ruta óptima a través de la matriz de similitud progresando linealmente a través de las secuencias y extendiendo la alineación con el siguiente posible par de AFP de alta puntuación. El par de AFP inicial que nuclea el alineamiento puede ocurrir en cualquier punto de la matriz de secuencia. Luego, las extensiones continúan con la siguiente AFP que cumpla con los criterios de distancia dados que restringen la alineación a tamaños de espacios bajos. El tamaño de cada AFP y el tamaño máximo del espacio son parámetros de entrada requeridos, pero generalmente se establecen en valores determinados empíricamente de 8 y 30 respectivamente. [22] Al igual que DALI y SSAP, CE se ha utilizado para construir una base de datos de clasificación de pliegues completos Archivado el 3 de diciembre de 1998 en Wayback Machine a partir de las estructuras de proteínas conocidas en el PDB.

RCSB PDB ha lanzado recientemente una versión actualizada de CE, Mammoth y FATCAT como parte de la herramienta de comparación de proteínas RCSB PDB. Proporciona una nueva variación de CE que puede detectar permutaciones circulares en estructuras de proteínas. [23]

Mamut

MAMMOTH [12] aborda el problema de alineación desde un objetivo diferente al de casi todos los demás métodos. En lugar de intentar encontrar una alineación que superponga al máximo el mayor número de residuos, busca el subconjunto de la alineación estructural que tiene menos probabilidades de ocurrir por casualidad. Para ello, marca una alineación de motivo local con banderas para indicar qué residuos satisfacen simultáneamente criterios más estrictos: 1) superposición de estructura local 2) estructura secundaria regular 3) superposición 3D 4) mismo orden en la secuencia primaria. Convierte las estadísticas del número de residuos con coincidencias de alta confianza y el tamaño de la proteína para calcular un valor de Expectativa para el resultado por casualidad. Se destaca en hacer coincidir homólogos remotos, particularmente estructuras generadas por predicción de estructuras ab initio con familias de estructuras como SCOP, porque enfatiza la extracción de una subalineación estadísticamente confiable y no el logro de la alineación de secuencia máxima o la superposición 3D máxima. [2] [3]

Para cada ventana superpuesta de 7 residuos consecutivos, calcula el conjunto de vectores unitarios de dirección de desplazamiento entre residuos C-alfa adyacentes. Los motivos locales todos contra todos se comparan según la puntuación de la URMS. Estos valores se convierten en las entradas de puntuación de alineación de pares para la programación dinámica que produce una alineación de residuos de pares de semillas. La segunda fase utiliza un algoritmo MaxSub modificado: se utiliza un único par alineado residente de 7 en cada proteína para orientar las dos estructuras de proteínas de longitud completa para superponer al máximo solo estos 7 C-alfa, luego, en esta orientación, escanea en busca de pares alineados adicionales. que están cerca en 3D. Reorienta las estructuras para superponer este conjunto expandido e itera hasta que no coincidan más pares en 3D. Este proceso se reinicia por cada ventana de 7 residuos en la alineación de semillas. El resultado es el número máximo de átomos encontrados en cualquiera de estas semillas iniciales. Esta estadística se convierte en un valor E calibrado para la similitud de las proteínas.

Mammoth no hace ningún intento de reiterar la alineación inicial ni ampliar el subconjunto de alta calidad. Por lo tanto, la alineación de semillas que muestra no se puede comparar justamente con la alineación DALI o TM, ya que se formó simplemente como una heurística para podar el espacio de búsqueda. (Se puede utilizar si se desea una alineación basada únicamente en la similitud del motivo de la estructura local, independiente de la alineación atómica de cuerpos rígidos de largo alcance). Debido a esa misma parsimonia, es más de diez veces más rápido que DALI, CE y TM-align. [24] A menudo se utiliza junto con estas herramientas más lentas para realizar una selección previa de grandes bases de datos para extraer las mejores estructuras relacionadas con el valor E para una superposición más exhaustiva o cálculos costosos. [25] [26]

Ha sido particularmente exitoso en el análisis de estructuras "señuelo" a partir de la predicción de estructuras ab initio. [1] [2] [3] Estos señuelos son conocidos por lograr que la estructura del motivo del fragmento local sea correcta y por formar algunos núcleos de una estructura terciaria 3D correcta, pero por obtener una estructura terciaria de longitud completa incorrecta. En este régimen de homología remota en el crepúsculo, se ha demostrado que los valores e de Mammoth para la evaluación de predicción de la estructura de la proteína CASP [1] están significativamente más correlacionados con la clasificación humana que SSAP o DALI. [12] La capacidad del mamut para extraer superposiciones parciales de criterios múltiples con proteínas de estructura conocida y clasificarlas con valores E adecuados, combinada con su velocidad, facilita el escaneo de una gran cantidad de modelos de señuelos en la base de datos PDB para identificar los señuelos correctos más probables. basándose en su remota homología con proteínas conocidas. [2]

SSAP

El método SSAP (Programa de alineación de estructura secuencial) utiliza programación dinámica doble para producir una alineación estructural basada en vectores átomo a átomo en el espacio estructural. En lugar de los carbonos alfa que normalmente se utilizan en la alineación estructural, SSAP construye sus vectores a partir de los carbonos beta para todos los residuos excepto la glicina, un método que tiene en cuenta el estado rotámero de cada residuo, así como su ubicación a lo largo de la columna vertebral. SSAP funciona construyendo primero una serie de vectores de distancia entre residuos entre cada residuo y sus vecinos no contiguos más cercanos en cada proteína. Luego se construye una serie de matrices que contienen las diferencias de vectores entre vecinos para cada par de residuos para los cuales se construyeron vectores. La programación dinámica aplicada a cada matriz resultante determina una serie de alineamientos locales óptimos que luego se suman en una matriz "resumen" a la que se aplica nuevamente la programación dinámica para determinar el alineamiento estructural general.

SSAP originalmente produjo solo alineaciones por pares, pero desde entonces también se ha extendido a alineaciones múltiples. [27] Se ha aplicado de manera global para producir un esquema de clasificación de pliegues jerárquicos conocido como CATH (Clase, Arquitectura, Topología, Homología), [28] que se ha utilizado para construir la base de datos de clasificación de estructuras de proteínas CATH. .

Desarrollos recientes

Las mejoras en los métodos de alineación estructural constituyen un área activa de investigación, y a menudo se proponen métodos nuevos o modificados que supuestamente ofrecen ventajas sobre las técnicas más antiguas y más ampliamente distribuidas. Un ejemplo reciente, TM-align, utiliza un método novedoso para ponderar su matriz de distancias, al que luego se aplica la programación dinámica estándar. [29] [13] La ponderación se propone para acelerar la convergencia de la programación dinámica y corregir los efectos que surgen de las longitudes de alineación. En un estudio comparativo, se informó que TM-align mejora tanto en velocidad como en precisión con respecto a DALI y CE. [29]

Otros métodos prometedores de alineación estructural son los métodos de alineación estructural local. Estos proporcionan una comparación de partes preseleccionadas de proteínas (por ejemplo, sitios de unión, motivos estructurales definidos por el usuario) [30] [31] [32] con sitios de unión o bases de datos estructurales de proteínas completas. Los servidores MultiBind y MAPPIS [32] [33] permiten la identificación de disposiciones espaciales comunes de propiedades fisicoquímicas, como donante de enlaces H, aceptor, alifático, aromático o hidrófobo en un conjunto de sitios de unión a proteínas proporcionados por el usuario definidos por interacciones con moléculas pequeñas. (MultiBind) o en un conjunto de interfaces proteína-proteína proporcionadas por el usuario (MAPPIS). Otros proporcionan una comparación de estructuras de proteínas completas [34] con una serie de estructuras enviadas por el usuario o con una gran base de datos de estructuras de proteínas en un tiempo razonable ( ProBiS [35] ). A diferencia de los enfoques de alineación global, los enfoques de alineación estructural local son adecuados para la detección de patrones de grupos funcionales conservados localmente, que a menudo aparecen en los sitios de unión y tienen una participación significativa en la unión del ligando. [33] Como ejemplo, comparando G-Losa, [36] una herramienta de alineación de estructura local, con TM-align, un método basado en alineación de estructura global. Si bien G-Losa predice las posiciones de ligandos similares a fármacos en objetivos de proteínas monocatenarias con mayor precisión que TM-align, la tasa general de éxito de TM-align es mejor. [37]

Sin embargo, a medida que las mejoras algorítmicas y el rendimiento de las computadoras han borrado las deficiencias puramente técnicas de los enfoques más antiguos, ha quedado claro que no existe un criterio universal para la alineación estructural "óptima". TM-align, por ejemplo, es particularmente sólido en la cuantificación de comparaciones entre conjuntos de proteínas con grandes disparidades en la longitud de las secuencias, pero solo captura indirectamente los enlaces de hidrógeno o la conservación del orden de la estructura secundaria, que podrían ser mejores métricas para la alineación de proteínas relacionadas evolutivamente. Por lo tanto, los desarrollos recientes se han centrado en optimizar atributos particulares como la velocidad, la cuantificación de puntuaciones, la correlación con estándares de oro alternativos o la tolerancia a la imperfección en datos estructurales o modelos estructurales ab initio. Una metodología alternativa que está ganando popularidad es utilizar el consenso de varios métodos para determinar las similitudes estructurales de las proteínas. [38]

Alineación estructural del ARN

Las técnicas de alineación estructural se han aplicado tradicionalmente exclusivamente a las proteínas, como macromoléculas biológicas primarias que asumen estructuras tridimensionales características. Sin embargo, las moléculas de ARN grandes también forman estructuras terciarias características , que están mediadas principalmente por enlaces de hidrógeno formados entre pares de bases , así como por apilamiento de bases . Las moléculas de ARN no codificantes funcionalmente similares pueden ser especialmente difíciles de extraer de datos genómicos porque la estructura está más fuertemente conservada que la secuencia en el ARN así como en las proteínas, [40] y el alfabeto más limitado del ARN disminuye el contenido de información de cualquier nucleótido dado en cualquier momento. posición dada.

Sin embargo, debido al creciente interés en las estructuras de ARN y al crecimiento del número de estructuras de ARN 3D determinadas experimentalmente, recientemente se han desarrollado pocos métodos de similitud de estructuras de ARN. Uno de esos métodos es, por ejemplo, SETTER [41] , que descompone cada estructura de ARN en partes más pequeñas llamadas unidades de estructura secundaria general (GSSU). Posteriormente, los GSSU se alinean y estos alineamientos parciales se fusionan en el alineamiento final de la estructura del ARN y se califican. El método se ha implementado en el servidor web SETTER. [42]

En el programa FOLDALIGN se ha publicado e implementado un método reciente para el alineamiento estructural por pares de secuencias de ARN con baja identidad de secuencia. [43] Sin embargo, este método no es realmente análogo a las técnicas de alineación estructural de proteínas porque predice computacionalmente las estructuras de las secuencias de entrada de ARN en lugar de requerir estructuras determinadas experimentalmente como entrada. Aunque la predicción computacional del proceso de plegamiento de proteínas no ha sido particularmente exitosa hasta la fecha, las estructuras de ARN sin pseudonudos a menudo pueden predecirse de manera sensata utilizando métodos de puntuación basados ​​en energía libre que tienen en cuenta el emparejamiento y el apilamiento de bases. [44]

Software

Elegir una herramienta de software para la alineación estructural puede ser un desafío debido a la gran variedad de paquetes disponibles que difieren significativamente en metodología y confiabilidad. Una solución parcial a este problema se presentó en [38] y se hizo accesible públicamente a través del servidor web ProCKSI. Puede encontrar una lista más completa del software de alineación estructural actualmente disponible y distribuido gratuitamente en software de alineación estructural .

Las propiedades de algunos servidores de alineación estructural y paquetes de software se resumen y prueban con ejemplos en Structural Alignment Tools en Proteopedia.Org.

Ver también

Referencias

  1. ^ abcde Kryshtafovych A, Monastyrskyy B, Fidelis K (2016). "Estadísticas CASP11 y el sistema de evaluación del centro de predicción. \". Proteínas . 84 (Suplemento 1): (Suplemento 1): 15–19. doi : 10.1002/prot.25005 . PMC  5479680 . PMID  26857434.
  2. ^ abcdef Lars Malmström Michael Riffle; Charlie EM Strauss; Dylan Chivián; Trisha N Davis; Richard Bonneau; David panadero (2007). "Asignaciones de superfamilia para el proteoma de levadura mediante la integración de la predicción de la estructura con la ontología genética". PLOS Biol . 5 (4): e76autor correspondiente1, 2. doi : 10.1371/journal.pbio.0050076 . PMC 1828141 . PMID  17373854. 
  3. ^ abcde David E. Kim; Dylan Chivián; David panadero (2004). "Predicción y análisis de la estructura de proteínas mediante el servidor Robetta". Investigación de ácidos nucleicos . 32 (problema del servidor web): W526–W531 (problema del servidor web): W526–W531. doi : 10.1093/nar/gkh468 . PMC 441606 . PMID  15215442. 
  4. ^ ab Zhang Y, Skolnick J (2005). "El problema de predicción de la estructura de las proteínas podría resolverse utilizando la biblioteca PDB actual". Proc Natl Acad Sci Estados Unidos . 102 (4): 1029–34. Código Bib : 2005PNAS..102.1029Z. doi : 10.1073/pnas.0407152101 . PMC 545829 . PMID  15653774. 
  5. ^ abc Zemla A. (2003). "LGA: un método para encontrar similitudes tridimensionales en estructuras de proteínas". Investigación de ácidos nucleicos . 31 (13): 3370–3374. doi : 10.1093/nar/gkg571. PMC 168977 . PMID  12824330. 
  6. ^ Godzik A (1996). "La alineación estructural entre dos proteínas: ¿Existe una respuesta única?". Ciencia de las proteínas . 5 (7): 1325–38. doi :10.1002/pro.5560050711. PMC 2143456 . PMID  8819165. 
  7. ^ Martín ACR (1982). "Comparación rápida de estructuras de proteínas". Acta Crystallogr A. 38 (6): 871–873. Código bibliográfico : 1982AcCrA..38..871M. doi :10.1107/S0567739482001806.
  8. ^ Theobald DL, Wuttke DS (2006). "Modelos jerárquicos empíricos de Bayes para regularizar la estimación de máxima verosimilitud en el problema matricial gaussiano de Procrustes". Procedimientos de la Academia Nacional de Ciencias . 103 (49): 18521–18527. Código bibliográfico : 2006PNAS..10318521T. doi : 10.1073/pnas.0508445103 . PMC 1664551 . PMID  17130458. 
  9. ^ Theobald DL, Wuttke DS (2006). "TESEO: Superposición de máxima verosimilitud y análisis de estructuras macromoleculares". Bioinformática . 22 (17): 2171–2172. doi : 10.1093/bioinformática/btl332. PMC 2584349 . PMID  16777907. 
  10. ^ Diederichs K. (1995). "Superposición estructural de proteínas con alineación desconocida y detección de similitud topológica mediante un algoritmo de búsqueda de seis dimensiones". Proteínas . 23 (2): 187–95. doi : 10.1002/prot.340230208. PMID  8592700. S2CID  3469775.
  11. ^ Maiti R, Van Domselaar GH, Zhang H, Wishart DS (2004). "SuperPose: un servidor sencillo para una superposición estructural sofisticada". Ácidos nucleicos Res . 32 (problema del servidor web): W590–4. doi :10.1093/nar/gkh477. PMC 441615 . PMID  15215457. 
  12. ^ abcde Ortiz, AR; Strauss CE; Olmea O. (2002). "MAMMOTH (modelos moleculares coincidentes obtenidos de la teoría): un método automatizado para la comparación de modelos". Ciencia de las proteínas . 11 (11): 2606–2621. doi : 10.1110/ps.0215902 . PMC 2373724 . PMID  12381844. 
  13. ^ abcd Zhang Y, Skolnick J (2004). "Función de puntuación para la evaluación automatizada de la calidad de la plantilla de estructura de proteínas". Proteínas . 57 (4): 702–710. doi :10.1002/prot.20264. PMID  15476259. S2CID  7954787.
  14. ^ ab Siew N, Elofsson A, Rychlewsk L, Fischer D (2000). "MaxSub: una medida automatizada para la evaluación de la calidad de la predicción de la estructura de las proteínas". Bioinformática . 16 (9): 776–85. doi : 10.1093/bioinformática/16.9.776 . PMID  11108700.
  15. ^ abc Poleksic A (2009). "Algoritmos para la alineación óptima de la estructura de las proteínas". Bioinformática . 25 (21): 2751–2756. doi : 10.1093/bioinformática/btp530 . PMID  19734152.
  16. ^ Lathrop RH. (1994). "El problema del enhebrado de proteínas con las preferencias de interacción de secuencias de aminoácidos es NP completo". Ing. Proteínas . 7 (9): 1059–68. CiteSeerX 10.1.1.367.9081 . doi : 10.1093/proteína/7.9.1059. PMID  7831276. 
  17. ^ Wang L, Jiang T (1994). "Sobre la complejidad del alineamiento de secuencias múltiples". Revista de biología computacional . 1 (4): 337–48. CiteSeerX 10.1.1.408.894 . doi :10.1089/cmb.1994.1.337. PMID  8790475. 
  18. ^ Kolodny R, Linial N (2004). "Alineación estructural aproximada de proteínas en tiempo polinómico". PNAS . 101 (33): 12201–12206. doi : 10.1073/pnas.0404383101 . PMC 514457 . PMID  15304646. 
  19. ^ Martínez L, Andreani, R, Martínez, JM. (2007). "Algoritmos convergentes para el alineamiento estructural de proteínas". Bioinformática BMC . 8 : 306. doi : 10.1186/1471-2105-8-306 . PMC 1995224 . PMID  17714583. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  20. ^ ab Monte DM. (2004). Bioinformática: análisis de secuencias y genoma 2ª ed. Prensa de laboratorio de Cold Spring Harbor: Cold Spring Harbor, Nueva York ISBN 0879697121 
  21. ^ Holm L, Sander C (1996). "Mapeo del universo proteico". Ciencia . 273 (5275): 595–603. Código Bib : 1996 Ciencia... 273.. 595H. doi : 10.1126/ciencia.273.5275.595. PMID  8662544. S2CID  7509134.
  22. ^ abc Shindyalov, IN; Bourne PE (1998). "Alineación de la estructura proteica mediante extensión combinatoria incremental (CE) de la ruta óptima". Ingeniería de proteínas . 11 (9): 739–747. doi : 10.1093/proteína/11.9.739 . PMID  9796821.
  23. ^ Prlic A, Bliven S, Rose PW, Bluhm WF, Bizon C, Godzik A, Bourne PE (2010). "Alineaciones de estructuras de proteínas precalculadas en el sitio web de RCSB PDB". Bioinformática . 26 (23): 2983–2985. doi : 10.1093/bioinformática/btq572. PMC 3003546 . PMID  20937596. 
  24. ^ Pin-Hao Chi; Bin Pang; Dmitri Korkin; Chi-Ren Shyu (2009). "Clasificación y recuperación eficiente de pliegues SCOP utilizando alineaciones de subestructuras de proteínas basadas en índices". Bioinformática . 25 (19): 2559–2565. doi : 10.1093/bioinformática/btp474 . PMID  19667079.
  25. ^ Sara mejilla; Yuan Qi; Sri Krishna; Lisa N Kinch; Nick V Grishin (2004). "SCOPmap: asignación automatizada de estructuras proteicas a superfamilias evolutivas". Bioinformática BMC . 5 (197): 197. doi : 10.1186/1471-2105-5-197 . PMC 544345 . PMID  15598351. 
  26. ^ Kai Wang; Ram Samudrala (2005). "FSSA: un método novedoso para identificar firmas funcionales a partir de alineamientos estructurales". Bioinformática . 21 (13): 2969–2977. doi : 10.1093/bioinformática/bti471 . PMID  15860561.
  27. ^ Taylor WR, Flores TP, Orengo CA (1994). "Alineación de estructuras de proteínas múltiples". Ciencia de las proteínas . 3 (10): 1858–70. doi :10.1002/pro.5560031025. PMC 2142613 . PMID  7849601. 
  28. ^ Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). "CATH: una clasificación jerárquica de estructuras de dominios de proteínas". Estructura . 5 (8): 1093-1108. doi : 10.1016/S0969-2126(97)00260-8 . PMID  9309224.
  29. ^ ab Zhang Y, Skolnick J (2005). "TM-align: un algoritmo de alineación de la estructura de proteínas basado en la puntuación de TM". Investigación de ácidos nucleicos . 33 (7): 2302–2309. doi : 10.1093/nar/gki524. PMC 1084323 . PMID  15849316. 
  30. ^ Stefano Angaran; María Elena Bock ; Claudio Garutti; Concettina Guerra1 (2009). "MolLoc: una herramienta web para el alineamiento estructural local de superficies moleculares". Investigación de ácidos nucleicos . 37 (problema del servidor web): W565–70. doi :10.1093/nar/gkp405. PMC 2703929 . PMID  19465382. {{cite journal}}: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
  31. ^ Gaëlle Debret; Arnaud Martel; Philippe Cuniasse (2009). "RASMOT-3D PRO: un servidor web de búsqueda de motivos 3D". Investigación de ácidos nucleicos . 37 (problema del servidor web): W459–64. doi :10.1093/nar/gkp304. PMC 2703991 . PMID  19417073. 
  32. ^ ab Alexandra Shulman-Peleg; Maxim Shatsky; Rut Nussinov; Haim J. Wolfson (2008). "MultiBind y MAPPIS: servidores web para alineación múltiple de sitios de unión de proteínas 3D y sus interacciones". Investigación de ácidos nucleicos . 36 (problema del servidor web): W260–4. doi : 10.1093/nar/gkn185. PMC 2447750 . PMID  18467424. 
  33. ^ ab Alexandra Shulman-Peleg; Maxim Shatsky; Rut Nussinov; Haim J. Wolfson (2007). "Conservación química espacial de interacciones de puntos calientes en complejos proteína-proteína". Biología BMC . 5 (43): 43. doi : 10.1186/1741-7007-5-43 . PMC 2231411 . PMID  17925020. 
  34. ^ Gabriele Ausiello; Pier Federico Gherardini; Paolo Marcatili; Anna Tramontano; Allegra Vía; Manuela Helmer-Citterich (2008). "FunClust: un servidor web para la identificación de motivos estructurales en un conjunto de estructuras proteicas no homólogas". Biología BMC . 9 (Suplemento 2): T2. doi : 10.1186/1471-2105-9-S2-S2 . PMC 2323665 . PMID  18387204. 
  35. ^ Janez Konc; Dušanka Janežič (2010). "Algoritmo ProBiS para la detección de sitios de unión a proteínas estructuralmente similares mediante alineación estructural local". Bioinformática . 26 (9): 1160-1168. doi : 10.1093/bioinformática/btq100. PMC 2859123 . PMID  20305268. 
  36. ^ Hui Sun Lee; Wonpil Im (2012). "Identificación de plantillas de ligandos mediante alineación de estructuras locales para el diseño de fármacos basado en estructuras". Revista de información y modelado químico . 52 (10): 2784–2795. doi :10.1021/ci300178e. PMC 3478504 . PMID  22978550. 
  37. ^ Hui Sun Lee; Wonpil Im (2013). "Detección del sitio de unión de ligando mediante alineación de la estructura local y su complementariedad de rendimiento". Revista de información y modelado químico . 53 (9): 2462–2470. doi :10.1021/ci4003602. PMC 3821077 . PMID  23957286. 
  38. ^ ab Barthel D., Hirst JD, Blazewicz J., Burke EK y Krasnogor N. (2007). "ProCKSI: un sistema de apoyo a la toma de decisiones para la comparación, el conocimiento, la similitud y la información de proteínas (estructuras)". Bioinformática BMC . 8 : 416. doi : 10.1186/1471-2105-8-416 . PMC 2222653 . PMID  17963510. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  39. ^ Sippl, M.; Wiederstein, M. (2012). "Detección de correlaciones espaciales en estructuras proteicas y complejos moleculares". Estructura . 20 (4): 718–728. doi :10.1016/j.str.2012.01.024. PMC 3320710 . PMID  22483118. 
  40. ^ Torarinsson E, Sawera M, Havgaard JH, Fredholm M, Gorodkin J (2006). "Miles de regiones genómicas humanas y de ratón correspondientes no alineadas en la secuencia primaria contienen una estructura de ARN común". Res del genoma . 16 (7): 885–9. doi :10.1101/gr.5226606. PMC 1484455 . PMID  16751343. 
  41. ^ Hoksza D, Svozil D (2012). "Comparación eficiente de estructuras por pares de ARN mediante el método SETTER". Bioinformática . 28 (14): 1858–1864. doi : 10.1093/bioinformática/bts301 . PMID  22611129.
  42. ^ Cech P, Svozil D, Hoksza D (2012). "SETTER: servidor web para comparación de estructuras de ARN". Investigación de ácidos nucleicos . 40 (W1): W42-W48. doi : 10.1093/nar/gks560. PMC 3394248 . PMID  22693209. 
  43. ^ Havgaard JH, Lyngso RB, Stormo GD, Gorodkin J (2005). "Alineación estructural local por pares de secuencias de ARN con similitud de secuencia inferior al 40%". Bioinformática . 21 (9): 1815–24. doi : 10.1093/bioinformática/bti279 . PMID  15657094.
  44. ^ Mathews DH, Turner DH (2006). "Predicción de la estructura secundaria del ARN mediante minimización de energía libre". Estructura de opinión actual Biol . 16 (3): 270–8. doi :10.1016/j.sbi.2006.05.010. PMID  16713706.

Otras lecturas