Alineación de secuencias múltiples

El alineamiento de secuencias múltiples ( MSA ) puede referirse al proceso o al resultado del alineamiento de secuencias de tres o más secuencias biológicas , generalmente proteínas , ADN o ARN . En muchos casos, se supone que el conjunto de entrada de secuencias de consulta tiene una relación evolutiva por la cual comparten un vínculo y descienden de un ancestro común. A partir del MSA resultante, se puede inferir la homología de secuencia y se puede realizar un análisis filogenético para evaluar los orígenes evolutivos compartidos de las secuencias. Las representaciones visuales de la alineación como en la imagen de la derecha ilustran eventos de mutación como mutaciones puntuales (cambios de un solo aminoácido o nucleótido ) que aparecen como caracteres diferentes en una sola columna de alineación, y mutaciones de inserción o eliminación ( indeles o espacios) que aparecen como guiones en una o más de las secuencias de la alineación. El alineamiento de secuencias múltiples se utiliza a menudo para evaluar la conservación de secuencias de dominios proteicos , estructuras terciarias y secundarias , e incluso aminoácidos o nucleótidos individuales.

Se utilizan algoritmos computacionales para producir y analizar los MSA debido a la dificultad y la intratabilidad de procesar manualmente las secuencias dada su longitud biológicamente relevante. Los MSA requieren metodologías más sofisticadas que la alineación por pares porque son más complejas desde el punto de vista computacional . La mayoría de los programas de alineación de secuencias múltiples utilizan métodos heurísticos en lugar de optimización global porque identificar la alineación óptima entre más de unas pocas secuencias de longitud moderada es prohibitivamente costosa desde el punto de vista computacional. Por otro lado, los métodos heurísticos generalmente no ofrecen garantías sobre la calidad de la solución, y las soluciones heurísticas suelen estar muy por debajo de la solución óptima en instancias de referencia. ^[1]^[2]^[3]

Planteamiento del problema

Secuencias dadas , similares a la siguiente forma: $m$ $S_{i}$ $i=1,\cdots,m$

$S:={\begin{casos}S_{1}=(S_{11},S_{12},\ldots,S_{1n_{1}})\\S_{2}=(S_{21) },S_{22},\cdots ,S_{2n_{2}})\\\,\,\,\,\,\,\,\,\,\,\vdots \\S_{m}=( S_{m1},S_{m2},\ldots,S_{mn_{m}})\end{casos}}$

Se toma una alineación de secuencia múltiple de este conjunto de secuencias insertando cualquier cantidad de espacios necesarios en cada una de las secuencias de hasta que las secuencias modificadas, todas se ajusten a la longitud y ningún valor en las secuencias de la misma columna conste solo de espacios. La forma matemática de un MSA del conjunto de secuencias anterior se muestra a continuación: $S$ $S_{i}$ $S$ $S'_{i}$ $L\geq \max\{n_{i}\mid i=1,\ldots ,m\}$ $S$

$S':={\begin{cases}S'_{1}=(S'_{11},S'_{12},\ldots,S'_{1L})\\S'_ {2}=(S'_{21},S'_{22},\ldots ,S'_{2L})\\\,\,\,\,\,\,\,\,\,\ ,\vdots \\S'_{m}=(S'_{m1},S'_{m2},\ldots ,S'_{mL})\end{cases}}$

Para regresar de cada secuencia particular a , elimine todos los espacios. $S'_{i}$ $S_{i}$

Enfoque gráfico

Un enfoque general al calcular múltiples alineamientos de secuencias es utilizar gráficos para identificar todos los diferentes alineamientos. Al encontrar alineaciones mediante un gráfico, se crea una alineación completa en un gráfico ponderado que contiene un conjunto de vértices y un conjunto de aristas. Cada uno de los bordes del gráfico tiene un peso basado en una determinada heurística que ayuda a puntuar cada alineación o subconjunto del gráfico original.

Seguimiento de alineaciones

Al determinar las alineaciones más adecuadas para cada MSA, normalmente se genera una traza . Una traza es un conjunto de vértices realizados , o correspondientes y alineados, que tiene un peso específico en función de los bordes que se seleccionan entre los vértices correspondientes. Al elegir trazas para un conjunto de secuencias, es necesario elegir una traza con un peso máximo para obtener la mejor alineación de las secuencias.

Métodos de alineación

Existen varios métodos de alineación utilizados dentro de múltiples secuencias para maximizar las puntuaciones y la corrección de las alineaciones. Cada uno suele basarse en una determinada heurística que permite comprender el proceso evolutivo. La mayoría intenta replicar la evolución para obtener la alineación más realista posible para predecir mejor las relaciones entre secuencias.

Programación dinámica

Un método directo para producir un MSA utiliza la técnica de programación dinámica para identificar la solución de alineación óptima global. Para las proteínas, este método generalmente implica dos conjuntos de parámetros: una penalización por espacio y una matriz de sustitución que asigna puntuaciones o probabilidades al alineamiento de cada posible par de aminoácidos en función de la similitud de las propiedades químicas de los aminoácidos y la probabilidad evolutiva de los aminoácidos. mutación. Para las secuencias de nucleótidos, se utiliza una penalización de espacios similar, pero es típica una matriz de sustitución mucho más simple, en la que sólo se consideran coincidencias y desajustes idénticos. Las puntuaciones en la matriz de sustitución pueden ser todas positivas o una combinación de positivas y negativas en el caso de una alineación global, pero deben ser tanto positivas como negativas en el caso de una alineación local. ^[4]

Para n secuencias individuales, el método ingenuo requiere construir el equivalente n -dimensional de la matriz formada en la alineación de secuencias por pares estándar . Por tanto, el espacio de búsqueda aumenta exponencialmente al aumentar n y también depende en gran medida de la longitud de la secuencia. Expresado con la notación O grande comúnmente utilizada para medir la complejidad computacional , un MSA ingenuo tarda O(Longitud ^Nseqs ) en producirse. Se ha demostrado que encontrar el óptimo global para n secuencias de esta manera es un problema NP-completo . ^[5]^[6]^[7] En 1989, basado en el algoritmo Carrillo-Lipman, ^[8] Altschul introdujo un método práctico que utiliza alineaciones por pares para restringir el espacio de búsqueda de n dimensiones. ^[9] En este enfoque, las alineaciones de programación dinámica por pares se realizan en cada par de secuencias en el conjunto de consultas, y solo se busca el espacio cerca de la intersección n-dimensional de estas alineaciones para la alineación de n vías. El programa MSA optimiza la suma de todos los pares de caracteres en cada posición en la alineación (la llamada suma de puntuación de pares ) y se ha implementado en un programa de software para construir múltiples alineaciones de secuencias. ^[10] En 2019, Hosseininasab y van Hoeve demostraron que mediante el uso de diagramas de decisión, MSA se puede modelar en complejidad de espacio polinomial. ^[3]

Construcción de alineación progresiva

El enfoque más utilizado para alineamientos de secuencias múltiples utiliza una búsqueda heurística conocida como técnica progresiva (también conocida como método jerárquico o de árbol) desarrollada por Da-Fei Feng y Doolittle en 1987. ^[11] El alineamiento progresivo construye un MSA final combinando alineaciones por pares que comienzan con el par más similar y progresan hasta el relacionado más distante. Todos los métodos de alineación progresiva requieren dos etapas: una primera etapa en la que las relaciones entre las secuencias se representan como un árbol , llamado árbol guía , y un segundo paso en el que se construye el MSA añadiendo las secuencias secuencialmente al MSA en crecimiento según el árbol guía. El árbol guía inicial se determina mediante un método de agrupamiento eficiente , como la unión de vecinos o UPGMA , y puede usar distancias basadas en el número de subsecuencias idénticas de dos letras (como en FASTA en lugar de una alineación de programación dinámica). ^[12]

No se garantiza que las alineaciones progresivas sean globalmente óptimas. El problema principal es que cuando se cometen errores en cualquier etapa del crecimiento del MSA, estos errores se propagan hasta el resultado final. El rendimiento también es particularmente malo cuando todas las secuencias del set están relacionadas de manera bastante lejana. La mayoría de los métodos progresivos modernos modifican su función de puntuación con una función de ponderación secundaria que asigna factores de escala a miembros individuales del conjunto de consultas de forma no lineal en función de su distancia filogenética de sus vecinos más cercanos. Esto corrige la selección no aleatoria de las secuencias dadas al programa de alineación. ^[12]

Los métodos de alineación progresiva son lo suficientemente eficientes como para implementarse a gran escala para muchas secuencias (de cientos a miles). Los servicios de alineación progresiva suelen estar disponibles en servidores web de acceso público, por lo que los usuarios no necesitan instalar localmente las aplicaciones de interés. El método de alineación progresiva más popular ha sido la familia Clustal , ^[13] especialmente la variante ponderada ClustalW ^[14] a la que se accede a través de un gran número de portales web, incluidos GenomeNet, EBI y EMBNet. Diferentes portales o implementaciones pueden variar en la interfaz de usuario y hacer que el usuario pueda acceder a diferentes parámetros. ClustalW se usa ampliamente para la construcción de árboles filogenéticos, a pesar de las advertencias explícitas del autor de que las alineaciones no editadas no deben usarse en tales estudios y como entrada para la predicción de la estructura de proteínas mediante modelos de homología. La versión actual de la familia Clustal es ClustalW2. EMBL-EBI anunció que CLustalW2 caducará en agosto de 2015. Recomiendan Clustal Omega, que funciona basándose en árboles guía sembrados y técnicas de perfil HMM para alineamientos de proteínas. Ofrecen diferentes herramientas MSA para alineamientos progresivos de ADN. Uno de ellos es MAFFT (Alineación múltiple mediante transformada rápida de Fourier). ^[15]

Otro método de alineación progresiva común llamado T-Coffee ^[16] es más lento que Clustal y sus derivados, pero generalmente produce alineaciones más precisas para conjuntos de secuencias distantes. T-Coffee calcula alineaciones por pares combinando la alineación directa del par con alineaciones indirectas que alinean cada secuencia del par con una tercera secuencia. Utiliza el resultado de Clustal así como otro programa de alineación local LALIGN, que encuentra múltiples regiones de alineación local entre dos secuencias. La alineación resultante y el árbol filogenético se utilizan como guía para producir factores de ponderación nuevos y más precisos.

Debido a que los métodos progresivos son heurísticas que no garantizan que converjan a un óptimo global, la calidad de la alineación puede ser difícil de evaluar y su verdadero significado biológico puede ser oscuro. En el programa PSAlign se ha implementado un método semiprogresivo que mejora la calidad de la alineación y no utiliza una heurística con pérdida mientras se ejecuta en tiempo polinomial . ^[17]

Métodos iterativos

Un conjunto de métodos para producir MSA y al mismo tiempo reducir los errores inherentes a los métodos progresivos se clasifican como "iterativos" porque funcionan de manera similar a los métodos progresivos pero realinean repetidamente las secuencias iniciales y agregan nuevas secuencias al MSA en crecimiento. Una de las razones por las que los métodos progresivos dependen tanto de un alineamiento inicial de alta calidad es el hecho de que estos alineamientos siempre se incorporan al resultado final, es decir, una vez que una secuencia se ha alineado en el MSA, su alineamiento no se considera más. Esta aproximación mejora la eficiencia a costa de la precisión. Por el contrario, los métodos iterativos pueden volver a alineamientos por pares o sub-MSA previamente calculados que incorporan subconjuntos de la secuencia de consulta como un medio para optimizar una función objetivo general , como encontrar una puntuación de alineación de alta calidad. ^[12]

Se han implementado y disponibles en paquetes de software una variedad de métodos de iteración sutilmente diferentes; Las revisiones y comparaciones han sido útiles, pero generalmente se abstienen de elegir la "mejor" técnica. ^[18] El paquete de software PRRN/PRRP utiliza un algoritmo de escalada para optimizar su puntuación de alineación de MSA ^[19] y corrige de forma iterativa tanto los pesos de alineación como las regiones localmente divergentes o "gappy" de la MSA en crecimiento. ^[12] PRRP funciona mejor cuando se refina una alineación previamente construida mediante un método más rápido. ^[12]

Otro programa iterativo, DIALIGN, adopta un enfoque inusual al centrarse estrictamente en alineaciones locales entre subsegmentos o motivos de secuencia sin introducir una penalización por espacios. ^[20] La alineación de motivos individuales se logra luego con una representación matricial similar a un diagrama de matriz de puntos en una alineación por pares. En la suite CHAOS/DIALIGN se implementa un método alternativo que utiliza alineaciones locales rápidas como puntos de anclaje o "semillas" para un procedimiento de alineación global más lento. ^[20]

Un tercer método popular basado en iteraciones llamado MUSCLE (alineamiento de secuencias múltiples por expectativa logarítmica) mejora los métodos progresivos con una medida de distancia más precisa para evaluar la relación de dos secuencias. ^[21] La medida de distancia se actualiza entre las etapas de iteración (aunque, en su forma original, MUSCLE contenía solo 2-3 iteraciones dependiendo de si el refinamiento estaba habilitado).

Métodos de consenso

Los métodos de consenso intentan encontrar la alineación óptima de múltiples secuencias dadas múltiples alineaciones diferentes del mismo conjunto de secuencias. Hay dos métodos de consenso comúnmente utilizados, M-COFFEE y MergeAlign. ^[22] M-COFFEE utiliza múltiples alineamientos de secuencias generados por siete métodos diferentes para generar alineamientos de consenso. MergeAlign es capaz de generar alineaciones de consenso a partir de cualquier número de alineaciones de entrada generadas utilizando diferentes modelos de evolución de secuencias o diferentes métodos de alineación de secuencias múltiples. La opción predeterminada para MergeAlign es inferir una alineación de consenso utilizando alineaciones generadas utilizando 91 modelos diferentes de evolución de secuencias de proteínas.

Modelos ocultos de Markov

Los modelos ocultos de Markov son modelos probabilísticos que pueden asignar probabilidades a todas las combinaciones posibles de brechas, coincidencias y desajustes para determinar la MSA o el conjunto de MSA posibles más probable. Los HMM pueden producir un resultado único con la puntuación más alta, pero también pueden generar una familia de posibles alineamientos que luego pueden evaluarse para determinar su importancia biológica. Los HMM pueden producir alineamientos tanto globales como locales. Aunque los métodos basados en HMM se han desarrollado relativamente recientemente, ofrecen mejoras significativas en la velocidad computacional, especialmente para secuencias que contienen regiones superpuestas. ^[12]

Los métodos típicos basados en HMM funcionan representando un MSA como una forma de gráfico acíclico dirigido conocido como gráfico de orden parcial, que consta de una serie de nodos que representan posibles entradas en las columnas de un MSA. En esta representación una columna que está absolutamente conservada (es decir, que todas las secuencias en el MSA comparten un carácter particular en una posición particular) se codifica como un solo nodo con tantas conexiones salientes como caracteres posibles haya en la siguiente columna de la alineación. En los términos de un modelo oculto típico de Markov, los estados observados son las columnas de alineación individuales y los estados "ocultos" representan la supuesta secuencia ancestral de la que se supone que descienden las secuencias del conjunto de consultas. Generalmente se utiliza una variante de búsqueda eficiente del método de programación dinámica, conocida como algoritmo de Viterbi , para alinear sucesivamente el MSA en crecimiento con la siguiente secuencia en el conjunto de consultas para producir un nuevo MSA. ^[23] Esto se diferencia de los métodos de alineación progresiva porque la alineación de secuencias anteriores se actualiza en cada nueva adición de secuencia. Sin embargo, al igual que los métodos progresivos, esta técnica puede verse influenciada por el orden en que las secuencias del conjunto de consultas se integran en la alineación, especialmente cuando las secuencias están relacionadas lejanamente. ^[12]

Hay varios programas de software disponibles en los que se han implementado variantes de métodos basados en HMM y que destacan por su escalabilidad y eficiencia, aunque utilizar correctamente un método HMM es más complejo que utilizar métodos progresivos más comunes. El más simple es POA (Alineación de orden parcial); ^[24] un método similar pero más generalizado se implementa en los paquetes SAM (Sequence Alignment and Modeling System). ^[25] y HMMER . ^[26] SAM se ha utilizado como fuente de alineamientos para la predicción de la estructura de proteínas para participar en el experimento de predicción de la estructura CASP y para desarrollar una base de datos de proteínas predichas en la especie de levadura S. cerevisiae . HHsearch ^[27] es un paquete de software para la detección de secuencias de proteínas relacionadas remotamente basado en la comparación por pares de HMM. Un servidor que ejecuta HHsearch ( HHpred ) fue, con diferencia, el más rápido de los 10 mejores servidores de predicción automática de estructuras en las competiciones de predicción de estructuras CASP7 y CASP8. ^[28]

Métodos conscientes de la filogenia

La mayoría de los métodos de alineación de secuencias múltiples intentan minimizar el número de inserciones/eliminaciones (espacios) y, como consecuencia, producir alineaciones compactas. Esto causa varios problemas si las secuencias a alinear contienen regiones no homólogas , si los espacios son informativos en un análisis de filogenia . Estos problemas son comunes en secuencias recién producidas que están mal anotadas y pueden contener cambios de marco , dominios incorrectos o exones empalmados no homólogos . El primer método de este tipo fue desarrollado en 2005 por Löytynoja y Goldman. ^[29] Los mismos autores lanzaron un paquete de software llamado PRANK en 2008. ^[30] PRANK mejora las alineaciones cuando hay inserciones presentes. Sin embargo, su ejecución es lenta en comparación con los métodos progresivos y/o iterativos que se han desarrollado durante varios años.

En 2012, aparecieron dos nuevas herramientas que tienen en cuenta la filogenia. Uno se llama PAGAN y fue desarrollado por el mismo equipo que PRANK. ^[31] El otro es ProGraphMSA desarrollado por Szalkowski. ^[32] Ambos paquetes de software se desarrollaron de forma independiente pero comparten características comunes, en particular el uso de algoritmos gráficos para mejorar el reconocimiento de regiones no homólogas y una mejora en el código que hace que este software sea más rápido que PRANK.

Búsqueda de motivos

Alineación de las siete caspasas de Drosophila coloreadas por motivos identificados por MEME. Cuando las posiciones de los motivos y las alineaciones de secuencias se generan de forma independiente, a menudo se correlacionan bien pero no perfectamente, como en este ejemplo.

La búsqueda de motivos, también conocida como análisis de perfiles, es un método para localizar motivos de secuencia en MSA globales que es a la vez un medio para producir un MSA mejor y un medio para producir una matriz de puntuación para usar en la búsqueda de motivos similares en otras secuencias. Se han desarrollado una variedad de métodos para aislar los motivos, pero todos se basan en la identificación de patrones cortos altamente conservados dentro del alineamiento más grande y la construcción de una matriz similar a una matriz de sustitución que refleja la composición de aminoácidos o nucleótidos de cada posición en el motivo putativo. . Luego, la alineación se puede refinar utilizando estas matrices. En el análisis de perfil estándar, la matriz incluye entradas para cada carácter posible, así como entradas para los huecos. ^[12] Alternativamente, los algoritmos estadísticos de búsqueda de patrones pueden identificar motivos como precursores de un MSA en lugar de como una derivación. En muchos casos, cuando el conjunto de consultas contiene solo una pequeña cantidad de secuencias o solo secuencias altamente relacionadas, se agregan pseudocuentas para normalizar la distribución reflejada en la matriz de puntuación. En particular, esto corrige las entradas de probabilidad cero en la matriz a valores que son pequeños pero distintos de cero.

El análisis de bloques es un método de búsqueda de motivos que los restringe a regiones no separadas en la alineación. Los bloques pueden generarse a partir de un MSA o pueden extraerse de secuencias no alineadas utilizando un conjunto precalculado de motivos comunes generados previamente a partir de familias de genes conocidas. ^[33] La puntuación de bloques generalmente se basa en el espaciado de los caracteres de alta frecuencia en lugar del cálculo de una matriz de sustitución explícita. El servidor BLOCKS proporciona un método interactivo para localizar dichos motivos en secuencias no alineadas.

La coincidencia de patrones estadísticos se ha implementado utilizando tanto el algoritmo de maximización de expectativas como el muestreador de Gibbs . Una de las herramientas de búsqueda de motivos más comunes, conocida como MEME , utiliza la maximización de expectativas y métodos ocultos de Markov para generar motivos que luego su compañero MAST utiliza como herramientas de búsqueda en la suite combinada MEME/MAST Archivado el 22 de agosto de 2010 en el Máquina de Wayback . ^[34]^[35]

Alineación de secuencias múltiples no codificantes

Las regiones de ADN no codificantes, especialmente los TFBS, están bastante más conservadas y no necesariamente relacionadas evolutivamente, y pueden haber convergido a partir de ancestros no comunes. Por lo tanto, las suposiciones utilizadas para alinear secuencias de proteínas y regiones codificantes de ADN son inherentemente diferentes de aquellas que se aplican a las secuencias de TFBS. Aunque tiene sentido alinear regiones codificantes de ADN para secuencias homólogas utilizando operadores de mutación, la alineación de secuencias de sitios de unión para el mismo factor de transcripción no puede depender de operaciones de mutación relacionadas con la evolución. De manera similar, el operador evolutivo de mutaciones puntuales se puede utilizar para definir una distancia de edición para secuencias codificantes, pero esto tiene poco significado para las secuencias TFBS porque cualquier variación de secuencia debe mantener un cierto nivel de especificidad para que funcione el sitio de unión. Esto se vuelve específicamente importante cuando se intenta alinear secuencias conocidas de TFBS para construir modelos supervisados para predecir ubicaciones desconocidas del mismo TFBS. Por lo tanto, los métodos de Alineación de Secuencias Múltiples necesitan ajustar la hipótesis evolutiva subyacente y los operadores utilizados como en el trabajo publicado incorporando información termodinámica de base vecina ^[36] para alinear los sitios de unión buscando la alineación termodinámica más baja que conserve la especificidad del sitio de unión, EDNA.

Mejoramiento

Algoritmos genéticos y recocido simulado.

Las técnicas de optimización estándar en informática, que se inspiraron en procesos físicos, pero no los reproducen directamente, también se han utilizado en un intento de producir MSA de calidad de manera más eficiente. Una de esas técnicas, los algoritmos genéticos , se ha utilizado para la producción de MSA en un intento de simular ampliamente el proceso evolutivo hipotético que dio lugar a la divergencia en el conjunto de consultas. El método funciona rompiendo una serie de posibles MSA en fragmentos y reorganizando repetidamente esos fragmentos con la introducción de espacios en diferentes posiciones. Durante la simulación se optimiza una función objetivo general , generalmente la función de maximización de "suma de pares" introducida en los métodos MSA basados en programación dinámica. Se ha implementado una técnica para secuencias de proteínas en el programa de software SAGA (Sequence Alignment by Genetic Algorithm) ^[37] y su equivalente en ARN se llama RAGA. ^[38]

La técnica de recocido simulado , mediante la cual un MSA existente producido por otro método se refina mediante una serie de reordenamientos diseñados para encontrar mejores regiones del espacio de alineación que la que ya ocupa la alineación de entrada. Al igual que el método del algoritmo genético, el recocido simulado maximiza una función objetivo como la función de suma de pares. El recocido simulado utiliza un "factor de temperatura" metafórico que determina la velocidad a la que proceden los reordenamientos y la probabilidad de cada reordenamiento; el uso típico alterna períodos de altas tasas de reordenamiento con probabilidad relativamente baja (para explorar regiones más distantes del espacio de alineación) con períodos de tasas más bajas y mayores probabilidades de explorar más a fondo los mínimos locales cerca de las regiones recientemente "colonizadas". Este enfoque se ha implementado en el programa MSASA (Multiple Sequence Alignment by Simulated Annealing). ^[39]

Programación matemática y algoritmos de solución exacta.

La programación matemática y, en particular, los modelos de programación entera mixta son otro enfoque para resolver problemas de MSA. La ventaja de estos modelos de optimización es que se pueden utilizar para encontrar la solución MSA óptima de forma más eficiente en comparación con el enfoque DP tradicional. Esto se debe en parte a la aplicabilidad de técnicas de descomposición para programas matemáticos, donde el modelo MSA se descompone en partes más pequeñas y se resuelve iterativamente hasta encontrar la solución óptima. Los algoritmos de ejemplo utilizados para resolver modelos de programación entera mixta de MSA incluyen rama y precio ^[40] y descomposición de Benders . ^[3] Aunque los enfoques exactos son computacionalmente lentos en comparación con los algoritmos heurísticos para MSA, se garantiza que eventualmente alcanzarán la solución óptima, incluso para problemas de gran tamaño.

Computación cuántica simulada

En enero de 2017, D-Wave Systems anunció que su software de computación cuántica de código abierto qbsolv se había utilizado con éxito para encontrar una solución más rápida al problema de MSA. ^[41]

Visualización de alineación y control de calidad.

El uso necesario de heurísticas para alineamientos múltiples significa que para un conjunto arbitrario de proteínas, siempre existe una buena posibilidad de que un alineamiento contenga errores. Por ejemplo, una evaluación de varios programas de alineación líderes utilizando el punto de referencia BAliBase encontró que al menos el 24% de todos los pares de aminoácidos alineados estaban alineados incorrectamente. ^[2] Estos errores pueden surgir debido a inserciones únicas en una o más regiones de secuencias, o a través de algún proceso evolutivo más complejo que conduce a proteínas que no se alinean fácilmente solo por secuencia. A medida que aumenta el número de secuencias y su divergencia, se cometerán muchos más errores simplemente debido a la naturaleza heurística de los algoritmos MSA. Los visores de alineación de secuencias múltiples permiten revisar visualmente las alineaciones, a menudo inspeccionando la calidad de la alineación para los sitios funcionales anotados en dos o más secuencias. Muchos también permiten editar la alineación para corregir estos errores (generalmente menores), con el fin de obtener una alineación "curada" óptima adecuada para su uso en análisis filogenético o modelado comparativo. ^[42]

Sin embargo, a medida que aumenta el número de secuencias y especialmente en estudios de todo el genoma que involucran muchos MSA, es imposible curar manualmente todas las alineaciones. Además, la curación manual es subjetiva. Y, por último, ni siquiera el mejor experto puede alinear con seguridad los casos más ambiguos de secuencias muy divergentes. En tales casos, es una práctica común utilizar procedimientos automáticos para excluir de la MSA las regiones alineadas de manera poco confiable. A los efectos de la reconstrucción de la filogenia (ver más abajo), el programa Gblocks se usa ampliamente para eliminar bloques de alineación sospechosos de baja calidad, de acuerdo con varios límites en el número de secuencias con espacios en las columnas de alineación. ^[43] Sin embargo, estos criterios pueden filtrar excesivamente regiones con eventos de inserción/eliminación que aún pueden estar alineados de manera confiable, y estas regiones podrían ser deseables para otros propósitos, como la detección de selección positiva. Algunos algoritmos de alineación generan puntuaciones específicas del sitio que permiten la selección de regiones de alta confianza. Este servicio fue ofrecido por primera vez por el programa SOAP, ^[44] que prueba la robustez de cada columna ante perturbaciones en los parámetros del popular programa de alineación CLUSTALW. El programa T-Coffee ^[45] utiliza una biblioteca de alineamientos en la construcción del MSA final, y su MSA de salida se colorea según puntuaciones de confianza que reflejan la concordancia entre diferentes alineamientos en la biblioteca con respecto a cada residuo alineado. Su extensión, TCS: ( T ransitive C onsistency Score ), utiliza bibliotecas T-Coffee de alineaciones por pares para evaluar cualquier MSA de terceros. Las proyecciones por pares se pueden producir utilizando métodos rápidos o lentos, permitiendo así un equilibrio entre velocidad y precisión. ^[46]^[47] Otro programa de alineación que puede generar un MSA con puntuaciones de confianza es FSA, ^[48] que utiliza un modelo estadístico que permite calcular la incertidumbre en la alineación. La puntuación HoT (cara o cruz) se puede utilizar como una medida de incertidumbre de alineación específica del sitio debido a la existencia de múltiples soluciones coóptimas. ^[49] El programa GUIDANCE ^[50] calcula una medida de confianza específica del sitio similar basada en la solidez de la alineación ante la incertidumbre en el árbol guía que se utiliza en los programas de alineación progresiva. Un enfoque alternativo, más justificado estadísticamente para evaluar la incertidumbre de la alineación es el uso de modelos evolutivos probabilísticos para la estimación conjunta de la filogenia y la alineación. Un enfoque bayesiano permite el cálculo de probabilidades posteriores de filogenia y alineación estimadas, que es una medida de la confianza en estas estimaciones. En este caso, se puede calcular una probabilidad posterior para cada sitio en la alineación. Este enfoque se implementó en el programa BAli-Phy.^[51]

Hay programas gratuitos disponibles para la visualización de múltiples alineamientos de secuencias, por ejemplo Jalview y UGENE .

uso filogenético

Se pueden utilizar múltiples alineamientos de secuencias para crear un árbol filogenético . ^[52] Esto es posible por dos razones. La primera se debe a que los dominios funcionales que se conocen en secuencias anotadas se pueden utilizar para el alineamiento en secuencias no anotadas. La otra es que se pueden encontrar regiones conservadas que se sabe que son funcionalmente importantes. Esto hace posible utilizar múltiples alineamientos de secuencias para analizar y encontrar relaciones evolutivas a través de la homología entre secuencias. Se pueden detectar mutaciones puntuales y eventos de inserción o eliminación (llamados indeles).

También se pueden utilizar múltiples alineamientos de secuencias para identificar sitios funcionalmente importantes, como sitios de unión, sitios activos o sitios correspondientes a otras funciones clave, mediante la localización de dominios conservados. Al observar múltiples alineamientos de secuencias, es útil considerar diferentes aspectos de las secuencias al comparar secuencias. Estos aspectos incluyen identidad, similitud y homología. Identidad significa que las secuencias tienen residuos idénticos en sus respectivas posiciones. Por otro lado, la similitud tiene que ver con que las secuencias que se comparan tengan residuos similares cuantitativamente. Por ejemplo, en términos de secuencias de nucleótidos, las pirimidinas se consideran similares entre sí, al igual que las purinas. La similitud conduce en última instancia a la homología, en el sentido de que cuanto más similares son las secuencias, más cerca están de ser homólogas. Esta similitud en las secuencias puede ayudar a encontrar un ancestro común. ^[52]

Ver también

Análisis de secuencia sin alineación.
cladística
Alineación de árboles generalizada
Múltiples visores de alineación de secuencias
PANDIT , una base de datos biológica que cubre dominios de proteínas
filogenética
Software de alineación de secuencias
Alineación estructural

Referencias

^ Thompson JD, Linard B, Lecompte O, Poch O (2011). "Un estudio de referencia integral de múltiples métodos de alineación de secuencias: desafíos actuales y perspectivas futuras". MÁS UNO . 6 (3): e18093. Código Bib : 2011PLoSO...618093T. doi : 10.1371/journal.pone.0018093 . PMC 3069049 . PMID 21483869.
^ ab Nuin PA, Wang Z, Tillier ER (2006). "La precisión de varios programas de alineación de secuencias múltiples para proteínas". Bioinformática BMC . 7 : 471. doi : 10.1186/1471-2105-7-471 . PMC 1633746 . PMID 17062146.
^ abc Hosseininasab A, van Hoeve WJ (2019). "Alineación exacta de secuencias múltiples mediante diagramas de decisión sincronizados". Revista INFORMA de Informática . doi :10.1287/ijoc.2019.0937. S2CID 109937203.
^ "Ayuda con matrices utilizadas en herramientas de comparación de secuencias". Instituto Europeo de Bioinformática. Archivado desde el original el 11 de marzo de 2010 . Consultado el 3 de marzo de 2010 .
^ Wang L, Jiang T (1994). "Sobre la complejidad del alineamiento de secuencias múltiples". J Comput Biol . 1 (4): 337–348. CiteSeerX 10.1.1.408.894 . doi :10.1089/cmb.1994.1.337. PMID 8790475.
^ Sólo W (2001). "Complejidad computacional del alineamiento de secuencias múltiples con puntuación SP". J Comput Biol . 8 (6): 615–23. CiteSeerX 10.1.1.31.6382 . doi :10.1089/106652701753307511. PMID 11747615.
^ Elías, Isaac (2006). "Resolver la intratabilidad del alineamiento múltiple". J Comput Biol . 13 (7): 1323-1339. CiteSeerX 10.1.1.6.256 . doi :10.1089/cmb.2006.13.1323. PMID 17037961.
^ Carrillo H, Lipman DJ (1988). "El problema de la alineación de secuencias múltiples en biología". Revista SIAM de Matemática Aplicada . 48 (5): 1073–1082. doi :10.1137/0148063.
^ Lipman DJ, Altschul SF, Kececioglu JD (1989). "Una herramienta para el alineamiento de secuencias múltiples". Proc Natl Acad Sci Estados Unidos . 86 (12): 4412–4415. Código bibliográfico : 1989PNAS...86.4412L. doi : 10.1073/pnas.86.12.4412 . PMC 287279 . PMID 2734293.
^ "Software de análisis genético". Centro Nacional de Información Biotecnológica . Consultado el 3 de marzo de 2010 .
^ Feng DF, Doolittle RF (1987). "Alineación de secuencia progresiva como requisito previo para corregir árboles filogenéticos". J Mol Evol . 25 (4): 351–360. Código Bib : 1987JMolE..25..351F. doi :10.1007/BF02603120. PMID 3118049. S2CID 6345432.
^ abcdefgh Monte DM. (2004). Bioinformática: análisis de secuencias y genoma 2ª ed. Prensa del laboratorio de Cold Spring Harbor: Cold Spring Harbor, Nueva York.
^ Higgins DG , Sharp PM (1988). "CLUSTAL: un paquete para realizar alineación de secuencias múltiples en una microcomputadora". Gen. 73 (1): 237–244. doi :10.1016/0378-1119(88)90330-7. PMID 3243435.
^ Thompson JD, Higgins DG, Gibson TJ (noviembre de 1994). "CLUSTAL W: mejora de la sensibilidad del alineamiento progresivo de secuencias múltiples mediante ponderación de secuencias, penalizaciones de espacios específicos de la posición y elección de matriz de ponderaciones". Ácidos nucleicos Res . 22 (22): 4673–80. doi : 10.1093/nar/22.22.4673. PMC 308517 . PMID 7984417.
^ "EMBL-EBI-ClustalW2-Alineación de secuencias múltiples". CLUSTALW2 .
^ Notredame C, Higgins DG, Heringa J (septiembre de 2000). "T-Coffee: un método novedoso para la alineación de secuencias múltiples rápida y precisa". J. Mol. Biol . 302 (1): 205-17. doi :10.1006/jmbi.2000.4042. PMID 10964570. S2CID 10189971.
^ Tamaño SH, Lu Y, Yang Q (2006). "Una formulación polinomial de alineación de secuencias múltiples que se puede resolver en el tiempo". J Comput Biol . 13 (2): 309–319. doi :10.1089/cmb.2006.13.309. PMID 16597242.
^ Hirosawa M, Totoki Y, Hoshida M, Ishikawa M (1995). "Estudio integral sobre algoritmos iterativos de alineación de secuencias múltiples". Comput Appl Biosci . 11 (1): 13-18. doi :10.1093/bioinformática/11.1.13. PMID 7796270.
^ Gotoh O (1996). "Mejora significativa en la precisión de múltiples alineamientos de secuencias de proteínas mediante refinamiento iterativo según lo evaluado con referencia a alineamientos estructurales". J Mol Biol . 264 (4): 823–38. doi :10.1006/jmbi.1996.0679. PMID 8980688.
^ ab Brudno M, Chapman M, Göttgens B, Batzoglou S, Morgenstern B (diciembre de 2003). "Alineación múltiple rápida y sensible de grandes secuencias genómicas". Bioinformática BMC . 4 : 66. doi : 10.1186/1471-2105-4-66 . PMC 521198 . PMID 14693042.
^ Édgar RC (2004). "MÚSCULO: alineación de secuencias múltiples con alta precisión y alto rendimiento". Investigación de ácidos nucleicos . 32 (5): 1792–97. doi :10.1093/nar/gkh340. PMC 390337 . PMID 15034147.
^ Collingridge PW, Kelly S (2012). "MergeAlign: mejora del rendimiento del alineamiento de secuencias múltiples mediante la reconstrucción dinámica de alineamientos de secuencias múltiples consensuados". Bioinformática BMC . 13 (117): 117. doi : 10.1186/1471-2105-13-117 . PMC 3413523 . PMID 22646090.
^ Hughey R, Krogh A (1996). "Modelos ocultos de Markov para análisis de secuencia: extensión y análisis del método básico". CABIOS . 12 (2): 95-107. CiteSeerX 10.1.1.44.3365 . doi : 10.1093/bioinformática/12.2.95. PMID 8744772.
^ Grasso C, Lee C (2004). "La combinación de alineación de orden parcial y alineación progresiva de secuencias múltiples aumenta la velocidad de alineación y la escalabilidad para problemas de alineación muy grandes". Bioinformática . 20 (10): 1546–56. doi : 10.1093/bioinformática/bth126 . PMID 14962922.
^ Hughey R, Krogh A. SAM: Sistema de software de modelado y alineación de secuencias. Informe técnico UCSC-CRL-96-22, Universidad de California, Santa Cruz, CA, septiembre de 1996.
^ Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Análisis de secuencia biológica: modelos probabilísticos de proteínas y ácidos nucleicos, Cambridge University Press, 1998.
^ Söding J (2005). "Detección de homología de proteínas mediante comparación HMM-HMM". Bioinformática . 21 (7): 951–960. CiteSeerX 10.1.1.519.1257 . doi : 10.1093/bioinformática/bti125. PMID 15531603.
^ Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007). "Predicciones de servidor automatizadas en CASP7". Proteínas . 69 (Suplemento 8): 68–82. doi : 10.1002/prot.21761 . PMID 17894354. S2CID 29879391.
^ Loytynoja, A. (2005). "Un algoritmo para el alineamiento múltiple progresivo de secuencias con inserciones". Procedimientos de la Academia Nacional de Ciencias . 102 (30): 10557–10562. Código bibliográfico : 2005PNAS..10210557L. doi : 10.1073/pnas.0409137102 . PMC 1180752 . PMID 16000407.
^ Löytynoja A, Goldman N (junio de 2008). "La ubicación de espacios conscientes de la filogenia evita errores en la alineación de secuencias y el análisis evolutivo". Ciencia . 320 (5883): 1632–5. Código Bib : 2008 Ciencia... 320.1632L. doi : 10.1126/ciencia.1158395. PMID 18566285. S2CID 5211928.
^ Löytynoja A, Vilella AJ, Goldman N (julio de 2012). "Extensión precisa de múltiples alineamientos de secuencias utilizando un algoritmo gráfico consciente de la filogenia". Bioinformática . 28 (13): 1684–91. doi : 10.1093/bioinformática/bts198. PMC 3381962 . PMID 22531217.
^ Szalkowski AM (junio de 2012). "Alineación de secuencias múltiples rápida y robusta con colocación de espacios conscientes de la filogenia". Bioinformática BMC . 13 : 129. doi : 10.1186/1471-2105-13-129 . PMC 3495709 . PMID 22694311.
^ Henikoff S, Henikoff JG (diciembre de 1991). "Ensamblaje automatizado de bloques de proteínas para búsqueda en bases de datos". Ácidos nucleicos Res . 19 (23): 6565–72. doi :10.1093/nar/19.23.6565. PMC 329220 . PMID 1754394.
^ Bailey TL, Elkan C (1994). "Ajuste de un modelo de mezcla mediante maximización de expectativas para descubrir motivos en biopolímeros" (PDF) . Actas de la Segunda Conferencia Internacional sobre Sistemas Inteligentes para Biología Molecular . Menlo Park, California: Prensa AAAI. págs. 28–36.
^ Bailey TL, Gribskov M (1998). "Combinación de evidencia utilizando valores p: aplicación a búsquedas de homología de secuencia". Bioinformática . 14 (1): 48–54. doi : 10.1093/bioinformática/14.1.48 . PID 9520501.
^ Salamá RA, Stekel DJ (noviembre de 2013). "Una alineación de secuencias múltiples basada en energía no independiente mejora la predicción de los sitios de unión de factores de transcripción". Bioinformática . 29 (21): 2699–704. doi : 10.1093/bioinformática/btt463 . PMID 23990411.
^ Notredame C, Higgins DG (abril de 1996). "SAGA: alineación de secuencias por algoritmo genético". Ácidos nucleicos Res . 24 (8): 1515–24. doi :10.1093/nar/24.8.1515. PMC 145823 . PMID 8628686.
^ Notredame C, O'Brien EA, Higgins DG (1997). "RAGA: alineación de secuencias de ARN mediante algoritmo genético". Ácidos nucleicos Res . 25 (22): 4570–80. doi : 10.1093/nar/25.22.4570. PMC 147093 . PMID 9358168.
^ Kim J, Pramanik S, Chung MJ (1994). "Alineación de secuencias múltiples mediante recocido simulado". Comput Appl Biosci . 10 (4): 419–26. doi :10.1093/bioinformática/10.4.419. PMID 7804875.
^ Althaus E, Caprara A, Lenhof HP, Reinert K (2006). "Un algoritmo de ramificación y corte para alineación de secuencias múltiples". Programación Matemática . 105 (2–3): 387–425. doi :10.1007/s10107-005-0659-3. S2CID 17715172.
^ D-Wave inicia el entorno de software cuántico abierto 11 de enero de 2017
^ "Edición y ajuste manual de MSA". Laboratorio Europeo de Biología Molecular. 2007. Archivado desde el original el 24 de septiembre de 2015 . Consultado el 7 de marzo de 2010 .
^ Castresana J (abril de 2000). "Selección de bloques conservados de múltiples alineamientos para su uso en análisis filogenético". Mol. Biol. Evolución . 17 (4): 540–52. doi : 10.1093/oxfordjournals.molbev.a026334 . PMID 10742046.
^ Löytynoja A, Milinkovitch MC (junio de 2001). "SOAP, limpiando múltiples alineaciones de bloques inestables". Bioinformática . 17 (6): 573–4. doi : 10.1093/bioinformática/17.6.573 . PMID 11395440.
^ Poirot O, O'Toole E, Notredame C (julio de 2003). "Tcoffee@igs: un servidor web para calcular, evaluar y combinar múltiples alineamientos de secuencias". Ácidos nucleicos Res . 31 (13): 3503–6. doi :10.1093/nar/gkg522. PMC 168929 . PMID 12824354.
^ Chang, JM; Di Tommaso, P; Notredame, C (junio de 2014). "TCS: una nueva medida de confiabilidad de alineación de secuencias múltiples para estimar la precisión de la alineación y mejorar la reconstrucción del árbol filogenético". Biología Molecular y Evolución . 31 (6): 1625–37. doi : 10.1093/molbev/msu117 . PMID 24694831.
^ Chang JM, Di Tommaso P, Lefort V, Gascuel O, Notredame C (julio de 2015). "TCS: un servidor web para evaluación de alineación de secuencias múltiples y reconstrucción filogenética". Ácidos nucleicos Res . 43 (W1): W3–6. doi :10.1093/nar/gkv310. PMC 4489230 . PMID 25855806.
^ Bradley RK, Roberts A, Smoot M, Juvekar S, Do J, Dewey C, Holmes I, Pachter L (mayo de 2009). "Rápida alineación estadística". Computación más. Biol . 5 (5): e1000392. Código Bib : 2009PLSCB...5E0392B. doi : 10.1371/journal.pcbi.1000392 . PMC 2684580 . PMID 19478997.
^ Landan G, Graur D (2008). "Medidas de confiabilidad local a partir de conjuntos de alineamientos de secuencias múltiples coóptimos". Biocomputación 2008 . págs. 15-24. doi :10.1142/9789812776136_0003. ISBN 978-981-277-608-2. PMID 18229673. {{cite book}}: |journal=ignorado ( ayuda )
^ Penn O, Privman E, Landan G, Graur D, Pupko T (agosto de 2010). "Una puntuación de confianza de alineación que captura la robustez para guiar la incertidumbre del árbol". Mol. Biol. Evolución . 27 (8): 1759–67. doi :10.1093/molbev/msq066. PMC 2908709 . PMID 20207713.
^ Redelings BD, Suchard MA (junio de 2005). "Estimación bayesiana conjunta de alineación y filogenia". Sistema. Biol . 54 (3): 401–18. doi : 10.1080/10635150590947041 . PMID 16012107.
^ ab Budd, Aidan (10 de febrero de 2009). "Ejercicios y demostraciones de alineación de secuencias múltiples". Laboratorio Europeo de Biología Molecular. Archivado desde el original el 5 de marzo de 2012 . Consultado el 30 de junio de 2010 .

Artículos de encuesta

Duret, L.; S. Abdeddaim (2000). "Alineación múltiple para análisis estructurales funcionales o filogenéticos de secuencias homólogas". En D. Higgins y W. Taylor (ed.). Estructura de secuencias bioinformáticas y bancos de datos . Oxford: Prensa de la Universidad de Oxford.
Notredame, C. (2002). "Progresos recientes en la alineación de secuencias múltiples: una encuesta". Farmacogenómica . 3 (1): 131-144. doi :10.1517/14622416.3.1.131. PMID 11966409.
Thompson, JD; Plewniak, F.; Poch, O. (1999). "Una comparación completa de múltiples programas de alineación de secuencias". Investigación de ácidos nucleicos . 27 (13): 12682–2690. doi : 10.1093/nar/27.13.2682. PMC 148477 . PMID 10373585.
Wallace, IM; Escudos negros, G.; Higgins, Director General (2005). "Múltiples alineamientos de secuencias". Estructura de opinión actual Biol . 15 (3): 261–266. doi :10.1016/j.sbi.2005.04.002. PMID 15963889.
Notredame, C (2007). "Evoluciones recientes de algoritmos de alineación de secuencias múltiples". PLOS Biología Computacional . 3 (8): e123. Código Bib : 2007PLSCB...3..123N. doi : 10.1371/journal.pcbi.0030123 . PMC 1963500 . PMID 17784778.

enlaces externos

Herramientas de alineación de secuencias ExPASy
Página de recursos de alineación múltiple archivada: de la Escuela Virtual de Ciencias Naturales
Herramientas para múltiples alineamientos: de Pôle Bioinformatique Lyonnais
Un punto de entrada a servidores e información clustal.
Un punto de entrada a los principales servidores de T-Coffee
Un punto de entrada al servidor principal de MergeAlign y a la información.
Servidores del Instituto Europeo de Bioinformática:
- ClustalW2: programa de alineación de secuencias múltiples de propósito general para ADN o proteínas.
- Músculo: comparación de múltiples secuencias mediante expectativa logarítmica
- T-café: alineación de secuencias múltiples.
- MAFFT: Alineación múltiple mediante transformada rápida de Fourier
- KALIGN: un algoritmo de alineación de secuencias múltiples rápido y preciso.

Apuntes de conferencias, tutoriales y cursos

Conferencias sobre alineación de secuencias múltiples: del Instituto Max Planck de Genética Molecular
Apuntes de conferencias y ejercicios prácticos sobre alineamientos de secuencias múltiples en el EMBL
Notas de la conferencia sobre bioinformática molecular
Apuntes de conferencias sobre evolución molecular y bioinformática