Alineamiento múltiple de secuencias

Como puede ser difícil alinear a mano tres o más secuencias de longitud biológicamente relevante, y casi siempre consume mucho tiempo, se utilizan algoritmos computacionales para producir y analizar los alineamientos.

Encontrar de esta forma el óptimo global para n secuencias ha mostrado ser un problema NP-completo.

El par inicial "más relacionado", o emparentado, se determina mediante un método eficiente de categorización (o clustering) tal como el neighbour-joining, basado en una simple búsqueda heurística del conjunto problema con una herramienta como FASTA.

También se degrada significativamente el rendimiento cuando todas las secuencias del conjunto están bastante lejanamente relacionadas, ya que entonces son más probables las imprecisiones en el alineamiento inicial.

Los métodos de alineamiento progresivo son lo bastante eficientes como para implementarlos a gran escala para muchas secuencias, y se ejecutan a menudo en servidores web públicamente accesibles, por lo que los usuarios no necesitan instalar localmente las aplicaciones de interés.

Otro método común de alineamiento progresivo denominado T-Coffee[5]​ es más lento que Clustal y sus derivados, pero generalmente produce alineamientos más precisos para conjuntos de secuencias lejanamente emparentadas.

Puesto que los métodos progresivos son heurísticos y, por lo tanto, no garantizan la convergencia a un óptimo global, la calidad del alineamiento puede ser difícil de evaluar, y su verdadera significación biológica puede ser oscura.

Existen revisiones y comparaciones útiles, pero evitan, generalmente, elegir la "mejor" técnica.

[9]​ PRRP actúa mejor cuando refina un alineamiento previamente construido por un método más rápido.

[9]​ Otro programa iterativo, DIALIGN, toma una inusual aproximación al concentrarse estrechamente sobre alineamientos locales entre subsegmentos o secuencias motivo sin introducir una penalización por hueco.

Aunque los métodos basados en estos modelos han sido desarrollados recientemente, ofrecen mejoras significativas en la velocidad computacional, especialmente para secuencias que contienen regiones solapadas.

En esta representación, una columna que esté absolutamente conservada (esto es, que todas las secuencias en el MSA compartan un carácter determinado en esa posición en particular) se codifica como un único nodo con tantas conexiones salientes como posibles caracteres haya en la siguiente columna del alineamiento.

En los términos de un típico modelo oculto de Márkov, los estados observados son las columnas individuales del alineamiento, y los estados "ocultos" representan la supuesta secuencia ancestral desde la cual las secuencias del conjunto problema se presume han descendido.

Los métodos HMM también pueden usarse para búsquedas en bases de datos con HMMer.

Una de tales técnicas, los algoritmos genéticos, se han utilizado en la producción de MSA intentando simular, en líneas generales, el hipotético proceso evolutivo que da lugar a la divergencia en el conjunto problema.

Esto corrige, en particular, entradas en la matriz con probabilidad cero mediante valores pequeños, pero no nulos.

El servidor BLOCKS proporciona un método interactivo para localizar tales motivos en secuencias sin alinear.

Alineamiento múltiple de 27 secuencias de la proteína hemaglutinina de la gripe aviaria , coloreado según la conservación de residuos (más oscuro cuanta mayor conservación, arriba) y sus propiedades químicas (abajo).
Primeras noventa posiciones del alineamiento múltiple de secuencias de la proteína ribosómica P0 (L10E) de varios organismos. Generado con ClustalW .
Alineamiento de las caspasas de Drosophila coloreado por motivos identificados por MEME. Cuando las posiciones de los motivos y los alineamientos de las secuencias se generan independientemente, a menudo se correlacionan, pero no perfectamente, como en este ejemplo.