Alineamiento de secuencias

Aunque las bases nucleotídicas del ADN y ARN son más similares entre sí que con los aminoácidos, la conservación del emparejado de bases podría indicar papeles funcionales o estructurales similares.

Calcular un alineamiento global es una forma de optimización global que "fuerza" al alineamiento a ocupar la longitud total de todas las secuencias introducidas (secuencias problema).

Comparativamente, los alineamientos locales identifican regiones similares dentro de largas secuencias que normalmente son muy divergentes entre sí.

Una estrategia general de alineamiento global es el algoritmo Needleman-Wunsch basado en programación dinámica.

Los alineamientos locales son más útiles para secuencias diferenciadas en las que se sospecha que existen regiones muy similares o motivos de secuencias similares dentro de un contexto mayor.

El algoritmo Smith-Waterman es un método general de alineamiento local basado en programación dinámica.

Con secuencias suficientemente similares, no existe diferencia entre alineamientos globales y locales.

Aunque cada método tiene sus propios puntos fuertes y débiles, todos ellos tienen problemas para alinear secuencias repetitivas con bajo contenido en información, especialmente cuando el número de repeticiones puede ser diferente en las dos secuencias que se alinean.

En general, cuanto mayor sea tal subsecuencia, más cercana será su relación.

Las gráficas de puntos también pueden utilizarse para evaluar repetitividad en una sola secuencia: una secuencia se gráfica contra sí misma, y las regiones que comparten similitudes significativas aparecerán como líneas fuera de la diagonal principal.

Este efecto puede ocurrir cuando una proteína consta de múltiples dominios estructurales similares.

Estos métodos son especialmente útiles en búsquedas sobre bases de datos a gran escala, donde se asume que una larga proporción de las secuencias candidatas no tendrán coincidencias significativas con la secuencia problema.

Sólo si esta región es detectada, estos métodos aplicarán criterios de alineamiento más sensibles.

BLAST fue desarrollado para proporcionar una alternativa más rápida a FASTA sin sacrificar demasiada precisión.

Pueden encontrarse implementaciones a través de varios portales web, como EMBL FASTA y NCBI BLAST.

Estos motivos conservados pueden ser usados en conjunto con la estructura y con información mecanística para localizar sitios activos catalíticos de las enzimas.

Aunque esta técnica es computacionalmente costosa, su garantía de una solución global óptima es útil en casos donde sólo unas cuantas secuencias necesitan ser alineadas con precisión.

Una variante del método progresivo más lenta pero más precisa se conoce como “T-Coffee” (Tree-based Consistency Objective Function For alignment Evaluation),[10]​ de la que pueden encontrarse implementaciones en ClustalW y T-Coffee.

Las matrices de perfil se usan para buscar ocurrencias del motivo que caracterizan en otras secuencias.

Aunque los primeros métodos basados en estos modelos eran de rendimiento poco brillante, aplicaciones posteriores los han encontrado especialmente efectivos para detectar secuencias remotamente relacionadas, puesto que son menos susceptibles al ruido creado por sustituciones conservativas o semiconservativas.

Estos métodos pueden usarse para dos o más secuencias, y producen típicamente alineamientos locales.

No obstante, los alineamientos estructurales no pueden usarse en la predicción de la estructura puesto que al menos una secuencia en el conjunto problema es el objetivo a modelar, para el cual la estructura se desconoce.

[15]​ Puede generar emparejamientos o alineamientos múltiples, e identificar los vecinos estructurales de una secuencia problema en el Protein Data Bank (PDB).

El grado en el que las secuencias de un conjunto problema difieren está relacionado cualitativamente con la distancia evolutiva entre ellas.

No toma en cuenta, por lo tanto, posibles diferencias entre organismos o especies en los ritmos de reparación del ADN, o la posible conservación funcional de regiones específicas en una secuencia.

Estos valores pueden variar significativamente dependiendo del espacio de búsqueda.

BLAST filtra automáticamente tales secuencias repetitivas en la consulta para evitar éxitos aparentes que correspondan a artefactos estadísticos.

Una serie de matrices denominadas matrices PAM (del inglés Point Accepted Mutation, mutación puntual aceptada, originalmente definidas por Margaret Dayhoff, por lo que a veces se denominan matrices Dayhoff) codifican explícitamente las aproximaciones evolutivas considerando las frecuencias y probabilidades de mutaciones particulares de aminoácidos.

Las regiones donde la solución sea poco consistente, o no sea única, pueden ser identificadas a menudo observando qué regiones del alineamiento son robustas a variaciones en los parámetros de alineación.

[23]​ El conjunto de datos consiste en alineamientos estructurales que pueden ser considerados como un estándar contra el cual se comparan los métodos basados en secuencias.

Un alineamiento de secuencias, generada por ClustalW entre dos proteínas dedos de zinc identificadas por el número de acceso GenBank (Clave).
Un alineamiento de secuencias, generada por ClustalW entre dos proteínas dedos de zinc identificadas por el número de acceso GenBank ( Clave ).
Una matriz de puntos de ADN del factor de transcripción dedo de zinc en el ser humano (GenBank ID NM_002383), mostrando autosimilitud regional. La diagonal principal representa el alineamiento de la secuencia consigo misma; las líneas fuera de esta diagonal representan patrones similares o repetitivos dentro de la secuencia. Es un ejemplo típico de gráfica recurrente.
Alineamiento de 27 secuencias de la proteína hemaglutinina de la gripe aviaria , coloreado según la conservación de residuos (más oscuro cuanta mayor conservación, arriba) y sus propiedades químicas (abajo).