En bioinformática , una alineación de secuencias es una forma de organizar las secuencias de ADN , ARN o proteínas para identificar regiones de similitud que pueden ser consecuencia de relaciones funcionales, estructurales o evolutivas entre las secuencias. [1] Las secuencias alineadas de residuos de nucleótidos o aminoácidos se representan típicamente como filas dentro de una matriz . Se insertan espacios entre los residuos para que los caracteres idénticos o similares se alineen en columnas sucesivas. Las alineaciones de secuencias también se utilizan para secuencias no biológicas, como calcular el costo de la distancia entre cadenas en un lenguaje natural o para mostrar datos financieros.
Si dos secuencias en una alineación comparten un ancestro común, los desajustes pueden interpretarse como mutaciones puntuales y los huecos como indels (es decir, mutaciones de inserción o deleción) introducidas en uno o ambos linajes en el tiempo desde que divergieron uno del otro. En las alineaciones de secuencias de proteínas, el grado de similitud entre los aminoácidos que ocupan una posición particular en la secuencia puede interpretarse como una medida aproximada de cuán conservada está una región particular o un motivo de secuencia entre linajes. La ausencia de sustituciones, o la presencia de solo sustituciones muy conservadoras (es decir, la sustitución de aminoácidos cuyas cadenas laterales tienen propiedades bioquímicas similares) en una región particular de la secuencia, sugiere [3] que esta región tiene importancia estructural o funcional. Aunque las bases de nucleótidos de ADN y ARN son más similares entre sí que los aminoácidos, la conservación de pares de bases puede indicar un papel funcional o estructural similar.
Las secuencias muy cortas o muy similares se pueden alinear a mano. Sin embargo, la mayoría de los problemas interesantes requieren la alineación de secuencias largas, altamente variables o extremadamente numerosas que no se pueden alinear únicamente con el esfuerzo humano. En cambio, el conocimiento humano se aplica en la construcción de algoritmos para producir alineaciones de secuencias de alta calidad y, ocasionalmente, en el ajuste de los resultados finales para reflejar patrones que son difíciles de representar algorítmicamente (especialmente en el caso de secuencias de nucleótidos). Los enfoques computacionales para la alineación de secuencias generalmente se dividen en dos categorías: alineaciones globales y alineaciones locales . Calcular una alineación global es una forma de optimización global que "fuerza" la alineación a abarcar toda la longitud de todas las secuencias de consulta. Por el contrario, las alineaciones locales identifican regiones de similitud dentro de secuencias largas que a menudo son ampliamente divergentes en general. Las alineaciones locales suelen ser preferibles, pero pueden ser más difíciles de calcular debido al desafío adicional de identificar las regiones de similitud. [4] Se han aplicado diversos algoritmos computacionales al problema de la alineación de secuencias. Estos incluyen métodos lentos pero formalmente correctos como la programación dinámica . Esto también incluye algoritmos heurísticos eficientes o métodos probabilísticos diseñados para búsquedas en bases de datos a gran escala, que no garantizan encontrar las mejores coincidencias.
Las alineaciones se representan comúnmente tanto gráficamente como en formato de texto. En casi todas las representaciones de alineaciones de secuencias, las secuencias se escriben en filas dispuestas de modo que los residuos alineados aparezcan en columnas sucesivas. En formatos de texto, las columnas alineadas que contienen caracteres idénticos o similares se indican con un sistema de símbolos de conservación. Como en la imagen anterior, se utiliza un asterisco o un símbolo de barra vertical para mostrar la identidad entre dos columnas; otros símbolos menos comunes incluyen dos puntos para sustituciones conservadoras y un punto para sustituciones semiconservativas. Muchos programas de visualización de secuencias también utilizan el color para mostrar información sobre las propiedades de los elementos individuales de la secuencia; en las secuencias de ADN y ARN, esto equivale a asignar a cada nucleótido su propio color. En las alineaciones de proteínas, como la de la imagen anterior, el color se utiliza a menudo para indicar las propiedades de los aminoácidos con el fin de ayudar a juzgar la conservación de una sustitución de aminoácidos determinada. Para múltiples secuencias, la última fila de cada columna suele ser la secuencia de consenso determinada por la alineación; la secuencia de consenso también suele representarse en formato gráfico con un logotipo de secuencia en el que el tamaño de cada letra de nucleótido o aminoácido corresponde a su grado de conservación. [5]
Las alineaciones de secuencias se pueden almacenar en una amplia variedad de formatos de archivo basados en texto, muchos de los cuales se desarrollaron originalmente junto con un programa o implementación de alineación específica. La mayoría de las herramientas basadas en la web permiten un número limitado de formatos de entrada y salida, como el formato FASTA y el formato GenBank , y la salida no es fácilmente editable. Hay disponibles varios programas de conversión que proporcionan interfaces gráficas y/o de línea de comandos [ enlace muerto ] , como READSEQ y EMBOSS . También hay varios paquetes de programación que proporcionan esta funcionalidad de conversión, como BioPython , BioRuby y BioPerl . Los archivos SAM/BAM utilizan el formato de cadena CIGAR (Compact Idiosyncratic Gapped Alignment Report) para representar una alineación de una secuencia con una referencia codificando una secuencia de eventos (por ejemplo, coincidencia/desajuste, inserciones, eliminaciones). [6]
Ref.: GTCGTAGAATA
Lectura : CACGTAG—TA
CIGAR: 2S5M2D2M donde:
2S = 2 recortes suaves (podrían ser desajustes o una lectura más larga que la secuencia coincidente)
5M = 5 coincidencias o desajustes
2D = 2 deleciones
2M = 2 coincidencias o desajustes
El formato CIGAR original del programa de alineación exonerado no distinguía entre coincidencias o desajustes con el carácter M.
El documento de especificaciones SAMv1 define los códigos CIGAR más nuevos. En la mayoría de los casos, se prefiere utilizar los caracteres "=" y "X" para indicar coincidencias o discordancias en lugar del antiguo carácter "M", que es ambiguo.
Los alineamientos globales, que intentan alinear cada residuo en cada secuencia, son más útiles cuando las secuencias en el conjunto de consulta son similares y de un tamaño aproximadamente igual. (Esto no significa que los alineamientos globales no puedan comenzar y/o terminar en espacios vacíos). Una técnica general de alineamiento global es el algoritmo Needleman-Wunsch , que se basa en programación dinámica. Los alineamientos locales son más útiles para secuencias diferentes que se sospecha que contienen regiones de similitud o motivos de secuencia similares dentro de su contexto de secuencia más grande. El algoritmo Smith-Waterman es un método de alineamiento local general basado en el mismo esquema de programación dinámica pero con opciones adicionales para comenzar y terminar en cualquier lugar. [4]
Los métodos híbridos, conocidos como métodos semiglobales o "glocales" (abreviatura de glo bal-lo cal ), buscan la mejor alineación parcial posible de las dos secuencias (en otras palabras, se afirma que una combinación de uno o ambos inicios y uno o ambos finales está alineada). Esto puede ser especialmente útil cuando la parte descendente de una secuencia se superpone con la parte ascendente de la otra secuencia. En este caso, ni la alineación global ni la local son completamente apropiadas: una alineación global intentaría forzar la alineación a extenderse más allá de la región de superposición, mientras que una alineación local podría no cubrir completamente la región de superposición. [7] Otro caso en el que la alineación semiglobal es útil es cuando una secuencia es corta (por ejemplo, una secuencia genética) y la otra es muy larga (por ejemplo, una secuencia cromosómica). En ese caso, la secuencia corta debería estar alineada globalmente (totalmente), pero solo se desea una alineación local (parcial) para la secuencia larga.
La rápida expansión de los datos genéticos pone a prueba la velocidad de los algoritmos actuales de alineamiento de secuencias de ADN. Las necesidades esenciales de un método eficiente y preciso para el descubrimiento de variantes de ADN exigen enfoques innovadores para el procesamiento paralelo en tiempo real. Se han sugerido enfoques de computación óptica como alternativas prometedoras a las implementaciones eléctricas actuales, pero su aplicabilidad aún está por probar [1].
Los métodos de alineación de secuencias por pares se utilizan para encontrar las alineaciones por partes (locales o globales) que mejor coincidan entre dos secuencias de consulta. Las alineaciones por pares solo se pueden utilizar entre dos secuencias a la vez, pero son eficientes para calcular y se utilizan a menudo para métodos que no requieren una precisión extrema (como buscar en una base de datos secuencias con alta similitud con una consulta). Los tres métodos principales para producir alineaciones por pares son los métodos de matriz de puntos, la programación dinámica y los métodos de palabras; [1] sin embargo, las técnicas de alineación de secuencias múltiples también pueden alinear pares de secuencias. Aunque cada método tiene sus fortalezas y debilidades individuales, los tres métodos por pares tienen dificultades con secuencias altamente repetitivas de bajo contenido de información , especialmente cuando el número de repeticiones difiere en las dos secuencias que se alinearán.
Una forma de cuantificar la utilidad de una alineación por pares dada es la ' coincidencia única máxima ' (MUM), o la subsecuencia más larga que ocurre en ambas secuencias de consulta. Las secuencias MUM más largas generalmente reflejan una relación más cercana. [8] en la alineación de secuencias múltiples de genomas en biología computacional . La identificación de MUM y otros anclajes potenciales es el primer paso en sistemas de alineación más grandes como MUMmer . Los anclajes son las áreas entre dos genomas donde son muy similares. Para entender qué es un MUM, podemos desglosar cada palabra en el acrónimo. Coincidencia implica que la subcadena ocurre en ambas secuencias a alinear. Único significa que la subcadena ocurre solo una vez en cada secuencia. Finalmente, máximo indica que la subcadena no es parte de otra cadena más grande que cumple ambos requisitos anteriores. La idea detrás de esto es que las secuencias largas que coinciden exactamente y ocurren solo una vez en cada genoma son casi con certeza parte de la alineación global.
Más precisamente:
"Dados dos genomas A y B, la subcadena de coincidencia única máxima (MUM) es una subcadena común de A y B de longitud mayor que una longitud mínima especificada d (por defecto d = 20) tal que
- es máxima, es decir, no se puede extender en ninguno de los extremos sin incurrir en un desajuste; y
- "Es único en ambas secuencias" [9]
El enfoque de matriz de puntos, que produce implícitamente una familia de alineaciones para regiones de secuencia individuales, es cualitativo y conceptualmente simple, aunque requiere mucho tiempo para analizarlo a gran escala. En ausencia de ruido, puede ser fácil identificar visualmente ciertas características de secuencia (como inserciones, eliminaciones, repeticiones o repeticiones invertidas ) a partir de un gráfico de matriz de puntos. Para construir un gráfico de matriz de puntos , las dos secuencias se escriben a lo largo de la fila superior y la columna más a la izquierda de una matriz bidimensional y se coloca un punto en cualquier punto donde coincidan los caracteres en las columnas apropiadas; este es un gráfico de recurrencia típico . Algunas implementaciones varían el tamaño o la intensidad del punto dependiendo del grado de similitud de los dos caracteres, para dar cabida a sustituciones conservadoras. Los gráficos de puntos de secuencias muy relacionadas aparecerán como una sola línea a lo largo de la diagonal principal de la matriz .
Los problemas con los diagramas de puntos como técnica de visualización de información incluyen: ruido, falta de claridad, falta de intuición, dificultad para extraer estadísticas de resumen de coincidencias y posiciones de coincidencias en las dos secuencias. También se desperdicia mucho espacio cuando los datos de coincidencias se duplican inherentemente en la diagonal y la mayor parte del área real del diagrama está ocupada por espacio vacío o ruido y, finalmente, los diagramas de puntos están limitados a dos secuencias. Ninguna de estas limitaciones se aplica a los diagramas de alineación de Miropeats, pero tienen sus propios defectos particulares.
Los diagramas de puntos también se pueden utilizar para evaluar la repetitividad en una sola secuencia. Una secuencia se puede representar gráficamente en relación con sí misma y las regiones que comparten similitudes significativas aparecerán como líneas que se alejan de la diagonal principal. Este efecto se produce cuando una proteína consta de múltiples dominios estructurales similares .
La técnica de programación dinámica se puede aplicar para producir alineaciones globales a través del algoritmo Needleman-Wunsch y alineaciones locales a través del algoritmo Smith-Waterman . En el uso típico, las alineaciones de proteínas utilizan una matriz de sustitución para asignar puntuaciones a las coincidencias o desajustes de aminoácidos, y una penalización por brecha para hacer coincidir un aminoácido en una secuencia con un espacio en la otra. Las alineaciones de ADN y ARN pueden utilizar una matriz de puntuación, pero en la práctica a menudo simplemente asignan una puntuación de coincidencia positiva, una puntuación de desajuste negativa y una penalización por brecha negativa. (En la programación dinámica estándar, la puntuación de cada posición de aminoácido es independiente de la identidad de sus vecinos y, por lo tanto, no se tienen en cuenta los efectos de apilamiento de bases . Sin embargo, es posible tener en cuenta dichos efectos modificando el algoritmo). [ cita requerida ] Una extensión común de los costos de brecha lineales estándar son los costos de brecha afines. Aquí se aplican dos penalizaciones de brecha diferentes para abrir una brecha y para extender una brecha. Normalmente, la primera es mucho mayor que la segunda, por ejemplo, -10 para la apertura de brecha y -2 para la extensión de brecha. Esto da como resultado menos espacios en una alineación y los residuos y los espacios se mantienen juntos, lo que hace que los rasgos sean más representativos de las secuencias biológicas. El algoritmo Gotoh implementa los costos de espacios afines mediante el uso de tres matrices. [10] [11]
La programación dinámica puede ser útil para alinear secuencias de nucleótidos con secuencias de proteínas, una tarea complicada por la necesidad de tener en cuenta las mutaciones por desplazamiento del marco de lectura (normalmente inserciones o deleciones). El método de búsqueda de marco de lectura produce una serie de alineaciones globales o locales por pares entre una secuencia de nucleótidos de consulta y un conjunto de búsqueda de secuencias de proteínas, o viceversa. Su capacidad para evaluar desplazamientos del marco de lectura compensados por un número arbitrario de nucleótidos hace que el método sea útil para secuencias que contienen un gran número de indels, que pueden ser muy difíciles de alinear con métodos heurísticos más eficientes. En la práctica, el método requiere grandes cantidades de potencia informática o un sistema cuya arquitectura esté especializada para la programación dinámica. Las suites BLAST y EMBOSS proporcionan herramientas básicas para crear alineaciones traducidas (aunque algunos de estos enfoques aprovechan los efectos secundarios de las capacidades de búsqueda de secuencias de las herramientas). Hay métodos más generales disponibles en software de código abierto como GeneWise. [ cita requerida ]
El método de programación dinámica garantiza la búsqueda de una alineación óptima dada una función de puntuación particular; sin embargo, identificar una buena función de puntuación es a menudo una cuestión empírica más que teórica. Aunque la programación dinámica es extensible a más de dos secuencias, es prohibitivamente lenta para grandes cantidades de secuencias o secuencias extremadamente largas. [ cita requerida ]
Los métodos de palabras, también conocidos como métodos de k -tuplas, son métodos heurísticos que no garantizan la búsqueda de una solución de alineación óptima, pero son significativamente más eficientes que la programación dinámica. Estos métodos son especialmente útiles en búsquedas de bases de datos a gran escala en las que se entiende que una gran proporción de las secuencias candidatas no tendrán esencialmente ninguna coincidencia significativa con la secuencia de consulta. Los métodos de palabras son más conocidos por su implementación en las herramientas de búsqueda de bases de datos FASTA y la familia BLAST . [1] Los métodos de palabras identifican una serie de subsecuencias cortas y no superpuestas ("palabras") en la secuencia de consulta que luego se comparan con secuencias de bases de datos candidatas. Las posiciones relativas de la palabra en las dos secuencias que se comparan se restan para obtener un desplazamiento; esto indicará una región de alineación si múltiples palabras distintas producen el mismo desplazamiento. Solo si se detecta esta región, estos métodos aplican criterios de alineación más sensibles; por lo tanto, se eliminan muchas comparaciones innecesarias con secuencias sin similitud apreciable.
En el método FASTA, el usuario define un valor k para utilizar como la longitud de palabra con la que buscar en la base de datos. El método es más lento pero más sensible a valores más bajos de k , que también son preferidos para búsquedas que involucran una secuencia de consulta muy corta. La familia BLAST de métodos de búsqueda proporciona una serie de algoritmos optimizados para tipos particulares de consultas, como la búsqueda de coincidencias de secuencias distantes. BLAST fue desarrollado para proporcionar una alternativa más rápida a FASTA sin sacrificar mucha precisión; al igual que FASTA, BLAST utiliza una búsqueda de palabras de longitud k , pero evalúa solo las coincidencias de palabras más significativas, en lugar de todas las coincidencias de palabras como lo hace FASTA. La mayoría de las implementaciones de BLAST utilizan una longitud de palabra predeterminada fija que está optimizada para la consulta y el tipo de base de datos, y que se cambia solo en circunstancias especiales, como cuando se busca con secuencias de consulta repetitivas o muy cortas. Las implementaciones se pueden encontrar a través de varios portales web, como EMBL FASTA y NCBI BLAST.
La alineación de secuencias múltiples es una extensión de la alineación por pares para incorporar más de dos secuencias a la vez. Los métodos de alineación múltiple intentan alinear todas las secuencias en un conjunto de consulta dado. Las alineaciones múltiples se utilizan a menudo para identificar regiones de secuencia conservadas en un grupo de secuencias que se supone que están relacionadas evolutivamente. Dichos motivos de secuencia conservados se pueden utilizar junto con información estructural y mecanicista para localizar los sitios activos catalíticos de las enzimas . Las alineaciones también se utilizan para ayudar a establecer relaciones evolutivas mediante la construcción de árboles filogenéticos . Las alineaciones de secuencias múltiples son computacionalmente difíciles de producir y la mayoría de las formulaciones del problema conducen a problemas de optimización combinatoria NP-completos . [12] [13] Sin embargo, la utilidad de estas alineaciones en bioinformática ha llevado al desarrollo de una variedad de métodos adecuados para alinear tres o más secuencias.
La técnica de programación dinámica es teóricamente aplicable a cualquier número de secuencias; sin embargo, debido a que es computacionalmente costosa tanto en tiempo como en memoria , rara vez se utiliza para más de tres o cuatro secuencias en su forma más básica. Este método requiere construir el equivalente n -dimensional de la matriz de secuencia formada a partir de dos secuencias, donde n es el número de secuencias en la consulta. La programación dinámica estándar se utiliza primero en todos los pares de secuencias de consulta y luego se llena el "espacio de alineación" considerando posibles coincidencias o espacios en posiciones intermedias, construyendo finalmente una alineación esencialmente entre cada alineación de dos secuencias. Aunque esta técnica es computacionalmente costosa, su garantía de una solución óptima global es útil en casos en los que solo unas pocas secuencias necesitan ser alineadas con precisión. Un método para reducir las demandas computacionales de la programación dinámica, que se basa en la función objetivo de "suma de pares" , se ha implementado en el paquete de software MSA. [14]
Los métodos progresivos, jerárquicos o de árbol generan una alineación de secuencias múltiples alineando primero las secuencias más similares y luego agregando secuencias o grupos menos relacionados sucesivamente a la alineación hasta que todo el conjunto de consulta se haya incorporado a la solución. El árbol inicial que describe la relación de secuencias se basa en comparaciones por pares que pueden incluir métodos de alineación por pares heurísticos similares a FASTA . Los resultados de la alineación progresiva dependen de la elección de las secuencias "más relacionadas" y, por lo tanto, pueden ser sensibles a las imprecisiones en las alineaciones por pares iniciales. La mayoría de los métodos de alineación de secuencias múltiples progresivas ponderan adicionalmente las secuencias en el conjunto de consulta según su relación, lo que reduce la probabilidad de hacer una mala elección de secuencias iniciales y, por lo tanto, mejora la precisión de la alineación.
Se utilizan muchas variaciones de la implementación progresiva de Clustal [15] [16] [17] para la alineación de secuencias múltiples, la construcción de árboles filogenéticos y como entrada para la predicción de la estructura de proteínas . Una variante más lenta pero más precisa del método progresivo se conoce como T-Coffee . [18]
Los métodos iterativos intentan mejorar la fuerte dependencia de la precisión de las alineaciones por pares iniciales, que es el punto débil de los métodos progresivos. Los métodos iterativos optimizan una función objetivo basada en un método de puntuación de alineamiento seleccionado asignando una alineación global inicial y luego realineando los subconjuntos de secuencias. Los subconjuntos realineados se alinean luego para producir la alineación de secuencias múltiples de la siguiente iteración. En [19] se revisan varias formas de seleccionar los subgrupos de secuencias y la función objetivo.
La búsqueda de motivos, también conocida como análisis de perfiles, construye alineaciones globales de múltiples secuencias que intentan alinear motivos de secuencias conservadas cortas entre las secuencias del conjunto de consulta. Esto se hace generalmente construyendo primero una alineación global de múltiples secuencias general, después de lo cual se aíslan las regiones altamente conservadas y se utilizan para construir un conjunto de matrices de perfiles. La matriz de perfiles para cada región conservada se organiza como una matriz de puntuación, pero sus recuentos de frecuencia para cada aminoácido o nucleótido en cada posición se derivan de la distribución de caracteres de la región conservada en lugar de una distribución empírica más general. Las matrices de perfiles se utilizan luego para buscar otras secuencias en busca de ocurrencias del motivo que caracterizan. En los casos en que el conjunto de datos original contenía una pequeña cantidad de secuencias, o solo secuencias altamente relacionadas, se agregan pseudoconteos para normalizar las distribuciones de caracteres representadas en el motivo.
También se han aplicado al problema de alineación de secuencias múltiples una variedad de algoritmos de optimización generales que se utilizan comúnmente en informática. Se han utilizado modelos ocultos de Markov para producir puntuaciones de probabilidad para una familia de posibles alineaciones de secuencias múltiples para un conjunto de consultas determinado; aunque los primeros métodos basados en HMM produjeron un rendimiento decepcionante, las aplicaciones posteriores los han encontrado especialmente eficaces para detectar secuencias relacionadas de forma remota porque son menos susceptibles al ruido creado por sustituciones conservadoras o semiconservativas. [20] También se han utilizado algoritmos genéticos y recocido simulado para optimizar las puntuaciones de alineación de secuencias múltiples a juzgar por una función de puntuación como el método de suma de pares. Se pueden encontrar detalles más completos y paquetes de software en el artículo principal alineación de secuencias múltiples .
La transformada de Burrows-Wheeler se ha aplicado con éxito a la alineación rápida de lecturas cortas en herramientas populares como Bowtie y BWA. Consulte FM-index .
Los alineamientos estructurales, que suelen ser específicos de las secuencias de proteínas y, a veces, de ARN, utilizan información sobre la estructura secundaria y terciaria de la proteína o la molécula de ARN para ayudar a alinear las secuencias. Estos métodos se pueden utilizar para dos o más secuencias y, por lo general, producen alineamientos locales; sin embargo, debido a que dependen de la disponibilidad de información estructural, solo se pueden utilizar para secuencias cuyas estructuras correspondientes se conocen (generalmente mediante cristalografía de rayos X o espectroscopia de RMN ). Debido a que tanto la estructura de la proteína como la del ARN se conservan más evolutivamente que la de la secuencia, [21] los alineamientos estructurales pueden ser más confiables entre secuencias que están muy distantemente relacionadas y que han divergido tan ampliamente que la comparación de secuencias no puede detectar de manera confiable su similitud.
Los alineamientos estructurales se utilizan como el "patrón oro" en la evaluación de alineamientos para la predicción de la estructura de proteínas basada en la homología [22] porque alinean explícitamente regiones de la secuencia de proteínas que son estructuralmente similares en lugar de depender exclusivamente de la información de la secuencia. Sin embargo, es evidente que los alineamientos estructurales no se pueden utilizar en la predicción de la estructura porque al menos una secuencia en el conjunto de consulta es el objetivo que se va a modelar, para el cual no se conoce la estructura. Se ha demostrado que, dada la alineación estructural entre un objetivo y una secuencia de plantilla, se pueden producir modelos altamente precisos de la secuencia de proteína objetivo; un obstáculo importante en la predicción de la estructura basada en la homología es la producción de alineamientos estructuralmente precisos dada solo la información de la secuencia. [22]
El método DALI, o alineamiento de matriz de distancia , es un método basado en fragmentos para construir alineamientos estructurales basados en patrones de similitud de contacto entre hexapéptidos sucesivos en las secuencias de consulta. [23] Puede generar alineamientos por pares o múltiples e identificar los vecinos estructurales de una secuencia de consulta en el Protein Data Bank (PDB). Se ha utilizado para construir la base de datos de alineamiento estructural FSSP (Clasificación de pliegues basada en el alineamiento estructura-estructura de proteínas o familias de proteínas estructuralmente similares). Se puede acceder a un servidor web DALI en DALI y el FSSP se encuentra en The Dali Database.
SSAP (programa de alineación de estructura secuencial) es un método de alineación estructural basado en programación dinámica que utiliza vectores átomo a átomo en el espacio de estructura como puntos de comparación. Se ha ampliado desde su descripción original para incluir alineaciones múltiples y por pares [24], y se ha utilizado en la construcción de la base de datos jerárquica de clasificación de plegamientos de proteínas CATH (clase, arquitectura, topología, homología). [25] Se puede acceder a la base de datos CATH en CATH Protein Structure Classification.
El método de extensión combinatoria de alineación estructural genera una alineación estructural por pares utilizando geometría local para alinear fragmentos cortos de las dos proteínas que se están analizando y luego ensambla estos fragmentos en una alineación más grande. [26] Con base en medidas como la distancia cuadrática media de la raíz del cuerpo rígido , las distancias de los residuos, la estructura secundaria local y las características ambientales circundantes como la hidrofobicidad de los vecinos de los residuos , se generan alineaciones locales llamadas "pares de fragmentos alineados" y se utilizan para construir una matriz de similitud que representa todas las alineaciones estructurales posibles dentro de criterios de corte predefinidos. Luego se traza una ruta desde un estado de la estructura de la proteína al otro a través de la matriz extendiendo la alineación creciente un fragmento a la vez. La ruta óptima de este tipo define la alineación de extensión combinatoria. Un servidor basado en la web que implementa el método y proporciona una base de datos de alineaciones por pares de estructuras en el Banco de Datos de Proteínas se encuentra en el sitio web de Extensión Combinatoria.
La filogenética y el alineamiento de secuencias son campos estrechamente relacionados debido a la necesidad compartida de evaluar la relación de secuencias. [27] El campo de la filogenética hace un uso extensivo de los alineamientos de secuencias en la construcción e interpretación de árboles filogenéticos , que se utilizan para clasificar las relaciones evolutivas entre genes homólogos representados en los genomas de especies divergentes. El grado en que las secuencias en un conjunto de consulta difieren está cualitativamente relacionado con la distancia evolutiva de las secuencias entre sí. En términos generales, una alta identidad de secuencia sugiere que las secuencias en cuestión tienen un ancestro común más reciente comparativamente joven , mientras que una baja identidad sugiere que la divergencia es más antigua. Esta aproximación, que refleja la hipótesis del " reloj molecular " de que se puede utilizar una tasa aproximadamente constante de cambio evolutivo para extrapolar el tiempo transcurrido desde que dos genes divergieron por primera vez (es decir, el tiempo de coalescencia ), supone que los efectos de la mutación y la selección son constantes en todos los linajes de secuencias. Por lo tanto, no tiene en cuenta las posibles diferencias entre organismos o especies en las tasas de reparación del ADN o la posible conservación funcional de regiones específicas en una secuencia. (En el caso de las secuencias de nucleótidos, la hipótesis del reloj molecular en su forma más básica también descarta la diferencia en las tasas de aceptación entre las mutaciones silenciosas que no alteran el significado de un codón dado y otras mutaciones que dan como resultado la incorporación de un aminoácido diferente a la proteína). Los métodos estadísticamente más precisos permiten que varíe la tasa evolutiva en cada rama del árbol filogenético, lo que produce mejores estimaciones de los tiempos de coalescencia de los genes.
Las técnicas de alineamiento múltiple progresivo producen un árbol filogenético por necesidad porque incorporan secuencias en el alineamiento creciente en orden de parentesco. Otras técnicas que ensamblan alineamientos de secuencias múltiples y árboles filogenéticos puntúan y ordenan los árboles primero y calculan un alineamiento de secuencias múltiples a partir del árbol con la puntuación más alta. Los métodos de construcción de árboles filogenéticos que se utilizan comúnmente son principalmente heurísticos porque el problema de seleccionar el árbol óptimo, al igual que el problema de seleccionar el alineamiento de secuencias múltiples óptimo, es NP-hard . [28]
Los alineamientos de secuencias son útiles en bioinformática para identificar similitudes entre secuencias, producir árboles filogenéticos y desarrollar modelos de homología de estructuras proteínicas. Sin embargo, la relevancia biológica de los alineamientos de secuencias no siempre está clara. A menudo se supone que los alineamientos reflejan un grado de cambio evolutivo entre secuencias que descienden de un ancestro común; sin embargo, es formalmente posible que pueda producirse una evolución convergente para producir una similitud aparente entre proteínas que no están relacionadas evolutivamente pero que realizan funciones similares y tienen estructuras similares.
En las búsquedas en bases de datos como BLAST, los métodos estadísticos pueden determinar la probabilidad de que una alineación particular entre secuencias o regiones de secuencias surja por casualidad dado el tamaño y la composición de la base de datos que se está buscando. Estos valores pueden variar significativamente según el espacio de búsqueda. En particular, la probabilidad de encontrar una alineación dada por casualidad aumenta si la base de datos consta solo de secuencias del mismo organismo que la secuencia consultada. Las secuencias repetitivas en la base de datos o la consulta también pueden distorsionar tanto los resultados de la búsqueda como la evaluación de la significación estadística; BLAST filtra automáticamente dichas secuencias repetitivas en la consulta para evitar coincidencias aparentes que son artefactos estadísticos.
Existen en la literatura métodos de estimación de significación estadística para alineaciones de secuencias con espacios vacíos. [27] [29] [30 ] [31] [32] [33] [34] [35]
La significación estadística indica la probabilidad de que una alineación de una calidad dada pueda surgir por casualidad, pero no indica en qué medida una alineación dada es superior a las alineaciones alternativas de las mismas secuencias. Las medidas de credibilidad de la alineación indican en qué medida las alineaciones con mejor puntuación para un par de secuencias dado son sustancialmente similares. En la literatura se encuentran disponibles métodos de estimación de la credibilidad de la alineación para alineaciones de secuencias con espacios vacíos. [36]
La elección de una función de puntuación que refleje observaciones biológicas o estadísticas sobre secuencias conocidas es importante para producir buenos alineamientos. Las secuencias de proteínas se alinean frecuentemente utilizando matrices de sustitución que reflejan las probabilidades de sustituciones de caracteres dadas. Una serie de matrices llamadas matrices PAM (matrices de mutación de aceptación puntual, definidas originalmente por Margaret Dayhoff y a veces denominadas "matrices de Dayhoff") codifican explícitamente aproximaciones evolutivas con respecto a las tasas y probabilidades de mutaciones de aminoácidos particulares. Otra serie común de matrices de puntuación, conocida como BLOSUM (matriz de sustitución de bloques), codifica probabilidades de sustitución derivadas empíricamente. Las variantes de ambos tipos de matrices se utilizan para detectar secuencias con diferentes niveles de divergencia, lo que permite a los usuarios de BLAST o FASTA restringir las búsquedas a coincidencias más estrechamente relacionadas o expandirlas para detectar secuencias más divergentes. Las penalizaciones por brecha tienen en cuenta la introducción de una brecha (en el modelo evolutivo, una mutación de inserción o deleción) tanto en secuencias de nucleótidos como de proteínas y, por lo tanto, los valores de penalización deben ser proporcionales a la tasa esperada de tales mutaciones. Por lo tanto, la calidad de las alineaciones producidas depende de la calidad de la función de puntuación.
Puede resultar muy útil e instructivo probar la misma alineación varias veces con diferentes opciones para la matriz de puntuación y/o valores de penalización por brecha y comparar los resultados. Las regiones donde la solución es débil o no única a menudo se pueden identificar observando qué regiones de la alineación son resistentes a las variaciones en los parámetros de alineación.
El ARN secuenciado, como las etiquetas de secuencia expresadas y los ARNm de longitud completa, se pueden alinear con un genoma secuenciado para encontrar dónde hay genes y obtener información sobre el empalme alternativo [37] y la edición de ARN . [38] La alineación de secuencias también es una parte del ensamblaje del genoma , donde las secuencias se alinean para encontrar superposiciones de modo que se puedan formar contigs (largos tramos de secuencia). [39] Otro uso es el análisis de SNP , donde las secuencias de diferentes individuos se alinean para encontrar pares de bases individuales que a menudo son diferentes en una población. [40]
Los métodos utilizados para la alineación de secuencias biológicas también han encontrado aplicaciones en otros campos, más notablemente en el procesamiento del lenguaje natural y en las ciencias sociales , donde el algoritmo Needleman-Wunsch generalmente se conoce como coincidencia óptima . [41] Las técnicas que generan el conjunto de elementos de los cuales se seleccionarán las palabras en algoritmos de generación de lenguaje natural han tomado prestadas múltiples técnicas de alineación de secuencias de la bioinformática para producir versiones lingüísticas de pruebas matemáticas generadas por computadora . [42] En el campo de la lingüística histórica y comparada , la alineación de secuencias se ha utilizado para automatizar parcialmente el método comparativo mediante el cual los lingüistas tradicionalmente reconstruyen los idiomas. [43] La investigación empresarial y de marketing también ha aplicado múltiples técnicas de alineación de secuencias para analizar series de compras a lo largo del tiempo. [44]
Una lista más completa del software disponible categorizado por algoritmo y tipo de alineación está disponible en software de alineación de secuencias , pero las herramientas de software comunes utilizadas para tareas generales de alineación de secuencias incluyen ClustalW2 [45] y T-coffee [46] para la alineación, y BLAST [47] y FASTA3x [48] para la búsqueda en bases de datos. También están disponibles herramientas comerciales como DNASTAR Lasergene, Geneious y PatternHunter . Las herramientas anotadas como que realizan alineación de secuencias se enumeran en el registro bio.tools.
Los algoritmos y el software de alineamiento se pueden comparar directamente entre sí utilizando un conjunto estandarizado de alineamientos de secuencias múltiples de referencia de referencia conocido como BAliBASE. [49] El conjunto de datos consta de alineamientos estructurales, que se pueden considerar un estándar con el que se comparan los métodos puramente basados en secuencias. El rendimiento relativo de muchos métodos de alineamiento comunes en problemas de alineamiento encontrados con frecuencia se ha tabulado y los resultados seleccionados se han publicado en línea en BAliBASE. [50] [51] Se puede calcular una lista completa de puntajes de BAliBASE para muchas (actualmente 12) herramientas de alineamiento diferentes dentro del banco de trabajo de proteínas STRAP. [52]
{{cite book}}
: |journal=
ignorado ( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda )