En bioinformática , un alineamiento de secuencias es una forma de organizar las secuencias de ADN , ARN o proteínas para identificar regiones de similitud que pueden ser consecuencia de relaciones funcionales, estructurales o evolutivas entre las secuencias. [1] Las secuencias alineadas de residuos de nucleótidos o aminoácidos normalmente se representan como filas dentro de una matriz . Se insertan espacios entre los residuos para que los caracteres idénticos o similares queden alineados en columnas sucesivas. Las alineaciones de secuencias también se utilizan para secuencias no biológicas, como calcular el costo de la distancia entre cadenas en un lenguaje natural o para mostrar datos financieros.
Si dos secuencias en una alineación comparten un ancestro común, las discrepancias pueden interpretarse como mutaciones puntuales y las brechas como indeles (es decir, mutaciones de inserción o eliminación) introducidas en uno o ambos linajes en el tiempo desde que divergieron entre sí. En los alineamientos de secuencias de proteínas, el grado de similitud entre los aminoácidos que ocupan una posición particular en la secuencia puede interpretarse como una medida aproximada de qué tan conservada está una región o motivo de secuencia particular entre los linajes. La ausencia de sustituciones, o la presencia sólo de sustituciones muy conservadoras (es decir, la sustitución de aminoácidos cuyas cadenas laterales tienen propiedades bioquímicas similares) en una región particular de la secuencia, sugiere [3] que esta región tiene importancia estructural o funcional. . Aunque las bases de nucleótidos del ADN y el ARN son más similares entre sí que los aminoácidos, la conservación de los pares de bases puede indicar una función funcional o estructural similar.
Se pueden alinear a mano secuencias muy cortas o muy similares. Sin embargo, los problemas más interesantes requieren el alineamiento de secuencias largas, muy variables o extremadamente numerosas que no pueden alinearse únicamente mediante el esfuerzo humano. En cambio, el conocimiento humano se aplica en la construcción de algoritmos para producir alineamientos de secuencias de alta calidad y, ocasionalmente, en el ajuste de los resultados finales para reflejar patrones que son difíciles de representar algorítmicamente (especialmente en el caso de secuencias de nucleótidos). Los enfoques computacionales para la alineación de secuencias generalmente se dividen en dos categorías: alineaciones globales y alineaciones locales . Calcular una alineación global es una forma de optimización global que "obliga" a la alineación a abarcar toda la longitud de todas las secuencias de consulta. Por el contrario, los alineamientos locales identifican regiones de similitud dentro de secuencias largas que a menudo son muy divergentes en general. Las alineaciones locales suelen ser preferibles, pero pueden ser más difíciles de calcular debido al desafío adicional de identificar las regiones de similitud. [4] Se han aplicado una variedad de algoritmos computacionales al problema de alineación de secuencias. Estos incluyen métodos lentos pero formalmente correctos como la programación dinámica . Estos también incluyen algoritmos heurísticos eficientes o métodos probabilísticos diseñados para búsquedas en bases de datos a gran escala, que no garantizan encontrar las mejores coincidencias.
Las alineaciones suelen representarse tanto gráficamente como en formato de texto. En casi todas las representaciones de alineación de secuencias, las secuencias se escriben en filas dispuestas de modo que los residuos alineados aparezcan en columnas sucesivas. En los formatos de texto, las columnas alineadas que contienen caracteres idénticos o similares se indican con un sistema de símbolos de conservación. Como en la imagen de arriba, se utiliza un símbolo de asterisco o barra vertical para mostrar la identidad entre dos columnas; Otros símbolos menos comunes incluyen dos puntos para sustituciones conservadoras y un punto para sustituciones semiconservadoras. Muchos programas de visualización de secuencias también utilizan el color para mostrar información sobre las propiedades de los elementos de secuencia individuales; en secuencias de ADN y ARN, esto equivale a asignar a cada nucleótido su propio color. En alineamientos de proteínas, como el de la imagen de arriba, el color se usa a menudo para indicar las propiedades de los aminoácidos y ayudar a juzgar la conservación de una sustitución de aminoácidos determinada. Para secuencias múltiples, la última fila de cada columna suele ser la secuencia consenso determinada por la alineación; La secuencia consenso también suele representarse en formato gráfico con un logotipo de secuencia en el que el tamaño de cada letra de nucleótido o aminoácido corresponde a su grado de conservación. [5]
Las alineaciones de secuencias se pueden almacenar en una amplia variedad de formatos de archivos basados en texto, muchos de los cuales se desarrollaron originalmente junto con un programa o implementación de alineación específica. La mayoría de las herramientas basadas en web permiten un número limitado de formatos de entrada y salida, como el formato FASTA y el formato GenBank , y la salida no es fácilmente editable. Hay varios programas de conversión disponibles que proporcionan interfaces gráficas y/o de línea de comandos [ enlace muerto ] , como READSEQ y EMBOSS . También existen varios paquetes de programación que proporcionan esta funcionalidad de conversión, como BioPython , BioRuby y BioPerl . Los archivos SAM/BAM utilizan el formato de cadena CIGAR (Informe compacto de alineación con espacios idiosincrásicos) para representar una alineación de una secuencia con una referencia mediante la codificación de una secuencia de eventos (por ejemplo, coincidencias/discordancias, inserciones, eliminaciones). [6]
Árbitro. : GTCGTAGAATA
Lectura : CACGTAG—TA
CIGAR: 2S5M2D2M donde:
2S = 2 recortes suaves (podrían ser discrepancias o una lectura más larga que la secuencia coincidente)
5M = 5 coincidencias o discrepancias
2D = 2 eliminaciones
2M = 2 coincidencias o discrepancias
El formato CIGAR original del programa de alineación exonerada no distinguía entre discrepancias o coincidencias con el carácter M.
El documento de especificaciones SAMv1 define códigos CIGAR más nuevos. En la mayoría de los casos, se prefiere utilizar los caracteres '=" y 'X' para indicar coincidencias o no coincidencias en lugar del antiguo carácter 'M', que es ambiguo.
Los alineamientos globales, que intentan alinear cada residuo en cada secuencia, son más útiles cuando las secuencias en el conjunto de consultas son similares y tienen aproximadamente el mismo tamaño. (Esto no significa que las alineaciones globales no puedan comenzar y/o terminar en espacios). Una técnica general de alineación global es el algoritmo Needleman-Wunsch , que se basa en la programación dinámica. Las alineaciones locales son más útiles para secuencias diferentes de las que se sospecha que contienen regiones de similitud o motivos de secuencia similares dentro de su contexto de secuencia más amplio. El algoritmo de Smith-Waterman es un método de alineación local general basado en el mismo esquema de programación dinámica pero con opciones adicionales para comenzar y finalizar en cualquier lugar. [4]
Los métodos híbridos, conocidos como métodos semiglobales o "glocales" (abreviatura de global -lo cal ), buscan el mejor alineamiento parcial posible de las dos secuencias (en otras palabras, una combinación de uno o ambos inicios y uno o ambos se indica que los extremos están alineados). Esto puede resultar especialmente útil cuando la parte aguas abajo de una secuencia se superpone con la parte aguas arriba de la otra secuencia. En este caso, ni el alineamiento global ni el local son del todo apropiados: un alineamiento global intentaría forzar que el alineamiento se extendiera más allá de la región de superposición, mientras que un alineamiento local podría no cubrir completamente la región de superposición. [7] Otro caso en el que la alineación semiglobal es útil es cuando una secuencia es corta (por ejemplo, una secuencia genética) y la otra es muy larga (por ejemplo, una secuencia cromosómica). En ese caso, la secuencia corta debe estar alineada globalmente (totalmente), pero sólo se desea una alineación local (parcial) para la secuencia larga.
La rápida expansión de los datos genéticos desafía la velocidad de los algoritmos actuales de alineación de secuencias de ADN. Las necesidades esenciales de un método eficiente y preciso para el descubrimiento de variantes de ADN exigen enfoques innovadores para el procesamiento paralelo en tiempo real. Se han sugerido enfoques de computación óptica como alternativas prometedoras a las implementaciones eléctricas actuales, pero su aplicabilidad aún está por probarse [1].
Los métodos de alineación de secuencias por pares se utilizan para encontrar las alineaciones por partes (locales o globales) que mejor coincidan de dos secuencias de consulta. Las alineaciones por pares solo se pueden usar entre dos secuencias a la vez, pero son eficientes de calcular y a menudo se usan para métodos que no requieren una precisión extrema (como buscar en una base de datos secuencias con alta similitud con una consulta). Los tres métodos principales para producir alineaciones por pares son los métodos matriciales, la programación dinámica y los métodos de palabras; [1] sin embargo, las técnicas de alineación de secuencias múltiples también pueden alinear pares de secuencias. Aunque cada método tiene sus fortalezas y debilidades individuales, los tres métodos por pares tienen dificultades con secuencias altamente repetitivas de bajo contenido de información , especialmente cuando el número de repeticiones difiere en las dos secuencias a alinear.
Una forma de cuantificar la utilidad de una alineación por pares dada es la ' coincidencia única máxima ' (MUM), o la subsecuencia más larga que ocurre en ambas secuencias de consulta. Las secuencias MUM más largas suelen reflejar una relación más estrecha. [8] en el alineamiento de secuencias múltiples de genomas en biología computacional . La identificación de MUM y otros anclajes potenciales es el primer paso en sistemas de alineación más grandes como MUMmer . Los anclajes son las áreas entre dos genomas donde son muy similares. Para entender qué es una MUM podemos desglosar cada palabra del acrónimo. Coincidencia implica que la subcadena aparece en ambas secuencias a alinear. Único significa que la subcadena aparece sólo una vez en cada secuencia. Finalmente, maximal establece que la subcadena no es parte de otra cadena más grande que cumpla ambos requisitos anteriores. La idea detrás de esto es que las secuencias largas que coinciden exactamente y ocurren solo una vez en cada genoma son casi con certeza parte del alineamiento global.
Más precisamente:
"Dados dos genomas A y B, la subcadena Maximal Unique Match (MUM) es una subcadena común de A y B de longitud mayor que una longitud mínima especificada d (por defecto d= 20) tal que
- es máximo, es decir, no puede extenderse en ninguno de los extremos sin incurrir en un desajuste; y
- es único en ambas secuencias" [9]
El enfoque de matriz de puntos, que implícitamente produce una familia de alineamientos para regiones de secuencia individuales, es cualitativamente y conceptualmente simple, aunque su análisis a gran escala requiere mucho tiempo. En ausencia de ruido, puede resultar fácil identificar visualmente ciertas características de la secuencia (como inserciones, eliminaciones, repeticiones o repeticiones invertidas ) a partir de un gráfico de matriz de puntos. Para construir un gráfico de matriz de puntos , las dos secuencias se escriben a lo largo de la fila superior y la columna más a la izquierda de una matriz bidimensional y se coloca un punto en cualquier punto donde coincidan los caracteres de las columnas apropiadas; este es un gráfico de recurrencia típico . Algunas implementaciones varían el tamaño o la intensidad del punto según el grado de similitud de los dos caracteres, para dar cabida a sustituciones conservadoras. Los diagramas de puntos de secuencias muy relacionadas aparecerán como una sola línea a lo largo de la diagonal principal de la matriz .
Los problemas con los diagramas de puntos como técnica de visualización de información incluyen: ruido, falta de claridad, falta de intuición, dificultad para extraer estadísticas resumidas de coincidencias y posiciones de coincidencias en las dos secuencias. También se desperdicia mucho espacio cuando los datos de coincidencia están inherentemente duplicados a lo largo de la diagonal y la mayor parte del área real de la trama está ocupada por espacio vacío o ruido y, finalmente, los diagramas de puntos se limitan a dos secuencias. Ninguna de estas limitaciones se aplica a los diagramas de alineación de Miropeats, pero tienen sus propios defectos particulares.
Los diagramas de puntos también se pueden utilizar para evaluar la repetitividad en una secuencia única. Se puede trazar una secuencia respecto de sí misma y las regiones que comparten similitudes significativas aparecerán como líneas fuera de la diagonal principal. Este efecto se produce cuando una proteína consta de múltiples dominios estructurales similares .
La técnica de programación dinámica se puede aplicar para producir alineaciones globales mediante el algoritmo Needleman-Wunsch y alineaciones locales mediante el algoritmo Smith-Waterman . En el uso típico, las alineaciones de proteínas utilizan una matriz de sustitución para asignar puntuaciones a coincidencias o desajustes de aminoácidos, y una penalización por brecha por hacer coincidir un aminoácido en una secuencia con una brecha en la otra. Las alineaciones de ADN y ARN pueden utilizar una matriz de puntuación, pero en la práctica a menudo simplemente se asigna una puntuación de coincidencia positiva, una puntuación de discrepancia negativa y una penalización de brecha negativa. (En la programación dinámica estándar, la puntuación de cada posición de aminoácido es independiente de la identidad de sus vecinos y, por lo tanto, los efectos de apilamiento de bases no se tienen en cuenta. Sin embargo, es posible tener en cuenta dichos efectos modificando el algoritmo) . cita necesaria ] Una extensión común a los costos de brecha lineal estándar es el uso de dos penalizaciones de brecha diferentes para abrir una brecha y para extender una brecha. Normalmente, el primero es mucho mayor que el segundo, por ejemplo, -10 para espacio abierto y -2 para extensión de espacio. Por lo tanto, el número de espacios en una alineación generalmente se reduce y los residuos y los espacios se mantienen juntos, lo que normalmente tiene más sentido biológico. El algoritmo Gotoh implementa costos de brecha afines mediante el uso de tres matrices. [ cita necesaria ]
La programación dinámica puede ser útil para alinear secuencias de nucleótidos con proteínas, una tarea complicada por la necesidad de tener en cuenta las mutaciones por desplazamiento del marco (generalmente inserciones o eliminaciones). El método de búsqueda de marcos produce una serie de alineamientos por pares globales o locales entre una secuencia de nucleótidos de consulta y un conjunto de búsqueda de secuencias de proteínas, o viceversa. Su capacidad para evaluar cambios de marco compensados por un número arbitrario de nucleótidos hace que el método sea útil para secuencias que contienen una gran cantidad de indeles, que pueden ser muy difíciles de alinear con métodos heurísticos más eficientes. En la práctica, el método requiere grandes cantidades de potencia informática o un sistema cuya arquitectura esté especializada para la programación dinámica. Las suites BLAST y EMBOSS proporcionan herramientas básicas para crear alineaciones traducidas (aunque algunos de estos enfoques aprovechan los efectos secundarios de las capacidades de búsqueda de secuencias de las herramientas). Hay métodos más generales disponibles en software de código abierto como GeneWise. [ cita necesaria ]
Se garantiza que el método de programación dinámica encontrará una alineación óptima dada una función de puntuación particular; sin embargo, identificar una buena función de puntuación suele ser una cuestión más empírica que teórica. Aunque la programación dinámica es extensible a más de dos secuencias, es prohibitivamente lenta para un gran número de secuencias o secuencias extremadamente largas. [ cita necesaria ]
Los métodos de Word, también conocidos como métodos k -tupla, son métodos heurísticos que no garantizan encontrar una solución de alineación óptima, pero son significativamente más eficientes que la programación dinámica. Estos métodos son especialmente útiles en búsquedas en bases de datos a gran escala donde se entiende que una gran proporción de las secuencias candidatas esencialmente no tendrán una coincidencia significativa con la secuencia de consulta. Los métodos de Word son mejor conocidos por su implementación en las herramientas de búsqueda de bases de datos FASTA y la familia BLAST . [1] Los métodos de Word identifican una serie de subsecuencias cortas y no superpuestas ("palabras") en la secuencia de consulta que luego se relacionan con secuencias de bases de datos candidatas. Las posiciones relativas de la palabra en las dos secuencias que se comparan se restan para obtener un desplazamiento; esto indicará una región de alineación si varias palabras distintas producen el mismo desplazamiento. Sólo si se detecta esta región, estos métodos aplican criterios de alineación más sensibles; por lo tanto, se eliminan muchas comparaciones innecesarias con secuencias sin similitud apreciable.
En el método FASTA, el usuario define un valor k para usar como la longitud de la palabra con la que buscar en la base de datos. El método es más lento pero más sensible con valores más bajos de k , que también se prefieren para búsquedas que implican una secuencia de consulta muy corta. La familia de métodos de búsqueda BLAST proporciona una serie de algoritmos optimizados para tipos particulares de consultas, como la búsqueda de coincidencias de secuencias relacionadas lejanamente. BLAST fue desarrollado para proporcionar una alternativa más rápida a FASTA sin sacrificar mucha precisión; Al igual que FASTA, BLAST utiliza una búsqueda de palabras de longitud k , pero evalúa solo las coincidencias de palabras más significativas, en lugar de cada coincidencia de palabras como lo hace FASTA. La mayoría de las implementaciones de BLAST utilizan una longitud de palabra predeterminada fija que está optimizada para la consulta y el tipo de base de datos, y que se cambia solo en circunstancias especiales, como cuando se realizan búsquedas con secuencias de consulta repetitivas o muy cortas. Las implementaciones se pueden encontrar a través de varios portales web, como EMBL FASTA y NCBI BLAST.
El alineamiento de secuencias múltiples es una extensión del alineamiento por pares para incorporar más de dos secuencias a la vez. Múltiples métodos de alineación intentan alinear todas las secuencias en un conjunto de consultas determinado. A menudo se utilizan alineamientos múltiples para identificar regiones de secuencia conservadas en un grupo de secuencias que se supone están relacionadas evolutivamente. Estos motivos de secuencia conservados se pueden utilizar junto con información estructural y mecanicista para localizar los sitios catalíticos activos de las enzimas . Las alineaciones también se utilizan para ayudar a establecer relaciones evolutivas mediante la construcción de árboles filogenéticos . Los alineamientos de secuencias múltiples son computacionalmente difíciles de producir y la mayoría de las formulaciones del problema conducen a problemas de optimización combinatoria completa de NP . [10] [11] Sin embargo, la utilidad de estos alineamientos en bioinformática ha llevado al desarrollo de una variedad de métodos adecuados para alinear tres o más secuencias.
La técnica de programación dinámica es teóricamente aplicable a cualquier número de secuencias; sin embargo, debido a que es computacionalmente costoso tanto en tiempo como en memoria , rara vez se usa para más de tres o cuatro secuencias en su forma más básica. Este método requiere construir el equivalente n -dimensional de la matriz de secuencia formada a partir de dos secuencias, donde n es el número de secuencias en la consulta. La programación dinámica estándar se utiliza primero en todos los pares de secuencias de consulta y luego se completa el "espacio de alineación" considerando posibles coincidencias o espacios en posiciones intermedias, y finalmente se construye una alineación esencialmente entre cada alineación de dos secuencias. Aunque esta técnica es costosa desde el punto de vista computacional, su garantía de una solución óptima global es útil en los casos en los que sólo es necesario alinear con precisión unas pocas secuencias. En el paquete de software MSA se ha implementado un método para reducir las demandas computacionales de la programación dinámica, que se basa en la función objetivo de "suma de pares". [12]
Los métodos progresivos, jerárquicos o de árbol generan un alineamiento de secuencias múltiples alineando primero las secuencias más similares y luego agregando sucesivamente secuencias o grupos menos relacionados al alineamiento hasta que todo el conjunto de consultas se haya incorporado a la solución. El árbol inicial que describe la relación de secuencia se basa en comparaciones por pares que pueden incluir métodos heurísticos de alineación por pares similares a FASTA . Los resultados de la alineación progresiva dependen de la elección de las secuencias "más relacionadas" y, por lo tanto, pueden ser sensibles a imprecisiones en las alineaciones iniciales por pares. La mayoría de los métodos progresivos de alineación de secuencias múltiples ponderan adicionalmente las secuencias en el conjunto de consultas de acuerdo con su relación, lo que reduce la probabilidad de realizar una mala elección de las secuencias iniciales y, por lo tanto, mejora la precisión de la alineación.
Muchas variaciones de la implementación progresiva de Clustal [13] [14] [15] se utilizan para el alineamiento de secuencias múltiples, la construcción de árboles filogenéticos y como entrada para la predicción de la estructura de proteínas . Una variante más lenta pero más precisa del método progresivo se conoce como T-Coffee . [dieciséis]
Los métodos iterativos intentan mejorar la gran dependencia de la precisión de las alineaciones iniciales por pares, que es el punto débil de los métodos progresivos. Los métodos iterativos optimizan una función objetivo basándose en un método de puntuación de alineación seleccionado asignando una alineación global inicial y luego realineando los subconjuntos de secuencia. Los subconjuntos realineados luego se alinean para producir el alineamiento de secuencia múltiple de la siguiente iteración. En [17] se revisan varias formas de seleccionar los subgrupos de secuencia y la función objetivo.
La búsqueda de motivos, también conocida como análisis de perfiles, construye alineamientos de secuencias múltiples globales que intentan alinear motivos de secuencias cortas conservadas entre las secuencias del conjunto de consultas. Esto generalmente se hace construyendo primero una alineación de secuencia múltiple global general, después de lo cual las regiones altamente conservadas se aíslan y se usan para construir un conjunto de matrices de perfil. La matriz de perfil para cada región conservada está dispuesta como una matriz de puntuación, pero sus recuentos de frecuencia para cada aminoácido o nucleótido en cada posición se derivan de la distribución de caracteres de la región conservada en lugar de una distribución empírica más general. Las matrices de perfil se utilizan luego para buscar en otras secuencias apariciones del motivo que caracterizan. En los casos en que el conjunto de datos original contenía una pequeña cantidad de secuencias, o solo secuencias altamente relacionadas, se agregan pseudocuentas para normalizar las distribuciones de caracteres representadas en el motivo.
También se han aplicado al problema de alineación de secuencias múltiples una variedad de algoritmos de optimización generales comúnmente utilizados en informática. Se han utilizado modelos ocultos de Markov para producir puntuaciones de probabilidad para una familia de posibles alineamientos de secuencias múltiples para un conjunto de consultas determinado; Aunque los primeros métodos basados en HMM produjeron un rendimiento decepcionante, las aplicaciones posteriores los han encontrado especialmente efectivos en la detección de secuencias relacionadas remotamente porque son menos susceptibles al ruido creado por sustituciones conservadoras o semiconservadoras. [18] También se han utilizado algoritmos genéticos y recocido simulado para optimizar puntuaciones de alineación de secuencias múltiples a juzgar por una función de puntuación como el método de suma de pares. Se pueden encontrar detalles más completos y paquetes de software en el artículo principal sobre alineación de secuencias múltiples .
La transformada de Burrows-Wheeler se ha aplicado con éxito para una alineación rápida de lectura corta en herramientas populares como Bowtie y BWA. Ver índice FM .
Los alineamientos estructurales, que suelen ser específicos de secuencias de proteínas y, a veces, de ARN, utilizan información sobre la estructura secundaria y terciaria de la proteína o molécula de ARN para ayudar a alinear las secuencias. Estos métodos se pueden utilizar para dos o más secuencias y normalmente producen alineamientos locales; sin embargo, debido a que dependen de la disponibilidad de información estructural, solo pueden usarse para secuencias cuyas estructuras correspondientes se conocen (generalmente mediante cristalografía de rayos X o espectroscopia de RMN ). Debido a que tanto la estructura de la proteína como la del ARN están más conservadas evolutivamente que la secuencia, [19] los alineamientos estructurales pueden ser más confiables entre secuencias que están relacionadas muy lejanamente y que han divergido tan ampliamente que la comparación de secuencias no puede detectar de manera confiable su similitud.
Las alineaciones estructurales se utilizan como el "estándar de oro" en la evaluación de alineaciones para la predicción de la estructura de proteínas basada en homología [20] porque alinean explícitamente regiones de la secuencia de proteínas que son estructuralmente similares en lugar de depender exclusivamente de la información de la secuencia. Sin embargo, claramente no se pueden utilizar alineamientos estructurales en la predicción de estructuras porque al menos una secuencia en el conjunto de consultas es el objetivo a modelar, cuya estructura no se conoce. Se ha demostrado que, dada la alineación estructural entre una secuencia diana y una secuencia plantilla, se pueden producir modelos muy precisos de la secuencia de la proteína diana; Un obstáculo importante en la predicción de estructuras basada en homología es la producción de alineamientos estructuralmente precisos dada solo información de secuencia. [20]
El método DALI, o alineación de matriz de distancia , es un método basado en fragmentos para construir alineaciones estructurales basadas en patrones de similitud de contacto entre hexapéptidos sucesivos en las secuencias de consulta. [21] Puede generar alineamientos múltiples o por pares e identificar los vecinos estructurales de una secuencia de consulta en el Banco de datos de proteínas (PDB). Se ha utilizado para construir la base de datos de alineación estructural FSSP (clasificación de pliegues basada en la alineación estructura-estructura de proteínas o familias de proteínas estructuralmente similares). Se puede acceder a un servidor web DALI en DALI y el FSSP está ubicado en The Dali Database.
SSAP (programa de alineación de estructuras secuenciales) es un método de alineación estructural basado en programación dinámica que utiliza vectores átomo a átomo en el espacio estructural como puntos de comparación. Se ha ampliado desde su descripción original para incluir alineamientos múltiples y por pares, [22] y se ha utilizado en la construcción de la clasificación jerárquica de pliegues de proteínas de la base de datos CATH (Clase, Arquitectura, Topología, Homología). [23] Se puede acceder a la base de datos CATH en CATH Protein Structure Classification.
El método de extensión combinatoria de alineación estructural genera una alineación estructural por pares mediante el uso de geometría local para alinear fragmentos cortos de las dos proteínas que se analizan y luego ensambla estos fragmentos en una alineación más grande. [24] Con base en medidas como la distancia cuadrática media del cuerpo rígido , las distancias de los residuos, la estructura secundaria local y las características ambientales circundantes, como la hidrofobicidad del vecino de los residuos , se generan y utilizan alineaciones locales llamadas "pares de fragmentos alineados" para construir una matriz de similitud. representando todas las alineaciones estructurales posibles dentro de criterios de corte predefinidos. Luego se traza un camino desde un estado de estructura proteica al otro a través de la matriz extendiendo la alineación creciente un fragmento a la vez. La ruta óptima define la alineación de extensión combinatoria. En el sitio web de Combinatorial Extension se encuentra un servidor web que implementa el método y proporciona una base de datos de alineamientos de estructuras por pares en el Banco de datos de proteínas.
La filogenética y la alineación de secuencias son campos estrechamente relacionados debido a la necesidad compartida de evaluar la relación de secuencias. [25] El campo de la filogenética hace un uso extensivo de alineamientos de secuencias en la construcción e interpretación de árboles filogenéticos , que se utilizan para clasificar las relaciones evolutivas entre genes homólogos representados en los genomas de especies divergentes. El grado en que difieren las secuencias en un conjunto de consultas está cualitativamente relacionado con la distancia evolutiva de las secuencias entre sí. En términos generales, una identidad de secuencia alta sugiere que las secuencias en cuestión tienen un ancestro común más reciente comparativamente joven , mientras que una identidad baja sugiere que la divergencia es más antigua. Esta aproximación, que refleja la hipótesis del " reloj molecular " de que se puede utilizar una tasa aproximadamente constante de cambio evolutivo para extrapolar el tiempo transcurrido desde que dos genes divergieron por primera vez (es decir, el tiempo de coalescencia ), supone que los efectos de la mutación y la selección son constante a lo largo de los linajes de secuencia. Por lo tanto, no tiene en cuenta las posibles diferencias entre organismos o especies en las tasas de reparación del ADN o la posible conservación funcional de regiones específicas en una secuencia. (En el caso de las secuencias de nucleótidos, la hipótesis del reloj molecular en su forma más básica también descarta la diferencia en las tasas de aceptación entre mutaciones silenciosas que no alteran el significado de un codón dado y otras mutaciones que resultan en la incorporación de un aminoácido diferente a la proteína). Los métodos estadísticamente más precisos permiten que varíe la tasa evolutiva en cada rama del árbol filogenético, produciendo así mejores estimaciones de los tiempos de coalescencia de los genes.
Las técnicas progresivas de alineación múltiple producen un árbol filogenético por necesidad porque incorporan secuencias en la alineación creciente en orden de relación. Otras técnicas que ensamblan alineamientos de secuencias múltiples y árboles filogenéticos puntúan y clasifican los árboles primero y calculan un alineamiento de secuencias múltiples a partir del árbol con la puntuación más alta. Los métodos comúnmente utilizados para la construcción de árboles filogenéticos son principalmente heurísticos porque el problema de seleccionar el árbol óptimo, al igual que el problema de seleccionar el alineamiento óptimo de secuencias múltiples, es NP-difícil . [26]
Los alineamientos de secuencias son útiles en bioinformática para identificar similitudes de secuencias, producir árboles filogenéticos y desarrollar modelos de homología de estructuras de proteínas. Sin embargo, la relevancia biológica de los alineamientos de secuencias no siempre está clara. A menudo se supone que las alineaciones reflejan un grado de cambio evolutivo entre secuencias descendientes de un ancestro común; sin embargo, es formalmente posible que pueda ocurrir una evolución convergente para producir una aparente similitud entre proteínas que no están relacionadas evolutivamente pero que realizan funciones similares y tienen estructuras similares.
En búsquedas en bases de datos como BLAST, los métodos estadísticos pueden determinar la probabilidad de que una alineación particular entre secuencias o regiones de secuencia surja por casualidad dado el tamaño y la composición de la base de datos que se busca. Estos valores pueden variar significativamente dependiendo del espacio de búsqueda. En particular, la probabilidad de encontrar una alineación determinada por casualidad aumenta si la base de datos consta únicamente de secuencias del mismo organismo que la secuencia de consulta. Las secuencias repetitivas en la base de datos o en la consulta también pueden distorsionar tanto los resultados de la búsqueda como la evaluación de la significancia estadística; BLAST filtra automáticamente dichas secuencias repetitivas en la consulta para evitar coincidencias aparentes que son artefactos estadísticos.
En la literatura se encuentran disponibles métodos de estimación de la significación estadística para alineamientos de secuencias con huecos. [25] [27] [28] [29] [30] [31] [32] [33]
La significancia estadística indica la probabilidad de que un alineamiento de una calidad determinada pueda surgir por casualidad, pero no indica qué tan superior es un alineamiento determinado a alineamientos alternativos de las mismas secuencias. Las medidas de credibilidad de la alineación indican hasta qué punto las alineaciones con mejor puntuación para un par de secuencias determinado son sustancialmente similares. Los métodos de estimación de la credibilidad de la alineación para alineaciones de secuencias con huecos están disponibles en la literatura. [34]
La elección de una función de puntuación que refleje observaciones biológicas o estadísticas sobre secuencias conocidas es importante para producir buenos alineamientos. Las secuencias de proteínas se alinean con frecuencia utilizando matrices de sustitución que reflejan las probabilidades de sustituciones dadas entre caracteres. Una serie de matrices llamadas matrices PAM (matrices de mutación puntual aceptada, originalmente definidas por Margaret Dayhoff y a veces denominadas "matrices de Dayhoff") codifican explícitamente aproximaciones evolutivas con respecto a las tasas y probabilidades de mutaciones de aminoácidos particulares. Otra serie común de matrices de puntuación, conocida como BLOSUM (Matriz de sustitución de bloques), codifica probabilidades de sustitución derivadas empíricamente. Se utilizan variantes de ambos tipos de matrices para detectar secuencias con diferentes niveles de divergencia, lo que permite a los usuarios de BLAST o FASTA restringir las búsquedas a coincidencias más estrechamente relacionadas o expandirlas para detectar secuencias más divergentes. Las penalizaciones por brecha representan la introducción de una brecha (en el modelo evolutivo, una mutación de inserción o deleción) tanto en secuencias de nucleótidos como de proteínas y, por lo tanto, los valores de penalización deben ser proporcionales a la tasa esperada de tales mutaciones. La calidad de las alineaciones producidas depende por tanto de la calidad de la función de puntuación.
Puede resultar muy útil e instructivo probar la misma alineación varias veces con diferentes opciones para la matriz de puntuación y/o los valores de penalización de brecha y comparar los resultados. Las regiones donde la solución es débil o no única a menudo se pueden identificar observando qué regiones de la alineación son resistentes a las variaciones en los parámetros de alineación.
El ARN secuenciado, como las etiquetas de secuencia expresadas y los ARNm de longitud completa, se pueden alinear con un genoma secuenciado para encontrar dónde hay genes y obtener información sobre el empalme alternativo [35] y la edición de ARN . [36] La alineación de secuencias también es parte del ensamblaje del genoma , donde las secuencias se alinean para encontrar superposiciones de modo que se puedan formar cóntigos (largos tramos de secuencia). [37] Otro uso es el análisis SNP , donde secuencias de diferentes individuos se alinean para encontrar pares de bases únicos que a menudo son diferentes en una población. [38]
Los métodos utilizados para la alineación de secuencias biológicas también han encontrado aplicaciones en otros campos, sobre todo en el procesamiento del lenguaje natural y en las ciencias sociales , donde el algoritmo Needleman-Wunsch suele denominarse coincidencia óptima . [39] Las técnicas que generan el conjunto de elementos a partir de los cuales se seleccionarán las palabras en los algoritmos de generación de lenguaje natural han tomado prestadas múltiples técnicas de alineación de secuencias de la bioinformática para producir versiones lingüísticas de pruebas matemáticas generadas por computadora . [40] En el campo de la lingüística histórica y comparada , la alineación de secuencias se ha utilizado para automatizar parcialmente el método comparativo mediante el cual los lingüistas tradicionalmente reconstruyen lenguas. [41] La investigación empresarial y de marketing también ha aplicado múltiples técnicas de alineación de secuencias para analizar series de compras a lo largo del tiempo. [42]
Una lista más completa de software disponible categorizado por algoritmo y tipo de alineación está disponible en software de alineación de secuencias , pero las herramientas de software comunes utilizadas para tareas generales de alineación de secuencias incluyen ClustalW2 [43] y T-coffee [44] para alineación, y BLAST [45]. y FASTA3x [46] para búsqueda en bases de datos. También están disponibles herramientas comerciales como DNASTAR Lasergene, Geneious y PatternHunter . Las herramientas anotadas que realizan alineación de secuencia se enumeran en el registro bio.tools.
Los algoritmos y el software de alineación se pueden comparar directamente entre sí utilizando un conjunto estandarizado de alineaciones de secuencias múltiples de referencia conocido como BAliBASE. [47] El conjunto de datos consta de alineamientos estructurales, que pueden considerarse un estándar con el que se comparan métodos puramente basados en secuencias. El rendimiento relativo de muchos métodos de alineación comunes en problemas de alineación encontrados con frecuencia se ha tabulado y los resultados seleccionados se han publicado en línea en BAliBASE. [48] [49] Se puede calcular una lista completa de puntuaciones BAliBASE para muchas (actualmente 12) herramientas de alineación diferentes dentro del banco de trabajo de proteínas STRAP. [50]
{{cite book}}
: |journal=
ignorado ( ayuda ){{cite journal}}
: Citar diario requiere |journal=
( ayuda )