T-Coffee ( Función objetiva de consistencia basada en árboles para la evaluación de alineación ) es un software de alineación de secuencias múltiples que utiliza un enfoque progresivo. [1] Genera una biblioteca de alineamientos por pares para guiar el alineamiento de secuencias múltiples. También puede combinar múltiples alineamientos de secuencias obtenidas previamente y en las últimas versiones puede utilizar información estructural de archivos PDB (3D-Coffee). Tiene funciones avanzadas para evaluar la calidad de las alineaciones y cierta capacidad para identificar la aparición de motivos (Mocca). Produce alineación en el formato aln ( Clustal ) de forma predeterminada, pero también puede producir formato PIR, MSF y FASTA . Se admiten los formatos de entrada más comunes ( FASTA , PIR ).
Algoritmo
El algoritmo T-Coffee consta de dos características principales: la primera, al utilizar fuentes de datos heterogéneas, puede proporcionar medios simples y flexibles para generar múltiples alineaciones. T-coffee puede calcular múltiples alineaciones utilizando una biblioteca que se generó utilizando una combinación de alineaciones por pares locales y globales. [1]
El segundo es el "método de optimización", que se utiliza para encontrar la alineación múltiple que mejor se ajuste a las alineaciones por pares en la biblioteca de entrada utilizando una estrategia progresiva que se puede comparar con la utilizada en ClustalW . El método de optimización tiene la ventaja de ser rápido y robusto. La información de la biblioteca se utiliza para realizar alineamientos progresivos y facilita la tarea de considerar los alineamientos entre todos los pares mientras se realiza cada paso de los alineamientos múltiples progresivos. [1]
Generando una biblioteca primaria de alineaciones
La biblioteca incorpora un conjunto de alineamientos por pares entre todas las secuencias que se van a alinear; no es necesario que los alineamientos sean consistentes. Dentro de la biblioteca se puede encontrar información de cada una de ellas, N(N-1)/2
donde N es el número de secuencias. Se utilizan dos fuentes de alineamiento para cada par de secuencias, una de ellas clasificada como local y la otra como global. [1]
Las alineaciones globales se construyen utilizando ClustalW en las secuencias, dos a la vez, y se seden para dar una alineación completa entre cada par de secuencias. Las alineaciones locales son las diez alineaciones locales que no se cruzan con mayor puntuación recopiladas utilizando el programa Lalign del paquete FASTA . [1]
Cada alineación se representa en la biblioteca como una lista de coincidencias de residuos por pares, cada par es una restricción; sin embargo, algunas limitaciones son más relevantes que otras. la importancia de cada restricción depende de cuáles tienen más probabilidades de ser correctas. Al calcular las múltiples alineaciones, se da prioridad a los pares de residuos más fiables mediante la utilización de un esquema de ponderación. [1]
Combinación de las bibliotecas.
La combinación eficiente de información de alineación local y global es un factor importante de T-Coffee. Al utilizar las bibliotecas primarias ClustalW y Lalign, se puede lograr mediante un proceso de adición. Cualquier par duplicado entre ambas bibliotecas se fusiona en una única entrada con el peso de la suma total de ambos pares. De lo contrario, se crea una nueva entrada para el par. No se representarán los pares con peso cero. [1] Para cada par de residuos alineados en la biblioteca, es posible asignar un peso que pertenece al grado en que esos residuos se alinean consistentemente. Esto se llama extensión de biblioteca.
Comparaciones con otro software de alineación
Si bien la salida predeterminada es un formato similar a Clustal, es lo suficientemente diferente de la salida de ClustalW/X que muchos programas que soportan el formato Clustal no pueden leerlo; Afortunadamente, ClustalX puede importar la salida de T-Coffee, por lo que la solución más sencilla para este problema suele ser importar la salida de T-Coffee a ClustalX y luego volver a exportarla. Otra posibilidad es solicitar el formato de salida estricto de Clustalw con la opción " -output=clustalw_aln
".
Una especificidad importante de T-Coffee es su capacidad para combinar diferentes métodos y diferentes tipos de datos. En su última versión, T-Coffee se puede utilizar para combinar secuencias y estructuras de proteínas, secuencias y estructuras de ARN. También puede ejecutar y combinar la salida de los paquetes de alineación de estructuras y secuencias más comunes.
T-Coffee viene con una sofisticada utilidad de reformateo de secuencias llamada seq_reformat. Una extensa documentación está disponible en línea.
Variaciones
- M-Coffee: un modo especial de T-Coffee que permite combinar la salida de los paquetes de alineación de secuencias múltiples más comunes (Muscle, ClustalW, Mafft, ProbCons, etc.). Las alineaciones resultantes son ligeramente mejores que las individuales, pero lo más importante es que el programa indica las regiones de alineación en las que coinciden los distintos paquetes. Las regiones con un alto acuerdo suelen estar bien alineadas. [2]
- Expresso y 3D-Coffee: son modos especiales de T-Coffee que permiten combinar secuencias y estructuras en una alineación. Las alineaciones basadas en estructuras se pueden realizar utilizando los alineadores estructurales más comunes, como TMalign, Mustang y sap. [3] [4] [5] [6]
- R-Coffee: un modo especial de T-Coffee que permite alinear secuencias de ARN mientras se utiliza información de estructura secundaria. [7] [8]
- PSI-Coffee: alinea proteínas lejanamente relacionadas mediante extensión de homología (lenta y precisa) [9] [10]
- TM-Coffee: alinea proteínas transmembrana mediante extensión de homología [11]
- Pro-Coffee: alinea regiones promotoras homólogas [12]
- Preciso: combine automáticamente los modos más precisos para ADN, ARN y proteínas (experimental). [13]
- Combinar: combina dos (o más) alineamientos de secuencias múltiples en uno solo. [1] [9]
Evaluación
( T ransitive C onsistency Score ) es una versión ampliada del esquema de puntuación T-Coffee. [14] Utiliza bibliotecas T-Coffee de alineaciones por pares para evaluar cualquier MSA de terceros. Las proyecciones por pares se pueden producir utilizando métodos rápidos o lentos, permitiendo así un equilibrio entre velocidad y precisión. Se ha demostrado que TCS conduce a estimaciones significativamente mejores de precisión estructural y árboles filogenéticos más precisos frente a Heads-or-Tails, GUIDANCE, Gblocks y trimAl. [15]
Ver también
Referencias
- ^ abcdefgh Notredame C, Higgins DG , Heringa J (8 de septiembre de 2000). "T-Coffee: un método novedoso para la alineación de secuencias múltiples rápida y precisa". J Mol Biol . 302 (1): 205–217. doi :10.1006/jmbi.2000.4042. PMID 10964570. S2CID 10189971.
{{cite journal}}
: Mantenimiento CS1: varios nombres: lista de autores ( enlace ) - ^ Wallace, Iain M.; O'Sullivan, Orla; Higgins, Desmond G.; Notredame, Cedric (2006). "M-Coffee: combinación de múltiples métodos de alineación de secuencias con T-Coffee". Investigación de ácidos nucleicos . 34 (6): 1692–1699. doi : 10.1093/nar/gkl091. ISSN 1362-4962. PMC 1410914 . PMID 16556910.
- ^ Armougom, Fabrice; Moretti, Sébastien; Poirot, Olivier; Audic, Stéphane; Dumas, Pedro; Schaeli, Basile; Keduas, Vladimir; Notredame, Cedric (1 de julio de 2006). "Expresso: incorporación automática de información estructural en múltiples alineamientos de secuencias utilizando 3D-Coffee". Investigación de ácidos nucleicos . 34 (problema del servidor web): W604–608. doi : 10.1093/nar/gkl092. ISSN 1362-4962. PMC 1538866 . PMID 16845081.
- ^ Zhang, Yang; Skolnick, Jeffrey (2005). "TM-align: un algoritmo de alineación de la estructura de proteínas basado en la puntuación de TM". Investigación de ácidos nucleicos . 33 (7): 2302–2309. doi : 10.1093/nar/gki524. ISSN 1362-4962. PMC 1084323 . PMID 15849316.
- ^ Konagurthu, Arun S.; Whisstock, James C.; Stuckey, Peter J.; Lesk, Arthur M. (15 de agosto de 2006). "MUSTANG: un algoritmo de alineación estructural múltiple". Proteínas . 64 (3): 559–574. doi :10.1002/prot.20921. ISSN 1097-0134. PMID 16736488. S2CID 14074658.
- ^ Sol, Zheng; Tian, Weidong (2012). "SAP: un programa de análisis y mapeo de secuencias para alineación de lecturas de secuencias largas y descubrimiento preciso de variantes". MÁS UNO . 7 (8): e42887. Código Bib : 2012PLoSO...742887S. doi : 10.1371/journal.pone.0042887 . ISSN 1932-6203. PMC 3413671 . PMID 22880129.
- ^ Wilm, Andrés; Higgins, Desmond G.; Notredame, Cédric (mayo de 2008). "R-Coffee: un método para la alineación múltiple de ARN no codificante". Investigación de ácidos nucleicos . 36 (9): e52. doi : 10.1093/nar/gkn174. ISSN 1362-4962. PMC 2396437 . PMID 18420654.
- ^ Moretti, Sébastien; Wilm, Andrés; Higgins, Desmond G.; Xenarios, Ioannis; Notredame, Cédric (1 de julio de 2008). "R-Coffee: un servidor web para alinear con precisión secuencias de ARN no codificantes". Investigación de ácidos nucleicos . 36 (problema del servidor web): W10–13. doi : 10.1093/nar/gkn278. ISSN 1362-4962. PMC 2447777 . PMID 18483080.
- ^ ab Di Tommaso P, Moretti S, Xenarios I, Orobitg M, Montanyola A, Chang JM, Taly JF, Notredame C (julio de 2011). "T-Coffee: un servidor web para el alineamiento de múltiples secuencias de proteínas y ARN utilizando información estructural y extensión de homología". Ácidos nucleicos Res . 39 (problema del servidor web): W13–7. doi :10.1093/nar/gkr245. PMC 3125728 . PMID 21558174.
- ^ Kemena C, Notredame C (1 de octubre de 2009). "Próximos desafíos para los métodos de alineación de secuencias múltiples en la era del alto rendimiento". Bioinformática . 25 (19): 2455–65. doi : 10.1093/bioinformática/btp452. PMC 2752613 . PMID 19648142.
- ^ Chang JM, Di Tommaso P, Taly JF, Notredame C (28 de marzo de 2012). "Alineación precisa de secuencias múltiples de proteínas transmembrana con PSI-Coffee". Bioinformática BMC . 13 : T1. doi : 10.1186/1471-2105-13-S4-S1 . PMC 3303701 . PMID 22536955.
- ^ Erb I, González-Vallinas JR, Bussotti G, Blanco E, Eyras E, Notredame C (abril de 2012). "Uso de datos de ChIP-Seq para el diseño de un método de alineación de promotores múltiples". Ácidos nucleicos Res . 40 (7): e52. doi : 10.1093/nar/gkr1292. PMC 3326335 . PMID 22230796.
- ^ "Servidor de café T". tcoffee.crg.eu . Consultado el 26 de diciembre de 2023 .
- ^ Chang, JM; Di Tommaso, P; Lefort, V; Gascuel, O; Notredame, C (1 de julio de 2015). "TCS: un servidor web para evaluación de alineación de secuencias múltiples y reconstrucción filogenética". Investigación de ácidos nucleicos . 43 (G1): G3-6. doi :10.1093/nar/gkv310. PMC 4489230 . PMID 25855806.
- ^ Chang, JM; Di Tommaso, P; Notredame, C (junio de 2014). "TCS: una nueva medida de confiabilidad de alineación de secuencias múltiples para estimar la precisión de la alineación y mejorar la reconstrucción del árbol filogenético". Biología Molecular y Evolución . 31 (6): 1625–37. doi : 10.1093/molbev/msu117 . PMID 24694831.
enlaces externos
- Página web oficial
- Servidor alineador T-Coffee
- Página de descarga de T-Coffee
- Documentación técnica
- Tutorial
- Lista de alineadores de terceros compatibles con T-Coffee
- T-café Papeles originales