stringtranslate.com

T-café

T-Coffee ( Función objetiva de consistencia basada en árboles para la evaluación de alineación ) es un software de alineación de secuencias múltiples que utiliza un enfoque progresivo. [1] Genera una biblioteca de alineamientos por pares para guiar el alineamiento de secuencias múltiples. También puede combinar múltiples alineamientos de secuencias obtenidas previamente y en las últimas versiones puede utilizar información estructural de archivos PDB (3D-Coffee). Tiene funciones avanzadas para evaluar la calidad de las alineaciones y cierta capacidad para identificar la aparición de motivos (Mocca). Produce alineación en el formato aln ( Clustal ) de forma predeterminada, pero también puede producir formato PIR, MSF y FASTA . Se admiten los formatos de entrada más comunes ( FASTA , PIR ).

Algoritmo

El algoritmo T-Coffee consta de dos características principales: la primera, al utilizar fuentes de datos heterogéneas, puede proporcionar medios simples y flexibles para generar múltiples alineaciones. T-coffee puede calcular múltiples alineaciones utilizando una biblioteca que se generó utilizando una combinación de alineaciones por pares locales y globales. [1]

El segundo es el "método de optimización", que se utiliza para encontrar la alineación múltiple que mejor se ajuste a las alineaciones por pares en la biblioteca de entrada utilizando una estrategia progresiva que se puede comparar con la utilizada en ClustalW . El método de optimización tiene la ventaja de ser rápido y robusto. La información de la biblioteca se utiliza para realizar alineamientos progresivos y facilita la tarea de considerar los alineamientos entre todos los pares mientras se realiza cada paso de los alineamientos múltiples progresivos. [1]

Generando una biblioteca primaria de alineaciones

La biblioteca incorpora un conjunto de alineamientos por pares entre todas las secuencias que se van a alinear; no es necesario que los alineamientos sean consistentes. Dentro de la biblioteca se puede encontrar información de cada una de ellas, N(N-1)/2donde N es el número de secuencias. Se utilizan dos fuentes de alineamiento para cada par de secuencias, una de ellas clasificada como local y la otra como global. [1]

Las alineaciones globales se construyen utilizando ClustalW en las secuencias, dos a la vez, y se seden para dar una alineación completa entre cada par de secuencias. Las alineaciones locales son las diez alineaciones locales que no se cruzan con mayor puntuación recopiladas utilizando el programa Lalign del paquete FASTA . [1]

Cada alineación se representa en la biblioteca como una lista de coincidencias de residuos por pares, cada par es una restricción; sin embargo, algunas limitaciones son más relevantes que otras. la importancia de cada restricción depende de cuáles tienen más probabilidades de ser correctas. Al calcular las múltiples alineaciones, se da prioridad a los pares de residuos más fiables mediante la utilización de un esquema de ponderación. [1]

Combinación de las bibliotecas.

La combinación eficiente de información de alineación local y global es un factor importante de T-Coffee. Al utilizar las bibliotecas primarias ClustalW y Lalign, se puede lograr mediante un proceso de adición. Cualquier par duplicado entre ambas bibliotecas se fusiona en una única entrada con el peso de la suma total de ambos pares. De lo contrario, se crea una nueva entrada para el par. No se representarán los pares con peso cero. [1] Para cada par de residuos alineados en la biblioteca, es posible asignar un peso que pertenece al grado en que esos residuos se alinean consistentemente. Esto se llama extensión de biblioteca.

Comparaciones con otro software de alineación

Si bien la salida predeterminada es un formato similar a Clustal, es lo suficientemente diferente de la salida de ClustalW/X que muchos programas que soportan el formato Clustal no pueden leerlo; Afortunadamente, ClustalX puede importar la salida de T-Coffee, por lo que la solución más sencilla para este problema suele ser importar la salida de T-Coffee a ClustalX y luego volver a exportarla. Otra posibilidad es solicitar el formato de salida estricto de Clustalw con la opción " -output=clustalw_aln".

Una especificidad importante de T-Coffee es su capacidad para combinar diferentes métodos y diferentes tipos de datos. En su última versión, T-Coffee se puede utilizar para combinar secuencias y estructuras de proteínas, secuencias y estructuras de ARN. También puede ejecutar y combinar la salida de los paquetes de alineación de estructuras y secuencias más comunes.

T-Coffee viene con una sofisticada utilidad de reformateo de secuencias llamada seq_reformat. Una extensa documentación está disponible en línea.

Variaciones

Evaluación

( T ransitive C onsistency Score ) es una versión ampliada del esquema de puntuación T-Coffee. [14] Utiliza bibliotecas T-Coffee de alineaciones por pares para evaluar cualquier MSA de terceros. Las proyecciones por pares se pueden producir utilizando métodos rápidos o lentos, permitiendo así un equilibrio entre velocidad y precisión. Se ha demostrado que TCS conduce a estimaciones significativamente mejores de precisión estructural y árboles filogenéticos más precisos frente a Heads-or-Tails, GUIDANCE, Gblocks y trimAl. [15]

Ver también

Referencias

  1. ^ abcdefgh Notredame C, Higgins DG , Heringa J (8 de septiembre de 2000). "T-Coffee: un método novedoso para la alineación de secuencias múltiples rápida y precisa". J Mol Biol . 302 (1): 205–217. doi :10.1006/jmbi.2000.4042. PMID  10964570. S2CID  10189971.{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  2. ^ Wallace, Iain M.; O'Sullivan, Orla; Higgins, Desmond G.; Notredame, Cedric (2006). "M-Coffee: combinación de múltiples métodos de alineación de secuencias con T-Coffee". Investigación de ácidos nucleicos . 34 (6): 1692–1699. doi : 10.1093/nar/gkl091. ISSN  1362-4962. PMC 1410914 . PMID  16556910. 
  3. ^ Armougom, Fabrice; Moretti, Sébastien; Poirot, Olivier; Audic, Stéphane; Dumas, Pedro; Schaeli, Basile; Keduas, Vladimir; Notredame, Cedric (1 de julio de 2006). "Expresso: incorporación automática de información estructural en múltiples alineamientos de secuencias utilizando 3D-Coffee". Investigación de ácidos nucleicos . 34 (problema del servidor web): W604–608. doi : 10.1093/nar/gkl092. ISSN  1362-4962. PMC 1538866 . PMID  16845081. 
  4. ^ Zhang, Yang; Skolnick, Jeffrey (2005). "TM-align: un algoritmo de alineación de la estructura de proteínas basado en la puntuación de TM". Investigación de ácidos nucleicos . 33 (7): 2302–2309. doi : 10.1093/nar/gki524. ISSN  1362-4962. PMC 1084323 . PMID  15849316. 
  5. ^ Konagurthu, Arun S.; Whisstock, James C.; Stuckey, Peter J.; Lesk, Arthur M. (15 de agosto de 2006). "MUSTANG: un algoritmo de alineación estructural múltiple". Proteínas . 64 (3): 559–574. doi :10.1002/prot.20921. ISSN  1097-0134. PMID  16736488. S2CID  14074658.
  6. ^ Sol, Zheng; Tian, ​​Weidong (2012). "SAP: un programa de análisis y mapeo de secuencias para alineación de lecturas de secuencias largas y descubrimiento preciso de variantes". MÁS UNO . 7 (8): e42887. Código Bib : 2012PLoSO...742887S. doi : 10.1371/journal.pone.0042887 . ISSN  1932-6203. PMC 3413671 . PMID  22880129. 
  7. ^ Wilm, Andrés; Higgins, Desmond G.; Notredame, Cédric (mayo de 2008). "R-Coffee: un método para la alineación múltiple de ARN no codificante". Investigación de ácidos nucleicos . 36 (9): e52. doi : 10.1093/nar/gkn174. ISSN  1362-4962. PMC 2396437 . PMID  18420654. 
  8. ^ Moretti, Sébastien; Wilm, Andrés; Higgins, Desmond G.; Xenarios, Ioannis; Notredame, Cédric (1 de julio de 2008). "R-Coffee: un servidor web para alinear con precisión secuencias de ARN no codificantes". Investigación de ácidos nucleicos . 36 (problema del servidor web): W10–13. doi : 10.1093/nar/gkn278. ISSN  1362-4962. PMC 2447777 . PMID  18483080. 
  9. ^ ab Di Tommaso P, Moretti S, Xenarios I, Orobitg M, Montanyola A, Chang JM, Taly JF, Notredame C (julio de 2011). "T-Coffee: un servidor web para el alineamiento de múltiples secuencias de proteínas y ARN utilizando información estructural y extensión de homología". Ácidos nucleicos Res . 39 (problema del servidor web): W13–7. doi :10.1093/nar/gkr245. PMC 3125728 . PMID  21558174. 
  10. ^ Kemena C, Notredame C (1 de octubre de 2009). "Próximos desafíos para los métodos de alineación de secuencias múltiples en la era del alto rendimiento". Bioinformática . 25 (19): 2455–65. doi : 10.1093/bioinformática/btp452. PMC 2752613 . PMID  19648142. 
  11. ^ Chang JM, Di Tommaso P, Taly JF, Notredame C (28 de marzo de 2012). "Alineación precisa de secuencias múltiples de proteínas transmembrana con PSI-Coffee". Bioinformática BMC . 13 : T1. doi : 10.1186/1471-2105-13-S4-S1 . PMC 3303701 . PMID  22536955. 
  12. ^ Erb I, González-Vallinas JR, Bussotti G, Blanco E, Eyras E, Notredame C (abril de 2012). "Uso de datos de ChIP-Seq para el diseño de un método de alineación de promotores múltiples". Ácidos nucleicos Res . 40 (7): e52. doi : 10.1093/nar/gkr1292. PMC 3326335 . PMID  22230796. 
  13. ^ "Servidor de café T". tcoffee.crg.eu . Consultado el 26 de diciembre de 2023 .
  14. ^ Chang, JM; Di Tommaso, P; Lefort, V; Gascuel, O; Notredame, C (1 de julio de 2015). "TCS: un servidor web para evaluación de alineación de secuencias múltiples y reconstrucción filogenética". Investigación de ácidos nucleicos . 43 (G1): G3-6. doi :10.1093/nar/gkv310. PMC 4489230 . PMID  25855806. 
  15. ^ Chang, JM; Di Tommaso, P; Notredame, C (junio de 2014). "TCS: una nueva medida de confiabilidad de alineación de secuencias múltiples para estimar la precisión de la alineación y mejorar la reconstrucción del árbol filogenético". Biología Molecular y Evolución . 31 (6): 1625–37. doi : 10.1093/molbev/msu117 . PMID  24694831.

enlaces externos