clustal

Clustal es un programa informático utilizado para el alineamiento de secuencias múltiples en bioinformática . ^[2] El software y sus algoritmos han pasado por varias iteraciones, siendo ClustalΩ (Omega) la última versión en 2011 ^[actualizar]. Está disponible como software independiente, a través de una interfaz web y a través de un servidor alojado en el Instituto Europeo de Bioinformática .

Clustal ha sido un importante software bioinformático, con dos de sus publicaciones académicas entre los 100 artículos más citados de todos los tiempos, según Nature en 2014. ^[3]

Historia

Historial de versiones

Clustal : El software original para alineamientos de secuencias múltiples, creado por Des Higgins en 1988, se basaba en la obtención de árboles filogenéticos a partir de secuencias por pares de aminoácidos o nucleótidos . ^[4]
ClustalV : La segunda generación de Clustal, lanzada en 1992. Introdujo la capacidad de crear nuevos alineamientos a partir de alineamientos existentes en un proceso conocido como reconstrucción de árboles filogenéticos. ClustalV también agregó la opción de crear árboles usando el método de unión de vecinos . ^[5]
ClustalW : tercera generación, lanzada en 1994. Mejoró el algoritmo de alineación progresiva, incluidas opciones de ponderación de secuencia basadas en similitud y divergencia . Además, agregó la opción de ejecutar Clustal en modo por lotes desde la línea de comandos . ^[6]
ClustalX : Lanzada en 1997, esta fue la primera versión en tener una interfaz gráfica de usuario. ^[7]
Clustal2 : actualizó ClustalW y ClustalX con mayor precisión y eficiencia en 2007. ^[8]
ClustalΩ (Omega) : la versión actual, lanzada en 2011. ^[9]^[10]

Origen del nombre

El árbol guía en las versiones iniciales de Clustal se construyó mediante un análisis de conglomerados UPGMA de las alineaciones por pares, de ahí el nombre CLUSTAL. ^[11]^cf.^[12] Las primeras cuatro versiones de Clustal fueron numeradas usando números arábigos (1 a 4), mientras que la quinta versión usa el número romano V. ^[11]^cf.^[13]^[5] Las siguientes dos versiones proceden alfabéticamente utilizando el alfabeto latino, con W para ponderado y X para ventana X para representar los cambios introducidos. ^[11]^cf.^[14]^[7] El nombre Omega fue elegido para marcar un cambio con respecto a las iteraciones anteriores. ^[11]

Función

Clustal alinea secuencias utilizando una heurística que construye progresivamente una alineación de secuencia múltiple a partir de un conjunto de alineaciones por pares. Este método funciona analizando las secuencias en su conjunto y utilizando el método UPGMA/unión de vecinos para generar una matriz de distancias . Se calcula un árbol guía a partir de las puntuaciones de las secuencias en la matriz y luego se utiliza para construir la alineación de secuencias múltiples alineando progresivamente las secuencias en orden de similitud. ^[15]

Clustal crea múltiples alineamientos de secuencias a través de tres pasos principales:

Complete una alineación por pares utilizando el método de alineación progresiva.
Cree un árbol guía (o utilice un árbol definido por el usuario).
Utilice el árbol guía para realizar una alineación múltiple.

Estos pasos se llevan a cabo automáticamente mediante la función "Realizar alineación completa". Otras opciones son "Hacer alineación a partir del árbol guía y la filogenia" y "Producir sólo árbol guía".

De entrada y salida

Este programa acepta una amplia gama de formatos de entrada, incluidos NBRF/ PIR , FASTA , EMBL/ Swiss-Prot , Clustal, GCC/MSF, GCG9 RSF y GDE.

El formato de salida puede ser uno o varios de los siguientes: Clustal, NBRF/ PIR , GCG /MSF, PHYLIP , GDE o NEXUS.

Se muestran los mismos símbolos tanto para los alineamientos de ADN / ARN como para los alineamientos de proteínas , por lo que, si bien los símbolos * (asterisco) son útiles para ambos, los otros símbolos de consenso deben ignorarse para los alineamientos de ADN/ARN.

Ajustes

El usuario puede ajustar los parámetros de penalización por apertura de espacio y penalización por extensión de espacio.

Clustal y ClustalV

Breve resumen

El software Clustal original fue desarrollado en 1988 como un método computacional para generar múltiples alineamientos de secuencias en computadoras personales . ClustalV se lanzó 4 años después y mejoró enormemente el software original, agregando y modificando algunas características clave. Fue una reescritura completa, escrita en C en lugar de Fortran .

Algoritmo

Ambas versiones utilizan el mismo algoritmo aproximado rápido para calcular las puntuaciones de similitud entre secuencias, lo que a su vez produce alineamientos por pares. El algoritmo funciona calculando las puntuaciones de similitud como el número de coincidencias de k-tuplas entre dos secuencias, lo que representa una penalización establecida por los espacios. Cuanto más similares sean las secuencias, mayor será la puntuación. Una vez puntuadas las secuencias, se genera un dendrograma a través del UPGMA para generar un ordenamiento del alineamiento de múltiples secuencias. Las secuencias se alinean en orden descendente según el orden establecido. Este algoritmo permite conjuntos de datos muy grandes y es rápido. Sin embargo, la velocidad depende del rango de coincidencias de k-tuplas seleccionadas para el tipo de secuencia particular. ^[dieciséis]

Mejoras notables de ClustalV

Algunas de las adiciones más notables a ClustalV son las alineaciones de perfiles y las opciones completas de interfaz de línea de comandos. La capacidad de utilizar alineaciones de perfil permite al usuario alinear dos o más alineaciones o secuencias anteriores con una nueva alineación y mover secuencias desalineadas (con puntuación baja) más abajo en el orden de alineación. Esto le brinda al usuario la opción de crear gradual y metódicamente múltiples alineaciones de secuencias con más control que la opción básica. ^[15] La opción de ejecutar desde la línea de comando acelera el proceso de alineación de secuencias múltiples. Las secuencias se pueden ejecutar con un comando simple,

 archivo de nombre clustalv . secuencia

 clustalv / infile = nombredearchivo . secuencia

y el programa determinará qué tipo de secuencia está analizando. Cuando se completa el programa, la salida de la alineación de secuencia múltiple, así como el dendrograma, van a archivos con extensiones .aln y .dnd respectivamente. La interfaz de línea de comando utiliza los parámetros predeterminados y no permite otras opciones. ^[dieciséis]

ClustalW

Breve resumen

ClustalW, al igual que otras versiones de Clustal, se utiliza para alinear múltiples secuencias de nucleótidos o proteínas de manera eficiente. Utiliza métodos de alineación progresiva, que priorizan las secuencias para la alineación en función de la similitud hasta que se devuelve una alineación global. ClustalW es un algoritmo basado en matrices , mientras que herramientas como T-Coffee y Dialign se basan en la coherencia . ClustalW es eficiente y competitivo en comparación con software similar. ^{[ cita necesaria ]} Este programa requiere tres o más secuencias para calcular una alineación global. Para la alineación de secuencias binarias, se deben utilizar otras herramientas como EMBOSS o LALIGN.

Algoritmo

ClustalW utiliza algoritmos de alineación progresiva. En estos, las secuencias se alinean en orden de puntuación de alineación de mayor a menor. Esta heurística es necesaria para restringir la complejidad del tiempo y la memoria necesarios para encontrar la solución globalmente óptima .

Primero, el algoritmo calcula una matriz de distancias por pares entre todos los pares de secuencias ( alineamiento de secuencia por pares ). A continuación, un método de unión de vecinos utiliza el enraizamiento de punto medio para crear un árbol guía general. ^[17] A la derecha se ilustra un diagrama de este método. Finalmente, el árbol guía se utiliza como plantilla aproximada para generar una alineación global.

Complejidad del tiempo

ClustalW tiene una complejidad temporal de debido a su uso del método de unión de vecinos. $O(N^{2})$

ClustalW2 agregó una opción para usar UPGMA, que es más rápido para tamaños de entrada grandes. El indicador de línea de comando para usarlo en lugar de unirse a vecinos es:

- agrupación = UPGMA

Como ejemplo aproximado, mientras que la entrada de 10.000 secuencias tardaría más de una hora en unirse al vecino, UPGMA se completaría en menos de un minuto.

ClustalW2 también agregó una precisión de alineación iterativa. Esta opción no aumenta la eficiencia, pero ofrece la posibilidad de aumentar la precisión de la alineación. Esto puede resultar especialmente útil para conjuntos de datos pequeños.

Las siguientes banderas activan la alineación iterativa:

- Iteración = Alineación - Iteración = Árbol - numeradores

La primera opción refina la alineación final. La segunda opción incorpora el esquema en el paso de alineación progresiva. El tercero especifica el número de ciclos de iteración, donde el valor predeterminado se establece en 3. ^[18]

Precisión y resultados

El algoritmo que utiliza ClustalW es casi óptimo. Es más eficaz para conjuntos de datos con un gran grado de variación. En tales conjuntos de datos, el proceso de generación de un árbol guía es menos sensible al ruido. ClustalW fue uno de los primeros algoritmos de alineación de secuencias múltiples que combinó la alineación por pares y la alineación global para aumentar la velocidad, pero esta decisión reduce la precisión de los resultados.

Cuando se compararon múltiples algoritmos de alineación de secuencias en 2014, ClustalW fue uno de los más rápidos y pudo producir resultados con el nivel de precisión deseado. Sin embargo, no era tan preciso como el de competidores basados en la coherencia como T-Coffee. ^[19] De MAFFT, T-Coffee y Clustal Omega, ClustalW tiene la precisión más baja para secuencias completas, pero su precisión aún se considera aceptable. Además, ClustalW fue el algoritmo con mayor eficiencia de memoria de los estudiados. ^[19] Las actualizaciones continuas del software han hecho que ClustalW2 sea más preciso manteniendo esta velocidad. ^[18]

Omega clustal

Breve resumen

ClustalΩ (escrito alternativamente como Clustal O y Clustal Omega ) es un programa rápido y escalable escrito en C y C++ que se utiliza para el alineamiento de secuencias múltiples. Utiliza árboles guía sembrados y un nuevo motor HMM que se centra en dos perfiles para generar estas alineaciones. ^[20]^[21] El programa requiere tres o más secuencias para calcular la alineación de secuencias múltiples . Clustal Omega se basa en la coherencia y es ampliamente visto ^{[ ¿por quién? ]} como una de las implementaciones en línea más rápidas de todas las herramientas de alineación de secuencias múltiples y aún ocupa un lugar destacado en precisión, tanto entre los algoritmos basados en consistencia como en los basados en matrices.

Algoritmo

Clustal Omega tiene cinco pasos principales para generar el alineamiento de secuencias múltiples .

Se produce una alineación por pares utilizando el método k-tupla. Este es un método heurístico que no garantiza encontrar una solución óptima, pero es más eficiente que usar programación dinámica .
Las secuencias se agrupan utilizando el método mBed modificado. ^[22] El método mBed calcula la distancia por pares mediante la incrustación de secuencia.
Se aplica el método de agrupamiento de k-medias .
Se construye un árbol guía utilizando el método UPGMA . En la figura de la derecha, esto se muestra como múltiples pasos del árbol guía que conducen a la construcción final del árbol guía debido a la naturaleza aglomerativa de UPGMA. En cada paso (diamantes en el diagrama de flujo), se combinan los dos grupos más cercanos. Esto se repite hasta que se pueda evaluar un árbol global final.
La alineación final de secuencias múltiples se produce con el paquete HHAlign de HH-Suite utilizando dos HMM de perfil . Un HMM de perfil es una máquina de estados lineal que consta de una serie de nodos, cada uno de los cuales corresponde aproximadamente a una posición (columna) en la alineación a partir de la cual se construyó. ^[23]

Complejidad del tiempo

La complejidad temporal de calcular exactamente una alineación óptima de secuencias de longitud es prohibitiva incluso para un pequeño número de secuencias. Para gestionar esto, Clustal Omega utiliza una versión modificada de mBed que tiene una complejidad de , ^[22]^[24] y produce árboles guía que son tan precisos como los de los métodos convencionales. La velocidad y precisión de los árboles guía en Clustal Omega se atribuyen a la implementación de un algoritmo mBed modificado. También reduce el tiempo de cálculo y los requisitos de memoria para completar alineaciones en grandes conjuntos de datos. $N$ $L$ $O(L^{N})$ $O(N\log N)$

Precisión y resultados

La precisión de Clustal Omega en un pequeño número de secuencias es, en promedio, muy similar a la de los alineadores de secuencias considerados de alta calidad. ^{[ ejemplo necesario ]} En conjuntos de datos extremadamente grandes con cientos de miles de secuencias de entrada, Clustal Omega supera a todos los demás algoritmos en tiempo, memoria y precisión de los resultados. ^[25] Es capaz de ejecutar más de 100.000 secuencias en un procesador en unas pocas horas.

Clustal Omega utiliza el paquete HHAlign de HH-Suite, que alinea dos modelos ocultos de Markov de perfil en lugar de una comparación perfil-perfil. Esto mejora significativamente la calidad de la sensibilidad y la alineación. ^[25] Esto, combinado con el método mBed, le da a Clustal Omega su ventaja sobre otros alineadores de secuencia.

En conjuntos de datos con bases terminales no conservadas, Clustal Omega puede ser más preciso que Probcons o T-Coffee , a pesar de que ambos son algoritmos basados en consistencia. En una prueba de eficiencia con programas que producen puntuaciones de alta precisión, MAFFT fue el más rápido, seguido de cerca por Clustal Omega. Ambos eran más rápidos que T-Coffee, sin embargo MAFFT y Clustal Omega requerían más memoria para ejecutarse. ^[19]

Clustal2 (ClustalW/ClustalX)

Clustal2 es la versión empaquetada tanto de ClustalW de línea de comandos como de Clustal X gráfico. Ninguna de las dos son herramientas nuevas, pero son versiones actualizadas y mejoradas de las implementaciones anteriores vistas anteriormente. Ambas descargas vienen precompiladas para muchos sistemas operativos como Linux, Mac OS X y Windows (tanto XP como Vista). Esta versión fue diseñada para hacer que el sitio web sea más organizado y fácil de usar, así como para actualizar los códigos fuente a sus versiones más recientes. Clustal2 es la versión 2 de ClustalW y ClustalX, de ahí su nombre. Todavía se pueden encontrar versiones anteriores en el sitio web; sin embargo, todas las precompilaciones ahora están actualizadas.

Ver también

Referencias

↑ Ver archivo COPIANDO, en archivo fuente [1] Archivado el 12 de junio de 2021 en Wayback Machine . Consultado el 15 de enero de 2014.
^ Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ , Higgins DG , Thompson JD (julio de 2003). "Alineación de secuencias múltiples con la serie de programas Clustal". Investigación de ácidos nucleicos . 31 (13): 3497–500. doi :10.1093/nar/gkg500. PMC 168907 . PMID 12824352.
^ Van Noorden R, Maher B, Nuzzo R (octubre de 2014). "Los 100 artículos principales". Naturaleza . 514 (7524): 550–3. Código Bib :2014Natur.514..550V. doi : 10.1038/514550a . PMID 25355343.
^ Higgins DG, Sharp PM (diciembre de 1988). "CLUSTAL: un paquete para realizar alineación de secuencias múltiples en una microcomputadora". Gen. 73 (1): 237–44. doi :10.1016/0378-1119(88)90330-7. PMID 3243435.
^ ab Higgins DG, Bleasby AJ, Fuchs R (abril de 1992). "CLUSTAL V: software mejorado para alineación de secuencias múltiples". Aplicaciones Informáticas en las Biociencias . 8 (2): 189–91. doi :10.1093/bioinformática/8.2.189. PMID 1591615.
^ Thompson, JD; Higgins, director general; Gibson, TJ (11 de noviembre de 1994). "CLUSTAL W: mejora de la sensibilidad de la alineación progresiva de múltiples secuencias mediante ponderación de secuencia, penalizaciones de espacios específicos de la posición y elección de matriz de ponderación". Investigación de ácidos nucleicos . 22 (22): 4673–4680. doi : 10.1093/nar/22.22.4673. ISSN 0305-1048. PMC 308517 . PMID 7984417.
^ ab Thompson JD, Gibson TJ , Plewniak F, Jeanmougin F, Higgins DG (diciembre de 1997). "La interfaz de Windows CLUSTAL_X: estrategias flexibles para la alineación de secuencias múltiples con la ayuda de herramientas de análisis de calidad". Investigación de ácidos nucleicos . 25 (24): 4876–82. doi : 10.1093/nar/25.24.4876. PMC 147148 . PMID 9396791.
^ Cena, David. "Alineación de secuencias múltiples de Clustal W y Clustal X". www.clustal.org . Archivado desde el original el 16 de abril de 2018 . Consultado el 24 de abril de 2018 .
^ Sievers F, Higgins DG (1 de enero de 2014). "Clustal Omega, alineación precisa de un gran número de secuencias". En Russell DJ (ed.). Métodos de alineación de secuencias múltiples . Métodos en biología molecular. vol. 1079. Prensa Humana. págs. 105-116. doi :10.1007/978-1-62703-646-7_6. ISBN 9781627036450. PMID 24170397.
^ Sievers F, Higgins DG (1 de enero de 2002). Omega clustal . vol. 48. John Wiley & Sons, Inc. págs. 3.13.1–16. doi :10.1002/0471250953.bi0313s48. ISBN 9780471250951. PMID 25501942. S2CID 1762688. {{cite book}}: |journal=ignorado ( ayuda )
^ abcd Des Higgins, presentación en la conferencia SMBE 2012 en Dublín.
^ Higgins DG, Sharp PM (diciembre de 1988). "CLUSTAL: un paquete para realizar alineación de secuencias múltiples en una microcomputadora". Gen. 73 (1): 237–44. doi :10.1016/0378-1119(88)90330-7. PMID 3243435.
^ Higgins DG, Sharp PM (abril de 1989). "Alineamientos de secuencias múltiples rápidos y sensibles en una microcomputadora". Aplicaciones Informáticas en las Biociencias . 5 (2): 151–3. doi :10.1093/bioinformática/5.2.151. PMID 2720464.
^ Thompson JD, Higgins DG, Gibson TJ (noviembre de 1994). "CLUSTAL W: mejora de la sensibilidad de la alineación progresiva de múltiples secuencias mediante ponderación de secuencia, penalizaciones de espacios específicos de la posición y elección de matriz de ponderación". Investigación de ácidos nucleicos . 22 (22): 4673–80. doi : 10.1093/nar/22.22.4673. PMC 308517 . PMID 7984417.
^ ab "Algoritmo CLUSTAL W". Archivado desde el original el 1 de diciembre de 2016 . Consultado el 24 de abril de 2018 .
^ ab Higgins, Des (junio de 1991). "Alineaciones de secuencias múltiples de Clustal V. Documentación (instalación y uso)". www.aua.gr. Archivado desde el original el 12 de abril de 2023 . Consultado el 27 de agosto de 2022 .
^ "Acerca de CLUSTALW". www.megasoftware.net . Archivado desde el original el 24 de abril de 2018 . Consultado el 24 de abril de 2018 .
^ ab Larkin, MA; Escudos negros, G.; Marrón, NP; Chenna, R.; McGettigan, Pensilvania; McWilliam, H.; Valentín, F.; Wallace, IM; Wilm, A. (10 de septiembre de 2007). "Clustal W y Clustal X versión 2.0". Bioinformática . 23 (21): 2947–2948. doi : 10.1093/bioinformática/btm404 . ISSN 1367-4803. PMID 17846036.
^ abc Pais FS, Ruy PC, Oliveira G, Coimbra RS (marzo de 2014). "Evaluación de la eficacia de múltiples programas de alineación de secuencias". Algoritmos para Biología Molecular . 9 (1): 4. doi : 10.1186/1748-7188-9-4 . PMC 4015676 . PMID 24602402.
^ EMBL-EBI. "Clustal Omega <Alineación de secuencias múltiples <EMBL-EBI". www.ebi.ac.uk. Archivado desde el original el 29 de abril de 2018 . Consultado el 18 de abril de 2018 .
^ Cena, David. "Alineación de secuencias múltiples de Clustal Omega, ClustalW y ClustalX". www.clustal.org . Archivado desde el original el 29 de mayo de 2010 . Consultado el 18 de abril de 2018 .
^ ab Blackshields G, Sievers F, Shi W, Wilm A, Higgins DG (mayo de 2010). "Incrustación de secuencias para la construcción rápida de árboles guía para alineación de secuencias múltiples". Algoritmos para Biología Molecular . 5 : 21. doi : 10.1186/1748-7188-5-21 . PMC 2893182 . PMID 20470396.
^ "Análisis de perfil HMM". www.biología.wustl.edu . Archivado desde el original el 24 de julio de 2019 . Consultado el 1 de mayo de 2018 .
^ Sievers F, Wilm A, Dineen D, Gibson TJ, Karplus K, Li W, Lopez R, McWilliam H, Remmert M, Söding J, Thompson JD, Higgins DG (octubre de 2011). "Generación rápida y escalable de alineamientos de secuencias múltiples de proteínas de alta calidad utilizando Clustal Omega". Biología de sistemas moleculares . 7 (1): 539. doi : 10.1038/msb.2011.75. PMC 3261699 . PMID 21988835.
^ ab Daugelaite J, O'Driscoll A, Sleator RD (2013). "Una descripción general de múltiples alineaciones de secuencias y computación en la nube en bioinformática". Biomatemáticas ISRN . 2013 : 1-14. doi : 10.1155/2013/615630 . ISSN 2090-7702.

enlaces externos

Página de inicio de Clustal (descarga gratuita para Unix/Linux, Mac y Windows)
Espejo Clustal Omega en la EBI