Clustal

Clustal es un programa informático utilizado para el alineamiento de secuencias múltiples en bioinformática . ^[2] El software y sus algoritmos han pasado por varias iteraciones, siendo ClustalΩ (Omega) la última versión de 2011. ^[actualizar]Está disponible como software independiente, a través de una interfaz web y a través de un servidor alojado por el Instituto Europeo de Bioinformática .

Clustal ha sido un importante software bioinformático, con dos de sus publicaciones académicas entre los 100 artículos más citados de todos los tiempos, según Nature en 2014. ^[3]

Historia

Historial de versiones

Clustal : el software original para alineaciones de secuencias múltiples, creado por Des Higgins en 1988, se basaba en la derivación de árboles filogenéticos a partir de secuencias por pares de aminoácidos o nucleótidos . ^[4]
ClustalV : la segunda generación de Clustal, lanzada en 1992. Introdujo la capacidad de crear nuevas alineaciones a partir de alineaciones existentes en un proceso conocido como reconstrucción de árboles filogenéticos. ClustalV también agregó la opción de crear árboles utilizando el método de unión de vecinos . ^[5]
ClustalW : La tercera generación, lanzada en 1994. Mejoró el algoritmo de alineación progresiva, incluyendo opciones de ponderación de secuencias basadas en similitud y divergencia . Además, agregó la opción de ejecutar Clustal en modo por lotes desde la línea de comandos . ^[6]
ClustalX : Lanzada en 1997, esta fue la primera versión que tuvo una interfaz gráfica de usuario. ^[7]
Clustal2 : Esta versión actualizó tanto ClustalW como ClustalX con mayor precisión y eficiencia en 2007. ^[8]
ClustalΩ (Omega) : La versión actual, lanzada en 2011. ^[9]^[10]

Origen del nombre

El árbol guía en las versiones iniciales de Clustal se construyó a través de un análisis de clúster UPGMA de las alineaciones por pares, de ahí el nombre CLUSTAL. ^[11]^cf.^[12] Las primeras cuatro versiones de Clustal se numeraron utilizando números arábigos (del 1 al 4), mientras que la quinta versión utiliza el número romano V. ^[11]^cf.^[13]^[5] Las dos versiones siguientes proceden alfabéticamente utilizando el alfabeto latino, con W representando ponderado y X para X Window para representar los cambios introducidos. ^[11]^cf.^[14]^[7] El nombre Omega fue elegido para marcar un cambio con respecto a las iteraciones anteriores. ^[11]

Función

Clustal alinea secuencias utilizando una heurística que construye progresivamente una alineación de secuencias múltiples a partir de un conjunto de alineaciones por pares. Este método funciona analizando las secuencias como un todo y utilizando el método UPGMA/unión de vecinos para generar una matriz de distancia . Se calcula un árbol guía a partir de las puntuaciones de las secuencias en la matriz, que luego se utiliza para construir la alineación de secuencias múltiples alineando progresivamente las secuencias en orden de similitud. ^[15]

Clustal crea múltiples alineaciones de secuencias a través de tres pasos principales:

Complete una alineación por pares utilizando el método de alineación progresiva.
Cree un árbol guía (o utilice un árbol definido por el usuario).
Utilice el árbol guía para realizar una alineación múltiple.

Estos pasos se llevan a cabo automáticamente mediante la función "Realizar alineación completa". Otras opciones son "Realizar alineación a partir del árbol guía y la filogenia" y "Producir solo el árbol guía".

Entrada/Salida

Este programa acepta una amplia gama de formatos de entrada, incluidos NBRF/ PIR , FASTA , EMBL/ Swiss-Prot , Clustal, GCC/MSF, GCG9 RSF y GDE.

El formato de salida puede ser uno o muchos de los siguientes: Clustal, NBRF/ PIR , GCG /MSF, PHYLIP , GDE o NEXUS.

Se muestran los mismos símbolos para las alineaciones de ADN / ARN y de proteínas , por lo que, si bien los símbolos * (asterisco) son útiles para ambos, los demás símbolos de consenso deben ignorarse para las alineaciones de ADN/ARN.

Ajustes

El usuario puede ajustar los parámetros de penalización por apertura de espacio y penalización por extensión de espacio.

Clustal y ClustalV

Breve resumen

El software Clustal original se desarrolló en 1988 como un método computacional para generar alineaciones de secuencias múltiples en computadoras personales . ClustalV se lanzó cuatro años después y mejoró en gran medida el software original, agregando y modificando algunas características clave. Fue una reescritura completa, escrita en C en lugar de Fortran .

Algoritmo

Ambas versiones utilizan el mismo algoritmo rápido aproximado para calcular las puntuaciones de similitud entre secuencias, lo que a su vez produce las alineaciones por pares. El algoritmo funciona calculando las puntuaciones de similitud como el número de coincidencias de k-tuplas entre dos secuencias, teniendo en cuenta una penalización establecida por los espacios. Cuanto más similares sean las secuencias, mayor será la puntuación. Una vez que se puntúan las secuencias, se genera un dendrograma a través de UPGMA para generar un ordenamiento de la alineación de secuencias múltiples. Las secuencias se alinean en orden descendente por orden establecido. Este algoritmo permite conjuntos de datos muy grandes y es rápido. Sin embargo, la velocidad depende del rango de coincidencias de k-tuplas seleccionadas para el tipo de secuencia en particular. ^[16]

Mejoras notables de ClustalV

Algunas de las adiciones más notables en ClustalV son las alineaciones de perfiles y las opciones de interfaz de línea de comandos completa. La capacidad de usar alineaciones de perfiles permite al usuario alinear dos o más alineaciones o secuencias anteriores con una nueva alineación y mover secuencias desalineadas (con baja puntuación) más abajo en el orden de alineación. Esto le da al usuario la opción de crear de manera gradual y metódica múltiples alineaciones de secuencias con más control que la opción básica. ^[15] La opción de ejecutar desde la línea de comandos acelera el proceso de alineación de secuencias múltiples. Las secuencias se pueden ejecutar con un comando simple,

 clustalv nombredearchivo.seq

 clustalv / infile = nombredelarchivo.seq

y el programa determinará qué tipo de secuencia está analizando. Cuando el programa se completa, la salida de la alineación de secuencias múltiples así como el dendrograma van a archivos con extensiones .aln y .dnd respectivamente. La interfaz de línea de comandos utiliza los parámetros predeterminados y no permite otras opciones. ^[16]

ClustalW

Breve resumen

ClustalW, al igual que otras versiones de Clustal, se utiliza para alinear múltiples secuencias de nucleótidos o proteínas de manera eficiente. Utiliza métodos de alineación progresiva, que priorizan las secuencias para la alineación en función de la similitud hasta que se devuelve una alineación global. ClustalW es un algoritmo basado en matrices , mientras que herramientas como T-Coffee y Dialign se basan en la consistencia . ClustalW es eficiente y competitivo en comparación con software similar. ^{[ cita requerida ]} Este programa requiere tres o más secuencias para calcular una alineación global. Para la alineación de secuencias binarias, se deben utilizar otras herramientas como EMBOSS o LALIGN.

Algoritmo

ClustalW utiliza algoritmos de alineación progresiva. En estos, las secuencias se alinean en orden de puntuación de alineación de mayor a menor. Esta heurística es necesaria para restringir la complejidad de tiempo y memoria requerida para encontrar la solución globalmente óptima .

En primer lugar, el algoritmo calcula una matriz de distancias por pares entre todos los pares de secuencias ( alineamiento de secuencias por pares ). A continuación, un método de unión de vecinos utiliza el enraizamiento de puntos medios para crear un árbol guía general. ^[17] A la derecha se ilustra un diagrama de este método. Por último, el árbol guía se utiliza como plantilla aproximada para generar un alineamiento global.

Complejidad temporal

ClustalW tiene una complejidad de tiempo debido al uso del método de unión de vecinos. $Estilo de visualización O(N^{2})}$

ClustalW2 agregó una opción para usar UPGMA en su lugar, que es más rápida para tamaños de entrada grandes. La bandera de línea de comando para usarlo en lugar de la unión vecina es:

- agrupamiento = UPGMA

A modo de ejemplo aproximado, mientras que una entrada de 10 000 secuencias tardaría más de una hora en unirse, UPGMA se completaría en menos de un minuto.

ClustalW2 también agregó una precisión de alineación iterativa. Esta opción no aumenta la eficiencia, pero sí ofrece la posibilidad de aumentar la precisión de la alineación. Esto puede ser especialmente útil para conjuntos de datos pequeños.

Las siguientes banderas activan la alineación iterativa:

- Iteración = Alineación - Iteración = Árbol - numiters

La primera opción refina la alineación final. La segunda opción incorpora el esquema en el paso de alineación progresiva. La tercera especifica el número de ciclos de iteración, donde el valor predeterminado se establece en 3. ^[18]

Precisión y resultados

El algoritmo que utiliza ClustalW es casi óptimo. Es más eficaz para conjuntos de datos con un alto grado de varianza. En dichos conjuntos de datos, el proceso de generación de un árbol guía es menos sensible al ruido. ClustalW fue uno de los primeros algoritmos de alineación de secuencias múltiples que combinó la alineación por pares y la alineación global para aumentar la velocidad, pero esta decisión reduce la precisión de los resultados.

Cuando se compararon varios algoritmos de alineamiento de secuencias en 2014, ClustalW fue uno de los más rápidos que pudo producir resultados con el nivel deseado de precisión. Sin embargo, no fue tan preciso como los competidores basados en la consistencia, como T-Coffee. ^[19] De MAFFT, T-Coffee y Clustal Omega, ClustalW tiene la precisión más baja para secuencias de longitud completa, pero su precisión aún se considera aceptable. Además, ClustalW fue el algoritmo más eficiente en el uso de la memoria de los estudiados. ^[19] Las actualizaciones continuas del software han hecho que ClustalW2 sea más preciso y al mismo tiempo mantenga esta velocidad. ^[18]

Omega clustal

Breve resumen

ClustalΩ (escrito alternativamente como Clustal O y Clustal Omega ) es un programa rápido y escalable escrito en C y C++ que se utiliza para la alineación de secuencias múltiples. Utiliza árboles guía con semillas y un nuevo motor HMM que se centra en dos perfiles para generar estas alineaciones. ^[20]^[21] El programa requiere tres o más secuencias para calcular la alineación de secuencias múltiples . Clustal Omega se basa en la consistencia y es ampliamente visto ^{[¿ por quién? ]} como una de las implementaciones en línea más rápidas de todas las herramientas de alineación de secuencias múltiples y aún ocupa un lugar alto en precisión, entre los algoritmos basados en consistencia y en matriz.

Algoritmo

Clustal Omega tiene cinco pasos principales para generar la alineación de secuencias múltiples .

Una alineación por pares se produce utilizando el método k-tupla. Este es un método heurístico que no garantiza encontrar una solución óptima, pero es más eficiente que usar programación dinámica .
Las secuencias se agrupan utilizando el método mBed modificado. ^[22] El método mBed calcula la distancia por pares utilizando la incrustación de secuencias.
Se aplica el método de agrupamiento k-medias .
Se construye un árbol guía utilizando el método UPGMA . En la figura de la derecha, esto se muestra como múltiples pasos del árbol guía que conducen a una construcción final del árbol guía debido a la naturaleza aglomerativa del UPGMA. En cada paso (rombos en el diagrama de flujo), se combinan los dos grupos más cercanos. Esto se repite hasta que se puede evaluar un árbol global final.
La alineación final de secuencias múltiples se produce con el paquete HHAlign de HH-Suite utilizando dos HMM de perfil . Un HMM de perfil es una máquina de estados lineal que consta de una serie de nodos, cada uno de los cuales corresponde aproximadamente a una posición (columna) en la alineación a partir de la cual se construyó. ^[23]

Complejidad temporal

La complejidad temporal de calcular con exactitud una alineación óptima de secuencias de longitud es prohibitiva incluso para un pequeño número de secuencias. Para gestionar esto, Clustal Omega utiliza una versión modificada de mBed que tiene una complejidad de , ^[22]^[24] y produce árboles guía que son tan precisos como los de los métodos convencionales. La velocidad y precisión de los árboles guía en Clustal Omega se atribuye a la implementación de un algoritmo mBed modificado. También reduce el tiempo de cálculo y los requisitos de memoria para completar alineaciones en grandes conjuntos de datos. ${\estilo de visualización N}$ ${\estilo de visualización L}$ $Estilo de visualización O(L^{N})}$ $O(N\log N)$

Precisión y resultados

La precisión de Clustal Omega en una pequeña cantidad de secuencias es, en promedio, muy similar a lo que se considera alineadores de secuencias de alta calidad. ^{[ ejemplo necesario ]} En conjuntos de datos extremadamente grandes con cientos de miles de secuencias de entrada, Clustal Omega supera a todos los demás algoritmos en tiempo, memoria y precisión de los resultados. ^[25] Es capaz de ejecutar más de 100.000 secuencias en un procesador en unas pocas horas.

Clustal Omega utiliza el paquete HHAlign de HH-Suite, que alinea dos modelos ocultos de Markov en lugar de una comparación perfil-perfil. Esto mejora significativamente la calidad de la sensibilidad y la alineación. ^[25] Esto, combinado con el método mBed, le da a Clustal Omega su ventaja sobre otros alineadores de secuencias.

En conjuntos de datos con bases terminales no conservadas, Clustal Omega puede ser más preciso que Probcons o T-Coffee , a pesar de que ambos son algoritmos basados en la consistencia. En una prueba de eficiencia con programas que producen puntuaciones de alta precisión, MAFFT fue el más rápido, seguido de cerca por Clustal Omega. Ambos fueron más rápidos que T-Coffee, sin embargo, MAFFT y Clustal Omega requirieron más memoria para ejecutarse. ^[19]

Clustal2 (ClustalW/ClustalX)

Clustal2 es la versión empaquetada de ClustalW para línea de comandos y Clustal X gráfico. Ninguna de las dos son herramientas nuevas, sino versiones actualizadas y mejoradas de las implementaciones anteriores que se han visto anteriormente. Ambas descargas vienen precompiladas para muchos sistemas operativos como Linux, Mac OS X y Windows (tanto XP como Vista). Esta versión se diseñó para que el sitio web fuera más organizado y fácil de usar, así como para actualizar los códigos fuente a sus versiones más recientes. Clustal2 es la versión 2 de ClustalW y ClustalX, de donde obtiene su nombre. Las versiones anteriores aún se pueden encontrar en el sitio web, sin embargo, todas las precompilaciones están ahora actualizadas.

Véase también

Referencias

^ Véase el archivo COPYING, en el archivo fuente [1] Archivado el 12 de junio de 2021 en Wayback Machine . Consultado el 15 de enero de 2014.
^ Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ , Higgins DG , Thompson JD (julio de 2003). "Alineamiento de secuencias múltiples con la serie de programas Clustal". Nucleic Acids Research . 31 (13): 3497–500. doi :10.1093/nar/gkg500. PMC 168907. PMID 12824352.
^ Van Noorden R, Maher B, Nuzzo R (octubre de 2014). "Los 100 artículos más destacados". Nature . 514 (7524): 550–3. Bibcode :2014Natur.514..550V. doi : 10.1038/514550a . PMID 25355343.
^ Higgins DG, Sharp PM (diciembre de 1988). "CLUSTAL: un paquete para realizar alineamiento de secuencias múltiples en una microcomputadora". Gene . 73 (1): 237–44. doi :10.1016/0378-1119(88)90330-7. PMID 3243435.
^ ab Higgins DG, Bleasby AJ, Fuchs R (abril de 1992). "CLUSTAL V: software mejorado para alineamiento de secuencias múltiples". Aplicaciones informáticas en las biociencias . 8 (2): 189–91. doi :10.1093/bioinformatics/8.2.189. PMID 1591615.
^ Thompson, JD; Higgins, DG; Gibson, TJ (11 de noviembre de 1994). "CLUSTAL W: mejora de la sensibilidad del alineamiento progresivo de múltiples secuencias mediante ponderación de secuencias, penalizaciones por espacios específicos de posición y elección de la matriz de ponderación". Nucleic Acids Research . 22 (22): 4673–4680. doi :10.1093/nar/22.22.4673. ISSN 0305-1048. PMC 308517 . PMID 7984417.
^ ab Thompson JD, Gibson TJ , Plewniak F, Jeanmougin F, Higgins DG (diciembre de 1997). "La interfaz de ventanas CLUSTAL_X: estrategias flexibles para la alineación de múltiples secuencias asistida por herramientas de análisis de calidad". Nucleic Acids Research . 25 (24): 4876–82. doi :10.1093/nar/25.24.4876. PMC 147148. PMID 9396791 .
^ Dineen, David. "Alineamiento de secuencias múltiples de Clustal W y Clustal X". www.clustal.org . Archivado desde el original el 16 de abril de 2018 . Consultado el 24 de abril de 2018 .
^ Sievers F, Higgins DG (1 de enero de 2014). "Clustal Omega, alineación precisa de un gran número de secuencias". En Russell DJ (ed.). Métodos de alineación de secuencias múltiples . Métodos en biología molecular. Vol. 1079. Humana Press. págs. 105–116. doi :10.1007/978-1-62703-646-7_6. ISBN . 9781627036450. Número de identificación personal 24170397.
^ Sievers F, Higgins DG (1 de enero de 2002). Clustal Omega . Vol. 48. John Wiley & Sons, Inc., págs. 3.13.1–16. doi :10.1002/0471250953.bi0313s48. ISBN . 9780471250951. Número de identificación personal 25501942. Número de identificación personal 1762688. {{cite book}}: |journal=ignorado ( ayuda )
^ abcd Des Higgins, presentación en la conferencia SMBE 2012 en Dublín.
^ Higgins DG, Sharp PM (diciembre de 1988). "CLUSTAL: un paquete para realizar alineamiento de secuencias múltiples en una microcomputadora". Gene . 73 (1): 237–44. doi :10.1016/0378-1119(88)90330-7. PMID 3243435.
^ Higgins DG, Sharp PM (abril de 1989). "Alineamientos de secuencias múltiples rápidos y sensibles en una microcomputadora". Aplicaciones informáticas en las biociencias . 5 (2): 151–3. doi :10.1093/bioinformatics/5.2.151. PMID 2720464.
^ Thompson JD, Higgins DG, Gibson TJ (noviembre de 1994). "CLUSTAL W: mejora de la sensibilidad del alineamiento progresivo de secuencias múltiples mediante ponderación de secuencias, penalizaciones por espacios específicos de posición y elección de la matriz de ponderación". Nucleic Acids Research . 22 (22): 4673–80. doi :10.1093/nar/22.22.4673. PMC 308517 . PMID 7984417.
^ ab "Algoritmo CLUSTAL W". Archivado desde el original el 1 de diciembre de 2016. Consultado el 24 de abril de 2018 .
^ ab Higgins, Des (junio de 1991). "Alineaciones de secuencias múltiples de Clustal V. Documentación (instalación y uso)". www.aua.gr . Archivado desde el original el 2023-04-12 . Consultado el 2022-08-27 .
^ "Acerca de CLUSTALW". www.megasoftware.net . Archivado desde el original el 24 de abril de 2018 . Consultado el 24 de abril de 2018 .
^ ab Larkin, MA; Blackshields, G.; Brown, NP; Chenna, R.; McGettigan, PA; McWilliam, H.; Valentin, F.; Wallace, IM; Wilm, A. (10 de septiembre de 2007). "Clustal W y Clustal X versión 2.0". Bioinformática . 23 (21): 2947–2948. doi : 10.1093/bioinformatics/btm404 . ISSN 1367-4803. PMID 17846036.
^ abc Pais FS, Ruy PC, Oliveira G, Coimbra RS (marzo de 2014). "Evaluación de la eficiencia de programas de alineamiento de secuencias múltiples". Algoritmos para biología molecular . 9 (1): 4. doi : 10.1186/1748-7188-9-4 . PMC 4015676 . PMID 24602402.
^ EMBL-EBI. «Clustal Omega < Multiple Sequence Alignment < EMBL-EBI». www.ebi.ac.uk. Archivado desde el original el 29 de abril de 2018. Consultado el 18 de abril de 2018 .
^ Dineen, David. "Alineamiento de secuencias múltiples de Clustal Omega, ClustalW y ClustalX". www.clustal.org . Archivado desde el original el 29 de mayo de 2010. Consultado el 18 de abril de 2018 .
^ ab Blackshields G, Sievers F, Shi W, Wilm A, Higgins DG (mayo de 2010). "Incorporación de secuencias para la construcción rápida de árboles guía para alineamiento de secuencias múltiples". Algoritmos para biología molecular . 5 : 21. doi : 10.1186/1748-7188-5-21 . PMC 2893182. PMID 20470396 .
^ "Análisis de perfil HMM". www.biology.wustl.edu . Archivado desde el original el 24 de julio de 2019. Consultado el 1 de mayo de 2018 .
^ Sievers F, Wilm A, Dineen D, Gibson TJ, Karplus K, Li W, Lopez R, McWilliam H, Remmert M, Söding J, Thompson JD, Higgins DG (octubre de 2011). "Generación rápida y escalable de alineamientos de secuencias múltiples de proteínas de alta calidad utilizando Clustal Omega". Biología de sistemas moleculares . 7 (1): 539. doi :10.1038/msb.2011.75. PMC 3261699 . PMID 21988835.
^ ab Daugelaite J, O' Driscoll A, Sleator RD (2013). "Una descripción general de las alineaciones de secuencias múltiples y la computación en la nube en bioinformática". ISRN Biomathematics . 2013 : 1–14. doi : 10.1155/2013/615630 . ISSN 2090-7702.

Enlaces externos

Página de inicio de Clustal (descarga gratuita para Unix/Linux, Mac y Windows)
Espejo Clustal Omega en el EBI