stringtranslate.com

clustal

Clustal es una serie de programas informáticos utilizados en bioinformática para el alineamiento de secuencias múltiples . [2] Ha habido muchas versiones de Clustal durante el desarrollo del algoritmo que se enumeran a continuación. El análisis de cada herramienta y su algoritmo también se detalla en sus respectivas categorías. Los sistemas operativos disponibles enumerados en la barra lateral son una combinación de la disponibilidad del software y es posible que no sean compatibles con todas las versiones actuales de las herramientas Clustal. Clustal Omega tiene la mayor variedad de sistemas operativos de todas las herramientas de Clustal.

Alineamiento de secuencia múltiple de la proteína CDK4 generada con ClustalW. Las flechas indican mutaciones puntuales.

Historia

Ha habido muchas variaciones del software Clustal, todas las cuales se enumeran a continuación:

Los artículos que describen el software Clustal han sido muy citados, dos de ellos entre los más citados de todos los tiempos. [10]

La versión más reciente del software está disponible para Windows, Mac OS y Unix/Linux. También se utiliza habitualmente a través de una interfaz web en su página de inicio o alojada en el Instituto Europeo de Bioinformática .

Origen del nombre

El árbol guía en los programas iniciales se construyó mediante un análisis de clúster UPGMA de las alineaciones por pares, de ahí el nombre CLUSTAL. [11] cf. [12] Las primeras cuatro versiones en 1988 tenían números arábigos (1 a 4), mientras que con la quinta versión Des Higgins cambió al número romano V en 1992. [11] cf. [13] [4] En 1994 y en 1997, para las dos versiones siguientes, se utilizaron las letras después de la letra V y se hicieron corresponder a W para Ponderado y X para Ventana X. [11] cf. [14] [6] El nombre omega fue elegido para marcar un cambio con respecto a los anteriores. [11]

Función

Todas las variaciones del software Clustal alinean secuencias utilizando una heurística que construye progresivamente una alineación de secuencia múltiple a partir de una serie de alineaciones por pares. Este método funciona analizando las secuencias en su conjunto y luego utilizando el método UPGMA/unión de vecinos para generar una matriz de distancias. Luego se calcula un árbol guía a partir de las puntuaciones de las secuencias en la matriz y luego se utiliza para construir la alineación de secuencias múltiples alineando progresivamente las secuencias en orden de similitud. [15] Esencialmente, Clustal crea múltiples alineamientos de secuencias a través de tres pasos principales:

  1. Realice una alineación por pares utilizando el método de alineación progresiva
  2. Cree un árbol guía (o utilice un árbol definido por el usuario)
  3. Utilice el árbol guía para realizar una alineación múltiple

Estos pasos se llevan a cabo automáticamente cuando selecciona "Realizar alineación completa". Otras opciones son "Hacer alineación a partir del árbol guía y la filogenia" y "Producir sólo árbol guía".

De entrada y salida

Este programa acepta una amplia gama de formatos de entrada, incluidos NBRF/ PIR , FASTA , EMBL/ Swiss-Prot , Clustal, GCC/MSF, GCG9 RSF y GDE.

El formato de salida puede ser uno o varios de los siguientes: Clustal, NBRF/ PIR , GCG /MSF, PHYLIP , GDE o NEXUS.

Se muestran los mismos símbolos tanto para los alineamientos de ADN/ARN como para los alineamientos de proteínas, por lo que, si bien los símbolos * (asterisco) son útiles para ambos, los otros símbolos de consenso deben ignorarse para los alineamientos de ADN/ARN.

Ajustes

Se pueden ajustar muchas configuraciones para adaptar el algoritmo de alineación a diferentes circunstancias. Los parámetros principales son la penalización por apertura de brecha y la penalización por extensión de brecha.

Clustal y ClustalV

Breve resumen

El programa original de la serie de software Clustal se desarrolló en 1988 como una forma de generar múltiples alineamientos de secuencias en computadoras personales. ClustalV se lanzó 4 años después y mejoró enormemente el original, agregando y modificando algunas características clave, y fue escrito en C en lugar de Fortran.

Algoritmo

Ambas versiones utilizan el mismo algoritmo aproximado rápido para calcular las puntuaciones de similitud entre secuencias, lo que a su vez produce alineamientos por pares. El algoritmo funciona calculando las puntuaciones de similitud como el número de coincidencias de k-tuplas entre dos secuencias, lo que representa una penalización establecida por los espacios. Cuanto más similares son las secuencias, mayor es la puntuación; cuanto más divergentes, menores son las puntuaciones. Una vez que se califican las secuencias, se genera un dendrograma a través del UPGMA para representar el orden del alineamiento de múltiples secuencias. Los conjuntos de secuencias de orden superior se alinean primero, seguidos por el resto en orden descendente. El algoritmo permite conjuntos de datos muy grandes y funciona rápido. Sin embargo, la velocidad depende del rango de coincidencias de k-tupla elegidas para el tipo de secuencia particular. [dieciséis]

Mejoras notables de ClustalV

Algunas de las adiciones más notables a ClustalV son las alineaciones de perfiles y las opciones completas de interfaz de línea de comandos. La capacidad de utilizar alineaciones de perfiles permite al usuario alinear dos o más alineaciones o secuencias anteriores con una nueva alineación y mover secuencias desalineadas (con puntuación baja) más abajo en el orden de alineación. Esto le da al usuario la opción de crear gradual y metódicamente múltiples alineaciones de secuencias con más control que la opción básica. [15] La opción de ejecutar desde la línea de comando acelera enormemente el proceso de alineación de secuencias múltiples. Las secuencias se pueden ejecutar con un comando simple,

 archivo de nombre clustalv . secuencia 

o

 clustalv / infile = nombredearchivo . secuencia 

y el programa determinará qué tipo de secuencia está analizando. Cuando se completa el programa, la salida de la alineación de secuencia múltiple, así como el dendrograma, van a archivos con extensiones .aln y .dnd respectivamente. La interfaz de línea de comando utiliza los parámetros predeterminados y no permite otras opciones. [dieciséis]

ClustalW

Breve resumen

Representa los pasos que utiliza el algoritmo del software ClustalW para alineaciones globales.

ClustalW, al igual que las otras herramientas de Clustal, se utiliza para alinear múltiples secuencias de nucleótidos o proteínas de manera eficiente. Utiliza métodos de alineación progresiva, que alinean primero las secuencias más similares y avanzan hasta las secuencias menos similares hasta que se crea una alineación global. ClustalW es un algoritmo basado en matrices, mientras que herramientas como T-Coffee y Dialign se basan en la coherencia. ClustalW tiene un algoritmo bastante eficiente que compite bien con otro software. Este programa requiere tres o más secuencias para calcular una alineación global; para la alineación de secuencias por pares (solo dos secuencias) se deben utilizar otras herramientas como EMBOSS o LALIGN.

Diagrama que muestra el método de unión de vecinos en la alineación de secuencias para bioinformática

Algoritmo

ClustalW utiliza métodos de alineación progresiva como se indicó anteriormente. En estos, las secuencias con la mejor puntuación de alineación se alinean primero, luego se alinean progresivamente grupos de secuencias más distantes. Este enfoque heurístico es necesario debido a la demanda de tiempo y memoria para encontrar la solución óptima global. El primer paso del algoritmo es calcular una matriz de distancia aproximada entre cada par de secuencias, también conocida como alineación de secuencias por pares . El siguiente paso es un método de unión de vecinos que utiliza el enraizamiento de punto medio para crear un árbol guía general. [17] El proceso que utiliza para hacer esto se muestra en el diagrama detallado del método a la derecha. Luego, el árbol guía se utiliza como plantilla aproximada para generar una alineación global.

Complejidad del tiempo

ClustalW tiene una complejidad temporal debido a su uso del método de unión de vecinos. En la versión actualizada (ClustalW2) hay una opción integrada en el software para usar UPGMA , que es más rápido con tamaños de entrada grandes. El indicador de línea de comando para usarlo en lugar de unirse a vecinos es:

- agrupación = UPGMA

Por ejemplo, en un escritorio estándar, ejecutar UPGMA en 10.000 secuencias produciría resultados en menos de un minuto, mientras que la unión de vecinos tardaría más de una hora. [18] Al ejecutar el algoritmo ClustalW con este ajuste, se ahorra una cantidad significativa de tiempo. ClustalW2 también tiene una opción para utilizar alineación iterativa para aumentar la precisión de la alineación. Si bien no es necesariamente más rápido o más eficiente en cuanto a complejidad, el aumento de la precisión es valioso y puede resultar útil para tamaños de datos más pequeños. Estas son las diversas opciones de línea de comando para lograr esto:

- Iteración = Alineación - Iteración = Árbol - numeradores

La primera opción de línea de comando refina la alineación final. La segunda opción incorpora el esquema en el paso de alineación progresiva del algoritmo. El tercero especifica el número de ciclos de iteración donde el valor predeterminado se establece en 3. [18]

Precisión y resultados

El algoritmo que utiliza ClustalW proporciona un resultado casi óptimo. Sin embargo, funciona excepcionalmente bien cuando el conjunto de datos contiene secuencias con distintos grados de divergencia. Esto se debe a que en dichos conjuntos de datos, el árbol guía se vuelve menos sensible al ruido. ClustalW fue uno de los primeros algoritmos de alineación de secuencias múltiples que combinó la alineación por pares y la alineación global para aumentar la velocidad, pero esta compensación da como resultado una menor precisión.

ClustalW, en comparación con otros algoritmos de alineación de secuencias múltiples en 2014, funcionó como uno de los más rápidos y al mismo tiempo mantuvo un nivel aceptable de precisión, pero había margen de mejora en comparación con competidores basados ​​en la consistencia como T-Coffee. [19] La precisión de ClustalW cuando se probó contra MAFFT, T-Coffee, Clustal Omega y otros algoritmos fue la más baja para secuencias completas, pero aún se considera aceptable. Tenía el algoritmo más eficiente en memoria ( RAM ) de todos los probados en el estudio. [19] Se han realizado actualizaciones y mejoras al algoritmo en ClustalW2 para aumentar la precisión manteniendo su velocidad tan valorada. [18]

Omega clustal

Breve resumen

Diagrama de flujo que muestra el algoritmo paso a paso utilizado en Clustal Omega.

ClustalΩ (escrito alternativamente como Clustal O y Clustal Omega ) es un programa rápido y escalable escrito en C y C++ que se utiliza para el alineamiento de secuencias múltiples . Utiliza árboles guía sembrados y un nuevo motor HMM que se centra en dos perfiles para generar estas alineaciones. [20] [21] El programa requiere tres o más secuencias para calcular la alineación de secuencias múltiples ; para dos secuencias, utilice herramientas de alineación de secuencias por pares ( EMBOSS , LALIGN). Clustal Omega se basa en la coherencia y es ampliamente considerado como una de las implementaciones en línea más rápidas de todas las herramientas de alineación de secuencias múltiples y aún ocupa un lugar destacado en precisión, tanto entre los algoritmos basados ​​en la coherencia como en los basados ​​en matrices.

Algoritmo

Aquí se muestra la estructura de un perfil HMM utilizado en la implementación de Clustal Omega.

Clustal Omega tiene cinco pasos principales para generar el alineamiento de secuencias múltiples . El primero es producir una alineación por pares utilizando el método k-tuple, también conocido como método de palabras . Este, en resumen, es un método heurístico que no garantiza encontrar una solución de alineación óptima, pero es significativamente más eficiente que el método de alineación de programación dinámica. Después de eso, las secuencias se agrupan utilizando el método mBed modificado. [22] El método mBed calcula la distancia por pares mediante la incrustación de secuencia. A este paso le sigue el método de agrupamiento de k-medias . A continuación, se construye el árbol guía utilizando el método UPGMA . Esto se muestra como múltiples pasos del árbol guía que conducen a la construcción final del árbol guía debido a la forma en que funciona el algoritmo UPGMA. En cada paso (cada diamante en el diagrama de flujo) se combinan los dos grupos más cercanos y se repite hasta que se pueda evaluar el árbol final. En el paso final, la alineación de secuencias múltiples se produce utilizando el paquete HHAlign de HH-Suite , que utiliza dos HMM de perfil . Un HMM de perfil es una máquina de estados lineal que consta de una serie de nodos, cada uno de los cuales corresponde aproximadamente a una posición (columna) en la alineación a partir de la cual se construyó. [23]

Complejidad del tiempo

La forma exacta de calcular una alineación óptima entre N secuencias tiene una complejidad computacional de N secuencias de longitud L , lo que la hace prohibitiva incluso para un número pequeño de secuencias. Clustal Omega utiliza una versión modificada de mBed que tiene una complejidad de [ 22] [24] y produce árboles guía que son tan precisos como los de los métodos convencionales. La velocidad y precisión de los árboles guía en Clustal Omega se atribuyen a la implementación de un algoritmo mBed modificado. También reduce el tiempo de cálculo y los requisitos de memoria para completar alineaciones en grandes conjuntos de datos.

Precisión y resultados

La precisión de Clustal Omega en un pequeño número de secuencias es, en promedio, muy similar a la de los alineadores de secuencias considerados de alta calidad. La diferencia surge cuando se utilizan grandes conjuntos de datos con cientos de miles de secuencias. En estos casos, Clustal Omega supera a otros algoritmos en todos los ámbitos. Su tiempo de finalización y calidad general son consistentemente mejores que otros programas. [25] Es capaz de ejecutar más de 100.000 secuencias en un procesador en unas pocas horas.

Clustal Omega utiliza el paquete HHAlign de HH-Suite , que alinea dos modelos ocultos de Markov de perfil en lugar de una comparación perfil-perfil. Esto mejora significativamente la calidad de la sensibilidad y la alineación. [25] Esto, combinado con el método mBed, le da a Clustal Omega su ventaja sobre otros alineadores de secuencia. Los resultados acaban siendo muy precisos y muy rápidos, que es la situación óptima.

En conjuntos de datos con bases terminales no conservadas, Clustal Omega puede ser más preciso que Probcons y T-Coffee a pesar de que ambos son algoritmos basados ​​en la consistencia, a diferencia de Clustal Omega. En una prueba de eficiencia con programas que producen puntuaciones de alta precisión, MAFFT fue el más rápido, seguido de cerca por Clustal Omega. Ambos eran más rápidos que T-Coffee; sin embargo, MAFFT y Clustal Omega requerían más memoria para ejecutarse. [19]

Clustal2 (ClustalW/ClustalX)

Clustal2 es la versión empaquetada tanto de ClustalW de línea de comandos como de Clustal X gráfico. Ninguna de las dos son herramientas nuevas, pero son versiones actualizadas y mejoradas de las implementaciones anteriores vistas anteriormente. Ambas descargas vienen precompiladas para muchos sistemas operativos como Linux, Mac OS X y Windows (tanto XP como Vista). Esta versión fue diseñada para hacer el sitio web más organizado y fácil de usar, así como para actualizar los códigos fuente a sus versiones más recientes. Clustal2 es la versión 2 de ClustalW y ClustalX, de ahí su nombre. Todavía se pueden encontrar versiones anteriores en el sitio web; sin embargo, todas las precompilaciones ahora están actualizadas.

Ver también

Referencias

  1. ^ Ver archivo COPIANDO, en archivo fuente [1] Archivado el 12 de junio de 2021 en Wayback Machine . Consultado el 15 de enero de 2014.
  2. ^ Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ , Higgins DG , Thompson JD (julio de 2003). "Alineación de secuencias múltiples con la serie de programas Clustal". Investigación de ácidos nucleicos . 31 (13): 3497–500. doi :10.1093/nar/gkg500. PMC  168907 . PMID  12824352.
  3. ^ Higgins DG, Sharp PM (diciembre de 1988). "CLUSTAL: un paquete para realizar alineación de secuencias múltiples en una microcomputadora". Gen.73 (1): 237–44. doi :10.1016/0378-1119(88)90330-7. PMID  3243435.
  4. ^ ab Higgins DG, Bleasby AJ, Fuchs R (abril de 1992). "CLUSTAL V: software mejorado para alineación de secuencias múltiples". Aplicaciones Informáticas en las Biociencias . 8 (2): 189–91. doi :10.1093/bioinformática/8.2.189. PMID  1591615.
  5. ^ Thompson, JD; Higgins, director general; Gibson, TJ (11 de noviembre de 1994). "CLUSTAL W: mejora de la sensibilidad del alineamiento progresivo de secuencias múltiples mediante ponderación de secuencias, penalizaciones de espacios específicos de la posición y elección de matriz de ponderaciones". Investigación de ácidos nucleicos . 22 (22): 4673–4680. doi : 10.1093/nar/22.22.4673. ISSN  0305-1048. PMC 308517 . PMID  7984417. 
  6. ^ ab Thompson JD, Gibson TJ , Plewniak F, Jeanmougin F, Higgins DG (diciembre de 1997). "La interfaz de Windows CLUSTAL_X: estrategias flexibles para la alineación de secuencias múltiples con la ayuda de herramientas de análisis de calidad". Investigación de ácidos nucleicos . 25 (24): 4876–82. doi : 10.1093/nar/25.24.4876. PMC 147148 . PMID  9396791. 
  7. ^ Cena, David. "Alineación de secuencias múltiples de Clustal W y Clustal X". www.clustal.org . Archivado desde el original el 16 de abril de 2018 . Consultado el 24 de abril de 2018 .
  8. ^ Sievers F, Higgins DG (1 de enero de 2014). "Clustal Omega, alineación precisa de un gran número de secuencias". En Russell DJ (ed.). Métodos de alineación de secuencias múltiples . Métodos en biología molecular. vol. 1079. Prensa Humana. págs. 105-116. doi :10.1007/978-1-62703-646-7_6. ISBN 9781627036450. PMID  24170397.
  9. ^ Sievers F, Higgins DG (1 de enero de 2002). Omega clustal . vol. 48. John Wiley & Sons, Inc. págs. 3.13.1–16. doi :10.1002/0471250953.bi0313s48. ISBN 9780471250951. PMID  25501942. S2CID  1762688. {{cite book}}: |journal=ignorado ( ayuda )
  10. ^ Van Noorden R, Maher B, Nuzzo R (octubre de 2014). "Los 100 artículos principales". Naturaleza . 514 (7524): 550–3. Código Bib :2014Natur.514..550V. doi : 10.1038/514550a . PMID  25355343.
  11. ^ abcd Des Higgins, presentación en la conferencia SMBE 2012 en Dublín.
  12. ^ Higgins DG, Sharp PM (diciembre de 1988). "CLUSTAL: un paquete para realizar alineación de secuencias múltiples en una microcomputadora". Gen.73 (1): 237–44. doi :10.1016/0378-1119(88)90330-7. PMID  3243435.
  13. ^ Higgins DG, Sharp PM (abril de 1989). "Alineamientos de secuencias múltiples rápidos y sensibles en una microcomputadora". Aplicaciones Informáticas en las Biociencias . 5 (2): 151–3. doi :10.1093/bioinformática/5.2.151. PMID  2720464.
  14. ^ Thompson JD, Higgins DG, Gibson TJ (noviembre de 1994). "CLUSTAL W: mejora de la sensibilidad del alineamiento progresivo de secuencias múltiples mediante ponderación de secuencias, penalizaciones de espacios específicos de la posición y elección de matriz de ponderaciones". Investigación de ácidos nucleicos . 22 (22): 4673–80. doi : 10.1093/nar/22.22.4673. PMC 308517 . PMID  7984417. 
  15. ^ ab "Algoritmo CLUSTAL W". Archivado desde el original el 1 de diciembre de 2016 . Consultado el 24 de abril de 2018 .
  16. ^ ab Higgins, Des (junio de 1991). "Alineaciones de secuencias múltiples de Clustal V. Documentación (instalación y uso)". www.aua.gr.Archivado desde el original el 12 de abril de 2023 . Consultado el 27 de agosto de 2022 .
  17. ^ "Acerca de CLUSTALW". www.megasoftware.net . Archivado desde el original el 24 de abril de 2018 . Consultado el 24 de abril de 2018 .
  18. ^ abc Larkin, MA; Escudos negros, G.; Marrón, NP; Chenna, R.; McGettigan, Pensilvania; McWilliam, H.; Valentín, F.; Wallace, IM; Wilm, A. (10 de septiembre de 2007). "Clustal W y Clustal X versión 2.0". Bioinformática . 23 (21): 2947–2948. doi : 10.1093/bioinformática/btm404 . ISSN  1367-4803. PMID  17846036.
  19. ^ abc Pais FS, Ruy PC, Oliveira G, Coimbra RS (marzo de 2014). "Evaluación de la eficacia de múltiples programas de alineación de secuencias". Algoritmos para Biología Molecular . 9 (1): 4. doi : 10.1186/1748-7188-9-4 . PMC 4015676 . PMID  24602402. 
  20. ^ EMBL-EBI. "Clustal Omega <Alineación de secuencias múltiples <EMBL-EBI". www.ebi.ac.uk.Archivado desde el original el 29 de abril de 2018 . Consultado el 18 de abril de 2018 .
  21. ^ Cena, David. "Alineación de secuencias múltiples de Clustal Omega, ClustalW y ClustalX". www.clustal.org . Archivado desde el original el 29 de mayo de 2010 . Consultado el 18 de abril de 2018 .
  22. ^ ab Blackshields G, Sievers F, Shi W, Wilm A, Higgins DG (mayo de 2010). "Incrustación de secuencias para la construcción rápida de árboles guía para alineación de secuencias múltiples". Algoritmos para Biología Molecular . 5 : 21. doi : 10.1186/1748-7188-5-21 . PMC 2893182 . PMID  20470396. 
  23. ^ "Análisis de perfil HMM". www.biología.wustl.edu . Archivado desde el original el 24 de julio de 2019 . Consultado el 1 de mayo de 2018 .
  24. ^ Sievers F, Wilm A, Dineen D, Gibson TJ, Karplus K, Li W, Lopez R, McWilliam H, Remmert M, Söding J, Thompson JD, Higgins DG (octubre de 2011). "Generación rápida y escalable de alineamientos de secuencias múltiples de proteínas de alta calidad utilizando Clustal Omega". Biología de sistemas moleculares . 7 (1): 539. doi : 10.1038/msb.2011.75. PMC 3261699 . PMID  21988835. 
  25. ^ ab Daugelaite J, O'Driscoll A, Sleator RD (2013). "Una descripción general de múltiples alineaciones de secuencias y computación en la nube en bioinformática". Biomatemáticas ISRN . 2013 : 1-14. doi : 10.1155/2013/615630 . ISSN  2090-7702.

enlaces externos