Clustal es una serie de programas informáticos utilizados en bioinformática para el alineamiento de secuencias múltiples . [2] Ha habido muchas versiones de Clustal durante el desarrollo del algoritmo que se enumeran a continuación. El análisis de cada herramienta y su algoritmo también se detalla en sus respectivas categorías. Los sistemas operativos disponibles enumerados en la barra lateral son una combinación de la disponibilidad del software y es posible que no sean compatibles con todas las versiones actuales de las herramientas Clustal. Clustal Omega tiene la mayor variedad de sistemas operativos de todas las herramientas de Clustal.
Ha habido muchas variaciones del software Clustal, todas las cuales se enumeran a continuación:
Los artículos que describen el software Clustal han sido muy citados, dos de ellos entre los más citados de todos los tiempos. [10]
La versión más reciente del software está disponible para Windows, Mac OS y Unix/Linux. También se utiliza habitualmente a través de una interfaz web en su página de inicio o alojada en el Instituto Europeo de Bioinformática .
El árbol guía en los programas iniciales se construyó mediante un análisis de clúster UPGMA de las alineaciones por pares, de ahí el nombre CLUSTAL. [11] cf. [12] Las primeras cuatro versiones en 1988 tenían números arábigos (1 a 4), mientras que con la quinta versión Des Higgins cambió al número romano V en 1992. [11] cf. [13] [4] En 1994 y en 1997, para las dos versiones siguientes, se utilizaron las letras después de la letra V y se hicieron corresponder a W para Ponderado y X para Ventana X. [11] cf. [14] [6] El nombre omega fue elegido para marcar un cambio con respecto a los anteriores. [11]
Todas las variaciones del software Clustal alinean secuencias utilizando una heurística que construye progresivamente una alineación de secuencia múltiple a partir de una serie de alineaciones por pares. Este método funciona analizando las secuencias en su conjunto y luego utilizando el método UPGMA/unión de vecinos para generar una matriz de distancias. Luego se calcula un árbol guía a partir de las puntuaciones de las secuencias en la matriz y luego se utiliza para construir la alineación de secuencias múltiples alineando progresivamente las secuencias en orden de similitud. [15] Esencialmente, Clustal crea múltiples alineamientos de secuencias a través de tres pasos principales:
Estos pasos se llevan a cabo automáticamente cuando selecciona "Realizar alineación completa". Otras opciones son "Hacer alineación a partir del árbol guía y la filogenia" y "Producir sólo árbol guía".
Este programa acepta una amplia gama de formatos de entrada, incluidos NBRF/ PIR , FASTA , EMBL/ Swiss-Prot , Clustal, GCC/MSF, GCG9 RSF y GDE.
El formato de salida puede ser uno o varios de los siguientes: Clustal, NBRF/ PIR , GCG /MSF, PHYLIP , GDE o NEXUS.
Se muestran los mismos símbolos tanto para los alineamientos de ADN/ARN como para los alineamientos de proteínas, por lo que, si bien los símbolos * (asterisco) son útiles para ambos, los otros símbolos de consenso deben ignorarse para los alineamientos de ADN/ARN.
Se pueden ajustar muchas configuraciones para adaptar el algoritmo de alineación a diferentes circunstancias. Los parámetros principales son la penalización por apertura de brecha y la penalización por extensión de brecha.
El programa original de la serie de software Clustal se desarrolló en 1988 como una forma de generar múltiples alineamientos de secuencias en computadoras personales. ClustalV se lanzó 4 años después y mejoró enormemente el original, agregando y modificando algunas características clave, y fue escrito en C en lugar de Fortran.
Ambas versiones utilizan el mismo algoritmo aproximado rápido para calcular las puntuaciones de similitud entre secuencias, lo que a su vez produce alineamientos por pares. El algoritmo funciona calculando las puntuaciones de similitud como el número de coincidencias de k-tuplas entre dos secuencias, lo que representa una penalización establecida por los espacios. Cuanto más similares son las secuencias, mayor es la puntuación; cuanto más divergentes, menores son las puntuaciones. Una vez que se califican las secuencias, se genera un dendrograma a través del UPGMA para representar el orden del alineamiento de múltiples secuencias. Los conjuntos de secuencias de orden superior se alinean primero, seguidos por el resto en orden descendente. El algoritmo permite conjuntos de datos muy grandes y funciona rápido. Sin embargo, la velocidad depende del rango de coincidencias de k-tupla elegidas para el tipo de secuencia particular. [dieciséis]
Algunas de las adiciones más notables a ClustalV son las alineaciones de perfiles y las opciones completas de interfaz de línea de comandos. La capacidad de utilizar alineaciones de perfiles permite al usuario alinear dos o más alineaciones o secuencias anteriores con una nueva alineación y mover secuencias desalineadas (con puntuación baja) más abajo en el orden de alineación. Esto le da al usuario la opción de crear gradual y metódicamente múltiples alineaciones de secuencias con más control que la opción básica. [15] La opción de ejecutar desde la línea de comando acelera enormemente el proceso de alineación de secuencias múltiples. Las secuencias se pueden ejecutar con un comando simple,
archivo de nombre clustalv . secuencia
o
clustalv / infile = nombredearchivo . secuencia
y el programa determinará qué tipo de secuencia está analizando. Cuando se completa el programa, la salida de la alineación de secuencia múltiple, así como el dendrograma, van a archivos con extensiones .aln y .dnd respectivamente. La interfaz de línea de comando utiliza los parámetros predeterminados y no permite otras opciones. [dieciséis]
ClustalW, al igual que las otras herramientas de Clustal, se utiliza para alinear múltiples secuencias de nucleótidos o proteínas de manera eficiente. Utiliza métodos de alineación progresiva, que alinean primero las secuencias más similares y avanzan hasta las secuencias menos similares hasta que se crea una alineación global. ClustalW es un algoritmo basado en matrices, mientras que herramientas como T-Coffee y Dialign se basan en la coherencia. ClustalW tiene un algoritmo bastante eficiente que compite bien con otro software. Este programa requiere tres o más secuencias para calcular una alineación global; para la alineación de secuencias por pares (solo dos secuencias) se deben utilizar otras herramientas como EMBOSS o LALIGN.
ClustalW utiliza métodos de alineación progresiva como se indicó anteriormente. En estos, las secuencias con la mejor puntuación de alineación se alinean primero, luego se alinean progresivamente grupos de secuencias más distantes. Este enfoque heurístico es necesario debido a la demanda de tiempo y memoria para encontrar la solución óptima global. El primer paso del algoritmo es calcular una matriz de distancia aproximada entre cada par de secuencias, también conocida como alineación de secuencias por pares . El siguiente paso es un método de unión de vecinos que utiliza el enraizamiento de punto medio para crear un árbol guía general. [17] El proceso que utiliza para hacer esto se muestra en el diagrama detallado del método a la derecha. Luego, el árbol guía se utiliza como plantilla aproximada para generar una alineación global.
ClustalW tiene una complejidad temporal debido a su uso del método de unión de vecinos. En la versión actualizada (ClustalW2) hay una opción integrada en el software para usar UPGMA , que es más rápido con tamaños de entrada grandes. El indicador de línea de comando para usarlo en lugar de unirse a vecinos es:
- agrupación = UPGMA
Por ejemplo, en un escritorio estándar, ejecutar UPGMA en 10.000 secuencias produciría resultados en menos de un minuto, mientras que la unión de vecinos tardaría más de una hora. [18] Al ejecutar el algoritmo ClustalW con este ajuste, se ahorra una cantidad significativa de tiempo. ClustalW2 también tiene una opción para utilizar alineación iterativa para aumentar la precisión de la alineación. Si bien no es necesariamente más rápido o más eficiente en cuanto a complejidad, el aumento de la precisión es valioso y puede resultar útil para tamaños de datos más pequeños. Estas son las diversas opciones de línea de comando para lograr esto:
- Iteración = Alineación - Iteración = Árbol - numeradores
La primera opción de línea de comando refina la alineación final. La segunda opción incorpora el esquema en el paso de alineación progresiva del algoritmo. El tercero especifica el número de ciclos de iteración donde el valor predeterminado se establece en 3. [18]
El algoritmo que utiliza ClustalW proporciona un resultado casi óptimo. Sin embargo, funciona excepcionalmente bien cuando el conjunto de datos contiene secuencias con distintos grados de divergencia. Esto se debe a que en dichos conjuntos de datos, el árbol guía se vuelve menos sensible al ruido. ClustalW fue uno de los primeros algoritmos de alineación de secuencias múltiples que combinó la alineación por pares y la alineación global para aumentar la velocidad, pero esta compensación da como resultado una menor precisión.
ClustalW, en comparación con otros algoritmos de alineación de secuencias múltiples en 2014, funcionó como uno de los más rápidos y al mismo tiempo mantuvo un nivel aceptable de precisión, pero había margen de mejora en comparación con competidores basados en la consistencia como T-Coffee. [19] La precisión de ClustalW cuando se probó contra MAFFT, T-Coffee, Clustal Omega y otros algoritmos fue la más baja para secuencias completas, pero aún se considera aceptable. Tenía el algoritmo más eficiente en memoria ( RAM ) de todos los probados en el estudio. [19] Se han realizado actualizaciones y mejoras al algoritmo en ClustalW2 para aumentar la precisión manteniendo su velocidad tan valorada. [18]
ClustalΩ (escrito alternativamente como Clustal O y Clustal Omega ) es un programa rápido y escalable escrito en C y C++ que se utiliza para el alineamiento de secuencias múltiples . Utiliza árboles guía sembrados y un nuevo motor HMM que se centra en dos perfiles para generar estas alineaciones. [20] [21] El programa requiere tres o más secuencias para calcular la alineación de secuencias múltiples ; para dos secuencias, utilice herramientas de alineación de secuencias por pares ( EMBOSS , LALIGN). Clustal Omega se basa en la coherencia y es ampliamente considerado como una de las implementaciones en línea más rápidas de todas las herramientas de alineación de secuencias múltiples y aún ocupa un lugar destacado en precisión, tanto entre los algoritmos basados en la coherencia como en los basados en matrices.
Clustal Omega tiene cinco pasos principales para generar el alineamiento de secuencias múltiples . El primero es producir una alineación por pares utilizando el método k-tuple, también conocido como método de palabras . Este, en resumen, es un método heurístico que no garantiza encontrar una solución de alineación óptima, pero es significativamente más eficiente que el método de alineación de programación dinámica. Después de eso, las secuencias se agrupan utilizando el método mBed modificado. [22] El método mBed calcula la distancia por pares mediante la incrustación de secuencia. A este paso le sigue el método de agrupamiento de k-medias . A continuación, se construye el árbol guía utilizando el método UPGMA . Esto se muestra como múltiples pasos del árbol guía que conducen a la construcción final del árbol guía debido a la forma en que funciona el algoritmo UPGMA. En cada paso (cada diamante en el diagrama de flujo) se combinan los dos grupos más cercanos y se repite hasta que se pueda evaluar el árbol final. En el paso final, la alineación de secuencias múltiples se produce utilizando el paquete HHAlign de HH-Suite , que utiliza dos HMM de perfil . Un HMM de perfil es una máquina de estados lineal que consta de una serie de nodos, cada uno de los cuales corresponde aproximadamente a una posición (columna) en la alineación a partir de la cual se construyó. [23]
La forma exacta de calcular una alineación óptima entre N secuencias tiene una complejidad computacional de N secuencias de longitud L , lo que la hace prohibitiva incluso para un número pequeño de secuencias. Clustal Omega utiliza una versión modificada de mBed que tiene una complejidad de [ 22] [24] y produce árboles guía que son tan precisos como los de los métodos convencionales. La velocidad y precisión de los árboles guía en Clustal Omega se atribuyen a la implementación de un algoritmo mBed modificado. También reduce el tiempo de cálculo y los requisitos de memoria para completar alineaciones en grandes conjuntos de datos.
La precisión de Clustal Omega en un pequeño número de secuencias es, en promedio, muy similar a la de los alineadores de secuencias considerados de alta calidad. La diferencia surge cuando se utilizan grandes conjuntos de datos con cientos de miles de secuencias. En estos casos, Clustal Omega supera a otros algoritmos en todos los ámbitos. Su tiempo de finalización y calidad general son consistentemente mejores que otros programas. [25] Es capaz de ejecutar más de 100.000 secuencias en un procesador en unas pocas horas.
Clustal Omega utiliza el paquete HHAlign de HH-Suite , que alinea dos modelos ocultos de Markov de perfil en lugar de una comparación perfil-perfil. Esto mejora significativamente la calidad de la sensibilidad y la alineación. [25] Esto, combinado con el método mBed, le da a Clustal Omega su ventaja sobre otros alineadores de secuencia. Los resultados acaban siendo muy precisos y muy rápidos, que es la situación óptima.
En conjuntos de datos con bases terminales no conservadas, Clustal Omega puede ser más preciso que Probcons y T-Coffee a pesar de que ambos son algoritmos basados en la consistencia, a diferencia de Clustal Omega. En una prueba de eficiencia con programas que producen puntuaciones de alta precisión, MAFFT fue el más rápido, seguido de cerca por Clustal Omega. Ambos eran más rápidos que T-Coffee; sin embargo, MAFFT y Clustal Omega requerían más memoria para ejecutarse. [19]
Clustal2 es la versión empaquetada tanto de ClustalW de línea de comandos como de Clustal X gráfico. Ninguna de las dos son herramientas nuevas, pero son versiones actualizadas y mejoradas de las implementaciones anteriores vistas anteriormente. Ambas descargas vienen precompiladas para muchos sistemas operativos como Linux, Mac OS X y Windows (tanto XP como Vista). Esta versión fue diseñada para hacer el sitio web más organizado y fácil de usar, así como para actualizar los códigos fuente a sus versiones más recientes. Clustal2 es la versión 2 de ClustalW y ClustalX, de ahí su nombre. Todavía se pueden encontrar versiones anteriores en el sitio web; sin embargo, todas las precompilaciones ahora están actualizadas.
{{cite book}}
: |journal=
ignorado ( ayuda )