El programa FASTA original fue diseñado para la búsqueda de similitudes en secuencias de proteínas. Debido a la expansión exponencial de la información genética y a la velocidad y memoria limitadas de los ordenadores en la década de 1980, se introdujeron métodos heurísticos para alinear una secuencia de consulta con bases de datos completas. FASTA, publicado en 1987, añadió la capacidad de realizar búsquedas ADN:ADN, búsquedas proteína:ADN traducidas y también proporcionó un programa de barajado más sofisticado para evaluar la significación estadística. [2] Hay varios programas en este paquete que permiten la alineación de secuencias de proteínas y secuencias de ADN. Hoy en día, el aumento del rendimiento de los ordenadores permite realizar búsquedas para la detección de alineamiento local en una base de datos utilizando el algoritmo Smith-Waterman .
FASTA se pronuncia "fast A" y significa "FAST-All", porque funciona con cualquier alfabeto, una extensión de las herramientas de alineación originales "FAST-P" (proteína) y "FAST-N" (nucleótido).
Usos
El paquete FASTA actual contiene programas para búsquedas proteína:proteína, ADN:ADN, proteína:ADN traducido (con desplazamientos de marco) y búsquedas de péptidos ordenados o no ordenados. Las versiones recientes del paquete FASTA incluyen algoritmos especiales de búsqueda traducida que manejan correctamente los errores de desplazamiento de marco (que las búsquedas traducidas de seis marcos no manejan muy bien) al comparar datos de secuencias de nucleótidos con proteínas.
Además de los métodos de búsqueda heurística rápida, el paquete FASTA proporciona SSEARCH, una implementación del algoritmo óptimo Smith–Waterman .
Un objetivo principal del paquete es el cálculo de estadísticas de similitud precisas, de modo que los biólogos puedan juzgar si es probable que una alineación haya ocurrido por casualidad o si se puede utilizar para inferir homología . El paquete FASTA está disponible en la Universidad de Virginia [3] y el Instituto Europeo de Bioinformática [4] .
El formato de archivo FASTA utilizado como entrada para este software ahora es ampliamente utilizado por otras herramientas de búsqueda de bases de datos de secuencias (como BLAST ) y programas de alineamiento de secuencias ( Clustal , T-Coffee , etc.).
Método de búsqueda
FASTA toma una secuencia de nucleótidos o aminoácidos dada y busca en una base de datos de secuencias correspondiente utilizando la alineación de secuencias locales para encontrar coincidencias de secuencias de bases de datos similares.
El programa FASTA sigue un método en gran medida heurístico que contribuye a la alta velocidad de su ejecución. Inicialmente observa el patrón de coincidencias de palabras, las coincidencias palabra por palabra de una longitud determinada y marca las coincidencias potenciales antes de realizar una búsqueda optimizada que requiere más tiempo utilizando un algoritmo de tipo Smith-Waterman .
El tamaño que se toma para una palabra, determinado por el parámetro kmer, controla la sensibilidad y la velocidad del programa. Al aumentar el valor de k-mer , se reduce la cantidad de coincidencias de fondo que se encuentran. A partir de las coincidencias de palabras que se devuelven, el programa busca segmentos que contengan un grupo de coincidencias cercanas. Luego, investiga estos segmentos en busca de una posible coincidencia.
Existen algunas diferencias entre fastn y fastp en relación con el tipo de secuencias utilizadas, pero ambas utilizan cuatro pasos y calculan tres puntuaciones para describir y dar formato a los resultados de similitud de secuencias. Estas son:
Identificar las regiones de mayor densidad en cada comparación de secuencias. Considerando que un k-mero es igual a 1 o 2.
En este paso, se encuentran todas o un grupo de las identidades entre dos secuencias utilizando una tabla de búsqueda. El valor k-mer determina cuántas identidades consecutivas se requieren para que se declare una coincidencia. Por lo tanto, cuanto menor sea el valor k-mer, más sensible será la búsqueda. Los usuarios suelen tomar k-mer=2 para secuencias de proteínas y kmer=4 o 6 para secuencias de nucleótidos. Los oligonucleótidos cortos generalmente se ejecutan con k-mer=1. Luego, el programa encuentra todas las regiones locales similares , representadas como diagonales de una cierta longitud en un diagrama de puntos, entre las dos secuencias contando las coincidencias k-mer y penalizando los desajustes intermedios. De esta manera, las regiones locales de coincidencias de mayor densidad en una diagonal se aíslan de los aciertos de fondo. Para las secuencias de proteínas, se utilizan los valores BLOSUM50 para puntuar las coincidencias k-mer. Esto garantiza que los grupos de identidades con puntuaciones de similitud altas contribuyan más a la puntuación diagonal local que las identidades con puntuaciones de similitud bajas. Las secuencias de nucleótidos utilizan la matriz de identidad para el mismo propósito. A continuación se guardan las 10 mejores regiones locales seleccionadas de todas las diagonales juntas.
Vuelva a escanear las regiones tomadas utilizando las matrices de puntuación, recortando los extremos de la región para incluir solo aquellos que contribuyen a la puntuación más alta.
Vuelva a escanear las 10 regiones tomadas. Esta vez, utilice la matriz de puntuación relevante mientras vuelve a puntuar para permitir ejecuciones de identidades más cortas que el valor de k-mer. Además, mientras vuelve a puntuar, se toman reemplazos conservadores que contribuyen al puntaje de similitud. Aunque las secuencias de proteínas utilizan la matriz BLOSUM50 , también se pueden utilizar con el programa matrices de puntuación basadas en el número mínimo de cambios de base necesarios para un reemplazo específico, en identidades únicamente o en una medida alternativa de similitud como PAM . Para cada una de las regiones diagonales re-escaneadas de esta manera, se identifica una subregión con el puntaje máximo. Los puntajes iniciales encontrados en el paso 1 se utilizan para clasificar las secuencias de la biblioteca. El puntaje más alto se conoce como puntaje init1 .
En una alineación, si se encuentran varias regiones iniciales con puntuaciones superiores a un valor CUTOFF, se comprueba si las regiones iniciales recortadas se pueden unir para formar una alineación aproximada con espacios vacíos. Se calcula una puntuación de similitud que es la suma de las regiones unidas, penalizando por cada espacio vacío 20 puntos. Esta puntuación de similitud inicial ( initn ) se utiliza para clasificar las secuencias de la biblioteca. Se informa la puntuación de la mejor región inicial individual encontrada en el paso 2 ( init1 ).
Aquí el programa calcula una alineación óptima de las regiones iniciales como una combinación de regiones compatibles con la puntuación máxima. Esta alineación óptima de las regiones iniciales se puede calcular rápidamente utilizando un algoritmo de programación dinámica. La puntuación resultante initn se utiliza para clasificar las secuencias de la biblioteca. Este proceso de unión aumenta la sensibilidad pero disminuye la selectividad. Por lo tanto, se utiliza un valor de corte calculado cuidadosamente para controlar dónde se implementa este paso, un valor que es aproximadamente una desviación estándar por encima de la puntuación promedio esperada de secuencias no relacionadas en la biblioteca. Una secuencia de consulta de 200 residuos con k-mer 2 utiliza un valor 28.
Este paso utiliza un algoritmo Smith-Waterman en bandas para crear una puntuación optimizada ( opt ) para cada alineación de la secuencia de consulta con una secuencia de la base de datos (biblioteca). Se necesita una banda de 32 residuos centrada en la región init1 del paso 2 para calcular la alineación óptima. Después de buscar en todas las secuencias, el programa traza las puntuaciones iniciales de cada secuencia de la base de datos en un histograma y calcula la significancia estadística de la puntuación "opt". Para las secuencias de proteínas, la alineación final se produce utilizando una alineación Smith-Waterman completa . Para las secuencias de ADN, se proporciona una alineación en bandas.
FASTA puede eliminar las regiones de complejidad antes de alinear las secuencias codificando las regiones de baja complejidad en minúsculas y utilizando la opción -S. Sin embargo, el programa BLAST ofrece más opciones para corregir las estadísticas de composición sesgadas. Por lo tanto, el programa PRSS se agrega al paquete de distribución de FASTA. PRSS mezcla las secuencias coincidentes en la base de datos ya sea en el nivel de una letra o mezcla segmentos cortos cuya longitud puede determinar el usuario. Las secuencias mezcladas ahora se alinean nuevamente y si la puntuación sigue siendo más alta de lo esperado, esto se debe a que las regiones de baja complejidad se mezclan y aún se asignan a la consulta. Por la cantidad de puntuación que aún alcanzan las secuencias mezcladas, PRSS ahora puede predecir la importancia de la puntuación de las secuencias originales. Cuanto mayor sea la puntuación de las secuencias mezcladas, menos significativas serán las coincidencias encontradas entre la base de datos original y la secuencia de consulta. [5]
Los programas FASTA encuentran regiones de similitud local o global entre secuencias de proteínas o ADN, ya sea buscando en bases de datos de proteínas o ADN o identificando duplicaciones locales dentro de una secuencia. Otros programas brindan información sobre la significación estadística de una alineación. Al igual que BLAST, FASTA se puede utilizar para inferir relaciones funcionales y evolutivas entre secuencias, así como para ayudar a identificar miembros de familias de genes.
^ Lipman, DJ; Pearson, WR (1985). "Búsquedas de similitud de proteínas rápidas y sensibles". Science . 227 (4693): 1435–41. Bibcode :1985Sci...227.1435L. doi :10.1126/science.2983426. PMID 2983426.
^ Pearson, WR; Lipman, DJ (1988). "Herramientas mejoradas para la comparación de secuencias biológicas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 85 (8): 2444–8. Bibcode :1988PNAS...85.2444P. doi : 10.1073/pnas.85.8.2444 . PMC 280013 . PMID 3162770.
^ "Programas FASTA". Archivado desde el original el 4 de marzo de 2000.
^ "FASTA/SSEARCH/GGSEARCH/GLSEARCH < Búsqueda de similitud de secuencia < EMBL-EBI".
^ David W. Mount: Bioinformática, secuenciación y análisis del genoma , edición 1, Cold Spring Harbor Laboratory Press, 2001, págs. 295-297.