stringtranslate.com

FASTA

FASTA es un paquete de software de alineación de secuencias de proteínas y ADN descrito por primera vez por David J. Lipman y William R. Pearson en 1985. [1] Su legado es el formato FASTA , que ahora es omnipresente en bioinformática .

Historia

El programa FASTA original fue diseñado para la búsqueda de similitudes de secuencias de proteínas. Debido a la expansión exponencial de la información genética y a la velocidad y memoria limitadas de las computadoras, en la década de 1980 se introdujeron métodos heurísticos que alineaban una secuencia de consulta con bases de datos completas. FASTA, publicado en 1987, añadió la capacidad de realizar búsquedas de ADN:ADN, proteínas traducidas:búsquedas de ADN y también proporcionó un programa de mezcla más sofisticado para evaluar la significación estadística. [2] Hay varios programas en este paquete que permiten el alineamiento de secuencias de proteínas y secuencias de ADN. Hoy en día, el aumento del rendimiento de las computadoras permite realizar búsquedas de detección de alineación local en una base de datos utilizando el algoritmo de Smith-Waterman .

FASTA se pronuncia "fast A" y significa "FAST-All", porque funciona con cualquier alfabeto, una extensión de las herramientas de alineación originales "FAST-P" (proteína) y "FAST-N" (nucleótido).

Cronología de Mappers (desde 2001). Los mapeadores de ADN están trazados en azul, los mapeadores de ARN en rojo, los mapeadores de miARN en verde y los mapeadores de bisulfito en violeta. Las líneas de puntos grises conectan mapeadores relacionados (extensiones o nuevas versiones). La línea de tiempo solo incluye cartógrafos con publicaciones revisadas por pares y la fecha corresponde a la fecha de publicación más temprana (por ejemplo, fecha de publicación avanzada en lugar de la fecha de publicación).

Usos

El paquete FASTA actual contiene programas para proteína:proteína, ADN:ADN, proteína:ADN traducido (con desplazamientos de marco) y búsquedas de péptidos ordenados o desordenados. Las versiones recientes del paquete FASTA incluyen algoritmos de búsqueda traducidos especiales que manejan correctamente los errores de desplazamiento de fotogramas (que las búsquedas traducidas en seis fotogramas no manejan muy bien) al comparar datos de secuencias de nucleótidos con proteínas.

Además de los métodos de búsqueda heurística rápida, el paquete FASTA proporciona SSEARCH, una implementación del algoritmo óptimo de Smith-Waterman .

Un objetivo importante del paquete es el cálculo de estadísticas de similitud precisas, de modo que los biólogos puedan juzgar si es probable que una alineación haya ocurrido por casualidad o si puede usarse para inferir homología . El paquete FASTA está disponible en la Universidad de Virginia [3] y el Instituto Europeo de Bioinformática . [4]

El formato de archivo FASTA utilizado como entrada para este software ahora es ampliamente utilizado por otras herramientas de búsqueda de bases de datos de secuencias (como BLAST ) y programas de alineación de secuencias ( Clustal , T-Coffee , etc.).

Método de búsqueda

FASTA toma una secuencia de nucleótidos o aminoácidos determinada y busca en una base de datos de secuencias correspondiente utilizando la alineación de secuencias local para encontrar coincidencias de secuencias de bases de datos similares.

El programa FASTA sigue un método en gran medida heurístico que contribuye a la alta velocidad de su ejecución. Inicialmente observa el patrón de coincidencias de palabras, coincidencias de palabra a palabra de una longitud determinada y marca coincidencias potenciales antes de realizar una búsqueda optimizada que requiere más tiempo utilizando un algoritmo de tipo Smith-Waterman .

El tamaño de una palabra, dado por el parámetro kmer, controla la sensibilidad y la velocidad del programa. Al aumentar el valor de k-mer, se reduce el número de visitas en segundo plano que se encuentran. A partir de las coincidencias de palabras que se devuelven, el programa busca segmentos que contengan un grupo de coincidencias cercanas. Luego investiga estos segmentos en busca de una posible coincidencia.

Existen algunas diferencias entre fastn y fastp en relación con el tipo de secuencias utilizadas, pero ambos utilizan cuatro pasos y calculan tres puntuaciones para describir y formatear los resultados de similitud de secuencia. Estos son:

En este paso, todas o un grupo de identidades entre dos secuencias se encuentran utilizando una tabla de búsqueda. El valor k-mer determina cuántas identidades consecutivas se requieren para que se declare una coincidencia. Por tanto, cuanto menor sea el valor de k-mer, más sensible será la búsqueda. Los usuarios suelen tomar k-mer=2 para secuencias de proteínas y kmer=4 o 6 para secuencias de nucleótidos. Los oligonucleótidos cortos generalmente se ejecutan con k-mer = 1. Luego, el programa encuentra todas las regiones locales similares , representadas como diagonales de cierta longitud en un diagrama de puntos, entre las dos secuencias contando las coincidencias de k-mer y penalizando las discrepancias intermedias. De esta manera, las regiones locales con coincidencias de mayor densidad en diagonal quedan aisladas de las coincidencias de fondo. Para secuencias de proteínas, los valores BLOSUM50 se utilizan para puntuar coincidencias de k-mer. Esto asegura que los grupos de identidades con puntuaciones de similitud altas contribuyan más a la puntuación diagonal local que las identidades con puntuaciones de similitud bajas. Las secuencias de nucleótidos utilizan la matriz de identidad para el mismo propósito. Luego se guardan las 10 mejores regiones locales seleccionadas de todas las diagonales juntas.
Vuelva a escanear las 10 regiones tomadas. Esta vez utilice la matriz de puntuación relevante mientras vuelve a puntuar para permitir ejecuciones de identidades más cortas que el valor k-mer. Además, mientras se recupera la puntuación, se toman reemplazos conservadores que contribuyen a la puntuación de similitud. Aunque las secuencias de proteínas utilizan la matriz BLOSUM50 , con el programa también se pueden utilizar matrices de puntuación basadas en el número mínimo de cambios de bases necesarios para un reemplazo específico, en identidades solas o en una medida alternativa de similitud como PAM . Para cada una de las regiones diagonales reescaneadas de esta manera, se identifica una subregión con la puntuación máxima. Las puntuaciones iniciales encontradas en el paso 1 se utilizan para clasificar las secuencias de la biblioteca. La puntuación más alta se conoce como puntuación init1 .
Aquí el programa calcula una alineación óptima de las regiones iniciales como una combinación de regiones compatibles con la puntuación máxima. Esta alineación óptima de las regiones iniciales se puede calcular rápidamente utilizando un algoritmo de programación dinámica. El inicio de puntuación resultante se utiliza para clasificar las secuencias de la biblioteca. Este proceso de unión aumenta la sensibilidad pero disminuye la selectividad. Por lo tanto, se utiliza un valor de corte cuidadosamente calculado para controlar dónde se implementa este paso, un valor que es aproximadamente una desviación estándar por encima de la puntuación promedio esperada de secuencias no relacionadas en la biblioteca. Una secuencia de consulta de 200 residuos con k-mer 2 utiliza un valor 28.
Este paso utiliza un algoritmo de Smith-Waterman con bandas para crear una puntuación optimizada ( opt ) para cada alineación de la secuencia de consulta con una secuencia de base de datos (biblioteca). Se necesita una banda de 32 residuos centrada en la región init1 del paso 2 para calcular la alineación óptima. Después de buscar en todas las secuencias, el programa traza las puntuaciones iniciales de cada secuencia de la base de datos en un histograma y calcula la significación estadística de la puntuación "opt". Para las secuencias de proteínas, el alineamiento final se produce utilizando un alineamiento completo de Smith-Waterman . Para las secuencias de ADN, se proporciona una alineación con bandas.

FASTA puede eliminar regiones de complejidad antes de alinear las secuencias codificando regiones de baja complejidad en minúsculas y usando la opción -S. Sin embargo, el programa BLAST ofrece más opciones para corregir estadísticas de composición sesgadas. Por lo tanto, el programa PRSS se agrega en el paquete de distribución FASTA. PRSS mezcla las secuencias coincidentes en la base de datos ya sea en el nivel de una letra o mezcla segmentos cortos cuya longitud el usuario puede determinar. Las secuencias mezcladas ahora están alineadas nuevamente y si la puntuación aún es más alta de lo esperado, esto se debe a que las regiones de baja complejidad están mezcladas y aún se asignan a la consulta. Por la cantidad de puntuación que las secuencias barajadas aún alcanzan, PRSS ahora puede predecir la importancia de la puntuación de las secuencias originales. Cuanto mayor sea la puntuación de las secuencias mezcladas, menos significativas serán las coincidencias encontradas entre la base de datos original y la secuencia de consulta. [5]

Los programas FASTA encuentran regiones de similitud local o global entre secuencias de proteínas o ADN, ya sea buscando en bases de datos de proteínas o ADN, o identificando duplicaciones locales dentro de una secuencia. Otros programas proporcionan información sobre la importancia estadística de una alineación. Al igual que BLAST, FASTA se puede utilizar para inferir relaciones funcionales y evolutivas entre secuencias, así como para ayudar a identificar miembros de familias de genes.

Ver también

Referencias

  1. ^ Lipman, DJ; Pearson, WR (1985). "Búsquedas rápidas y sensibles de similitud de proteínas". Ciencia . 227 (4693): 1435–41. Código bibliográfico : 1985 Ciencia... 227.1435L. doi : 10.1126/ciencia.2983426. PMID  2983426. Icono de acceso cerrado
  2. ^ Pearson, WR; Lipman, DJ (1988). "Herramientas mejoradas para la comparación de secuencias biológicas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 85 (8): 2444–8. Código bibliográfico : 1988PNAS...85.2444P. doi : 10.1073/pnas.85.8.2444 . PMC 280013 . PMID  3162770. 
  3. ^ "Programas FASTA". Archivado desde el original el 4 de marzo de 2000.
  4. ^ "FASTA/SSEARCH/GGSEARCH/GLSEARCH <Búsqueda de similitud de secuencia <EMBL-EBI".
  5. ^ David W. Mount: Análisis del genoma y secuencia bioinformática , edición 1, Cold Spring Harbor Laboratory Press, 2001, págs.