En bioinformática y bioquímica , el formato FASTA es un formato basado en texto para representar secuencias de nucleótidos o secuencias de aminoácidos (proteínas), en el que los nucleótidos o aminoácidos se representan mediante códigos de una sola letra.
El formato permite que los nombres de secuencias y los comentarios precedan a las secuencias. Se originó a partir del paquete de software FASTA y desde entonces se ha convertido en un estándar casi universal en bioinformática . [4]
La simplicidad del formato FASTA facilita la manipulación y el análisis de secuencias mediante herramientas de procesamiento de texto y lenguajes de programación .
Una secuencia comienza con un carácter mayor que (">") seguido de una descripción de la secuencia (todo en una sola línea). Las líneas que siguen inmediatamente a la línea de descripción son la representación de la secuencia, con una letra por aminoácido o ácido nucleico, y normalmente no tienen más de 80 caracteres de longitud.
Por ejemplo:
>MCHU - Calmodulina - Humanos, conejos, bovinos, ratas y pollosMADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREADIDGDGQVNYEEFVQMMTAK*
El formato FASTA/ Pearson original se describe en la documentación del conjunto de programas FASTA . Se puede descargar con cualquier distribución gratuita de FASTA (consulte fasta20.doc, fastaVN.doc o fastaVN.me, donde VN es el número de versión).
En el formato original, una secuencia se representaba como una serie de líneas, cada una de las cuales no tenía más de 120 caracteres y normalmente no superaba los 80 caracteres. Probablemente esto se hizo para permitir la preasignación de tamaños de línea fijos en el software: en ese momento, la mayoría de los usuarios dependían de terminales Digital Equipment Corporation (DEC) VT220 (o compatibles) que podían mostrar 80 o 132 caracteres por línea. [5] [6] La mayoría de la gente prefería la fuente más grande en los modos de 80 caracteres, por lo que se convirtió en la moda recomendada utilizar 80 caracteres o menos (a menudo 70) en las líneas FASTA. Además, el ancho de una página impresa estándar es de 70 a 80 caracteres (según la fuente). Por lo tanto, 80 caracteres se convirtieron en la norma. [7]
La primera línea de un archivo FASTA que comenzaba con un símbolo ">" (mayor que) o, con menos frecuencia, un ";" [8] (punto y coma) se tomaba como comentario. El software ignoraba las líneas posteriores que comenzaban con punto y coma. Dado que el único comentario utilizado era el primero, rápidamente se empezó a utilizar para incluir una descripción resumida de la secuencia, que a menudo comenzaba con un número de acceso de biblioteca único y, con el tiempo, se ha vuelto común utilizar siempre ">" para la primera línea y no utilizar comentarios ";" (que de lo contrario se ignorarían).
Después de la línea inicial (usada para una descripción única de la secuencia) se encontraba la secuencia en sí misma en la cadena de caracteres estándar de una letra. Cualquier cosa que no fuera un carácter válido se ignoraba (incluidos los espacios, tabuladores, asteriscos, etc.). También era común terminar la secuencia con un carácter "*" (asterisco) (en analogía con el uso en secuencias con formato PIR) y, por la misma razón, dejar una línea en blanco entre la descripción y la secuencia. A continuación se muestran algunas secuencias de muestra:
;LCBO - Precursor de prolactina - Bovino; una secuencia de muestra en formato FASTAMDSKSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSSEMFNEFKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHLVTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDEDARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC*>MCHU - Calmodulina - Humanos, conejos, bovinos, ratas y pollosMADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREADIDGDGQVNYEEFVQMMTAK*>gi|5524211|es|AAD44166.1| citocromo b [Elephas maximus maximus]LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENIO
Un formato FASTA de secuencias múltiples, o formato multi-FASTA, se obtendría concatenando varios archivos FASTA de secuencia única en un solo archivo. Esto no implica una contradicción con el formato, ya que solo la primera línea de un archivo FASTA puede comenzar con un ";" o ">", lo que obliga a que todas las secuencias posteriores comiencen con un ">" para que se consideren secuencias separadas (y obliga además a la reserva exclusiva de ">" para la línea de definición de secuencia). Por lo tanto, los ejemplos anteriores serían un archivo multi-FASTA si se toman en conjunto.
Los programas de bioinformática modernos que se basan en el formato FASTA esperan que los encabezados de secuencia estén precedidos por ">". La secuencia generalmente se representa como "intercalada", o en varias líneas como en el ejemplo anterior, pero también puede ser "secuencial", o en una sola línea. La ejecución de diferentes programas de bioinformática puede requerir conversiones entre formatos FASTA "secuencial" e "intercalado".
La línea de descripción (defline) o línea de encabezado/identificador, que comienza con ">", proporciona un nombre y/o un identificador único para la secuencia, y también puede contener información adicional. En una práctica obsoleta, la línea de encabezado a veces contenía más de un encabezado, separados por un carácter ^A (Control-A). En el formato FASTA original de Pearson , uno o más comentarios, distinguidos por un punto y coma al comienzo de la línea, pueden aparecer después del encabezado. Algunas bases de datos y aplicaciones de bioinformática no reconocen estos comentarios y siguen la especificación FASTA de NCBI. A continuación, se muestra un ejemplo de un archivo FASTA de secuencias múltiples:
>SECUENCIA_1MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHKIPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL>SECUENCIA_2TENGA EN CUENTA QUE USTED ESTÁ DE ACUERDO CON EL DERECHO DE AUTORATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
El NCBI definió un estándar para el identificador único utilizado para la secuencia (SeqID) en la línea de encabezado. Esto permite que una secuencia obtenida de una base de datos se etiquete con una referencia a su registro de base de datos. El formato del identificador de la base de datos es comprendido por las herramientas del NCBI como makeblastdb
y table2asn
. La siguiente lista describe el formato definido por NCBI FASTA para los identificadores de secuencia. [9]
Las barras verticales ("|") de la lista anterior no son separadores en el sentido de la forma Backus-Naur, sino que forman parte del formato. Se pueden concatenar varios identificadores, separados también por barras verticales.
Después de la línea de encabezado, se representa la secuencia real. Las secuencias pueden ser secuencias de proteínas o secuencias de ácidos nucleicos , y pueden contener espacios o caracteres de alineación (consulte alineación de secuencias ). Se espera que las secuencias se representen en los códigos de aminoácidos y ácidos nucleicos estándar de la IUB/IUPAC , con estas excepciones: se aceptan letras minúsculas y se asignan a mayúsculas; se puede utilizar un solo guión o raya para representar un carácter de espacio; y en las secuencias de aminoácidos, U y * son letras aceptables (consulte a continuación). No se permiten dígitos numéricos, pero se utilizan en algunas bases de datos para indicar la posición en la secuencia. Los códigos de ácidos nucleicos admitidos son: [10] [11] [12]
Los códigos de aminoácidos admitidos (22 aminoácidos y 3 códigos especiales) son:
No existe una extensión de nombre de archivo estándar para un archivo de texto que contiene secuencias con formato FASTA. La siguiente tabla muestra cada extensión y su respectivo significado.
La compresión de archivos FASTA requiere un compresor específico para manejar ambos canales de información: identificadores y secuencia. Para obtener mejores resultados de compresión, estos se dividen principalmente en dos flujos donde la compresión se realiza asumiendo independencia. Por ejemplo, el algoritmo MFCompress [14] realiza una compresión sin pérdida de estos archivos utilizando modelado de contexto y codificación aritmética. Genozip [15], un paquete de software para comprimir archivos genómicos, utiliza un modelo extensible basado en el contexto. Hosseini et al. en 2016 [16] y Kryukov et al. en 2020 [17] informaron sobre los puntos de referencia de los algoritmos de compresión de archivos FASTA.
El cifrado de archivos FASTA se puede realizar con varias herramientas, entre ellas Cryfa y Genozip. Cryfa utiliza cifrado AES y también permite la compresión de datos. [18] [19] De manera similar, Genozip puede cifrar archivos FASTA con AES-256 durante la compresión. [15]
El formato FASTQ es una forma del formato FASTA ampliada para indicar información relacionada con la secuenciación. Fue creado por el Centro Sanger en Cambridge. [3]
A2M/A3M son una familia de formatos derivados de FASTA que se utilizan para alineaciones de secuencias . En las secuencias A2M/A3M, los caracteres en minúscula se consideran inserciones, que luego se indican en las otras secuencias como el carácter de punto (" . "). Los puntos se pueden descartar para lograr una mayor compacidad sin pérdida de información. Al igual que con los archivos FASTA típicos utilizados en alineaciones, el espacio (" - ") se considera que significa exactamente una posición. [20] A3M es similar a A2M, con la regla adicional de que los espacios alineados con inserciones también se pueden descartar. [21]
Hay una gran cantidad de scripts fáciles de usar disponibles en la comunidad para realizar manipulaciones de archivos FASTA. También hay disponibles cajas de herramientas en línea, como FaBox [22] o FASTX-Toolkit dentro de los servidores Galaxy. [23] Estas se pueden usar para segregar encabezados/identificadores de secuencia, renombrarlos, acortarlos o extraer secuencias de interés de archivos FASTA grandes según una lista de identificadores deseados (entre otras funciones disponibles). También existe un enfoque basado en árboles para ordenar archivos multi-FASTA (TREE2FASTA [24] ) basado en la coloración y/o anotación de secuencias de interés en el visor FigTree . Además, se puede usar el paquete Bioconductor Biostrings para leer y manipular archivos FASTA en R. [25]
Existen varios convertidores de formato en línea para reformatear rápidamente archivos multi-FASTA a diferentes formatos (por ejemplo, NEXUS, PHYLIP) para su uso con diferentes programas filogenéticos, como el convertidor disponible en phylogeny.fr. [26]
{{cite web}}
: CS1 maint: varios nombres: lista de autores ( enlace )