Formato FASTA

En bioinformática y bioquímica , el formato FASTA es un formato basado en texto para representar secuencias de nucleótidos o secuencias de aminoácidos (proteínas), en el que los nucleótidos o aminoácidos se representan mediante códigos de una sola letra.

El formato permite que los nombres de secuencias y los comentarios precedan a las secuencias. Se originó a partir del paquete de software FASTA y desde entonces se ha convertido en un estándar casi universal en bioinformática . ^[4]

La simplicidad del formato FASTA facilita la manipulación y el análisis de secuencias mediante herramientas de procesamiento de texto y lenguajes de programación .

Descripción general

Una secuencia comienza con un carácter mayor que (">") seguido de una descripción de la secuencia (todo en una sola línea). Las líneas que siguen inmediatamente a la línea de descripción son la representación de la secuencia, con una letra por aminoácido o ácido nucleico, y normalmente no tienen más de 80 caracteres de longitud.

Por ejemplo:

>MCHU - Calmodulina - Humanos, conejos, bovinos, ratas y pollosMADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREADIDGDGQVNYEEFVQMMTAK*

Formato original

El formato FASTA/ Pearson original se describe en la documentación del conjunto de programas FASTA . Se puede descargar con cualquier distribución gratuita de FASTA (consulte fasta20.doc, fastaVN.doc o fastaVN.me, donde VN es el número de versión).

En el formato original, una secuencia se representaba como una serie de líneas, cada una de las cuales no tenía más de 120 caracteres y normalmente no superaba los 80 caracteres. Probablemente esto se hizo para permitir la preasignación de tamaños de línea fijos en el software: en ese momento, la mayoría de los usuarios dependían de terminales Digital Equipment Corporation (DEC) VT220 (o compatibles) que podían mostrar 80 o 132 caracteres por línea. ^[5]^[6] La mayoría de la gente prefería la fuente más grande en los modos de 80 caracteres, por lo que se convirtió en la moda recomendada utilizar 80 caracteres o menos (a menudo 70) en las líneas FASTA. Además, el ancho de una página impresa estándar es de 70 a 80 caracteres (según la fuente). Por lo tanto, 80 caracteres se convirtieron en la norma. ^[7]

La primera línea de un archivo FASTA que comenzaba con un símbolo ">" (mayor que) o, con menos frecuencia, un ";" ^[8] (punto y coma) se tomaba como comentario. El software ignoraba las líneas posteriores que comenzaban con punto y coma. Dado que el único comentario utilizado era el primero, rápidamente se empezó a utilizar para incluir una descripción resumida de la secuencia, que a menudo comenzaba con un número de acceso de biblioteca único y, con el tiempo, se ha vuelto común utilizar siempre ">" para la primera línea y no utilizar comentarios ";" (que de lo contrario se ignorarían).

Después de la línea inicial (usada para una descripción única de la secuencia) se encontraba la secuencia en sí misma en la cadena de caracteres estándar de una letra. Cualquier cosa que no fuera un carácter válido se ignoraba (incluidos los espacios, tabuladores, asteriscos, etc.). También era común terminar la secuencia con un carácter "*" (asterisco) (en analogía con el uso en secuencias con formato PIR) y, por la misma razón, dejar una línea en blanco entre la descripción y la secuencia. A continuación se muestran algunas secuencias de muestra:

;LCBO - Precursor de prolactina - Bovino; una secuencia de muestra en formato FASTAMDSKSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSSEMFNEFKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHLVTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDEDARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC*>MCHU - Calmodulina - Humanos, conejos, bovinos, ratas y pollosMADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREADIDGDGQVNYEEFVQMMTAK*>gi|5524211|es|AAD44166.1| citocromo b [Elephas maximus maximus]LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENIO

Un formato FASTA de secuencias múltiples, o formato multi-FASTA, se obtendría concatenando varios archivos FASTA de secuencia única en un solo archivo. Esto no implica una contradicción con el formato, ya que solo la primera línea de un archivo FASTA puede comenzar con un ";" o ">", lo que obliga a que todas las secuencias posteriores comiencen con un ">" para que se consideren secuencias separadas (y obliga además a la reserva exclusiva de ">" para la línea de definición de secuencia). Por lo tanto, los ejemplos anteriores serían un archivo multi-FASTA si se toman en conjunto.

Los programas de bioinformática modernos que se basan en el formato FASTA esperan que los encabezados de secuencia estén precedidos por ">". La secuencia generalmente se representa como "intercalada", o en varias líneas como en el ejemplo anterior, pero también puede ser "secuencial", o en una sola línea. La ejecución de diferentes programas de bioinformática puede requerir conversiones entre formatos FASTA "secuencial" e "intercalado".

Línea de descripción

La línea de descripción (defline) o línea de encabezado/identificador, que comienza con ">", proporciona un nombre y/o un identificador único para la secuencia, y también puede contener información adicional. En una práctica obsoleta, la línea de encabezado a veces contenía más de un encabezado, separados por un carácter ^A (Control-A). En el formato FASTA original de Pearson , uno o más comentarios, distinguidos por un punto y coma al comienzo de la línea, pueden aparecer después del encabezado. Algunas bases de datos y aplicaciones de bioinformática no reconocen estos comentarios y siguen la especificación FASTA de NCBI. A continuación, se muestra un ejemplo de un archivo FASTA de secuencias múltiples:

>SECUENCIA_1MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHKIPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL>SECUENCIA_2TENGA EN CUENTA QUE USTED ESTÁ DE ACUERDO CON EL DERECHO DE AUTORATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Identificadores NCBI

El NCBI definió un estándar para el identificador único utilizado para la secuencia (SeqID) en la línea de encabezado. Esto permite que una secuencia obtenida de una base de datos se etiquete con una referencia a su registro de base de datos. El formato del identificador de la base de datos es comprendido por las herramientas del NCBI como makeblastdby table2asn. La siguiente lista describe el formato definido por NCBI FASTA para los identificadores de secuencia. ^[9]

Las barras verticales ("|") de la lista anterior no son separadores en el sentido de la forma Backus-Naur, sino que forman parte del formato. Se pueden concatenar varios identificadores, separados también por barras verticales.

Representación de secuencias

Después de la línea de encabezado, se representa la secuencia real. Las secuencias pueden ser secuencias de proteínas o secuencias de ácidos nucleicos , y pueden contener espacios o caracteres de alineación (consulte alineación de secuencias ). Se espera que las secuencias se representen en los códigos de aminoácidos y ácidos nucleicos estándar de la IUB/IUPAC , con estas excepciones: se aceptan letras minúsculas y se asignan a mayúsculas; se puede utilizar un solo guión o raya para representar un carácter de espacio; y en las secuencias de aminoácidos, U y * son letras aceptables (consulte a continuación). No se permiten dígitos numéricos, pero se utilizan en algunas bases de datos para indicar la posición en la secuencia. Los códigos de ácidos nucleicos admitidos son: ^[10]^[11]^[12]

Los códigos de aminoácidos admitidos (22 aminoácidos y 3 códigos especiales) son:

Archivo FASTA

Extensión de nombre de archivo

No existe una extensión de nombre de archivo estándar para un archivo de texto que contiene secuencias con formato FASTA. La siguiente tabla muestra cada extensión y su respectivo significado.

Compresión

La compresión de archivos FASTA requiere un compresor específico para manejar ambos canales de información: identificadores y secuencia. Para obtener mejores resultados de compresión, estos se dividen principalmente en dos flujos donde la compresión se realiza asumiendo independencia. Por ejemplo, el algoritmo MFCompress ^[14] realiza una compresión sin pérdida de estos archivos utilizando modelado de contexto y codificación aritmética. Genozip ^{[15], un paquete de software para comprimir archivos genómicos, utiliza un modelo extensible basado en el contexto. Hosseini et al. en 2016}^[16] y Kryukov et al. en 2020 ^[17] informaron sobre los puntos de referencia de los algoritmos de compresión de archivos FASTA.

Encriptación

El cifrado de archivos FASTA se puede realizar con varias herramientas, entre ellas Cryfa y Genozip. Cryfa utiliza cifrado AES y también permite la compresión de datos. ^[18]^[19] De manera similar, Genozip puede cifrar archivos FASTA con AES-256 durante la compresión. ^[15]

Extensiones

El formato FASTQ es una forma del formato FASTA ampliada para indicar información relacionada con la secuenciación. Fue creado por el Centro Sanger en Cambridge. ^[3]

A2M/A3M son una familia de formatos derivados de FASTA que se utilizan para alineaciones de secuencias . En las secuencias A2M/A3M, los caracteres en minúscula se consideran inserciones, que luego se indican en las otras secuencias como el carácter de punto (" . "). Los puntos se pueden descartar para lograr una mayor compacidad sin pérdida de información. Al igual que con los archivos FASTA típicos utilizados en alineaciones, el espacio (" - ") se considera que significa exactamente una posición. ^[20] A3M es similar a A2M, con la regla adicional de que los espacios alineados con inserciones también se pueden descartar. ^[21]

Trabajar con archivos FASTA

Hay una gran cantidad de scripts fáciles de usar disponibles en la comunidad para realizar manipulaciones de archivos FASTA. También hay disponibles cajas de herramientas en línea, como FaBox ^[22] o FASTX-Toolkit dentro de los servidores Galaxy. ^[23] Estas se pueden usar para segregar encabezados/identificadores de secuencia, renombrarlos, acortarlos o extraer secuencias de interés de archivos FASTA grandes según una lista de identificadores deseados (entre otras funciones disponibles). También existe un enfoque basado en árboles para ordenar archivos multi-FASTA (TREE2FASTA ^[24] ) basado en la coloración y/o anotación de secuencias de interés en el visor FigTree . Además, se puede usar el paquete Bioconductor Biostrings para leer y manipular archivos FASTA en R. ^[25]

Existen varios convertidores de formato en línea para reformatear rápidamente archivos multi-FASTA a diferentes formatos (por ejemplo, NEXUS, PHYLIP) para su uso con diferentes programas filogenéticos, como el convertidor disponible en phylogeny.fr. ^[26]

Véase también

El formato FASTQ , utilizado para representar lecturas del secuenciador de ADN junto con puntuaciones de calidad.
Los formatos SAM y CRAM , utilizados para representar lecturas del secuenciador genómico que se han alineado con las secuencias genómicas.
El formato GVF (Genome Variation Format), una extensión basada en el formato GFF3 .

Referencias

^ Lipman DJ, Pearson WR (marzo de 1985). "Búsquedas de similitud de proteínas rápidas y sensibles". Science . 227 (4693): 1435–41. Bibcode :1985Sci...227.1435L. doi :10.1126/science.2983426. PMID 2983426.
^ Pearson WR, Lipman DJ (abril de 1988). "Herramientas mejoradas para la comparación de secuencias biológicas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 85 (8): 2444–8. Bibcode :1988PNAS...85.2444P. doi : 10.1073/pnas.85.8.2444 . PMC 280013 . PMID 3162770.
^ ab Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM (abril de 2010). "El formato de archivo Sanger FASTQ para secuencias con puntuaciones de calidad y las variantes Solexa/Illumina FASTQ". Nucleic Acids Research . 38 (6): 1767–71. doi :10.1093/nar/gkp1137. PMC 2847217 . PMID 20015970.
^ "¿Qué es el formato FASTA?". Zhang Lab . Archivado desde el original el 4 de diciembre de 2022. Consultado el 4 de diciembre de 2022 .
^ Landsteiner, mass:werk, Norbert (20 de febrero de 2019). "(¡Ahora sí!) Tipografía CRT rasterizada (según DEC)". ¡Ahora sí! — mass:werk / Blog . Consultado el 15 de marzo de 2024 .{{cite web}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ "Glifos integrados del VT220". VT100 . Consultado el 15 de marzo de 2024 .
^ "¿Por qué 80 caracteres son el límite 'estándar' para el ancho del código?". Software Engineering Stack Exchange . Consultado el 15 de marzo de 2024 .
^ "Formato de base de datos FASTA". www.loc.gov . 2023-08-01 . Consultado el 15 de marzo de 2024 .
^ Libro de herramientas de C++ del NCBI. Centro Nacional de Información Biotecnológica . Consultado el 19 de diciembre de 2018 .
^ Tao Tao (24 de agosto de 2011). «Códigos de una sola letra para nucleótidos». [NCBI Learning Center] . Centro Nacional de Información Biotecnológica . Archivado desde el original el 14 de septiembre de 2012 . Consultado el 15 de marzo de 2012 .
^ "Tabla de códigos IUPAC". Banco de ADN del NIAS. Archivado desde el original el 11 de agosto de 2011.
^ "cualquier símbolo". MAFFT: un programa de alineación de secuencias múltiples .
^ "Formatos de archivo de alineación". 22 de mayo de 2019. Consultado el 22 de mayo de 2019 .
^ Pinho AJ, Pratas D (enero de 2014). "MFCompress: una herramienta de compresión para datos FASTA y multi-FASTA". Bioinformática . 30 (1): 117–8. doi : 10.1093/bioinformática/btt594. PMC 3866555 . PMID 24132931.
^ ab Lan, Divon; Tobler, Ray; Souilmi, Yassine; Llamas, Bastien (15 de febrero de 2021). "Genozip: un compresor de datos genómicos extensible y universal". Bioinformática . 37 (16): 2225–2230. doi :10.1093/bioinformatics/btab102. ISSN 1367-4803. PMC 8388020 . PMID 33585897.
^ Hosseini, Morteza; Pratas, Diogo; Pinho, Armando J. (2016). "Una encuesta sobre métodos de compresión de datos para secuencias biológicas". Información . 7 (4): 56. doi : 10.3390/info7040056 . ISSN 2078-2489.
^ Kryukov K, Ueda MT, Nakagawa S, Imanishi T (julio de 2020). "Base de datos Sequence Compression Benchmark (SCB): una evaluación integral de compresores sin referencia para secuencias con formato FASTA". GigaScience . 9 (7): giaa072. doi :10.1093/gigascience/giaa072. PMC 7336184 . PMID 32627830.
^ Pratas D, Hosseini M, Pinho A (2017). "Cryfa: una herramienta para compactar y cifrar archivos FASTA". 11.ª Conferencia internacional sobre aplicaciones prácticas de la biología computacional y la bioinformática (PACBB) . Avances en sistemas inteligentes y computación. Vol. 616. Springer. págs. 305–312. doi :10.1007/978-3-319-60816-7_37. ISBN . 978-3-319-60815-0.
^ Hosseini, Morteza; Pratas, Diogo; Pinho, Armando J (1 de enero de 2019). Berger, Bonnie (ed.). "Cryfa: una herramienta de cifrado segura para datos genómicos". Bioinformática . 35 (1): 146–148. doi :10.1093/bioinformatics/bty645. ISSN 1367-4803. PMC 6298042 . PMID 30020420.
^ "Descripción del formato de alineación A2M". SAMtools . Archivado desde el original el 15 de agosto de 2022.
^ "soedinglab/hh-suite: reformat.pl". GitHub . 20 de noviembre de 2022.
^ Villesen, P. (2007). "FaBox: una caja de herramientas en línea para secuencias fasta". Notas de ecología molecular . 7 (6): 965–968. doi :10.1111/j.1471-8286.2007.01821.x. ISSN 1471-8278.
^ Blankenberg D, Von Kuster G, Bouvier E, Baker D, Afgan E, Stoler N, Galaxy Team, Taylor J, Nekrutenko A (2014). "Difusión de software científico con Galaxy ToolShed". Genome Biology . 15 (2): 403. doi : 10.1186/gb4161 . PMC 4038738 . PMID 25001293.
^ Sauvage T, Plouviez S, Schmidt WE, Fredericq S (marzo de 2018). "TREE2FASTA: un script flexible de Perl para la extracción por lotes de secuencias FASTA de árboles filogenéticos exploratorios". BMC Research Notes . 11 (1): 403. doi : 10.1186/s13104-018-3268-y . PMC 5838971 . PMID 29506565.
^ Pagès, H; Aboyoun, P; Gentleman, R; DebRoy, S (2018). "Biostrings: manipulación eficiente de cadenas biológicas". Bioconductor.org . Versión del paquete R 2.48.0. doi :10.18129/B9.bioc.Biostrings.
^ Dereeper A, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gascuel O (julio de 2008). "Phylogeny.fr: análisis filogenético robusto para el no especialista". Nucleic Acids Research . 36 (edición del servidor web): W465–9. doi :10.1093/nar/gkn180. PMC 2447785 . PMID 18424797.

Enlaces externos

Bioconductor
Kit de herramientas FASTX
Visor FigTree
Filogenia.fr
GTO