El formato FASTQ es un formato basado en texto para almacenar una secuencia biológica (normalmente una secuencia de nucleótidos ) y sus puntuaciones de calidad correspondientes. Tanto la letra de la secuencia como la puntuación de calidad se codifican con un único carácter ASCII para abreviar.
Se desarrolló originalmente en el Wellcome Trust Sanger Institute para agrupar una secuencia con formato FASTA y sus datos de calidad, pero se ha convertido en el estándar de facto para almacenar los resultados de instrumentos de secuenciación de alto rendimiento como el analizador de genoma Illumina . [1]
Un archivo FASTQ tiene cuatro campos separados por líneas por secuencia:
Un archivo FASTQ que contenga una sola secuencia podría verse así:
ID de secuenciaGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCC65
El byte que representa la calidad va desde 0x21 (calidad más baja; '!' en ASCII) hasta 0x7e (calidad más alta; '~' en ASCII). Estos son los caracteres de valor de calidad en orden creciente de calidad ( ASCII ) de izquierda a derecha :
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
Los archivos FASTQ originales de Sanger dividían secuencias largas y cadenas de calidad en varias líneas, como se suele hacer con los archivos FASTA . Tener esto en cuenta hace que el análisis sea más complicado debido a la elección de "@" y "+" como marcadores (ya que estos caracteres también pueden aparecer en la cadena de calidad). Los archivos FASTQ de varias líneas (y, en consecuencia, los analizadores FASTQ de varias líneas) son menos comunes ahora que la mayoría de las secuenciaciones que se llevan a cabo son secuenciaciones de lectura corta de Illumina , con longitudes de secuencia típicas de alrededor de 100 pb.
Las secuencias del software Illumina utilizan un identificador sistemático:
@HWUSI-EAS100R : 6 : 73 : 941 : 1973 #0/1
Las versiones del pipeline de Illumina desde la 1.4 parecen usar #NNNNNN en lugar de #0 para el ID del multiplex, donde NNNNNN es la secuencia de la etiqueta del multiplex.
Con Casava 1.8 el formato de la línea '@' ha cambiado:
@EAS139 : 136 : FC706VJ : 2 : 2104 : 15343 : 197393 1 : Y : 18 : ATCACG
Tenga en cuenta que las versiones más recientes del software Illumina generan un número de muestra (definido por el orden de las muestras en la hoja de muestras) en lugar de una secuencia de índice cuando no se especifica explícitamente una secuencia de índice para una muestra en la hoja de muestras. Por ejemplo, el siguiente encabezado podría aparecer en un archivo FASTQ que pertenece a la primera muestra de un lote de muestras:
@EAS139 : 136 : FC706VJ : 2 : 2104 : 15343 : 197393 1 : N : 18 : 1
Los archivos FASTQ del Archivo de lectura de secuencias INSDC a menudo incluyen una descripción, por ejemplo
@SRR001666.1 071112_SLXA-EAS1_s_7 : 5 : 1 : 817 : 345 longitud = 36GGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC+SRR001666.1 071112_SLXA-EAS1_s_7 : 5 : 1 : 817 : 345 longitud = 36IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
En este ejemplo, hay un identificador asignado por el NCBI y la descripción contiene el identificador original de Solexa/Illumina (como se describió anteriormente) más la longitud de la lectura. La secuenciación se realizó en modo de extremos emparejados (tamaño de inserción de ~500 pb), consulte SRR001666. El formato de salida predeterminado de fastq-dump produce puntos completos, que contienen todas las lecturas técnicas y, por lo general, lecturas biológicas de extremo único o emparejado.
$ fastq-dump.2.9.0 -Z -X 2 SRR001666 Se leyeron 2 espacios para SRR001666 Se escribieron 2 espacios para SRR001666 @SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=72 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACCAAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=72 IIIIIIIIIIIIIIIIIIIIIIIIIII9IG9ICIIIIIIIIIIIIIIIIIIIIDIIIIIIIII>IIIIII/ @SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 longitud=72 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGAAGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT +SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 longitud=72 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBIIIIIIIIIIIIIIIIIIIIIIIIIGII>IIIII-I)8I
El uso moderno de FASTQ casi siempre implica dividir el spot en sus lecturas biológicas, como se describe en los metadatos proporcionados por el remitente:
$ fastq-dump -X 2 SRR001666 --split-3 Leídos 2 espacios para SRR001666 Escritos 2 espacios para SRR001666 $ head SRR001666_1.fastq SRR001666_2.fastq ==> SRR001666_1.fastq <== @SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC @SRR001666.2 071112_SLXA-EAS1_s_7: 5:1:801:338 longitud=36 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA +SRR001666.2 071112_SLXA- EAS1_s_7:5:1:801:338 longitud=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI ==> SRR001666_2.fastq <== @SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 longitud=36 AAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 longitud=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII>IIIIII/ @SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 longitud=36 AGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT +SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 longitud=36 IIIIIIIIIIIIIIIIIIIIIIGII>IIIIII-I)8I
Cuando está presente en el archivo, fastq-dump puede intentar restaurar los nombres de lectura al formato original. NCBI no almacena los nombres de lectura originales de manera predeterminada:
$ fastq-dump -X 2 SRR001666 --split-3 --origfmt Se leyeron 2 espacios para SRR001666 Se escribieron 2 espacios para SRR001666 $ head SRR001666_1.fastq SRR001666_2.fastq ==> SRR001666_1.fastq <== @071112_SLXA-EAS1_s_7:5:1:817:345 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +071112_SLXA-EAS1_s_7:5:1:817:345 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC @071112_SLXA-EAS1_s_7:5:1:801:338 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA +071112_SLXA-EAS1_s_7:5:1:801:338 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI ==> SRR001666_2.fastq <== @071112_SLXA-EAS1_s_7:5:1:817:345 AAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA +071112_SLXA-EAS1_s_7:5:1:817:345 IIIIIIIIIIIIIIIIIIDIIIIIII>IIIIII/ EAS1_s_7:5:1:801:338 AGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT +071112_SLXA-EAS1_s_7:5:1:801:338 IIIIIIIIIIIIIIIIIIIIIIGII>IIIII-I)8I
En el ejemplo anterior, se utilizaron los nombres de lectura originales en lugar del nombre de lectura ingresado. NCBI registra las ejecuciones y las lecturas que contienen. Los nombres de lectura originales, asignados por secuenciadores, pueden funcionar como identificadores únicos locales de una lectura y transmitir exactamente la misma cantidad de información que un número de serie. Los identificadores anteriores se asignaron algorítmicamente en función de la información de la ejecución y las coordenadas geométricas. Los primeros cargadores de SRA analizaron estos identificadores y almacenaron sus componentes descompuestos internamente. NCBI dejó de registrar los nombres de lectura porque se modifican con frecuencia a partir del formato original de los proveedores para asociar información adicional significativa para una secuencia de procesamiento en particular, y esto provocó violaciones del formato de nombre que dieron como resultado una gran cantidad de envíos rechazados. Sin un esquema claro para los nombres de lectura, su función sigue siendo la de un identificador de lectura único, que transmite la misma cantidad de información que un número de serie de lectura. Consulte varios problemas de SRA Toolkit para obtener detalles y discusiones.
Tenga en cuenta también que fastq-dump convierte estos datos FASTQ de la codificación Solexa/Illumina original al estándar Sanger (consulte las codificaciones a continuación). Esto se debe a que el SRA sirve como repositorio para la información de NGS, en lugar de formato. Las diversas herramientas *-dump son capaces de producir datos en varios formatos a partir de la misma fuente. Los requisitos para hacerlo han sido dictados por los usuarios a lo largo de varios años, y la mayoría de la demanda inicial provino del Proyecto 1000 Genomas .
Un valor de calidad Q es una representación entera de p (es decir, la probabilidad de que la llamada base correspondiente sea incorrecta). Se han utilizado dos ecuaciones diferentes. La primera es la variante estándar de Sanger para evaluar la confiabilidad de una llamada base, también conocida como puntaje de calidad Phred :
El pipeline de Solexa (es decir, el software entregado con el analizador genómico Illumina) anteriormente utilizaba un mapeo diferente, codificando las probabilidades p /(1- p ) en lugar de la probabilidad p :
Aunque ambas asignaciones son asintóticamente idénticas en valores de calidad superiores, difieren en niveles de calidad inferiores (es decir, aproximadamente p > 0,05 o, equivalentemente, Q < 13).
En ocasiones ha habido desacuerdos sobre qué mapeo utiliza realmente Illumina. La guía del usuario (Apéndice B, página 122) para la versión 1.4 del pipeline de Illumina establece que: "Las puntuaciones se definen como [ sic ], donde p es la probabilidad de una llamada de base correspondiente a la base en cuestión". [2] En retrospectiva, esta entrada en el manual parece haber sido un error. La guía del usuario (Novedades, página 5) para la versión 1.5 del pipeline de Illumina enumera esta descripción en su lugar: "Cambios importantes en el pipeline v1.3 [ sic ]. El esquema de puntuación de calidad ha cambiado al esquema de puntuación Phred [es decir, Sanger], codificado como un carácter ASCII agregando 64 al valor Phred. Una puntuación Phred de una base es: , donde e es la probabilidad estimada de que una base sea incorrecta. [3]
@HWI-EAS209_0006_FC706VJ:5:58:5894:21141#ATCACG/1TTAATTGGTAAATAAATCTCCTAATAGCTTAGATNTTACCTTNNNNNNNNNTTAGTTTCTTGAGATTTGTTGGGGGAGACATTTTTGTGATTGCCTTGAT+HWI-EAS209_0006_FC706VJ:5:58:5894:21141#ATCACG/1efcfffffcfeefffcffffffddf`feed]`]_Ba_^__[YBBBBBBBBBBBRTT\]][]dddd`ddd^dddadd^BBBBBBBBBBBBBBBBBBBBBBBB
Se ha propuesto una interpretación alternativa de esta codificación ASCII. [11] Además, en ejecuciones de Illumina con controles PhiX, se observó que el carácter "B" representaba una "puntuación de calidad desconocida". La tasa de error de las lecturas "B" era aproximadamente 3 puntuaciones phred más baja que la puntuación media observada de una ejecución determinada.
En el caso de las lecturas sin procesar, el rango de puntuaciones dependerá de la tecnología y del llamador de base utilizado, pero normalmente será de hasta 41 para la química reciente de Illumina. Dado que anteriormente la puntuación de calidad máxima observada era solo 40, varios scripts y herramientas dejan de funcionar cuando encuentran datos con valores de calidad superiores a 40. En el caso de las lecturas procesadas, las puntuaciones pueden ser incluso superiores. Por ejemplo, se observan valores de calidad de 45 en las lecturas del Servicio de secuenciación de lecturas largas de Illumina (anteriormente Moleculo).
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS ................................................. .... .......................... XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ...................... ................................. IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII ................. .... ................................. J JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ ................. ...... LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL ............................................ ......... NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN... ... EEEEEE EEEEEE EEEEEE EEEEEE EEEEEE EEEEEE EEEEEE EEEEEE EEEEEE EE PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPP !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ | | | | | | | 33 59 64 73 88 104 126 0........................26...31.......40 -5....0....... ...9.................................40 0.....9...... .........40 3.....9................. .........41 0.2.................26...31.......41 0 ..................20.....30.....40.......50 0... .................20.....30.....40........50...55 0.. ................20.......30.....40.......50...... .................................93
S - Sanger Phred+33, lecturas sin procesar típicamente (0, 40) X - Solexa Solexa+64, lecturas sin procesar típicamente (-5, 40) I - Illumina 1.3+ Phred+64, lecturas sin procesar típicamente (0, 40) J - Illumina 1.5+ Phred+64, lecturas sin procesar típicamente (3, 41) con 0=sin usar, 1=sin usar, 2=Indicador de control de calidad del segmento de lectura (en negrita) (Nota: Ver discusión anterior). L - Illumina 1.8+ Phred+33, lecturas sin procesar típicamente (0, 41) N - Nanopore Phred+33, lecturas Duplex típicamente (0, 50) E - ElemBio AVITI Phred+33, lecturas sin procesar típicamente (0, 55) P - PacBio Phred+33, lecturas HiFi típicamente (0, 93)
En el caso de los datos SOLiD, el formato se modifica a una secuencia FASTQ de espacio de color (CSFASTQ), donde las bases de la secuencia se combinan con los números 0, 1, 2 y 3, lo que indica cómo se modifican las bases en relación con la base anterior en la secuencia (0: sin cambios; 1: transición; 2: transversión no complementaria; 3: transversión complementaria). [1] Este formato coincidía con la diferente química de secuenciación utilizada por los secuenciadores SOLiD. Las representaciones iniciales solo utilizaban bases de nucleótidos al comienzo de la secuencia, pero las versiones posteriores incluían bases incrustadas a intervalos periódicos para mejorar la precisión de la identificación de bases y el mapeo.
Los valores de calidad de CSFASTQ son idénticos a los del formato Sanger. Las herramientas de alineación difieren en su versión preferida de los valores de calidad: algunas incluyen una puntuación de calidad (establecida en 0, es decir, '!') para el nucleótido principal, otras no. El archivo de lectura de secuencias incluye esta puntuación de calidad.
El formato FAST4 se inventó como un derivado del formato FASTQ, en el que cada una de las 4 bases (A, C, G, T) tenía probabilidades separadas almacenadas. Formaba parte de Swift basecaller, un paquete de código abierto para el análisis de datos primarios en datos de secuencias de última generación "desde imágenes hasta bases de datos".
El formato FAST5 se inventó como una extensión del formato FAST4. Los archivos FAST5 son archivos de formato de datos jerárquicos 5 (HDF5) con un esquema específico definido por Oxford Nanopore Technologies (ONT). [12]
La simulación de lectura FASTQ se ha abordado mediante varias herramientas. [13] [14] Aquí se puede ver una comparación de esas herramientas. [15]
Las herramientas de uso general, como Gzip y bzip2, consideran a FASTQ como un archivo de texto simple y dan como resultado índices de compresión subóptimos. El archivo de lectura de secuencias de NCBI codifica metadatos utilizando el esquema LZ-77. Los compresores FASTQ generales suelen comprimir campos distintos (nombres de lectura, secuencias, comentarios y puntuaciones de calidad) en un archivo FASTQ por separado; estos incluyen DSRC y DSRC2, FQC, LFQC, Fqzcomp y Slimfastq.
Es conveniente tener un genoma de referencia a mano porque, en lugar de almacenar las secuencias de nucleótidos en sí, se pueden alinear las lecturas con el genoma de referencia y almacenar las posiciones (punteros) y los desajustes; los punteros se pueden ordenar según su orden en la secuencia de referencia y codificar, por ejemplo, con codificación de longitud de ejecución. Cuando la cobertura o el contenido de repetición del genoma secuenciado es alto, esto conduce a una alta tasa de compresión. A diferencia de los formatos SAM /BAM, los archivos FASTQ no especifican un genoma de referencia. Los compresores FASTQ basados en alineación admiten el uso de referencias proporcionadas por el usuario o ensambladas de novo : LW-FQZip utiliza un genoma de referencia proporcionado y Quip, Leon, k-Path y KIC realizan el ensamblaje de novo utilizando un enfoque basado en gráficos de De Bruijn .
El mapeo explícito de lecturas y el ensamblaje de novo suelen ser lentos. Los compresores FASTQ basados en reordenamiento primero agrupan las lecturas que comparten subcadenas largas y luego comprimen de forma independiente las lecturas en cada grupo después de reordenarlas o ensamblarlas en contigs más largos , logrando quizás el mejor equilibrio entre el tiempo de ejecución y la tasa de compresión. SCALCE es la primera herramienta de este tipo, seguida por Orcom y Mince. BEETL utiliza una transformada de Burrows-Wheeler generalizada para reordenar las lecturas, y HARC logra un mejor rendimiento con el reordenamiento basado en hash. En cambio, AssemblTrie ensambla las lecturas en árboles de referencia con la menor cantidad total de símbolos posible en la referencia. [16] [17]
Los puntos de referencia para estas herramientas están disponibles en [18] .
Los valores de calidad representan aproximadamente la mitad del espacio de disco requerido en el formato FASTQ (antes de la compresión) y, por lo tanto, la compresión de los valores de calidad puede reducir significativamente los requisitos de almacenamiento y acelerar el análisis y la transmisión de datos de secuenciación. Recientemente, en la literatura se están considerando tanto la compresión sin pérdida como la compresión con pérdida. Por ejemplo, el algoritmo QualComp [19] realiza una compresión con pérdida con una tasa (número de bits por valor de calidad) especificada por el usuario. Basándose en los resultados de la teoría de la tasa-distorsión, asigna el número de bits de manera de minimizar el MSE (error cuadrático medio) entre los valores de calidad originales (sin comprimir) y los reconstruidos (después de la compresión). Otros algoritmos para la compresión de valores de calidad incluyen SCALCE [20] y Fastqz. [21] Ambos son algoritmos de compresión sin pérdida que proporcionan un enfoque de transformación con pérdida controlada opcional. Por ejemplo, SCALCE reduce el tamaño del alfabeto basándose en la observación de que los valores de calidad "vecinos" son similares en general. Para obtener una referencia, consulte. [22]
A partir del HiSeq 2500, Illumina ofrece la opción de generar calidades que se han clasificado de forma general en grupos de calidad. Las puntuaciones clasificadas se calculan directamente a partir de la tabla de puntuación de calidad empírica, que a su vez está vinculada al hardware, el software y la química que se utilizaron durante el experimento de secuenciación. [23]
No existe una extensión de archivo estándar para un archivo FASTQ, pero comúnmente se utilizan .fq y .fastq.
{{cite journal}}
: CS1 maint: varios nombres: lista de autores ( enlace )