Formato FASTQ

El formato FASTQ es un formato basado en texto para almacenar una secuencia biológica (normalmente una secuencia de nucleótidos ) y sus puntuaciones de calidad correspondientes. Tanto la letra de la secuencia como la puntuación de calidad se codifican con un único carácter ASCII para abreviar.

Se desarrolló originalmente en el Wellcome Trust Sanger Institute para agrupar una secuencia con formato FASTA y sus datos de calidad, pero se ha convertido en el estándar de facto para almacenar los resultados de instrumentos de secuenciación de alto rendimiento como el analizador de genoma Illumina . ^[1]

Formato

Un archivo FASTQ tiene cuatro campos separados por líneas por secuencia:

El campo 1 comienza con un carácter '@' y va seguido de un identificador de secuencia y una descripción opcional (como una línea de título FASTA ).
El campo 2 son las letras de la secuencia sin procesar.
El campo 3 comienza con un carácter '+' y, opcionalmente, está seguido por el mismo identificador de secuencia (y cualquier descripción) nuevamente.
El campo 4 codifica los valores de calidad de la secuencia en el campo 2 y debe contener la misma cantidad de símbolos que letras en la secuencia.

Un archivo FASTQ que contenga una sola secuencia podría verse así:

ID de secuenciaGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCC65

El byte que representa la calidad va desde 0x21 (calidad más baja; '!' en ASCII) hasta 0x7e (calidad más alta; '~' en ASCII). Estos son los caracteres de valor de calidad en orden creciente de calidad ( ASCII ) de izquierda a derecha :

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

Los archivos FASTQ originales de Sanger dividían secuencias largas y cadenas de calidad en varias líneas, como se suele hacer con los archivos FASTA . Tener esto en cuenta hace que el análisis sea más complicado debido a la elección de "@" y "+" como marcadores (ya que estos caracteres también pueden aparecer en la cadena de calidad). Los archivos FASTQ de varias líneas (y, en consecuencia, los analizadores FASTQ de varias líneas) son menos comunes ahora que la mayoría de las secuenciaciones que se llevan a cabo son secuenciaciones de lectura corta de Illumina , con longitudes de secuencia típicas de alrededor de 100 pb.

Identificadores de secuencias de Illumina

Las secuencias del software Illumina utilizan un identificador sistemático:

@HWUSI-EAS100R : 6 : 73 : 941 : 1973 #0/1

Las versiones del pipeline de Illumina desde la 1.4 parecen usar #NNNNNN en lugar de #0 para el ID del multiplex, donde NNNNNN es la secuencia de la etiqueta del multiplex.

Con Casava 1.8 el formato de la línea '@' ha cambiado:

@EAS139 : 136 : FC706VJ : 2 : 2104 : 15343 : 197393 1 : Y : 18 : ATCACG

Tenga en cuenta que las versiones más recientes del software Illumina generan un número de muestra (definido por el orden de las muestras en la hoja de muestras) en lugar de una secuencia de índice cuando no se especifica explícitamente una secuencia de índice para una muestra en la hoja de muestras. Por ejemplo, el siguiente encabezado podría aparecer en un archivo FASTQ que pertenece a la primera muestra de un lote de muestras:

@EAS139 : 136 : FC706VJ : 2 : 2104 : 15343 : 197393 1 : N : 18 : 1

Archivo de lectura de secuencias del NCBI

Los archivos FASTQ del Archivo de lectura de secuencias INSDC a menudo incluyen una descripción, por ejemplo

@SRR001666.1 071112_SLXA-EAS1_s_7 : 5 : 1 : 817 : 345 longitud = 36GGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC+SRR001666.1 071112_SLXA-EAS1_s_7 : 5 : 1 : 817 : 345 longitud = 36IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

En este ejemplo, hay un identificador asignado por el NCBI y la descripción contiene el identificador original de Solexa/Illumina (como se describió anteriormente) más la longitud de la lectura. La secuenciación se realizó en modo de extremos emparejados (tamaño de inserción de ~500 pb), consulte SRR001666. El formato de salida predeterminado de fastq-dump produce puntos completos, que contienen todas las lecturas técnicas y, por lo general, lecturas biológicas de extremo único o emparejado.

$ fastq-dump.2.9.0  -Z  -X 2 SRR001666 Se leyeron 2 espacios para SRR001666 Se escribieron 2 espacios para SRR001666 @SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=72 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACCAAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=72 IIIIIIIIIIIIIIIIIIIIIIIIIII9IG9ICIIIIIIIIIIIIIIIIIIIIDIIIIIIIII>IIIIII/ @SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 longitud=72 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGAAGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT +SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 longitud=72 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBIIIIIIIIIIIIIIIIIIIIIIIIIGII>IIIII-I)8I

El uso moderno de FASTQ casi siempre implica dividir el spot en sus lecturas biológicas, como se describe en los metadatos proporcionados por el remitente:

$ fastq-dump  -X 2 SRR001666 --split-3 Leídos 2 espacios para SRR001666 Escritos 2 espacios para SRR001666 $ head SRR001666_1.fastq SRR001666_2.fastq ==> SRR001666_1.fastq <== @SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC @SRR001666.2 071112_SLXA-EAS1_s_7: 5:1:801:338 longitud=36 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA +SRR001666.2 071112_SLXA- EAS1_s_7:5:1:801:338 longitud=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI     ==> SRR001666_2.fastq <== @SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 longitud=36 AAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 longitud=36 IIIIIIIIIIIIIIIIIIIIDIIIIIII>IIIIII/ @SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 longitud=36 AGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT +SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 longitud=36 IIIIIIIIIIIIIIIIIIIIIIGII>IIIII-I)8I

Cuando está presente en el archivo, fastq-dump puede intentar restaurar los nombres de lectura al formato original. NCBI no almacena los nombres de lectura originales de manera predeterminada:

$ fastq-dump  -X 2 SRR001666 --split-3 --origfmt Se leyeron 2 espacios para SRR001666 Se escribieron 2 espacios para SRR001666 $ head SRR001666_1.fastq SRR001666_2.fastq ==> SRR001666_1.fastq <== @071112_SLXA-EAS1_s_7:5:1:817:345 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +071112_SLXA-EAS1_s_7:5:1:817:345 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC @071112_SLXA-EAS1_s_7:5:1:801:338 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA +071112_SLXA-EAS1_s_7:5:1:801:338 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI      ==> SRR001666_2.fastq <== @071112_SLXA-EAS1_s_7:5:1:817:345 AAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA +071112_SLXA-EAS1_s_7:5:1:817:345 IIIIIIIIIIIIIIIIIIIIDIIIIIII>IIIIII/ @071112_SLXA-EAS1_s_7:5:1:801:338 AGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT +071112_SLXA-EAS1_s_7:5:1:801:338 IIIIIIIIIIIIIIIIIIIIIIGII>IIIII-I)8I

En el ejemplo anterior, se utilizaron los nombres de lectura originales en lugar del nombre de lectura ingresado. NCBI registra las ejecuciones y las lecturas que contienen. Los nombres de lectura originales, asignados por secuenciadores, pueden funcionar como identificadores únicos locales de una lectura y transmitir exactamente la misma cantidad de información que un número de serie. Los identificadores anteriores se asignaron algorítmicamente en función de la información de la ejecución y las coordenadas geométricas. Los primeros cargadores de SRA analizaron estos identificadores y almacenaron sus componentes descompuestos internamente. NCBI dejó de registrar los nombres de lectura porque se modifican con frecuencia a partir del formato original de los proveedores para asociar información adicional significativa para una secuencia de procesamiento en particular, y esto provocó violaciones del formato de nombre que dieron como resultado una gran cantidad de envíos rechazados. Sin un esquema claro para los nombres de lectura, su función sigue siendo la de un identificador de lectura único, que transmite la misma cantidad de información que un número de serie de lectura. Consulte varios problemas de SRA Toolkit para obtener detalles y discusiones.

Tenga en cuenta también que fastq-dump convierte estos datos FASTQ de la codificación Solexa/Illumina original al estándar Sanger (consulte las codificaciones a continuación). Esto se debe a que el SRA sirve como repositorio para la información de NGS, en lugar de formato. Las diversas herramientas *-dump son capaces de producir datos en varios formatos a partir de la misma fuente. Los requisitos para hacerlo han sido dictados por los usuarios a lo largo de varios años, y la mayoría de la demanda inicial provino del Proyecto 1000 Genomas .

Variaciones

Calidad

Un valor de calidad Q es una representación entera de p (es decir, la probabilidad de que la llamada base correspondiente sea incorrecta). Se han utilizado dos ecuaciones diferentes. La primera es la variante estándar de Sanger para evaluar la confiabilidad de una llamada base, también conocida como puntaje de calidad Phred :

Q_{\text{sanger}}=-10\,\log _{10}p

El pipeline de Solexa (es decir, el software entregado con el analizador genómico Illumina) anteriormente utilizaba un mapeo diferente, codificando las probabilidades p /(1- p ) en lugar de la probabilidad p :

Q_{\text{solexa-antes de v.1.3}}=-10\,\log _{10}{\frac {p}{1-p}}

Aunque ambas asignaciones son asintóticamente idénticas en valores de calidad superiores, difieren en niveles de calidad inferiores (es decir, aproximadamente p > 0,05 o, equivalentemente, Q < 13).

En ocasiones ha habido desacuerdos sobre qué mapeo utiliza Illumina en realidad. La guía del usuario (Apéndice B, página 122) para la versión 1.4 del pipeline de Illumina establece que: "Las puntuaciones se definen como ⁠ ⁠ $Q=10\cdot \log _{10}{\tfrac {p}{1-p}}$ [ sic ], donde $p$ es la probabilidad de una llamada de base correspondiente a la base en cuestión". ^[2] En retrospectiva, esta entrada en el manual parece haber sido un error. La guía del usuario (Novedades, página 5) para la versión 1.5 del pipeline de Illumina enumera esta descripción en su lugar: "Cambios importantes en el pipeline v1.3 [ sic ]. El esquema de puntuación de calidad ha cambiado al esquema de puntuación Phred [es decir, Sanger], codificado como un carácter ASCII agregando 64 al valor Phred. Una puntuación Phred de una base es: , donde e es la probabilidad estimada de que una base sea incorrecta. ^[3] $Q_{\text{phred}}=-10\log _{10}e$

Codificación

El formato Sanger puede codificar una puntuación de calidad Phred de 0 a 93 utilizando ASCII 33 a 126 (aunque en los datos de lectura sin procesar la puntuación de calidad Phred rara vez supera los 60, es posible obtener puntuaciones más altas en ensamblajes o mapas de lectura). También se utiliza en formato SAM. ^[4] A finales de febrero de 2011, la versión más reciente (1.8) de la línea de producción CASAVA de Illumina producirá directamente fastq en formato Sanger, según el anuncio en el foro seqanswers.com. ^[5]
Las lecturas AVITI de Element Biosciences se codifican siguiendo la convención de Sanger: los puntajes de calidad de Phred de 0 a 93 se codifican utilizando ASCII 33 a 126. Las lecturas sin procesar generalmente presentan puntajes de calidad base en el rango de [0, 55]. ^[6]
Las lecturas de PacBio HiFi, que normalmente se almacenan en formato SAM/BAM, utilizan la convención de Sanger: los puntajes de calidad de Phred de 0 a 93 se codifican utilizando ASCII 33 a 126. Las sublecturas de PacBio sin procesar utilizan la misma convención, pero normalmente asignan una calidad de base de marcador de posición (Q0) a todas las bases en la lectura. ^[7]
Las lecturas de Oxford Nanopore Duplex, llamadas mediante el llamador base dorado, se almacenan normalmente en formato SAM/BAM. Después de cambiar a una representación de calidad interna de 16 bits, el límite de calidad base informado es q50 (S). ^[8]
El formato Solexa/Illumina 1.0 puede codificar una puntuación de calidad Solexa/Illumina de -5 a 62 utilizando ASCII 59 a 126 (aunque en datos de lectura sin procesar solo se esperan puntuaciones Solexa de -5 a 40)
A partir de Illumina 1.3 y antes de Illumina 1.8, el formato codificó una puntuación de calidad Phred de 0 a 62 utilizando ASCII 64 a 126 (aunque en datos de lectura sin procesar solo se esperan puntuaciones Phred de 0 a 40).
A partir de Illumina 1.5 y antes de Illumina 1.8, las puntuaciones Phred de 0 a 2 tienen un significado ligeramente diferente. Los valores 0 y 1 ya no se utilizan y el valor 2, codificado por ASCII 66 "B", también se utiliza al final de las lecturas como un indicador de control de calidad del segmento de lectura . ^[9] El manual de Illumina ^[10] (página 30) establece lo siguiente: Si una lectura termina con un segmento de calidad mayoritariamente baja (Q15 o inferior), todos los valores de calidad del segmento se reemplazan con un valor de 2 (codificado como la letra B en la codificación basada en texto de las puntuaciones de calidad de Illumina)... Este indicador Q2 no predice una tasa de error específica, sino que indica que una porción final específica de la lectura no debe usarse en análisis posteriores. Además, la puntuación de calidad codificada como la letra "B" puede aparecer internamente en las lecturas al menos hasta la versión 1.6 del proceso de procesamiento, como se muestra en el siguiente ejemplo:

@HWI-EAS209_0006_FC706VJ:5:58:5894:21141#ATCACG/1TTAATTGGTAAATAAATCTCCTAATAGCTTAGTNTTACCTTNNNNNNNNNNNNTAGTTTCTTGAGATTTGTTGGGGGAGACATTTTTGTGATTGCCTTGAT+HWI-EAS209_0006_FC706VJ:5:58:5894:21141#ATCACG/1efcfffffcfeefffcffffffddf`feed]`]_Ba_^__[YBBBBBBBBBBBRTT\]][]dddd`ddd^dddadd^BBBBBBBBBBBBBBBBBBBBBBBB

Se ha propuesto una interpretación alternativa de esta codificación ASCII. ^[11] Además, en ejecuciones de Illumina con controles PhiX, se observó que el carácter "B" representaba una "puntuación de calidad desconocida". La tasa de error de las lecturas "B" era aproximadamente 3 puntuaciones phred más baja que la puntuación media observada de una ejecución determinada.

A partir de Illumina 1.8, los puntajes de calidad básicamente han regresado al uso del formato Sanger (Phred+33).

En el caso de las lecturas sin procesar, el rango de puntuaciones dependerá de la tecnología y del llamador de base utilizado, pero normalmente será de hasta 41 para la química reciente de Illumina. Dado que anteriormente la puntuación de calidad máxima observada era solo 40, varios scripts y herramientas dejan de funcionar cuando encuentran datos con valores de calidad superiores a 40. En el caso de las lecturas procesadas, las puntuaciones pueden ser incluso superiores. Por ejemplo, se observan valores de calidad de 45 en las lecturas del Servicio de secuenciación de lecturas largas de Illumina (anteriormente Moleculo).

 SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS ..................................................... .......................... XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ...................... ................................. IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII ................. .... ................................. J JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ ................. ...... LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL ............................................ ......... NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN... ...  EEEEEE EEEEEE EEEEEE EEEEEE EEEEEE EEEEEE EEEEEE EEEEEE EEEEEE EE  PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPP  !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ | | | | | | | 33 59 64 73 88 104 126 0........................26...31.......40  -5....0....... ...9................................40  0.....9...... .........40  3.....9................. .........41  0.2.................26...31........41  0 .................20.....30.....40.......50  0... .................20.....30.....40........50...55  0.. ................20.......30.....40.......50...... .................................93

 S - Sanger Phred+33, lecturas sin procesar típicamente (0, 40)  X - Solexa Solexa+64, lecturas sin procesar típicamente (-5, 40)  I - Illumina 1.3+ Phred+64, lecturas sin procesar típicamente (0, 40)  J - Illumina 1.5+ Phred+64, lecturas sin procesar típicamente (3, 41) con 0=sin usar, 1=sin usar, 2=Indicador de control de calidad del segmento de lectura (en negrita) (Nota: Ver discusión anterior).  L - Illumina 1.8+ Phred+33, lecturas sin procesar típicamente (0, 41)  N - Nanopore Phred+33, lecturas Duplex típicamente (0, 50)  E - ElemBio AVITI Phred+33, lecturas sin procesar típicamente (0, 55)  P - PacBio Phred+33, lecturas HiFi típicamente (0, 93)

Espacio de color

En el caso de los datos SOLiD, el formato se modifica a una secuencia FASTQ de espacio de color (CSFASTQ), donde las bases de la secuencia se combinan con los números 0, 1, 2 y 3, lo que indica cómo se modifican las bases en relación con la base anterior en la secuencia (0: sin cambios; 1: transición; 2: transversión no complementaria; 3: transversión complementaria). ^[1] Este formato coincidía con la diferente química de secuenciación utilizada por los secuenciadores SOLiD. Las representaciones iniciales solo utilizaban bases de nucleótidos al comienzo de la secuencia, pero las versiones posteriores incluían bases incrustadas a intervalos periódicos para mejorar la precisión de la identificación de bases y el mapeo.

Los valores de calidad de CSFASTQ son idénticos a los del formato Sanger. Las herramientas de alineación difieren en su versión preferida de los valores de calidad: algunas incluyen una puntuación de calidad (establecida en 0, es decir, '!') para el nucleótido principal, otras no. El archivo de lectura de secuencias incluye esta puntuación de calidad.

Evoluciones de FAST5 y HDF5

El formato FAST4 se inventó como un derivado del formato FASTQ, en el que cada una de las 4 bases (A, C, G, T) tenía probabilidades separadas almacenadas. Formaba parte de Swift basecaller, un paquete de código abierto para el análisis de datos primarios en datos de secuencias de última generación "desde imágenes hasta bases de datos".

El formato FAST5 se inventó como una extensión del formato FAST4. Los archivos FAST5 son archivos de formato de datos jerárquicos 5 (HDF5) con un esquema específico definido por Oxford Nanopore Technologies (ONT). ^[12]

Simulación

La simulación de lectura FASTQ se ha abordado mediante varias herramientas. ^[13]^[14] Aquí se puede ver una comparación de esas herramientas. ^[15]

Compresión

Compresores generales

Las herramientas de uso general, como Gzip y bzip2, consideran a FASTQ como un archivo de texto simple y dan como resultado índices de compresión subóptimos. El archivo de lectura de secuencias de NCBI codifica metadatos utilizando el esquema LZ-77. Los compresores FASTQ generales suelen comprimir campos distintos (nombres de lectura, secuencias, comentarios y puntuaciones de calidad) en un archivo FASTQ por separado; estos incluyen DSRC y DSRC2, FQC, LFQC, Fqzcomp y Slimfastq.

Lee

Tener un genoma de referencia cerca es conveniente porque entonces, en lugar de almacenar las secuencias de nucleótidos en sí, uno puede simplemente alinear las lecturas con el genoma de referencia y almacenar las posiciones (punteros) y los desajustes; los punteros pueden entonces ordenarse según su orden en la secuencia de referencia y codificarse, por ejemplo, con codificación de longitud de ejecución. Cuando la cobertura o el contenido de repetición del genoma secuenciado es alto, esto conduce a una alta relación de compresión. A diferencia de los formatos SAM /BAM, los archivos FASTQ no especifican un genoma de referencia. Los compresores FASTQ basados en alineación admiten el uso de referencia proporcionada por el usuario o ensamblada de novo : LW-FQZip utiliza un genoma de referencia proporcionado y Quip, Leon, k-Path y KIC realizan el ensamblaje de novo utilizando un enfoque basado en gráficos de De Bruijn .

El mapeo explícito de lecturas y el ensamblaje de novo suelen ser lentos. Los compresores FASTQ basados en reordenamiento primero agrupan las lecturas que comparten subcadenas largas y luego comprimen de forma independiente las lecturas en cada grupo después de reordenarlas o ensamblarlas en contigs más largos , logrando quizás el mejor equilibrio entre el tiempo de ejecución y la tasa de compresión. SCALCE es la primera herramienta de este tipo, seguida por Orcom y Mince. BEETL utiliza una transformada de Burrows-Wheeler generalizada para reordenar las lecturas, y HARC logra un mejor rendimiento con el reordenamiento basado en hash. En cambio, AssemblTrie ensambla las lecturas en árboles de referencia con la menor cantidad total de símbolos posible en la referencia. ^[16]^[17]

Los puntos de referencia para estas herramientas están disponibles en ^{[18] .}

Valores de calidad

Los valores de calidad representan aproximadamente la mitad del espacio de disco requerido en el formato FASTQ (antes de la compresión) y, por lo tanto, la compresión de los valores de calidad puede reducir significativamente los requisitos de almacenamiento y acelerar el análisis y la transmisión de datos de secuenciación. Recientemente, en la literatura se están considerando tanto la compresión sin pérdida como la compresión con pérdida. Por ejemplo, el algoritmo QualComp ^[19] realiza una compresión con pérdida con una tasa (número de bits por valor de calidad) especificada por el usuario. Basándose en los resultados de la teoría de la tasa-distorsión, asigna el número de bits de manera de minimizar el MSE (error cuadrático medio) entre los valores de calidad originales (sin comprimir) y los reconstruidos (después de la compresión). Otros algoritmos para la compresión de valores de calidad incluyen SCALCE ^[20] y Fastqz. ^[21] Ambos son algoritmos de compresión sin pérdida que proporcionan un enfoque de transformación con pérdida controlada opcional. Por ejemplo, SCALCE reduce el tamaño del alfabeto basándose en la observación de que los valores de calidad "vecinos" son similares en general. Para obtener una referencia, consulte. ^[22]

A partir del HiSeq 2500, Illumina ofrece la opción de generar calidades que se han clasificado de forma general en grupos de calidad. Las puntuaciones clasificadas se calculan directamente a partir de la tabla de puntuación de calidad empírica, que a su vez está vinculada al hardware, el software y la química que se utilizaron durante el experimento de secuenciación. ^[23]

Extensión de archivo

No existe una extensión de archivo estándar para un archivo FASTQ, pero comúnmente se utilizan .fq y .fastq.

Convertidores de formato

Versión 1.51 de Biopython en adelante (interconvierte Sanger, Solexa e Illumina 1.3+)
EMBOSS versión 6.1.0 parche 1 en adelante (interconvierte Sanger, Solexa e Illumina 1.3+)
BioPerl versión 1.6.1 en adelante (interconvierte Sanger, Solexa e Illumina 1.3+)
Versión 1.4.0 de BioRuby en adelante (interconvierte Sanger, Solexa e Illumina 1.3+)
Versión BioJava 1.7.1 en adelante (interconvierte Sanger, Solexa e Illumina 1.3+)

Véase también

El formato FASTA , utilizado para representar secuencias del genoma.
Los formatos SAM y CRAM , utilizados para representar lecturas del secuenciador genómico que se han alineado con las secuencias genómicas.
El formato GVF (Genome Variation Format), una extensión basada en el formato GFF3 .

Referencias

^ ab Cock, PJA; Campos, CJ; Goto, N.; Heuer, ML; Rice, PM (2009). "El formato de archivo Sanger FASTQ para secuencias con puntuaciones de calidad y las variantes Solexa/Illumina FASTQ". Nucleic Acids Research . 38 (6): 1767–1771. doi :10.1093/nar/gkp1137. PMC 2847217 . PMID 20015970.
^ Guía del usuario del software de análisis de secuenciación: para Pipeline versión 1.4 y CASAVA versión 1.0, con fecha de abril de 2009 PDF Archivado el 10 de junio de 2010 en Wayback Machine
^ Guía del usuario del software de análisis de secuenciación: para Pipeline versión 1.5 y CASAVA versión 1.0, con fecha de agosto de 2009 PDF ^{[ enlace roto ]}
^ Formato de mapa de secuencia/alineación Versión 1.0, con fecha de agosto de 2009 PDF
^ Tema de Seqanswer de skruglyak, fechado en enero de 2011 sitio web
^ Especificación de formato Elembio AVITI FASTQ https://docs.elembio.io/docs/bases2fastq/outputs/#quality-scores
^ Especificación de formato PacBio BAM 10.0.0 https://pacbiofileformats.readthedocs.io/en/10.0/BAM.html#qual
^ Guía de basecalling dúplex de Dorado [duplex-tools: uso con dorado https://github.com/nanoporetech/duplex-tools#usage-with-dorado-recommended]
^ Puntuaciones de calidad de Illumina, Tobias Mann, Bioinformática, San Diego, Illumina http://seqanswers.com/forums/showthread.php?t=4721
^ Uso del software de control de secuenciación Genome Analyzer, versión 2.6, número de catálogo SY-960-2601, número de pieza 15009921 Rev. A, noviembre de 2009 http://watson.nci.nih.gov/solexa/Using_SCSv2.6_15009921_A.pdf ^{[ enlace roto ]}
^ Sitio web del proyecto SolexaQA
^ "Introducción a los archivos Fast5". labs.epi2me.io . Consultado el 19 de mayo de 2022 .
^ Huang, W; Li, L; Myers, JR; Marth, GT (2012). "ART: un simulador de lectura de secuenciación de próxima generación". Bioinformática . 28 (4): 593–4. doi :10.1093/bioinformatics/btr708. PMC 3278762 . PMID 22199392.
^ Pratas, D; Pinho, AJ; Rodrigues, JM (2014). "XS: Un simulador de lectura FASTQ". BMC Research Notes . 7 : 40. doi : 10.1186/1756-0500-7-40 . PMC 3927261 . PMID 24433564.
^ Escalona, Merly; Rocha, Sara; Posada, David (2016). "Una comparación de herramientas para la simulación de datos de secuenciación genómica de próxima generación". Nature Reviews Genetics . 17 (8): 459–69. doi :10.1038/nrg.2016.57. PMC 5224698 . PMID 27320129.
^ Ginart AA, Hui J, Zhu K, Numanagić I, Courtade TA, Sahinalp SC; et al. (2018). "Representación comprimida óptima de datos de secuencia de alto rendimiento mediante ensamblaje ligero". Nat Commun . 9 (1): 566. Bibcode :2018NatCo...9..566G. doi :10.1038/s41467-017-02480-6. PMC 5805770 . PMID 29422526. {{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Zhu, Kaiyuan; Numanagić, Ibrahim; Sahinalp, S. Cenk (2018). "Compresión de datos genómicos". Enciclopedia de tecnologías de big data . Cham: Springer International Publishing. págs. 779–783. doi :10.1007/978-3-319-63962-8_55-1. ISBN 978-3-319-63962-8.S2CID61153904 .
^ Numanagić, Ibrahim; Bonfield, James K; Hach, Faraz; Voges, Jan; Ostermann, Jörn; Alberti, Claudio; Mattavelli, Marco; Sahinalp, S Cenk (24 de octubre de 2016). "Comparación de herramientas de compresión de datos de secuenciación de alto rendimiento". Nature Methods . 13 (12). Springer Science and Business Media LLC: 1005–1008. doi :10.1038/nmeth.4037. ISSN 1548-7091. PMID 27776113. S2CID 205425373.
^ Ochoa, Idoia; Asnani, Himanshu; Bharadia, Dinesh; Chowdhury, Mainak; Weissman, Tsachy; Yona, Golan (2013). "Qual Comp: Un nuevo compresor con pérdida para puntuaciones de calidad basado en la teoría de distorsión de la tasa". BMC Bioinformatics . 14 : 187. doi : 10.1186/1471-2105-14-187 . PMC 3698011 . PMID 23758828.
^ Hach, F; Numanagic, I; Alkan, C; Sahinalp, SC (2012). "SCALCE: Impulsando algoritmos de compresión de secuencias usando codificación localmente consistente". Bioinformática . 28 (23): 3051–7. doi :10.1093/bioinformatics/bts593. PMC 3509486 . PMID 23047557.
^ fastqz.http://mattmahoney.net/dc/fastqz/
^ M. Hosseini, D. Pratas y A. Pinho. 2016. Una encuesta sobre métodos de compresión de datos para secuencias biológicas. Información 7 (4):(2016): 56
^ Nota técnica de Illumina. http://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/technote_understanding_quality_scores.pdf

Enlaces externos

Página web de MAQ que analiza las variantes de FASTQ