Formato de archivo para datos de secuencia
El formato Pileup es un formato basado en texto para resumir las llamadas base de lecturas alineadas a una secuencia de referencia. Este formato facilita la visualización visual de la llamada y alineación de SNP /indel. Fue utilizado por primera vez por Tony Cox y Zemin Ning en el Wellcome Trust Sanger Institute y se hizo ampliamente conocido gracias a su implementación dentro del paquete de software SAMtools . [1]
Formato
Ejemplo
las columnas
Cada línea consta de 5 (u opcionalmente 6) columnas separadas por tabulaciones:
- Identificador de secuencia
- Posición en secuencia (comenzando desde 1)
- Nucleótido de referencia en esa posición.
- Número de lecturas alineadas que cubren esa posición (profundidad de cobertura)
- Bases en esa posición a partir de lecturas alineadas
- Phred Calidad de esas bases, representadas en ASCII con -33 offset (OPCIONAL)
Columna 5: La cadena de bases
- . (punto) significa una base que coincidía con la referencia en la cadena delantera
- , (coma) significa una base que coincide con la referencia en el hilo inverso
- </> (signo menor/mayor que) indica un salto de referencia. Esto ocurre, por ejemplo, si una base en el genoma de referencia es intrónica y una lectura se asigna a dos exones flanqueantes. Si los puntajes de calidad se dan en una sexta columna, se refieren a la calidad de la lectura y no a la base específica.
- AGTCN (mayúscula) denota una base que no coincidía con la referencia en la cadena delantera
- agtcn (minúscula) denota una base que no coincidía con la referencia en el hilo inverso
- Una secuencia que coincide con la expresión regular denota una inserción de una o más bases a partir de la siguiente posición. Por ejemplo, +2AG significa inserción de AG en la cadena delantera
\+[0-9]+[ACGTNacgtn]+
- Una secuencia que coincide con la expresión regular denota una eliminación de una o más bases a partir de la siguiente posición. Por ejemplo, -2ct significa eliminación de CT en la cadena inversa.
\-[0-9]+[ACGTNacgtn]+
- ^ (carácter) marca el inicio de un segmento de lectura y el ASCII del carácter que sigue a `^' menos 33 proporciona la calidad del mapeo
- $ (dólar) marca el final de un segmento de lectura
- * (asterisco) es un marcador de posición para una base eliminada en una eliminación de pares de bases múltiples que se mencionó en una línea anterior mediante la notación
-[0-9]+[ACGTNacgtn]+
Columna 6: La cadena de calidad base
Esta es una columna opcional. Si está presente, el valor ASCII del carácter menos 33 proporciona la calidad Phred del mapeo de cada una de las bases en la columna 5 anterior. Esto es similar a la codificación de calidad en el formato FASTQ .
Extensión de archivo
No existe una extensión de archivo estándar para un archivo Pileup, pero se utilizan .msf (archivo de secuencia múltiple), .pup [2] y .pileup [3] [4] .
Ver también
Referencias
- ^ Li H.; Handsaker B.; Wysoker A.; Fennell T.; Ruan J.; Homero N.; Marth G.; Abecasis G.; Durbin R; Subgrupo de procesamiento de datos del Proyecto 1000 Genoma (2009) (2009). "El formato de alineación/mapa de secuencia (SAM) y SAMtools". Bioinformática . 25 (16): 2078-2079. doi : 10.1093/bioinformática/btp352. PMC 2723002 . PMID 19505943.
{{cite journal}}
: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace ) - ^ Accelrys (2 de octubre de 1998). "QUANTA: Diseño de proteínas. 3. Lectura y escritura de archivos de datos de secuencia". Universidad de Montreal . Consultado el 27 de marzo de 2020 .
- ^ Glez-Peña, Daniel; Gómez-López, Gonzalo; Reboiro-Jato, Miguel; Fdez-Riverola, Florentino; Pisano, David G (24 de enero de 2011). "PileLine: una caja de herramientas para manejar información de posición del genoma en estudios de secuenciación de próxima generación". Bioinformática BMC . 12 : 31. doi : 10.1186/1471-2105-12-31 . ISSN 1471-2105. PMC 3037855 . PMID 21261974.
- ^ Chisom, Halimat (31 de marzo de 2023). "Formatos de archivo que todo bioinformático, establecido o futuro, debe conocer (y más)". Medio . Consultado el 11 de noviembre de 2023 .
Enlaces externos
- Descripción del pileup de SAMtools
- bioruby-pileup_iterator (Un analizador de acumulaciones de Ruby)
- pysam (un analizador de acumulaciones de Python)