Formato de archivo para datos de secuencia
El formato Pileup es un formato basado en texto para resumir las llamadas de bases de lecturas alineadas con una secuencia de referencia. Este formato facilita la visualización de llamadas y alineaciones de SNP /indel. Fue utilizado por primera vez por Tony Cox y Zemin Ning en el Wellcome Trust Sanger Institute y se hizo ampliamente conocido a través de su implementación dentro del paquete de software SAMtools . [1]
Formato
Ejemplo
Las columnas
Cada línea consta de 5 (u opcionalmente 6) columnas separadas por tabulaciones:
- Identificador de secuencia
- Posición en secuencia (empezando desde 1)
- Nucleótido de referencia en esa posición
- Número de lecturas alineadas que cubren esa posición (profundidad de cobertura)
- Bases en esa posición de lecturas alineadas
- Phred Calidad de dichas bases, representadas en ASCII con desplazamiento -33 (OPCIONAL)
Columna 5: La cadena de bases
- . (punto) significa una base que coincidió con la referencia en la cadena delantera
- , (coma) significa una base que coincidió con la referencia en la cadena inversa
- </> (signo mayor/menor que) denota una omisión de referencia. Esto ocurre, por ejemplo, si una base en el genoma de referencia es intrónica y una lectura se asigna a dos exones flanqueantes. Si se dan puntuaciones de calidad en una sexta columna, se refieren a la calidad de la lectura y no a la base específica.
- AGTCN (mayúscula) denota una base que no coincide con la referencia en la cadena delantera
- agtcn (minúscula) denota una base que no coincide con la referencia en la cadena inversa
- Una secuencia que coincide con la expresión regular denota una inserción de una o más bases a partir de la siguiente posición. Por ejemplo, +2AG significa inserción de AG en la cadena anterior
\+[0-9]+[ACGTNacgtn]+
- Una secuencia que coincida con la expresión regular denota una eliminación de una o más bases a partir de la siguiente posición. Por ejemplo, -2ct significa eliminación de CT en la cadena inversa
\-[0-9]+[ACGTNacgtn]+
- ^ (signo de intercalación) marca el inicio de un segmento de lectura y el ASCII del carácter que sigue a `^' menos 33 da la calidad del mapeo
- $ (dólar) marca el final de un segmento de lectura
- * (asterisco) es un marcador de posición para una base eliminada en una eliminación de pares de bases múltiples que se mencionó en una línea anterior mediante la notación
-[0-9]+[ACGTNacgtn]+
Columna 6: La cadena de calidad base
Esta es una columna opcional. Si está presente, el valor ASCII del carácter menos 33 proporciona la calidad de mapeo de Phred de cada una de las bases en la columna anterior 5. Esto es similar a la codificación de calidad en el formato FASTQ .
Extensión de archivo
No existe una extensión de archivo estándar para un archivo Pileup, pero se utilizan .msf (archivo de secuencia múltiple), .pup [2] y .pileup [3] [4] .
Véase también
Referencias
- ^ Li H.; Handsaker B.; Wysoker A.; Fennell T.; Ruan J.; Homer N.; Marth G.; Abecasis G.; Durbin R; Subgrupo de procesamiento de datos del Proyecto Genoma 1000 (2009) (2009). "El formato de alineamiento/mapa de secuencias (SAM) y SAMtools". Bioinformática . 25 (16): 2078–2079. doi :10.1093/bioinformatics/btp352. PMC 2723002 . PMID 19505943.
{{cite journal}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ) - ^ Accelrys (2 de octubre de 1998). "QUANTA: Protein Design. 3. Reading and Writing Sequence Data Files". Universidad de Montreal . Consultado el 27 de marzo de 2020 .
- ^ Glez-Peña, Daniel; Gómez-López, Gonzalo; Reboiro-Jato, Miguel; Fdez-Riverola, Florentino; Pisano, David G (24 de enero de 2011). "PileLine: una caja de herramientas para manejar información de posición del genoma en estudios de secuenciación de próxima generación". Bioinformática BMC . 12 : 31. doi : 10.1186/1471-2105-12-31 . ISSN 1471-2105. PMC 3037855 . PMID 21261974.
- ^ Chisom, Halimat (31 de marzo de 2023). "Formatos de archivo que todo bioinformático, ya sea consagrado o prometedor, debe conocer (y algo más)". Medium . Consultado el 11 de noviembre de 2023 .
Enlaces externos
- Descripción de pileup de SAMtools
- bioruby-pileup_iterator (un analizador de pileup de Ruby)
- pysam (un analizador de pila de Python)