stringtranslate.com

Formato pileup

El formato Pileup es un formato basado en texto para resumir las llamadas de bases de lecturas alineadas con una secuencia de referencia. Este formato facilita la visualización de llamadas y alineaciones de SNP /indel. Fue utilizado por primera vez por Tony Cox y Zemin Ning en el Wellcome Trust Sanger Institute y se hizo ampliamente conocido a través de su implementación dentro del paquete de software SAMtools . [1]

Formato

Ejemplo

Las columnas

Cada línea consta de 5 (u opcionalmente 6) columnas separadas por tabulaciones:

  1. Identificador de secuencia
  2. Posición en secuencia (empezando desde 1)
  3. Nucleótido de referencia en esa posición
  4. Número de lecturas alineadas que cubren esa posición (profundidad de cobertura)
  5. Bases en esa posición de lecturas alineadas
  6. Phred Calidad de dichas bases, representadas en ASCII con desplazamiento -33 (OPCIONAL)

Columna 5: La cadena de bases

Columna 6: La cadena de calidad base

Esta es una columna opcional. Si está presente, el valor ASCII del carácter menos 33 proporciona la calidad de mapeo de Phred de cada una de las bases en la columna anterior 5. Esto es similar a la codificación de calidad en el formato FASTQ .

Extensión de archivo

No existe una extensión de archivo estándar para un archivo Pileup, pero se utilizan .msf (archivo de secuencia múltiple), .pup [2] y .pileup [3] [4] .

Véase también

Referencias

  1. ^ Li H.; Handsaker B.; Wysoker A.; Fennell T.; Ruan J.; Homer N.; Marth G.; Abecasis G.; Durbin R; Subgrupo de procesamiento de datos del Proyecto Genoma 1000 (2009) (2009). "El formato de alineamiento/mapa de secuencias (SAM) y SAMtools". Bioinformática . 25 (16): 2078–2079. doi :10.1093/bioinformatics/btp352. PMC  2723002 . PMID  19505943.{{cite journal}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
  2. ^ Accelrys (2 de octubre de 1998). "QUANTA: Protein Design. 3. Reading and Writing Sequence Data Files". Universidad de Montreal . Consultado el 27 de marzo de 2020 .
  3. ^ Glez-Peña, Daniel; Gómez-López, Gonzalo; Reboiro-Jato, Miguel; Fdez-Riverola, Florentino; Pisano, David G (24 de enero de 2011). "PileLine: una caja de herramientas para manejar información de posición del genoma en estudios de secuenciación de próxima generación". Bioinformática BMC . 12 : 31. doi : 10.1186/1471-2105-12-31 . ISSN  1471-2105. PMC 3037855 . PMID  21261974. 
  4. ^ Chisom, Halimat (31 de marzo de 2023). "Formatos de archivo que todo bioinformático, ya sea consagrado o prometedor, debe conocer (y algo más)". Medium . Consultado el 11 de noviembre de 2023 .

Enlaces externos