stringtranslate.com

Formato de acumulación

El formato Pileup es un formato basado en texto para resumir las llamadas base de lecturas alineadas a una secuencia de referencia. Este formato facilita la visualización visual de la llamada y alineación de SNP /indel. Fue utilizado por primera vez por Tony Cox y Zemin Ning en el Wellcome Trust Sanger Institute y se hizo ampliamente conocido gracias a su implementación dentro del paquete de software SAMtools . [1]

Formato

Ejemplo

las columnas

Cada línea consta de 5 (u opcionalmente 6) columnas separadas por tabulaciones:

  1. Identificador de secuencia
  2. Posición en secuencia (comenzando desde 1)
  3. Nucleótido de referencia en esa posición.
  4. Número de lecturas alineadas que cubren esa posición (profundidad de cobertura)
  5. Bases en esa posición a partir de lecturas alineadas
  6. Phred Calidad de esas bases, representadas en ASCII con -33 offset (OPCIONAL)

Columna 5: La cadena de bases

Columna 6: La cadena de calidad base

Esta es una columna opcional. Si está presente, el valor ASCII del carácter menos 33 proporciona la calidad Phred del mapeo de cada una de las bases en la columna 5 anterior. Esto es similar a la codificación de calidad en el formato FASTQ .

Extensión de archivo

No existe una extensión de archivo estándar para un archivo Pileup, pero se utilizan .msf (archivo de secuencia múltiple), .pup [2] y .pileup [3] [4] .

Ver también

Referencias

  1. ^ Li H.; Handsaker B.; Wysoker A.; Fennell T.; Ruan J.; Homero N.; Marth G.; Abecasis G.; Durbin R; Subgrupo de procesamiento de datos del Proyecto 1000 Genoma (2009) (2009). "El formato de alineación/mapa de secuencia (SAM) y SAMtools". Bioinformática . 25 (16): 2078-2079. doi : 10.1093/bioinformática/btp352. PMC  2723002 . PMID  19505943.{{cite journal}}: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
  2. ^ Accelrys (2 de octubre de 1998). "QUANTA: Diseño de proteínas. 3. Lectura y escritura de archivos de datos de secuencia". Universidad de Montreal . Consultado el 27 de marzo de 2020 .
  3. ^ Glez-Peña, Daniel; Gómez-López, Gonzalo; Reboiro-Jato, Miguel; Fdez-Riverola, Florentino; Pisano, David G (24 de enero de 2011). "PileLine: una caja de herramientas para manejar información de posición del genoma en estudios de secuenciación de próxima generación". Bioinformática BMC . 12 : 31. doi : 10.1186/1471-2105-12-31 . ISSN  1471-2105. PMC 3037855 . PMID  21261974. 
  4. ^ Chisom, Halimat (31 de marzo de 2023). "Formatos de archivo que todo bioinformático, establecido o futuro, debe conocer (y más)". Medio . Consultado el 11 de noviembre de 2023 .

Enlaces externos