stringtranslate.com

SAM (formato de archivo)

Sequence Alignment Map (SAM) es un formato basado en texto originalmente para almacenar secuencias biológicas alineadas con una secuencia de referencia desarrollada por Heng Li y Bob Handsaker et al . [1] Fue desarrollado cuando el Proyecto 1000 Genomas quiso alejarse del formato del mapeador MAQ y decidió diseñar un nuevo formato. El sabor general del formato delimitado por TAB provino de un formato anterior inspirado en el PSL de BLAT . El nombre de SAM vino de Gabor Marth de la Universidad de Utah , quien originalmente tenía un formato con el mismo nombre pero con una sintaxis diferente más parecida a una salida BLAST . [2] Se utiliza ampliamente para almacenar datos, como secuencias de nucleótidos , generados por tecnologías de secuenciación de próxima generación , y el estándar se ha ampliado para incluir secuencias no mapeadas. El formato admite lecturas cortas y largas (hasta 128 Mbp [3] ) producidas por diferentes plataformas de secuenciación y se utiliza para almacenar datos mapeados dentro del Genome Analysis Toolkit (GATK) y en todo el Broad Institute , el Wellcome Sanger Institute y en todo el Proyecto 1000 Genomas .

Formato

El formato SAM consta de un encabezado y una sección de alineación. [1] El equivalente binario de un archivo SAM es un archivo de mapa de alineación binaria (BAM), que almacena los mismos datos en una representación binaria comprimida. [4] Los archivos SAM se pueden analizar y editar con el software SAMtools . [1] La sección del encabezado debe ser anterior a la sección de alineación si está presente. Los títulos comienzan con el símbolo '@', que los distingue de la sección de alineación. Las secciones de alineación tienen 11 campos obligatorios, así como un número variable de campos opcionales. [1]

Descripción

De la especificación: [4]

  1. QNAME: NOMBRE de la plantilla de consulta. Se considera que las lecturas/segmentos que tienen QNAME idéntico provienen de la misma plantilla. Un QNAME '*' indica que la información no está disponible. En un archivo SAM, una lectura puede ocupar múltiples líneas de alineación, cuando su alineación es quimérica o cuando se dan múltiples asignaciones.
  2. FLAG: Combinación de FLAG bit a bit [5]
  3. RNAME: Secuencia de referencia NOMBRE del alineamiento. Si hay líneas de encabezado @SQ, RNAME (si no es '*') debe estar presente en una de las etiquetas SQ-SN. Un segmento no asignado sin coordenadas tiene un '*' en este campo. Sin embargo, un segmento no mapeado también puede tener una coordenada ordinaria de modo que pueda colocarse en una posición deseada después de la clasificación. Si RNAME es '*', no se pueden hacer suposiciones sobre POS y CIGAR.
  4. POS: POSición de mapeo más a la izquierda basada en 1 de la primera base coincidente. La primera base en una secuencia de referencia tiene la coordenada 1. POS se establece en 0 para una lectura no asignada sin coordenadas. Si POS es 0, no se pueden hacer suposiciones sobre RNAME y CIGAR.
  5. MAPQ: Calidad de mapeo. Es igual a −10 log10 Pr{la posición de mapeo es incorrecta}, redondeado al entero más cercano. Un valor 255 indica que la calidad del mapeo no está disponible.
  6. CIGAR: Cadena de informe de alineación con espacios idiosincrásicos concisos (CIGAR).
  7. RNEXT: Nombre de la secuencia de referencia de la alineación primaria de la NEXT leída en la plantilla. Para la última lectura, la siguiente lectura es la primera lectura en la plantilla. Si las líneas de encabezado @SQ están presentes, RNEXT (si no es '*' o '=') debe estar presente en una de las etiquetas SQ-SN. Este campo se establece como '*' cuando la información no está disponible y como '=' si RNEXT es RNAME idéntico. Si no es '=' y la siguiente lectura en la plantilla tiene una asignación principal (consulte también el bit 0x100 en FLAG), este campo es idéntico a RNAME en la línea principal de la siguiente lectura. Si RNEXT es '*', no se pueden hacer suposiciones sobre PNEXT y el bit 0x20.
  8. PNEXT: Posición de la alineación primaria del NEXT leído en la plantilla. Establecer como 0 cuando la información no esté disponible. Este campo equivale a POS en la línea principal de la siguiente lectura. Si PNEXT es 0, no se pueden hacer suposiciones sobre RNEXT y el bit 0x20.
  9. TLEN: LONGITUD de plantilla observada y firmada. Si todos los segmentos se asignan a la misma referencia, la longitud de la plantilla observada sin firmar es igual al número de bases desde la base mapeada más a la izquierda hasta la base mapeada más a la derecha. El segmento más a la izquierda tiene un signo más y el más a la derecha tiene un signo menos. El signo de los segmentos en el medio no está definido. Se establece en 0 para plantilla de un solo segmento o cuando la información no está disponible.
  10. SEQ: segmento SEQuence. Este campo puede ser un '*' cuando la secuencia no está almacenada. Si no es un '*', la longitud de la secuencia debe ser igual a la suma de las longitudes de las operaciones M/I/S/=/X en CIGAR. Un '=" indica que la base es idéntica a la base de referencia. No se pueden hacer suposiciones sobre las cajas de letras.
  11. QUAL: ASCII de QUALity base más 33 (igual que la cadena de calidad en el formato Sanger FASTQ ). Una calidad base es la probabilidad de error base escalada en phred que es igual a −10 log10 Pr{la base es incorrecta}. Este campo puede ser un '*' cuando la calidad no está almacenada. Si no es un '*', la SEQ no debe ser un '*' y la longitud de la cadena de calidad debe ser igual a la longitud de la SEQ.

Banderas bit a bit

El campo FLAG se muestra como un único número entero, pero es la suma de indicadores bit a bit para indicar múltiples atributos de una alineación de lectura. [4] Cada atributo denota un bit en la representación binaria del número entero.

Los atributos FLAG se suman para obtener el valor final; por ejemplo, una fila SAM resultante de un registro FASTQ de extremo emparejado de Illumina que tiene el valor FLAG 2145 indicaría:

Campos opcionales

De la especificación para Alineación de secuencia/Especificación de campos opcionales de mapa (SAMtags): [6]

El tipo puede ser A (carácter), C (entero 0-255), f (número real), H (matriz hexadecimal), i (entero) o Z (cadena). Puede ser un valor único o B (matriz general).

Ver también

Referencias

  1. ^ abcdeLi , H.; Handsaker, B.; Wysoker, A.; Fennell, T.; Ruan, J.; Homero, N.; Marth, G.; Abecasis, G.; Durbin, R. (2009). "El formato de mapa/alineación de secuencia y SAMtools" (PDF) . Bioinformática . 25 (16): 2078-2079. doi : 10.1093/bioinformática/btp352. ISSN  1367-4803. PMC  2723002 . PMID  19505943.
  2. ^ Edmunds, Scott (17 de febrero de 2021). "Pruébelo de nuevo, SAMtools. Preguntas y respuestas con el equipo de SAMtools sobre 12 años proporcionando" pegamento "" a la bioinformática. GigaCiencia . Consultado el 20 de marzo de 2021 .
  3. ^ Dörpinghaus, J.; Weil, V.; Schaaf, S.; Apke, A. (2023). Ciencias biológicas computacionales: ingeniería de datos y minería de datos para ciencias biológicas. Estudios en Big Data. Publicaciones internacionales Springer. pag. 447.ISBN 978-3-031-08411-9. Consultado el 19 de julio de 2023 .
  4. ^ abc "Especificación de formato SAM/BAM" (PDF) . samtools.github.io .
  5. ^ "Explicar las banderas SAM". broadinstitute.github.io . Consultado el 4 de noviembre de 2023 .
  6. ^ "Especificación de campos opcionales de mapa/alineación de secuencia" (PDF) . samtools.github.io .