stringtranslate.com

SAM (formato de archivo)

Sequence Alignment Map (SAM) es un formato basado en texto originalmente para almacenar secuencias biológicas alineadas a una secuencia de referencia desarrollada por Heng Li y Bob Handsaker et al . [1] Fue desarrollado cuando el Proyecto 1000 Genomas quiso alejarse del formato del mapeador MAQ y decidió diseñar un nuevo formato. El sabor general delimitado por TAB del formato provino de un formato anterior inspirado en el PSL de BLAT . El nombre de SAM proviene de Gabor Marth de la Universidad de Utah , quien originalmente tenía un formato con el mismo nombre pero con una sintaxis diferente más similar a una salida BLAST . [2] Se usa ampliamente para almacenar datos, como secuencias de nucleótidos , generadas por tecnologías de secuenciación de próxima generación , y el estándar se ha ampliado para incluir secuencias no mapeadas. El formato admite lecturas cortas y largas (hasta 128 Mbp [3] ) producidas por diferentes plataformas de secuenciación y se utiliza para almacenar datos mapeados dentro del Genome Analysis Toolkit (GATK) y en todo el Broad Institute , el Wellcome Sanger Institute y en todo el 1000 Genomes Project .

Formato

El formato SAM consta de un encabezado y una sección de alineación. [1] El equivalente binario de un archivo SAM es un archivo de Mapa de Alineación Binaria (BAM), que almacena los mismos datos en una representación binaria comprimida. [4] Los archivos SAM se pueden analizar y editar con el software SAMtools . [1] La sección de encabezado debe estar antes de la sección de alineación si está presente. Los encabezados comienzan con el símbolo '@', que los distingue de la sección de alineación. Las secciones de alineación tienen 11 campos obligatorios, así como un número variable de campos opcionales. [1]

Descripción

De la especificación: [4]

  1. QNAME: NOMBRE de la plantilla de consulta. Las lecturas o segmentos que tienen un QNAME idéntico se consideran como si procedieran de la misma plantilla. Un QNAME '*' indica que la información no está disponible. En un archivo SAM, una lectura puede ocupar varias líneas de alineación cuando su alineación es quimérica o cuando se proporcionan múltiples asignaciones.
  2. BANDERA: Combinación de BANDERA bit a bit [5]
  3. RNAME: NOMBRE de la secuencia de referencia de la alineación. Si hay líneas de encabezado @SQ, RNAME (si no es '*') debe estar presente en una de las etiquetas SQ-SN. Un segmento no mapeado sin coordenadas tiene un '*' en este campo. Sin embargo, un segmento no mapeado también puede tener una coordenada ordinaria de modo que se pueda colocar en una posición deseada después de la clasificación. Si RNAME es '*', no se pueden hacer suposiciones sobre POS y CIGAR.
  4. POS: Posición de mapeo más a la izquierda basada en 1 de la primera base coincidente. La primera base en una secuencia de referencia tiene la coordenada 1. POS se establece como 0 para una lectura no mapeada sin coordenadas. Si POS es 0, no se pueden hacer suposiciones sobre RNAME y CIGAR.
  5. MAPQ: Calidad de mapeo. Equivale a −10 log10 Pr{la posición de mapeo es incorrecta}, redondeado al entero más cercano. Un valor de 255 indica que la calidad de mapeo no está disponible.
  6. CIGAR: Cadena de Informe conciso de alineación con huecos idiosincrásicos (CIGAR).
  7. RNEXT: Nombre de la secuencia de referencia de la alineación primaria de la SIGUIENTE lectura en la plantilla. Para la última lectura, la siguiente lectura es la primera lectura en la plantilla. Si hay líneas de encabezado @SQ, RNEXT (si no es '*' o '=') debe estar presente en una de las etiquetas SQ-SN. Este campo se establece como '*' cuando la información no está disponible y se establece como '=' si RNEXT es idéntico a RNAME. Si no es '=' y la siguiente lectura en la plantilla tiene una asignación primaria (consulte también el bit 0x100 en FLAG), este campo es idéntico a RNAME en la línea primaria de la siguiente lectura. Si RNEXT es '*', no se pueden hacer suposiciones sobre PNEXT y el bit 0x20.
  8. PNEXT: Posición de la alineación primaria de la SIGUIENTE lectura en la plantilla. Se establece como 0 cuando la información no está disponible. Este campo equivale a POS en la línea primaria de la siguiente lectura. Si PNEXT es 0, no se pueden hacer suposiciones sobre RNEXT y el bit 0x20.
  9. TLEN: longitud de plantilla observada con signo. Si todos los segmentos se asignan a la misma referencia, la longitud de plantilla observada sin signo es igual a la cantidad de bases desde la base asignada más a la izquierda hasta la base asignada más a la derecha. El segmento más a la izquierda tiene un signo más y el más a la derecha tiene un signo menos. El signo de los segmentos en el medio no está definido. Se establece como 0 para plantillas de un solo segmento o cuando la información no está disponible.
  10. SEQ: secuencia de segmentos. Este campo puede ser un '*' cuando la secuencia no está almacenada. Si no es un '*', la longitud de la secuencia debe ser igual a la suma de las longitudes de las operaciones M/I/S/=/X en CIGAR. Un '=' indica que la base es idéntica a la base de referencia. No se pueden hacer suposiciones sobre las mayúsculas y minúsculas.
  11. QUAL: ASCII de la calidad base más 33 (igual que la cadena de calidad en el formato Sanger FASTQ ). Una calidad base es la probabilidad de error base escalada por phred que es igual a −10 log10 Pr{la base es incorrecta}. Este campo puede ser un '*' cuando no se almacena la calidad. Si no es un '*', SEQ no debe ser un '*' y la longitud de la cadena de calidad debe ser igual a la longitud de SEQ.

Banderas bit a bit

El campo BANDERA se muestra como un solo entero, pero es la suma de indicadores bit a bit para denotar múltiples atributos de una alineación de lectura. [4] Cada atributo denota un bit en la representación binaria del entero.

Los atributos FLAG se suman para obtener el valor final, por ejemplo, una fila SAM resultante de un registro FASTQ de extremos emparejados de Illumina que tiene el valor FLAG 2145 indicaría:

Campos opcionales

De la especificación para la especificación de campos opcionales de alineación de secuencia/mapa (SAMtags): [6]

El tipo puede ser A (carácter), C (entero 0-255), f (número real), H (matriz hexadecimal), i (entero) o Z (cadena). Puede ser un valor único o B (matriz general).

Véase también

Referencias

  1. ^ abcde Li, H.; Handsaker, B.; Wysoker, A.; Fennell, T.; Ruan, J.; Homer, N.; Marth, G.; Abecasis, G.; Durbin, R. (2009). "El formato de alineación/mapa de secuencias y SAMtools" (PDF) . Bioinformática . 25 (16): 2078–2079. doi :10.1093/bioinformatics/btp352. ISSN  1367-4803. PMC  2723002 . PMID  19505943.
  2. ^ Edmunds, Scott (17 de febrero de 2021). "Tócala de nuevo, SAMtools. Preguntas y respuestas con el equipo de SAMtools sobre 12 años de proporcionar "pegamento" bioinformático". GigaScience . Consultado el 20 de marzo de 2021 .
  3. ^ Dörpinghaus, J.; Weil, V.; Schaaf, S.; Apke, A. (2023). Ciencias de la vida computacionales: ingeniería de datos y minería de datos para ciencias de la vida. Estudios en Big Data. Springer International Publishing. pág. 447. ISBN 978-3-031-08411-9. Consultado el 19 de julio de 2023 .
  4. ^ abc "Especificación de formato SAM/BAM" (PDF) . samtools.github.io .
  5. ^ "Explicación de las banderas SAM". broadinstitute.github.io . Consultado el 4 de noviembre de 2023 .
  6. ^ "Especificación de campos opcionales de alineación/mapa de secuencia" (PDF) . samtools.github.io .