Cobertura (genética)

En genética , la cobertura es una de varias medidas de la profundidad o integridad de la secuenciación del ADN , y se expresa más específicamente en cualquiera de los siguientes términos:

La cobertura (o profundidad) de la secuencia es el número de lecturas únicas que incluyen un nucleótido determinado en la secuencia reconstruida. ^[1]^[2] La secuenciación profunda se refiere al concepto general de apuntar a un gran número de lecturas únicas de cada región de una secuencia. ^[3]
Cobertura física , la longitud acumulada de lecturas o pares de lecturas expresada como un múltiplo del tamaño del genoma. ^[4]
Cobertura genómica , el porcentaje de todos los pares de bases o loci del genoma cubiertos por la secuenciación.

Cobertura de secuencia

Razón fundamental

Aunque la precisión de la secuenciación para cada nucleótido individual es muy alta, la gran cantidad de nucleótidos en el genoma significa que si un genoma individual se secuencia solo una vez, habrá una cantidad significativa de errores de secuenciación. Además, muchas posiciones en un genoma contienen polimorfismos de un solo nucleótido (SNP) raros. Por lo tanto, para distinguir entre errores de secuenciación y SNP verdaderos, es necesario aumentar aún más la precisión de la secuenciación secuenciando genomas individuales una gran cantidad de veces.

Secuenciación ultraprofunda

El término "ultraprofundo" a veces también puede referirse a una cobertura mayor (>100 veces), que permite la detección de variantes de secuencia en poblaciones mixtas. ^[5]^[6]^[7] En casos extremos, los enfoques de secuenciación con corrección de errores, como la secuenciación de profundidad máxima, pueden hacer que la cobertura de una región determinada se acerque al rendimiento de una máquina de secuenciación, permitiendo coberturas de >10^8. ^[8]

Secuenciación del transcriptoma

La secuenciación profunda de transcriptomas , también conocida como RNA-Seq , proporciona tanto la secuencia como la frecuencia de las moléculas de ARN que están presentes en un momento determinado en un tipo de célula, tejido u órgano específico. ^[9] Contar el número de ARNm codificados por genes individuales proporciona un indicador del potencial de codificación de proteínas, un importante contribuyente al fenotipo . ^[10] La mejora de los métodos de secuenciación de ARN es un área activa de investigación tanto en términos de métodos experimentales como computacionales. ^[11]

Cálculo

La cobertura promedio de un genoma completo se puede calcular a partir de la longitud del genoma original ( G ), el número de lecturas ( N ) y la longitud promedio de lectura ( L ) como . Por ejemplo, un genoma hipotético con 2000 pares de bases reconstruido a partir de 8 lecturas con una longitud promedio de 500 nucleótidos tendrá una redundancia 2x. Este parámetro también permite estimar otras cantidades, como el porcentaje del genoma cubierto por lecturas (a veces también llamado amplitud de cobertura). Se desea una alta cobertura en la secuenciación de escopetas porque puede superar errores en la llamada y el ensamblaje de bases. El tema de la teoría de la secuenciación del ADN aborda las relaciones de tales cantidades. ^[2] ${\textstyle N\times L/G}$

Cobertura física

A veces se hace una distinción entre cobertura secuencial y cobertura física . Donde la cobertura de secuencia es el número promedio de veces que se lee una base, la cobertura física es el número promedio de veces que se lee o abarca una base mediante lecturas de pares pares. ^[2]^[12]^[4]

Cobertura genómica

En términos de cobertura genómica y precisión, la secuenciación del genoma completo se puede clasificar en términos generales en cualquiera de las siguientes: ^[13]

Un borrador de secuencia que cubre aproximadamente el 90% del genoma con aproximadamente un 99,9% de precisión.
Una secuencia terminada , que cubre más del 95% del genoma con aproximadamente un 99,99% de precisión.

Producir una secuencia terminada verdaderamente de alta calidad según esta definición es muy costoso. Por lo tanto, la mayoría de los resultados de la " secuenciación del genoma completo " humano son secuencias preliminares (a veces por encima y a veces por debajo de la precisión definida anteriormente). ^[13]

Referencias

^ "Cobertura de secuenciación". Illumina.com . Educación Illumina . Consultado el 8 de octubre de 2020 .
^ abc Sims, David; Sudbery, Ian; Ilott, Nicolás E.; Heger, Andreas; Ponting, Chris P. (2014). "Profundidad y cobertura de secuenciación: consideraciones clave en los análisis genómicos". Naturaleza Reseñas Genética . 15 (2): 121-132. doi :10.1038/nrg3642. PMID 24434847. S2CID 13325739.
^ Mardis, Elaine R. (1 de septiembre de 2008). "Métodos de secuenciación de ADN de próxima generación". Revista Anual de Genómica y Genética Humana . 9 (1): 387–402. doi :10.1146/annurev.genom.9.081307.164359. ISSN 1527-8204. PMID 18576944.
^ ab Ekblom, Robert; Lobo, Jochen BW (2014). "Una guía de campo para la secuenciación, el ensamblaje y la anotación del genoma completo". Aplicaciones evolutivas . 7 (9): 1026–42. doi :10.1111/eva.12178. PMC 4231593 . PMID 25553065.
^ Ajay SS, Parker SC, Abaan HO, Fajardo KV, Margulies EH (septiembre de 2011). "Secuenciación precisa y completa de genomas personales". Res del genoma . 21 (9): 1498–505. doi :10.1101/gr.123638.111. PMC 3166834 . PMID 21771779.
^ Mirebrahim, Hamid; Cerca, Timothy J.; Lonardi, Stefano (15 de junio de 2015). "Metaensamblaje de novo de datos de secuenciación ultraprofunda". Bioinformática . 31 (12): i9-i16. doi : 10.1093/bioinformática/btv226. ISSN 1367-4803. PMC 4765875 . PMID 26072514.
^ Beerenwinkel, Niko ; Zagordi, Osvaldo (1 de noviembre de 2011). "Secuenciación ultraprofunda para el análisis de poblaciones virales". Opinión actual en virología . 1 (5): 413–418. doi :10.1016/j.coviro.2011.07.008. PMID 22440844.
^ Jee, J.; Rasouly, A.; Shamovsky, I.; Akivis, Y.; Steinman, S.; Mishra, B.; Nudler, E. (2016). "Tasas y mecanismos de mutagénesis bacteriana a partir de secuenciación de máxima profundidad". Naturaleza . 534 (7609): 693–696. Código Bib :2016Natur.534..693J. doi : 10.1038/naturaleza18313. PMC 4940094 . PMID 27338792.
^ Malone, John H.; Oliver, Brian (1 de enero de 2011). "Microarrays, secuenciación profunda y la verdadera medida del transcriptoma". Biología BMC . 9 : 34. doi : 10.1186/1741-7007-9-34 . ISSN 1741-7007. PMC 3104486 . PMID 21627854.
^ Hampton M, Melvin RG, Kendall AH, Kirkpatrick BR, Peterson N, Andrews MT (2011). "La secuenciación profunda del transcriptoma revela mecanismos de adaptación estacional en un mamífero en hibernación". MÁS UNO . 6 (10): e27021. Código Bib : 2011PLoSO...627021H. doi : 10.1371/journal.pone.0027021 . PMC 3203946 . PMID 22046435.
^ Heyer EE, Ozadam H, Ricci EP, Cenik C, Moore MJ (2015). "Un método optimizado sin kit para crear bibliotecas de secuenciación profunda específicas de hebras a partir de fragmentos de ARN". Ácidos nucleicos Res . 43 (1): e2. doi : 10.1093/nar/gku1235. PMC 4288154 . PMID 25505164.
^ Meyerson, M.; Gabriel, S.; Getz, G. (2010). "Avances en la comprensión de los genomas del cáncer mediante la secuenciación de segunda generación". Naturaleza Reseñas Genética . 11 (10): 685–696. doi :10.1038/nrg2841. PMID 20847746. S2CID 2544266.
^ ab Kris A. Wetterstrand, MS "El costo de secuenciar un genoma humano". Instituto Nacional de Investigaciones del Genoma Humano .Última actualización: 1 de noviembre de 2021