Cobertura (genética)

En genética , la cobertura es una de varias medidas de la profundidad o integridad de la secuenciación de ADN , y se expresa más específicamente en cualquiera de los siguientes términos:

La cobertura (o profundidad) de la secuencia es la cantidad de lecturas únicas que incluyen un nucleótido determinado en la secuencia reconstruida. ^[1]^[2] La secuenciación profunda se refiere al concepto general de apuntar a una gran cantidad de lecturas únicas de cada región de una secuencia. ^[3]
Cobertura física , la longitud acumulada de lecturas o pares de lecturas expresada como un múltiplo del tamaño del genoma. ^[4]
Cobertura genómica , el porcentaje de todos los pares de bases o loci del genoma cubiertos por la secuenciación.

Cobertura de secuencia

Razón fundamental

Aunque la precisión de la secuenciación de cada nucleótido individual es muy alta, la gran cantidad de nucleótidos en el genoma significa que si un genoma individual solo se secuencia una vez, habrá una cantidad significativa de errores de secuenciación. Además, muchas posiciones en un genoma contienen polimorfismos de un solo nucleótido (SNP) poco comunes. Por lo tanto, para distinguir entre errores de secuenciación y SNP verdaderos, es necesario aumentar aún más la precisión de la secuenciación secuenciando genomas individuales una gran cantidad de veces.

Secuenciación ultraprofunda

El término "ultraprofundo" a veces también puede referirse a una cobertura mayor (>100 veces), lo que permite la detección de variantes de secuencia en poblaciones mixtas. ^[5]^[6]^[7] En casos extremos, los enfoques de secuenciación con corrección de errores, como la secuenciación de máxima profundidad, pueden hacer que la cobertura de una región determinada se acerque al rendimiento de una máquina de secuenciación, lo que permite coberturas de >10^8. ^[8]

Secuenciación del transcriptoma

La secuenciación profunda de transcriptomas , también conocida como RNA-Seq , proporciona tanto la secuencia como la frecuencia de las moléculas de ARN que están presentes en un momento determinado en un tipo de célula, tejido u órgano específico. ^[9] Contar la cantidad de ARNm codificados por genes individuales proporciona un indicador del potencial de codificación de proteínas, un contribuyente importante al fenotipo . ^[10] Mejorar los métodos de secuenciación de ARN es un área activa de investigación tanto en términos de métodos experimentales como computacionales. ^[11]

Cálculo

La cobertura promedio para un genoma completo se puede calcular a partir de la longitud del genoma original ( G ), el número de lecturas ( N ) y la longitud de lectura promedio ( L ) como . Por ejemplo, un genoma hipotético con 2000 pares de bases reconstruido a partir de 8 lecturas con una longitud promedio de 500 nucleótidos tendrá una redundancia de 2×. Este parámetro también permite estimar otras cantidades, como el porcentaje del genoma cubierto por lecturas (a veces también llamado amplitud de cobertura). Una alta cobertura en la secuenciación shotgun es deseable porque puede superar errores en la llamada y ensamblaje de bases . El tema de la teoría de la secuenciación de ADN aborda las relaciones de tales cantidades. ^[2] ${\textstyle N\times L/G}$

Cobertura física

A veces se hace una distinción entre cobertura de secuencia y cobertura física . Donde la cobertura de secuencia es el número promedio de veces que se lee una base, la cobertura física es el número promedio de veces que se lee una base o se la abarca mediante lecturas emparejadas. ^[2]^[12]^[4]

Cobertura genómica

En términos de cobertura y precisión genómica, la secuenciación del genoma completo se puede clasificar en términos generales en cualquiera de las siguientes: ^[13]

Un borrador de secuencia que cubre aproximadamente el 90% del genoma con una precisión de aproximadamente el 99,9%.
Una secuencia terminada , que cubre más del 95% del genoma con una precisión de aproximadamente el 99,99%.

Producir una secuencia final de alta calidad según esta definición es muy costoso. Por ello, la mayoría de los resultados de la " secuenciación del genoma completo " humano son secuencias preliminares (a veces por encima y a veces por debajo de la precisión definida anteriormente). ^[13]

Referencias

^ "Cobertura de secuenciación". illumina.com . Educación de Illumina . Consultado el 8 de octubre de 2020 .
^ abc Sims, David; Sudbery, Ian; Ilott, Nicholas E.; Heger, Andreas; Ponting, Chris P. (2014). "Profundidad y cobertura de la secuenciación: consideraciones clave en los análisis genómicos". Nature Reviews Genetics . 15 (2): 121–132. doi :10.1038/nrg3642. PMID 24434847. S2CID 13325739.
^ Mardis, Elaine R. (1 de septiembre de 2008). "Métodos de secuenciación de ADN de próxima generación". Revisión anual de genómica y genética humana . 9 (1): 387–402. doi :10.1146/annurev.genom.9.081307.164359. ISSN 1527-8204. PMID 18576944.
^ ab Ekblom, Robert; Wolf, Jochen BW (2014). "Una guía de campo para la secuenciación, ensamblaje y anotación del genoma completo". Aplicaciones evolutivas . 7 (9): 1026–42. Bibcode :2014EvApp...7.1026E. doi :10.1111/eva.12178. PMC 4231593 . PMID 25553065.
^ Ajay SS, Parker SC, Abaan HO, Fajardo KV, Margulies EH (septiembre de 2011). "Secuenciación precisa y completa de genomas personales". Genome Res . 21 (9): 1498–505. doi :10.1101/gr.123638.111. PMC 3166834 . PMID 21771779.
^ Mirebrahim, Hamid; Close, Timothy J.; Lonardi, Stefano (15 de junio de 2015). "Metaensamblaje de novo de datos de secuenciación ultraprofunda". Bioinformática . 31 (12): i9–i16. doi :10.1093/bioinformatics/btv226. ISSN 1367-4803. PMC 4765875 . PMID 26072514.
^ Beerenwinkel, Niko ; Zagordi, Osvaldo (1 de noviembre de 2011). "Secuenciación ultraprofunda para el análisis de poblaciones virales". Current Opinion in Virology . 1 (5): 413–418. doi :10.1016/j.coviro.2011.07.008. PMID 22440844.
^ Jee, J.; Rasouly, A.; Shamovsky, I.; Akivis, Y.; Steinman, S.; Mishra, B.; Nudler, E. (2016). "Tasas y mecanismos de mutagénesis bacteriana a partir de secuenciación de máxima profundidad". Nature . 534 (7609): 693–696. Bibcode :2016Natur.534..693J. doi :10.1038/nature18313. PMC 4940094 . PMID 27338792.
^ Malone, John H.; Oliver, Brian (1 de enero de 2011). "Microarrays, secuenciación profunda y la verdadera medida del transcriptoma". BMC Biology . 9 : 34. doi : 10.1186/1741-7007-9-34 . ISSN 1741-7007. PMC 3104486 . PMID 21627854.
^ Hampton M, Melvin RG, Kendall AH, Kirkpatrick BR, Peterson N, Andrews MT (2011). "La secuenciación profunda del transcriptoma revela mecanismos adaptativos estacionales en un mamífero que hiberna". PLOS ONE . 6 (10): e27021. Bibcode :2011PLoSO...627021H. doi : 10.1371/journal.pone.0027021 . PMC 3203946 . PMID 22046435.
^ Heyer EE, Ozadam H, Ricci EP, Cenik C, Moore MJ (2015). "Un método optimizado sin kit para crear bibliotecas de secuenciación profunda específicas de cadena a partir de fragmentos de ARN". Nucleic Acids Res . 43 (1): e2. doi :10.1093/nar/gku1235. PMC 4288154 . PMID 25505164.
^ Meyerson, M.; Gabriel, S.; Getz, G. (2010). "Avances en la comprensión de los genomas del cáncer mediante la secuenciación de segunda generación". Nature Reviews Genetics . 11 (10): 685–696. doi :10.1038/nrg2841. PMID 20847746. S2CID 2544266.
^ por Kris A. Wetterstrand, MS "El costo de secuenciar un genoma humano". Instituto Nacional de Investigación del Genoma Humano .Última actualización: 1 de noviembre de 2021