Base de datos digital de secuencias de ácidos nucleicos
Un genoma de referencia (también conocido como ensamblaje de referencia ) es una base de datos digital de secuencias de ácidos nucleicos , ensamblada por científicos como un ejemplo representativo del conjunto de genes en un organismo individual idealizado de una especie. Como se ensamblan a partir de la secuenciación de ADN de varios donantes individuales, los genomas de referencia no representan con precisión el conjunto de genes de ningún organismo individual. En cambio, una referencia proporciona un mosaico haploide de diferentes secuencias de ADN de cada donante. Por ejemplo, uno de los genomas de referencia humanos más recientes, el ensamblaje GRCh38/hg38 , se deriva de >60 bibliotecas de clones genómicos . [1] Existen genomas de referencia para múltiples especies de virus , bacterias , hongos , plantas y animales . Los genomas de referencia se utilizan normalmente como guía sobre la cual se construyen nuevos genomas, lo que permite ensamblarlos de manera mucho más rápida y económica que el Proyecto Genoma Humano inicial . Se puede acceder a los genomas de referencia en línea desde varias ubicaciones, utilizando navegadores dedicados como Ensembl o UCSC Genome Browser . [2]
Propiedades de los genomas de referencia.
medidas de longitud
La longitud de un genoma se puede medir de varias formas diferentes.
Una forma sencilla de medir la longitud del genoma es contar el número de pares de bases en el conjunto. [3]
El ensamblaje de genomas de referencia requiere lecturas superpuestas, creando contigs , que son regiones de ADN contiguas de secuencias consenso . [7] Si hay espacios entre contigs, estos se pueden llenar mediante andamiaje , ya sea mediante amplificación de contigs con PCR y secuenciación o mediante clonación de cromosomas artificiales bacterianos (BAC) . [8] [7] No siempre es posible llenar estos espacios; en este caso, se crean varios andamios en un ensamblaje de referencia. [9] Los andamios se clasifican en 3 tipos: 1) Colocados, cuyo cromosoma, coordenadas genómicas y orientaciones se conocen; 2) No localizado, cuando sólo se conoce el cromosoma pero no las coordenadas ni la orientación; 3) No colocado, cuyo cromosoma se desconoce. [10]
El número de contigs y scaffolds , así como sus longitudes promedio, son parámetros relevantes, entre muchos otros, para una evaluación de la calidad del ensamblaje del genoma de referencia, ya que proporcionan información sobre la continuidad del mapeo final del genoma original. Cuanto menor sea el número de armazones por cromosoma, hasta que un solo armazón ocupe un cromosoma completo, mayor será la continuidad del ensamblaje del genoma. [11] [12] [13] Otros parámetros relacionados son N50 y L50 . N50 es la longitud de los cóntigs/andamios en los que el 50% del conjunto se encuentra en fragmentos de esta longitud o mayores, mientras que L50 es el número de cóntigs/andamios cuya longitud es N50. Cuanto mayor sea el valor de N50, menor será el valor de L50, y viceversa, indicando alta continuidad en el montaje. [14] [15] [16]
El último ensamblaje del genoma humano de referencia, publicado por Genome Reference Consortium , fue GRCh38 en 2017. [25] Se agregaron varios parches para actualizarlo, siendo el último parche GRCh38.p14, publicado en marzo de 2022. [26] [27] Este build sólo tiene 349 huecos en todo el conjunto, lo que supone una gran mejora respecto a la primera versión, que tenía aproximadamente 150.000 huecos. [18] Las brechas se encuentran principalmente en áreas como telómeros , centrómeros y secuencias repetitivas largas , con la brecha más grande a lo largo del brazo largo del cromosoma Y, una región de ~30 Mb de longitud (~52% de la longitud del cromosoma Y ). [28] El número de bibliotecas de clones genómicos que contribuyen a la referencia ha aumentado constantemente a >60 a lo largo de los años, aunque el RP11 individual todavía representa el 70% del genoma de referencia. [1] El análisis genómico de este macho anónimo sugiere que es de ascendencia africana-europea. [1]
En 2022, el Consorcio Telomere-to-Telomere (T2T) [29] publicó el primer genoma de referencia completamente ensamblado (versión T2T-CHM13), sin lagunas en el ensamblaje. [30] [31] El consorcio Telomere-to-Telomere (T2T) no solo es un esfuerzo abierto y comunitario para generar el primer ensamblaje completo de un genoma humano, sino que también brinda la oportunidad de examinar cómo centromérica y pericentromérica (cerca de (el centrómero) evolucionan las secuencias. Este esfuerzo se basó en medidas cuidadosas para ensamblar, pulir y validar matrices de repeticiones centroméricas y pericentroméricas completas. Al caracterizar en profundidad estas secuencias recientemente ensambladas, el consorcio presentó un atlas de alta resolución de todo el genoma sobre el contenido de la secuencia y la organización de las regiones centroméricas y pericentroméricas humanas. [32] Por otro lado, según el sitio web de GRC, su próxima publicación de ensamblaje para el genoma humano (versión GRCh39) está actualmente "pospuesta indefinidamente". [33]
Los ensamblajes genómicos recientes son los siguientes: [34]
Limitaciones
Para gran parte de un genoma, la referencia proporciona una buena aproximación del ADN de cualquier individuo. Pero en regiones con alta diversidad alélica , como el complejo mayor de histocompatibilidad en humanos y las principales proteínas urinarias de ratones, el genoma de referencia puede diferir significativamente del de otros individuos. [35] [36] [37] Debido al hecho de que el genoma de referencia es una secuencia distinta "única", lo que le otorga su utilidad como índice o localizador de características genómicas, existen limitaciones en términos de cuán fielmente representa al ser humano. Genoma y su variabilidad . La mayoría de las muestras iniciales utilizadas para la secuenciación del genoma de referencia procedían de personas de ascendencia europea. En 2010, se descubrió que, al ensamblar de novo genomas de poblaciones africanas y asiáticas con el genoma de referencia NCBI (versión NCBI36), estos genomas tenían secuencias de ~5 Mb que no se alineaban con ninguna región del genoma de referencia. [38]
Los proyectos posteriores al Proyecto Genoma Humano buscan abordar una caracterización más profunda y diversa de la variabilidad genética humana, que el genoma de referencia no es capaz de representar. El Proyecto HapMap , activo durante el periodo 2002 -2010, tiene como objetivo crear un mapa de haplotipos y sus variaciones más comunes entre diferentes poblaciones humanas. Se estudiaron hasta 11 poblaciones de diferente ascendencia, como individuos de la etnia Han de China, gujaratis de la India, pueblo yoruba de Nigeria o japoneses , entre otros. [39] [40] [41] [42] El Proyecto 1000 Genomas , realizado entre 2008 y 2015, con el objetivo de crear una base de datos que incluya más del 95% de las variaciones presentes en el genoma humano y cuyos resultados puedan ser Se utiliza en estudios de asociación con enfermedades ( GWAS ) como diabetes, enfermedades cardiovasculares o autoinmunes. En este proyecto se estudiaron un total de 26 grupos étnicos, ampliando el alcance del proyecto HapMap a nuevos grupos étnicos como el pueblo mende de Sierra Leona, el pueblo vietnamita o el pueblo bengalí . [43] [44] [45] [46] El Proyecto Pangenoma Humano, que inició su fase inicial en 2019 con la creación del Consorcio de Referencia del Pangenoma Humano, busca crear el mayor mapa de variabilidad genética humana tomando los resultados de estudios previos. como punto de partida. [47] [48]
Genoma de referencia del ratón
Los ensamblajes recientes del genoma del ratón son los siguientes: [34]
Otros genomas
Desde que finalizó el Proyecto Genoma Humano, se han iniciado múltiples proyectos internacionales centrados en ensamblar genomas de referencia para muchos organismos. Los organismos modelo (p. ej., pez cebra ( Danio rerio ), pollo ( Gallus gallus ), Escherichia coli, etc.) son de especial interés para la comunidad científica, así como, por ejemplo, especies en peligro de extinción (p. ej., arowana asiática ( Scleropages formosus ) o el bisonte americano ( Bison bison )). En agosto de 2022, la base de datos del NCBI admite 71 886 genomas ensamblados y secuenciados parcial o completamente de diferentes especies, como 676 mamíferos , 590 aves y 865 peces . También son destacables las cifras de 1.796 genomas de insectos , 3.747 hongos , 1.025 plantas , 33.724 bacterias , 26.004 virus y 2.040 arqueas . [49] Muchas de estas especies tienen datos de anotaciones asociados con sus genomas de referencia a los que se puede acceder públicamente y visualizar en navegadores de genomas como Ensembl y UCSC Genome Browser . [50] [51]
Algunos ejemplos de estos proyectos internacionales son: el Proyecto Genoma del Chimpancé , realizado entre 2005 y 2013 de manera conjunta por el Broad Institute y el McDonnell Genome Institute de la Universidad de Washington en St. Louis , que generó los primeros genomas de referencia para 4 subespecies de Pan troglodytes ; [52] [53] el Proyecto Genoma de Patógenos 100K , que comenzó en 2012 con el objetivo principal de crear una base de datos de genomas de referencia para 100 000 microorganismos patógenos para su uso en salud pública, detección de brotes, agricultura y medio ambiente; [54] el Proyecto BioGenoma de la Tierra , que comenzó en 2018 y tiene como objetivo secuenciar y catalogar los genomas de todos los organismos eucariotas de la Tierra para promover proyectos de conservación de la biodiversidad. Dentro de este gran proyecto científico hay hasta 50 proyectos afiliados de menor escala como el Proyecto BioGenoma de África o el Proyecto 1000 Genomas Fúngicos. [55] [56] [57]
Referencias
^ abc "¿Cuántos individuos fueron secuenciados para el ensamblaje del genoma humano de referencia?". Consorcio de Referencia del Genoma . Consultado el 7 de abril de 2022 .
^ Flicek P, Aken BL, Beal K, Ballester B, Caccamo M, Chen Y, et al. (Enero de 2008). "Conjunto 2008". Investigación de ácidos nucleicos . 36 (Problema de la base de datos): D707–D714. doi : 10.1093/nar/gkm988. PMC 2238821 . PMID 18000006.
^ "Ayuda - Glosario - Homo sapiens - Explorador del genoma Ensembl 87". www.ensembl.org .
^ "Longitud del camino dorado | VectorBase". www.vectorbase.org . Archivado desde el original el 7 de agosto de 2020 . Consultado el 12 de diciembre de 2016 .
^ "Ayuda - Glosario - Homo sapiens - Explorador del genoma Ensembl 87". www.ensembl.org .
^ "¿Ensamblaje completo versus longitud del camino dorado en Ensembl? - SEQanswers". seqanswers.com . Consultado el 12 de diciembre de 2016 .
^ ab Gibson, Greg; Musa, Spencer V. (2009). Introducción a la ciencia del genoma (3ª ed.). Asociados Sinauer. pag. 84.ISBN _978-0-878-93236-8.
^ "Ayuda - Glosario - Homo_sapiens - Explorador del genoma Ensembl 107". www.ensembl.org . Consultado el 26 de septiembre de 2022 .
^ Luo, Junwei; Wei, Yawei; Lyu, Mengna; Wu, Zhengjiang; Liu, Xiaoyan; Luo, Huimin; Yan, Chaokun (2 de septiembre de 2021). "Una revisión exhaustiva de los métodos de andamiaje en el ensamblaje del genoma". Sesiones informativas en Bioinformática . 22 (5): bbab033. doi : 10.1093/bib/bbab033. ISSN 1477-4054. PMID 33634311.
^ "Cromosomas, andamios y contigs". www.ensembl.org . Consultado el 26 de septiembre de 2022 .
^ Meader, Stephen; Hillier, LaDeana W.; Locke, Devin; Ponting, Chris P.; Lunter, Gerton (mayo de 2010). "Calidad del ensamblaje del genoma: evaluación y mejora mediante el modelo indel neutro". Investigación del genoma . 20 (5): 675–684. doi :10.1101/gr.096966.109. ISSN 1088-9051. PMC 2860169 . PMID 20305016.
^ Arroz, Edward S.; Verde, Richard E. (15 de febrero de 2019). "Nuevos enfoques para el ensamblaje y andamiaje del genoma". Revisión anual de biociencias animales . 7 (1): 17–40. doi :10.1146/annurev-animal-020518-115344. ISSN 2165-8102. PMID 30485757. S2CID 54121772.
^ Cao, Minh Duc; Nguyen, Son Hoang; Ganesamoorthy, Devika; Elliott, Alysha G.; Cooper, Mateo A.; Moneda, Lachlan JM (20 de febrero de 2017). "Andamiaje y finalización de ensamblajes de genomas en tiempo real con secuenciación de nanoporos". Comunicaciones de la naturaleza . 8 (1): 14515. Código bibliográfico : 2017NatCo...814515C. doi : 10.1038/ncomms14515 . ISSN 2041-1723. PMC 5321748 . PMID 28218240.
^ Mende, Daniel R.; Waller, Alison S.; Sunagawa, Shinichi; Järvelin, Aino I.; Chan, Michelle M.; Arumugam, Manimozhiyan; Raes, Jeroen; Bork, compañero (23 de febrero de 2012). "Evaluación del ensamblaje metagenómico utilizando datos de secuenciación simulados de próxima generación". MÁS UNO . 7 (2): e31386. Código bibliográfico : 2012PLoSO...731386M. doi : 10.1371/journal.pone.0031386 . ISSN 1932-6203. PMC 3285633 . PMID 22384016.
^ Alhakami, trasero; Mirebrahim, Hamid; Lonardi, Stefano (18 de mayo de 2017). "Una evaluación comparativa de herramientas de reconciliación del ensamblaje del genoma". Biología del genoma . 18 (1): 93. doi : 10.1186/s13059-017-1213-3 . ISSN 1474-7596. PMC 5436433 . PMID 28521789.
^ Castro, Cristina J.; Ng, Terry Fei Fan (1 de noviembre de 2017). "U50: una nueva métrica para medir el resultado del ensamblaje basada en contigs específicos de objetivos que no se superponen". Revista de biología computacional . 24 (11): 1071–1080. doi :10.1089/cmb.2017.0013. PMC 5783553 . PMID 28418726.
^ Scherer S (2008). Una breve guía sobre el genoma humano . Prensa CSHL. pag. 135.ISBN _978-0-87969-791-4.
^ ab "E pluribus unum". Métodos de la naturaleza . 7 (5): 331. Mayo de 2010. doi : 10.1038/nmeth0510-331 . PMID 20440876.
^ Ballouz S, Dobin A, Gillis JA (agosto de 2019). "¿Es hora de cambiar el genoma de referencia?". Biología del genoma . 20 (1): 159. doi : 10.1186/s13059-019-1774-4 . PMC 6688217 . PMID 31399121.
^ Rosenfeld JA, Mason CE, Smith TM (11 de julio de 2012). "Limitaciones del genoma humano de referencia para genómica personalizada". MÁS UNO . 7 (7): e40294. Código Bib : 2012PLoSO...740294R. doi : 10.1371/journal.pone.0040294 . PMC 3394790 . PMID 22811759.
^ ab Wade N (31 de mayo de 2007). "Se descifra el genoma del pionero del ADN". New York Times . Consultado el 21 de febrero de 2009 .
^ ab Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, et al. (Abril de 2008). "El genoma completo de un individuo mediante secuenciación masiva de ADN en paralelo". Naturaleza . 452 (7189): 872–876. Código Bib : 2008Natur.452..872W. doi : 10.1038/naturaleza06884 . PMID 18421352.
^ "Visor de datos del genoma - NCBI". www.ncbi.nlm.nih.gov . Consultado el 18 de agosto de 2022 .
^ Schneider VA, Graves-Lindsay T, Howe K, Bouk N, Chen HC, Kitts PA y col. (mayo de 2017). "La evaluación de GRCh38 y ensamblajes de genoma haploide de novo demuestra la calidad duradera del ensamblaje de referencia". Investigación del genoma . 27 (5): 849–864. doi :10.1101/gr.213611.116. PMC 5411779 . PMID 28396521.
^ "GRCh38.p14 - hg38 - Genoma - Ensamblaje - NCBI". www.ncbi.nlm.nih.gov . Consultado el 19 de agosto de 2022 .
^ Consorcio de referencia del genoma (9 de mayo de 2022). "GenomeRef: ¡GRCh38.p14 ya está lanzado!". Blog de GRC (GenomeRef) . Consultado el 19 de agosto de 2022 .
^ "GRCh38.p14 - hg38 - Genoma - Ensamblaje - NCBI - Informe estadístico". www.ncbi.nlm.nih.gov . Consultado el 18 de agosto de 2022 .
^ "Telomérico a telómero". NHGRI . Consultado el 16 de agosto de 2022 .
^ Nurk S, Koren S, Rhie A, Rautiainen M, Bzikadze AV, Mikheenko A, et al. (abril de 2022). "La secuencia completa de un genoma humano". Ciencia . 376 (6588): 44–53. Código Bib : 2022 Ciencia... 376... 44N. doi : 10.1126/ciencia.abj6987. PMC 9186530 . PMID 35357919. S2CID 247854936.
^ "T2T-CHM13v2.0 - Genoma - Ensamblaje - NCBI". www.ncbi.nlm.nih.gov . Consultado el 16 de agosto de 2022 .
^ Altemose, Nicolás; Logsdon, Glennis A.; Bzikadze, Andrey V.; Sidhwani, Pragya; Langley, Sasha A.; Caldas, Gina V.; Hoyt, Savannah J.; Uralsky, Lev; Ryabov, Fedor D.; Muestra, Colin J.; Sauria, Michael EG; Borchers, Mateo; Gershman, Ariel; Mijeenko, Alla; Shepelev, Valery A. (abril de 2022). "Mapas genómicos y epigenéticos completos de centrómeros humanos". Ciencia . 376 (6588): eabl4178. doi : 10.1126/ciencia.abl4178. ISSN 0036-8075. PMC 9233505 . PMID 35357911.
^ ab "Consorcio de referencia del genoma". www.ncbi.nlm.nih.gov . Consultado el 18 de agosto de 2022 .
^ ab "Bioinformática del genoma de UCSC: preguntas frecuentes". genoma.ucsc.edu . Consultado el 18 de agosto de 2016 .
^ Consorcio de secuenciación MHC (octubre de 1999). "Secuencia completa y mapa genético de un complejo principal de histocompatibilidad humano. El consorcio de secuenciación MHC". Naturaleza . 401 (6756): 921–923. Código Bib :1999Natur.401..921T. doi :10.1038/44853. PMID 10553908. S2CID 186243515.
^ Logan DW, Marton TF, Stowers L (septiembre de 2008). Vosshall LB (ed.). "Especificidad de especie en las principales proteínas urinarias por evolución paralela". MÁS UNO . 3 (9): e3280. Código Bib : 2008PLoSO...3.3280L. doi : 10.1371/journal.pone.0003280 . PMC 2533699 . PMID 18815613.
^ Hurst J, Beynon RJ, Roberts SC, Wyatt TD (octubre de 2007). Lipocalinas urinarias en Rodenta: ¿existe un modelo genérico? . Señales químicas en vertebrados 11. Springer Nueva York. ISBN978-0-387-73944-1.
^ Li R, Li Y, Zheng H, Luo R, Zhu H, Li Q, et al. (Enero de 2010). "Construcción del mapa de secuencia del pangenoma humano". Biotecnología de la Naturaleza . 28 (1): 57–63. doi :10.1038/nbt.1596. PMID 19997067. S2CID 205274447.
^ El Consorcio Internacional HapMap (octubre de 2005). "Un mapa de haplotipos del genoma humano". Naturaleza . 437 (7063): 1299-1320. Código Bib : 2005Natur.437.1299T. doi : 10.1038/naturaleza04226. PMC 1880871 . PMID 16255080.
^ Frazer KA, Ballinger DG, Cox DR, Hinds DA, Stuve LL, Gibbs RA y otros. (octubre de 2007). "Un mapa de haplotipos humanos de segunda generación de más de 3,1 millones de SNP". Naturaleza . 449 (7164): 851–861. Código Bib :2007Natur.449..851F. doi : 10.1038/naturaleza06258. PMC 2689609 . PMID 17943122.
^ Altshuler DM, Gibbs RA, Peltonen L, Altshuler DM, Gibbs RA, Peltonen L, et al. (Septiembre de 2010). "Integración de variaciones genéticas comunes y raras en diversas poblaciones humanas". Naturaleza . 467 (7311): 52–58. Código Bib :2010Natur.467...52T. doi : 10.1038/naturaleza09298. PMC 3173859 . PMID 20811451.
^ "Proyecto Internacional HapMap". Genoma.gov . Consultado el 18 de agosto de 2022 .
^ Abecasis GR, Altshuler D, Auton A, Brooks LD, Durbin RM, Gibbs RA, et al. (octubre de 2010). "Un mapa de la variación del genoma humano a partir de la secuenciación a escala poblacional". Naturaleza . 467 (7319): 1061–1073. Código Bib : 2010Natur.467.1061T. doi : 10.1038/naturaleza09534. PMC 3042601 . PMID 20981092.
^ Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, et al. (Noviembre 2012). "Un mapa integrado de variación genética de 1.092 genomas humanos". Naturaleza . 491 (7422): 56–65. Código Bib :2012Natur.491...56T. doi : 10.1038/naturaleza11632. PMC 3498066 . PMID 23128226.
^ Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO y otros. (octubre de 2015). "Una referencia mundial para la variación genética humana". Naturaleza . 526 (7571): 68–74. Código Bib :2015Natur.526...68T. doi : 10.1038/naturaleza15393. PMC 4750478 . PMID 26432245.
^ Sudmant PH, Rausch T, Gardner EJ, Handsaker RE, Abyzov A, Huddleston J, et al. (octubre de 2015). "Un mapa integrado de variación estructural en 2.504 genomas humanos". Naturaleza . 526 (7571): 75–81. Bibcode :2015Natur.526...75.. doi :10.1038/nature15394. PMC 4617611 . PMID 26432246.
^ Miga KH, Wang T (agosto de 2021). "La necesidad de una secuencia de referencia del pangenoma humano". Revista Anual de Genómica y Genética Humana . 22 (1): 81-102. doi :10.1146/annurev-genom-120120-081921. PMC 8410644 . PMID 33929893.
^ Wang T, Antonacci-Fulton L, Howe K, Lawson HA, Lucas JK, Phillippy AM y col. (abril de 2022). "El Proyecto Pangenoma Humano: un recurso global para mapear la diversidad genómica". Naturaleza . 604 (7906): 437–446. Código Bib :2022Natur.604..437W. doi :10.1038/s41586-022-04601-8. PMC 9402379 . PMID 35444317. S2CID 248297723.
^ "Lista de genoma - Genoma - NCBI". www.ncbi.nlm.nih.gov . Consultado el 18 de agosto de 2022 .
^ "Lista de especies". uswest.ensembl.org . Consultado el 18 de agosto de 2022 .
^ "GenArk: Archivo del genoma de la UCSC". hgdownload.soe.ucsc.edu . Consultado el 18 de agosto de 2022 .
^ "Proyecto Genoma del Chimpancé". BCM-HGSC . 2016-03-04 . Consultado el 18 de agosto de 2022 .
^ Prado-Martínez J, Sudmant PH, Kidd JM, Li H, Kelley JL, Lorente-Galdos B, et al. (Julio 2013). "Diversidad genética e historia de la población de los grandes simios". Naturaleza . 499 (7459): 471–475. Código Bib :2013Natur.499..471P. doi : 10.1038/naturaleza12228. PMC 3822165 . PMID 23823723.
^ "Proyecto Genoma de Patógenos 100K: Genomas para la salud pública y la seguridad alimentaria" . Consultado el 18 de agosto de 2022 .
^ Lewin HA, Robinson GE, Kress WJ, Baker WJ, Coddington J, Crandall KA, et al. (Abril de 2018). "Proyecto Earth BioGenome: Secuenciación de la vida para el futuro de la vida". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 115 (17): 4325–4333. Código Bib : 2018PNAS..115.4325L. doi : 10.1073/pnas.1720115115 . PMC 5924910 . PMID 29686065.
^ "Proyecto BioGenoma Africano - Genómica al servicio de la conservación y mejora de la diversidad biológica africana" . Consultado el 18 de agosto de 2022 .
^ "Proyecto 1000 genomas de hongos". mycocosmos.jgi.doe.gov . Consultado el 18 de agosto de 2022 .