Proyecto Genoma

Los proyectos genómicos son iniciativas científicas que tienen como objetivo final determinar la secuencia completa del genoma de un organismo (ya sea un animal , una planta , un hongo , una bacteria , una arquea , un protista o un virus ) y anotar los genes codificadores de proteínas y otras características importantes codificadas en el genoma. ^[1] La secuencia del genoma de un organismo incluye las secuencias colectivas de ADN de cada cromosoma del organismo. En el caso de una bacteria que contiene un solo cromosoma, un proyecto genómico tendrá como objetivo mapear la secuencia de ese cromosoma. En el caso de la especie humana, cuyo genoma incluye 22 pares de autosomas y 2 cromosomas sexuales, una secuencia completa del genoma implicará 46 secuencias cromosómicas separadas.

El Proyecto Genoma Humano es un ejemplo bien conocido de proyecto genómico. ^[2]

Ensamblaje del genoma

El ensamblaje del genoma se refiere al proceso de tomar una gran cantidad de secuencias cortas de ADN y volver a ensamblarlas para crear una representación de los cromosomas originales de los cuales se originó el ADN. En un proyecto de secuenciación shotgun , todo el ADN de una fuente (generalmente un solo organismo , cualquier cosa desde una bacteria hasta un mamífero ) primero se fractura en millones de pequeños fragmentos. Luego, estos fragmentos son "leídos" por máquinas de secuenciación automatizadas. Un algoritmo de ensamblaje del genoma funciona tomando todos los fragmentos y alineándolos entre sí, y detectando todos los lugares donde dos de las secuencias cortas, o lecturas , se superponen. Estas lecturas superpuestas se pueden fusionar y el proceso continúa.

El ensamblaje del genoma es un problema computacional muy difícil , que se complica aún más porque muchos genomas contienen grandes cantidades de secuencias idénticas, conocidas como repeticiones . Estas repeticiones pueden tener miles de nucleótidos de longitud y aparecer en diferentes lugares, especialmente en los grandes genomas de plantas y animales .

La secuencia genómica resultante (borrador) se produce combinando la información de los contigs secuenciados y luego empleando la información de enlace para crear estructuras. Las estructuras se colocan a lo largo del mapa físico de los cromosomas creando un "camino dorado".

Software de ensamblaje

Originalmente, la mayoría de los centros de secuenciación de ADN a gran escala desarrollaban su propio software para ensamblar las secuencias que producían. Sin embargo, esto ha cambiado a medida que el software se ha vuelto más complejo y que ha aumentado el número de centros de secuenciación. Un ejemplo de este ensamblador es Short Oligonucleotide Analysis Package desarrollado por BGI para el ensamblaje de novo de genomas de tamaño humano, alineación, detección de SNP , resecuenciación, búsqueda de indel y análisis de variación estructural. ^[3]^[4]^[5]

Anotación del genoma

Desde la década de 1980, la biología molecular y la bioinformática han creado la necesidad de la anotación de ADN . La anotación de ADN o anotación del genoma es el proceso de identificar y adjuntar información biológica a secuencias , y en particular de identificar las ubicaciones de los genes y determinar qué hacen esos genes.

Hora de finalización

Al secuenciar un genoma, normalmente hay regiones que son difíciles de secuenciar (a menudo regiones con ADN altamente repetitivo ). Por lo tanto, las secuencias genómicas "completadas" rara vez están completas, y se han utilizado términos como "borrador de trabajo" o "esencialmente completo" para describir con mayor precisión el estado de dichos proyectos genómicos. Incluso cuando se ha determinado cada par de bases de una secuencia genómica, es probable que aún haya errores presentes porque la secuenciación del ADN no es un proceso completamente preciso. También se podría argumentar que un proyecto genómico completo debería incluir las secuencias de las mitocondrias y (en el caso de las plantas) los cloroplastos , ya que estos orgánulos tienen sus propios genomas.

A menudo se informa que el objetivo de secuenciar un genoma es obtener información sobre el conjunto completo de genes en esa secuencia genómica en particular. La proporción de un genoma que codifica genes puede ser muy pequeña (particularmente en eucariotas como los humanos, donde el ADN codificante puede representar solo un pequeño porcentaje de la secuencia completa). Sin embargo, no siempre es posible (o deseable) secuenciar solo las regiones codificantes por separado. Además, a medida que los científicos comprendan más sobre el papel de este ADN no codificante (a menudo denominado ADN basura ), será más importante tener una secuencia genómica completa como base para comprender la genética y la biología de cualquier organismo determinado.

En muchos sentidos, los proyectos genómicos no se limitan a determinar la secuencia de ADN de un organismo. Dichos proyectos también pueden incluir la predicción de genes para averiguar dónde se encuentran los genes en un genoma y qué hacen esos genes. También puede haber proyectos relacionados para secuenciar EST o ARNm para ayudar a averiguar dónde se encuentran realmente los genes.

Perspectivas históricas y tecnológicas

Históricamente, al secuenciar genomas eucariotas (como el gusano Caenorhabditis elegans ), era común mapear primero el genoma para proporcionar una serie de puntos de referencia a lo largo del genoma. En lugar de secuenciar un cromosoma de una sola vez, se secuenciaría pieza por pieza (con el conocimiento previo de aproximadamente dónde se encuentra esa pieza en el cromosoma más grande). Los cambios en la tecnología y, en particular, las mejoras en la capacidad de procesamiento de las computadoras, significan que ahora los genomas se pueden secuenciar de una sola vez (aunque este enfoque tiene salvedades en comparación con el enfoque tradicional).

Las mejoras en la tecnología de secuenciación de ADN han significado que el costo de secuenciar una nueva secuencia del genoma ha disminuido de manera constante (en términos de costo por par de bases ) y la tecnología más nueva también ha significado que los genomas se pueden secuenciar mucho más rápidamente.

Cuando las agencias de investigación deciden qué nuevos genomas secuenciar, el énfasis se ha puesto en las especies que son de gran importancia como organismo modelo o que tienen relevancia para la salud humana (por ejemplo, bacterias patógenas o vectores de enfermedades como los mosquitos ) o especies que tienen importancia comercial (por ejemplo, ganado y plantas de cultivo). Se hace un énfasis secundario en las especies cuyos genomas ayudarán a responder preguntas importantes en la evolución molecular (por ejemplo, el chimpancé común ).

En el futuro, es probable que resulte aún más barato y rápido secuenciar un genoma, lo que permitirá determinar secuencias genómicas completas de muchos individuos diferentes de la misma especie. En el caso de los seres humanos, esto nos permitirá comprender mejor aspectos de la diversidad genética humana .

Ejemplos

L1 Dominette 01449, la Hereford que sirve como sujeto del Proyecto Genoma Bovino

Muchos organismos tienen proyectos genómicos que ya se han completado o se completarán en breve, entre ellos:

Humanos , Homo sapiens ; véase Proyecto Genoma Humano
Humanos, Homo sapiens ; véase El Proyecto Genoma Humano–Escribir
Paleoesquimal , ^[4] un humano antiguo
Neandertal , Homo sapiens neanderthalensis (parcial); véase Proyecto Genoma Neandertal
Chimpancé común Pan troglodytes ; véase Proyecto Genoma del Chimpancé
Mamut lanudo , Mammuthus primigenius ^[6]
Vaca doméstica , ^[7]^[8] Bos taurus
Genoma bovino
Consorcio para la secuenciación del genoma de la abeja melífera
Genoma del caballo ^[9]
Detectar recursos humanos
Proyecto del microbioma humano
Programa Internacional del Genoma de la Uva
Proyecto Internacional HapMap
Proyecto de resecuenciación del genoma del tomate 150+
Proyecto 100.000 Genomas
Proyecto Genoma Patógeno 100K
Consorcio Internacional de Fenotipado de Ratones IMPC
Proyecto de fenotipado de ratones knockout KOMP2
Sequoia gigante , Sequoiadendron giganteum ^[10]

Véase también

Instituto Conjunto del Genoma
Illumina , empresa privada involucrada en la secuenciación del genoma
Knome , empresa privada que ofrece análisis y secuenciación del genoma
Organismo modelo
Centro Nacional de Información Biotecnológica

Referencias

^ Pevsner, Jonathan (2009). Bioinformática y genómica funcional (2.ª ed.). Hoboken, Nueva Jersey: Wiley-Blackwell. ISBN 9780470085851.
^ "Beneficios potenciales de la investigación del Proyecto Genoma Humano". Departamento de Energía , Información del Proyecto Genoma Humano. 2009-10-09. Archivado desde el original el 2013-07-08 . Consultado el 2010-06-18 .
^ Li R, Zhu H, Ruan J, Qian W, Fang X, Shi Z, Li Y, Li S, Shan G, Kristiansen K, Li S, Yang H, Wang J, Wang J (febrero de 2010). "Ensamblaje de novo de genomas humanos con secuenciación de lectura corta masivamente paralela". Genome Research . 20 (2): 265–272. doi :10.1101/gr.097261.109. ISSN 1549-5469. PMC 2813482 . PMID 20019144.
^ ab Rasmussen M, Li Y, Lindgreen S, Pedersen JS, Albrechtsen A, Moltke I, Metspalu M, Metspalu E, Kivisild T, Gupta R, Bertalan M, Nielsen K, Gilbert MT, Wang Y, Raghavan M, Campos PF, Kamp HM, Wilson AS, Gledhill A, Tridico S, Bunce M, Lorenzen ED, Binladen J, Guo X, Zhao J, Zhang X, Zhang H, Li Z, Chen M, Orlando L, Kristiansen K, Bak M, Tommerup N , Bendixen C, Pierre TL, Grønnow B, Meldgaard M, Andreasen C, Fedorova SA, Osipova LP, Higham TF, Ramsey CB, Hansen TV, Nielsen FC, Crawford MH, Brunak S, Sicheritz-Pontén T, Villems R, Nielsen R , Krogh A, Wang J, Willerslev E (11 de febrero de 2010). "Secuencia del genoma humano antiguo de un paleoesquimal extinto". Nature . 463 (7282): 757–762. Bibcode :2010Natur.463..757R. doi :10.1038/nature08835. ISSN 1476-4687. PMC 3951495. PMID 20148029 .
^ Wang J, Wang W, Li R, Li Y, Tian G, Goodman L, Fan W, Zhang J, Li J, Zhang J, Guo Y, Feng B, Li H, Lu Y, Fang X, Liang H, Du Z, Li D, Zhao Y, Hu Y, Yang Z, Zheng H, Hellmann I, Inouye M, Pool J, Yi X, Zhao J, Duan J, Zhou Y, Qin J, Ma L, Li G, Yang Z, Zhang G, Yang B, Yu C, Liang F, Li W, Li S, Li D, Ni P, Ruan J, Li Q, Zhu H, Liu D, Lu Z, Li N, Guo G, Zhang J, Ye J , Fang L, Hao Q, Chen Q, Liang Y, Su Y, San A, Ping C, Yang S, Chen F, Li L, Zhou K, Zheng H, Ren Y, Yang L, Gao Y, Yang G, Li Z, Feng X, Kristiansen K, Wong GK, Nielsen R, Durbin R, Bolund L, Zhang X, Li S, Yang H, Wang J (6 de noviembre de 2008). "La secuencia del genoma diploide de un individuo asiático". Nature . 456 (7218): 60–65. Bibcode :2008Natur.456...60W. doi :10.1038/nature07484. ISSN 0028-0836. PMC 2716080. PMID 18987735 .
^ Ghosh, Pallab (23 de abril de 2015). "Completada la secuencia del genoma del mamut". BBC News .
^ Yates, Diana (23 de abril de 2009). "¿Qué hace que una vaca sea una vaca? La secuencia del genoma arroja luz sobre la evolución de los rumiantes" (Nota de prensa) . EurekAlert!. Consultado el 22 de diciembre de 2012 .
^ Elsik, CG; Elsik, RL; Tellam, KC; Worley, RA; Gibbs, DM; Muzny, GM; Weinstock, DL; Adelson, EE; Eichler, L.; Elnitski, R.; Guigó, DL; Hamernik, SM; Kappes, HA; Lewin, DJ; Lynn, FW; Nicholas, A.; Reymond, M.; Rijnkels, LC; Skow, EM; Zdobnov, L.; Schook, J.; Womack, T.; Alioto, SE; Antonarakis, A.; Astashyn, CE; Chapple, H. -C.; Chen, J.; Chrast, F.; Câmara, O.; et al. (2009). "La secuencia del genoma del ganado taurino: una ventana a la biología y evolución de los rumiantes". Science . 324 (5926): 522–528. Código Bibliográfico : 2009Sci...324..522A. doi :10.1126/science.1169588. PMC 2943200. PMID 19390049 .
^ "Lanzamiento de 2007: genoma del caballo ensamblado". Instituto Nacional de Investigación del Genoma Humano (NHGRI) . Consultado el 19 de abril de 2018 .
^ Scott, Alison D; Zimin, Aleksey V; Puiu, Daniela; Workman, Rachael; Britton, Monica; Zaman, Sumaira; Caballero, Madison; Read, Andrew C; Bogdanove, Adam J; Burns, Emily; Wegrzyn, Jill; Timp, Winston; Salzberg, Steven L; Neale, David B (1 de noviembre de 2020). "Una secuencia genómica de referencia para la sequoia gigante". G3: Genes, Genomas, Genética . 10 (11): 3907–3919. doi :10.1534/g3.120.401612. PMC 7642918 . PMID 32948606.

Enlaces externos

El Wikilibro Secuenciación de nueva generación (NGS) tiene una página sobre el tema: Ensamblaje de novo

Wikimedia Commons alberga una categoría multimedia sobre Proyectos genoma .

GOLD: Base de datos de genomas en línea
Base de datos del Proyecto Genoma
La utilidad de denominación de proteínas
SUPERFAMILIA
EchinoBase Archivado el 25 de octubre de 2016 en Wayback Machine Una base de datos genómica de equinodermos (anteriormente SpBase, una base de datos del genoma del erizo de mar)
Ministerio de Relaciones Exteriores.
Alianza Global para la Genómica de Invertebrados (GIGA) Archivado el 21 de enero de 2021 en Wayback Machine
Instituto Bienvenido Sanger
Campus Genómico Bienvenido