Los proyectos genómicos son iniciativas científicas que tienen como objetivo final determinar la secuencia completa del genoma de un organismo (ya sea un animal , una planta , un hongo , una bacteria , una arquea , un protista o un virus ) y anotar los genes codificadores de proteínas y otras características importantes codificadas en el genoma. [1] La secuencia del genoma de un organismo incluye las secuencias colectivas de ADN de cada cromosoma del organismo. En el caso de una bacteria que contiene un solo cromosoma, un proyecto genómico tendrá como objetivo mapear la secuencia de ese cromosoma. En el caso de la especie humana, cuyo genoma incluye 22 pares de autosomas y 2 cromosomas sexuales, una secuencia completa del genoma implicará 46 secuencias cromosómicas separadas.
El Proyecto Genoma Humano es un ejemplo bien conocido de proyecto genómico. [2]
El ensamblaje del genoma se refiere al proceso de tomar una gran cantidad de secuencias cortas de ADN y volver a ensamblarlas para crear una representación de los cromosomas originales de los cuales se originó el ADN. En un proyecto de secuenciación shotgun , todo el ADN de una fuente (generalmente un solo organismo , cualquier cosa desde una bacteria hasta un mamífero ) primero se fractura en millones de pequeños fragmentos. Luego, estos fragmentos son "leídos" por máquinas de secuenciación automatizadas. Un algoritmo de ensamblaje del genoma funciona tomando todos los fragmentos y alineándolos entre sí, y detectando todos los lugares donde dos de las secuencias cortas, o lecturas , se superponen. Estas lecturas superpuestas se pueden fusionar y el proceso continúa.
El ensamblaje del genoma es un problema computacional muy difícil , que se complica aún más porque muchos genomas contienen grandes cantidades de secuencias idénticas, conocidas como repeticiones . Estas repeticiones pueden tener miles de nucleótidos de longitud y aparecer en diferentes lugares, especialmente en los grandes genomas de plantas y animales .
La secuencia genómica resultante (borrador) se produce combinando la información de los contigs secuenciados y luego empleando la información de enlace para crear estructuras. Las estructuras se colocan a lo largo del mapa físico de los cromosomas creando un "camino dorado".
Originalmente, la mayoría de los centros de secuenciación de ADN a gran escala desarrollaban su propio software para ensamblar las secuencias que producían. Sin embargo, esto ha cambiado a medida que el software se ha vuelto más complejo y que ha aumentado el número de centros de secuenciación. Un ejemplo de este ensamblador es Short Oligonucleotide Analysis Package desarrollado por BGI para el ensamblaje de novo de genomas de tamaño humano, alineación, detección de SNP , resecuenciación, búsqueda de indel y análisis de variación estructural. [3] [4] [5]
Desde la década de 1980, la biología molecular y la bioinformática han creado la necesidad de la anotación de ADN . La anotación de ADN o anotación del genoma es el proceso de identificar y adjuntar información biológica a secuencias , y en particular de identificar las ubicaciones de los genes y determinar qué hacen esos genes.
Al secuenciar un genoma, normalmente hay regiones que son difíciles de secuenciar (a menudo regiones con ADN altamente repetitivo ). Por lo tanto, las secuencias genómicas "completadas" rara vez están completas, y se han utilizado términos como "borrador de trabajo" o "esencialmente completo" para describir con mayor precisión el estado de dichos proyectos genómicos. Incluso cuando se ha determinado cada par de bases de una secuencia genómica, es probable que aún haya errores presentes porque la secuenciación del ADN no es un proceso completamente preciso. También se podría argumentar que un proyecto genómico completo debería incluir las secuencias de las mitocondrias y (en el caso de las plantas) los cloroplastos , ya que estos orgánulos tienen sus propios genomas.
A menudo se informa que el objetivo de secuenciar un genoma es obtener información sobre el conjunto completo de genes en esa secuencia genómica en particular. La proporción de un genoma que codifica genes puede ser muy pequeña (particularmente en eucariotas como los humanos, donde el ADN codificante puede representar solo un pequeño porcentaje de la secuencia completa). Sin embargo, no siempre es posible (o deseable) secuenciar solo las regiones codificantes por separado. Además, a medida que los científicos comprendan más sobre el papel de este ADN no codificante (a menudo denominado ADN basura ), será más importante tener una secuencia genómica completa como base para comprender la genética y la biología de cualquier organismo determinado.
En muchos sentidos, los proyectos genómicos no se limitan a determinar la secuencia de ADN de un organismo. Dichos proyectos también pueden incluir la predicción de genes para averiguar dónde se encuentran los genes en un genoma y qué hacen esos genes. También puede haber proyectos relacionados para secuenciar EST o ARNm para ayudar a averiguar dónde se encuentran realmente los genes.
Históricamente, al secuenciar genomas eucariotas (como el gusano Caenorhabditis elegans ), era común mapear primero el genoma para proporcionar una serie de puntos de referencia a lo largo del genoma. En lugar de secuenciar un cromosoma de una sola vez, se secuenciaría pieza por pieza (con el conocimiento previo de aproximadamente dónde se encuentra esa pieza en el cromosoma más grande). Los cambios en la tecnología y, en particular, las mejoras en la capacidad de procesamiento de las computadoras, significan que ahora los genomas se pueden secuenciar de una sola vez (aunque este enfoque tiene salvedades en comparación con el enfoque tradicional).
Las mejoras en la tecnología de secuenciación de ADN han significado que el costo de secuenciar una nueva secuencia del genoma ha disminuido de manera constante (en términos de costo por par de bases ) y la tecnología más nueva también ha significado que los genomas se pueden secuenciar mucho más rápidamente.
Cuando las agencias de investigación deciden qué nuevos genomas secuenciar, el énfasis se ha puesto en las especies que son de gran importancia como organismo modelo o que tienen relevancia para la salud humana (por ejemplo, bacterias patógenas o vectores de enfermedades como los mosquitos ) o especies que tienen importancia comercial (por ejemplo, ganado y plantas de cultivo). Se hace un énfasis secundario en las especies cuyos genomas ayudarán a responder preguntas importantes en la evolución molecular (por ejemplo, el chimpancé común ).
En el futuro, es probable que resulte aún más barato y rápido secuenciar un genoma, lo que permitirá determinar secuencias genómicas completas de muchos individuos diferentes de la misma especie. En el caso de los seres humanos, esto nos permitirá comprender mejor aspectos de la diversidad genética humana .
Muchos organismos tienen proyectos genómicos que ya se han completado o se completarán en breve, entre ellos: