Los proyectos genómicos son esfuerzos científicos que en última instancia tienen como objetivo determinar la secuencia completa del genoma de un organismo (ya sea un animal , una planta , un hongo , una bacteria , un arcaico , un protista o un virus ) y anotar genes codificadores de proteínas y otros características importantes codificadas en el genoma. [1] La secuencia del genoma de un organismo incluye las secuencias colectivas de ADN de cada cromosoma del organismo. Para una bacteria que contiene un solo cromosoma, un proyecto genómico tendrá como objetivo mapear la secuencia de ese cromosoma. Para la especie humana, cuyo genoma incluye 22 pares de autosomas y 2 cromosomas sexuales, una secuencia genómica completa implicará 46 secuencias cromosómicas separadas.
El Proyecto Genoma Humano es un ejemplo bien conocido de proyecto genoma. [2]
El ensamblaje del genoma se refiere al proceso de tomar una gran cantidad de secuencias cortas de ADN y reensamblarlas para crear una representación de los cromosomas originales a partir de los cuales se originó el ADN. En un proyecto de secuenciación rápida , todo el ADN de una fuente (generalmente un solo organismo , desde una bacteria hasta un mamífero ) primero se fractura en millones de pedazos pequeños. Luego, estas piezas son "leídas" por máquinas secuenciadoras automáticas. Un algoritmo de ensamblaje del genoma funciona tomando todas las piezas y alineándolas entre sí, y detectando todos los lugares donde dos de las secuencias cortas, o lecturas , se superponen. Estas lecturas superpuestas se pueden fusionar y el proceso continúa.
El ensamblaje del genoma es un problema computacional muy difícil , que se complica aún más porque muchos genomas contienen una gran cantidad de secuencias idénticas, conocidas como repeticiones . Estas repeticiones pueden tener miles de nucleótidos de largo y ocurrir en diferentes ubicaciones, especialmente en los grandes genomas de plantas y animales .
La secuencia del genoma resultante (borrador) se produce combinando la información secuenciada contigs y luego empleando información de enlace para crear andamios. Los andamios se colocan a lo largo del mapa físico de los cromosomas creando un "camino dorado".
Originalmente, la mayoría de los centros de secuenciación de ADN a gran escala desarrollaban su propio software para ensamblar las secuencias que producían. Sin embargo, esto ha cambiado a medida que el software se ha vuelto más complejo y ha aumentado el número de centros de secuenciación. Un ejemplo de dicho paquete de análisis de oligonucleótidos cortos en ensamblador desarrollado por BGI para el ensamblaje de novo de genomas de tamaño humano, alineación, detección de SNP , resecuenciación, búsqueda de indeles y análisis de variación estructural. [3] [4] [5]
Desde la década de 1980, la biología molecular y la bioinformática han creado la necesidad de la anotación del ADN . La anotación del ADN o la anotación del genoma es el proceso de identificar, adjuntar información biológica a secuencias y, en particular, identificar las ubicaciones de los genes y determinar qué hacen esos genes.
Al secuenciar un genoma, normalmente hay regiones que son difíciles de secuenciar (a menudo regiones con ADN muy repetitivo ). Por lo tanto, las secuencias genómicas "completas" rara vez lo son, y se han utilizado términos como "borrador de trabajo" o "esencialmente completo" para describir con mayor precisión el estado de dichos proyectos genómicos. Incluso cuando se ha determinado cada par de bases de la secuencia del genoma, es probable que haya errores porque la secuenciación del ADN no es un proceso completamente preciso. También se podría argumentar que un proyecto de genoma completo debería incluir las secuencias de las mitocondrias y (en el caso de las plantas) los cloroplastos, ya que estos orgánulos tienen sus propios genomas.
A menudo se informa que el objetivo de secuenciar un genoma es obtener información sobre el conjunto completo de genes en esa secuencia genómica particular. La proporción de un genoma que codifica genes puede ser muy pequeña (particularmente en eucariotas como los humanos, donde el ADN codificante puede representar sólo un pequeño porcentaje de la secuencia completa). Sin embargo, no siempre es posible (o deseable) secuenciar únicamente las regiones codificantes por separado. Además, a medida que los científicos comprendan mejor el papel de este ADN no codificante (a menudo denominado ADN basura ), será más importante contar con una secuencia genómica completa como base para comprender la genética y la biología de cualquier organismo determinado.
En muchos sentidos, los proyectos genómicos no se limitan a determinar únicamente la secuencia de ADN de un organismo. Dichos proyectos también pueden incluir la predicción de genes para descubrir dónde están los genes en un genoma y qué hacen esos genes. También puede haber proyectos relacionados para secuenciar tecnologías ecológicamente racionales o ARNm para ayudar a descubrir dónde están realmente los genes.
Históricamente, al secuenciar genomas eucariotas (como el gusano Caenorhabditis elegans ) era común mapear primero el genoma para proporcionar una serie de puntos de referencia a lo largo del genoma. En lugar de secuenciar un cromosoma de una sola vez, se secuenciaría pieza por pieza (con el conocimiento previo de aproximadamente dónde se encuentra esa pieza en el cromosoma más grande). Los cambios en la tecnología y, en particular, las mejoras en la potencia de procesamiento de las computadoras, significan que ahora los genomas pueden ser " secuenciados rápidamente " de una sola vez (aunque este enfoque tiene sus salvedades en comparación con el enfoque tradicional).
Las mejoras en la tecnología de secuenciación del ADN han significado que el costo de secuenciar una nueva secuencia del genoma ha disminuido constantemente (en términos de costo por par de bases ) y la tecnología más nueva también ha significado que los genomas se pueden secuenciar mucho más rápidamente.
Cuando las agencias de investigación deciden qué nuevos genomas secuenciar, el énfasis se ha puesto en especies que son de gran importancia como organismo modelo o que tienen relevancia para la salud humana (por ejemplo, bacterias patógenas o vectores de enfermedades como los mosquitos ) o especies que tienen importancia comercial ( por ejemplo, ganado y plantas de cultivo). Se pone un énfasis secundario en las especies cuyos genomas ayudarán a responder preguntas importantes sobre la evolución molecular (por ejemplo, el chimpancé común ).
En el futuro, es probable que sea aún más barato y más rápido secuenciar un genoma. Esto permitirá determinar secuencias completas del genoma de muchos individuos diferentes de la misma especie. Para los humanos, esto nos permitirá comprender mejor aspectos de la diversidad genética humana .
Muchos organismos tienen proyectos genómicos que se han completado o se completarán en breve, incluidos: