La Iniciativa de los 1000 Transcriptomas de Plantas (1KP) fue un esfuerzo de investigación internacional para establecer el catálogo más detallado de variación genética en plantas. Se anunció en 2008 y estuvo dirigida por Gane Ka-Shu Wong y Michael Deyholos de la Universidad de Alberta . El proyecto logró secuenciar con éxito los transcriptomas (genes expresados) de 1000 especies de plantas diferentes en 2014; [1] [2] sus productos finales se publicaron en 2019. [3] [4] [5]
El 1KP fue uno de los proyectos de secuenciación a gran escala (que involucraba a muchos organismos) diseñado para aprovechar la mayor disponibilidad de tecnologías de secuenciación de ADN de alto rendimiento ("de próxima generación") . El Proyecto 1000 Genomas , por ejemplo, obtuvo secuencias genómicas de alta cobertura de 1000 personas individuales entre 2008 y 2015, para comprender mejor la variación genética humana . [6] [7] Este proyecto proporciona una plantilla para otros proyectos genómicos a escala planetaria, incluido el Proyecto 10KP, que secuencia los genomas completos de 10 000 plantas, [8] y el Proyecto BioGenome de la Tierra , que tiene como objetivo secuenciar, catalogar y caracterizar los genomas de toda la biodiversidad eucariota de la Tierra . [9]
En 2002 [actualizar], se estimó que el número de especies de plantas verdes clasificadas era de alrededor de 370.000, sin embargo, probablemente haya muchos miles más aún sin clasificar. [10] A pesar de este número, muy pocas de estas especies tienen información detallada de la secuencia de ADN hasta la fecha; 125.426 especies en GenBank , al 11 de abril de 2012 [actualizar], [11] pero la mayoría (>95%) tiene secuencia de ADN para solo uno o dos genes. "...casi ninguna de las aproximadamente medio millón de especies de plantas conocidas por la humanidad ha sido tocada por la genómica en ningún nivel". [1] El Proyecto de los 1000 Genomas de Plantas tenía como objetivo producir un aumento de aproximadamente 100 veces en el número de especies de plantas con una secuencia genómica amplia disponible.
Se han hecho esfuerzos para determinar las relaciones evolutivas entre las especies de plantas conocidas, [12] [13] pero las filogenias (o árboles filogenéticos) creadas únicamente usando datos morfológicos, estructuras celulares, enzimas individuales o en solo unas pocas secuencias (como ARNr ) pueden ser propensas a error; [14] las características morfológicas son especialmente vulnerables cuando dos especies parecen físicamente similares aunque no estén estrechamente relacionadas (como resultado de la evolución convergente , por ejemplo) u homología , o cuando dos especies estrechamente relacionadas parecen muy diferentes porque, por ejemplo, son capaces de cambiar en respuesta a su entorno muy bien. Estas situaciones son muy comunes en el reino vegetal. Un método alternativo para construir relaciones evolutivas es a través de cambios en la secuencia de ADN de muchos genes entre las diferentes especies, que a menudo es más robusto a los problemas de especies de apariencia similar. [14] Con la cantidad de secuencia genómica producida por este proyecto, muchas relaciones evolutivas predichas podrían probarse mejor mediante la alineación de secuencias para mejorar su certeza. Con 383.679 filogenias de familias de genes nucleares y 2.306 distribuciones de edad de genes con gráficos Ks utilizados en el análisis final y compartidos en GigaDB junto con el artículo final. [15]
La lista de genomas vegetales secuenciados en el proyecto no fue aleatoria; en cambio, se centró en plantas que producen sustancias químicas valiosas u otros productos ( metabolitos secundarios en muchos casos) con la esperanza de que la caracterización de los genes involucrados permita utilizar o modificar los procesos biosintéticos subyacentes. [1] Por ejemplo, se sabe que muchas plantas producen aceites (como las aceitunas) y algunos de los aceites de ciertas plantas tienen un fuerte parecido químico con los productos derivados del petróleo, como la palma aceitera y las especies productoras de hidrocarburos . [16] Si estos mecanismos vegetales pudieran utilizarse para producir cantidades masivas de aceite industrialmente útil, o modificarse de manera que lo hagan, entonces serían de gran valor. En este caso, conocer la secuencia de los genes de la planta implicados en la vía metabólica que produce el aceite es un gran primer paso para permitir dicha utilización. Un ejemplo reciente de cómo funciona la ingeniería de vías bioquímicas naturales es el arroz dorado , que ha implicado la modificación genética de su vía, de modo que se produzca un precursor de la vitamina A en grandes cantidades, lo que convierte al arroz de color marrón en una posible solución para la deficiencia de vitamina A. [17] Este concepto de ingeniería de plantas para que realicen "trabajo" es popular [18] y su potencial aumentaría drásticamente como resultado de la información genética sobre estas 1000 especies de plantas. Las vías biosintéticas también podrían usarse para la producción en masa de compuestos medicinales utilizando plantas en lugar de reacciones químicas orgánicas manuales como la mayoría de las que se crean actualmente.
Uno de los resultados más inesperados del proyecto fue el descubrimiento de múltiples canales iónicos fotosensibles nuevos que se utilizan ampliamente para el control optogenético de las neuronas, descubiertos a través de la secuenciación y caracterización fisiológica de las opsinas de más de 100 especies de algas por el proyecto. [19] La caracterización de estas nuevas secuencias de canalrodopsina proporciona recursos para los ingenieros de proteínas que normalmente no tendrían interés ni capacidad para generar datos de secuencias de estas numerosas especies de plantas. [20] Varias empresas de biotecnología están desarrollando estas proteínas canalrodopsina con fines médicos, y muchos de estos candidatos a terapia optogenética se encuentran en ensayos clínicos para restaurar la visión en casos de ceguera retiniana . Los primeros resultados publicados de estos tratamientos para la retinosis pigmentaria se publicarán en julio de 2021. [21]
La secuenciación se realizó inicialmente en la plataforma de secuenciación de ADN de última generación Illumina Genome Analyzer GAII en el Instituto de Genómica de Beijing (BGI Shenzhen, China), pero más tarde las muestras se procesaron en la plataforma más rápida Illumina HiSeq 2000. Comenzando con las 28 máquinas de secuenciación de ADN de última generación Illumina Genome Analyzer , estas finalmente se actualizaron a 100 secuenciadores HiSeq 2000 en el Instituto de Genómica de Beijing . La capacidad inicial de 3 Gb/ejecución (3 mil millones de pares de bases por experimento) de cada una de estas máquinas permitió una secuenciación rápida y precisa de las muestras de plantas. [22]
La selección de especies de plantas para secuenciar se compiló a través de una colaboración internacional de las diversas agencias de financiación y grupos de investigadores que expresaron su interés en ciertas plantas. [1] Se centró en aquellas especies de plantas que se sabe que tienen una capacidad biosintética útil para facilitar los objetivos biotecnológicos del proyecto, y la selección de otras especies para llenar los vacíos y explicar algunas relaciones evolutivas desconocidas de la filogenia vegetal actual. Además de la capacidad biosintética de compuestos industriales, se asignó una alta prioridad a las especies de plantas conocidas o sospechosas de producir sustancias químicas médicamente activas (como las amapolas que producen opiáceos ) para comprender mejor el proceso de síntesis, explorar el potencial de producción comercial y descubrir nuevas opciones farmacéuticas. Se seleccionó una gran cantidad de especies de plantas con propiedades medicinales de la medicina tradicional china (MTC). [1] La lista completa de especies seleccionadas se puede ver públicamente en el sitio web, [23] y se han publicado en detalle los detalles metodológicos y los detalles de acceso a los datos. [5] [24]
En lugar de secuenciar el genoma completo (toda la secuencia de ADN) de las diversas especies de plantas, el proyecto secuenció solo aquellas regiones del genoma que producen un producto proteico ( genes codificantes ); el transcriptoma . [1] Este enfoque se justifica por el enfoque en las vías bioquímicas donde solo se requieren los genes que producen las proteínas involucradas para comprender el mecanismo sintético, y porque estos miles de secuencias representarían un detalle de secuencia adecuado para construir relaciones evolutivas muy sólidas a través de la comparación de secuencias. La cantidad de genes codificantes en las especies de plantas puede variar considerablemente, pero todas tienen decenas de miles o más, lo que hace que el transcriptoma sea una gran colección de información. Sin embargo, la secuencia no codificante constituye la mayoría (> 90%) del contenido del genoma. [25] Aunque este enfoque es similar conceptualmente a las etiquetas de secuencia expresada (EST), es fundamentalmente diferente en que se adquirirá la secuencia completa de cada gen con una alta cobertura en lugar de solo una pequeña porción de la secuencia del gen con una EST. [26] Para distinguir los dos, el método sin EST se conoce como "secuenciación del transcriptoma shotgun". [26]
El ARNm ( ARN mensajero ) se recoge de una muestra, se convierte en ADNc mediante una enzima transcriptasa inversa y luego se fragmenta para que pueda secuenciarse. [1] [22] Además de la secuenciación shotgun del transcriptoma , esta técnica se ha denominado RNA-seq y secuenciación shotgun del transcriptoma completo (WTSS). [26] Una vez que se secuencian los fragmentos de ADNc, se ensamblarán de novo (sin alinearlos con una secuencia del genoma de referencia ) para volver a formar la secuencia genética completa combinando todos los fragmentos de ese gen durante la fase de análisis de datos. Para este proyecto se produjo un nuevo ensamblador de transcriptoma de novo diseñado específicamente para RNA-Seq, [27] SOAPdenovo-Trans, que forma parte del conjunto SOAP de herramientas de ensamblaje del genoma de BGI .
Las muestras procedían de todo el mundo, y varias especies particularmente raras fueron suministradas por jardines botánicos como el Jardín Botánico Fairy Lake (Shenzhen, China). [ cita requerida ] El tipo de tejido recolectado se determinó en función de la ubicación esperada de la actividad biosintética; por ejemplo, si se sabe que un proceso o una sustancia química interesante existe principalmente en las hojas, se utilizó una muestra de hoja. Se adaptaron y probaron varios protocolos de secuenciación de ARN para diferentes tipos de tejidos, [24] y estos se compartieron abiertamente a través de la plataforma protocols.io. [28]
Dado que solo se secuenció el transcriptoma, el proyecto no reveló información sobre la secuencia reguladora de genes , ARN no codificantes , elementos repetitivos de ADN u otras características genómicas que no forman parte de la secuencia codificante. Según los pocos genomas de plantas completos recopilados hasta ahora, estas regiones no codificantes de hecho conformarán la mayoría del genoma, [25] [29] y el ADN no codificante puede ser en realidad el impulsor principal de las diferencias de rasgos observadas entre especies. [30]
Dado que el ARNm fue el material de partida, la cantidad de representación de secuencias para un gen determinado se basa en el nivel de expresión (cuántas moléculas de ARNm produce). Esto significa que los genes altamente expresados obtienen una mejor cobertura porque hay más secuencias con las que trabajar. [30] El resultado, entonces, es que algunos genes importantes pueden no haber sido detectados de manera confiable por el proyecto si se expresan en un nivel bajo pero aún tienen funciones bioquímicas importantes.
Se sabe que muchas especies de plantas (especialmente las manipuladas agrícolamente) [29] han sufrido grandes cambios en todo el genoma a través de la duplicación del genoma completo. Los genomas del arroz y del trigo, por ejemplo, pueden tener de 4 a 6 copias de genomas completos [29] ( trigo ), mientras que los animales normalmente solo tienen 2 ( diploidía ). Estos genes duplicados pueden plantear un problema para el ensamblaje de novo de fragmentos de secuencia, porque las secuencias repetidas confunden a los programas informáticos cuando intentan unir los fragmentos, y pueden ser difíciles de rastrear a lo largo de la evolución.
Así como el Instituto de Genómica de Beijing en Shenzhen, China, es uno de los principales centros de genómica involucrados en el Proyecto de los 1000 Genomas , el instituto es el sitio de secuenciación para el Proyecto de los 1000 Genomas de Plantas. [31] Ambos proyectos son esfuerzos a gran escala para obtener información detallada de la secuencia de ADN para mejorar nuestra comprensión de los organismos, y ambos proyectos utilizarán secuenciación de próxima generación para facilitar una finalización oportuna.
Los objetivos de ambos proyectos son muy diferentes. Mientras que el Proyecto 1000 Genomas se centra en la variación genética de una sola especie, el Proyecto 1000 Genomas Vegetales estudia las relaciones evolutivas y los genes de 1000 especies de plantas diferentes.
Si bien se estimó que el Proyecto de los 1000 Genomas costaría hasta 50 millones de dólares estadounidenses, [6] el Proyecto de los 1000 Genomas Vegetales no fue tan costoso; la diferencia en el costo proviene de la secuencia objetivo en los genomas. [1] Dado que el Proyecto de los 1000 Genomas Vegetales solo secuenció el transcriptoma, mientras que el proyecto humano secuenció la mayor parte del genoma que se decidió que era factible, [6] hay una cantidad mucho menor de esfuerzo de secuenciación necesario en este enfoque más específico. Si bien esto significa que hubo menos resultados de secuencia general en relación con el Proyecto de los 1000 Genomas Vegetales , las partes no codificantes de los genomas excluidas en el Proyecto de los 1000 Genomas Vegetales no fueron tan importantes para sus objetivos como lo son para el proyecto humano. Entonces, el enfoque más centrado del Proyecto de los 1000 Genomas Vegetales minimizó el costo y, al mismo tiempo, logró sus objetivos.
El proyecto fue financiado por Alberta Innovates - Technology Futures (fusión de iCORE [1]), Genome Alberta, la Universidad de Alberta, el Beijing Genomics Institute (BGI) y Musea Ventures (una empresa de inversión privada con sede en EE. UU.). [32] Hasta la fecha, el proyecto recibió 1,5 millones de dólares canadienses del gobierno de Alberta y otros 0,5 millones de dólares de Musea Ventures. [32] En enero de 2010, BGI anunció que contribuiría con 100 millones de dólares a proyectos de secuenciación a gran escala de plantas y animales (incluido el Proyecto de los 1000 Genomas Vegetales, y luego el Proyecto de los 10.000 Genomas Vegetales [8] ). [31]
{{cite journal}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )