stringtranslate.com

Proyecto 1000 Genomas Vegetales

La Iniciativa de los 1000 Transcriptomas de Plantas (1KP) fue un esfuerzo de investigación internacional para establecer el catálogo más detallado de variación genética en plantas. Se anunció en 2008 y estuvo dirigida por Gane Ka-Shu Wong y Michael Deyholos de la Universidad de Alberta . El proyecto logró secuenciar con éxito los transcriptomas (genes expresados) de 1000 especies de plantas diferentes en 2014; [1] [2] sus productos finales se publicaron en 2019. [3] [4] [5]

El 1KP fue uno de los proyectos de secuenciación a gran escala (que involucraba a muchos organismos) diseñado para aprovechar la mayor disponibilidad de tecnologías de secuenciación de ADN de alto rendimiento ("de próxima generación") . El Proyecto 1000 Genomas , por ejemplo, obtuvo secuencias genómicas de alta cobertura de 1000 personas individuales entre 2008 y 2015, para comprender mejor la variación genética humana . [6] [7] Este proyecto proporciona una plantilla para otros proyectos genómicos a escala planetaria, incluido el Proyecto 10KP, que secuencia los genomas completos de 10 000 plantas, [8] y el Proyecto BioGenome de la Tierra , que tiene como objetivo secuenciar, catalogar y caracterizar los genomas de toda la biodiversidad eucariota de la Tierra . [9]

Objetivos

En 2002 , se estimó que el número de especies de plantas verdes clasificadas era de alrededor de 370.000, sin embargo, probablemente haya muchos miles más aún sin clasificar. [10] A pesar de este número, muy pocas de estas especies tienen información detallada de la secuencia de ADN hasta la fecha; 125.426 especies en GenBank , al 11 de abril de 2012 , [11] pero la mayoría (>95%) tiene secuencia de ADN para solo uno o dos genes. "...casi ninguna de las aproximadamente medio millón de especies de plantas conocidas por la humanidad ha sido tocada por la genómica en ningún nivel". [1] El Proyecto de los 1000 Genomas de Plantas tenía como objetivo producir un aumento de aproximadamente 100 veces en el número de especies de plantas con una secuencia genómica amplia disponible.

Relaciones evolutivas

Se han hecho esfuerzos para determinar las relaciones evolutivas entre las especies de plantas conocidas, [12] [13] pero las filogenias (o árboles filogenéticos) creadas únicamente usando datos morfológicos, estructuras celulares, enzimas individuales o en solo unas pocas secuencias (como ARNr ) pueden ser propensas a error; [14] las características morfológicas son especialmente vulnerables cuando dos especies parecen físicamente similares aunque no estén estrechamente relacionadas (como resultado de la evolución convergente , por ejemplo) u homología , o cuando dos especies estrechamente relacionadas parecen muy diferentes porque, por ejemplo, son capaces de cambiar en respuesta a su entorno muy bien. Estas situaciones son muy comunes en el reino vegetal. Un método alternativo para construir relaciones evolutivas es a través de cambios en la secuencia de ADN de muchos genes entre las diferentes especies, que a menudo es más robusto a los problemas de especies de apariencia similar. [14] Con la cantidad de secuencia genómica producida por este proyecto, muchas relaciones evolutivas predichas podrían probarse mejor mediante la alineación de secuencias para mejorar su certeza. Con 383.679 filogenias de familias de genes nucleares y 2.306 distribuciones de edad de genes con gráficos Ks utilizados en el análisis final y compartidos en GigaDB junto con el artículo final. [15]

Aplicaciones de la biotecnología

La lista de genomas vegetales secuenciados en el proyecto no fue aleatoria; en cambio, se centró en plantas que producen sustancias químicas valiosas u otros productos ( metabolitos secundarios en muchos casos) con la esperanza de que la caracterización de los genes involucrados permita utilizar o modificar los procesos biosintéticos subyacentes. [1] Por ejemplo, se sabe que muchas plantas producen aceites (como las aceitunas) y algunos de los aceites de ciertas plantas tienen un fuerte parecido químico con los productos derivados del petróleo, como la palma aceitera y las especies productoras de hidrocarburos . [16] Si estos mecanismos vegetales pudieran utilizarse para producir cantidades masivas de aceite industrialmente útil, o modificarse de manera que lo hagan, entonces serían de gran valor. En este caso, conocer la secuencia de los genes de la planta implicados en la vía metabólica que produce el aceite es un gran primer paso para permitir dicha utilización. Un ejemplo reciente de cómo funciona la ingeniería de vías bioquímicas naturales es el arroz dorado , que ha implicado la modificación genética de su vía, de modo que se produzca un precursor de la vitamina A en grandes cantidades, lo que convierte al arroz de color marrón en una posible solución para la deficiencia de vitamina A. [17] Este concepto de ingeniería de plantas para que realicen "trabajo" es popular [18] y su potencial aumentaría drásticamente como resultado de la información genética sobre estas 1000 especies de plantas. Las vías biosintéticas también podrían usarse para la producción en masa de compuestos medicinales utilizando plantas en lugar de reacciones químicas orgánicas manuales como la mayoría de las que se crean actualmente.

Uno de los resultados más inesperados del proyecto fue el descubrimiento de múltiples canales iónicos fotosensibles nuevos que se utilizan ampliamente para el control optogenético de las neuronas, descubiertos a través de la secuenciación y caracterización fisiológica de las opsinas de más de 100 especies de algas por el proyecto. [19] La caracterización de estas nuevas secuencias de canalrodopsina proporciona recursos para los ingenieros de proteínas que normalmente no tendrían interés ni capacidad para generar datos de secuencias de estas numerosas especies de plantas. [20] Varias empresas de biotecnología están desarrollando estas proteínas canalrodopsina con fines médicos, y muchos de estos candidatos a terapia optogenética se encuentran en ensayos clínicos para restaurar la visión en casos de ceguera retiniana . Los primeros resultados publicados de estos tratamientos para la retinosis pigmentaria se publicarán en julio de 2021. [21]

Enfoque del proyecto

La secuenciación se realizó inicialmente en la plataforma de secuenciación de ADN de última generación Illumina Genome Analyzer GAII en el Instituto de Genómica de Beijing (BGI Shenzhen, China), pero más tarde las muestras se procesaron en la plataforma más rápida Illumina HiSeq 2000. Comenzando con las 28 máquinas de secuenciación de ADN de última generación Illumina Genome Analyzer , estas finalmente se actualizaron a 100 secuenciadores HiSeq 2000 en el Instituto de Genómica de Beijing . La capacidad inicial de 3 Gb/ejecución (3 mil millones de pares de bases por experimento) de cada una de estas máquinas permitió una secuenciación rápida y precisa de las muestras de plantas. [22]

Selección de especies

La selección de especies de plantas para secuenciar se compiló a través de una colaboración internacional de las diversas agencias de financiación y grupos de investigadores que expresaron su interés en ciertas plantas. [1] Se centró en aquellas especies de plantas que se sabe que tienen una capacidad biosintética útil para facilitar los objetivos biotecnológicos del proyecto, y la selección de otras especies para llenar los vacíos y explicar algunas relaciones evolutivas desconocidas de la filogenia vegetal actual. Además de la capacidad biosintética de compuestos industriales, se asignó una alta prioridad a las especies de plantas conocidas o sospechosas de producir sustancias químicas médicamente activas (como las amapolas que producen opiáceos ) para comprender mejor el proceso de síntesis, explorar el potencial de producción comercial y descubrir nuevas opciones farmacéuticas. Se seleccionó una gran cantidad de especies de plantas con propiedades medicinales de la medicina tradicional china (MTC). [1] La lista completa de especies seleccionadas se puede ver públicamente en el sitio web, [23] y se han publicado en detalle los detalles metodológicos y los detalles de acceso a los datos. [5] [24]

Secuenciación del transcriptoma frente a secuenciación del genoma

En lugar de secuenciar el genoma completo (toda la secuencia de ADN) de las diversas especies de plantas, el proyecto secuenció solo aquellas regiones del genoma que producen un producto proteico ( genes codificantes ); el transcriptoma . [1] Este enfoque se justifica por el enfoque en las vías bioquímicas donde solo se requieren los genes que producen las proteínas involucradas para comprender el mecanismo sintético, y porque estos miles de secuencias representarían un detalle de secuencia adecuado para construir relaciones evolutivas muy sólidas a través de la comparación de secuencias. La cantidad de genes codificantes en las especies de plantas puede variar considerablemente, pero todas tienen decenas de miles o más, lo que hace que el transcriptoma sea una gran colección de información. Sin embargo, la secuencia no codificante constituye la mayoría (> 90%) del contenido del genoma. [25] Aunque este enfoque es similar conceptualmente a las etiquetas de secuencia expresada (EST), es fundamentalmente diferente en que se adquirirá la secuencia completa de cada gen con una alta cobertura en lugar de solo una pequeña porción de la secuencia del gen con una EST. [26] Para distinguir los dos, el método sin EST se conoce como "secuenciación del transcriptoma shotgun". [26]

Secuenciación shotgun del transcriptoma

El ARNm ( ARN mensajero ) se recoge de una muestra, se convierte en ADNc mediante una enzima transcriptasa inversa y luego se fragmenta para que pueda secuenciarse. [1] [22] Además de la secuenciación shotgun del transcriptoma , esta técnica se ha denominado RNA-seq y secuenciación shotgun del transcriptoma completo (WTSS). [26] Una vez que se secuencian los fragmentos de ADNc, se ensamblarán de novo (sin alinearlos con una secuencia del genoma de referencia ) para volver a formar la secuencia genética completa combinando todos los fragmentos de ese gen durante la fase de análisis de datos. Para este proyecto se produjo un nuevo ensamblador de transcriptoma de novo diseñado específicamente para RNA-Seq, [27] SOAPdenovo-Trans, que forma parte del conjunto SOAP de herramientas de ensamblaje del genoma de BGI .

Muestreo de tejido vegetal

Las muestras procedían de todo el mundo, y varias especies particularmente raras fueron suministradas por jardines botánicos como el Jardín Botánico Fairy Lake (Shenzhen, China). [ cita requerida ] El tipo de tejido recolectado se determinó en función de la ubicación esperada de la actividad biosintética; por ejemplo, si se sabe que un proceso o una sustancia química interesante existe principalmente en las hojas, se utilizó una muestra de hoja. Se adaptaron y probaron varios protocolos de secuenciación de ARN para diferentes tipos de tejidos, [24] y estos se compartieron abiertamente a través de la plataforma protocols.io. [28]

Limitaciones potenciales

Dado que solo se secuenció el transcriptoma, el proyecto no reveló información sobre la secuencia reguladora de genes , ARN no codificantes , elementos repetitivos de ADN u otras características genómicas que no forman parte de la secuencia codificante. Según los pocos genomas de plantas completos recopilados hasta ahora, estas regiones no codificantes de hecho conformarán la mayoría del genoma, [25] [29] y el ADN no codificante puede ser en realidad el impulsor principal de las diferencias de rasgos observadas entre especies. [30]

Dado que el ARNm fue el material de partida, la cantidad de representación de secuencias para un gen determinado se basa en el nivel de expresión (cuántas moléculas de ARNm produce). Esto significa que los genes altamente expresados ​​obtienen una mejor cobertura porque hay más secuencias con las que trabajar. [30] El resultado, entonces, es que algunos genes importantes pueden no haber sido detectados de manera confiable por el proyecto si se expresan en un nivel bajo pero aún tienen funciones bioquímicas importantes.

Se sabe que muchas especies de plantas (especialmente las manipuladas agrícolamente) [29] han sufrido grandes cambios en todo el genoma a través de la duplicación del genoma completo. Los genomas del arroz y del trigo, por ejemplo, pueden tener de 4 a 6 copias de genomas completos [29] ( trigo ), mientras que los animales normalmente solo tienen 2 ( diploidía ). Estos genes duplicados pueden plantear un problema para el ensamblaje de novo de fragmentos de secuencia, porque las secuencias repetidas confunden a los programas informáticos cuando intentan unir los fragmentos, y pueden ser difíciles de rastrear a lo largo de la evolución.

Comparación con el Proyecto 1000 Genomas

Similitudes

Así como el Instituto de Genómica de Beijing en Shenzhen, China, es uno de los principales centros de genómica involucrados en el Proyecto de los 1000 Genomas , el instituto es el sitio de secuenciación para el Proyecto de los 1000 Genomas de Plantas. [31] Ambos proyectos son esfuerzos a gran escala para obtener información detallada de la secuencia de ADN para mejorar nuestra comprensión de los organismos, y ambos proyectos utilizarán secuenciación de próxima generación para facilitar una finalización oportuna.

Diferencias

Los objetivos de ambos proyectos son muy diferentes. Mientras que el Proyecto 1000 Genomas se centra en la variación genética de una sola especie, el Proyecto 1000 Genomas Vegetales estudia las relaciones evolutivas y los genes de 1000 especies de plantas diferentes.

Si bien se estimó que el Proyecto de los 1000 Genomas costaría hasta 50 millones de dólares estadounidenses, [6] el Proyecto de los 1000 Genomas Vegetales no fue tan costoso; la diferencia en el costo proviene de la secuencia objetivo en los genomas. [1] Dado que el Proyecto de los 1000 Genomas Vegetales solo secuenció el transcriptoma, mientras que el proyecto humano secuenció la mayor parte del genoma que se decidió que era factible, [6] hay una cantidad mucho menor de esfuerzo de secuenciación necesario en este enfoque más específico. Si bien esto significa que hubo menos resultados de secuencia general en relación con el Proyecto de los 1000 Genomas Vegetales , las partes no codificantes de los genomas excluidas en el Proyecto de los 1000 Genomas Vegetales no fueron tan importantes para sus objetivos como lo son para el proyecto humano. Entonces, el enfoque más centrado del Proyecto de los 1000 Genomas Vegetales minimizó el costo y, al mismo tiempo, logró sus objetivos.

Fondos

El proyecto fue financiado por Alberta Innovates - Technology Futures (fusión de iCORE [1]), Genome Alberta, la Universidad de Alberta, el Beijing Genomics Institute (BGI) y Musea Ventures (una empresa de inversión privada con sede en EE. UU.). [32] Hasta la fecha, el proyecto recibió 1,5 millones de dólares canadienses del gobierno de Alberta y otros 0,5 millones de dólares de Musea Ventures. [32] En enero de 2010, BGI anunció que contribuiría con 100 millones de dólares a proyectos de secuenciación a gran escala de plantas y animales (incluido el Proyecto de los 1000 Genomas Vegetales, y luego el Proyecto de los 10.000 Genomas Vegetales [8] ). [31]

Proyectos relacionados

Véase también

Referencias

  1. ^ abcdefgh Recuperado el 25 de febrero de 2010
  2. ^ Matasci N, Hung LH, Yan Z, Carpenter EJ, Wickett NJ, Mirarab S, et al. (2014). "Acceso a datos para el proyecto 1000 Plants (1KP)". GigaScience . 3 (17): 17. doi : 10.1186/2047-217X-3-17 . PMC  4306014 . PMID  25625010.
  3. ^ Iniciativa de Mil Transcriptomas Vegetales (octubre de 2019). «Mil transcriptomas vegetales y la filogenómica de las plantas verdes». Nature . 574 (7780): 679–685. doi :10.1038/s41586-019-1693-2. PMC 6872490 . PMID  31645766. 
  4. ^ Wong GK, Soltis DE, Leebens-Mack J, Wickett NJ, Barker MS, de Peer YV, et al. (4 de mayo de 2016). "Secuenciación y análisis de los transcriptomas de mil especies en el árbol de la vida de las plantas verdes". Revisión anual de biología vegetal . 71 : 741–765. doi : 10.1146/annurev-arplant-042916-041040 . ISSN  1543-5008. PMID  31851546. S2CID  209416841.
  5. ^ ab Carpenter EJ, Matasci N, Ayyampalayam S, Wu S, Sun J, Yu J, et al. (octubre de 2019). "Acceso a datos de secuenciación de ARN de 1173 especies de plantas: la iniciativa de transcriptomas de 1000 plantas (1KP)". GigaScience . 8 (10). doi :10.1093/gigascience/giz126. PMC 6808545 . PMID  31644802. 
  6. ^ abcd Hayden EC (enero de 2008). "Lanzamiento del proyecto internacional sobre el genoma". Nature . 451 (7177): 378–9. Bibcode :2008Natur.451R.378C. doi :10.1038/451378b. PMID  18216809. S2CID  205035320.
  7. ^ "Acerca de IGSR y el Proyecto 1000 Genomas". IGSR: The International Genome Sample Resource . Consultado el 2 de octubre de 2018 .
  8. ^ ab Cheng S, Melkonian M, Smith SA, Brockington S, Archibald JM, Delaux PM, et al. (1 de marzo de 2018). "10KP: Un plan de secuenciación del genoma filodiverso". GigaScience . 7 (3): 1–9. doi :10.1093/gigascience/giy013. PMC 5869286 . PMID  29618049. 
  9. ^ Lewin HA, Robinson GE, Kress WJ, Baker WJ, Coddington J, Crandall KA, et al. (24 de abril de 2018). "Proyecto BioGenome de la Tierra: secuenciación de la vida para el futuro de la vida". Actas de la Academia Nacional de Ciencias . 115 (17): 4325–4333. Bibcode :2018PNAS..115.4325L. doi : 10.1073/pnas.1720115115 . ISSN  0027-8424. PMC 5924910 . PMID  29686065. 
  10. ^ Pitman NC, Jørgensen PM (noviembre de 2002). "Estimación del tamaño de la flora amenazada del mundo". Science . 298 (5595): 989. doi :10.1126/science.298.5595.989. PMID  12411696. S2CID  891010.
  11. ^ "Taxonomía del NCBI". NCBI . Consultado el 11 de abril de 2012 .
  12. ^ Bremer K (1985). "Resumen de la filogenia y clasificación de las plantas verdes". Cladística . 1 (4): 369–385. doi : 10.1111/j.1096-0031.1985.tb00434.x . PMID  34965683. S2CID  84961691.
  13. ^ Graham LE, Delwiche CF, Mishler BD (1991). "Conexiones filogenéticas entre las 'algas verdes' y las 'briofitas'". Avances en briología . 213–44 (3): 451–483. JSTOR  2399900.
  14. ^ ab Doyle JJ (enero de 1992). "Árboles genéticos y árboles de especies: sistemática molecular como taxonomía de un carácter". Botánica sistemática . 1 (1): 144–63. doi :10.2307/2419070. JSTOR  2419070.
  15. ^ Li Z, Barker MS (1 de febrero de 2020). "Inferir supuestas duplicaciones antiguas de todo el genoma en la iniciativa 1000 Plants (1KP): acceso a filogenias de familias de genes y distribuciones de edad". GigaScience . 9 (2). doi :10.1093/gigascience/giaa004. PMC 7011446 . PMID  32043527. 
  16. ^ Augustus GD, Jayabalan M, Rajarathinam K, Ray AK, Seiler GJ (2002). "Especies productoras de hidrocarburos potenciales de los Ghats occidentales, Tamil Nadu, India". Biomasa y bioenergía . 23 (3): 165–169. Código Bibliográfico :2002BmBe...23..165A. doi :10.1016/S0961-9534(02)00045-4.
  17. ^ Ye X, Al-Babili S, Klöti A, Zhang J, Lucca P, Beyer P, et al. (enero de 2000). "Ingeniería de la vía biosintética de la provitamina A (beta-caroteno) en el endospermo del arroz (sin carotenoides)". Science . 287 (5451): 303–5. Bibcode :2000Sci...287..303Y. doi :10.1126/science.287.5451.303. PMID  10634784. S2CID  40258379.
  18. ^ Taiz L, Zeiger E (2006). "Capítulo 13: Metabolitos secundarios y defensa de las plantas". Fisiología vegetal (4.ª ed.). Sinauer Associates. ISBN 978-0-87893-856-8.
  19. ^ Klapoetke NC, Murata Y, Kim SS, Pulver SR, Birdsey-Benson A, Cho YK, et al. (marzo de 2014). "Excitación óptica independiente de distintas poblaciones neuronales". Nature Methods . 11 (3): 338–346. doi :10.1038/nmeth.2836. PMC 3943671 . PMID  24509633. 
  20. ^ Wong GK, Soltis DE, Leebens-Mack J, Wickett NJ, Barker MS, Van de Peer Y, et al. (abril de 2020). "Secuenciación y análisis de los transcriptomas de mil especies en el árbol de la vida de las plantas verdes". Revisión anual de biología vegetal . 71 : 741–765. doi : 10.1146/annurev-arplant-042916-041040 . PMID:  31851546. S2CID  : 209416841.
  21. ^ Sahel JA, Boulanger-Scemama E, Pagot C, Arleo A, Galluppi F, Martel JN, et al. (julio de 2021). "Recuperación parcial de la función visual en un paciente ciego después de la terapia optogenética". Nature Methods . 27 (7): 1223–1229. doi : 10.1038/s41591-021-01351-4 . PMID  34031601. S2CID  235203605.
  22. ^ ab "Recuperado el 25 de febrero de 2010". Archivado desde el original el 7 de marzo de 2010 . Consultado el 3 de marzo de 2010 .
  23. ^ "Visualizador de listas de muestras de 1kP". www.onekp.com . Consultado el 10 de abril de 2020 .
  24. ^ ab Johnson MT, Carpenter EJ, Tian Z, Bruskiewich R, Burris JN, Carrigan CT, et al. (21 de noviembre de 2012). "Evaluación de métodos para aislar ARN total y predecir el éxito de la secuenciación de transcriptomas de plantas filogenéticamente diversos". PLOS ONE . ​​7 (11): e50226. Bibcode :2012PLoSO...750226J. doi : 10.1371/journal.pone.0050226 . ISSN  1932-6203. PMC 3504007 . PMID  23185583. 
  25. ^ ab Morgante M (abril de 2006). "Organización y diversidad del genoma vegetal: ¡el año de la basura!". Current Opinion in Biotechnology . 17 (2): 168–73. doi :10.1016/j.copbio.2006.03.001. PMID  16530402.
  26. ^ abc Morozova O, Hirst M, Marra MA (2009). "Aplicaciones de nuevas tecnologías de secuenciación para el análisis del transcriptoma". Revisión anual de genómica y genética humana . 10 : 135–51. doi :10.1146/annurev-genom-082908-145957. PMID  19715439. S2CID  26713396.
  27. ^ Xie Y, Wu G, Tang J, Luo R, Patterson J, Liu S, et al. (15 de junio de 2014). "SOAPdenovo-Trans: ensamblaje de novo del transcriptoma con lecturas cortas de ARN-Seq". Bioinformática . 30 (12): 1660–1666. arXiv : 1305.6760 . doi : 10.1093/bioinformatics/btu077 . ISSN  1367-4803. PMID  24532719.
  28. ^ TM, JE, Tian Z, Bruskiewich R, NJ, TC, et al. (15 de agosto de 2019). "Aislamiento de ARN a partir de tejido vegetal v1 (protocols.io.439gyr6)". Protocols.io . doi : 10.17504/protocols.io.439gyr6 .
  29. ^ abc Yu J, Hu S, Wang J, Wong GK, Li S, Liu B, et al. (abril de 2002). "Un borrador de secuencia del genoma del arroz (Oryza sativa L. ssp. indica)". Science . 296 (5565): 79–92. Bibcode :2002Sci...296...79Y. doi :10.1126/science.1068037. PMID  11935017. S2CID  208529258.
  30. ^ ab Bird CP, Stranger BE, Liu M, Thomas DJ, Ingle CE, Beazley C, et al. (2007). "Secuencias no codificantes de rápida evolución en el genoma humano". Genome Biology . 8 (6): R118. doi : 10.1186/gb-2007-8-6-r118 . PMC 2394770 . PMID  17578567. 
  31. ^ ab "BGI busca propuestas para secuenciar 1.000 genomas de plantas y animales; promete 100 millones de dólares para el esfuerzo". GenomeWeb . 12 de enero de 2010 . Consultado el 25 de febrero de 2010 .
  32. ^ ab "Investigador de iCORE de Alberta lidera proyecto internacional sobre genoma". Gobierno de Alberta. 13 de noviembre de 2008. Archivado desde el original el 25 de septiembre de 2012. Consultado el 21 de agosto de 2018 .
  33. ^ Weigel D, Mott R (2009). "El proyecto de los 1001 genomas de Arabidopsis thaliana". Genome Biology . 10 (5): 107. doi : 10.1186/gb-2009-10-5-107 . PMC 2718507 . PMID  19519932. 
  34. ^ Comunidad de científicos Genome 10K (2009). "Genome 10K: una propuesta para obtener la secuencia completa del genoma de 10 000 especies de vertebrados". The Journal of Heredity . 100 (6): 659–74. doi :10.1093/jhered/esp086. PMC 2877544 . PMID  19892720. {{cite journal}}: CS1 maint: nombres numéricos: lista de autores ( enlace )

Enlaces externos