Montaje del transcriptoma de novo

El ensamblaje del transcriptoma de novo es el método de ensamblaje de secuencias de novo para crear un transcriptoma sin la ayuda de un genoma de referencia .

Introducción

Como resultado del desarrollo de nuevas tecnologías de secuenciación, entre 2008 y 2012 se produjo una gran caída en el costo de la secuenciación. Por megabase y genoma, el costo se redujo a 1/100.000 y 1/10.000 del precio, respectivamente. ^[1] Antes de esto, solo se secuenciaban los transcriptomas de organismos que eran de amplio interés y utilidad para la investigación científica; sin embargo, estas tecnologías de secuenciación de alto rendimiento (también llamadas secuenciación de próxima generación) desarrolladas en la década de 2010 son rentables y efectivas en términos de mano de obra, y la gama de organismos estudiados a través de estos métodos se está expandiendo. ^[2] Posteriormente, se han creado transcriptomas para el garbanzo , ^[3] las planarias , ^[4] Parhyale hawaiensis , ^[5] así como los cerebros del cocodrilo del Nilo , la serpiente del maíz , el dragón barbudo y la tortuga de orejas rojas , por nombrar solo algunos. ^[6]

El examen de organismos no modelo puede proporcionar nuevos conocimientos sobre los mecanismos que subyacen a la "diversidad de fascinantes innovaciones morfológicas" que han permitido la abundancia de vida en el planeta Tierra. ^[7] En animales y plantas, las "innovaciones" que no se pueden examinar en organismos modelo comunes incluyen el mimetismo , el mutualismo , el parasitismo y la reproducción asexual . El ensamblaje de transcriptomas de novo es a menudo el método preferido para estudiar organismos no modelo, ya que es más barato y más fácil que construir un genoma, y los métodos basados en referencias no son posibles sin un genoma existente. Los transcriptomas de estos organismos pueden así revelar nuevas proteínas y sus isoformas que están implicadas en fenómenos biológicos tan singulares.

De nuevovs. ensamblaje basado en referencia

Un conjunto de transcripciones ensambladas permite realizar estudios iniciales de expresión génica. Antes del desarrollo de programas informáticos de ensamblaje de transcriptomas, los datos del transcriptoma se analizaban principalmente mediante el mapeo sobre un genoma de referencia. Aunque la alineación del genoma es una forma robusta de caracterizar las secuencias de transcripción, este método tiene la desventaja de su incapacidad para dar cuenta de incidentes de alteraciones estructurales de las transcripciones de ARNm, como el empalme alternativo . ^[8] Dado que un genoma contiene la suma de todos los intrones y exones que pueden estar presentes en una transcripción, las variantes empalmadas que no se alinean de forma continua a lo largo del genoma pueden descartarse como isoformas proteicas reales. Incluso si se dispone de un genoma de referencia, se debe realizar un ensamblaje de novo , ya que puede recuperar transcripciones que se transcriben a partir de segmentos del genoma que faltan en el ensamblaje del genoma de referencia. ^[9]

Ensamblaje del genoma frente al transcriptoma

A diferencia de los niveles de cobertura de la secuencia del genoma, que pueden variar aleatoriamente como resultado del contenido repetido en regiones intrónicas no codificantes del ADN, los niveles de cobertura de la secuencia del transcriptoma pueden ser directamente indicativos de los niveles de expresión génica. Estas secuencias repetidas también crean ambigüedades en la formación de contigs en el ensamblaje del genoma, mientras que las ambigüedades en los contigs del ensamblaje del transcriptoma generalmente corresponden a isoformas empalmadas o variaciones menores entre los miembros de una familia de genes. ^[8] El ensamblador del genoma no se puede utilizar directamente en el ensamblaje del transcriptoma por varias razones. Primero, la profundidad de la secuenciación del genoma suele ser la misma en todo el genoma, pero la profundidad de las transcripciones puede variar. Segundo, ambas hebras siempre se secuencian en la secuenciación del genoma, pero el ARN-seq puede ser específico de la hebra. Tercero, el ensamblaje del transcriptoma es más desafiante porque las variantes de la transcripción del mismo gen pueden compartir exones y son difíciles de resolver de manera inequívoca. ^[9]

Método

Secuenciación de ARN

Una vez que se extrae y purifica el ARN de las células, se envía a una instalación de secuenciación de alto rendimiento, donde primero se realiza una transcripción inversa para crear una biblioteca de ADNc. Luego, este ADNc se puede fragmentar en varias longitudes según la plataforma utilizada para la secuenciación. Cada una de las siguientes plataformas utiliza un tipo diferente de tecnología para secuenciar millones de lecturas cortas: 454 Sequencing , Illumina y SOLiD .

Algoritmos de ensamblaje

Las lecturas de secuencias de ADNc se ensamblan en transcripciones mediante un programa de ensamblaje de transcripciones de lectura corta. Lo más probable es que algunas variaciones de aminoácidos entre transcripciones que, por lo demás, son similares, reflejen diferentes isoformas de proteínas. También es posible que representen genes diferentes dentro de la misma familia genética, o incluso genes que comparten solo un dominio conservado, según el grado de variación.

Existen varios programas de ensamblaje disponibles (consulte Ensambladores). Aunque estos programas han tenido éxito en general en el ensamblaje de genomas, el ensamblaje de transcriptomas presenta algunos desafíos únicos. Mientras que una alta cobertura de secuencias para un genoma puede indicar la presencia de secuencias repetitivas (y, por lo tanto, estar enmascaradas), para un transcriptoma, pueden indicar abundancia. Además, a diferencia de la secuenciación del genoma, la secuenciación del transcriptoma puede ser específica de la cadena, debido a la posibilidad de transcripciones tanto con sentido como antisentido . Finalmente, puede ser difícil reconstruir y separar todas las isoformas de empalme. ^[9]

Los ensambladores de lecturas cortas generalmente utilizan uno de dos algoritmos básicos: gráficos de superposición y gráficos de De Bruijn. ^[10] Los gráficos de superposición se utilizan para la mayoría de los ensambladores diseñados para lecturas secuenciadas de Sanger . Las superposiciones entre cada par de lecturas se calculan y compilan en un gráfico, en el que cada nodo representa una sola lectura de secuencia. Este algoritmo es más intensivo en términos computacionales que los gráficos de De Bruijn, y más efectivo para ensamblar menos lecturas con un alto grado de superposición. ^[10]Los gráficos de De Bruijn alinean k-meros (generalmente de 25 a 50 pb) según la conservación de secuencia k-1 para crear contigs. Los k-meros son más cortos que las longitudes de lectura, lo que permite un hash rápido, por lo que las operaciones en los gráficos de De Bruijn generalmente son menos intensivas en términos computacionales. ^[10]

Anotación funcional

La anotación funcional de las transcripciones ensambladas permite obtener información sobre las funciones moleculares, los componentes celulares y los procesos biológicos particulares en los que participan las proteínas putativas. Blast2GO (B2G) permite la minería de datos basada en Gene Ontology para anotar datos de secuencias para los que aún no hay anotaciones GO disponibles. Es una herramienta de investigación que se emplea a menudo en la investigación genómica funcional sobre especies no modelo. ^[11] Funciona comparando contigs ensamblados con una base de datos de proteínas no redundante (en NCBI) y luego anotándolos en función de la similitud de secuencias. GOanna es otro programa de anotación GO específico para productos genéticos de plantas agrícolas y animales que funciona de manera similar. Es parte de la base de datos AgBase de un conjunto de herramientas computacionales seleccionadas y de acceso público para la anotación y el análisis de GO. ^[12] Después de la anotación, KEGG (Enciclopedia de Kyoto de Genes y Genomas) permite la visualización de vías metabólicas y redes de interacción molecular capturadas en el transcriptoma. ^[13]

Además de anotar los términos GO, los contigs también pueden analizarse en busca de marcos de lectura abiertos (ORF) para predecir la secuencia de aminoácidos de las proteínas derivadas de estas transcripciones. Otro enfoque consiste en anotar los dominios de las proteínas y determinar la presencia de familias de genes, en lugar de genes específicos.

Verificación y control de calidad

Dado que rara vez se dispone de un genoma de referencia bien resuelto, la calidad de los contigs ensamblados por computadora se puede verificar comparando las secuencias ensambladas con las lecturas utilizadas para generarlas (sin referencia) o alineando las secuencias de dominios genéticos conservados que se encuentran en las transcripciones de ARNm con transcriptomas o genomas de especies estrechamente relacionadas (basadas en referencia). Herramientas como Transrate ^[14] y DETONATE ^[15] permiten el análisis estadístico de la calidad del ensamblaje mediante estos métodos. Otro método es diseñar cebadores de PCR para las transcripciones previstas y luego intentar amplificarlas a partir de la biblioteca de ADNc. A menudo, se filtran las lecturas excepcionalmente cortas. Es poco probable que las secuencias cortas (<40 aminoácidos) representen proteínas funcionales, ya que no pueden plegarse de forma independiente y formar núcleos hidrofóbicos. ^[16]

Como complemento a estas métricas, una evaluación cuantitativa del contenido genético puede proporcionar información adicional sobre la calidad del ensamblaje. Para realizar este paso, se pueden utilizar herramientas que modelen el espacio genético esperado en función de los genes conservados, como BUSCO ^[17] . Para los eucariotas, también se puede utilizar CEGMA ^{[18] , aunque oficialmente ya no se admite desde 2015.}^[19]

Ensambladores

El siguiente es un compendio parcial del software de ensamblaje que se ha utilizado para generar transcriptomas y que también se ha citado en la literatura científica.

SeqMan NGen

SOAPdenovo-Trans

SOAPdenovo-Trans es un ensamblador de transcriptomas de novo heredado del marco SOAPdenovo2, diseñado para ensamblar transcriptomas con empalme alternativo y diferentes niveles de expresión. El ensamblador proporciona una forma más completa de construir conjuntos de transcripciones de longitud completa en comparación con SOAPdenovo2.

Terciopelo/Oasis

El algoritmo Velvet utiliza grafos de Bruijn para ensamblar transcripciones. En simulaciones, Velvet puede producir contigs de hasta 50 kb de longitud N50 utilizando datos procariotas y 3 kb de longitud N50 en cromosomas artificiales bacterianos (BAC) de mamíferos. ^[20] Estas transcripciones preliminares se transfieren a Oases , que utiliza información de lecturas largas y lecturas finales emparejadas para construir isoformas de transcripción. ^[21]

Trans-ABySS

ABySS es un ensamblador de secuencias en paralelo y de extremos emparejados. Trans-ABySS (Assembly By Short Sequences) es una secuencia de software escrita en Python y Perl para analizar contigs de transcriptomas ensamblados con ABySS. Esta secuencia se puede aplicar a ensamblajes generados en una amplia gama de valores k. Primero reduce el conjunto de datos en conjuntos más pequeños de contigs no redundantes e identifica eventos de empalme, incluidos saltos de exones, exones nuevos, intrones retenidos, intrones nuevos y empalme alternativo. Los algoritmos Trans-ABySS también pueden estimar los niveles de expresión génica, identificar posibles sitios de poliadenilación , así como eventos candidatos de fusión génica. ^[22]

Trinidad

Trinity ^[23] primero divide los datos de la secuencia en una serie de gráficos de Bruijn , cada uno de los cuales representa variaciones transcripcionales en un solo gen o locus. Luego extrae las isoformas de empalme de longitud completa y distingue las transcripciones derivadas de genes paralógicos de cada gráfico por separado. Trinity consta de tres módulos de software independientes, que se utilizan secuencialmente para producir transcripciones:

Inchworm ensambla los datos de RNA-Seq en secuencias de transcripción, a menudo generando transcripciones de longitud completa para una isoforma dominante, pero luego informa solo las porciones únicas de las transcripciones empalmadas alternativamente.
Chrysalis agrupa los contigs de Inchworm y construye gráficos de Bruijn completos para cada grupo. Cada grupo representa la complejidad transcripcional completa de un gen determinado (o una familia o conjunto de genes que comparten una secuencia conservada). Luego, Chrysalis divide el conjunto de lecturas completo entre estos gráficos separados.
Luego, Butterfly procesa los gráficos individuales en paralelo, rastreando las rutas de lectura dentro del gráfico, informando finalmente las transcripciones completas para las isoformas empalmadas alternativamente y separando las transcripciones que corresponden a genes paralógicos. ^[24]

Véase también

Referencias

^ Wettersrand, KA. "El costo de secuenciar un genoma humano". Genome.gov . Consultado el 6 de mayo de 2021 .
^ Surget-Groba Y, Montoya-Burgos JI (2010). "Optimización del ensamblaje del transcriptoma de novo a partir de datos de secuenciación de próxima generación". Genome Res . 20 (10): 1432–1440. doi :10.1101/gr.103846.109. PMC 2945192 . PMID 20693479.
^ Garg R, Patel RK, Tyagi AK, Jain M (2011). "Ensamblaje de novo del transcriptoma del garbanzo utilizando lecturas cortas para el descubrimiento de genes y la identificación de marcadores". DNA Res . 18 (1): 53–63. doi :10.1093/dnares/dsq028. PMC 3041503 . PMID 21217129.
^ Adamidi C; et al. (2011). "Ensamblaje de novo y validación del transcriptoma de planaria mediante secuenciación paralela masiva y proteómica shotgun". Genome Res . 21 (7): 1193–1200. doi :10.1101/gr.113779.110. PMC 3129261 . PMID 21536722.
^ Zeng V; et al. (2011). "Ensamblaje y caracterización de novo de un transcriptoma materno y de desarrollo para el crustáceo modelo emergente Parhyale hawaiensis". BMC Genomics . 12 : 581. doi : 10.1186/1471-2164-12-581 . PMC 3282834 . PMID 22118449.
^ Tzika AC; et al. (2011). "Transcriptoma reptil v1.0, una mirada al transcriptoma cerebral de cinco linajes divergentes de Sauropsida y la posición filogenética de las tortugas" (PDF) . EvoDevo . 2 (1): 19. doi : 10.1186/2041-9139-2-19 . PMC 3192992 . PMID 21943375.
^ Rowan BA, Weigel D, Koenig D (2011). "Genética del desarrollo y nuevas tecnologías de secuenciación: el auge de los organismos no modelo". Developmental Cell . 21 (1): 65–76. doi : 10.1016/j.devcel.2011.05.021 . PMID 21763609.
^ ab Birol I; et al. (2009). "Ensamblaje de transcriptoma de novo con ABySS". Bioinformática . 25 (21): 2872–7. doi : 10.1093/bioinformatics/btp367 . PMID 19528083.
^ abc Martin, Jeffrey A.; Wang, Zhong (2011). "Ensamblaje del transcriptoma de próxima generación". Nature Reviews Genetics . 12 (10): 671–682. doi :10.1038/nrg3068. PMID 21897427. S2CID 3447321.
^ abc Illumina, Inc. (2010). "Ensamblaje de novo mediante lecturas de Illumina" (PDF) .
^ Conesa A; et al. (2005). "Blast2GO: una herramienta universal para la anotación, visualización y análisis en la investigación genómica funcional". Bioinformática . 21 (18): 3674–3676. doi : 10.1093/bioinformatics/bti610 . PMID 16081474.
^ McCarthy FM; et al. (2006). "AgBase: un recurso genómico funcional para la agricultura". BMC Genomics . 7 : 229. doi : 10.1186/1471-2164-7-229 . PMC 1618847 . PMID 16961921.
^ "Base de datos KEGG PATHWAY".
^ Transrate: comprende el ensamblaje de tu transcriptoma. http://hibberdlab.com/transrate
^ Li B; et al. (2014). "Evaluación de ensamblajes de transcriptomas de novo a partir de datos de ARN-Seq". Genome Biology . 15 (12): 553. doi : 10.1186/s13059-014-0553-5 . PMC 4298084 . PMID 25608678.
^ Karplus, K. pdb-1: Longitud mínima de la secuencia de proteínas. https://lists.sdsc.edu/pipermail/pdb-l/2011-January/005317.html.
^ Seppey, Mathieu; Manni, Mosè; Zdobnov, Evgeny M. (2019), Kollmar, Martin (ed.), "BUSCO: evaluación de la integridad del ensamblaje y la anotación del genoma", Gene Prediction , Methods in Molecular Biology, vol. 1962, Nueva York, NY: Springer New York, págs. 227–245, doi :10.1007/978-1-4939-9173-0_14, ISBN 978-1-4939-9172-3, PMID 31020564, S2CID 131774987 , consultado el 24 de abril de 2021
^ Parra, G.; Bradnam, K.; Korf, I. (1 de mayo de 2007). "CEGMA: un sistema para anotar con precisión genes centrales en genomas eucariotas". Bioinformática . 23 (9): 1061–1067. doi : 10.1093/bioinformatics/btm071 . ISSN 1367-4803. PMID 17332020.
^ "CEGMA". korflab.ucdavis.edu . Consultado el 24 de abril de 2021 .
^ Zerbino DR, Birney E (2008). "Velvet: Algoritmos para el ensamblaje de lecturas cortas de novo utilizando grafos de Bruijn". Genome Res . 18 (5): 821–829. doi :10.1101/gr.074492.107. PMC 2336801 . PMID 18349386.
^ "Oases: ensamblador de transcriptoma de novo para lecturas muy cortas". Archivado desde el original el 2018-11-29 . Consultado el 2011-11-28 .
^ "Trans-ABySS: Analizar datos del transcriptoma de escopeta ensamblado multi-k de ABySS".
^ "Trinidad". 24 de noviembre de 2018.
^ "Trinity RNA-Seq Assembly: software para la reconstrucción de transcripciones de longitud completa e isoformas empalmadas alternativamente". Archivado desde el original el 12 de julio de 2011.