Montaje del transcriptoma de novo

El ensamblaje del transcriptoma de novo es el método de ensamblaje de secuencias de novo para crear un transcriptoma sin la ayuda de un genoma de referencia .

Introducción

Como resultado del desarrollo de nuevas tecnologías de secuenciación, entre 2008 y 2012 se produjo una gran caída en el costo de la secuenciación. Por megabase y genoma, el costo se redujo a 1/100.000 y 1/10.000 del precio, respectivamente. ^[1] Antes de esto, sólo se secuenciaban transcriptomas de organismos que eran de amplio interés y utilidad para la investigación científica; sin embargo, estas tecnologías de secuenciación de alto rendimiento (también llamadas secuenciación de próxima generación) desarrolladas en la década de 2010 son rentables y rentables, y la gama de organismos estudiados mediante estos métodos se está ampliando. ^[2] Posteriormente se han creado transcriptomas para garbanzos , ^[3] planarias , ^[4] Parhyale hawaiensis , ^[5] así como para los cerebros del cocodrilo del Nilo , la serpiente de maíz , el dragón barbudo y la tortuga de orejas rojas . por nombrar unos cuantos. ^[6]

El examen de organismos no modelo puede proporcionar conocimientos novedosos sobre los mecanismos subyacentes a la "diversidad de fascinantes innovaciones morfológicas" que han permitido la abundancia de vida en el planeta Tierra. ^[7] En animales y plantas, las "innovaciones" que no pueden examinarse en organismos modelo comunes incluyen el mimetismo , el mutualismo , el parasitismo y la reproducción asexual . El ensamblaje del transcriptoma de novo es a menudo el método preferido para estudiar organismos no modelo, ya que es más barato y más fácil que construir un genoma, y los métodos basados en referencias no son posibles sin un genoma existente. Por tanto, los transcriptomas de estos organismos pueden revelar nuevas proteínas y sus isoformas que están implicadas en fenómenos biológicos tan únicos.

Ensamblaje de novo versus ensamblaje basado en referencias

Un conjunto de transcripciones ensambladas permite realizar estudios iniciales de expresión genética. Antes del desarrollo de programas informáticos de ensamblaje de transcriptomas, los datos del transcriptoma se analizaban principalmente mediante el mapeo de un genoma de referencia. Aunque la alineación del genoma es una forma sólida de caracterizar secuencias de transcripción, este método tiene la desventaja de su incapacidad para tener en cuenta incidentes de alteraciones estructurales de las transcripciones de ARNm, como el empalme alternativo . ^[8] Dado que un genoma contiene la suma de todos los intrones y exones que pueden estar presentes en una transcripción, las variantes empalmadas que no se alinean continuamente a lo largo del genoma pueden descartarse como isoformas de proteínas reales. Incluso si hay un genoma de referencia disponible, se debe realizar un ensamblaje de novo , ya que puede recuperar transcripciones que se transcriben a partir de segmentos del genoma que faltan en el ensamblaje del genoma de referencia. ^[9]

Transcriptoma versus ensamblaje del genoma

A diferencia de los niveles de cobertura de la secuencia del genoma, que pueden variar aleatoriamente como resultado del contenido repetido en regiones de intrones no codificantes del ADN, los niveles de cobertura de la secuencia del transcriptoma pueden ser directamente indicativos de los niveles de expresión génica. Estas secuencias repetidas también crean ambigüedades en la formación de contigs en el ensamblaje del genoma, mientras que las ambigüedades en los contigs del ensamblaje del transcriptoma generalmente corresponden a isoformas empalmadas , o variaciones menores entre miembros de una familia de genes. ^[8] El ensamblador del genoma no se puede utilizar directamente en el ensamblaje del transcriptoma por varias razones. En primer lugar, la profundidad de la secuenciación del genoma suele ser la misma en todo el genoma, pero la profundidad de las transcripciones puede variar. En segundo lugar, ambas cadenas siempre se secuencian en la secuenciación del genoma, pero la secuencia de ARN puede ser específica de la cadena. En tercer lugar, el ensamblaje del transcriptoma es más desafiante porque las variantes de transcrito del mismo gen pueden compartir exones y son difíciles de resolver sin ambigüedades. ^[9]

Método

secuencia de ARN

Una vez que se extrae y purifica el ARN de las células, se envía a una instalación de secuenciación de alto rendimiento, donde primero se transcribe de forma inversa para crear una biblioteca de ADNc. Luego, este ADNc se puede fragmentar en varias longitudes según la plataforma utilizada para la secuenciación. Cada una de las siguientes plataformas utiliza un tipo diferente de tecnología para secuenciar millones de lecturas cortas: 454 Sequencing , Illumina y SOLiD .

Algoritmos de ensamblaje

Las lecturas de la secuencia de ADNc se ensamblan en transcripciones mediante un programa de ensamblaje de transcripciones de lectura corta. Lo más probable es que algunas variaciones de aminoácidos entre transcripciones que por lo demás son similares reflejen diferentes isoformas de proteínas. También es posible que representen genes diferentes dentro de la misma familia de genes, o incluso genes que compartan sólo un dominio conservado, dependiendo del grado de variación.

Hay varios programas de ensamblaje disponibles (consulte Ensambladores). Aunque estos programas han tenido éxito en general en el ensamblaje de genomas, el ensamblaje del transcriptoma presenta algunos desafíos únicos. Mientras que una alta cobertura de secuencia para un genoma puede indicar la presencia de secuencias repetitivas (y por lo tanto estar enmascaradas), para un transcriptoma, pueden indicar abundancia. Además, a diferencia de la secuenciación del genoma, la secuenciación del transcriptoma puede ser específica de una cadena, debido a la posibilidad de transcripciones tanto sentido como antisentido . Finalmente, puede resultar difícil reconstruir y separar todas las isoformas de empalme. ^[9]

Los ensambladores de lectura corta generalmente utilizan uno de dos algoritmos básicos: gráficos de superposición y gráficos de Bruijn. ^[10] Los gráficos de superposición se utilizan para la mayoría de los ensambladores diseñados para lecturas secuenciadas de Sanger . Las superposiciones entre cada par de lecturas se calculan y compilan en un gráfico, en el que cada nodo representa una única secuencia leída. Este algoritmo es más intensivo desde el punto de vista computacional que los gráficos de De Bruijn y es más eficaz para ensamblar menos lecturas con un alto grado de superposición. ^[10]Los gráficos de De Bruijn alinean los k-mers (generalmente 25-50 pb) según la conservación de la secuencia k-1 para crear contigs. Los k-mers son más cortos que las longitudes de lectura, lo que permite un hash rápido, por lo que las operaciones en los gráficos de De Bruijn son generalmente menos intensivas desde el punto de vista computacional. ^[10]

Anotación funcional

La anotación funcional de las transcripciones ensambladas permite conocer las funciones moleculares particulares, los componentes celulares y los procesos biológicos en los que están involucradas las supuestas proteínas. Blast2GO (B2G) permite la minería de datos basada en ontología genética para anotar datos de secuencia para los que aún no hay anotaciones GO disponibles. Es una herramienta de investigación que se emplea a menudo en la investigación de genómica funcional en especies que no son modelo. ^[11] Funciona atacando contigs ensamblados contra una base de datos de proteínas no redundante (en NCBI) y luego anotándolos según la similitud de secuencia. GOanna es otro programa de anotación GO específico para productos genéticos de plantas agrícolas y animales que funciona de manera similar. Es parte de la base de datos AgBase de un conjunto de herramientas computacionales seleccionadas y de acceso público para la anotación y el análisis de GO. ^[12] Después de la anotación, KEGG (Enciclopedia de genes y genomas de Kyoto) permite la visualización de rutas metabólicas y redes de interacción molecular capturadas en el transcriptoma. ^[13]

Además de anotar los términos GO, los contigs también se pueden examinar en busca de marcos de lectura abiertos (ORF) para predecir la secuencia de aminoácidos de las proteínas derivadas de estas transcripciones. Otro enfoque consiste en anotar dominios de proteínas y determinar la presencia de familias de genes, en lugar de genes específicos.

Verificación y control de calidad.

Dado que rara vez se dispone de un genoma de referencia bien resuelto, la calidad de los cóntigs ensamblados por computadora se puede verificar comparando las secuencias ensambladas con las lecturas utilizadas para generarlas (sin referencias) o alineando las secuencias de los dominios genéticos conservados encontrados. en transcripciones de ARNm a transcriptomas o genomas de especies estrechamente relacionadas (basado en referencias). Herramientas como Transrate ^[14] y DETONATE ^[15] permiten el análisis estadístico de la calidad del ensamblaje mediante estos métodos. Otro método consiste en diseñar cebadores de PCR para las transcripciones previstas y luego intentar amplificarlos a partir de la biblioteca de ADNc. A menudo, se filtran las lecturas excepcionalmente breves. Es poco probable que las secuencias cortas (<40 aminoácidos) representen proteínas funcionales, ya que no pueden plegarse de forma independiente y formar núcleos hidrófobos. ^[dieciséis]

Complementariamente a estas métricas, una evaluación cuantitativa del contenido genético puede proporcionar información adicional sobre la calidad del ensamblaje. Para realizar este paso, se pueden utilizar herramientas que modelan el espacio genético esperado basado en genes conservados, como BUSCO ^[17] . Para eucariotas, también se puede utilizar CEGMA ^{[18] , aunque ya no se admite oficialmente desde 2015.}^[19]

ensambladores

El siguiente es un compendio parcial del software de ensamblaje que se ha utilizado para generar transcriptomas y también se ha citado en la literatura científica.

SeqMan NGen

SOAPdenovo-Trans

SOAPdenovo-Trans es un ensamblador de transcriptomas de novo heredado del marco SOAPdenovo2, diseñado para ensamblar transcriptomas con empalme alternativo y diferente nivel de expresión. El ensamblador proporciona una forma más completa de construir conjuntos de transcripciones completos en comparación con SOAPdenovo2.

Terciopelo/Oasis

El algoritmo Velvet utiliza gráficos de Bruijn para ensamblar transcripciones. En simulaciones, Velvet puede producir cóntigos de hasta 50 kb de longitud N50 utilizando datos procarióticos y 3 kb N50 en cromosomas artificiales bacterianos (BAC) de mamíferos. ^[20] Estas transcripciones preliminares se transfieren a Oasis , que utiliza información de lectura final emparejada y de lectura larga para construir isoformas de transcripción. ^[21]

Trans-ABySS

ABySS es un ensamblador de secuencias paralelo de extremos emparejados. Trans-ABySS (Assembly By Short Sequences) es una canalización de software escrita en Python y Perl para analizar contigs de transcriptomas ensamblados en ABySS. Esta canalización se puede aplicar a ensamblajes generados en una amplia gama de valores k. Primero reduce el conjunto de datos en conjuntos más pequeños de contigs no redundantes e identifica eventos de empalme, incluidos saltos de exones, exones novedosos, intrones retenidos, intrones novedosos y empalmes alternativos. Los algoritmos Trans-ABySS también pueden estimar los niveles de expresión genética, identificar posibles sitios de poliadenilación y eventos de fusión de genes candidatos. ^[22]

Trinidad

Trinity ^[23] primero divide los datos de la secuencia en varios gráficos de De Bruijn , cada uno de los cuales representa variaciones transcripcionales en un solo gen o locus. Luego extrae isoformas de empalme de longitud completa y distingue las transcripciones derivadas de genes parálogos de cada gráfico por separado. Trinity consta de tres módulos de software independientes, que se utilizan secuencialmente para producir transcripciones:

Inchworm ensambla los datos de RNA-Seq en secuencias de transcripción, generando a menudo transcripciones completas para una isoforma dominante, pero luego informa solo las porciones únicas de transcripciones empalmadas alternativamente.
Chrysalis agrupa los contigs de Inchworm y construye gráficos completos de De Bruijn para cada grupo. Cada grupo representa la complejidad transcripcional completa de un gen determinado (o una familia o conjunto de genes que comparten una secuencia conservada). Luego, Chrysalis divide el conjunto de lectura completo entre estos gráficos separados.
Luego, Butterfly procesa los gráficos individuales en paralelo, rastreando las rutas de lectura dentro del gráfico y, en última instancia, informa transcripciones completas para isoformas empalmadas alternativamente y separa las transcripciones que corresponden a genes parálogos. ^[24]

Ver también

Referencias

^ Wettersrand, KA. "El costo de secuenciar un genoma humano". Genoma.gov . Consultado el 6 de mayo de 2021 .
^ Surget-Groba Y, Montoya-Burgos JI (2010). "Optimización del ensamblaje del transcriptoma de novo a partir de datos de secuenciación de próxima generación". Res del genoma . 20 (10): 1432-1440. doi :10.1101/gr.103846.109. PMC 2945192 . PMID 20693479.
^ Garg R, Patel RK, Tyagi AK, Jain M (2011). "Ensamblaje de novo del transcriptoma de garbanzo mediante lecturas cortas para el descubrimiento de genes y la identificación de marcadores". Res. ADN . 18 (1): 53–63. doi :10.1093/dnares/dsq028. PMC 3041503 . PMID 21217129.
^ Adamidi C; et al. (2011). "Ensamblaje de novo y validación del transcriptoma de planaria mediante secuenciación paralela masiva y proteómica de escopeta". Res del genoma . 21 (7): 1193-1200. doi :10.1101/gr.113779.110. PMC 3129261 . PMID 21536722.
^ Zeng V; et al. (2011). "Ensamblaje de novo y caracterización de un transcriptoma materno y de desarrollo para el crustáceo modelo emergente Parhyale hawaiensis". Genómica BMC . 12 : 581. doi : 10.1186/1471-2164-12-581 . PMC 3282834 . PMID 22118449.
^ Tzika AC; et al. (2011). "Transcriptoma reptiliano v1.0, un vistazo al transcriptoma cerebral de cinco linajes divergentes de Sauropsida y la posición filogenética de las tortugas" (PDF) . EvoDevo . 2 (1): 19. doi : 10.1186/2041-9139-2-19 . PMC 3192992 . PMID 21943375.
^ Rowan BA, Weigel D, Koenig D (2011). "Genética del desarrollo y nuevas tecnologías de secuenciación: el surgimiento de organismos no modelo". Célula del desarrollo . 21 (1): 65–76. doi : 10.1016/j.devcel.2011.05.021 . PMID 21763609.
^ ab Birol I; et al. (2009). "Ensamblaje de transcriptoma de novo con ABySS". Bioinformática . 25 (21): 2872–7. doi : 10.1093/bioinformática/btp367 . PMID 19528083.
^ abc Martín, Jeffrey A.; Wang, Zhong (2011). "Ensamblaje de transcriptoma de próxima generación". Naturaleza Reseñas Genética . 12 (10): 671–682. doi :10.1038/nrg3068. PMID 21897427. S2CID 3447321.
^ abc Illumina, Inc. (2010). "Ensamblaje de Novo utilizando lecturas de Illumina" (PDF) .
^ Conesa A; et al. (2005). "Blast2GO: una herramienta universal para anotación, visualización y análisis en la investigación de genómica funcional". Bioinformática . 21 (18): 3674–3676. doi : 10.1093/bioinformática/bti610 . PMID 16081474.
^ McCarthyFM; et al. (2006). "AgBase: un recurso genómico funcional para la agricultura". Genómica BMC . 7 : 229. doi : 10.1186/1471-2164-7-229 . PMC 1618847 . PMID 16961921.
^ "Base de datos KEGG PATHWAY".
^ Transrate: comprenda el ensamblaje del transcriptoma. http://hibberdlab.com/transrate
^ Li B; et al. (2014). "Evaluación de conjuntos de transcriptomas de novo a partir de datos de RNA-Seq". Biología del genoma . 15 (12): 553. doi : 10.1186/s13059-014-0553-5 . PMC 4298084 . PMID 25608678.
^ Karplus, K. pdb-1: Longitud mínima de la secuencia de proteínas. https://lists.sdsc.edu/pipermail/pdb-l/2011-January/005317.html.
^ Seppey, Mathieu; Manni, Mosé; Zdobnov, Evgeny M. (2019), Kollmar, Martin (ed.), "BUSCO: Evaluación de la integridad del ensamblaje y la anotación del genoma", Predicción de genes , Métodos en biología molecular, vol. 1962, Nueva York, Nueva York: Springer New York, págs. 227–245, doi :10.1007/978-1-4939-9173-0_14, ISBN 978-1-4939-9172-3, PMID 31020564, S2CID 131774987 , consultado el 24 de abril de 2021
^ Parra, G.; Bradnam, K.; Korf, I. (1 de mayo de 2007). "CEGMA: un canal para anotar con precisión genes centrales en genomas eucariotas". Bioinformática . 23 (9): 1061–1067. doi : 10.1093/bioinformática/btm071 . ISSN 1367-4803. PMID 17332020.
^ "CEGMA". korflab.ucdavis.edu . Consultado el 24 de abril de 2021 .
^ Zerbino DR, Birney E (2008). "Velvet: algoritmos para el ensamblaje de lectura corta de novo utilizando gráficos de Bruijn". Res del genoma . 18 (5): 821–829. doi :10.1101/gr.074492.107. PMC 2336801 . PMID 18349386.
^ "Oases: ensamblador de transcriptomas de novo para lecturas muy breves". Archivado desde el original el 29 de noviembre de 2018 . Consultado el 28 de noviembre de 2011 .
^ "Trans-ABySS: analizar datos del transcriptoma de escopeta ensamblado ABySS multi-k".
^ "Trinidad". 2018-11-24.
^ "Trinity RNA-Seq Assembly: software para la reconstrucción de transcripciones completas e isoformas empalmadas alternativamente". Archivado desde el original el 12 de julio de 2011.