El ensamblaje del transcriptoma de novo es el método de ensamblaje de secuencias de novo para crear un transcriptoma sin la ayuda de un genoma de referencia .
Como resultado del desarrollo de nuevas tecnologías de secuenciación, entre 2008 y 2012 se produjo una gran caída en el costo de la secuenciación. Por megabase y genoma, el costo se redujo a 1/100.000 y 1/10.000 del precio, respectivamente. [1] Antes de esto, sólo se secuenciaban transcriptomas de organismos que eran de amplio interés y utilidad para la investigación científica; sin embargo, estas tecnologías de secuenciación de alto rendimiento (también llamadas secuenciación de próxima generación) desarrolladas en la década de 2010 son rentables y rentables, y la gama de organismos estudiados mediante estos métodos se está ampliando. [2] Posteriormente se han creado transcriptomas para garbanzos , [3] planarias , [4] Parhyale hawaiensis , [5] así como para los cerebros del cocodrilo del Nilo , la serpiente de maíz , el dragón barbudo y la tortuga de orejas rojas . por nombrar unos cuantos. [6]
El examen de organismos no modelo puede proporcionar conocimientos novedosos sobre los mecanismos subyacentes a la "diversidad de fascinantes innovaciones morfológicas" que han permitido la abundancia de vida en el planeta Tierra. [7] En animales y plantas, las "innovaciones" que no pueden examinarse en organismos modelo comunes incluyen el mimetismo , el mutualismo , el parasitismo y la reproducción asexual . El ensamblaje del transcriptoma de novo es a menudo el método preferido para estudiar organismos no modelo, ya que es más barato y más fácil que construir un genoma, y los métodos basados en referencias no son posibles sin un genoma existente. Por tanto, los transcriptomas de estos organismos pueden revelar nuevas proteínas y sus isoformas que están implicadas en fenómenos biológicos tan únicos.
Un conjunto de transcripciones ensambladas permite realizar estudios iniciales de expresión genética. Antes del desarrollo de programas informáticos de ensamblaje de transcriptomas, los datos del transcriptoma se analizaban principalmente mediante el mapeo de un genoma de referencia. Aunque la alineación del genoma es una forma sólida de caracterizar secuencias de transcripción, este método tiene la desventaja de su incapacidad para tener en cuenta incidentes de alteraciones estructurales de las transcripciones de ARNm, como el empalme alternativo . [8] Dado que un genoma contiene la suma de todos los intrones y exones que pueden estar presentes en una transcripción, las variantes empalmadas que no se alinean continuamente a lo largo del genoma pueden descartarse como isoformas de proteínas reales. Incluso si hay un genoma de referencia disponible, se debe realizar un ensamblaje de novo , ya que puede recuperar transcripciones que se transcriben a partir de segmentos del genoma que faltan en el ensamblaje del genoma de referencia. [9]
A diferencia de los niveles de cobertura de la secuencia del genoma, que pueden variar aleatoriamente como resultado del contenido repetido en regiones de intrones no codificantes del ADN, los niveles de cobertura de la secuencia del transcriptoma pueden ser directamente indicativos de los niveles de expresión génica. Estas secuencias repetidas también crean ambigüedades en la formación de contigs en el ensamblaje del genoma, mientras que las ambigüedades en los contigs del ensamblaje del transcriptoma generalmente corresponden a isoformas empalmadas , o variaciones menores entre miembros de una familia de genes. [8] El ensamblador del genoma no se puede utilizar directamente en el ensamblaje del transcriptoma por varias razones. En primer lugar, la profundidad de la secuenciación del genoma suele ser la misma en todo el genoma, pero la profundidad de las transcripciones puede variar. En segundo lugar, ambas cadenas siempre se secuencian en la secuenciación del genoma, pero la secuencia de ARN puede ser específica de la cadena. En tercer lugar, el ensamblaje del transcriptoma es más desafiante porque las variantes de transcrito del mismo gen pueden compartir exones y son difíciles de resolver sin ambigüedades. [9]
Una vez que se extrae y purifica el ARN de las células, se envía a una instalación de secuenciación de alto rendimiento, donde primero se transcribe de forma inversa para crear una biblioteca de ADNc. Luego, este ADNc se puede fragmentar en varias longitudes según la plataforma utilizada para la secuenciación. Cada una de las siguientes plataformas utiliza un tipo diferente de tecnología para secuenciar millones de lecturas cortas: 454 Sequencing , Illumina y SOLiD .
Las lecturas de la secuencia de ADNc se ensamblan en transcripciones mediante un programa de ensamblaje de transcripciones de lectura corta. Lo más probable es que algunas variaciones de aminoácidos entre transcripciones que por lo demás son similares reflejen diferentes isoformas de proteínas. También es posible que representen genes diferentes dentro de la misma familia de genes, o incluso genes que compartan sólo un dominio conservado, dependiendo del grado de variación.
Hay varios programas de ensamblaje disponibles (consulte Ensambladores). Aunque estos programas han tenido éxito en general en el ensamblaje de genomas, el ensamblaje del transcriptoma presenta algunos desafíos únicos. Mientras que una alta cobertura de secuencia para un genoma puede indicar la presencia de secuencias repetitivas (y por lo tanto estar enmascaradas), para un transcriptoma, pueden indicar abundancia. Además, a diferencia de la secuenciación del genoma, la secuenciación del transcriptoma puede ser específica de una cadena, debido a la posibilidad de transcripciones tanto sentido como antisentido . Finalmente, puede resultar difícil reconstruir y separar todas las isoformas de empalme. [9]
Los ensambladores de lectura corta generalmente utilizan uno de dos algoritmos básicos: gráficos de superposición y gráficos de Bruijn. [10] Los gráficos de superposición se utilizan para la mayoría de los ensambladores diseñados para lecturas secuenciadas de Sanger . Las superposiciones entre cada par de lecturas se calculan y compilan en un gráfico, en el que cada nodo representa una única secuencia leída. Este algoritmo es más intensivo desde el punto de vista computacional que los gráficos de De Bruijn y es más eficaz para ensamblar menos lecturas con un alto grado de superposición. [10] Los gráficos de De Bruijn alinean los k-mers (generalmente 25-50 pb) según la conservación de la secuencia k-1 para crear contigs. Los k-mers son más cortos que las longitudes de lectura, lo que permite un hash rápido, por lo que las operaciones en los gráficos de De Bruijn son generalmente menos intensivas desde el punto de vista computacional. [10]
La anotación funcional de las transcripciones ensambladas permite conocer las funciones moleculares particulares, los componentes celulares y los procesos biológicos en los que están involucradas las supuestas proteínas. Blast2GO (B2G) permite la minería de datos basada en ontología genética para anotar datos de secuencia para los que aún no hay anotaciones GO disponibles. Es una herramienta de investigación que se emplea a menudo en la investigación de genómica funcional en especies que no son modelo. [11] Funciona atacando contigs ensamblados contra una base de datos de proteínas no redundante (en NCBI) y luego anotándolos según la similitud de secuencia. GOanna es otro programa de anotación GO específico para productos genéticos de plantas agrícolas y animales que funciona de manera similar. Es parte de la base de datos AgBase de un conjunto de herramientas computacionales seleccionadas y de acceso público para la anotación y el análisis de GO. [12] Después de la anotación, KEGG (Enciclopedia de genes y genomas de Kyoto) permite la visualización de rutas metabólicas y redes de interacción molecular capturadas en el transcriptoma. [13]
Además de anotar los términos GO, los contigs también se pueden examinar en busca de marcos de lectura abiertos (ORF) para predecir la secuencia de aminoácidos de las proteínas derivadas de estas transcripciones. Otro enfoque consiste en anotar dominios de proteínas y determinar la presencia de familias de genes, en lugar de genes específicos.
Dado que rara vez se dispone de un genoma de referencia bien resuelto, la calidad de los cóntigs ensamblados por computadora se puede verificar comparando las secuencias ensambladas con las lecturas utilizadas para generarlas (sin referencias) o alineando las secuencias de los dominios genéticos conservados encontrados. en transcripciones de ARNm a transcriptomas o genomas de especies estrechamente relacionadas (basado en referencias). Herramientas como Transrate [14] y DETONATE [15] permiten el análisis estadístico de la calidad del ensamblaje mediante estos métodos. Otro método consiste en diseñar cebadores de PCR para las transcripciones previstas y luego intentar amplificarlos a partir de la biblioteca de ADNc. A menudo, se filtran las lecturas excepcionalmente breves. Es poco probable que las secuencias cortas (<40 aminoácidos) representen proteínas funcionales, ya que no pueden plegarse de forma independiente y formar núcleos hidrófobos. [dieciséis]
Complementariamente a estas métricas, una evaluación cuantitativa del contenido genético puede proporcionar información adicional sobre la calidad del ensamblaje. Para realizar este paso, se pueden utilizar herramientas que modelan el espacio genético esperado basado en genes conservados, como BUSCO [17] . Para eucariotas, también se puede utilizar CEGMA [18] , aunque ya no se admite oficialmente desde 2015. [19]
El siguiente es un compendio parcial del software de ensamblaje que se ha utilizado para generar transcriptomas y también se ha citado en la literatura científica.
SOAPdenovo-Trans es un ensamblador de transcriptomas de novo heredado del marco SOAPdenovo2, diseñado para ensamblar transcriptomas con empalme alternativo y diferente nivel de expresión. El ensamblador proporciona una forma más completa de construir conjuntos de transcripciones completos en comparación con SOAPdenovo2.
El algoritmo Velvet utiliza gráficos de Bruijn para ensamblar transcripciones. En simulaciones, Velvet puede producir cóntigos de hasta 50 kb de longitud N50 utilizando datos procarióticos y 3 kb N50 en cromosomas artificiales bacterianos (BAC) de mamíferos. [20] Estas transcripciones preliminares se transfieren a Oasis , que utiliza información de lectura final emparejada y de lectura larga para construir isoformas de transcripción. [21]
ABySS es un ensamblador de secuencias paralelo de extremos emparejados. Trans-ABySS (Assembly By Short Sequences) es una canalización de software escrita en Python y Perl para analizar contigs de transcriptomas ensamblados en ABySS. Esta canalización se puede aplicar a ensamblajes generados en una amplia gama de valores k. Primero reduce el conjunto de datos en conjuntos más pequeños de contigs no redundantes e identifica eventos de empalme, incluidos saltos de exones, exones novedosos, intrones retenidos, intrones novedosos y empalmes alternativos. Los algoritmos Trans-ABySS también pueden estimar los niveles de expresión genética, identificar posibles sitios de poliadenilación y eventos de fusión de genes candidatos. [22]
Trinity [23] primero divide los datos de la secuencia en varios gráficos de De Bruijn , cada uno de los cuales representa variaciones transcripcionales en un solo gen o locus. Luego extrae isoformas de empalme de longitud completa y distingue las transcripciones derivadas de genes parálogos de cada gráfico por separado. Trinity consta de tres módulos de software independientes, que se utilizan secuencialmente para producir transcripciones: