La secuenciación de tercera generación (también conocida como secuenciación de lectura larga ) es una clase de métodos de secuenciación de ADN que producen lecturas de secuencias más largas , en desarrollo activo desde 2008. [1]
Las tecnologías de secuenciación de tercera generación tienen la capacidad de producir lecturas sustancialmente más largas que la secuenciación de segunda generación , también conocida como secuenciación de próxima generación. [1] Esta ventaja tiene implicaciones críticas tanto para la ciencia del genoma como para el estudio de la biología en general. Sin embargo, los datos de secuenciación de tercera generación tienen tasas de error mucho más altas que las tecnologías anteriores, lo que puede complicar el ensamblaje posterior del genoma y el análisis de los datos resultantes. [2] Estas tecnologías están en desarrollo activo y se espera que haya mejoras en las altas tasas de error. Para aplicaciones que son más tolerantes a las tasas de error, como la llamada de variantes estructurales, se ha descubierto que la secuenciación de tercera generación supera a los métodos existentes, incluso con una baja profundidad de cobertura de secuenciación. [3]
Las tecnologías de secuenciación con un enfoque diferente al de las plataformas de segunda generación se describieron por primera vez como "tercera generación" en 2008-2009. [4]
Actualmente, hay varias empresas que están en el centro del desarrollo de la tecnología de secuenciación de tercera generación, a saber, Pacific Biosciences , Oxford Nanopore Technology , Quantapore (California, EE. UU.) y Stratos (Australia, EE. UU.). Estas empresas están adoptando enfoques fundamentalmente diferentes para la secuenciación de moléculas de ADN individuales.
PacBio desarrolló la plataforma de secuenciación de moléculas individuales en tiempo real (SMRT) , basada en las propiedades de las guías de onda de modo cero . Las señales se presentan en forma de emisión de luz fluorescente de cada nucleótido incorporado por una ADN polimerasa unida al fondo del pocillo zL.
La tecnología de Oxford Nanopore consiste en pasar una molécula de ADN a través de una estructura de poro a escala nanométrica y luego medir los cambios en el campo eléctrico que rodea el poro; mientras que Quantapore tiene un enfoque de nanoporos patentado diferente. Stratos Genomics separa las bases de ADN con insertos poliméricos, " Xpandomers ", para evitar el desafío de la relación señal-ruido de la lectura de ssDNA con nanoporos.
También es destacable el enfoque de fluorescencia de molécula única de Helicos, pero la empresa se declaró en quiebra en el otoño de 2015 .
En comparación con la generación actual de tecnologías de secuenciación, la secuenciación de tercera generación tiene la ventaja obvia de producir lecturas mucho más largas. Se espera que estas longitudes de lectura más largas alivien numerosos desafíos computacionales relacionados con el ensamblaje del genoma, la reconstrucción de transcripciones y la metagenómica, entre otras áreas importantes de la biología y la medicina modernas. [1]
Es bien sabido que los genomas eucariotas, incluidos los de los primates y los humanos, son complejos y tienen un gran número de regiones repetidas largas. Las lecturas cortas de la secuenciación de segunda generación deben recurrir a estrategias de aproximación para inferir secuencias en rangos largos para el ensamblaje y la identificación de variantes genéticas. La secuenciación de segunda generación ha aprovechado las lecturas de extremos de pares para combatir estas limitaciones. Sin embargo, las longitudes exactas de los fragmentos de extremos de pares a menudo son desconocidas y también deben aproximarse. Al hacer posibles longitudes de lectura largas, las tecnologías de secuenciación de tercera generación tienen claras ventajas.
Los marcadores epigenéticos son modificaciones estables y potencialmente hereditarias de la molécula de ADN que no se encuentran en su secuencia. Un ejemplo es la metilación del ADN en los sitios CpG, que se ha descubierto que influye en la expresión génica. Las modificaciones de las histonas son otro ejemplo. La generación actual de tecnologías de secuenciación se basa en técnicas de laboratorio como la secuenciación ChIP para la detección de marcadores epigenéticos. Estas técnicas implican el marcado de la cadena de ADN, la ruptura y el filtrado de fragmentos que contienen marcadores, seguido de la secuenciación. La secuenciación de tercera generación puede permitir la detección directa de estos marcadores debido a su señal distintiva de las otras cuatro bases de nucleótidos. [5]
Otras ventajas importantes de las tecnologías de secuenciación de tercera generación incluyen la portabilidad y la velocidad de secuenciación. [6] Dado que se requiere un preprocesamiento mínimo de la muestra en comparación con la secuenciación de segunda generación, se podrían diseñar equipos más pequeños. Oxford Nanopore Technology ha comercializado recientemente el secuenciador MinION. Esta máquina de secuenciación tiene aproximadamente el tamaño de una memoria USB normal y se puede utilizar fácilmente conectándola a una computadora portátil. Además, dado que el proceso de secuenciación no se realiza en paralelo en todas las regiones del genoma, los datos se pueden recopilar y analizar en tiempo real. Estas ventajas de la secuenciación de tercera generación pueden ser adecuadas para entornos hospitalarios donde se exige una recopilación y un análisis de datos rápidos e in situ.
La secuenciación de tercera generación, a partir de 2008, se enfrentó a importantes desafíos, principalmente en torno a la identificación precisa de bases de nucleótidos; las tasas de error eran aún mucho más altas en comparación con la secuenciación de segunda generación. [2] Esto se debe generalmente a la inestabilidad de la maquinaria molecular involucrada. Por ejemplo, en la tecnología de secuenciación molecular única y en tiempo real de PacBio, la molécula de ADN polimerasa se daña cada vez más a medida que ocurre el proceso de secuenciación. [2] Además, como el proceso ocurre rápidamente, las señales emitidas por bases individuales pueden verse borrosas por las señales de bases vecinas. Esto plantea un nuevo desafío computacional para descifrar las señales y, en consecuencia, inferir la secuencia. Métodos como los modelos ocultos de Markov , por ejemplo, se han aprovechado para este propósito con cierto éxito. [5]
En promedio, los distintos individuos de la población humana comparten aproximadamente el 99,9% de sus genes. En otras palabras, aproximadamente sólo una de cada mil bases diferiría entre dos personas. Las altas tasas de error asociadas con la secuenciación de tercera generación son inevitablemente problemáticas para el propósito de caracterizar las diferencias individuales que existen entre los miembros de la misma especie. [ cita requerida ]
El ensamblaje del genoma es la reconstrucción de secuencias de ADN del genoma completo. Esto se hace generalmente con dos enfoques fundamentalmente diferentes.
Cuando se dispone de un genoma de referencia, como en el caso del ser humano, las lecturas recién secuenciadas podrían simplemente alinearse con el genoma de referencia para caracterizar sus propiedades. Este ensamblaje basado en referencias es rápido y fácil, pero tiene la desventaja de “ocultar” secuencias nuevas y variantes con un gran número de copias. Además, todavía no existen genomas de referencia para la mayoría de los organismos.
El ensamblaje de novo es el enfoque de ensamblaje del genoma alternativo al alineamiento de referencia. Se refiere a la reconstrucción de secuencias del genoma completo a partir de lecturas de secuencias sin procesar. Este método se elegiría cuando no hay un genoma de referencia, cuando se desconoce la especie del organismo en cuestión, como en la metagenómica , o cuando existen variantes genéticas de interés que pueden no detectarse mediante el alineamiento del genoma de referencia.
Dadas las lecturas cortas que produce la generación actual de tecnologías de secuenciación, el ensamblaje de novo es un problema computacional importante. Normalmente se aborda mediante un proceso iterativo de búsqueda y conexión de lecturas de secuencias con superposiciones sensibles. Se han aprovechado varias técnicas computacionales y estadísticas, como los gráficos de Bruijn y los gráficos de consenso de disposición de superposición, para resolver este problema. No obstante, debido a la naturaleza altamente repetitiva de los genomas eucariotas, la reconstrucción precisa y completa de las secuencias del genoma en el ensamblaje de novo sigue siendo un desafío. Las lecturas de extremos de pares se han planteado como una posible solución, aunque las longitudes exactas de los fragmentos a menudo se desconocen y deben aproximarse. [7]
Las longitudes de lectura largas que ofrece la secuenciación de tercera generación pueden aliviar muchos de los desafíos que enfrentan actualmente los ensamblajes de genomas de novo. Por ejemplo, si una región repetitiva completa se puede secuenciar de manera inequívoca en una sola lectura, no se requeriría ninguna inferencia computacional. Se han propuesto métodos computacionales para aliviar el problema de las altas tasas de error. Por ejemplo, en un estudio, se demostró que el ensamblaje de novo de un genoma microbiano utilizando solo la secuenciación PacBio tuvo un rendimiento superior al de la secuenciación de segunda generación. [8]
La secuenciación de tercera generación también se puede utilizar junto con la secuenciación de segunda generación. Este enfoque se conoce a menudo como secuenciación híbrida. Por ejemplo, las lecturas largas de la secuenciación de tercera generación se pueden utilizar para resolver ambigüedades que existen en genomas ensamblados previamente mediante la secuenciación de segunda generación. Por otro lado, las lecturas cortas de segunda generación se han utilizado para corregir errores que existen en las lecturas largas de tercera generación. En general, se ha demostrado que este enfoque híbrido mejora significativamente los ensamblajes de genomas de novo. [9]
La metilación del ADN (ADNm), la modificación covalente del ADN en los sitios CpG que da lugar a la unión de grupos metilo , es el componente mejor comprendido de la maquinaria epigenética . Las modificaciones del ADN y la expresión génica resultante pueden variar según los tipos de células, el desarrollo temporal y la ascendencia genética, pueden cambiar debido a estímulos ambientales y son hereditarias. Después del descubrimiento de la ADNm, los investigadores también han encontrado su correlación con enfermedades como el cáncer y el autismo . [10] En este contexto de etiología de la enfermedad, la ADNm es una vía importante para futuras investigaciones.
Los métodos actuales más comunes para examinar el estado de metilación requieren un ensayo que fragmente el ADN antes de la secuenciación estándar de segunda generación en la plataforma Illumina . Como resultado de la corta longitud de lectura, se pierde información sobre los patrones más largos de metilación. [5] Las tecnologías de secuenciación de tercera generación ofrecen la capacidad de secuenciar en tiempo real moléculas individuales de lecturas más largas y detectar modificaciones del ADN sin el ensayo mencionado anteriormente. [11]
MinION de Oxford Nanopore Technologies se ha utilizado para detectar ADNm. A medida que cada cadena de ADN pasa a través de un poro, produce señales eléctricas que se ha descubierto que son sensibles a los cambios epigenéticos en los nucleótidos, y se utilizó un modelo oculto de Markov (HMM) para analizar los datos de MinION para detectar la modificación del ADN de 5-metilcitosina (5mC). [5] El modelo se entrenó utilizando ADN de E. coli metilado sintéticamente y las señales resultantes se midieron mediante la tecnología de nanoporos. Luego, el modelo entrenado se utilizó para detectar 5mC en lecturas genómicas de MinION de una línea celular humana que ya tenía un metiloma de referencia. El clasificador tiene una precisión del 82 % en sitios singleton muestreados aleatoriamente, que aumenta al 95 % cuando se aplican umbrales más estrictos. [5]
Otros métodos abordan diferentes tipos de modificaciones de ADN utilizando la plataforma MinION. Stoiber et al. examinaron la 4-metilcitosina (4mC) y la 6-metiladenina (6mA), junto con la 5mC, y también crearon un software para visualizar directamente los datos brutos de MinION de una manera amigable para los humanos. [12] Aquí encontraron que en E. coli , que tiene un metiloma conocido , se pueden usar ventanas de eventos de 5 pares de bases de largo para dividir y analizar estadísticamente las señales eléctricas brutas de MinION. Una prueba U de Mann-Whitney sencilla puede detectar porciones modificadas de la secuencia de E. coli , así como dividir aún más las modificaciones en regiones 4mC, 6mA o 5mC. [12]
Parece probable que en el futuro los datos sin procesar de MinION se utilicen para detectar muchas marcas epigenéticas diferentes en el ADN.
La secuenciación PacBio también se ha utilizado para detectar la metilación del ADN. En esta plataforma, el ancho de pulso (el ancho de un pulso de luz fluorescente) corresponde a una base específica. En 2010 se demostró que la distancia entre pulsos en muestras de control y metiladas es diferente, y que existe un ancho de pulso "característico" para cada tipo de metilación. [11] En 2012, utilizando la plataforma PacBio, se caracterizaron los sitios de unión de las metiltransferasas del ADN. [13] En 2015 se demostró la detección de la metilación de N6 en C. elegans . [14] En 2016 se demostró la metilación del ADN en N 6 -adenina utilizando la plataforma PacBio en células madre embrionarias de ratón. [15]
Otras formas de modificaciones del ADN (metales pesados, oxidación o daño UV) también son posibles vías de investigación utilizando la secuenciación de tercera generación de Oxford Nanopore y PacBio.
El procesamiento de los datos brutos (como la normalización a la señal mediana) era necesario en los datos brutos de MinION, lo que reducía la capacidad en tiempo real de la tecnología. [12] La consistencia de las señales eléctricas sigue siendo un problema, lo que dificulta la identificación precisa de un nucleótido. MinION tiene un bajo rendimiento; dado que es difícil obtener múltiples lecturas superpuestas, esto conduce aún más a problemas de precisión en la detección de modificaciones de ADN posteriores. Tanto el modelo de Markov oculto como los métodos estadísticos utilizados con los datos brutos de MinION requieren observaciones repetidas de modificaciones de ADN para su detección, lo que significa que los nucleótidos modificados individuales deben estar presentes de manera consistente en múltiples copias del genoma, por ejemplo, en múltiples células o plásmidos en la muestra.
También en el caso de la plataforma PacBio, dependiendo de la metilación que se espere encontrar, las necesidades de cobertura pueden variar. A marzo de 2017, no se habían podido descubrir otros factores epigenéticos como las modificaciones de histonas utilizando tecnologías de tercera generación. Los patrones más largos de metilación a menudo se pierden porque todavía es necesario ensamblar contigs más pequeños.
La transcriptómica es el estudio del transcriptoma , generalmente mediante la caracterización de las abundancias relativas de moléculas de ARN mensajero en el tejido en estudio. Según el dogma central de la biología molecular , la información genética fluye desde las moléculas de ADN de doble cadena a las moléculas de ARN mensajero de cadena sencilla, donde pueden traducirse fácilmente en moléculas de proteína funcionales. Al estudiar el transcriptoma, se puede obtener información valiosa sobre la regulación de la expresión genética.
Si bien los niveles de expresión pueden representarse con mayor o menor precisión mediante la secuenciación de segunda generación (podemos suponer que las abundancias reales de la población de transcripciones se muestrean aleatoriamente), la información a nivel de transcripción sigue siendo un desafío importante. [16] Como consecuencia, el papel del empalme alternativo en la biología molecular sigue siendo en gran medida difícil de alcanzar. Las tecnologías de secuenciación de tercera generación ofrecen perspectivas prometedoras para resolver este problema al permitir la secuenciación de moléculas de ARNm en toda su longitud.
El empalme alternativo (AS) es el proceso por el cual un solo gen puede dar lugar a múltiples transcripciones de ARNm distintas y, en consecuencia, a diferentes traducciones de proteínas. [17] Algunas evidencias sugieren que el AS es un fenómeno ubicuo y puede desempeñar un papel clave en la determinación de los fenotipos de los organismos, especialmente en eucariotas complejos; todos los eucariotas contienen genes que consisten en intrones que pueden sufrir AS. En particular, se ha estimado que el AS se produce en el 95% de todos los genes humanos multiexónicos. [18] El AS tiene un potencial innegable para influir en una miríada de procesos biológicos. El avance del conocimiento en esta área tiene implicaciones críticas para el estudio de la biología en general.
La generación actual de tecnologías de secuenciación produce solo lecturas cortas, lo que limita enormemente la capacidad de detectar transcripciones distintas; las lecturas cortas deben modificarse mediante ingeniería inversa para obtener las transcripciones originales que podrían haber dado lugar a las observaciones de lectura resultantes. [19] Esta tarea se complica aún más por los niveles de expresión altamente variables en las transcripciones y, en consecuencia, las coberturas de lectura variables en la secuencia del gen. [19] Además, los exones pueden compartirse entre transcripciones individuales, lo que hace que las inferencias inequívocas sean esencialmente imposibles. [17] Los métodos computacionales existentes hacen inferencias basadas en la acumulación de lecturas cortas en varias ubicaciones de secuencia, a menudo haciendo suposiciones simplificadoras. [19] Cufflinks adopta un enfoque parsimonioso, buscando explicar todas las lecturas con el menor número posible de transcripciones. [20] Por otro lado, StringTie intenta estimar simultáneamente las abundancias de transcripciones mientras ensambla las lecturas. [19] Estos métodos, aunque razonables, pueden no siempre identificar transcripciones reales.
Un estudio publicado en 2008 examinó 25 protocolos diferentes de reconstrucción de transcripciones existentes. [16] Su evidencia sugirió que los métodos existentes son generalmente débiles en el ensamblaje de transcripciones, aunque la capacidad para detectar exones individuales está relativamente intacta. [16] Según las estimaciones, la sensibilidad promedio para detectar exones en los 25 protocolos es del 80% para los genes de Caenorhabditis elegans . [16] En comparación, la sensibilidad de identificación de transcripciones disminuye al 65%. Para los humanos, el estudio informó una sensibilidad de detección de exones promedio del 69% y la sensibilidad de detección de transcripciones tuvo un promedio de apenas el 33%. [16] En otras palabras, para los humanos, los métodos existentes pueden identificar menos de la mitad de todas las transcripciones existentes.
Las tecnologías de secuenciación de tercera generación han demostrado perspectivas prometedoras para resolver el problema de la detección de transcripciones, así como la estimación de la abundancia de ARNm a nivel de transcripciones. Si bien las tasas de error siguen siendo altas, las tecnologías de secuenciación de tercera generación tienen la capacidad de producir longitudes de lectura mucho más largas. [21] Pacific Bioscience ha presentado la plataforma iso-seq, que propone secuenciar moléculas de ARNm en sus longitudes completas. [21] Se prevé que Oxford Nanopore proponga tecnologías similares. El problema de las tasas de error más altas se puede aliviar con lecturas cortas complementarias de alta calidad. Este enfoque se ha probado anteriormente y se ha informado que reduce la tasa de error en más de tres veces. [22]
La metagenómica es el análisis de material genético recuperado directamente de muestras ambientales.
La principal ventaja de las tecnologías de secuenciación de tercera generación en metagenómica es su velocidad de secuenciación en comparación con las técnicas de segunda generación. La velocidad de secuenciación es importante, por ejemplo, en el ámbito clínico (es decir, la identificación de patógenos ), para permitir un diagnóstico eficiente y acciones clínicas oportunas.
En 2015, se utilizó el MinION de Oxford Nanopore para la detección metagenómica en tiempo real de patógenos en muestras clínicas complejas con un alto nivel de fondo. La primera lectura del virus del Ébola (EBOV) se secuenció 44 segundos después de la adquisición de los datos. [23] Se logró un mapeo uniforme de las lecturas con el genoma; al menos una lectura se mapeó con más del 88 % del genoma. Las lecturas relativamente largas permitieron la secuenciación de un genoma viral casi completo con alta precisión (97-99 % de identidad) directamente a partir de una muestra clínica primaria. [23]
Un marcador filogenético común para los estudios de diversidad de comunidades microbianas es el gen del ARN ribosómico 16S . Tanto MinION como la plataforma SMRT de PacBio se han utilizado para secuenciar este gen. [24] [25] En este contexto, la tasa de error de PacBio fue comparable a la de lecturas más cortas de las plataformas de secuenciación 454 y MiSeq de Illumina. [ cita requerida ]
La alta tasa de error de MinION (~10-40%) impidió la identificación de marcadores de resistencia a los antimicrobianos , para los que es necesaria la resolución de un solo nucleótido. Por la misma razón, no se identificaron patógenos eucariotas . [23] La facilidad de contaminación por arrastre cuando se reutiliza la misma celda de flujo (los protocolos de lavado estándar no funcionan) también es una preocupación. Los códigos de barras únicos pueden permitir una mayor multiplexación. Además, realizar una identificación precisa de especies de bacterias , hongos y parásitos es muy difícil, ya que comparten una porción más grande del genoma y algunos solo difieren en <5%.
El costo de secuenciación por base sigue siendo significativamente mayor que el de MiSeq. Sin embargo, la perspectiva de complementar las bases de datos de referencia con secuencias de longitud completa de organismos que se encuentran por debajo del límite de detección del método de Sanger [24] podría ayudar en gran medida a la identificación de organismos en metagenómica.