La secuenciación de todo el genoma con bisulfito es una tecnología de secuenciación de última generación que se utiliza para determinar el estado de metilación del ADN de citosinas individuales mediante el tratamiento del ADN con bisulfito de sodio antes de la secuenciación de ADN de alto rendimiento . El estado de metilación del ADN en varios genes puede revelar información sobre la regulación genética y las actividades transcripcionales . [1] Esta técnica se desarrolló en 2009 junto con la secuenciación con bisulfito de representación reducida después de que la secuenciación con bisulfito se convirtiera en el estándar de oro para el análisis de metilación del ADN. [2] [3]
La secuenciación de todo el genoma con bisulfito mide los niveles de metilación de una sola citosina en todo el genoma y estima directamente la proporción de moléculas metiladas en lugar de los niveles de enriquecimiento. Actualmente, esta técnica ha reconocido y probado aproximadamente el 95% de todas las citosinas en genomas conocidos. [4] Con la mejora de los métodos de preparación de bibliotecas y la tecnología de secuenciación de próxima generación durante la última década, la secuenciación de todo el genoma con bisulfito se ha convertido en un método cada vez más extendido e informativo para analizar la metilación del ADN en estudios epigenómicos. [5]
Antes del desarrollo de la secuenciación de bisulfito del genoma completo, el análisis de la metilación del genoma dependía en gran medida de los primeros métodos no específicos y diferenciales, como la cromatografía en papel , la cromatografía líquida de alto rendimiento y la cromatografía de capa fina para analizar los perfiles de metilación. [6] Estos métodos estaban limitados por la incapacidad de amplificar el ADN metilado a través de la reacción en cadena de la polimerasa in vitro debido a la pérdida del estado de metilación. [6] Como resultado, muchos de estos primeros métodos se basaban en la detección y el análisis de citosinas metiladas manifestadas naturalmente in vivo en lugar de citosinas metiladas químicamente.
En 1970, se produjo un gran avance cuando se descubrió que el tratamiento del ADN con bisulfito de sodio desaminaba los residuos de citosina en uracilo. [6] En la década siguiente, este descubrimiento condujo a la revelación de que la citosina no metilada reaccionaba mucho más rápido al tratamiento con bisulfito de sodio que la 5-metilcitosina . Esta diferencia en las velocidades de reacción creó la posibilidad de identificar cambios químicos en el ADN como un marcador genético fácilmente detectable. [6] La secuenciación de bisulfito de todo el genoma se derivó como una combinación de este tratamiento con bisulfito y tecnología de secuenciación de próxima generación, como la secuenciación shotgun .
La técnica de secuenciación del genoma completo se aplicó por primera vez al mapeo de la metilación del ADN con una resolución de un solo nucleótido en Arabidopsis thaliana en 2008, y poco después, en 2009, se creó el primer mapa de metilación del ADN con una resolución de una sola base de todo el genoma humano utilizando la secuenciación del genoma completo con bisulfito. [7] [5] Desde su desarrollo, se han desarrollado muchos protocolos diferentes de secuenciación del genoma completo con bisulfito con el objetivo de mejorar la eficiencia y eficacia de su mapeo de una sola base. A medida que los costos de la secuenciación de próxima generación han disminuido, la secuenciación del genoma completo con bisulfito se ha vuelto más ampliamente utilizada en la investigación clínica y experimental. [3] Actualmente, se han establecido múltiples conjuntos de datos públicos de datos genómicos, y esta técnica ha reconocido y probado aproximadamente el 95% de todas las citosinas en genomas conocidos. [4]
Los siguientes pasos se derivan de un flujo de trabajo potencial de la secuenciación convencional de todo el genoma con bisulfito: extracción de ADN objetivo, conversión con bisulfito, amplificación de la biblioteca y análisis bioinformático. [8] Sin embargo, varios sistemas de secuenciación y herramientas de análisis a menudo adaptan los parámetros técnicos y el orden de los siguientes procesos de pasos para optimizar la cobertura y la eficacia del ensayo. [3]
Los protocolos de preparación de bibliotecas pasan por fragmentación de ADN, reparación de extremos, dA-tailing y ligadura de adaptadores antes del tratamiento con bisulfito y la amplificación de la biblioteca. La fragmentación estándar con tecnología de alto rendimiento como Illumina Genome Analyser y Solexa requiere nebulización para generar fragmentos que van desde 0 a 1200 pares de bases. [9] Después de la fragmentación, las enzimas de reparación de extremos y los adaptadores complementarios se aplican al ADN en una reacción en cadena de polimerasa de preparación de extremos y una reacción de ligadura de adaptadores, respectivamente. La selección de tamaño se produce antes de que el ADN se trate con bisulfito de sodio.
Los métodos convencionales de preparación de ADN eucariota durante la secuenciación utilizan una amplia variedad de cantidades de entrada de ADN, que varían desde tan solo 10 ng para nuevas alternativas de bibliotecas NGS, como el enfoque de tagmentación, hasta 500-1000 ng de ADN como entrada de muestra. [10]
La muestra de ADN ligada al adaptador se trata con bisulfito de sodio, un compuesto químico que convierte las citosinas no metiladas en uracilo , a bajo pH y altas temperaturas. [11] [12] La reacción química se representa en la Figura 1, donde se produce la sulfonación en la posición de carbono 6 de la citosina para producir el intermediario sulfonato de citosina. [13] Este intermediario luego sufre una desaminación hidrolítica irreversible para crear sulfonato de uracilo. En condiciones alcalinas, el sulfonato de uracilo se desulfona para generar uracilo. [13]
Esto permite la detección de la metilación al distinguir las citosinas metiladas (5-metilcitosina), que resisten el tratamiento con bisulfito, del uracilo. Durante la amplificación por reacción en cadena de la polimerasa, los uracilos se convierten en timinas . [3] Las citosinas metiladas se reconocen entonces como citosinas. Luego se identifican sus ubicaciones mediante la comparación de la secuencia de ADN tratada con bisulfito y la original.
Después del tratamiento con bisulfito, es necesaria la purificación de la muestra para eliminar los productos no deseados, incluidas las sales de bisulfito. [13]
Para amplificar la biblioteca del epigenoma, se prepara el ADN tratado con bisulfito para generar ADN con una secuencia de marcado específica. Luego se vuelve a marcar el extremo 3' de esta secuencia, lo que crea fragmentos de ADN con marcadores en cada extremo. Estos fragmentos se amplifican en una reacción final de reacción en cadena de la polimerasa, después de lo cual se prepara la biblioteca para la secuenciación por síntesis. [8] Esto se demuestra en la Figura 2, en la que el sistema de secuenciación de alto rendimiento desarrollado por la empresa de biotecnología Illumina realiza ensayos completos basados en la secuenciación por síntesis de pares de bases. [8]
Después de la amplificación de la biblioteca, se puede realizar una serie de análisis en la biblioteca expandida para determinar varias características de metilación o mapear un perfil de metilación de todo el genoma. [8]
Un estudio de este tipo alinea las nuevas lecturas con el genoma de referencia para comparar directamente las ubicaciones de las citosinas metiladas y los desajustes de CT. Esto requiere software como SOAP para la comparación lado a lado de los genomas. [8] Otro posible análisis de secuenciación es la llamada de citosinas metiladas, que calcula las proporciones de citosinas metiladas mediante el mapeo de probabilidades en función de la calidad de la lectura. Esto ayuda a determinar las ubicaciones de las citosinas metiladas en todo el genoma. [8] Finalmente, las tendencias globales del metiloma se pueden analizar calculando las proporciones de distribución de CG, CHGG y CHH en las citosinas metiladas en todo el genoma. [8] Estas proporciones pueden reflejar características de los mapas de metilación del genoma completo de ciertas especies.
Debido a su capacidad para detectar el estado de metilación con una resolución de un solo nucleótido en un genoma determinado, la secuenciación de bisulfito del genoma completo se ha vuelto cada vez más prometedora para ayudar a la investigación epigenómica fundamental, las hipótesis novedosas sobre la metilación del ADN y las investigaciones de futuros estudios epidemiológicos a gran escala. [3] [5] Este enfoque de genoma completo también es capaz de detectar con sensibilidad la metilación de citosina en secuencias específicas en todo el genoma, lo que aumenta su potencial para identificar sitios específicos de metilación del ADN y su relación con ciertas expresiones genéticas. [6]
La técnica de secuenciación de bisulfito de genoma completo es capaz de detectar con sensibilidad la metilación de citosina en secuencias específicas en todo el genoma, lo que aumenta su potencial para identificar sitios específicos de metilación del ADN y su relación con ciertas expresiones genéticas. [6] El uso de la secuenciación de bisulfito de genoma completo para crear el primer metiloma de ADN humano en 2009 también ayudó a identificar una proporción significativa de metilación no CG. [6] Como resultado, se siguen produciendo múltiples metilomas de resolución de base única del genoma humano para identificar el papel de la metilación del ADN intragénico en la expresión y regulación genética. Los estudios futuros apuntan a utilizar la secuenciación de bisulfito de genoma completo para investigar el papel que tiene la metilación del ADN en múltiples procesos celulares como la diferenciación celular , la embriogénesis , la inactivación del cromosoma X, la impronta genómica y la tumorigénesis . [4] Ya se han secuenciado mapas de un solo nucleótido para dos líneas celulares humanas, células madre embrionarias humanas H1 y fibroblastos pulmonares fetales IMR90, con el fin de estudiar patrones de metilación no CG en células humanas. [4]
La secuenciación de todo el genoma con bisulfito también se ha aplicado a estudios de biología del desarrollo en los que se descubrió que la metilación no CG prevalecía en células madre pluripotentes y ovocitos. Esta técnica ayudó a los investigadores a descubrir que la metilación no CG se acumulaba durante el crecimiento de los ovocitos y cubría más de la mitad de toda la metilación en los ovocitos de vesículas germinales de ratón. [14] De manera similar, en plantas, se utilizó la secuenciación de todo el genoma con bisulfito para examinar la metilación de CG, CHH y CHG [ aclaración necesaria ] . Luego se descubrió que la línea germinal de las plantas conservaba la metilación de CG y CHG, mientras que los mamíferos perdían la metilación de CHH en microsporas y células espermáticas. [14]
Los recursos ilimitados que ofrece el enfoque de un genoma completo han estimulado muchas hipótesis novedosas sobre cómo la secuenciación de bisulfito del genoma completo podría usarse en otros campos, incluidos el diagnóstico de enfermedades y la ciencia forense. Los estudios han demostrado que la secuenciación de bisulfito del genoma completo podría detectar la metilación anormal, o más específicamente los genes supresores hipermetilados, que se observan a menudo en cánceres como la leucemia. [14] Además, la secuenciación de bisulfito del genoma completo se ha aplicado a muestras de manchas de sangre en investigaciones forenses para generar análisis de metilación de ADN de alta calidad en manchas secas. [14]
El uso generalizado de la secuenciación de todo el genoma con bisulfito se ha visto limitado principalmente por su excesivo coste, la compleja producción de datos y la mínima cobertura requerida. Debido a la gran cantidad y el consiguiente coste de la entrada de ADN, muchos estudios que utilizan ensayos de secuenciación de todo el genoma con bisulfito se realizan con pocas o ninguna réplica biológica. [15] Para las muestras humanas, el Proyecto de la Hoja de Ruta de Epigenómica de los Institutos Nacionales de Salud (NIH) de EE. UU. recomienda una secuenciación con una cobertura mínima de 30x para lograr resultados precisos y aproximadamente 80 millones de lecturas alineadas de alta calidad. [16] En consecuencia, los estudios a gran escala para la elaboración de perfiles de metilación de todo el genoma siguen siendo menos rentables y a menudo requieren múltiples resecuenciaciones de todo el genoma varias veces para cada experimento. [17] Se están realizando estudios actuales para reducir los requisitos de cobertura mínima convencionales manteniendo al mismo tiempo la precisión del mapeo.
Por último, la técnica también está limitada por la complejidad de los datos y la falta de herramientas analíticas suficientemente avanzadas para los requisitos computacionales posteriores. [2] Los requisitos bioinformáticos actuales para una interpretación precisa de los datos están por delante de la tecnología existente, lo que frena la accesibilidad de los resultados de secuenciación al público en general.
Además, existen limitaciones biológicas en relación con varios pasos del protocolo estándar, en particular en el método de preparación de la biblioteca. Una de las mayores preocupaciones es el potencial sesgo en la composición de bases de las secuencias y la sobrerrepresentación de los datos de ADN metilado después de los análisis bioinformáticos. [9] El sesgo puede surgir de múltiples efectos no deseados de la conversión con bisulfito, incluida la degradación del ADN. Esta degradación puede causar una cobertura desigual de la secuencia al representar incorrectamente las secuencias genómicas y sobreestimar los valores de 5-metilcitosina. [3] Además, el proceso de conversión con bisulfito solo distingue la citosina no metilada de la 5-metilcitosina. Como resultado, la especificidad entre la 5-metilcitosina y la 5-hidroximetilcitosina es limitada. [3] Otra fuente potencial de sesgo surge de la amplificación de la biblioteca mediante reacción en cadena de la polimerasa, que afecta a las secuencias con composiciones de bases altamente sesgadas debido a las altas tasas de errores de secuencia de la polimerasa en el ADN convertido con bisulfito con alto contenido de AT. [3]