La secuenciación del exoma , también conocida como secuenciación del exoma completo ( WES ), es una técnica genómica para secuenciar todas las regiones de genes que codifican proteínas en un genoma (conocido como exoma ). [1] Consta de dos pasos: el primer paso es seleccionar sólo el subconjunto de ADN que codifica las proteínas . Estas regiones se conocen como exones : los humanos tienen alrededor de 180.000 exones, lo que constituye aproximadamente el 1% del genoma humano , o aproximadamente 30 millones de pares de bases . El segundo paso es secuenciar el ADN exónico utilizando cualquier tecnología de secuenciación de ADN de alto rendimiento . [2]
El objetivo de este enfoque es identificar variantes genéticas que alteren las secuencias de proteínas y hacerlo a un costo mucho menor que la secuenciación del genoma completo . Dado que estas variantes pueden ser responsables de enfermedades tanto mendelianas como poligénicas comunes , como la enfermedad de Alzheimer , la secuenciación completa del exoma se ha aplicado tanto en la investigación académica como como diagnóstico clínico.
La secuenciación del exoma es especialmente eficaz en el estudio de enfermedades mendelianas raras, porque es una forma eficaz de identificar las variantes genéticas en todos los genes de un individuo. Estas enfermedades suelen ser causadas por variantes genéticas muy raras que sólo están presentes en un número reducido de individuos; [3] por el contrario, técnicas como las matrices de SNP solo pueden detectar variantes genéticas compartidas que son comunes a muchos individuos de la población en general. [4] Además, debido a que es mucho más probable (pero de ninguna manera exclusivamente) que las variantes que causan enfermedades graves estén en la secuencia codificante de proteínas, [5] [6] centrarse en este 1% cuesta mucho menos que la secuenciación del genoma completo , pero aun así detecta un alto rendimiento de variantes relevantes.
En el pasado, las pruebas genéticas clínicas se elegían en función de la presentación clínica del paciente (es decir, se centraban en un gen o en un pequeño número conocido por estar asociado con un síndrome particular), o examinaban sólo ciertos tipos de variación (por ejemplo, hibridación genómica comparativa ). pero proporcionó diagnósticos genéticos definitivos en menos de la mitad de todos los pacientes. [7] La secuenciación del exoma se utiliza cada vez más para complementar estas otras pruebas: tanto para encontrar mutaciones en genes que ya se sabe que causan enfermedades como para identificar genes nuevos comparando exomas de pacientes con características similares. [ cita necesaria ]
Los métodos de enriquecimiento de objetivos permiten capturar selectivamente regiones genómicas de interés de una muestra de ADN antes de la secuenciación. Se han desarrollado varias estrategias de enriquecimiento de objetivos desde la descripción original del método de selección genómica directa (DGS) en 2005. [8]
Aunque se han descrito muchas técnicas para la captura dirigida, sólo unas pocas de ellas se han ampliado para capturar exomas completos. [9] La primera estrategia de enriquecimiento objetivo que se aplicó a la secuenciación completa del exoma fue el método de captura híbrida basado en matrices en 2007, pero la captura en solución ha ganado popularidad en los últimos años.
Los microarrays contienen oligonucleótidos monocatenarios con secuencias del genoma humano para revestir la región de interés fijada a la superficie. El ADN genómico se corta para formar fragmentos de doble cadena. Los fragmentos se reparan en los extremos para producir extremos romos y se añaden adaptadores con secuencias de cebado universales. Estos fragmentos se hibridan con oligos en la micromatriz. Los fragmentos no hibridados se eliminan por lavado y se eluyen los fragmentos deseados. Luego, los fragmentos se amplifican mediante PCR . [10] [11]
Roche NimbleGen fue el primero en tomar la tecnología DGS original [8] y adaptarla para la secuenciación de próxima generación. Desarrollaron la matriz Sequence Capture Human Exome 2.1M para capturar ~180.000 exones codificantes. [12] Este método ahorra tiempo y es rentable en comparación con los métodos basados en PCR. El Agilent Capture Array y el conjunto de hibridación genómica comparativa son otros métodos que se pueden utilizar para la captura híbrida de secuencias diana. Las limitaciones de esta técnica incluyen la necesidad de hardware costoso, así como una cantidad relativamente grande de ADN. [13]
Para capturar regiones genómicas de interés mediante la captura en solución, se sintetiza un conjunto de oligonucleótidos (sondas) personalizados y se hibrida en solución con una muestra de ADN genómico fragmentado. Las sondas (marcadas con perlas) se hibridan selectivamente con las regiones genómicas de interés, después de lo cual las perlas (que ahora incluyen los fragmentos de ADN de interés) pueden extraerse y lavarse para eliminar el exceso de material. Luego se retiran las perlas y se pueden secuenciar los fragmentos genómicos permitiendo la secuenciación selectiva del ADN de regiones genómicas (por ejemplo, exones) de interés.
Este método fue desarrollado para mejorar el método de enriquecimiento del objetivo de captura por hibridación. En la captura en solución (a diferencia de la captura híbrida) hay un exceso de sondas para apuntar a regiones de interés sobre la cantidad de plantilla requerida. [13] El tamaño objetivo óptimo es de aproximadamente 3,5 megabases y produce una excelente cobertura de secuencia de las regiones objetivo. El método preferido depende de varios factores, entre ellos: número de pares de bases en la región de interés, demandas de lecturas en el objetivo, equipo interno, etc. [14]
Hay muchas plataformas de secuenciación de próxima generación disponibles, posteriores a las metodologías de secuenciación clásicas de Sanger. Otras plataformas incluyen el secuenciador Roche 454 y los sistemas SOLiD de Life Technologies , Life Technologies Ion Torrent e Illumina Genome Analyzer II (desaparecido) de Illumina y los instrumentos posteriores de las series Illumina MiSeq, HiSeq y NovaSeq, todos los cuales pueden usarse para la secuenciación masiva de exomas en paralelo. Estos sistemas NGS de "lectura corta" son particularmente adecuados para analizar muchos tramos relativamente cortos de secuencia de ADN, como los que se encuentran en los exones humanos.
Existen múltiples tecnologías disponibles que identifican variantes genéticas. Cada tecnología tiene ventajas y desventajas en términos de factores técnicos y financieros. Dos de esas tecnologías son los microarrays y la secuenciación del genoma completo .
Los microarrays utilizan sondas de hibridación para probar la prevalencia de secuencias de ADN conocidas, por lo que no pueden usarse para identificar cambios genéticos inesperados. [13] Por el contrario, las tecnologías de secuenciación de alto rendimiento utilizadas en la secuenciación del exoma proporcionan directamente las secuencias de nucleótidos del ADN en los miles de loci exónicos analizados. [15] Por lo tanto, WES aborda algunas de las limitaciones actuales de las matrices de genotipado de hibridación .
Aunque la secuenciación del exoma es más costosa que las tecnologías basadas en la hibridación por muestra, su costo ha ido disminuyendo debido a la caída del costo y al aumento del rendimiento de la secuenciación del genoma completo . [ cita necesaria ]
La secuenciación del exoma sólo es capaz de identificar aquellas variantes encontradas en la región codificante de genes que afectan la función de las proteínas. No es capaz de identificar las variantes estructurales y no codificantes asociadas con la enfermedad, que se pueden encontrar utilizando otros métodos como la secuenciación del genoma completo . [2] Queda un 99% del genoma humano que no está cubierto mediante la secuenciación del exoma, y la secuenciación del exoma permite secuenciar porciones del genoma en al menos 20 veces más muestras en comparación con la secuenciación del genoma completo. [2] Para la traducción de variantes raras identificadas a la clínica, el tamaño de la muestra y la capacidad de interpretar los resultados para proporcionar un diagnóstico clínico indican que con el conocimiento actual en genética, hay informes de que la secuenciación del exoma se utiliza para ayudar en el diagnóstico. [12] El costo de la secuenciación del exoma suele ser menor que el de la secuenciación del genoma completo. [dieciséis]
El análisis estadístico de la gran cantidad de datos generados a partir de enfoques de secuenciación es un desafío. Incluso secuenciando únicamente los exomas de los individuos, se genera una gran cantidad de datos e información de secuencia que requiere una cantidad significativa de análisis de datos. Los desafíos asociados con el análisis de estos datos incluyen cambios en los programas utilizados para alinear y ensamblar lecturas de secuencias. [13] Varias tecnologías de secuenciación también tienen diferentes tasas de error y generan varias longitudes de lectura, lo que puede plantear desafíos al comparar resultados de diferentes plataformas de secuenciación.
Los hallazgos falsos positivos y falsos negativos están asociados con los enfoques de resecuenciación genómica y son cuestiones críticas. Se han desarrollado algunas estrategias para mejorar la calidad de los datos del exoma, como:
Es posible que los trastornos recesivos raros no tengan polimorfismos de un solo nucleótido (SNP) en bases de datos públicas como dbSNP . Los fenotipos recesivos más comunes tendrían más probabilidades de tener variantes causantes de enfermedades informadas en dbSNP. Por ejemplo, la variante de fibrosis quística más común tiene una frecuencia alélica de aproximadamente el 3% en la mayoría de las poblaciones. La detección de tales variantes podría excluir erróneamente dichos genes de la consideración. Los genes de los trastornos recesivos suelen ser más fáciles de identificar que los de los trastornos dominantes porque es menos probable que los genes tengan más de una variante rara no sinónima. [2] El sistema que detecta variantes genéticas comunes se basa en dbSNP, que puede no tener información precisa sobre la variación de los alelos. Sería más confiable utilizar listas de variación común de un exoma de estudio o de un individuo secuenciado de todo el genoma. Un desafío en este enfoque es que a medida que aumenta el número de exomas secuenciados, dbSNP también aumentará el número de variantes poco comunes. Será necesario desarrollar umbrales para definir las variantes comunes que probablemente no estén asociadas con un fenotipo de enfermedad. [15]
La heterogeneidad genética y el origen étnico de la población también son limitaciones importantes, ya que pueden aumentar el número de resultados falsos positivos y falsos negativos, lo que dificultará la identificación de genes candidatos. Por supuesto, es posible reducir el rigor de los umbrales en presencia de heterogeneidad y etnicidad; sin embargo, esto también reducirá el poder para detectar variantes. El uso de un enfoque basado en el genotipo para identificar genes candidatos también podría ofrecer una solución para superar estas limitaciones.
A diferencia del análisis de variantes comunes, el análisis de variantes raras en estudios de secuenciación del exoma completo evalúa conjuntos de variantes en lugar de variantes únicas. [17] [18] Las anotaciones funcionales predicen el efecto o la función de variantes raras y ayudan a priorizar variantes funcionales raras. La incorporación de estas anotaciones puede aumentar eficazmente el poder del análisis de asociación genética de variantes raras de estudios de secuenciación del genoma completo. [19] Se han desarrollado algunos métodos y herramientas para realizar análisis de asociación de variantes raras con información funcional mediante la incorporación de anotaciones funcionales para potenciar el análisis en estudios de secuenciación del exoma completo. [20] [21]
Las nuevas tecnologías en genómica han cambiado la forma en que los investigadores abordan la investigación tanto básica como traslacional. Con enfoques como la secuenciación del exoma, es posible mejorar significativamente los datos generados a partir de genomas individuales, lo que ha planteado una serie de preguntas sobre cómo manejar la gran cantidad de información. ¿Debería permitirse a los individuos en estos estudios tener acceso a su información de secuenciación? ¿Debería compartirse esta información con las compañías de seguros? Estos datos pueden conducir a hallazgos inesperados y complicar la utilidad clínica y el beneficio para el paciente. Esta área de la genómica sigue siendo un desafío y los investigadores están buscando cómo abordar estas preguntas. [15]
Mediante el uso de la secuenciación del exoma, los estudios de costo fijo pueden secuenciar muestras con una profundidad mucho mayor que la que se podría lograr con la secuenciación del genoma completo. Esta profundidad adicional hace que la secuenciación del exoma sea adecuada para varias aplicaciones que necesitan llamadas de variantes confiables.
Los estudios de asociación actuales se han centrado en la variación común en todo el genoma, ya que son los más fáciles de identificar con nuestros ensayos actuales. Sin embargo, se ha descubierto que variantes causantes de enfermedades de gran efecto se encuentran dentro de los exomas en estudios de genes candidatos y, debido a la selección negativa , se encuentran en frecuencias alélicas mucho más bajas y pueden permanecer sin tipificar en los ensayos de genotipado estándar actuales. La secuenciación del genoma completo es un método potencial para analizar nuevas variantes en todo el genoma. Sin embargo, en trastornos complejos (como el autismo), se cree que una gran cantidad de genes están asociados con el riesgo de enfermedad. [1] [22] Esta heterogeneidad del riesgo subyacente significa que se requieren tamaños de muestra muy grandes para el descubrimiento de genes y, por lo tanto, la secuenciación del genoma completo no es particularmente rentable. Este problema del tamaño de la muestra se alivia con el desarrollo de nuevos métodos analíticos avanzados, que mapean eficazmente los genes de las enfermedades a pesar de que las mutaciones genéticas son raras a nivel de variante. [22] Además, las variantes en las regiones codificantes se han estudiado mucho más ampliamente y sus implicaciones funcionales son mucho más fáciles de derivar, lo que hace que las aplicaciones prácticas de las variantes dentro de la región del exoma objetivo sean más inmediatamente accesibles.
La secuenciación del exoma en el descubrimiento de variantes genéticas raras sigue siendo un área de investigación muy activa y en curso, y cada vez hay más pruebas de que se observa una carga significativa de riesgo en todos los conjuntos de genes. En la secuenciación del exoma se han informado variantes raras en el gen KRT82 en el trastorno autoinmune Alopecia Areata. [1]
En los trastornos mendelianos de gran efecto, los hallazgos hasta ahora sugieren que una o un número muy pequeño de variantes dentro de los genes codificantes subyacen a toda la enfermedad. Debido a la gravedad de estos trastornos, se supone que las pocas variantes causales son extremadamente raras o nuevas en la población, y cualquier ensayo de genotipado estándar no las pasaría por alto. La secuenciación del exoma proporciona llamadas de variantes de alta cobertura en las regiones de codificación, que son necesarias para separar las variantes verdaderas del ruido. Un modelo exitoso de descubrimiento de genes mendelianos implica el descubrimiento de variantes de novo mediante secuenciación en trío, donde se genotipan los padres y el probando.
Un estudio publicado en septiembre de 2009 analizó un experimento de prueba de concepto para determinar si era posible identificar variantes genéticas causales mediante la secuenciación del exoma. Secuenciaron a cuatro individuos con síndrome de Freeman-Sheldon (FSS) (OMIM 193700), un raro trastorno autosómico dominante que se sabe que está causado por una mutación en el gen MYH3 . [2] También se secuenciaron ocho individuos de HapMap para eliminar variantes comunes con el fin de identificar el gen causal del FSS. Después de excluir las variantes comunes, los autores pudieron identificar MYH3 , lo que confirma que la secuenciación del exoma se puede utilizar para identificar variantes causales de trastornos raros. [2] Este fue el primer estudio publicado que utilizó la secuenciación del exoma como método para identificar un gen causal desconocido de un trastorno mendeliano poco común.
Posteriormente, otro grupo informó del diagnóstico clínico exitoso de un paciente con sospecha de síndrome de Bartter de origen turco. [12] El síndrome de Bartter es una enfermedad renal que pierde sal. La secuenciación del exoma reveló una mutación recesiva inesperada y bien conservada en un gen llamado SLC26A3 que está asociado con la diarrea congénita por cloruro (CLD). Este diagnóstico molecular de EPC fue confirmado por el médico remitente. Este ejemplo proporcionó una prueba de concepto del uso de la secuenciación del exoma completo como herramienta clínica en la evaluación de pacientes con enfermedades genéticas no diagnosticadas. Este informe se considera la primera aplicación de la tecnología de secuenciación de próxima generación para el diagnóstico molecular de un paciente.
Se realizó un segundo informe sobre la secuenciación del exoma de individuos con un trastorno mendeliano conocido como síndrome de Miller (MIM#263750), un trastorno poco común de herencia autosómica recesiva . Se estudiaron dos hermanos y dos individuos no emparentados con síndrome de Miller. Examinaron variantes que tienen el potencial de ser patógenas, como mutaciones no sinónimas, sitios aceptores y donantes de empalme e inserciones o eliminaciones de codificación corta. [3] Dado que el síndrome de Miller es un trastorno poco común, se espera que la variante causal no haya sido identificada previamente. Se utilizaron estudios previos de secuenciación del exoma de polimorfismos de un solo nucleótido (SNP) comunes en bases de datos públicas de SNP para excluir aún más genes candidatos. Después de excluir estos genes, los autores encontraron mutaciones en DHODH que eran compartidas entre personas con síndrome de Miller. Cada individuo con síndrome de Miller era un heterocigoto compuesto para las mutaciones DHODH que se heredaban cuando se descubrió que cada padre de un individuo afectado era portador. [3]
Esta fue la primera vez que se demostró que la secuenciación del exoma identifica un nuevo gen responsable de una rara enfermedad mendeliana. Este interesante hallazgo demuestra que la secuenciación del exoma tiene el potencial de localizar genes causantes en enfermedades complejas, lo que anteriormente no había sido posible debido a las limitaciones de los métodos tradicionales. La captura dirigida y la secuenciación masiva paralela representan una estrategia rentable, reproducible y sólida con alta sensibilidad y especificidad para detectar variantes que causan cambios en la codificación de proteínas en genomas humanos individuales.
La secuenciación del exoma se puede utilizar para diagnosticar la causa genética de la enfermedad en un paciente. La identificación de las mutaciones genéticas de la enfermedad subyacente puede tener implicaciones importantes para los enfoques diagnósticos y terapéuticos, puede guiar la predicción de la historia natural de la enfermedad y hace posible realizar pruebas a los miembros de la familia en riesgo. [2] [3] [12] [23] [24] [25] Hay muchos factores que hacen que la secuenciación del exoma sea superior al análisis de un solo gen, incluida la capacidad de identificar mutaciones en genes que no se probaron debido a una presentación clínica atípica [ 25] o la capacidad de identificar casos clínicos en los que mutaciones de diferentes genes contribuyen a los diferentes fenotipos en el mismo paciente. [3]
Habiendo diagnosticado una causa genética de una enfermedad, esta información puede guiar la selección del tratamiento adecuado. La primera vez que esta estrategia se realizó con éxito en la clínica fue en el tratamiento de un bebé con enfermedad inflamatoria intestinal. [24] [26] Anteriormente se habían utilizado varios diagnósticos convencionales, pero los resultados no podían explicar los síntomas del bebé. El análisis de los datos de secuenciación del exoma identificó una mutación en el gen XIAP . El conocimiento de la función de este gen guió el tratamiento del bebé, lo que condujo a un trasplante de médula ósea que curó al niño de la enfermedad. [24]
Los investigadores han utilizado la secuenciación del exoma para identificar la mutación subyacente en un paciente con síndrome de Bartter y diarrea congénita por cloruro. [12] El grupo de Bilgular también utilizó la secuenciación del exoma e identificó la mutación subyacente en un paciente con malformaciones cerebrales graves, afirmando que "[Estos hallazgos] resaltan el uso de la secuenciación del exoma completo para identificar loci de la enfermedad en entornos en los que los métodos tradicionales han resultado desafiantes. "Nuestros resultados demuestran que esta tecnología será particularmente valiosa para el descubrimiento de genes en aquellas condiciones en las que el mapeo se ha visto confundido por la heterogeneidad del locus y la incertidumbre sobre los límites de la clasificación diagnóstica, lo que apunta a un futuro brillante para su amplia aplicación a la medicina". [23]
Investigadores de la Universidad de Ciudad del Cabo, Sudáfrica, utilizaron la secuenciación del exoma para descubrir la mutación genética de CDH2 como la causa subyacente de un trastorno genético conocido como miocardiopatía arritmogénica del ventrículo derecho (ARVC), que aumenta el riesgo de enfermedad cardíaca y paro cardíaco. [1]
Varias empresas han ofrecido la secuenciación del exoma a los consumidores. Knome fue la primera empresa en ofrecer servicios de secuenciación de exomas a los consumidores [ ¿cuándo? ] , a un costo de varios miles de dólares. [27] Más tarde, 23andMe ejecutó un programa piloto WES que se anunció en septiembre de 2011 y se suspendió en 2012. Los consumidores podían obtener datos del exoma a un costo de $999. La empresa proporcionó datos sin procesar y no ofreció análisis. [27] [28] [29]
En noviembre de 2012, DNADTC, una división de Gene by Gene, comenzó a ofrecer exomas con una cobertura 80X y un precio de lanzamiento de 695 dólares. [30] Este precio por sitio web de DNADTC es actualmente de 895 dólares. En octubre de 2013, BGI anunció una promoción para la secuenciación personal del exoma completo con una cobertura 50X por 499 dólares. [31] En junio de 2016, Genos pudo lograr un precio aún más bajo de $399 con un exoma de consumidor 75X certificado por CLIA secuenciado a partir de saliva. [32] [33] [34]
Una revisión de 36 estudios realizada en 2018 encontró que el costo de la secuenciación del exoma oscila entre $ 555 USD y $ 5169 USD, con un rendimiento diagnóstico que oscila entre el 3 % y el 79 % según los grupos de pacientes. [dieciséis]