La secuenciación del exoma , también conocida como secuenciación del exoma completo ( WES ), es una técnica genómica para secuenciar todas las regiones codificantes de proteínas de los genes en un genoma (conocido como exoma ). [1] Consta de dos pasos: el primer paso es seleccionar solo el subconjunto de ADN que codifica proteínas . Estas regiones se conocen como exones : los humanos tienen alrededor de 180.000 exones, que constituyen aproximadamente el 1% del genoma humano , o aproximadamente 30 millones de pares de bases . El segundo paso es secuenciar el ADN exónico utilizando cualquier tecnología de secuenciación de ADN de alto rendimiento . [2]
El objetivo de este enfoque es identificar variantes genéticas que alteran las secuencias de proteínas, y hacerlo a un costo mucho menor que la secuenciación del genoma completo . Dado que estas variantes pueden ser responsables tanto de enfermedades mendelianas como de enfermedades poligénicas comunes , como la enfermedad de Alzheimer , la secuenciación del exoma completo se ha aplicado tanto en la investigación académica como en el diagnóstico clínico.
La secuenciación del exoma es especialmente eficaz en el estudio de enfermedades mendelianas raras, porque es una forma eficiente de identificar las variantes genéticas en todos los genes de un individuo. Estas enfermedades suelen estar causadas por variantes genéticas muy raras que solo están presentes en un pequeño número de individuos; [3] por el contrario, técnicas como las matrices de SNP solo pueden detectar variantes genéticas compartidas que son comunes a muchos individuos en la población en general. [4] Además, debido a que las variantes causantes de enfermedades graves tienen muchas más probabilidades (pero de ninguna manera exclusivamente) de estar en la secuencia codificante de la proteína, [5] [6] centrarse en este 1% cuesta mucho menos que la secuenciación del genoma completo pero aún así detecta un alto rendimiento de variantes relevantes.
En el pasado, las pruebas genéticas clínicas se elegían en función de la presentación clínica del paciente (es decir, se centraban en un gen o en un pequeño número conocido por estar asociado con un síndrome particular), o examinaban solo ciertos tipos de variación (por ejemplo, hibridación genómica comparativa ), pero proporcionaban diagnósticos genéticos definitivos en menos de la mitad de todos los pacientes. [7] La secuenciación del exoma se utiliza cada vez más para complementar estas otras pruebas: tanto para encontrar mutaciones en genes que ya se sabe que causan enfermedades como para identificar genes nuevos comparando exomas de pacientes con características similares. [ cita requerida ]
Los métodos de enriquecimiento de objetivos permiten capturar selectivamente regiones genómicas de interés de una muestra de ADN antes de la secuenciación. Se han desarrollado varias estrategias de enriquecimiento de objetivos desde la descripción original del método de selección genómica directa (DGS) en 2005. [8]
Aunque se han descrito muchas técnicas para la captura dirigida, solo unas pocas de ellas se han ampliado para capturar exomas completos. [9] La primera estrategia de enriquecimiento de objetivos que se aplicó a la secuenciación de exomas completos fue el método de captura híbrida basada en matrices en 2007, pero la captura en solución ha ganado popularidad en los últimos años.
Los microarrays contienen oligonucleótidos monocatenarios con secuencias del genoma humano para cubrir la región de interés fijada a la superficie. El ADN genómico se corta para formar fragmentos bicatenarios. Los fragmentos se someten a una reparación de extremos para producir extremos romos y se añaden adaptadores con secuencias de cebado universales. Estos fragmentos se hibridan con oligos en el microarray. Los fragmentos no hibridados se eliminan por lavado y se eluyen los fragmentos deseados. A continuación, los fragmentos se amplifican mediante PCR . [10] [11]
Roche NimbleGen fue el primero en adoptar la tecnología DGS original [8] y adaptarla para la secuenciación de próxima generación. Desarrollaron el Sequence Capture Human Exome 2.1M Array para capturar aproximadamente 180 000 exones codificantes. [12] Este método ahorra tiempo y es rentable en comparación con los métodos basados en PCR. El Agilent Capture Array y el array de hibridación genómica comparativa son otros métodos que se pueden utilizar para la captura híbrida de secuencias objetivo. Las limitaciones de esta técnica incluyen la necesidad de hardware costoso, así como una cantidad relativamente grande de ADN. [13]
Para capturar regiones genómicas de interés mediante captura en solución, se sintetiza un conjunto de oligonucleótidos personalizados (sondas) y se hibridan en solución con una muestra de ADN genómico fragmentado. Las sondas (marcadas con perlas) se hibridan selectivamente con las regiones genómicas de interés, después de lo cual las perlas (que ahora incluyen los fragmentos de ADN de interés) se pueden retirar y lavar para eliminar el exceso de material. Luego se retiran las perlas y se pueden secuenciar los fragmentos genómicos, lo que permite la secuenciación selectiva del ADN de las regiones genómicas (por ejemplo, los exones) de interés.
Este método se desarrolló para mejorar el método de enriquecimiento de dianas mediante captura por hibridación. En la captura en solución (a diferencia de la captura híbrida) hay un exceso de sondas para las regiones de interés diana sobre la cantidad de plantilla requerida. [13] El tamaño óptimo de la diana es de aproximadamente 3,5 megabases y produce una excelente cobertura de secuencia de las regiones diana. El método preferido depende de varios factores, entre ellos: número de pares de bases en la región de interés, demandas de lecturas en la diana, equipo interno, etc. [14]
Existen muchas plataformas de secuenciación de próxima generación disponibles, posteriores a las metodologías clásicas de secuenciación de Sanger. Otras plataformas incluyen el secuenciador Roche 454 y los sistemas SOLiD de Life Technologies , el Ion Torrent de Life Technologies y el Illumina Genome Analyzer II (descontinuado) de Illumina y los instrumentos posteriores de las series MiSeq, HiSeq y NovaSeq de Illumina, todos los cuales pueden usarse para la secuenciación masiva paralela del exoma. Estos sistemas NGS de "lectura corta" son particularmente adecuados para analizar muchos tramos relativamente cortos de secuencia de ADN, como los que se encuentran en los exones humanos.
Existen múltiples tecnologías disponibles para identificar variantes genéticas. Cada tecnología tiene ventajas y desventajas en términos de factores técnicos y financieros. Dos de estas tecnologías son los microarrays y la secuenciación del genoma completo .
Los microarrays utilizan sondas de hibridación para probar la prevalencia de secuencias de ADN conocidas, por lo que no se pueden utilizar para identificar cambios genéticos inesperados. [13] Por el contrario, las tecnologías de secuenciación de alto rendimiento utilizadas en la secuenciación del exoma proporcionan directamente las secuencias de nucleótidos del ADN en los miles de loci exónicos analizados. [15] Por lo tanto, WES aborda algunas de las limitaciones actuales de los microarrays de genotipado por hibridación .
Aunque la secuenciación del exoma es más costosa que las tecnologías basadas en hibridación en términos de cada muestra, su costo ha ido disminuyendo debido a la caída de los costos y al aumento del rendimiento de la secuenciación del genoma completo . [ cita requerida ]
La secuenciación del exoma sólo es capaz de identificar aquellas variantes que se encuentran en la región codificante de los genes que afectan la función de las proteínas. No es capaz de identificar las variantes estructurales y no codificantes asociadas con la enfermedad, que se pueden encontrar utilizando otros métodos como la secuenciación del genoma completo . [2] Queda un 99% del genoma humano que no está cubierto mediante la secuenciación del exoma, y la secuenciación del exoma permite la secuenciación de porciones del genoma en al menos 20 veces más muestras en comparación con la secuenciación del genoma completo. [2] Para la traducción de variantes raras identificadas a la clínica, el tamaño de la muestra y la capacidad de interpretar los resultados para proporcionar un diagnóstico clínico indican que con el conocimiento actual en genética, hay informes de que la secuenciación del exoma se utiliza para ayudar al diagnóstico. [12] El costo de la secuenciación del exoma es típicamente menor que la secuenciación del genoma completo. [16]
El análisis estadístico de la gran cantidad de datos generados a partir de métodos de secuenciación es un desafío. Incluso al secuenciar únicamente los exomas de individuos, se genera una gran cantidad de datos e información de secuencias que requiere una cantidad significativa de análisis de datos. Los desafíos asociados con el análisis de estos datos incluyen cambios en los programas utilizados para alinear y ensamblar lecturas de secuencias. [13] Varias tecnologías de secuenciación también tienen diferentes tasas de error y generan varias longitudes de lectura que pueden plantear desafíos a la hora de comparar resultados de diferentes plataformas de secuenciación.
Los resultados falsos positivos y falsos negativos están asociados con los métodos de resecuenciación genómica y son cuestiones críticas. Se han desarrollado algunas estrategias para mejorar la calidad de los datos del exoma, como:
Es posible que los trastornos recesivos raros no tengan polimorfismos de un solo nucleótido (SNP) en bases de datos públicas como dbSNP . Los fenotipos recesivos más comunes tendrían más probabilidades de tener variantes causantes de enfermedades informadas en dbSNP. Por ejemplo, la variante de fibrosis quística más común tiene una frecuencia de alelos de aproximadamente el 3% en la mayoría de las poblaciones. La detección de dichas variantes podría excluir erróneamente la consideración de dichos genes. Los genes de los trastornos recesivos suelen ser más fáciles de identificar que los trastornos dominantes porque es menos probable que los genes tengan más de una variante no sinónima rara. [2] El sistema que examina las variantes genéticas comunes se basa en dbSNP, que puede no tener información precisa sobre la variación de los alelos. El uso de listas de variación común de un exoma de estudio o de un individuo secuenciado a nivel de genoma sería más confiable. Un desafío en este enfoque es que a medida que aumenta el número de exomas secuenciados, dbSNP también aumentará en el número de variantes poco comunes. Será necesario desarrollar umbrales para definir las variantes comunes que es poco probable que estén asociadas con un fenotipo de enfermedad. [15]
La heterogeneidad genética y la etnicidad de la población también son limitaciones importantes, ya que pueden aumentar el número de resultados falsos positivos y falsos negativos, lo que dificultará la identificación de genes candidatos. Por supuesto, es posible reducir la rigurosidad de los umbrales en presencia de heterogeneidad y etnicidad, pero esto también reducirá la capacidad para detectar variantes. El uso de un enfoque que priorice el genotipo para identificar genes candidatos también podría ofrecer una solución para superar estas limitaciones.
A diferencia del análisis de variantes comunes, el análisis de variantes raras en estudios de secuenciación del exoma completo evalúa conjuntos de variantes en lugar de variantes individuales. [17] [18] Las anotaciones funcionales predicen el efecto o la función de las variantes raras y ayudan a priorizar las variantes funcionales raras. La incorporación de estas anotaciones puede aumentar de manera efectiva el poder del análisis de asociación genética de variantes raras en estudios de secuenciación del genoma completo. [19] Se han desarrollado algunos métodos y herramientas para realizar análisis de asociación de variantes raras con información funcional mediante la incorporación de anotaciones funcionales para potenciar el análisis en estudios de secuenciación del exoma completo. [20] [21]
Las nuevas tecnologías en genómica han cambiado la forma en que los investigadores abordan la investigación básica y la translacional. Con enfoques como la secuenciación del exoma, es posible mejorar significativamente los datos generados a partir de genomas individuales, lo que ha planteado una serie de preguntas sobre cómo manejar la enorme cantidad de información. ¿Se debe permitir que los individuos que participan en estos estudios tengan acceso a su información de secuenciación? ¿Se debe compartir esta información con las compañías de seguros? Estos datos pueden conducir a hallazgos inesperados y complicar la utilidad clínica y el beneficio para el paciente. Esta área de la genómica sigue siendo un desafío y los investigadores están estudiando cómo abordar estas preguntas. [15]
Mediante la secuenciación del exoma, los estudios de costo fijo pueden secuenciar muestras con una profundidad mucho mayor que la que se podría lograr con la secuenciación del genoma completo. Esta profundidad adicional hace que la secuenciación del exoma sea adecuada para varias aplicaciones que necesitan determinaciones de variantes confiables.
Los estudios de asociación actuales se han centrado en la variación común en todo el genoma, ya que son los más fáciles de identificar con nuestros ensayos actuales. Sin embargo, se ha descubierto que las variantes causantes de enfermedades de gran efecto se encuentran dentro de los exomas en estudios de genes candidatos y, debido a la selección negativa , se encuentran en frecuencias de alelos mucho más bajas y pueden permanecer sin tipificar en los ensayos de genotipado estándar actuales. La secuenciación del genoma completo es un método potencial para analizar nuevas variantes en todo el genoma. Sin embargo, en trastornos complejos (como el autismo), se cree que una gran cantidad de genes están asociados con el riesgo de enfermedad. [1] [22] Esta heterogeneidad del riesgo subyacente significa que se requieren tamaños de muestra muy grandes para el descubrimiento de genes y, por lo tanto, la secuenciación del genoma completo no es particularmente rentable. Este problema del tamaño de la muestra se alivia con el desarrollo de nuevos métodos analíticos avanzados, que mapean eficazmente los genes de la enfermedad a pesar de que las mutaciones genéticas son raras a nivel de variante. [22] Además, las variantes en las regiones codificantes se han estudiado mucho más ampliamente y sus implicaciones funcionales son mucho más fáciles de derivar, lo que hace que las aplicaciones prácticas de las variantes dentro de la región del exoma en cuestión sean más inmediatamente accesibles.
La secuenciación del exoma en el descubrimiento de variantes genéticas raras sigue siendo un área de investigación muy activa y en curso, y hay cada vez más evidencia de que se observa una carga significativa de riesgo en los distintos conjuntos de genes. Se ha informado de variantes raras del gen KRT82 en la alopecia areata, un trastorno autoinmune. [1]
En los trastornos mendelianos de gran importancia, los hallazgos hasta el momento sugieren que una o una cantidad muy pequeña de variantes dentro de los genes codificantes subyacen a toda la afección. Debido a la gravedad de estos trastornos, se presume que las pocas variantes causales son extremadamente raras o nuevas en la población, y que cualquier ensayo de genotipificación estándar no las detectaría. La secuenciación del exoma proporciona una alta cobertura de las variantes en las regiones codificantes, que son necesarias para separar las variantes verdaderas del ruido. Un modelo exitoso de descubrimiento de genes mendelianos implica el descubrimiento de variantes de novo mediante la secuenciación de tríos, donde se genotipifican los progenitores y el probando.
En un estudio publicado en septiembre de 2009 se analizó un experimento de prueba de concepto para determinar si era posible identificar variantes genéticas causales mediante la secuenciación del exoma. Secuenciaron cuatro individuos con síndrome de Freeman-Sheldon (FSS) (OMIM 193700), un trastorno autosómico dominante poco común que se sabe que es causado por una mutación en el gen MYH3 . [2] También se secuenciaron ocho individuos de HapMap para eliminar las variantes comunes con el fin de identificar el gen causal del FSS. Después de la exclusión de las variantes comunes, los autores pudieron identificar MYH3 , lo que confirma que la secuenciación del exoma se puede utilizar para identificar variantes causales de trastornos raros. [2] Este fue el primer estudio informado que utilizó la secuenciación del exoma como un enfoque para identificar un gen causal desconocido para un trastorno mendeliano raro.
Posteriormente, otro grupo informó de un diagnóstico clínico exitoso de un paciente de origen turco con sospecha de síndrome de Bartter . [12] El síndrome de Bartter es una enfermedad renal con pérdida de sal. La secuenciación del exoma reveló una mutación recesiva inesperada y bien conservada en un gen llamado SLC26A3 que está asociado con la diarrea congénita por cloruro (EHC). Este diagnóstico molecular de EHC fue confirmado por el médico que lo refirió. Este ejemplo proporcionó una prueba de concepto del uso de la secuenciación completa del exoma como herramienta clínica en la evaluación de pacientes con enfermedades genéticas no diagnosticadas. Este informe se considera la primera aplicación de la tecnología de secuenciación de próxima generación para el diagnóstico molecular de un paciente.
Se realizó un segundo informe sobre la secuenciación del exoma de individuos con un trastorno mendeliano conocido como síndrome de Miller (MIM#263750), un trastorno poco común de herencia autosómica recesiva . Se estudiaron dos hermanos y dos individuos no relacionados con el síndrome de Miller. Se analizaron variantes que tienen el potencial de ser patógenas, como mutaciones no sinónimas, sitios donantes y aceptores de empalme e inserciones o deleciones de codificación cortas. [3] Dado que el síndrome de Miller es un trastorno poco común, se espera que la variante causal no haya sido identificada previamente. Se utilizaron estudios previos de secuenciación del exoma de polimorfismos de un solo nucleótido (SNP) comunes en bases de datos de SNP públicas para excluir aún más genes candidatos. Después de la exclusión de estos genes, los autores encontraron mutaciones en DHODH que eran compartidas entre individuos con síndrome de Miller. Cada individuo con síndrome de Miller era un heterocigoto compuesto para las mutaciones de DHODH que se heredaban, ya que se descubrió que cada padre de un individuo afectado era portador. [3]
Esta fue la primera vez que se demostró que la secuenciación del exoma identifica un gen nuevo responsable de una enfermedad mendeliana rara. Este emocionante hallazgo demuestra que la secuenciación del exoma tiene el potencial de localizar genes causantes de enfermedades complejas, algo que antes no había sido posible debido a las limitaciones de los métodos tradicionales. La captura dirigida y la secuenciación masiva en paralelo representan una estrategia rentable, reproducible y robusta con alta sensibilidad y especificidad para detectar variantes que causan cambios en la codificación de proteínas en genomas humanos individuales.
La secuenciación del exoma se puede utilizar para diagnosticar la causa genética de una enfermedad en un paciente. La identificación de las mutaciones genéticas subyacentes a la enfermedad puede tener implicaciones importantes para los enfoques diagnósticos y terapéuticos, puede orientar la predicción de la historia natural de la enfermedad y permite realizar pruebas a los miembros de la familia en riesgo. [2] [3] [12] [23] [24] [25] Hay muchos factores que hacen que la secuenciación del exoma sea superior al análisis de un solo gen, incluida la capacidad de identificar mutaciones en genes que no se analizaron debido a una presentación clínica atípica [25] o la capacidad de identificar casos clínicos en los que las mutaciones de diferentes genes contribuyen a los diferentes fenotipos en el mismo paciente. [3]
Una vez diagnosticada la causa genética de una enfermedad, esta información puede orientar la selección del tratamiento adecuado. La primera vez que se aplicó esta estrategia con éxito en la clínica fue en el tratamiento de un lactante con enfermedad inflamatoria intestinal. [24] [26] Se habían utilizado anteriormente varios diagnósticos convencionales, pero los resultados no pudieron explicar los síntomas del lactante. El análisis de los datos de secuenciación del exoma identificó una mutación en el gen XIAP . El conocimiento de la función de este gen orientó el tratamiento del lactante, lo que condujo a un trasplante de médula ósea que curó al niño de la enfermedad. [24]
Los investigadores han utilizado la secuenciación del exoma para identificar la mutación subyacente en un paciente con síndrome de Bartter y diarrea congénita por cloruro. [12] El grupo de Bilgular también utilizó la secuenciación del exoma e identificó la mutación subyacente en un paciente con malformaciones cerebrales graves, y afirmó que "[Estos hallazgos] resaltan el uso de la secuenciación completa del exoma para identificar los loci de la enfermedad en entornos en los que los métodos tradicionales han demostrado ser un desafío... Nuestros resultados demuestran que esta tecnología será particularmente valiosa para el descubrimiento de genes en aquellas condiciones en las que el mapeo se ha visto confundido por la heterogeneidad de los loci y la incertidumbre sobre los límites de la clasificación diagnóstica, lo que apunta a un futuro brillante para su amplia aplicación en la medicina". [23]
Investigadores de la Universidad de Ciudad del Cabo, Sudáfrica, utilizaron la secuenciación del exoma para descubrir la mutación genética de CDH2 como la causa subyacente de un trastorno genético conocido como miocardiopatía arritmogénica del ventrículo derecho (ARVC), que aumenta el riesgo de enfermedad cardíaca y paro cardíaco. [1]
Varias empresas han ofrecido la secuenciación del exoma a los consumidores. Knome fue la primera empresa en ofrecer servicios de secuenciación del exoma a los consumidores [ ¿cuándo? ] , a un coste de varios miles de dólares. [27] Más tarde, 23andMe puso en marcha un programa piloto de secuenciación del exoma que se anunció en septiembre de 2011 y se interrumpió en 2012. Los consumidores podían obtener datos del exoma a un coste de 999 dólares. La empresa proporcionaba datos sin procesar y no ofrecía análisis. [27] [28] [29]
En noviembre de 2012, DNADTC, una división de Gene by Gene, comenzó a ofrecer exomas con una cobertura de 80X y un precio de lanzamiento de $695. [30] Este precio por sitio web de DNADTC es actualmente de $895. En octubre de 2013, BGI anunció una promoción para la secuenciación personal de exomas completos con una cobertura de 50X por $499. [31] En junio de 2016, Genos pudo lograr un precio aún más bajo de $399 con un exoma de consumidor con certificación CLIA de 75X secuenciado a partir de saliva. [32] [33] [34]
Una revisión de 36 estudios realizada en 2018 determinó que el costo de la secuenciación del exoma oscilaba entre 555 USD y 5169 USD, con un rendimiento diagnóstico que oscilaba entre el 3 % y el 79 % según los grupos de pacientes. [16]