stringtranslate.com

Análisis de rasgos complejos a nivel de todo el genoma

Análisis de rasgos complejos de todo el genoma ( GCTA ) La máxima verosimilitud restringida basada en el genoma ( GREML ) es un método estadístico para la estimación de la heredabilidad en genética, que cuantifica la contribución aditiva total de un conjunto de variantes genéticas a un rasgo. El GCTA se aplica típicamente a polimorfismos de un solo nucleótido ( SNP ) comunes en una matriz de genotipado (o "chip") y, por lo tanto, se denomina heredabilidad de "chip" o "SNP".

El GCTA opera cuantificando directamente la similitud genética aleatoria de individuos no relacionados y comparándola con su similitud medida en un rasgo; si dos individuos no relacionados son relativamente similares genéticamente y también tienen mediciones de rasgos similares, entonces es probable que la genética medida influya causalmente en ese rasgo, y la correlación puede indicar hasta cierto punto en qué medida. Esto se puede ilustrar trazando el cuadrado de las diferencias de rasgos por pares entre individuos contra su grado estimado de parentesco. [1] El GCTA hace una serie de suposiciones de modelado y sigue debatiéndose si se cumplen estas suposiciones y cuándo.

El marco GCTA también se ha ampliado de varias maneras: cuantificando la contribución de múltiples categorías de SNP (es decir, partición funcional); cuantificando la contribución de las interacciones gen-ambiente; cuantificando la contribución de los efectos no aditivos/no lineales de los SNP; y análisis bivariados de múltiples fenotipos para cuantificar su covarianza genética (coherencia o correlación genética ).

Las estimaciones de GCTA tienen implicaciones para el potencial de descubrimiento de los estudios de asociación del genoma completo (GWAS), así como para el diseño y la precisión de las puntuaciones poligénicas . Las estimaciones de GCTA a partir de variantes comunes suelen ser sustancialmente inferiores a otras estimaciones de heredabilidad total o de sentido estricto (como las de estudios de gemelos o de parentesco), lo que ha contribuido al debate sobre el problema de la heredabilidad faltante .

Historia

La estimación en biología/mejora animal utilizando métodos estándar ANOVA / REML de componentes de varianza como heredabilidad, ambiente compartido, efectos maternos, etc. requiere típicamente individuos de parentesco conocido como padre/hijo; esto a menudo no está disponible o los datos del pedigrí no son confiables, lo que lleva a la incapacidad de aplicar los métodos o requiere un estricto control de laboratorio de toda la cría (lo que amenaza la validez externa de todas las estimaciones), y varios autores han notado que el parentesco podría medirse directamente a partir de marcadores genéticos (y si los individuos estuvieran razonablemente relacionados, económicamente se tendrían que obtener pocos marcadores para el poder estadístico), lo que llevó a Kermit Ritland a proponer en 1996 que el parentesco por pares medido directamente podría compararse con las mediciones de fenotipo por pares (Ritland 1996, "Un método basado en marcadores para inferencias sobre herencia cuantitativa en poblaciones naturales" Archivado el 11 de junio de 2009 en Wayback Machine [2] ).

A medida que los costos de secuenciación del genoma cayeron abruptamente durante la década de 2000, se hizo posible adquirir suficientes marcadores en suficientes sujetos para realizar estimaciones confiables utilizando individuos muy distantemente relacionados. Una aplicación temprana del método a los humanos llegó con Visscher et al. 2006 [3] /2007, [4] que utilizó marcadores SNP para estimar el parentesco real de los hermanos y estimar la heredabilidad a partir de la genética directa. En los humanos, a diferencia de las aplicaciones originales de animales/plantas, el parentesco generalmente se conoce con alta confianza en la "población salvaje", y el beneficio de GCTA está más conectado con evitar suposiciones de diseños clásicos de genética conductual y verificar sus resultados, y dividir la heredabilidad por clase de SNP y cromosomas. El primer uso de GCTA propiamente dicho en humanos se publicó en 2010, encontrando que el 45% de la varianza en la altura humana puede explicarse por los SNP incluidos. [5] [6] (Desde entonces, grandes GWAS sobre la altura han confirmado la estimación. [7] ) Luego se describió el algoritmo GCTA y se publicó una implementación de software en 2011. [8] Desde entonces, se ha utilizado para estudiar una amplia variedad de rasgos biológicos, médicos, psiquiátricos y psicológicos en humanos, e inspiró muchos enfoques variantes.

Beneficios

Heredabilidad robusta

Los estudios de gemelos y familias se han utilizado durante mucho tiempo para estimar la varianza explicada por categorías particulares de causas genéticas y ambientales. En una amplia variedad de rasgos humanos estudiados, normalmente hay una influencia mínima del entorno compartido, una influencia considerable del entorno no compartido y un gran componente genético (en su mayoría aditivo), que es en promedio ~50% y, a veces, mucho más alto para algunos rasgos como la altura o la inteligencia. [9] Sin embargo, los estudios de gemelos y familias han sido criticados por su dependencia de una serie de suposiciones que son difíciles o imposibles de verificar, como la suposición de entornos iguales (que los entornos de gemelos monocigóticos y dicigóticos son igualmente similares), que no hay una clasificación errónea de la cigosidad (confundiendo idéntico con fraterno y viceversa), que los gemelos no son representativos de la población general y que no hay apareamiento selectivo . Las violaciones de estas suposiciones pueden resultar en sesgos tanto hacia arriba como hacia abajo de las estimaciones de los parámetros. [10] (Este debate y las críticas se han centrado particularmente en la heredabilidad del CI ).

El uso de SNP o datos del genoma completo de participantes sujetos no relacionados (con participantes demasiado relacionados, típicamente >0,025 o niveles de similitud de primos cuartos, siendo eliminados, y varios componentes principales incluidos en la regresión para evitar y controlar la estratificación de la población ) evita muchas críticas de heredabilidad: los gemelos a menudo no están involucrados en absoluto, no hay cuestiones de trato igualitario, el parentesco se estima con precisión y las muestras se extraen de una amplia variedad de sujetos.

Además de ser más robustos a las violaciones de los supuestos del estudio de gemelos, los datos de SNP pueden ser más fáciles de recolectar ya que no requieren gemelos raros y, por lo tanto, también se puede estimar la heredabilidad de rasgos raros (con la debida corrección del sesgo de verificación ).

Potencia GWAS

Las estimaciones de GCTA se pueden utilizar para resolver el problema de la falta de heredabilidad y diseñar GWAS que produzcan coincidencias estadísticamente significativas en todo el genoma. Esto se hace comparando la estimación de GCTA con los resultados de GWAS más pequeños. Si un GWAS de n = 10k que utiliza datos de SNP no logra encontrar coincidencias, pero el GCTA indica una alta heredabilidad explicada por SNP, entonces eso implica que hay una gran cantidad de variantes involucradas ( poligenicidad ) y, por lo tanto, se requerirán GWAS mucho más grandes para estimar con precisión el efecto de cada SNP y explicar directamente una fracción de la heredabilidad de GCTA.

Desventajas

  1. Inferencia limitada: las estimaciones de GCTA son inherentemente limitadas, ya que no pueden estimar la heredabilidad en sentido amplio como los estudios de gemelos/familias, ya que solo estiman la heredabilidad debido a los SNP. Por lo tanto, si bien sirven como un control crítico de la imparcialidad de los estudios de gemelos/familias, las GCTA no pueden reemplazarlos para estimar las contribuciones genéticas totales a un rasgo.
  2. Requisitos de datos sustanciales: el número de SNP genotipados por persona debe ser de miles e idealmente de cientos de miles para estimaciones razonables de similitud genética (aunque esto ya no es un problema para los chips comerciales actuales que por defecto tienen cientos de miles o millones de marcadores); y el número de personas, para estimaciones algo estables de heredabilidad plausible de SNP, debe ser al menos n >1000 e idealmente n >10000. [11] Por el contrario, los estudios con gemelos pueden ofrecer estimaciones precisas con una fracción del tamaño de la muestra.
  3. Ineficiencia computacional: La implementación original de GCTA escala de manera deficiente con el aumento del tamaño de los datos ( ), por lo que incluso si hay suficientes datos disponibles para estimaciones precisas de GCTA, la carga computacional puede ser inviable. GCTA se puede metaanalizar como un metaanálisis de efectos fijos ponderado por precisión estándar, [12] por lo que los grupos de investigación a veces estiman cohortes o subconjuntos y luego los agrupan metaanalíticamente (a costa de una complejidad adicional y cierta pérdida de precisión). Esto ha motivado la creación de implementaciones más rápidas y algoritmos variantes que hacen suposiciones diferentes, como el uso de coincidencia de momentos . [13]
  4. Necesidad de datos brutos: GCTA requiere similitud genética de todos los sujetos y, por lo tanto, su información genética bruta; debido a preocupaciones de privacidad, los datos de pacientes individuales rara vez se comparten. GCTA no se puede ejecutar en las estadísticas de resumen informadas públicamente por muchos proyectos GWAS, y si se agrupan múltiples estimaciones de GCTA, se debe realizar un metanálisis
    . Por el contrario, existen técnicas alternativas que operan en resúmenes informados por GWASes sin requerir los datos brutos [14] por ejemplo, " regresión de puntuación LD " [15] contrasta las estadísticas de desequilibrio de ligamiento (disponibles en conjuntos de datos públicos como 1000 Genomes ) con los tamaños de efecto de resumen públicos para inferir la heredabilidad y estimar correlaciones genéticas/superposiciones de múltiples rasgos. El Broad Institute ejecuta LD Hub Archivado el 11 de mayo de 2016 en Wayback Machine que proporciona una interfaz web pública para >=177 rasgos con regresión de puntuación LD. [16] Otro método que utiliza datos de resumen es HESS. [17]
  5. Los intervalos de confianza pueden ser incorrectos o estar fuera del rango de heredabilidad 0-1 y ser altamente imprecisos debido a la asintótica. [18]
  6. Subestimación de la heredabilidad de los SNP: el GCTA asume implícitamente que todas las clases de SNP, más raras o más comunes, más nuevas o más antiguas, más o menos en desequilibrio de ligamiento, tienen los mismos efectos en promedio; en los humanos, las variantes más raras y más nuevas tienden a tener efectos mayores y más negativos [19] ya que representan la carga de mutación que se purga mediante la selección negativa . Al igual que con el error de medición, esto sesgará las estimaciones del GCTA hacia la subestimación de la heredabilidad.

Interpretación

El GCTA proporciona una estimación imparcial de la varianza total en el fenotipo explicada por todas las variantes incluidas en la matriz de parentesco (y cualquier variación correlacionada con esos SNP). Esta estimación también se puede interpretar como la precisión de predicción máxima (R^2) que se podría lograr a partir de un predictor lineal utilizando todos los SNP en la matriz de parentesco. La última interpretación es particularmente relevante para el desarrollo de puntajes de riesgo poligénico, ya que define su precisión máxima. Las estimaciones del GCTA a veces se malinterpretan como estimaciones de heredabilidad total (o en sentido estricto, es decir, aditiva), pero esto no es una garantía del método. Las estimaciones GCTA también se malinterpretan a veces como "límites inferiores" de la heredabilidad en sentido estricto, pero esto también es incorrecto: primero porque las estimaciones GCTA pueden estar sesgadas (incluso hacia arriba) si se violan los supuestos del modelo, y segundo porque, por definición (y cuando se cumplen los supuestos del modelo), GCTA puede proporcionar una estimación no sesgada de la heredabilidad en sentido estricto si se incluyen todas las variantes causales en la matriz de parentesco. La interpretación de la estimación GCTA en relación con la heredabilidad en sentido estricto depende, por lo tanto, de las variantes utilizadas para construir la matriz de parentesco.

Con mayor frecuencia, GCTA se ejecuta con una única matriz de parentesco construida a partir de SNP comunes y no capturará (o no capturará completamente) la contribución de los siguientes factores:

  1. Cualquier variante rara o de baja frecuencia que no esté genotipada/imputada directamente.
  2. Cualquier efecto genético no lineal, dominante o epistático. Nótese que el GCTA se puede ampliar para estimar la contribución de estos efectos a través de matrices de parentesco más complejas.
  3. Los efectos de las interacciones entre genes y ambiente. Nótese que el GCTA se puede ampliar para estimar la contribución de las interacciones GxE cuando se conoce la E, incluyendo componentes de varianza adicionales.
  4. Variantes estructurales, que normalmente no están genotipadas ni imputadas.
  5. Error de medición: GCTA no modela ninguna incertidumbre o error en el rasgo medido.

GCTA realiza varias suposiciones sobre el modelo y puede producir estimaciones sesgadas en las siguientes condiciones:

  1. La distribución de las variantes causales es sistemáticamente diferente de la distribución de las variantes incluidas en la matriz de parentesco (incluso si todas las variantes causales están incluidas en la matriz de parentesco). Por ejemplo, si las variantes causales se encuentran sistemáticamente en una frecuencia mayor/menor o en una correlación mayor/menor que todas las variantes genotipificadas, esto puede producir un sesgo hacia arriba o hacia abajo dependiendo de la relación entre las variantes causales y las variantes utilizadas. Se han propuesto varias extensiones de GCTA (por ejemplo, GREML-LDMS) para dar cuenta de estos cambios distributivos.
  2. La estratificación de la población no se explica completamente mediante covariables. El GCTA (específicamente GREML) tiene en cuenta la estratificación mediante la inclusión de covariables de efectos fijos, generalmente componentes principales. Si estas covariables no capturan completamente la estratificación, la estimación del GCTA estará sesgada, generalmente hacia arriba. Tener en cuenta la estructura poblacional reciente es particularmente difícil para los estudios de variantes raras.
  3. Relación genética o ambiental residual presente en los datos. El GCTA supone una población homogénea con un término ambiental independiente e idénticamente distribuido. Esta suposición se viola si se incluyen en los datos individuos relacionados y/o individuos con entornos sustancialmente compartidos. En este caso, la estimación del GCTA capturará además la contribución de cualquier variación genética correlacionada con la relación genética: ya sean efectos genéticos directos o ambiente correlacionado.
  4. La presencia de efectos genéticos "indirectos". Cuando las variantes genéticas presentes en la matriz de parentesco se correlacionan con variantes presentes en otros individuos que influyen en el entorno del participante, esos efectos también se capturarán en la estimación del GCTA. Por ejemplo, si las variantes heredadas por un participante de su madre influyeron en su fenotipo a través de su entorno materno, entonces el efecto de esas variantes se incluirá en la estimación del GCTA aunque sea "indirecto" (es decir, mediado por la genética parental). Esto puede interpretarse como un sesgo al alza, ya que esos efectos "indirectos" no son estrictamente causales (alterarlos en el participante no conduciría a un cambio en el fenotipo en la expectativa).

Implementaciones

El paquete de software original "GCTA" es el más utilizado; su funcionalidad principal cubre la estimación GREML de la heredabilidad de SNP, pero incluye otras funcionalidades:

Otras implementaciones y algoritmos variantes incluyen:

Véase también

Referencias

  1. ^ Figura 3 de Yang et al 2010, o Figura 3 de Ritland & Ritland 1996
  2. ^ Véase también Ritland 1996b, "Estimadores de parentesco por pares y coeficientes de endogamia individuales" Archivado el 16 de enero de 2017 en Wayback Machine ; Ritland y Ritland 1996, "Inferencias sobre herencia cuantitativa basadas en la estructura poblacional natural en la flor de mono amarilla, Mimulus guttatus" Archivado el 24 de septiembre de 2016 en Wayback Machine ; Lynch y Ritland 1999, "Estimación de parentesco por pares con marcadores moleculares"; Ritland 2000, "Parentalidad inferida por marcadores como herramienta para detectar heredabilidad en la naturaleza" Archivado el 25 de septiembre de 2016 en Wayback Machine ; Thomas 2005, "La estimación de relaciones genéticas utilizando marcadores moleculares y su eficiencia en la estimación de heredabilidad en poblaciones naturales"
  3. ^ Visscher et al 2006, "Estimación sin suposiciones de la heredabilidad a partir de la identidad compartida por descendencia en todo el genoma entre hermanos completos"
  4. ^ Visscher et al 2007, "Partición genómica de la variación genética para la altura de 11.214 pares de hermanos"
  5. ^ "Los SNP comunes explican una gran proporción de la heredabilidad de la altura humana", Yang et al 2010
  6. ^ "Un comentario sobre 'Los SNP comunes explican una gran proporción de la heredabilidad de la altura humana' de Yang et al. (2010)", Visscher et al 2010
  7. ^ "Definición del papel de la variación común en la arquitectura genómica y biológica de la altura humana adulta", Wood et al 2014
  8. ^ "GCTA: una herramienta para el análisis de rasgos complejos en todo el genoma", Yang et al 2011
  9. ^ "Metaanálisis de la heredabilidad de los rasgos humanos basado en cincuenta años de estudios con gemelos", Polderman et al 2015
  10. ^ Barnes, JC; Wright, John Paul; Boutwell, Brian B.; Schwartz, Joseph A.; Connolly, Eric J.; Nedelec, Joseph L.; Beaver, Kevin M. (1 de noviembre de 2014). "Demostración de la validez de la investigación sobre gemelos en criminología". Criminología . 52 (4): 588–626. doi :10.1111/1745-9125.12049. ISSN  1745-9125.
  11. ^ "El GCTA proporcionará eventualmente pruebas de ADN directas de resultados genéticos cuantitativos basados ​​en estudios de gemelos y adopción. Un problema es que se requieren muchos miles de individuos para proporcionar estimaciones confiables. Otro problema es que se necesitan más SNP que incluso el millón de SNP genotipados en microarreglos de SNP actuales porque hay mucha variación de ADN que no es capturada por estos SNP. Como resultado, el GCTA no puede estimar toda la heredabilidad, tal vez solo alrededor de la mitad de la heredabilidad. Los primeros informes de análisis del GCTA estiman que la heredabilidad es aproximadamente la mitad de las estimaciones de heredabilidad de los estudios de gemelos y adopción para la altura (Lee, Wray, Goddard y Visscher, 2011; Yang et al., 2010; Yang, Manolio, et al" 2011) y la inteligencia (Davies et al., 2011)." pg110, Behavioral Genetics, Plomin et al 2012
  12. ^ "Metaanálisis de los resultados de GREML de múltiples cohortes", Yang 2015
  13. ^ Ge, Tian; Chen, Chia-Yen; Neale, Benjamin M.; Sabuncu, Mert R.; Smoller, Jordan W. (2016). "Análisis de heredabilidad de todo el fenoma del Biobanco del Reino Unido". bioRxiv 10.1101/070177 . 
  14. ^ Pasaniuc & Price 2016, "Disección de la genética de rasgos complejos utilizando estadísticas de asociación resumidas"
  15. ^ Bulik-Sullivan, BK; Loh, PR; Finucane, H.; Ripke, S.; Yang, J.; Grupo de trabajo sobre esquizofrenia del Consorcio de Genómica Psiquiátrica; Patterson, N.; Daly, MJ; Price, AL; Neale, BM (2015). "La regresión de la puntuación LD distingue los factores de confusión de la poligenicidad en los estudios de asociación de todo el genoma". Nature Genetics . 47 (3): 291–295. doi :10.1038/ng.3211. PMC 4495769 . PMID  25642630. 
  16. ^ "LD Hub: una base de datos centralizada y una interfaz web para la regresión de la puntuación LD que maximiza el potencial de los datos GWAS de nivel de resumen para el análisis de la correlación genética y la heredabilidad de SNP", Zheng et al 2016
  17. ^ "Contraste de la arquitectura genética de 30 rasgos complejos a partir de datos de asociación resumidos", Shi et al 2016
  18. ^ Schweiger, Regev; Kaufman, Shachar; Laaksonen, Reijo; Kleber, Marcus E.; März, Winfried; Eskin, Eleazar; Rosset, Saharon; Halperin, Eran (2 de junio de 2016). "Construcción rápida y precisa de intervalos de confianza para la heredabilidad". La Revista Estadounidense de Genética Humana . 98 (6): 1181-1192. doi :10.1016/j.ajhg.2016.04.016. PMC 4908190 . PMID  27259052. 
  19. ^ "La arquitectura dependiente del desequilibrio de ligamiento de los rasgos complejos humanos muestra la acción de la selección negativa", Gazal et al 2017
  20. ^ abcde "Documento GCTA". cnsgenomics.com . Consultado el 8 de abril de 2021 .
  21. ^ "Modelos lineales mixtos rápidos para estudios de asociación de todo el genoma", Lippert 2011
  22. ^ "Modelos lineales mixtos mejorados para estudios de asociación de todo el genoma", Listgarten et al 2012
  23. ^ "Ventajas y desventajas en la aplicación de métodos de asociación de modelos mixtos", Yang et al 2014
  24. ^ "Un modelo mixto de múltiples marcadores Lasso para el mapeo de asociaciones con corrección de la estructura de la población", Rakitsch et al 2012
  25. ^ "Análisis de modelos mixtos eficientes de todo el genoma para estudios de asociación", Zhou & Stephens 2012
  26. ^ "Modelo de componentes de varianza para tener en cuenta la estructura de la muestra en estudios de asociación de todo el genoma", Kang et al 2012
  27. ^ "Análisis avanzado de rasgos complejos", Gray et al. 2012
  28. ^ "Análisis avanzado de rasgos complejos de heredabilidad regional para GPU y arquitectura paralela tradicional", Cebamanos et al 2012
  29. ^ "El análisis eficiente del modelo mixto bayesiano aumenta el poder de asociación en grandes cohortes", Loh et al 2012
  30. ^ "Contraste de arquitecturas genéticas de esquizofrenia y otras enfermedades complejas mediante análisis rápido de componentes de varianza", Loh et al 2015; véase también "Contraste de arquitecturas regionales de esquizofrenia y otras enfermedades complejas mediante análisis rápido de componentes de varianza", Loh et al 2015
  31. ^ "Modelos mixtos para metaanálisis y secuenciación", Bulik-Sullivan 2015
  32. ^ "Análisis de heredabilidad del genoma acelerado de forma masiva (MEGHA)", Ge et al 2015
  33. ^ Speed ​​et al 2016, "Reevaluación de la heredabilidad de SNP en rasgos humanos complejos"
  34. ^ Evans et al 2017, "Estimación de heredabilidad en sentido estricto de rasgos complejos utilizando información de identidad por descendencia".

Lectura adicional

Enlaces externos