Estructura de la población (genética)

La estructura de una población (también llamada estructura genética y estratificación de la población ) es la presencia de una diferencia sistemática en las frecuencias de alelos entre subpoblaciones . En una población con apareamiento aleatorio (o panmíctico ), se espera que las frecuencias de alelos sean aproximadamente similares entre los grupos. Sin embargo, el apareamiento tiende a no ser aleatorio hasta cierto punto, lo que hace que surja la estructura. Por ejemplo, una barrera como un río puede separar dos grupos de la misma especie y dificultar que las parejas potenciales se crucen; si ocurre una mutación , a lo largo de muchas generaciones puede propagarse y volverse común en una subpoblación mientras que está completamente ausente en la otra.

Las variantes genéticas no necesariamente causan cambios observables en los organismos, pero pueden correlacionarse por coincidencia debido a la estructura de la población: una variante que es común en una población con una alta tasa de enfermedad puede pensarse erróneamente que causa la enfermedad. Por esta razón, la estructura de la población es una variable de confusión común en los estudios de genética médica , y tener en cuenta y controlar su efecto es importante en los estudios de asociación del genoma completo (GWAS). Al rastrear los orígenes de la estructura, también es posible estudiar la ascendencia genética de grupos e individuos.

Descripción

La causa básica de la estructura de la población en las especies que se reproducen sexualmente es el apareamiento no aleatorio entre grupos: si todos los individuos dentro de una población se aparean aleatoriamente, entonces las frecuencias de alelos deberían ser similares entre los grupos. La estructura de la población surge comúnmente de la separación física por distancia o barreras, como montañas y ríos, seguida de la deriva genética . Otras causas incluyen el flujo genético de las migraciones, los cuellos de botella y expansiones poblacionales , los efectos fundadores , la presión evolutiva , el azar y (en los humanos) los factores culturales. Incluso en ausencia de estos factores, los individuos tienden a permanecer cerca de donde nacieron, lo que significa que los alelos no se distribuirán al azar con respecto a todo el rango de la especie. ^[1]^[2]

Medidas

La estructura de una población es un fenómeno complejo y ninguna medida única la captura por completo. Comprender la estructura de una población requiere una combinación de métodos y medidas. ^[3]^[4] Muchos métodos estadísticos se basan en modelos poblacionales simples para inferir cambios demográficos históricos, como la presencia de cuellos de botella poblacionales, eventos de mezcla o tiempos de divergencia poblacional. A menudo, estos métodos se basan en el supuesto de panmictia u homogeneidad en una población ancestral. La especificación incorrecta de dichos modelos, por ejemplo al no tener en cuenta la existencia de estructura en una población ancestral, puede dar lugar a estimaciones de parámetros muy sesgadas. ^[5] Los estudios de simulación muestran que la estructura poblacional histórica puede incluso tener efectos genéticos que pueden malinterpretarse fácilmente como cambios históricos en el tamaño de la población o la existencia de eventos de mezcla, incluso cuando tales eventos no ocurrieron. ^[6]

Heterocigosidad

Uno de los resultados de la estructura de la población es una reducción en la heterocigosidad . Cuando las poblaciones se dividen, los alelos tienen una mayor probabilidad de alcanzar la fijación dentro de las subpoblaciones, especialmente si las subpoblaciones son pequeñas o han estado aisladas durante largos períodos. Esta reducción en la heterocigosidad puede considerarse como una extensión de la endogamia , ya que los individuos en las subpoblaciones tienen más probabilidades de compartir un ancestro común reciente . ^[7] La escala es importante: un individuo con ambos padres nacidos en el Reino Unido no es endogámico en relación con la población de ese país, pero es más endogámico que dos humanos seleccionados de todo el mundo. Esto motiva la derivación de las estadísticas F de Wright (también llamadas "índices de fijación"), que miden la endogamia a través de la heterocigosidad observada versus esperada. ^[8] Por ejemplo, mide el coeficiente de endogamia en un solo locus para un individuo en relación con alguna subpoblación : ^[9] $F_{IS}$ $I$ ${\estilo de visualización S}$

F_{IS}=1-{\frac {H_{I}}{H_{S}}}

Aquí, se muestra la fracción de individuos en la subpoblación que son heterocigotos. Suponiendo que hay dos alelos, que se presentan en frecuencias respectivas , se espera que, en caso de apareamiento aleatorio, la subpoblación tenga una tasa de heterocigosidad de . Entonces: $Estilo de visualización: H_{I}$ ${\estilo de visualización S}$ $Estilo de visualización A_{1},A_{2}}$ $estilo de visualización p_{S},q_{S}}$ ${\estilo de visualización S}$ $H_{S}=2p_{S}(1-p_{S})=2p_{S}q_{S}$

F_{IS}=1-{\frac {H_{I}}{2p_{S}q_{S}}}

De manera similar, para la población total , podemos definir lo que nos permite calcular la heterocigosidad esperada de la subpoblación y el valor como: ^[9] ${\estilo de visualización T}$ $H_{T}=2p_{T}q_{T}$ ${\estilo de visualización S}$ $Estilo de visualización F_ {ST}}$

F_{ST}=1-{\frac {H_{S}}{H_{T}}}=1-{\frac {2p_{S}q_{S}}{2p_{T}q_{T}}}

Si F es 0, entonces las frecuencias alélicas entre poblaciones son idénticas, lo que sugiere que no hay estructura. El valor máximo teórico de 1 se alcanza cuando un alelo alcanza la fijación total, pero la mayoría de los valores máximos observados son mucho más bajos. ^[7] F _ST es una de las medidas más comunes de la estructura de la población y existen varias formulaciones diferentes según el número de poblaciones y los alelos de interés. Aunque a veces se utiliza como una distancia genética entre poblaciones, no siempre satisface la desigualdad triangular y, por lo tanto, no es una métrica . ^[10] También depende de la diversidad dentro de la población, lo que dificulta la interpretación y la comparación. ^[4]

Inferencia de mezcla

El genotipo de un individuo puede ser modelado como una mezcla entre K grupos discretos de poblaciones. ^[9] Cada grupo se define por las frecuencias de sus genotipos, y la contribución de un grupo a los genotipos de un individuo se mide a través de un estimador . En 2000, Jonathan K. Pritchard introdujo el algoritmo STRUCTURE para estimar estas proporciones a través de la cadena de Markov Monte Carlo , modelando las frecuencias de los alelos en cada locus con una distribución de Dirichlet . ^[11] Desde entonces, se han desarrollado algoritmos (como ADMIXTURE) utilizando otras técnicas de estimación. ^[12]^[13] Las proporciones estimadas pueden visualizarse utilizando gráficos de barras: cada barra representa un individuo y se subdivide para representar la proporción de la ascendencia genética de un individuo de una de las K poblaciones. ^[9]

La variación de K puede ilustrar diferentes escalas de estructura de la población; el uso de una K pequeña para toda la población humana subdividirá a las personas aproximadamente por continente, mientras que el uso de una K grande dividirá las poblaciones en subgrupos más finos. ^[9] Aunque los métodos de agrupamiento son populares, están abiertos a malas interpretaciones: para datos no simulados, nunca hay un valor "verdadero" de K , sino más bien una aproximación considerada útil para una pregunta dada. ^[3] Son sensibles a las estrategias de muestreo, el tamaño de la muestra y los parientes cercanos en los conjuntos de datos; puede que no haya poblaciones discretas en absoluto; y puede haber una estructura jerárquica donde las subpoblaciones están anidadas. ^[3] Los clústeres pueden estar mezclados en sí mismos, ^[9] y pueden no tener una interpretación útil como poblaciones de origen. ^[14]

Estudio de la estructura poblacional de los humanos en el norte de África y poblaciones vecinas modeladas utilizando ADMIXTURE y asumiendo poblaciones K=2,4,6,8 (Figura B, de arriba a abajo). Variar K cambia la escala de agrupamiento. En K = 2, el 80% de la ascendencia inferida para la mayoría de los norteafricanos se asigna al grupo que es común a los individuos vascos, toscanos y árabes qataríes (en violeta). En K = 4, aparecen clines de ascendencia norteafricana (en azul claro). En K = 6, aparecen clines opuestos de ascendencia del Cercano Oriente (qatarí) (en verde). En K = 8, los bereberes tunecinos aparecen como un grupo (en azul oscuro). ^[15]

Reducción de dimensionalidad

Los datos genéticos son de alta dimensión y las técnicas de reducción de dimensionalidad pueden capturar la estructura de la población. El análisis de componentes principales (PCA) se aplicó por primera vez en genética de poblaciones en 1978 por Cavalli-Sforza y colegas y resurgió con la secuenciación de alto rendimiento . ^[9]^[17] Inicialmente, el PCA se utilizó en frecuencias alélicas en marcadores genéticos conocidos para poblaciones, aunque más tarde se descubrió que al codificar SNP como números enteros (por ejemplo, como el número de alelos no de referencia ) y normalizar los valores, el PCA podría aplicarse a nivel de individuos. ^[13]^[18] Una formulación considera individuos y SNP bialélicos. Para cada individuo , el valor en el locus es es el número de alelos no de referencia (uno de ). Si la frecuencia alélica en es , entonces la matriz resultante de genotipos normalizados tiene entradas: ^[9] ${\estilo de visualización N}$ ${\estilo de visualización S}$ ${\estilo de visualización i}$ ${\estilo de visualización l}$ $estilo de visualización g_{i,l}}$ ${\estilo de visualización 0,1,2}$ ${\estilo de visualización l}$ $estilo de visualización p_{l}}$ $N\times S$

{\frac {g_{i,l}-2p_{l}}{\sqrt {2p_{l}(1-p_{l})}}}

El PCA transforma los datos para maximizar la varianza; si se tienen suficientes datos, cuando cada individuo se visualiza como un punto en un gráfico, se pueden formar grupos discretos. ^[13] Los individuos con ascendencia mixta tenderán a caer entre los grupos, y cuando hay un aislamiento homogéneo por distancia en los datos, los vectores de PC superiores reflejarán la variación geográfica. ^[19]^[13] Los vectores propios generados por el PCA se pueden escribir explícitamente en términos de los tiempos de coalescencia medios para pares de individuos, lo que hace que el PCA sea útil para la inferencia sobre las historias poblacionales de los grupos en una muestra dada. Sin embargo, el PCA no puede distinguir entre diferentes procesos que conducen a los mismos tiempos de coalescencia medios. ^[20]

El escalamiento multidimensional y el análisis discriminante se han utilizado para estudiar la diferenciación, la asignación de poblaciones y para analizar las distancias genéticas. ^{[21] Los enfoques de} gráficos de vecindad como la incrustación estocástica de vecinos con distribución t (t-SNE) y la aproximación y proyección de variedad uniforme (UMAP) pueden visualizar la estructura continental y subcontinental en datos humanos. ^[22]^[23] Con conjuntos de datos más grandes, UMAP captura mejor múltiples escalas de estructura de la población; los patrones de escala fina se pueden ocultar o dividir con otros métodos, y estos son de interés cuando el rango de poblaciones es diverso, cuando hay poblaciones mezcladas o cuando se examinan relaciones entre genotipos, fenotipos y/o geografía. ^[23]^[24] Los autocodificadores variacionales pueden generar genotipos artificiales con una estructura representativa de los datos de entrada, aunque no recrean patrones de desequilibrio de ligamiento. ^[25]

Inferencia demográfica

La estructura de la población es un aspecto importante de la genética evolutiva y de poblaciones . Eventos como las migraciones y las interacciones entre grupos dejan una huella genética en las poblaciones. Las poblaciones mezcladas tendrán fragmentos de haplotipos de sus grupos ancestrales, que gradualmente se reducen con el tiempo debido a la recombinación . Al explotar este hecho y hacer coincidir fragmentos de haplotipos compartidos de individuos dentro de un conjunto de datos genéticos, los investigadores pueden rastrear y fechar los orígenes de la mezcla de poblaciones y reconstruir eventos históricos como el ascenso y la caída de los imperios, el tráfico de esclavos, el colonialismo y las expansiones de población. ^[26]

Papel en la epidemiología genética

La estructura de la población puede ser un problema para los estudios de asociación , como los estudios de casos y controles , donde la asociación entre el rasgo de interés y el locus podría ser incorrecta. Por ejemplo, en una población de estudio de europeos y asiáticos orientales, un estudio de asociación del uso de palillos chinos puede "descubrir" un gen en los individuos asiáticos que conduce al uso de palillos chinos. Sin embargo, esta es una relación espuria ya que la variante genética es simplemente más común en asiáticos que en europeos. ^[27] Además, los hallazgos genéticos reales pueden pasarse por alto si el locus es menos frecuente en la población donde se eligen los sujetos de caso. Por esta razón, era común en la década de 1990 utilizar datos basados en la familia donde el efecto de la estructura de la población puede controlarse fácilmente mediante el uso de métodos como la prueba de desequilibrio de transmisión (TDT). ^[28]

Los fenotipos (rasgos mensurables), como la altura o el riesgo de enfermedad cardíaca, son el producto de alguna combinación de genes y ambiente . Estos rasgos se pueden predecir utilizando puntajes poligénicos , que buscan aislar y estimar la contribución de la genética a un rasgo sumando los efectos de muchas variantes genéticas individuales. Para construir un puntaje, los investigadores primero inscriben a los participantes en un estudio de asociación para estimar la contribución de cada variante genética. Luego, pueden usar las contribuciones estimadas de cada variante genética para calcular un puntaje para el rasgo para un individuo que no estaba en el estudio de asociación original. Si la estructura en la población del estudio está correlacionada con la variación ambiental, entonces el puntaje poligénico ya no mide el componente genético solo. ^[29]

Varios métodos pueden controlar al menos parcialmente este efecto de confusión. El método de control genómico se introdujo en 1999 y es un método relativamente no paramétrico para controlar la inflación de las estadísticas de prueba . ^[30] También es posible utilizar marcadores genéticos no vinculados para estimar las proporciones de ascendencia de cada individuo a partir de algunas subpoblaciones K , que se supone que no están estructuradas. ^[31] Los enfoques más recientes utilizan el análisis de componentes principales (PCA), como lo demostraron Alkes Price y colegas, ^[32] o derivando una matriz de relación genética (también llamada matriz de parentesco) e incluyéndola en un modelo lineal mixto (LMM). ^[33]^[34]

Los PCA y los LMM se han convertido en los métodos más comunes para controlar los factores de confusión derivados de la estructura de la población. Aunque probablemente sean suficientes para evitar los falsos positivos en los estudios de asociación, siguen siendo vulnerables a la sobreestimación de los tamaños del efecto de las variantes marginalmente asociadas y pueden sesgar sustancialmente las estimaciones de las puntuaciones poligénicas y la heredabilidad de los rasgos . ^[35]^[36] Si los efectos ambientales están relacionados con una variante que existe solo en una región específica (por ejemplo, un contaminante se encuentra en una sola ciudad), puede que no sea posible corregir este efecto de la estructura de la población en absoluto. ^[29] Para muchos rasgos, el papel de la estructura es complejo y no se comprende por completo, e incorporarlo a los estudios genéticos sigue siendo un desafío y es un área activa de investigación. ^[37]

Referencias

^ Cardon LR, Palmer LJ (febrero de 2003). "Estratificación de la población y asociación alélica espuria". Lancet . 361 (9357): 598–604. doi :10.1016/S0140-6736(03)12520-2. PMID 12598158. S2CID 14255234.
^ McVean G (2001). «Estructura de la población» (PDF) . Archivado desde el original (PDF) el 23 de noviembre de 2018. Consultado el 14 de noviembre de 2020 .
^ abc Lawson DJ, van Dorp L, Falush D (2018). "Un tutorial sobre cómo no sobreinterpretar los gráficos de barras de ESTRUCTURA y MEZCLA". Nature Communications . 9 (1): 3258. Bibcode :2018NatCo...9.3258L. doi :10.1038/s41467-018-05257-7. ISSN 2041-1723. PMC 6092366 . PMID 30108219.
^ ab Meirmans PG, Hedrick PW (2010). "Evaluación de la estructura de la población: FST y medidas relacionadas". Recursos de ecología molecular . 11 (1): 5–18. doi : 10.1111/j.1755-0998.2010.02927.x . ISSN 1755-098X. PMID 21429096. S2CID 24403040.
^ Scerri EM, Thomas MG, Manica A, Gunz P, Stock JT, Stringer C, et al. (agosto de 2018). "¿Nuestras especies evolucionaron en poblaciones subdivididas en África y por qué es importante?". Tendencias en ecología y evolución . 33 (8): 582–594. doi :10.1016/j.tree.2018.05.005. PMC 6092560. PMID 30007846 .
^ Rodríguez W, Mazet O, Grusea S, Arredondo A, Corujo JM, Boitard S, Chikhi L (diciembre de 2018). "El IICR y el coalescente estructurado no estacionario: hacia la inferencia demográfica con cambios arbitrarios en la estructura poblacional". Heredity . 121 (6): 663–678. doi :10.1038/s41437-018-0148-0. PMC 6221895 . PMID 30293985.
^ ab Hartl DL, Clark AG (1997). Principios de genética de poblaciones (3.ª ed.). Sunderland, MA: Sinauer Associates. págs. 111–163. ISBN 0-87893-306-9.OCLC 37481398 .
^ Wright S (1949). "La estructura genética de las poblaciones". Anales de eugenesia . 15 (1): 323–354. doi :10.1111/j.1469-1809.1949.tb02451.x. ISSN 2050-1420. PMID 24540312.
^ abcdefgh Coop G (2019). Genética cuantitativa y de poblaciones . págs. 22–44.
^ Arbisser IM, Rosenberg NA (2020). "FST y la desigualdad triangular para marcadores bialélicos". Biología de poblaciones teórica . 133 : 117–129. doi :10.1016/j.tpb.2019.05.003. ISSN 0040-5809. PMC 8448291. PMID 31132375 .
^ Pritchard JK, Stephens M, Donnelly P (2000). "Inferencia de la estructura de la población utilizando datos de genotipos de múltiples loci". Genética . 155 (2): 945–959. doi : 10.1093/genetics/155.2.945 . ISSN 1943-2631. PMC 1461096 . PMID 10835412.
^ Alexander DH, Novembre J, Lange K (2009). "Estimación rápida basada en modelos de la ascendencia en individuos no relacionados". Genome Research . 19 (9): 1655–1664. doi :10.1101/gr.094052.109. ISSN 1088-9051. PMC 2752134 . PMID 19648217.
^ abcd Novembre J, Ramachandran S (2011). "Perspectivas sobre la estructura de la población humana en la cúspide de la era de la secuenciación". Annu Rev Genomics Hum Genet . 12 (1): 245–74. doi :10.1146/annurev-genom-090810-183123. PMID 21801023.
^ Novembre J (2016). "Pritchard, Stephens y Donnelly sobre la estructura de la población". Genética . 204 (2): 391–393. doi :10.1534/genetics.116.195164. ISSN 1943-2631. PMC 5068833 . PMID 27729489.
^ Henn BM, Botigué LR, Gravel S, Wang W, Brisbin A, Byrnes JK, Fadhlaoui-Zid K, Zalloua PA, Moreno-Estrada A, Bertranpetit J, Bustamante CD, Comas D (enero de 2012). "La ascendencia genómica de los norteafricanos respalda las migraciones de regreso a África". PLOS Genet . 8 (1): e1002397. doi : 10.1371/journal.pgen.1002397 . PMC 3257290 . PMID 22253600.
^ Wang C, Zöllner S, Rosenberg NA (agosto de 2012). "Una comparación cuantitativa de la similitud entre genes y geografía en poblaciones humanas de todo el mundo". PLOS Genet . 8 (8): e1002886. doi : 10.1371/journal.pgen.1002886 . PMC 3426559 . PMID 22927824.
^ Menozzi P, Piazza A, Cavalli-Sforza L (1978). "Mapas sintéticos de frecuencias genéticas humanas en europeos". Science . 201 (4358): 786–792. Bibcode :1978Sci...201..786M. doi :10.1126/science.356262. ISSN 0036-8075. PMID 356262.
^ Patterson N, Price AL, Reich D (diciembre de 2006). "Estructura de la población y análisis propio". PLOS Genetics . 2 (12): e190. doi : 10.1371/journal.pgen.0020190 . PMC 1713260 . PMID 17194218.
^ Novembre J, Johnson T, Bryc K, Kutalik Z, Boyko AR, Auton A, Indap A, King KS, Bergmann S, Nelson MR, Stephens M, Bustamante CD (2008). "Los genes reflejan la geografía en Europa". Nature . 456 (7218): 98–101. Bibcode :2008Natur.456...98N. doi :10.1038/nature07331. ISSN 0028-0836. PMC 2735096 . PMID 18758442.
^ McVean G (2009). "Una interpretación genealógica del análisis de componentes principales". PLOS Genetics . 5 (10): e1000686. doi : 10.1371/journal.pgen.1000686 . ISSN 1553-7404. PMC 2757795 . PMID 19834557.
^ Jombart T, Pontier D, Dufour AB (abril de 2009). "Marcadores genéticos en el campo de juego del análisis multivariante". Heredity (Edinb) . 102 (4): 330–41. doi : 10.1038/hdy.2008.130 . PMID: 19156164. S2CID : 10739417.
^ Li W, Cerise JE, Yang Y, Han H (agosto de 2017). "Aplicación de t-SNE a datos genéticos humanos". J Bioinform Comput Biol . 15 (4): 1750017. doi :10.1142/S0219720017500172. PMID 28718343.
^ ab Diaz-Papkovich A, Anderson-Trocmé L, Ben-Eghan C, Gravel S (noviembre de 2019). "UMAP revela estructura poblacional críptica y heterogeneidad fenotípica en grandes cohortes genómicas". PLOS Genet . 15 (11): e1008432. doi : 10.1371/journal.pgen.1008432 . PMC 6853336 . PMID 31675358.
^ Sakaue S, Hirata J, Kanai M, Suzuki K, Akiyama M, Lai Too C, Arayssi T, Hammoudeh M, Al Emadi S, Masri BK, Halabi H, Badsha H, Uthman IW, Saxena R, Padyukov L, Hirata M, Matsuda K, Murakami Y, Kamatani Y, Okada Y (marzo de 2020). "La reducción de la dimensionalidad revela una estructura de escala fina en la población japonesa con consecuencias para la predicción del riesgo poligénico". Nat Commun . 11 (1): 1569. Bibcode :2020NatCo..11.1569S. doi :10.1038/s41467-020-15194-z. PMC 7099015 . PMID 32218440.
^ Battey CJ, Coffing GC , Kern AD (enero de 2021). "Visualización de la estructura de la población con autocodificadores variacionales". G3 (Bethesda) . 11 (1). doi :10.1093/g3journal/jkaa036. PMC 8022710. PMID 33561250.
^ Hellenthal G, Busby GB, Band G, Wilson JF, Capelli C, Falush D, Myers S (febrero de 2014). "Un atlas genético de la historia de la mezcla humana". Science . 343 (6172): 747–751. Bibcode :2014Sci...343..747H. doi :10.1126/science.1243518. PMC 4209567 . PMID 24531965.
^ Hamer D, Sirota L (enero de 2000). "Cuidado con el gen de los palillos chinos". Psiquiatría molecular . 5 (1): 11–3. doi :10.1038/sj.mp.4000662. PMID 10673763. S2CID 9760182.
^ Pritchard JK, Rosenberg NA (julio de 1999). "Uso de marcadores genéticos no ligados para detectar la estratificación de la población en estudios de asociación". American Journal of Human Genetics . 65 (1): 220–8. doi :10.1086/302449. PMC 1378093 . PMID 10364535.
^ ab Blanc J, Berg JJ (diciembre de 2020). "¿Qué tan bien podemos separar la genética del medio ambiente?". eLife . 9 : e64948. doi : 10.7554/eLife.64948 . PMC 7758058 . PMID 33355092.
^ Devlin B, Roeder K (diciembre de 1999). "Control genómico para estudios de asociación". Biometrics . 55 (4): 997–1004. doi :10.1111/j.0006-341X.1999.00997.x. PMID 11315092. S2CID 6297807.
^ Pritchard JK, Stephens M, Rosenberg NA, Donnelly P (julio de 2000). "Mapeo de asociaciones en poblaciones estructuradas". American Journal of Human Genetics . 67 (1): 170–81. doi :10.1086/302959. PMC 1287075 . PMID 10827107.
^ Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich D (agosto de 2006). "El análisis de componentes principales corrige la estratificación en estudios de asociación de todo el genoma". Nature Genetics . 38 (8): 904–9. doi :10.1038/ng1847. PMID 16862161. S2CID 8127858.
^ Yu J, Pressoir G, Briggs WH, Vroh Bi I, Yamasaki M, Doebley JF, et al. (febrero de 2006). "Un método unificado de modelo mixto para el mapeo de asociaciones que tiene en cuenta múltiples niveles de parentesco". Nature Genetics . 38 (2): 203–8. doi :10.1038/ng1702. PMID 16380716. S2CID 8507433.
^ Loh PR, Tucker G, Bulik-Sullivan BK, Vilhjálmsson BJ, Finucane HK , Salem RM, et al. (marzo de 2015). "El análisis bayesiano eficiente de modelos mixtos aumenta el poder de asociación en grandes cohortes". Nature Genetics . 47 (3): 284–90. doi :10.1038/ng.3190. PMC 4342297 . PMID 25642633.
^ Zaidi AA, Mathieson I (noviembre de 2020). Perry GH, Turchin MC, Martin P (eds.). "La historia demográfica media el efecto de la estratificación en las puntuaciones poligénicas". eLife . 9 : e61548. doi : 10.7554/eLife.61548 . PMC 7758063 . PMID 33200985.
^ Sohail M, Maier RM, Ganna A, Bloemendal A, Martin AR, Turchin MC, et al. (marzo de 2019). Nordborg M, McCarthy MI, Barton NH, Hermisson J (eds.). "La adaptación poligénica en la altura se sobreestima debido a la estratificación no corregida en estudios de asociación de todo el genoma". eLife . 8 : e39702. doi : 10.7554/eLife.39702 . PMC 6428571 . PMID 30895926.
^ Lawson DJ, Davies NM, Haworth S, Ashraf B, Howe L, Crawford A, et al. (enero de 2020). "¿La estructura de la población en la era de los biobancos genéticos es irrelevante, un desafío o una oportunidad?". Human Genetics . 139 (1): 23–41. doi :10.1007/s00439-019-02014-8. PMC 6942007 . PMID 31030318.