La estructura de una población (también llamada estructura genética y estratificación de la población ) es la presencia de una diferencia sistemática en las frecuencias de alelos entre subpoblaciones . En una población con apareamiento aleatorio (o panmíctico ), se espera que las frecuencias de alelos sean aproximadamente similares entre los grupos. Sin embargo, el apareamiento tiende a no ser aleatorio hasta cierto punto, lo que hace que surja la estructura. Por ejemplo, una barrera como un río puede separar dos grupos de la misma especie y dificultar que las parejas potenciales se crucen; si ocurre una mutación , a lo largo de muchas generaciones puede propagarse y volverse común en una subpoblación mientras que está completamente ausente en la otra.
Las variantes genéticas no necesariamente causan cambios observables en los organismos, pero pueden correlacionarse por coincidencia debido a la estructura de la población: una variante que es común en una población con una alta tasa de enfermedad puede pensarse erróneamente que causa la enfermedad. Por esta razón, la estructura de la población es una variable de confusión común en los estudios de genética médica , y tener en cuenta y controlar su efecto es importante en los estudios de asociación de todo el genoma (GWAS). Al rastrear los orígenes de la estructura, también es posible estudiar la ascendencia genética de grupos e individuos.
La causa básica de la estructura de la población en las especies que se reproducen sexualmente es el apareamiento no aleatorio entre grupos: si todos los individuos dentro de una población se aparean aleatoriamente, entonces las frecuencias de alelos deberían ser similares entre los grupos. La estructura de la población surge comúnmente de la separación física por distancia o barreras, como montañas y ríos, seguida de la deriva genética . Otras causas incluyen el flujo genético de las migraciones, los cuellos de botella y expansiones poblacionales , los efectos fundadores , la presión evolutiva , el azar y (en los humanos) los factores culturales. Incluso en ausencia de estos factores, los individuos tienden a permanecer cerca de donde nacieron, lo que significa que los alelos no se distribuirán al azar con respecto a todo el rango de la especie. [1] [2]
La estructura de una población es un fenómeno complejo y ninguna medida la captura por sí sola en su totalidad. Para comprender la estructura de una población se requiere una combinación de métodos y medidas. [3] [4] Muchos métodos estadísticos se basan en modelos poblacionales simples para inferir cambios demográficos históricos, como la presencia de cuellos de botella poblacionales, eventos de mezcla o tiempos de divergencia poblacional. A menudo, estos métodos se basan en el supuesto de panmictia u homogeneidad en una población ancestral. La especificación incorrecta de dichos modelos, por ejemplo, al no tener en cuenta la existencia de estructura en una población ancestral, puede dar lugar a estimaciones de parámetros muy sesgadas. [5] Los estudios de simulación muestran que la estructura poblacional histórica puede incluso tener efectos genéticos que pueden malinterpretarse fácilmente como cambios históricos en el tamaño de la población o la existencia de eventos de mezcla, incluso cuando tales eventos no ocurrieron. [6]
Uno de los resultados de la estructura de la población es una reducción en la heterocigosidad . Cuando las poblaciones se dividen, los alelos tienen una mayor probabilidad de alcanzar la fijación dentro de las subpoblaciones, especialmente si las subpoblaciones son pequeñas o han estado aisladas durante largos períodos. Esta reducción en la heterocigosidad puede considerarse como una extensión de la endogamia , ya que los individuos en las subpoblaciones tienen más probabilidades de compartir un ancestro común reciente . [7] La escala es importante: un individuo con ambos padres nacidos en el Reino Unido no es endogámico en relación con la población de ese país, pero es más endogámico que dos humanos seleccionados de todo el mundo. Esto motiva la derivación de las estadísticas F de Wright (también llamadas "índices de fijación"), que miden la endogamia a través de la heterocigosidad observada versus esperada. [8] Por ejemplo, mide el coeficiente de endogamia en un solo locus para un individuo en relación con alguna subpoblación : [9]
Aquí, se muestra la fracción de individuos en la subpoblación que son heterocigotos. Suponiendo que hay dos alelos, que se presentan en frecuencias respectivas , se espera que, en caso de apareamiento aleatorio, la subpoblación tenga una tasa de heterocigosidad de . Entonces:
De manera similar, para la población total , podemos definir lo que nos permite calcular la heterocigosidad esperada de la subpoblación y el valor como: [9]
Si F es 0, entonces las frecuencias alélicas entre poblaciones son idénticas, lo que sugiere que no hay estructura. El valor máximo teórico de 1 se alcanza cuando un alelo alcanza la fijación total, pero la mayoría de los valores máximos observados son mucho más bajos. [7] F ST es una de las medidas más comunes de la estructura de la población y existen varias formulaciones diferentes según el número de poblaciones y los alelos de interés. Aunque a veces se utiliza como una distancia genética entre poblaciones, no siempre satisface la desigualdad triangular y, por lo tanto, no es una métrica . [10] También depende de la diversidad dentro de la población, lo que dificulta la interpretación y la comparación. [4]
El genotipo de un individuo puede ser modelado como una mezcla entre K grupos discretos de poblaciones. [9] Cada grupo se define por las frecuencias de sus genotipos, y la contribución de un grupo a los genotipos de un individuo se mide a través de un estimador . En 2000, Jonathan K. Pritchard introdujo el algoritmo STRUCTURE para estimar estas proporciones a través de Markov chain Monte Carlo , modelando frecuencias alélicas en cada locus con una distribución de Dirichlet . [11] Desde entonces, se han desarrollado algoritmos (como ADMIXTURE) utilizando otras técnicas de estimación. [12] [13] Las proporciones estimadas pueden visualizarse utilizando gráficos de barras: cada barra representa un individuo y se subdivide para representar la proporción de la ascendencia genética de un individuo de una de las K poblaciones. [9]
La variación de K puede ilustrar diferentes escalas de estructura de la población; el uso de una K pequeña para toda la población humana subdividirá a las personas aproximadamente por continente, mientras que el uso de una K grande dividirá las poblaciones en subgrupos más finos. [9] Aunque los métodos de agrupamiento son populares, están abiertos a malas interpretaciones: para datos no simulados, nunca hay un valor "verdadero" de K , sino más bien una aproximación considerada útil para una pregunta dada. [3] Son sensibles a las estrategias de muestreo, el tamaño de la muestra y los parientes cercanos en los conjuntos de datos; puede que no haya poblaciones discretas en absoluto; y puede haber una estructura jerárquica donde las subpoblaciones están anidadas. [3] Los clústeres pueden estar mezclados en sí mismos, [9] y pueden no tener una interpretación útil como poblaciones de origen. [14]
Los datos genéticos son de alta dimensión y las técnicas de reducción de dimensionalidad pueden capturar la estructura de la población. El análisis de componentes principales (PCA) se aplicó por primera vez en genética de poblaciones en 1978 por Cavalli-Sforza y colegas y resurgió con la secuenciación de alto rendimiento . [9] [17] Inicialmente, el PCA se utilizó en frecuencias alélicas en marcadores genéticos conocidos para poblaciones, aunque más tarde se descubrió que al codificar SNP como números enteros (por ejemplo, como el número de alelos no de referencia ) y normalizar los valores, el PCA podría aplicarse a nivel de individuos. [13] [18] Una formulación considera individuos y SNP bialélicos. Para cada individuo , el valor en el locus es es el número de alelos no de referencia (uno de ). Si la frecuencia alélica en es , entonces la matriz resultante de genotipos normalizados tiene entradas: [9]
El PCA transforma los datos para maximizar la varianza; si se tienen suficientes datos, cuando cada individuo se visualiza como un punto en un gráfico, se pueden formar grupos discretos. [13] Los individuos con ascendencia mixta tenderán a caer entre los grupos, y cuando hay un aislamiento homogéneo por distancia en los datos, los vectores de PC superiores reflejarán la variación geográfica. [19] [13] Los vectores propios generados por el PCA se pueden escribir explícitamente en términos de los tiempos de coalescencia medios para pares de individuos, lo que hace que el PCA sea útil para la inferencia sobre las historias poblacionales de los grupos en una muestra dada. Sin embargo, el PCA no puede distinguir entre diferentes procesos que conducen a los mismos tiempos de coalescencia medios. [20]
El escalamiento multidimensional y el análisis discriminante se han utilizado para estudiar la diferenciación, la asignación de poblaciones y para analizar las distancias genéticas. [21] Los enfoques de gráficos de vecindad como la incrustación estocástica de vecinos con distribución t (t-SNE) y la aproximación y proyección de variedad uniforme (UMAP) pueden visualizar la estructura continental y subcontinental en datos humanos. [22] [23] Con conjuntos de datos más grandes, UMAP captura mejor múltiples escalas de estructura de la población; los patrones de escala fina se pueden ocultar o dividir con otros métodos, y estos son de interés cuando el rango de poblaciones es diverso, cuando hay poblaciones mezcladas o cuando se examinan relaciones entre genotipos, fenotipos y/o geografía. [23] [24] Los autocodificadores variacionales pueden generar genotipos artificiales con una estructura representativa de los datos de entrada, aunque no recrean patrones de desequilibrio de ligamiento. [25]
La estructura de la población es un aspecto importante de la genética evolutiva y de poblaciones . Eventos como las migraciones y las interacciones entre grupos dejan una huella genética en las poblaciones. Las poblaciones mezcladas tendrán fragmentos de haplotipos de sus grupos ancestrales, que gradualmente se reducen con el tiempo debido a la recombinación . Al explotar este hecho y hacer coincidir fragmentos de haplotipos compartidos de individuos dentro de un conjunto de datos genéticos, los investigadores pueden rastrear y fechar los orígenes de la mezcla de poblaciones y reconstruir eventos históricos como el ascenso y la caída de los imperios, el tráfico de esclavos, el colonialismo y las expansiones de población. [26]
La estructura de la población puede ser un problema para los estudios de asociación , como los estudios de casos y controles , donde la asociación entre el rasgo de interés y el locus podría ser incorrecta. Por ejemplo, en una población de estudio de europeos y asiáticos orientales, un estudio de asociación del uso de palillos chinos puede "descubrir" un gen en los individuos asiáticos que conduce al uso de palillos chinos. Sin embargo, esta es una relación espuria ya que la variante genética es simplemente más común en asiáticos que en europeos. [27] Además, los hallazgos genéticos reales pueden pasarse por alto si el locus es menos frecuente en la población donde se eligen los sujetos de caso. Por esta razón, era común en la década de 1990 utilizar datos basados en la familia donde el efecto de la estructura de la población puede controlarse fácilmente mediante el uso de métodos como la prueba de desequilibrio de transmisión (TDT). [28]
Los fenotipos (rasgos mensurables), como la altura o el riesgo de enfermedad cardíaca, son el producto de alguna combinación de genes y ambiente . Estos rasgos se pueden predecir utilizando puntajes poligénicos , que buscan aislar y estimar la contribución de la genética a un rasgo sumando los efectos de muchas variantes genéticas individuales. Para construir un puntaje, los investigadores primero inscriben a los participantes en un estudio de asociación para estimar la contribución de cada variante genética. Luego, pueden usar las contribuciones estimadas de cada variante genética para calcular un puntaje para el rasgo para un individuo que no estaba en el estudio de asociación original. Si la estructura en la población del estudio está correlacionada con la variación ambiental, entonces el puntaje poligénico ya no mide solo el componente genético. [29]
Varios métodos pueden controlar al menos parcialmente este efecto de confusión. El método de control genómico se introdujo en 1999 y es un método relativamente no paramétrico para controlar la inflación de las estadísticas de prueba . [30] También es posible utilizar marcadores genéticos no vinculados para estimar las proporciones de ascendencia de cada individuo a partir de algunas subpoblaciones K , que se supone que no están estructuradas. [31] Los enfoques más recientes utilizan el análisis de componentes principales (PCA), como lo demostraron Alkes Price y colegas, [32] o derivando una matriz de relación genética (también llamada matriz de parentesco) e incluyéndola en un modelo lineal mixto (LMM). [33] [34]
Los PCA y los LMM se han convertido en los métodos más comunes para controlar los factores de confusión derivados de la estructura de la población. Aunque probablemente sean suficientes para evitar los falsos positivos en los estudios de asociación, siguen siendo vulnerables a la sobreestimación de los tamaños del efecto de las variantes marginalmente asociadas y pueden sesgar sustancialmente las estimaciones de las puntuaciones poligénicas y la heredabilidad de los rasgos . [35] [36] Si los efectos ambientales están relacionados con una variante que existe solo en una región específica (por ejemplo, un contaminante se encuentra en una sola ciudad), puede que no sea posible corregir este efecto de la estructura de la población en absoluto. [29] Para muchos rasgos, el papel de la estructura es complejo y no se comprende por completo, e incorporarlo a los estudios genéticos sigue siendo un desafío y es un área activa de investigación. [37]