El índice de fijación ( F ST ) es una medida de diferenciación poblacional debido a la estructura genética . Con frecuencia se estima a partir de datos de polimorfismos genéticos , como polimorfismos de un solo nucleótido (SNP) o microsatélites . Desarrollada como un caso especial de la estadística F de Wright , es una de las estadísticas más utilizadas en genética de poblaciones . Sus valores oscilan entre 0 y 1, siendo 0,15 sustancialmente diferenciado y 1 diferenciación completa.
Esta comparación de la variabilidad genética dentro y entre poblaciones se utiliza con frecuencia en genética de poblaciones aplicada . Los valores varían de 0 a 1. Un valor cero implica panmixia completa ; es decir, que las dos poblaciones se están cruzando libremente. Un valor de uno implica que toda variación genética se explica por la estructura de la población y que las dos poblaciones no comparten ninguna diversidad genética.
Para modelos idealizados como el modelo de islas finitas de Wright , se puede utilizar F ST para estimar las tasas de migración. Según ese modelo, la tasa de migración es
donde m es la tasa de migración por generación y es la tasa de mutación por generación. [1]
La interpretación de F ST puede resultar difícil cuando los datos analizados son altamente polimórficos. En este caso, la probabilidad de identidad por descendencia es muy baja y F ST puede tener un límite superior arbitrariamente bajo, lo que podría dar lugar a una mala interpretación de los datos. Además, estrictamente hablando, F ST no es una distancia en el sentido matemático, ya que no satisface la desigualdad del triángulo .
Para poblaciones de plantas que claramente pertenecen a la misma especie , valores de F ST superiores al 15% se consideran diferenciación "grande" o "significativa", mientras que valores inferiores al 5% se consideran diferenciación "pequeña" o "insignificante". [2] Valores para poblaciones de mamíferos entre subespecies , o especies estrechamente relacionadas, los valores típicos son del orden del 5% al 20%. Las F ST entre las poblaciones de lobo gris de Eurasia y América del Norte se informaron en un 9,9%, las entre las poblaciones de lobo rojo y lobo gris entre un 17% y un 18%. El lobo oriental , una "especie lobuna" altamente mezclada recientemente reconocida, tiene valores de F ST inferiores al 10% en comparación con los lobos grises euroasiáticos (7,6%) y norteamericanos (5,7%), con el lobo rojo (8,5%). , y un valor aún menor cuando se combina con el Coyote (4,5%). [3]
Dos de las definiciones más utilizadas para F ST en un locus determinado se basan en 1) la varianza de las frecuencias alélicas entre poblaciones y en 2) la probabilidad de identidad por descendencia .
Si es la frecuencia promedio de un alelo en la población total, es la varianza en la frecuencia del alelo entre diferentes subpoblaciones, ponderada por los tamaños de las subpoblaciones, y es la varianza del estado alélico en la población total, F ST es definido como [4]
La definición de Wright ilustra que F ST mide la cantidad de varianza genética que puede explicarse por la estructura de la población. Esto también puede considerarse como la fracción de la diversidad total que no es consecuencia de la diversidad promedio dentro de las subpoblaciones, donde la diversidad se mide por la probabilidad de que dos alelos seleccionados al azar sean diferentes, es decir . Si la frecuencia alélica en la enésima población es y el tamaño relativo de la enésima población es , entonces
Alternativamente, [5]
donde es la probabilidad de identidad por descendencia de dos individuos dado que los dos individuos están en la misma subpoblación, y es la probabilidad de que dos individuos de la población total sean idénticos por descendencia. Usando esta definición, F ST puede interpretarse como una medida de qué tan cerca están dos individuos de la misma subpoblación, en comparación con la población total. Si la tasa de mutación es pequeña, esta interpretación puede hacerse más explícita vinculando la probabilidad de identidad por descendencia a los tiempos de coalescencia : Sean T 0 y T el tiempo promedio de coalescencia para individuos de la misma subpoblación y la población total, respectivamente. Entonces,
Esta formulación tiene la ventaja de que el tiempo esperado hasta la coalescencia puede estimarse fácilmente a partir de datos genéticos, lo que llevó al desarrollo de varios estimadores para F ST .
En la práctica, ninguna de las cantidades utilizadas para las definiciones puede medirse fácilmente. Como consecuencia, se han propuesto varios estimadores. Un estimador particularmente simple aplicable a los datos de secuencia de ADN es: [6]
donde y representan el número promedio de diferencias por pares entre dos individuos muestreados de diferentes subpoblaciones ( ) o de la misma subpoblación ( ). La diferencia promedio por pares dentro de una población se puede calcular como la suma de las diferencias por pares dividida por el número de pares. Sin embargo, este estimador está sesgado cuando los tamaños de muestra son pequeños o si varían entre poblaciones. Por lo tanto, en la práctica se utilizan métodos más elaborados para calcular F ST . Dos de los procedimientos más utilizados son el estimador de Weir & Cockerham (1984), [7] o la realización de un Análisis de varianza molecular . Una lista de implementaciones está disponible al final de este artículo.
Los valores de F ST dependen en gran medida de la elección de las poblaciones. Los grupos étnicos estrechamente relacionados, como los daneses frente a los holandeses , o los portugueses frente a los españoles, muestran valores significativamente inferiores al 1%, indistinguibles de la panmixia. Dentro de Europa, se ha descubierto que los grupos étnicos más divergentes tienen valores del orden del 7% ( sami vs. sardos ).
Se encuentran valores mayores si se comparan grupos homogéneos altamente divergentes: el valor más alto encontrado fue cercano al 46%, entre mbuti y papúes . [8]
Una distancia genética de 0,125 implica que el parentesco entre individuos no emparentados de la misma ascendencia en relación con la población mundial es equivalente al parentesco entre medios hermanos en una población que se aparea aleatoriamente. Esto también implica que si un humano de una población ancestral determinada tiene un medio hermano mixto, ese humano está genéticamente más cerca de un individuo no relacionado de su población ancestral que de su medio hermano mixto. [9]
En su estudio The History and Geography of Human Genes (1994) , Cavalli-Sforza, Menozzi y Piazza proporcionan algunas de las estimaciones más detalladas y completas de las distancias genéticas entre las poblaciones humanas, dentro y entre continentes. Su base de datos inicial contiene 76.676 frecuencias genéticas (utilizando 120 polimorfismos sanguíneos), correspondientes a 6.633 muestras en diferentes ubicaciones. Al seleccionar y combinar dichas muestras, restringen su análisis a 491 poblaciones.
Se centran en las poblaciones aborígenes que se encontraban en su ubicación actual a finales del siglo XV cuando comenzaron las grandes migraciones europeas. [10] Al estudiar la diferencia genética a nivel mundial, el número se reduce a 42 poblaciones representativas, agregando subpoblaciones caracterizadas por un alto nivel de similitud genética. Para estas 42 poblaciones, Cavalli-Sforza y sus coautores informan distancias bilaterales calculadas a partir de 120 alelos. Entre este conjunto de 42 poblaciones mundiales, la mayor distancia genética observada se da entre los pigmeos mbuti y los papua nueva guineanos, donde la distancia Fst es 0,4573, mientras que la distancia genética más pequeña (0,0021) se da entre los daneses y los ingleses.
Al considerar datos más desagregados de 26 poblaciones europeas, la distancia genética más pequeña (0,0009) se da entre los holandeses y los daneses, y la más grande (0,0667) se da entre los lapones y los sardos. Se encontró que la distancia genética media entre los 861 pares disponibles de las 42 poblaciones seleccionadas era 0,1338. [ página necesaria ] .
La siguiente tabla muestra el Fst calculado por Cavalli-Sforza (1994) para algunas poblaciones:
Un estudio de 2012 basado en datos del Proyecto Internacional HapMap estimó F ST entre las tres principales poblaciones "continentales" de europeos (combinados de residentes de Utah de ascendencia del norte y oeste de Europa de la colección CEPH e italianos de Toscana), asiáticos orientales (combinando chinos han de Beijing, chinos de la zona metropolitana de Denver y japoneses de Tokio, Japón) y africanos subsaharianos (combinando a los luhya de Webuye, Kenia, los masai de Kinyawa, Kenia y los yoruba de Ibadan, Nigeria). Reportó un valor cercano al 12% entre poblaciones continentales y valores cercanos a panmixia (menores al 1%) dentro de poblaciones continentales. [11]