En genética de poblaciones , el desequilibrio de ligamiento ( LD ) es una medida de asociación no aleatoria entre segmentos de ADN ( alelos ) en diferentes posiciones del cromosoma ( loci ) en una población dada basada en una comparación entre la frecuencia con la que se detectan dos alelos juntos en los mismos loci frente a las frecuencias con las que se detecta simplemente cada alelo (solo o con el segundo alelo) en esos mismos loci. Se dice que los loci están en desequilibrio de ligamiento cuando la frecuencia de ser detectados juntos (la frecuencia de asociación de sus diferentes alelos) es mayor o menor de lo esperado si los loci fueran independientes y se asociaran aleatoriamente. [1]
Si bien el patrón de desequilibrio de ligamiento en un genoma es una señal poderosa de los procesos genéticos de la población que lo estructuran, no indica por qué el patrón surge por sí solo. El desequilibrio de ligamiento está influenciado por muchos factores, entre ellos la selección , la tasa de recombinación genética , la tasa de mutación , la deriva genética , el sistema de apareamiento , la estructura de la población y el ligamiento genético .
A pesar de su nombre, el desequilibrio de ligamiento puede existir entre alelos en diferentes loci sin ningún ligamiento genético entre ellos e independientemente de si las frecuencias de los alelos están o no en equilibrio (no cambian con el tiempo). [1] Además, el desequilibrio de ligamiento a veces se denomina desequilibrio de fase gamética ; [2] sin embargo, el concepto también se aplica a organismos asexuales y, por lo tanto, no depende de la presencia de gametos .
Supongamos que entre los gametos que se forman en una población que se reproduce sexualmente, el alelo A se presenta con frecuencia en un locus (es decir, es la proporción de gametos con A en ese locus), mientras que en un locus diferente el alelo B se presenta con frecuencia . De manera similar, sea la frecuencia con la que A y B se presentan juntos en el mismo gameto (es decir, es la frecuencia del haplotipo AB ).
La asociación entre los alelos A y B puede considerarse completamente aleatoria (lo que en estadística se conoce como independencia ) cuando la aparición de uno no afecta a la del otro, en cuyo caso la probabilidad de que A y B se presenten juntos está dada por el producto de las probabilidades. Se dice que hay un desequilibrio de ligamiento entre los dos alelos siempre que difiera por cualquier motivo.
El nivel de desequilibrio de enlace entre A y B se puede cuantificar mediante el coeficiente de desequilibrio de enlace , que se define como
El desequilibrio de ligamiento corresponde a . En el caso de que tengamos y se dice que los alelos A y B están en equilibrio de ligamiento . El subíndice "AB" en enfatiza que el desequilibrio de ligamiento es una propiedad del par de alelos y no de sus respectivos loci. Otros pares de alelos en esos mismos dos loci pueden tener diferentes coeficientes de desequilibrio de ligamiento.
Para dos loci bialélicos, donde a y b son los otros alelos en estos dos loci, las restricciones son tan fuertes que sólo un valor de D es suficiente para representar todas las relaciones de desequilibrio de ligamiento entre estos alelos. En este caso, . Sus relaciones pueden caracterizarse de la siguiente manera. [3]
En este caso, el signo de D se elige de forma arbitraria. La magnitud de D es más importante que el signo de D porque la magnitud de D es representativa del grado de desequilibrio de ligamiento. [4] Sin embargo, un valor positivo de D significa que el gameto es más frecuente de lo esperado, mientras que un valor negativo significa que la combinación de estos dos alelos es menos frecuente de lo esperado.
El desequilibrio de ligamiento en poblaciones asexuales se puede definir de manera similar en términos de frecuencias de alelos poblacionales. Además, también es posible definir el desequilibrio de ligamiento entre tres o más alelos, sin embargo, estas asociaciones de orden superior no se utilizan comúnmente en la práctica. [1]
El desequilibrio de ligamiento refleja tanto cambios en la intensidad de la correlación de ligamiento como cambios en la frecuencia génica. Esto plantea un problema al comparar el desequilibrio de ligamiento entre alelos con frecuencias diferentes. La normalización del desequilibrio de ligamiento permite comparar estos alelos con mayor facilidad.
Lewontin [5] sugirió calcular el desequilibrio de ligamiento normalizado (también denominado desequilibrio de ligamiento relativo) dividiendo por la diferencia máxima teórica entre las frecuencias alélicas observadas y esperadas de la siguiente manera:
dónde
El valor de estará dentro del rango . Cuando , los loci son independientes. Cuando , los alelos se encuentran con menos frecuencia de la esperada. Cuando , los alelos se encuentran con más frecuencia de la esperada.
Tenga en cuenta que se puede utilizar en lugar de cuando se mide qué tan cerca están dos alelos del equilibrio de ligamiento.
Una alternativa es el coeficiente de correlación entre pares de loci, generalmente expresado como su cuadrado, . [6]
El valor de estará dentro del rango . Cuando , no hay correlación entre el par. Cuando , la correlación es perfectamente positiva o perfectamente negativa según el signo de .
Otra alternativa es la normalización por el producto de dos de las cuatro frecuencias alélicas cuando las dos frecuencias representan alelos del mismo locus. Esto permite la comparación de la asimetría entre un par de loci. Esto se utiliza a menudo en estudios de casos y controles en los que el locus que contiene un alelo de la enfermedad es el locus que contiene el alelo de la enfermedad. [7]
De manera similar al método d, esta alternativa normaliza mediante el producto de dos de las cuatro frecuencias alélicas cuando las dos frecuencias representan alelos de diferentes loci. [7]
Las medidas y tienen límites en sus rangos y no abarcan todos los valores de cero a uno para todos los pares de loci. El máximo de depende de las frecuencias alélicas en los dos loci que se comparan y solo puede variar completamente de cero a uno cuando las frecuencias alélicas en ambos loci son iguales, donde , o cuando las frecuencias alélicas tienen la relación cuando . [8] Si bien siempre puede tomar un valor máximo de 1, su valor mínimo para dos loci es igual a para esos loci. [9]
Consideremos los haplotipos de dos loci A y B con dos alelos cada uno (un modelo de dos loci y dos alelos). La siguiente tabla define las frecuencias de cada combinación:
Tenga en cuenta que se trata de frecuencias relativas . Se pueden utilizar las frecuencias anteriores para determinar la frecuencia de cada uno de los alelos:
Si los dos loci y los alelos son independientes entre sí, entonces esperaríamos que la frecuencia de cada haplotipo fuera igual al producto de las frecuencias de sus alelos correspondientes (por ejemplo, ).
La desviación de la frecuencia observada de un haplotipo con respecto a la esperada es una cantidad [10] llamada desequilibrio de ligamiento [11] y se denota comúnmente con una D mayúscula :
Por lo tanto, si los loci se heredaran de forma independiente, entonces , por lo que , y hay equilibrio de ligamiento. Sin embargo, si la frecuencia observada del haplotipo fuera mayor que la esperada en función de las frecuencias individuales de y entonces , por lo que , y hay desequilibrio de ligamiento positivo. Por el contrario, si la frecuencia observada fuera menor, entonces , y hay desequilibrio de ligamiento negativo.
La siguiente tabla ilustra la relación entre las frecuencias de haplotipos y frecuencias de alelos y D.
Además, podemos normalizar nuestros datos en función de lo que estemos tratando de lograr. Por ejemplo, si nuestro objetivo es crear un mapa de asociación en un estudio de casos y controles , entonces podemos utilizar el método d debido a su asimetría. Si estamos tratando de encontrar la probabilidad de que un haplotipo dado descienda en una población sin ser recombinado por otros haplotipos, entonces puede ser mejor utilizar el método ρ. Pero para la mayoría de los escenarios, tiende a ser el método más popular debido a la utilidad del coeficiente de correlación en las estadísticas. Un par de ejemplos en los que puede ser muy útil incluirían la medición de la tasa de recombinación en una población en evolución o la detección de asociaciones de enfermedades. [7]
En ausencia de fuerzas evolutivas distintas del apareamiento aleatorio , la segregación mendeliana , la distribución cromosómica aleatoria y el entrecruzamiento cromosómico (es decir, en ausencia de selección natural , endogamia y deriva genética ), la medida del desequilibrio de ligamiento converge a cero a lo largo del eje del tiempo a una tasa que depende de la magnitud de la tasa de recombinación entre los dos loci.
Usando la notación anterior, , podemos demostrar esta convergencia a cero de la siguiente manera. En la próxima generación, , la frecuencia del haplotipo , se convierte en
Esto se debe a que una fracción de los haplotipos en la descendencia no se han recombinado y, por lo tanto, son copias de un haplotipo aleatorio en sus padres. Una fracción de ellos son . Una fracción ha recombinado estos dos loci. Si los padres son el resultado de un apareamiento aleatorio, la probabilidad de que la copia en el locus tenga el alelo es y la probabilidad de que la copia en el locus tenga el alelo es , y como estas copias están inicialmente en los dos gametos diferentes que formaron el genotipo diploide, estos son eventos independientes, de modo que las probabilidades se pueden multiplicar.
Esta fórmula se puede reescribir como
de modo que
donde la -ésima generación se designa como . Por lo tanto tenemos
Si , entonces de modo que converge a cero.
Si en algún momento observamos un desequilibrio de ligamiento, éste desaparecerá en el futuro debido a la recombinación. Sin embargo, cuanto menor sea la distancia entre los dos loci, menor será la tasa de convergencia a cero.
Una vez que se ha calculado el desequilibrio de enlace para un conjunto de datos, a menudo se elige un método de visualización para mostrarlo y hacerlo más fácil de comprender.
El método más común es utilizar un mapa de calor , donde se utilizan colores para indicar los loci con desequilibrio de ligamiento positivo y el equilibrio de ligamiento. Este ejemplo muestra el mapa de calor completo, pero debido a que el mapa de calor es simétrico a lo largo de la diagonal (es decir, el desequilibrio de ligamiento entre los loci A y B es el mismo que entre B y A), también se emplea comúnmente un mapa de calor triangular que muestra los pares solo una vez. Este método tiene la ventaja de ser fácil de interpretar, pero tampoco puede mostrar información sobre otras variables que pueden ser de interés.
También hay disponibles opciones de visualización más robustas, como el diagrama textil. En un diagrama textil, las combinaciones de alelos en un determinado loci se pueden vincular con combinaciones de alelos en un loci diferente. Cada genotipo (combinación de alelos) se representa mediante un círculo que tiene un área proporcional a la frecuencia de ese genotipo, con una columna para cada loci. Se dibujan líneas desde cada círculo hasta los círculos de la(s) otra(s) columna(s), y el grosor de la línea de conexión es proporcional a la frecuencia con la que los dos genotipos se presentan juntos. El desequilibrio de ligamiento se ve a través del número de cruces de línea en el diagrama, donde un mayor número de cruces de línea indica un desequilibrio de ligamiento bajo y menos cruces indican un desequilibrio de ligamiento alto. La ventaja de este método es que muestra las frecuencias de genotipos individuales e incluye una diferencia visual entre el desequilibrio de ligamiento absoluto (donde los alelos en los dos loci siempre aparecen juntos) y completo (donde los alelos en los dos loci muestran una fuerte conexión pero con posibilidad de recombinación) por la forma del gráfico. [12]
Otra opción de visualización son los bosques de modelos jerárquicos de clases latentes (FHLCM). Todos los loci se trazan a lo largo de la capa superior del gráfico y, debajo de esta capa superior, se agregan cajas que representan variables latentes con vínculos al nivel superior. Las líneas conectan los loci del nivel superior con las variables latentes que se encuentran debajo y, cuanto más bajo sea el nivel de la caja al que están conectados los loci, mayor será el desequilibrio de ligamiento y menor la distancia entre los loci. Si bien este método no tiene las mismas ventajas del gráfico textil, permite la visualización de loci que están muy separados sin necesidad de reorganizar la secuencia, como es el caso del gráfico textil. [13]
Esta no es una lista exhaustiva de métodos de visualización, y se pueden utilizar múltiples métodos para mostrar un conjunto de datos a fin de brindar una mejor imagen de los datos en función de la información que el investigador pretende resaltar.
Devlin y Risch [14] ofrecen una comparación de diferentes medidas de LD.
El proyecto internacional HapMap permite el estudio de la LD en poblaciones humanas en línea. El proyecto Ensembl integra los datos de HapMap con otra información genética de dbSNP .
{{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link)