Desequilibrio de ligamiento

En genética de poblaciones , el desequilibrio de ligamiento ( LD ) es una medida de asociación no aleatoria entre segmentos de ADN ( alelos ) en diferentes posiciones del cromosoma ( loci ) en una población dada basada en una comparación entre la frecuencia con la que se detectan dos alelos juntos en los mismos loci frente a las frecuencias con las que se detecta simplemente cada alelo (solo o con el segundo alelo) en esos mismos loci. Se dice que los loci están en desequilibrio de ligamiento cuando la frecuencia de ser detectados juntos (la frecuencia de asociación de sus diferentes alelos) es mayor o menor de lo esperado si los loci fueran independientes y se asociaran aleatoriamente. ^[1]

Si bien el patrón de desequilibrio de ligamiento en un genoma es una señal poderosa de los procesos genéticos de la población que lo estructuran, no indica por qué el patrón surge por sí solo. El desequilibrio de ligamiento está influenciado por muchos factores, entre ellos la selección , la tasa de recombinación genética , la tasa de mutación , la deriva genética , el sistema de apareamiento , la estructura de la población y el ligamiento genético .

A pesar de su nombre, el desequilibrio de ligamiento puede existir entre alelos en diferentes loci sin ningún ligamiento genético entre ellos e independientemente de si las frecuencias de los alelos están o no en equilibrio (no cambian con el tiempo). ^[1] Además, el desequilibrio de ligamiento a veces se denomina desequilibrio de fase gamética ; ^[2] sin embargo, el concepto también se aplica a organismos asexuales y, por lo tanto, no depende de la presencia de gametos .

Definición formal

Supongamos que entre los gametos que se forman en una población que se reproduce sexualmente, el alelo A se presenta con frecuencia en un locus (es decir, es la proporción de gametos con A en ese locus), mientras que en un locus diferente el alelo B se presenta con frecuencia . De manera similar, sea la frecuencia con la que A y B se presentan juntos en el mismo gameto (es decir, es la frecuencia del haplotipo AB ). $estilo de visualización p_{A}}$ $estilo de visualización p_{A}}$ $estilo de visualización p_{B}}$ $estilo de visualización p_{AB}}$ $estilo de visualización p_{AB}}$

La asociación entre los alelos A y B puede considerarse completamente aleatoria (lo que en estadística se conoce como independencia ) cuando la aparición de uno no afecta a la del otro, en cuyo caso la probabilidad de que A y B se presenten juntos está dada por el producto de las probabilidades. Se dice que hay un desequilibrio de ligamiento entre los dos alelos siempre que difiera por cualquier motivo. $estilo de visualización p_{A}p_{B}}$ $estilo de visualización p_{AB}}$ $estilo de visualización p_{A}p_{B}}$

El nivel de desequilibrio de enlace entre A y B se puede cuantificar mediante el coeficiente de desequilibrio de enlace , que se define como $Estilo de visualización D_{AB}}$

D_{AB}=p_{AB}-p_{A}p_{B},

El desequilibrio de ligamiento corresponde a . En el caso de que tengamos y se dice que los alelos A y B están en equilibrio de ligamiento . El subíndice "AB" en enfatiza que el desequilibrio de ligamiento es una propiedad del par de alelos y no de sus respectivos loci. Otros pares de alelos en esos mismos dos loci pueden tener diferentes coeficientes de desequilibrio de ligamiento. $D_{AB}\neq 0$ $D_{AB}=0$ $p_{AB}=p_{A}p_{B}$ $Estilo de visualización D_{AB}}$ ${\estilo de visualización \{A,B\}}$

Para dos loci bialélicos, donde a y b son los otros alelos en estos dos loci, las restricciones son tan fuertes que sólo un valor de D es suficiente para representar todas las relaciones de desequilibrio de ligamiento entre estos alelos. En este caso, . Sus relaciones pueden caracterizarse de la siguiente manera. ^[3] $D_{AB}=-D_{Ab}=-D_{aB}=D_{ab}$

$D=P_{AB}-P_{A}P_{B}$

$-D=P_{Ab}-P_{A}P_{b}$

$-D=P_{aB}-P_{a}P_{B}$

$D=P_{ab}-P_{a}P_{b}$

En este caso, el signo de D se elige de forma arbitraria. La magnitud de D es más importante que el signo de D porque la magnitud de D es representativa del grado de desequilibrio de ligamiento. ^[4] Sin embargo, un valor positivo de D significa que el gameto es más frecuente de lo esperado, mientras que un valor negativo significa que la combinación de estos dos alelos es menos frecuente de lo esperado.

El desequilibrio de ligamiento en poblaciones asexuales se puede definir de manera similar en términos de frecuencias de alelos poblacionales. Además, también es posible definir el desequilibrio de ligamiento entre tres o más alelos, sin embargo, estas asociaciones de orden superior no se utilizan comúnmente en la práctica. ^[1]

Normalización

El desequilibrio de ligamiento refleja tanto cambios en la intensidad de la correlación de ligamiento como cambios en la frecuencia génica. Esto plantea un problema al comparar el desequilibrio de ligamiento entre alelos con frecuencias diferentes. La normalización del desequilibrio de ligamiento permite comparar estos alelos con mayor facilidad. ${\estilo de visualización D}$

Método D'

Lewontin ^[5] sugirió calcular el desequilibrio de ligamiento normalizado (también denominado desequilibrio de ligamiento relativo) dividiendo por la diferencia máxima teórica entre las frecuencias alélicas observadas y esperadas de la siguiente manera: ${\estilo de visualización D'}$ ${\estilo de visualización D}$

D'={\frac {D}{D_{\max }}}

dónde

D_{\max }={\begin{cases}\min\{p_{A}p_{B},\,(1-p_{A})(1-p_{B})\}&{\text{cuando }}D<0\\\min\{p_{A}(1-p_{B}),\,p_{B}(1-p_{A})\}&{\text{cuando }}D>0\end{cases}}

El valor de estará dentro del rango . Cuando , los loci son independientes. Cuando , los alelos se encuentran con menos frecuencia de la esperada. Cuando , los alelos se encuentran con más frecuencia de la esperada. ${\estilo de visualización D'}$ $-1\leq D'\leq 1$ $D'=0$ $-1\leq D'<0$ $0<D'\leq 1$

Tenga en cuenta que se puede utilizar en lugar de cuando se mide qué tan cerca están dos alelos del equilibrio de ligamiento. ${\estilo de visualización |D'|}$ ${\estilo de visualización D'}$

Método r²

Una alternativa es el coeficiente de correlación entre pares de loci, generalmente expresado como su cuadrado, . ^[6] ${\estilo de visualización D'}$ $estilo de visualización r^{2}}$

r^{2}={\frac {D^{2}}{p_{A}(1-p_{A})p_{B}(1-p_{B})}}

El valor de estará dentro del rango . Cuando , no hay correlación entre el par. Cuando , la correlación es perfectamente positiva o perfectamente negativa según el signo de . $estilo de visualización r^{2}}$ $-1\leq r^{2}\leq 1$ $r^{2}=0$ $|r^{2}|=1$ $estilo de visualización r^{2}}$

Método d

Otra alternativa es la normalización por el producto de dos de las cuatro frecuencias alélicas cuando las dos frecuencias representan alelos del mismo locus. Esto permite la comparación de la asimetría entre un par de loci. Esto se utiliza a menudo en estudios de casos y controles en los que el locus que contiene un alelo de la enfermedad es el locus que contiene el alelo de la enfermedad. ^[7] ${\estilo de visualización D}$ ${\estilo de visualización B}$

$d={\frac {D}{p_{B}(1-p_{B})}}$

Método ρ

De manera similar al método d, esta alternativa normaliza mediante el producto de dos de las cuatro frecuencias alélicas cuando las dos frecuencias representan alelos de diferentes loci. ^[7] ${\estilo de visualización D}$

$\rho ={\frac {D}{(1-p_{A})p_{B}}}$

Límites para los rangos de medidas de desequilibrio de ligamiento

Las medidas y tienen límites en sus rangos y no abarcan todos los valores de cero a uno para todos los pares de loci. El máximo de depende de las frecuencias alélicas en los dos loci que se comparan y solo puede variar completamente de cero a uno cuando las frecuencias alélicas en ambos loci son iguales, donde , o cuando las frecuencias alélicas tienen la relación cuando . ^[8] Si bien siempre puede tomar un valor máximo de 1, su valor mínimo para dos loci es igual a para esos loci. ^[9] $estilo de visualización r^{2}}$ ${\estilo de visualización D'}$ $estilo de visualización r^{2}}$ $Estilo de visualización P_{A}=P_{B}}$ $D>0$ $Estilo de visualización P_{A}=1-P_{B}}$ ${\estilo de visualización D<0}$ ${\estilo de visualización D'}$ ${\estilo de visualización |r|}$

Ejemplo: dos loci y dos alelos

Consideremos los haplotipos de dos loci A y B con dos alelos cada uno (un modelo de dos loci y dos alelos). La siguiente tabla define las frecuencias de cada combinación:

Tenga en cuenta que se trata de frecuencias relativas . Se pueden utilizar las frecuencias anteriores para determinar la frecuencia de cada uno de los alelos:

Si los dos loci y los alelos son independientes entre sí, entonces esperaríamos que la frecuencia de cada haplotipo fuera igual al producto de las frecuencias de sus alelos correspondientes (por ejemplo, ). $x_{11}=p_{1}q_{1}$

La desviación de la frecuencia observada de un haplotipo con respecto a la esperada es una cantidad ^[10] llamada desequilibrio de ligamiento ^[11] y se denota comúnmente con una D mayúscula :

D=x_{11}-p_{1}q_{1}

Por lo tanto, si los loci se heredaran de forma independiente, entonces , por lo que , y hay equilibrio de ligamiento. Sin embargo, si la frecuencia observada del haplotipo fuera mayor que la esperada en función de las frecuencias individuales de y entonces , por lo que , y hay desequilibrio de ligamiento positivo. Por el contrario, si la frecuencia observada fuera menor, entonces , y hay desequilibrio de ligamiento negativo. $x_{11}=p_{1}q_{1}$ $D=0$ $A_{1}B_{1}$ $A_{1}$ $B_{1}$ $x_{11}>p_{1}q_{1}$ $D>0$ $x_{11}<p_{1}q_{1}$ $D<0$

La siguiente tabla ilustra la relación entre las frecuencias de haplotipos y frecuencias de alelos y D.

Además, podemos normalizar nuestros datos en función de lo que estemos tratando de lograr. Por ejemplo, si nuestro objetivo es crear un mapa de asociación en un estudio de casos y controles , entonces podemos utilizar el método d debido a su asimetría. Si estamos tratando de encontrar la probabilidad de que un haplotipo dado descienda en una población sin ser recombinado por otros haplotipos, entonces puede ser mejor utilizar el método ρ. Pero para la mayoría de los escenarios, tiende a ser el método más popular debido a la utilidad del coeficiente de correlación en las estadísticas. Un par de ejemplos en los que puede ser muy útil incluirían la medición de la tasa de recombinación en una población en evolución o la detección de asociaciones de enfermedades. ^[7] $r^{2}$ $r^{2}$

Papel de la recombinación

En ausencia de fuerzas evolutivas distintas del apareamiento aleatorio , la segregación mendeliana , la distribución cromosómica aleatoria y el entrecruzamiento cromosómico (es decir, en ausencia de selección natural , endogamia y deriva genética ), la medida del desequilibrio de ligamiento converge a cero a lo largo del eje del tiempo a una tasa que depende de la magnitud de la tasa de recombinación entre los dos loci. $D$ $c$

Usando la notación anterior, , podemos demostrar esta convergencia a cero de la siguiente manera. En la próxima generación, , la frecuencia del haplotipo , se convierte en $D=x_{11}-p_{1}q_{1}$ $x_{11}'$ $A_{1}B_{1}$

x_{11}'=(1-c)\,x_{11}+c\,p_{1}q_{1}

Esto se debe a que una fracción de los haplotipos en la descendencia no se han recombinado y, por lo tanto, son copias de un haplotipo aleatorio en sus padres. Una fracción de ellos son . Una fracción ha recombinado estos dos loci. Si los padres son el resultado de un apareamiento aleatorio, la probabilidad de que la copia en el locus tenga el alelo es y la probabilidad de que la copia en el locus tenga el alelo es , y como estas copias están inicialmente en los dos gametos diferentes que formaron el genotipo diploide, estos son eventos independientes, de modo que las probabilidades se pueden multiplicar. $(1-c)$ $x_{11}$ $A_{1}B_{1}$ $c$ $A$ $A_{1}$ $p_{1}$ $B$ $B_{1}$ $q_{1}$

Esta fórmula se puede reescribir como

x_{11}'-p_{1}q_{1}=(1-c)\,(x_{11}-p_{1}q_{1})

de modo que

D_{1}=(1-c)\;D_{0}

donde la -ésima generación se designa como . Por lo tanto tenemos $D$ $n$ $D_{n}$

D_{n}=(1-c)^{n}\;D_{0}.

Si , entonces de modo que converge a cero. $n\to \infty$ $(1-c)^{n}\to 0$ $D_{n}$

Si en algún momento observamos un desequilibrio de ligamiento, éste desaparecerá en el futuro debido a la recombinación. Sin embargo, cuanto menor sea la distancia entre los dos loci, menor será la tasa de convergencia a cero. $D$

Visualización

Una vez que se ha calculado el desequilibrio de enlace para un conjunto de datos, a menudo se elige un método de visualización para mostrarlo y hacerlo más fácil de comprender.

El método más común es utilizar un mapa de calor , donde se utilizan colores para indicar los loci con desequilibrio de ligamiento positivo y el equilibrio de ligamiento. Este ejemplo muestra el mapa de calor completo, pero debido a que el mapa de calor es simétrico a lo largo de la diagonal (es decir, el desequilibrio de ligamiento entre los loci A y B es el mismo que entre B y A), también se emplea comúnmente un mapa de calor triangular que muestra los pares solo una vez. Este método tiene la ventaja de ser fácil de interpretar, pero tampoco puede mostrar información sobre otras variables que pueden ser de interés.

También hay disponibles opciones de visualización más robustas, como el diagrama textil. En un diagrama textil, las combinaciones de alelos en un determinado loci se pueden vincular con combinaciones de alelos en un loci diferente. Cada genotipo (combinación de alelos) se representa mediante un círculo que tiene un área proporcional a la frecuencia de ese genotipo, con una columna para cada loci. Se dibujan líneas desde cada círculo hasta los círculos de la(s) otra(s) columna(s), y el grosor de la línea de conexión es proporcional a la frecuencia con la que los dos genotipos se presentan juntos. El desequilibrio de ligamiento se ve a través del número de cruces de línea en el diagrama, donde un mayor número de cruces de línea indica un desequilibrio de ligamiento bajo y menos cruces indican un desequilibrio de ligamiento alto. La ventaja de este método es que muestra las frecuencias de genotipos individuales e incluye una diferencia visual entre el desequilibrio de ligamiento absoluto (donde los alelos en los dos loci siempre aparecen juntos) y completo (donde los alelos en los dos loci muestran una fuerte conexión pero con posibilidad de recombinación) por la forma del gráfico. ^[12]

Otra opción de visualización son los bosques de modelos jerárquicos de clases latentes (FHLCM). Todos los loci se trazan a lo largo de la capa superior del gráfico y, debajo de esta capa superior, se agregan cajas que representan variables latentes con vínculos al nivel superior. Las líneas conectan los loci del nivel superior con las variables latentes que se encuentran debajo y, cuanto más bajo sea el nivel de la caja al que están conectados los loci, mayor será el desequilibrio de ligamiento y menor la distancia entre los loci. Si bien este método no tiene las mismas ventajas del gráfico textil, permite la visualización de loci que están muy separados sin necesidad de reorganizar la secuencia, como es el caso del gráfico textil. ^[13]

Esta no es una lista exhaustiva de métodos de visualización, y se pueden utilizar múltiples métodos para mostrar un conjunto de datos a fin de brindar una mejor imagen de los datos en función de la información que el investigador pretende resaltar.

Recursos

^{Devlin y Risch [14]} ofrecen una comparación de diferentes medidas de LD.

El proyecto internacional HapMap permite el estudio de la LD en poblaciones humanas en línea. El proyecto Ensembl integra los datos de HapMap con otra información genética de dbSNP .

Software de análisis

PLINK: conjunto de herramientas de análisis de asociación del genoma completo, que puede calcular LD, entre otras cosas
LDHat Archivado el 13 de mayo de 2016 en Wayback Machine.
Vista haploscópica
LdCompare ^[15] : software de código abierto para calcular LD.
SNP and Variation Suite: software comercial con gráfico LD interactivo.
GOLD – Descripción gráfica del desequilibrio de ligamiento
TASSEL – software para evaluar desequilibrios de ligamiento, asociaciones de rasgos y patrones evolutivos
rAggr: encuentra marcadores proxy (SNP e indeles) que están en desequilibrio de ligamiento con un conjunto de marcadores consultados, utilizando las bases de datos de genotipos 1000 Genomes Project y HapMap .
SNeP – Cálculo rápido de LD y Ne para grandes conjuntos de datos de genotipos en formato PLINK.
LDlink: un conjunto de aplicaciones basadas en la Web para explorar de manera fácil y eficiente el desequilibrio de ligamiento en subgrupos de población. Todos los datos de genotipos de población provienen de la Fase 3 del Proyecto 1000 Genomas y los números de variantes RS están indexados según la versión 151 de dbSNP.
Bcftools – utilidades para llamar variantes y manipular VCF y BCF.

Software de simulación

Haploid: una biblioteca C para simulación genética de poblaciones ( GPL )

Véase también

Referencias

^ abc Slatkin, Montgomery (junio de 2008). "Desequilibrio de ligamiento: comprensión del pasado evolutivo y mapeo del futuro médico". Nature Reviews Genetics . 9 (6): 477–485. doi :10.1038/nrg2361. PMC 5124487 . PMID 18427557.
^ Falconer, DS; Mackay, TFC (1996). Introducción a la genética cuantitativa (4.ª ed.). Harlow, Essex, Reino Unido: Addison Wesley Longman. ISBN 978-0-582-24302-6.
^ Slatkin, Montgomery (junio de 2008). "Desequilibrio de ligamiento: comprensión del pasado evolutivo y mapeo del futuro médico". Nature Reviews Genetics . 9 (6): 477–485. doi :10.1038/nrg2361. ISSN 1471-0056. PMC 5124487 . PMID 18427557.
^ Calabrese, Barbara (1 de enero de 2019), "Desequilibrio de ligamiento", en Ranganathan, Shoba; Gribskov, Michael; Nakai, Kenta; Schönbach, Christian (eds.), Enciclopedia de bioinformática y biología computacional , Oxford: Academic Press, págs. 763–765, doi :10.1016/b978-0-12-809633-8.20234-3, ISBN 978-0-12-811432-2, S2CID 226248080 , consultado el 21 de octubre de 2020
^ Lewontin, RC (1964). "La interacción de la selección y el ligamiento. I. Consideraciones generales; modelos heteróticos". Genética . 49 (1): 49–67. doi :10.1093/genetics/49.1.49. PMC 1210557 . PMID 17248194.
^ Hill, WG y Robertson, A. (1968). "Desequilibrio de ligamiento en poblaciones finitas". Genética teórica y aplicada . 38 (6): 226–231. doi :10.1007/BF01245622. PMID 24442307. S2CID 11801197.{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ abc Kang, Jonathan TL; Rosenberg, Noah A. (2019). "Propiedades matemáticas de las estadísticas de desequilibrio de ligamiento definidas por la normalización del coeficiente D = pAB – pApB". Herencia humana . 84 (3): 127–143. doi :10.1159/000504171. ISSN 0001-5652. PMC 7199518 . PMID 32045910.
^ VanLiere, JM y Rosenberg, NA (2008). "Propiedades matemáticas de la medida r 2 {\displaystyle r^{2}} del desequilibrio de ligamiento". Biología de poblaciones teórica . 74 (1): 130–137. doi :10.1016/j.tpb.2008.05.006. PMC 2580747 . PMID 18572214. {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Smith, RD (2020). "La estructura no lineal del desequilibrio de ligamiento". Biología de poblaciones teórica . 134 : 160–170. doi :10.1016/j.tpb.2020.02.005. PMID 32222435. S2CID 214716456.
^ Robbins, RB (1 de julio de 1918). "Algunas aplicaciones de las matemáticas a los problemas de crianza III". Genética . 3 (4): 375–389. doi :10.1093/genetics/3.4.375. PMC 1200443 . PMID 17245911.
^ RC Lewontin y K. Kojima (1960). "La dinámica evolutiva de polimorfismos complejos". Evolución . 14 (4): 458–472. doi :10.2307/2405995. ISSN 0014-3820. JSTOR 2405995.
^ Kumasaka, Natsuhiko; Nakamura, Yusuke; Kamatani, Naoyuki (27 de abril de 2010). "La trama textil: una nueva visualización del desequilibrio de ligamiento de datos de genotipos de polimorfismos de nucleótido único múltiple". PLoS ONE . 5 (4): e10207. doi : 10.1371/journal.pone.0010207 . ISSN 1932-6203. PMC 2860502 . PMID 20436909.
^ Mourad, Raphaël; Sinoquet, Christine; Dina, Christian; Leray, Philippe (13 de diciembre de 2011). "Visualización de la estructura de desequilibrio de ligamiento de pares y de múltiples loci utilizando bosques latentes". PLoS ONE . 6 (12): e27320. doi : 10.1371/journal.pone.0027320 . ISSN 1932-6203. PMC 3236755 . PMID 22174739.
^ Devlin B.; Risch N. (1995). "Una comparación de las medidas de desequilibrio de ligamiento para el mapeo a escala fina" (PDF) . Genomics . 29 (2): 311–322. CiteSeerX 10.1.1.319.9349 . doi :10.1006/geno.1995.9003. PMID 8666377.
^ Hao K.; Di X.; Cawley S. (2007). "LdCompare: cálculo rápido de r2 de un solo marcador y de múltiples marcadores y cobertura genética". Bioinformática . 23 (2): 252–254. doi : 10.1093/bioinformatics/btl574 . PMID 17148510.

Lectura adicional

Hedrick, Philip W. (2005). Genética de poblaciones (3.ª ed.). Sudbury, Boston, Toronto, Londres, Singapur: Jones and Bartlett Publishers. ISBN 978-0-7637-4772-5.
Bibliografía: Análisis del desequilibrio de ligamiento: una bibliografía de más de mil artículos sobre el desequilibrio de ligamiento publicados desde 1918.