Teoría coalescente

La teoría de la coalescencia es un modelo que muestra cómo los alelos muestreados de una población pueden haberse originado a partir de un ancestro común . En el caso más simple, la teoría de la coalescencia supone que no hay recombinación , ni selección natural , ni flujo genético ni estructura poblacional , lo que significa que cada variante tiene la misma probabilidad de haber sido transmitida de una generación a la siguiente. El modelo mira hacia atrás en el tiempo, fusionando alelos en una única copia ancestral de acuerdo con un proceso aleatorio en eventos de coalescencia. Bajo este modelo, el tiempo esperado entre eventos de coalescencia sucesivos aumenta casi exponencialmente hacia atrás en el tiempo (con una amplia varianza ). La varianza en el modelo proviene tanto del paso aleatorio de alelos de una generación a la siguiente como de la ocurrencia aleatoria de mutaciones en estos alelos.

La teoría matemática de la coalescencia fue desarrollada independientemente por varios grupos a principios de la década de 1980 como una extensión natural de la teoría y los modelos de genética de poblaciones clásica, ^[1]^[2]^[3]^[4] pero puede atribuirse principalmente a John Kingman . ^[5] Los avances en la teoría de la coalescencia incluyen la recombinación, la selección, las generaciones superpuestas y prácticamente cualquier modelo evolutivo o demográfico arbitrariamente complejo en el análisis genético de poblaciones.

El modelo se puede utilizar para generar muchas genealogías teóricas y luego comparar los datos observados con estas simulaciones para probar suposiciones sobre la historia demográfica de una población. La teoría coalescente se puede utilizar para hacer inferencias sobre parámetros genéticos de la población, como la migración, el tamaño de la población y la recombinación.

Teoría

Es hora de la coalescencia

Consideremos un solo locus genético obtenido de dos individuos haploides de una población. La ascendencia de esta muestra se rastrea en sentido inverso en el tiempo hasta el punto en el que estos dos linajes se fusionan en su ancestro común más reciente (MRCA). La teoría coalescente busca estimar la expectativa de este período de tiempo y su varianza.

La probabilidad de que dos linajes se fusionen en la generación inmediatamente anterior es la probabilidad de que compartan una secuencia de ADN parental . En una población con un tamaño de población efectivo constante con 2 N _e copias de cada locus, hay 2 N _e "padres potenciales" en la generación anterior. En un modelo de apareamiento aleatorio , la probabilidad de que dos alelos se originen de la misma copia parental es, por lo tanto, 1/(2 N _e ) y, en consecuencia, la probabilidad de que no se fusionen es 1 − 1/(2 N _e ).

En cada generación precedente sucesiva, la probabilidad de coalescencia se distribuye geométricamente , es decir, es la probabilidad de no coalescencia en las t − 1 generaciones precedentes multiplicada por la probabilidad de coalescencia en la generación de interés:

P_{c}(t)=\left(1-{\frac {1}{2N_{e}}}\right)^{t-1}\left({\frac {1}{2N_{e}}}\right).

Para valores suficientemente grandes de N _e , esta distribución se aproxima bien mediante la distribución exponencial definida de forma continua

P_{c}(t)={\frac {1}{2N_{e}}}e^{-{\frac {t-1}{2N_{e}}}}.

Esto es matemáticamente conveniente, ya que la distribución exponencial estándar tiene tanto el valor esperado como la desviación estándar igual a 2 N _e . Por lo tanto, aunque el tiempo esperado hasta la coalescencia es 2 N _e , los tiempos de coalescencia reales tienen un amplio rango de variación. Tenga en cuenta que el tiempo de coalescencia es el número de generaciones anteriores en las que tuvo lugar la coalescencia y no el tiempo calendario, aunque se puede hacer una estimación de este último multiplicando 2 N _e por el tiempo promedio entre generaciones. Los cálculos anteriores se aplican igualmente a una población diploide de tamaño efectivo N _e (en otras palabras, para un segmento de ADN no recombinante, cada cromosoma puede tratarse como equivalente a un individuo haploide independiente ; en ausencia de endogamia, los cromosomas hermanos en un solo individuo no están más estrechamente relacionados que dos cromosomas muestreados aleatoriamente de la población). Sin embargo, algunos elementos de ADN efectivamente haploides, como el ADN mitocondrial , solo se transmiten por un sexo y, por lo tanto, tienen una cuarta parte del tamaño efectivo de la población diploide equivalente ( N _e /2)

El objeto matemático que se obtiene formalmente al dejar que N _e vaya al infinito se conoce como coalescente de Kingman. ^[1]

Variación neutra

La teoría coalescente también se puede utilizar para modelar la cantidad de variación en las secuencias de ADN esperada a partir de la deriva genética y la mutación. Este valor se denomina heterocigosidad media , representada como . La heterocigosidad media se calcula como la probabilidad de que ocurra una mutación en una generación dada dividida por la probabilidad de cualquier "evento" en esa generación (ya sea una mutación o una coalescencia). La probabilidad de que el evento sea una mutación es la probabilidad de una mutación en cualquiera de los dos linajes: . Por lo tanto, la heterocigosidad media es igual a ${\bar {H}}$ ${\estilo de visualización 2\mu}$

{\begin{aligned}{\bar {H}}&={\frac {2\mu }{2\mu +{\frac {1}{2N_{e}}}}}\\[6pt]&={\frac {4N_{e}\mu }{1+4N_{e}\mu }}\\[6pt]&={\frac {\theta }{1+\theta }}\end{aligned}}

Para , la gran mayoría de pares de alelos tienen al menos una diferencia en la secuencia de nucleótidos . $4N_{e}\mu \gg 1$

Extensiones

Existen numerosas extensiones del modelo coalescente, como el Λ-coalescente, que permite la posibilidad de multifurcaciones. ^[6]

Representación gráfica

Los coalescentes se pueden visualizar mediante dendrogramas que muestran la relación entre las ramas de la población. El punto en el que se encuentran dos ramas indica un evento coalescente.

Aplicaciones

Mapeo de genes de enfermedades

La utilidad de la teoría coalescente en el mapeo de enfermedades está ganando lentamente más reconocimiento; aunque la aplicación de la teoría todavía está en sus inicios, hay varios investigadores que están desarrollando activamente algoritmos para el análisis de datos genéticos humanos que utilizan la teoría coalescente. ^[7]^[8]^[9]

Un número considerable de enfermedades humanas pueden atribuirse a la genética, desde enfermedades mendelianas simples como la anemia de células falciformes y la fibrosis quística , hasta enfermedades más complicadas como el cáncer y las enfermedades mentales. Estas últimas son enfermedades poligénicas, controladas por múltiples genes que pueden aparecer en diferentes cromosomas, pero las enfermedades que son precipitadas por una sola anomalía son relativamente fáciles de identificar y rastrear, aunque no tan simple como para que esto se haya logrado para todas las enfermedades. Es inmensamente útil para comprender estas enfermedades y sus procesos saber dónde se ubican en los cromosomas y cómo se han heredado a través de las generaciones de una familia, como se puede lograr mediante el análisis coalescente. ^[2]

Las enfermedades genéticas se transmiten de una generación a otra, al igual que otros genes. Si bien cualquier gen puede pasar de un cromosoma a otro durante la recombinación homóloga , es poco probable que se produzca un cambio en un solo gen. Por lo tanto, se pueden utilizar otros genes que estén lo suficientemente cerca del gen de la enfermedad como para estar vinculados a él para rastrearlo. ^[2]

Las enfermedades poligénicas tienen una base genética aunque no sigan los modelos de herencia mendelianos, y pueden tener una incidencia relativamente alta en las poblaciones y tener efectos graves sobre la salud. Estas enfermedades pueden tener una penetración incompleta y tienden a ser poligénicas , lo que complica su estudio. Estos rasgos pueden surgir debido a muchas mutaciones pequeñas, que en conjunto tienen un efecto grave y perjudicial sobre la salud del individuo. ^[3]

Los métodos de mapeo de ligamiento, incluida la teoría coalescente, se pueden aplicar en estas enfermedades, ya que utilizan pedigríes familiares para determinar qué marcadores acompañan a una enfermedad y cómo se hereda. Como mínimo, este método ayuda a limitar la porción, o porciones, del genoma en las que pueden ocurrir las mutaciones deletéreas. Las complicaciones de estos enfoques incluyen los efectos epistáticos , la naturaleza poligénica de las mutaciones y los factores ambientales. Dicho esto, los genes cuyos efectos son aditivos conllevan un riesgo fijo de desarrollar la enfermedad y, cuando existen en un genotipo de enfermedad, se pueden utilizar para predecir el riesgo y mapear el gen. ^[3] Tanto el coalescente regular como el coalescente fragmentado (que permite que puedan haber ocurrido múltiples mutaciones en el evento fundador y que la enfermedad pueda ser desencadenada ocasionalmente por factores ambientales) se han utilizado para comprender los genes de la enfermedad. ^[2]

Se han realizado estudios que correlacionan la aparición de enfermedades en gemelos fraternos e idénticos, y los resultados de estos estudios se pueden utilizar para fundamentar el modelado coalescente. Dado que los gemelos idénticos comparten todo su genoma, pero los gemelos fraternos solo comparten la mitad de su genoma, la diferencia en la correlación entre los gemelos idénticos y fraternos se puede utilizar para determinar si una enfermedad es hereditaria y, de ser así, con qué intensidad. ^[3]

La distribución genómica de la heterocigosidad

El mapa de polimorfismos de un solo nucleótido (SNP) humano ha revelado grandes variaciones regionales en heterocigosidad, más de las que se pueden explicar sobre la base de la probabilidad aleatoria ( distribuida por Poisson ). ^[10] En parte, estas variaciones podrían explicarse sobre la base de métodos de evaluación, la disponibilidad de secuencias genómicas y posiblemente el modelo genético poblacional coalescente estándar. Las influencias genéticas poblacionales podrían tener una influencia importante en esta variación: algunos loci presumiblemente tendrían ancestros comunes comparativamente recientes, otros podrían tener genealogías mucho más antiguas y, por lo tanto, la acumulación regional de SNP a lo largo del tiempo podría ser bastante diferente. La densidad local de SNP a lo largo de los cromosomas parece agruparse de acuerdo con una ley de potencia de varianza a media y obedecer la distribución de Poisson compuesta de Tweedie . ^[11] En este modelo, las variaciones regionales en el mapa de SNP se explicarían por la acumulación de múltiples segmentos genómicos pequeños a través de la recombinación, donde el número medio de SNP por segmento estaría distribuido gamma en proporción a un tiempo distribuido gamma hasta el ancestro común más reciente para cada segmento. ^[12]

Historia

La teoría coalescente es una extensión natural del concepto más clásico de genética de poblaciones de evolución neutral y es una aproximación al modelo de Fisher-Wright (o Wright-Fisher) para poblaciones grandes. Fue descubierta independientemente por varios investigadores en la década de 1980. ^[13]^[14]^[15]^[16]

Software

Existe una gran cantidad de software para simular conjuntos de datos bajo el proceso de coalescencia, así como para inferir parámetros como el tamaño de la población y las tasas de migración a partir de datos genéticos.

BEAST y BEAST 2 : paquete de inferencia bayesiana a través de MCMC con una amplia gama de modelos coalescentes que incluyen el uso de secuencias muestreadas temporalmente. ^[17]
BPP – paquete de software para inferir filogenia y tiempos de divergencia entre poblaciones bajo un proceso de coalescencia de múltiples especies.
CoaSim – software para simular datos genéticos bajo el modelo coalescente.
DIYABC: un enfoque fácil de usar para el ABC que permite inferir la historia de la población utilizando marcadores moleculares. ^[18]
DendroPy – una biblioteca Python para computación filogenética, con clases y métodos para simular árboles coalescentes puros (sin restricciones), así como árboles coalescentes restringidos bajo el modelo coalescente de múltiples especies (es decir, "árboles de genes en árboles de especies").
GeneRecon: software para el mapeo a escala fina del desequilibrio de ligamiento de genes de enfermedades utilizando la teoría coalescente basada en un marco MCMC bayesiano .
genetree Archivado el 5 de febrero de 2012 en Wayback Machine software para la estimación de parámetros genéticos de poblaciones mediante teoría y simulación de coalescencia (el paquete R "popgen"). Véase también Oxford Mathematical Genetics and Bioinformatics Group
GENOME – simulación rápida de todo el genoma basada en coalescencia ^[19]
IBDSim – un paquete informático para la simulación de datos genotípicos bajo aislamiento general mediante modelos de distancia. ^[20]
IMa – IMa implementa el mismo modelo de Aislamiento con Migración, pero lo hace utilizando un nuevo método que proporciona estimaciones de la densidad de probabilidad posterior conjunta de los parámetros del modelo. IMa también permite pruebas de razón de verosimilitud logarítmica de modelos demográficos anidados. IMa se basa en un método descrito en Hey y Nielsen (2007 PNAS 104:2785–2790). IMa es más rápido y mejor que IM (es decir, en virtud de proporcionar acceso a la función de densidad posterior conjunta), y se puede utilizar para la mayoría (pero no todas) de las situaciones y opciones para las que se puede utilizar IM.
Lamarc – software para la estimación de tasas de crecimiento poblacional, migración y recombinación.
Migraña: un programa que implementa algoritmos coalescentes para un análisis de máxima verosimilitud (utilizando algoritmos de muestreo de importancia ) de datos genéticos con un enfoque en poblaciones estructuradas espacialmente. ^[21]
Migrar: máxima verosimilitud e inferencia bayesiana de tasas de migración bajo el modelo n -coalescente. La inferencia se implementa utilizando MCMC
MaCS (simulador coalescente markoviano) simula genealogías espaciales en todos los cromosomas como un proceso markoviano. Es similar al algoritmo SMC de McVean y Cardin y admite todos los escenarios demográficos encontrados en el manuscrito de Hudson.
ms & msHOT – Programa original de Richard Hudson para generar muestras bajo modelos neutrales ^[22] y una extensión que permite puntos calientes de recombinación . ^[23]
msms – una versión extendida de ms que incluye barridos selectivos. ^[24]
msprime – un simulador rápido y escalable compatible con ms, que permite realizar simulaciones demográficas y producir archivos de salida compactos para miles o millones de genomas.
PhyloCoalSimulations: un paquete de Julia para simular árboles genéticos bajo la coalescencia a lo largo de un gráfico de mezcla/red filogenética. El modelo permite la posible herencia correlacionada en reticulaciones, que representan eventos de introgresión, flujo genético o hibridación.
Recodon y NetRecodon: software para simular secuencias codificantes con recombinación inter/intracodón, migración, tasa de crecimiento y muestreo longitudinal. ^[25]^[26]
CoalEvol y SGWE: software para simular secuencias de nucleótidos, codificantes y de aminoácidos bajo la coalescencia con demografía, recombinación, estructura poblacional con migración y muestreo longitudinal. ^[27]
SARG – Estructura Gráfica de recombinación ancestral de Magnus Nordborg
simcoal2 – software para simular datos genéticos bajo el modelo coalescente con demografía compleja y recombinación
TreesimJ – software de simulación avanzada que permite el muestreo de genealogías y conjuntos de datos bajo diversos modelos selectivos y demográficos.

Referencias

^ Etheridge, Alison (7 de enero de 2011). Algunos modelos matemáticos desde la genética de poblaciones: École D'Été de Probabilités de Saint-Flour XXXIX-2009. Medios de ciencia y negocios de Springer. ISBN 978-3-642-16631-0.
^ abc Morris, A., Whittaker, J. y Balding, D. (2002). Mapeo a escala fina de loci de enfermedades mediante modelado coalescente fragmentado de genealogías. The American Journal of Human Genetics, 70 (3), 686–707. doi :10.1086/339271
^ abc Rannala, B. (2001). Hallazgo de genes que influyen en la susceptibilidad a enfermedades complejas en la era post-genoma. American journal of drugogenómica , 1 (3), 203–221.

Fuentes

Artículos

^ Arenas, M. y Posada, D. (2014) Simulación de la evolución de todo el genoma bajo modelos de sustitución heterogéneos e historias coalescentes complejas de múltiples especies. Molecular Biology and Evolution 31(5): 1295–1301
^ Arenas, M. y Posada, D. (2007) Recodon: Simulación coalescente de secuencias de ADN codificante con recombinación, migración y demografía. BMC Bioinformatics 8: 458
^ Arenas, M. y Posada, D. (2010) Simulación coalescente de la recombinación intracodónica. Genetics 184(2): 429–437
^ Browning, SR (2006) Mapeo de asociaciones de múltiples loci utilizando cadenas de Markov de longitud variable. American Journal of Human Genetics 78:903–913
^ Cornuet J.-M., Pudlo P., Veyssier J., Dehne-Garcia A., Gautier M., Leblois R., Marin J.-M., Estoup A. (2014) DIYABC v2.0: un software para realizar inferencias de cálculo bayesiano aproximado sobre la historia de la población utilizando polimorfismo de un solo nucleótido, secuencia de ADN y datos de microsatélites. Bioinformática '30': 1187–1189
^ Degnan, JH y LA Salter. 2005. Distribuciones de árboles genéticos bajo el proceso coalescente. Evolution 59(1): 24–37. pdf de coaltree.net/
^ Donnelly, P., Tavaré, S. (1995) Coalescentes y estructura genealógica bajo neutralidad. Annual Review of Genetics 29 :401–421
^ Drummond A, Suchard MA, Xie D, Rambaut A (2012). "Filogenética bayesiana con BEAUti y BEAST 1.7". Biología molecular y evolución . 29 (8): 1969–1973. doi :10.1093/molbev/mss075. PMC 3408070 . PMID 22367748.
^ Ewing, G. y Hermisson J. (2010), MSMS: un programa de simulación coalescente que incluye recombinación, estructura demográfica y selección en un solo locus, Bioinformatics 26:15
^ Hellenthal, G., Stephens M. (2006) msHOT: modificación del simulador de ms de Hudson para incorporar puntos críticos de cruce y conversión genética Bioinformática AOP
^ Hudson, Richard R. (1983a). "Prueba del modelo de alelo neutro de tasa constante con datos de secuencias de proteínas". Evolution . 37 (1): 203–17. doi :10.2307/2408186. ISSN 1558-5646. JSTOR 2408186. PMID 28568026.
^ Hudson RR (1983b) Propiedades de un modelo de alelo neutro con recombinación intragénica. Biología de poblaciones teórica 23 :183–201.
^ Hudson RR (1991) Genealogías genéticas y el proceso coalescente. Oxford Surveys in Evolutionary Biology 7 : 1–44
^ Hudson RR (2002) Generación de muestras según un modelo neutral de Wright-Fisher. Bioinformática 18:337–338
^ Kendal WS (2003) Un modelo de dispersión exponencial para la distribución de polimorfismos de un solo nucleótido en humanos. Mol Biol Evol 20 : 579–590
Hein, J., Schierup, M., Wiuf C. (2004) Genealogías genéticas, variación y evolución: una introducción a la teoría coalescente Oxford University Press ISBN 978-0-19-852996-5
^ Kaplan, NL, Darden, T., Hudson, RR (1988) El proceso de coalescencia en modelos con selección. Genetics 120 :819–829
^ Kingman, JFC (1982). "Sobre la genealogía de grandes poblaciones". Journal of Applied Probability . 19 : 27–43. CiteSeerX 10.1.1.552.1429 . doi :10.2307/3213548. ISSN 0021-9002. JSTOR 3213548. S2CID 125055288.
^ Kingman, JFC (2000) Orígenes del coalescente 1974-1982. Genética 156:1461-1463
^ Leblois R., Estoup A. y Rousset F. (2009) IBDSim: un programa informático para simular datos genotípicos en condiciones de aislamiento por distancia Molecular Ecology Resources 9:107–109
^ Liang L., Zöllner S., Abecasis GR (2007) GENOME: un simulador rápido de genoma completo basado en coalescencia. Bioinformática 23: 1565–1567
^ Mailund, T., Schierup, MH, Pedersen, CNS, Mechlenborg, PJM, Madsen, JN, Schauser, L. (2005) CoaSim: Un entorno flexible para simular datos genéticos bajo modelos coalescentes BMC Bioinformatics 6:252
^ Möhle, M., Sagitov, S. (2001) Una clasificación de los procesos coalescentes para modelos de población intercambiables haploides The Annals of Probability 29 :1547–1562
^ Morris, AP, Whittaker, JC, Balding, DJ (2002) Mapeo a escala fina de loci de enfermedades a través del modelado coalescente fragmentado de genealogías American Journal of Human Genetics 70:686–707
^ Neuhauser, C. , Krone, SM (1997) La genealogía de muestras en modelos con selección Genética 145 519–534
^ Pitman, J. (1999) Coalescentes con colisiones múltiples The Annals of Probability 27 :1870–1902
^ Harding, Rosalind, M. 1998. Nuevas filogenias: una mirada introductoria a la coalescencia. pp. 15–22, en Harvey, PH, Brown, AJL, Smith, JM, Nee, S. Nuevos usos para nuevas filogenias. Oxford University Press ( ISBN 0198549849 )
^ Rosenberg, NA, Nordborg, M. (2002) Árboles genealógicos, teoría coalescente y análisis de polimorfismos genéticos. Nature Reviews Genetics 3 :380–390
^ Sagitov, S. (1999) La coalescencia general con fusiones asincrónicas de líneas ancestrales Journal of Applied Probability 36 :1116–1125
^ Schweinsberg, J. (2000) Coalescentes con colisiones múltiples simultáneas Electronic Journal of Probability 5 :1–50
^ Slatkin, M. (2001) Simulación de genealogías de alelos seleccionados en poblaciones de tamaño variable Genetic Research 145 :519–534
^ Tajima, F. (1983) Relación evolutiva de las secuencias de ADN en poblaciones finitas. Genetics 105 :437–460
^ Tavare S, Balding DJ, Griffiths RC y Donnelly P. 1997. Inferencia de tiempos de coalescencia a partir de datos de secuencias de ADN. Genetics 145 : 505–518.
^ El grupo de trabajo internacional sobre mapas de SNP. 2001. Un mapa de la variación del genoma humano que contiene 1,42 millones de polimorfismos de un solo nucleótido. Nature 409 : 928–933.
^ Zöllner S. y Pritchard JK (2005) Mapeo de asociaciones basado en coalescencia y mapeo fino de loci de rasgos complejos Genetics 169:1071–1092
^ Rousset F. y Leblois R. (2007) Análisis de verosimilitud y verosimilitud aproximada de la estructura genética en un hábitat lineal: rendimiento y robustez para modelar especificaciones erróneas Molecular Biology and Evolution 24:2730–2745

Libros

Hein, J; Schierup, MH, y Wiuf, C. Genealogías genéticas, variación y evolución: una introducción a la teoría coalescente . Oxford University Press , 2005. ISBN 0-19-852996-1 .
Nordborg, M. (2001) Introducción a la teoría coalescente
Capítulo 7 en Balding, D., Bishop, M., Cannings, C., editores, Handbook of Statistical Genetics . Wiley ISBN 978-0-471-86094-5
Wakeley J. (2006) Introducción a la teoría coalescente Roberts & Co ISBN 0-9747077-5-9 Sitio web adjunto con capítulos de muestra
^ Rice SH. (2004). Teoría de la evolución: fundamentos matemáticos y conceptuales . Sinauer Associates: Sunderland, MA. Véase especialmente el capítulo 3 para obtener derivaciones detalladas.
Berestycki N. "Progresos recientes en la teoría coalescente" 2009 ENSAIOS Matematicos vol.16
Bertoin J. "Procesos aleatorios de fragmentación y coagulación"., 2006. Cambridge Studies in Advanced Mathematics, 102. Cambridge University Press , Cambridge, 2006. ISBN 978-0-521-86728-3 ;
Pitman J. "Procesos estocásticos combinatorios" Springer (2003)

Enlaces externos

EvoMath 3: deriva genética y coalescencia, en resumen: descripción general, con ecuaciones de probabilidad para la deriva genética y gráficos de simulación