Estimación de haplotipos

En genética , la estimación de haplotipos (también conocida como "fase") se refiere al proceso de estimación estadística de haplotipos a partir de datos de genotipos . La situación más común surge cuando los genotipos se recogen en un conjunto de sitios polimórficos de un grupo de individuos. Por ejemplo, en genética humana, los estudios de asociación de todo el genoma recogen genotipos en miles de individuos en entre 200.000 y 5.000.000 de SNP utilizando microarreglos. Los métodos de estimación de haplotipos se utilizan en el análisis de estos conjuntos de datos y permiten la imputación de genotipos ^[1]^[2] de alelos de bases de datos de referencia como el Proyecto HapMap y el Proyecto 1000 Genomas .

Genotipos y haplotipos

Los genotipos miden la combinación desordenada de alelos en cada locus, mientras que los haplotipos representan la información genética en múltiples loci que han sido heredados juntos de los padres de un individuo. Teóricamente el número de haplotipos posibles es igual al producto de los números de alelos de cada locus en consideración. Especialmente, la mayoría de los SNP son bialélicos; Por lo tanto, al considerar loci bialélicos heterocigotos , habrá posibles pares de haplotipos que podrían subyacer a los genotipos. Por ejemplo, al considerar dos loci bialélicos A y B ( ), de los cuales los genotipos son a ₁ y a ₂ , b ₁ y b ₂ , respectivamente, tendremos los siguientes haplotipos: a ₁ _b ₁ , a ₁ _b ₂ , a ₂ _b ₁ y a ₂ _b ₂ ( "_" indica que los alelos están en el mismo cromosoma). ${\estilo de visualización N}$ $Estilo de visualización 2^{N}}$ ${\estilo de visualización N=2}$

Métodos de estimación de haplotipos

Se han propuesto muchos métodos estadísticos para la estimación de haplotipos. Algunos de los primeros enfoques utilizaban un modelo multinomial simple en el que a cada posible haplotipo consistente con la muestra se le asignaba un parámetro de frecuencia desconocido y estos parámetros se estimaban con un algoritmo de maximización de expectativas . Estos enfoques solo podían manejar una pequeña cantidad de sitios a la vez, aunque más tarde se desarrollaron versiones secuenciales, específicamente el método SNPHAP.

Los métodos más precisos y ampliamente utilizados para la estimación de haplotipos utilizan alguna forma de modelo oculto de Markov (HMM) para realizar la inferencia. Durante mucho tiempo, PHASE ^[3] fue el método más preciso. PHASE fue el primer método en utilizar ideas de la teoría coalescente sobre la distribución conjunta de haplotipos. Este método utilizó un enfoque de muestreo de Gibbs en el que los haplotipos de cada individuo se actualizaron condicionalmente en función de las estimaciones actuales de haplotipos de todas las demás muestras. Se utilizaron aproximaciones a la distribución de un haplotipo condicional a un conjunto de otros haplotipos para las distribuciones condicionales del muestreador de Gibbs. PHASE se utilizó para estimar los haplotipos del Proyecto HapMap . PHASE estaba limitado por su velocidad y no era aplicable a conjuntos de datos de estudios de asociación de todo el genoma.

Los métodos fastPHASE ^[4] y BEAGLE ^[5] introdujeron modelos de agrupamiento de haplotipos aplicables a conjuntos de datos de tamaño GWAS . Posteriormente se introdujeron los métodos IMPUTE2 ^[6] y MaCH ^[7] que eran similares al enfoque PHASE pero mucho más rápidos. Estos métodos actualizan iterativamente las estimaciones de haplotipos de cada muestra condicionalmente a un subconjunto de K estimaciones de haplotipos de otras muestras. IMPUTE2 introdujo la idea de elegir cuidadosamente qué subconjunto de haplotipos condicionar para mejorar la precisión. La precisión aumenta con K pero con una complejidad computacional cuadrática. $O(K^{2})$

El método SHAPEIT1 logró un avance importante al introducir un método de complejidad lineal que opera solo en el espacio de haplotipos consistentes con los genotipos de un individuo. ^[8] El método HAPI-UR propuso posteriormente un método muy similar. ^[9] SHAPEIT2 ^[10] combina las mejores características de SHAPEIT1 e IMPUTE2 para mejorar la eficiencia y la precisión. $O(K)$

Véase también

Lista de software de estimación de haplotipos e imputación de genotipos
Imputación : predecir genotipos faltantes utilizando haplotipos conocidos

Referencias

^ Marchini, J.; Howie, B. (2010). "Imputación de genotipos para estudios de asociación de todo el genoma". Nature Reviews Genetics . 11 (7): 499–511. doi :10.1038/nrg2796. PMID 20517342. S2CID 1465707.
^ Howie, B.; Fuchsberger, C.; Stephens, M.; Marchini, J.; Abecasis, GAR (2012). "Imputación rápida y precisa de genotipos en estudios de asociación de todo el genoma mediante pre-fase". Nature Genetics . 44 (8): 955–959. doi :10.1038/ng.2354. PMC 3696580 . PMID 22820512.
^ Stephens, M.; Smith, NJ; Donnelly, P. (2001). "Un nuevo método estadístico para la reconstrucción de haplotipos a partir de datos poblacionales". The American Journal of Human Genetics . 68 (4): 978–989. doi :10.1086/319501. PMC 1275651 . PMID 11254454.
^ Scheet, P.; Stephens, M. (2006). "Un modelo estadístico rápido y flexible para datos de genotipos de población a gran escala: aplicaciones para inferir genotipos faltantes y fase haplotípica". The American Journal of Human Genetics . 78 (4): 629–644. doi :10.1086/502802. PMC 1424677 . PMID 16532393.
^ Browning, SR; Browning, BL (2007). "Determinación rápida y precisa de fases de haplotipos e inferencia de datos faltantes para estudios de asociación de todo el genoma mediante el uso de agrupamiento de haplotipos localizados". The American Journal of Human Genetics . 81 (5): 1084–1097. doi :10.1086/521987. PMC 2265661 . PMID 17924348.
^ Howie, BN; Donnelly, P.; Marchini, J. (2009). Schork, Nicholas J (ed.). "Un método de imputación de genotipos flexible y preciso para la próxima generación de estudios de asociación de todo el genoma". PLOS Genetics . 5 (6): e1000529. doi : 10.1371/journal.pgen.1000529 . PMC 2689936 . PMID 19543373.
^ Li, Y.; Willer, CJ; Ding, J.; Scheet, P.; Abecasis, GAR (2010). "MaCH: Uso de datos de secuencia y genotipo para estimar haplotipos y genotipos no observados". Epidemiología genética . 34 (8): 816–834. doi :10.1002/gepi.20533. PMC 3175618 . PMID 21058334.
^ Delaneau, O.; Marchini, J.; Zagury, JFO (2011). "Un método de determinación de la complejidad lineal para miles de genomas". Nature Methods . 9 (2): 179–181. doi :10.1038/nmeth.1785. PMID 22138821. S2CID 13765612.
^ Williams, AL; Patterson, N.; Glessner, J.; Hakonarson, H.; Reich, D. (2012). "Etapa de muchos miles de muestras genotipadas". The American Journal of Human Genetics . 91 (2): 238–251. doi :10.1016/j.ajhg.2012.06.013. PMC 3415548 . PMID 22883141.
^ Delaneau, O.; Zagury, JF; Marchini, J. (2012). "Mejora de la fase de cromosomas completos para estudios genéticos de enfermedades y poblaciones". Nature Methods . 10 (1): 5–6. doi :10.1038/nmeth.2307. PMID 23269371. S2CID 205421216.