En genética , la estimación de haplotipos (también conocida como "fase") se refiere al proceso de estimación estadística de haplotipos a partir de datos de genotipos . La situación más común surge cuando los genotipos se recogen en un conjunto de sitios polimórficos de un grupo de individuos. Por ejemplo, en genética humana, los estudios de asociación de todo el genoma recogen genotipos en miles de individuos en entre 200.000 y 5.000.000 de SNP utilizando microarreglos. Los métodos de estimación de haplotipos se utilizan en el análisis de estos conjuntos de datos y permiten la imputación de genotipos [1] [2] de alelos de bases de datos de referencia como el Proyecto HapMap y el Proyecto 1000 Genomas .
Los genotipos miden la combinación desordenada de alelos en cada locus, mientras que los haplotipos representan la información genética en múltiples loci que han sido heredados juntos de los padres de un individuo. Teóricamente el número de haplotipos posibles es igual al producto de los números de alelos de cada locus en consideración. Especialmente, la mayoría de los SNP son bialélicos; Por lo tanto, al considerar loci bialélicos heterocigotos , habrá posibles pares de haplotipos que podrían subyacer a los genotipos. Por ejemplo, al considerar dos loci bialélicos A y B ( ), de los cuales los genotipos son a 1 y a 2 , b 1 y b 2 , respectivamente, tendremos los siguientes haplotipos: a 1 _b 1 , a 1 _b 2 , a 2 _b 1 y a 2 _b 2 ( "_" indica que los alelos están en el mismo cromosoma).
Se han propuesto muchos métodos estadísticos para la estimación de haplotipos. Algunos de los primeros enfoques utilizaban un modelo multinomial simple en el que a cada posible haplotipo consistente con la muestra se le asignaba un parámetro de frecuencia desconocido y estos parámetros se estimaban con un algoritmo de maximización de expectativas . Estos enfoques solo podían manejar una pequeña cantidad de sitios a la vez, aunque más tarde se desarrollaron versiones secuenciales, específicamente el método SNPHAP.
Los métodos más precisos y ampliamente utilizados para la estimación de haplotipos utilizan alguna forma de modelo oculto de Markov (HMM) para realizar la inferencia. Durante mucho tiempo, PHASE [3] fue el método más preciso. PHASE fue el primer método en utilizar ideas de la teoría coalescente sobre la distribución conjunta de haplotipos. Este método utilizó un enfoque de muestreo de Gibbs en el que los haplotipos de cada individuo se actualizaron condicionalmente en función de las estimaciones actuales de haplotipos de todas las demás muestras. Se utilizaron aproximaciones a la distribución de un haplotipo condicional a un conjunto de otros haplotipos para las distribuciones condicionales del muestreador de Gibbs. PHASE se utilizó para estimar los haplotipos del Proyecto HapMap . PHASE estaba limitado por su velocidad y no era aplicable a conjuntos de datos de estudios de asociación de todo el genoma.
Los métodos fastPHASE [4] y BEAGLE [5] introdujeron modelos de agrupamiento de haplotipos aplicables a conjuntos de datos de tamaño GWAS . Posteriormente se introdujeron los métodos IMPUTE2 [6] y MaCH [7] que eran similares al enfoque PHASE pero mucho más rápidos. Estos métodos actualizan iterativamente las estimaciones de haplotipos de cada muestra condicionalmente a un subconjunto de K estimaciones de haplotipos de otras muestras. IMPUTE2 introdujo la idea de elegir cuidadosamente qué subconjunto de haplotipos condicionar para mejorar la precisión. La precisión aumenta con K pero con una complejidad computacional cuadrática.
El método SHAPEIT1 logró un avance importante al introducir un método de complejidad lineal que opera solo en el espacio de haplotipos consistentes con los genotipos de un individuo. [8] El método HAPI-UR propuso posteriormente un método muy similar. [9] SHAPEIT2 [10] combina las mejores características de SHAPEIT1 e IMPUTE2 para mejorar la eficiencia y la precisión.