En genética de poblaciones , el estimador de Watterson es un método para describir la diversidad genética en una población. Fue desarrollado por Margaret Wu y GA Watterson en la década de 1970. [1] [2] Se estima contando el número de sitios polimórficos. Es una medida de la "tasa de mutación de la población" (el producto del tamaño efectivo de la población y la tasa de mutación neutral) a partir de la diversidad de nucleótidos observada de una población. , [3] donde es el tamaño efectivo de la población y es la tasa de mutación por generación de la población de interés (Watterson (1975) ). Las suposiciones realizadas son que hay una muestra de individuos haploides de la población de interés, que hay infinitos sitios capaces de variar (de modo que las mutaciones nunca se superponen o invierten entre sí), y que . Debido a que el número de sitios segregantes contados aumentará con el número de secuencias observadas, se utiliza el factor de corrección.
La estimación de , a menudo denotada como , es
¿Dónde está el número de sitios segregantes (un ejemplo de un sitio segregante sería un polimorfismo de un solo nucleótido ) en la muestra y
es el ésimo número armónico .
Esta estimación se basa en la teoría de coalescencia . El estimador de Watterson se utiliza comúnmente por su simplicidad. Cuando se cumplen sus supuestos, el estimador es imparcial y la varianza del estimador disminuye con el aumento del tamaño de la muestra o la tasa de recombinación. Sin embargo, el estimador puede estar sesgado por la estructura de la población. Por ejemplo, está sesgado hacia abajo en una población que crece exponencialmente . También puede estar sesgado por la violación del modelo mutacional de sitios infinitos; si múltiples mutaciones pueden sobrescribirse entre sí, el estimador de Watterson estará sesgado hacia abajo.
Comparar el valor del estimador de Watterson con la diversidad de nucleótidos es la base de la D de Tajima, que permite inferir el régimen evolutivo de un locus dado.