La distancia genética es una medida de la divergencia genética entre especies o entre poblaciones dentro de una especie, ya sea que la distancia mida el tiempo transcurrido desde un ancestro común o el grado de diferenciación. [2] Las poblaciones con muchos alelos similares tienen distancias genéticas pequeñas. Esto indica que están estrechamente relacionadas y tienen un ancestro común reciente.
La distancia genética es útil para reconstruir la historia de las poblaciones, como las múltiples expansiones humanas fuera de África . [3] También se utiliza para comprender el origen de la biodiversidad . Por ejemplo, las distancias genéticas entre diferentes razas de animales domésticos se investigan a menudo para determinar qué razas deben protegerse para mantener la diversidad genética. [4]
La vida en la Tierra comenzó a partir de organismos unicelulares muy simples que evolucionaron hasta convertirse en organismos multicelulares muy complejos a lo largo de más de tres mil millones de años. [5] La creación de un árbol de la vida integral que represente a todos los organismos que han vivido alguna vez en la Tierra es importante para comprender la evolución de la vida frente a todos los desafíos que enfrentan los organismos vivos para lidiar con desafíos similares en el futuro. Los biólogos evolutivos han intentado crear árboles evolutivos o filogenéticos que abarquen tantos organismos como sea posible en función de los recursos disponibles. La datación fósil y el reloj molecular son los dos medios para generar la historia evolutiva de los organismos vivos. El registro fósil es aleatorio, incompleto y no proporciona una cadena continua de eventos como una película con fotogramas faltantes que no puede contar toda la trama de la película. [5]
Por otro lado, los relojes moleculares son secuencias específicas de ADN , ARN o proteínas (aminoácidos) que se utilizan para determinar a nivel molecular las similitudes y diferencias entre especies, para averiguar la línea de tiempo de la divergencia [6] y para rastrear al ancestro común de las especies basándose en las tasas de mutación y los cambios de secuencia que se acumulan en esas secuencias específicas. [6] El principal impulsor de la evolución es la mutación o los cambios en los genes y la contabilidad de esos cambios a lo largo del tiempo determina la distancia genética aproximada entre las especies. Estos relojes moleculares específicos están bastante conservados en una variedad de especies y tienen una tasa constante de mutación como un reloj y están calibrados en función de eventos evolutivos (registros fósiles). Por ejemplo, el gen de la alfa-globina (componente de la hemoglobina) muta a una tasa de 0,56 por par de bases por mil millones de años. [6] El reloj molecular puede llenar esos vacíos creados por los registros fósiles faltantes.
En el genoma de un organismo , cada gen se encuentra en un lugar específico llamado locus para ese gen. Las variaciones alélicas en estos loci causan variación fenotípica dentro de las especies (por ejemplo, color de pelo, color de ojos). Sin embargo, la mayoría de los alelos no tienen un impacto observable en el fenotipo. Dentro de una población, los nuevos alelos generados por mutación mueren o se propagan por toda la población. Cuando una población se divide en diferentes poblaciones aisladas (ya sea por factores geográficos o ecológicos), las mutaciones que ocurren después de la división estarán presentes solo en la población aislada. La fluctuación aleatoria de las frecuencias de los alelos también produce diferenciación genética entre poblaciones. Este proceso se conoce como deriva genética . Al examinar las diferencias entre las frecuencias de los alelos entre las poblaciones y calcular la distancia genética, podemos estimar cuánto tiempo hace que se separaron las dos poblaciones. [7]
Supongamos una secuencia de ADN o un gen hipotético que tiene una tasa de mutación de una base cada 10 millones de años. Utilizando esta secuencia de ADN, la divergencia de dos especies diferentes o la distancia genética entre dos especies diferentes se puede determinar contando el número de diferencias de pares de bases entre ellas. Por ejemplo, en la Figura 2, una diferencia de 4 bases en la secuencia hipotética entre esas dos especies indicaría que divergieron hace 40 millones de años, y su ancestro común habría vivido al menos hace 20 millones de años antes de su divergencia. Basándonos en el reloj molecular, la siguiente ecuación se puede utilizar para calcular el tiempo transcurrido desde la divergencia. [8]
Número de mutaciones ÷ Mutación por año (tasa de mutación) = tiempo transcurrido desde la divergencia
Los recientes avances en la tecnología de secuenciación y la disponibilidad de bases de datos genómicas integrales y herramientas bioinformáticas capaces de almacenar y procesar cantidades colosales de datos generados por la tecnología de secuenciación avanzada han mejorado enormemente los estudios evolutivos y la comprensión de las relaciones evolutivas entre las especies. [9] [10]
Se pueden utilizar diferentes marcadores biomoleculares como ADN, ARN y secuencias de aminoácidos (proteínas) para determinar la distancia genética. [11] [12]
Los criterios de selección [13] del biomarcador apropiado para la distancia genética implican los tres pasos siguientes:
La elección de la variabilidad depende del resultado deseado. Por ejemplo, se recomienda un nivel muy alto de variabilidad para estudios demográficos y análisis de paternidad , una variabilidad media a alta para comparar poblaciones distintas y una variabilidad moderada a muy baja para estudios filogenéticos. [13] La localización genómica y la ploidía del marcador también son un factor importante. Por ejemplo, el número de copias del gen es inversamente proporcional a la robustez, siendo el genoma haploide ( ADN mitocondrial ) más propenso a la deriva genética que el genoma diploide ( ADN nuclear ).
La elección y ejemplos de marcadores moleculares para estudios de biología evolutiva. [13]
Las fuerzas evolutivas , como la mutación, la deriva genética, la selección natural y el flujo genético , impulsan el proceso de evolución y la diversidad genética. Todas estas fuerzas desempeñan un papel importante en la distancia genética dentro de las especies y entre ellas. [19]
Existen diferentes medidas estadísticas que tienen como objetivo cuantificar la desviación genética entre poblaciones o especies. Al utilizar suposiciones obtenidas a partir del análisis experimental de las fuerzas evolutivas, se puede seleccionar un modelo que se adapte con mayor precisión a un experimento determinado para estudiar un grupo genético. Además, al comparar qué tan bien diferentes métricas modelan ciertas características de la población, como el aislamiento, se pueden identificar métricas que sean más adecuadas para comprender los grupos recientemente estudiados [20]. Las métricas de distancia genética más utilizadas son la distancia genética de Nei [7] , la medida de Cavalli-Sforza y Edwards [21] y la distancia genética de Reynolds, Weir y Cockerham [22] .
Una de las medidas de distancia más básicas y directas es la distancia de Jukes-Cantor . Esta medida se construye a partir del supuesto de que no se produjeron inserciones ni deleciones, todas las sustituciones son independientes y cada cambio de nucleótido es igualmente probable. Con estas presunciones, podemos obtener la siguiente ecuación: [23]
donde es la distancia de Jukes-Cantor entre dos secuencias A y B, y es la disimilitud entre las dos secuencias.
En 1972, Masatoshi Nei publicó lo que se conoció como la distancia genética estándar de Nei. Esta distancia tiene la interesante propiedad de que si la tasa de cambio genético (sustitución de aminoácidos) es constante por año o generación, entonces la distancia genética estándar de Nei ( D ) aumenta en proporción al tiempo de divergencia. Esta medida supone que las diferencias genéticas son causadas por mutación y deriva genética . [7]
Esta distancia también se puede expresar en términos de la media aritmética de la identidad genética. Sea la probabilidad de que los dos miembros de la población tengan el mismo alelo en un locus particular y sea la probabilidad correspondiente en la población . Además, sea la probabilidad de que un miembro de y un miembro de tengan el mismo alelo. Ahora sean , y representan la media aritmética de , y sobre todos los loci, respectivamente. En otras palabras,
donde es el número total de loci examinados. [24]
La distancia estándar de Nei puede entonces escribirse como [7]
En 1967, Luigi Luca Cavalli-Sforza y AWF Edwards publicaron esta medida, que supone que las diferencias genéticas surgen únicamente debido a la deriva genética . Una ventaja importante de esta medida es que las poblaciones están representadas en una hiperesfera, cuya escala es de una unidad por cada sustitución génica. La distancia de cuerda en la esfera hiperdimensional está dada por [2] [21]
Algunos autores eliminan el factor para simplificar la fórmula, a costa de perder la propiedad de que la escala es de una unidad por sustitución genética.
En 1983, John Reynolds, Bruce Weir y C. Clark Cockerham publicaron esta medida . Esta medida supone que la diferenciación genética se produce únicamente por deriva genética sin mutaciones. Calcula el coeficiente de coancestría , que proporciona una medida de la divergencia genética mediante: [22]
El modelo de dos parámetros de Kimura (K2P) fue desarrollado en 1980 por el biólogo japonés Motoo Kimura. Es compatible con la teoría neutral de la evolución, que también fue desarrollada por el mismo autor. Como se muestra en la Figura 4, esta medida de la distancia genética da cuenta del tipo de mutación que se produce, es decir, si se trata de una transición (es decir, de purina a purina o de pirimidina a pirimidina) o de una transversión (es decir, de purina a pirimidina o viceversa). Con esta información, se puede derivar la siguiente fórmula:
donde P es y Q es , siendo el número de conversiones de tipo de transición, siendo el número de conversiones de tipo de transversión y siendo el número de sitios de nucleótidos comparados. [25]
Vale la pena señalar que cuando las sustituciones de tipo transición y transversión tienen la misma probabilidad de ocurrir, y se supone que es igual a , entonces la fórmula anterior se puede reducir al modelo de Jukes Cantor. Sin embargo, en la práctica, es típicamente mayor que . [25]
Se ha demostrado que, si bien el método K2P funciona bien para clasificar especies distantes, no siempre es la mejor opción para comparar especies estrechamente relacionadas. En estos casos, puede ser mejor utilizar la distancia p. [26]
El modelo de tres parámetros de Kimura (K3P) se publicó por primera vez en 1981. Esta medida supone tres tasas de sustitución cuando los nucleótidos mutan, que se pueden ver en la Figura 5. Hay una tasa para mutaciones de tipo transición , una tasa para mutaciones de tipo transversión a bases correspondientes (por ejemplo, G a C; tipo de transversión 1 en la figura) y una tasa para mutaciones de tipo transversión a bases no correspondientes (por ejemplo, G a T; tipo de transversión 2 en la figura).
Con estas tasas de sustitución se puede derivar la siguiente fórmula:
donde es la probabilidad de una mutación de tipo transición, es la probabilidad de una mutación de tipo transversión a una base correspondiente, y es la probabilidad de una mutación de tipo transversión a una base no correspondiente. Cuando se supone que y son iguales, esto se reduce a la distancia del parámetro Kimura 2. [27]
Se han propuesto muchas otras medidas de distancia genética con éxito variable.
La distancia D A de Nei fue creada por Masatoshi Nei, un biólogo japonés-estadounidense en 1983. Esta distancia supone que las diferencias genéticas surgen debido a la mutación y la deriva genética , pero se sabe que esta medida de distancia proporciona árboles de población más confiables que otras distancias, particularmente para datos de ADN de microsatélites. Este método no es ideal en casos en los que la selección natural juega un papel importante en la genética de una población. [28] [29]
:Distancia DA de Nei, la distancia genética entre las poblaciones X e Y
:Un locus o gen estudiado siendo la suma de loci o genes
y : Las frecuencias del alelo u en las poblaciones X e Y, respectivamente
L: El número total de loci examinados
La distancia euclidiana es una fórmula extraída de los Elementos de Euclides, un conjunto de 13 libros que detallan los fundamentos de todas las matemáticas euclidianas. Los principios fundamentales delineados en estas obras se utilizan no solo en los espacios euclidianos, sino que también fueron ampliados por Isaac Newton y Gottfried Leibniz en actividades aisladas para crear el cálculo. [31] La fórmula de la distancia euclidiana se utiliza para transmitir, de la forma más sencilla posible, la disimilitud genética entre poblaciones, donde una distancia mayor indica una mayor disimilitud. [32] Como se ve en la figura 6, este método se puede visualizar de forma gráfica, esto se debe al trabajo de René Descartes, quien creó el principio fundamental de la geometría analítica, o el sistema de coordenadas cartesianas. En un ejemplo interesante de repeticiones históricas, René Descartes no fue el único que descubrió el principio fundamental de la geometría analítica, este principio fue descubierto en una actividad aislada por Pierre de Fermat, quien dejó su trabajo inédito. [33] [34]
:Distancia genética euclidiana entre las poblaciones X e Y
y : Frecuencias alélicas en el locus u en las poblaciones X e Y, respectivamente
Se desarrolló específicamente para marcadores microsatélites y se basa en el modelo de mutación por pasos (SMM). La fórmula de la distancia de Goldstein está modelada de tal manera que el valor esperado aumentará linealmente con el tiempo, esta propiedad se mantiene incluso cuando se violan los supuestos de mutaciones de un solo paso y tasa de mutación simétrica. La distancia de Goldstein se deriva del modelo de distancia cuadrática promedio, del cual Goldstein también fue un colaborador. [35]
Este cálculo representa la cantidad mínima de diferencias de codones para cada locus . [36] La medición se basa en el supuesto de que las diferencias genéticas surgen debido a la mutación y la deriva genética . [37]
:Cantidad mínima de diferencia de codones por locus
y : Probabilidad media de que dos miembros de la población X tengan el mismo alelo
:Probabilidad promedio de que los miembros de las poblaciones X e Y tengan el mismo alelo
De manera similar a la distancia euclidiana, la distancia de Czekanowski implica calcular la distancia entre los puntos de frecuencia alélica que se grafican en un eje creado por . Sin embargo, Czekanowski supone que no hay una ruta directa disponible y suma los lados del triángulo formado por los puntos de datos en lugar de encontrar la hipotenusa. Esta fórmula se conoce como la distancia de Manhattan porque su metodología es similar a la naturaleza de la madriguera de la ciudad de Nueva York. Manhattan está construida principalmente sobre un sistema de cuadrícula que requiere que los resentimientos solo hagan giros de 90 grados durante el viaje, lo que es paralelo al pensamiento de la fórmula.
y : Frecuencias alélicas en el locus u en las poblaciones X e Y, respectivamente
y : valor del eje X de la frecuencia de un alelo para las poblaciones X e Y
y : valor del eje Y de la frecuencia de un alelo para las poblaciones X e Y
De manera similar a la distancia de Czekanowski, la distancia de Rogers implica calcular la distancia entre puntos de frecuencia alélica. Sin embargo, este método toma la distancia directa entre los puntos.
[38]
y : Frecuencias alélicas en el locus u en las poblaciones X e Y, respectivamente
: Número total de loci de microsatélites examinados
Si bien estas fórmulas permiten realizar cálculos rápidos y sencillos, la información que proporcionan es limitada. Los resultados de estas fórmulas no tienen en cuenta los posibles efectos de la cantidad de cambios de codones entre poblaciones ni el tiempo de separación entre poblaciones. [39]
Una medida de distancia genética comúnmente utilizada es el índice de fijación (F ST ) que varía entre 0 y 1. Un valor de 0 indica que dos poblaciones son genéticamente idénticas (mínima o nula diversidad genética entre las dos poblaciones) mientras que un valor de 1 indica que dos poblaciones son genéticamente diferentes (máxima diversidad genética entre las dos poblaciones). No se asume ninguna mutación. Las poblaciones grandes entre las que hay mucha migración, por ejemplo, tienden a estar poco diferenciadas, mientras que las poblaciones pequeñas entre las que hay poca migración tienden a estar muy diferenciadas. F ST es una medida conveniente de esta diferenciación y, como resultado, F ST y las estadísticas relacionadas se encuentran entre las estadísticas descriptivas más utilizadas en genética de poblaciones y evolutiva. Pero F ST es más que una estadística descriptiva y una medida de diferenciación genética. F ST está directamente relacionada con la varianza en la frecuencia de alelos entre poblaciones y, a la inversa, con el grado de semejanza entre individuos dentro de las poblaciones. Si F ST es pequeño, significa que las frecuencias de alelos dentro de cada población son muy similares; Si es grande, significa que las frecuencias alélicas son muy diferentes.
{{cite web}}
: |last=
tiene nombre genérico ( ayuda ){{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link)