La saturación genética es el resultado de múltiples sustituciones en el mismo sitio en una secuencia, o sustituciones idénticas en diferentes secuencias, de modo que la tasa aparente de divergencia de la secuencia es menor que la divergencia real que ha ocurrido. [1] Al comparar dos o más secuencias genéticas que consisten en nucleótidos individuales, las diferencias en la secuencia observadas son solo diferencias en el estado final de la secuencia de nucleótidos. Los nucleótidos individuales que experimentan saturación genética cambian varias veces, a veces de nuevo a su nucleótido original o a un nucleótido común a la secuencia genética comparada. Sin información genética de taxones intermedios, es difícil saber cuánta saturación, o si alguna, ha ocurrido en una secuencia observada. [2] La saturación genética ocurre más rápidamente en secuencias de rápida evolución, como la región hipervariable del ADN mitocondrial, o en repeticiones cortas en tándem como en el cromosoma Y. [3] [4]
En filogenética, los efectos de saturación dan como resultado una atracción de ramas largas , donde los linajes más distantes tienen longitudes de ramas engañosamente cortas. También disminuye la información filogenética contenida en las secuencias. [5]
Las sustituciones múltiples se producen cuando nucleótidos individuales sufren múltiples cambios antes de alcanzar su identidad nucleotídica final. Se dice que una secuencia está saturada porque la mutación ha actuado varias veces sobre los nucleótidos y el cambio observado en la secuencia es, de hecho, menor que el cambio histórico en la secuencia. [1]
Es posible estimar la cantidad de saturación que una secuencia podría haber experimentado estimando la tasa de sustitución de una secuencia genética y cuánto tiempo ha pasado desde la divergencia. Las tasas de divergencia se estiman a partir de una variedad de fuentes que incluyen ADN ancestral, registros fósiles y eventos biográficos. [6] Este uso de relojes moleculares para determinar la divergencia es controvertido debido a su potencial de inexactitud y suposiciones hechas en el modelo (como la tasa de mutación consistente para todas las ramas) y se utiliza principalmente como una herramienta de estimación. [6] La saturación genética también se puede estimar comparando el número de diferencias observadas en secuencias de nucleótidos entre múltiples pares de especies. El número de sustituciones observadas entre secuencias de diferentes especies se puede comparar con el número de sustituciones inferidas en función de la longitud de la rama para encontrar el punto aproximado donde el número de sustituciones inferidas supera el número de sustituciones observadas. [6] [7] Este método puede dar a los investigadores una idea del nivel de saturación de un gen en particular, pero se cree que subestima la cantidad de saturación, especialmente para longitudes de ramas muy grandes. [2]
En el campo de la filogenética molecular , las distancias y relaciones entre especies se investigan observando las secuencias de ADN, ARN o aminoácidos de un organismo. Cuando se construyen árboles filogenéticos sin considerar la posible saturación, la posibilidad de múltiples sustituciones puede hacer que la distancia entre taxones parezca mucho menor que la distancia real. El alineamiento de secuencias múltiples , una técnica común para construir filogenias, se basa en la comparación de secuencias homólogas. Puede confundirse fácilmente por la saturación genética porque los loci homólogos bajo investigación no muestran ninguna indicación de si más de una sustitución en cada nucleótido separa o no los taxones que se describen. [1] La sustitución disminuye la cantidad de información filogenética que puede estar contenida en las secuencias, especialmente cuando hay ramas profundas involucradas. Esto es particularmente evidente en estudios que examinan grupos de artrópodos. [8] Además, los efectos de saturación pueden conducir a una subestimación grave del tiempo de divergencia. Esto se debe principalmente a la aleatorización de la señal filogenética con el número de mutaciones y sustituciones de secuencias observadas. Los efectos de la saturación pueden enmascarar la verdadera cantidad de tiempo de divergencia, lo que genera árboles filogenéticos inexactos. [1] [2]
La parsimonia juega un papel fundamental en el análisis de la saturación genética. Este principio da preferencia a la explicación más simple que pueda explicar los datos. En lo que respecta a la saturación genética, la parsimonia significa que la relación hipotética es aquella que tiene el menor número de cambios de caracteres. El uso de la parsimonia para analizar la saturación genética puede generar conflictos a la hora de crear un árbol filogenético. [7] Cuando solo se utilizan datos de secuencia, es posible obtener numerosos árboles filogenéticos con la misma cantidad de parsimonia.
La saturación genética contribuye a la atracción de ramas largas en su capacidad de mezclar en gran medida el código genético sin cambios fenotípicos asociados fácilmente observables. La atracción de ramas largas ocurre cuando dos taxones relativamente fuera de grupo están aparentemente estrechamente vinculados. [1] Cuantas más mutaciones de sustitución, más probable es que secuencias previamente diferentes compartan nucleótidos y, como resultado, muestren homología en los cálculos del árbol filogenético. Se ha propuesto que la atracción de ramas largas debido a la saturación es la causa de los vínculos en las filogenias antiguas y pone en tela de juicio incluso algunas de las relaciones más tempranas entre eucariotas , arqueas y eubacterias . [2]
La mutagénesis por saturación del sitio genético (GSSM) es una técnica de mutagénesis de uno o más codones en un gen para crear una biblioteca de variantes que cubra todos los demás codones en esa posición. [9] Se utiliza en bioquímica e ingeniería de proteínas para explorar las funciones y características de secuencias de aminoácidos específicas. [9] Esta identificación sistemática de sustituciones de aminoácidos permite a los investigadores observar cada variante posible de cada posición. Esto proporcionará información estructural crucial sobre la proteína de interés e identificará secuencias de aminoácidos que son más vitales para la función de la proteína. [9] [10]
Los investigadores suelen inclinarse por utilizar una PCR de un solo paso para explorar los efectos específicos de diferentes variaciones en un aminoácido de interés dentro de una proteína con GSSM. [11] Con un enfoque basado en PCR de un solo paso, los investigadores crean un cebador que tiene una secuencia correspondiente a la proteína de interés en sus dos extremos. Solo se sustituye un codón de una secuencia de aminoácidos de tres codones. [10]
El tipo de conjunto de codones determinará la cantidad de secuencias que se pueden derivar de GSSM. Para determinar qué conjunto de codones utilizar, los investigadores deberán verificar la calidad de la biblioteca a nivel de ADN, lo que significa que se necesitan datos de secuencias masivos. Si las 3 posiciones se pueden sustituir por cada uno de los cuatro nucleótidos diferentes, los investigadores pueden codificar los 20 aminoácidos. [10] Aunque es posible codificar los 20 aminoácidos, este no es el método más eficiente. El método más eficiente es utilizar una degeneración de codones NNK, también conocida como conjunto de codones limitado. [12] Este método dará como resultado solo 32 codones en lugar de 64. [10]
En comparación con otras técnicas, GSSM puede ofrecer ventajas únicas como:
El GSSM abrió toda una frontera en la investigación genética, ya que revolucionó las creencias fundamentales sobre el ADN. Antes del GSSM, los investigadores mutaban el ADN mediante radiación o con diversos productos químicos. Ambos métodos son imprecisos. [13]