La reconstrucción de secuencias ancestrales ( ASR , por sus siglas en inglés), también conocida como reconstrucción o resurrección de secuencias o genes ancestrales , es una técnica que se utiliza en el estudio de la evolución molecular . El método utiliza secuencias relacionadas para reconstruir un gen "ancestral" a partir de una alineación de secuencias múltiples . [1]
El método puede ser utilizado para 'resucitar' proteínas ancestrales y fue sugerido en 1963 por Linus Pauling y Emile Zuckerkandl . [2] En el caso de las enzimas, este enfoque se ha llamado paleoenzimología (británico: paleoenzymology). Algunos esfuerzos tempranos se hicieron en la década de 1980 y 1990, liderados por el laboratorio de Steven A. Benner , mostrando el potencial de esta técnica. [3] Gracias a la mejora de los algoritmos y de mejores técnicas de secuenciación y síntesis, el método se desarrolló aún más a principios de la década de 2000 para permitir la resurrección de una mayor variedad de genes y mucho más antiguos. [4] Durante la última década, la resurrección de proteínas ancestrales se ha desarrollado como una estrategia para revelar los mecanismos y la dinámica de la evolución de las proteínas. [5]
A diferencia de los enfoques evolutivos y bioquímicos convencionales para estudiar las proteínas, es decir, la llamada comparación horizontal de homólogos de proteínas relacionadas de diferentes extremos de las ramas del árbol de la vida ; ASR investiga las proteínas ancestrales inferidas estadísticamente dentro de los nodos del árbol, de manera vertical (ver diagrama, derecha). Este enfoque brinda acceso a las propiedades de las proteínas que pueden haber surgido transitoriamente a lo largo del tiempo evolutivo y recientemente se ha utilizado como una forma de inferir las posibles presiones de selección que dieron como resultado las secuencias actuales. ASR se ha utilizado para investigar la mutación causal que resultó en la neofuncionalización de una proteína después de la duplicación determinando primero que dicha mutación estaba ubicada entre los ancestros '5' y '4' en el diagrama (ilustrativamente) utilizando ensayos funcionales. [6] En el campo de la biofísica de proteínas , ASR también se ha utilizado para estudiar el desarrollo de los paisajes termodinámicos y cinéticos de una proteína a lo largo del tiempo evolutivo, así como las vías de plegamiento de proteínas combinando muchas técnicas analíticas modernas como HX/MS . [7] Este tipo de conocimientos se infieren normalmente a partir de varios ancestros reconstruidos a lo largo de una filogenia, haciendo referencia a la analogía anterior, estudiando nodos cada vez más altos (cada vez más atrás en el tiempo evolutivo) dentro del árbol de la vida. [8]
La mayoría de los estudios de ASR se llevan a cabo in vitro y han revelado propiedades proteicas ancestrales que parecen ser rasgos evolutivamente deseables, como mayor termoestabilidad, actividad catalítica y promiscuidad catalítica. Estos datos se han acreditado como artefactos de los algoritmos de ASR, así como ilustraciones indicativas del entorno de la Tierra antigua; a menudo, la investigación de ASR debe complementarse con controles extensos (generalmente experimentos de ASR alternativos) para mitigar el error algorítmico. No todas las proteínas ASR estudiadas exhiben esta llamada "superioridad ancestral". [9] El campo naciente de la " bioquímica evolutiva " se ha visto reforzado por el reciente aumento de los estudios de ASR que utilizan a los ancestros como formas de investigar la aptitud de los organismos dentro de ciertos contextos celulares, probando efectivamente las proteínas ancestrales in vivo . [8] Debido a las limitaciones inherentes a este tipo de estudios, principalmente la falta de genomas adecuadamente antiguos para encajar a estos ancestros, el pequeño repertorio de sistemas modelo de laboratorio bien categorizados y la incapacidad de imitar entornos celulares antiguos; se han realizado muy pocos estudios de ASR in vivo . A pesar de los obstáculos mencionados anteriormente, los conocimientos preliminares sobre esta línea de investigación a partir de un artículo de 2015 han revelado que la "superioridad ancestral" observada in vitro no se recapituló in vivo de una proteína dada. [10] La ASR presenta uno de los pocos mecanismos para estudiar la bioquímica de la era Precámbrica de la vida (>541Ma) y, por lo tanto, se utiliza a menudo en " paleogenética "; de hecho, Zuckerkandl y Pauling originalmente pretendían que la ASR fuera el punto de partida de un campo que denominaron "Paleobioquímica".
Se seleccionan varios homólogos relacionados de la proteína de interés y se alinean en un alineamiento de secuencias múltiples (MSA), se construye un " árbol filogenético " con secuencias inferidas estadísticamente en los nodos de las ramas. Estas secuencias son las llamadas "ancestros": el proceso de sintetizar el ADN correspondiente, transformarlo en una célula y producir una proteína es la llamada "reconstrucción". Las secuencias ancestrales se calculan típicamente por máxima verosimilitud , sin embargo, también se implementan métodos bayesianos . Debido a que los ancestros se infieren a partir de una filogenia, la topología y la composición de la filogenia juegan un papel importante en las secuencias ASR de salida. Dado que hay mucho discurso y debate sobre cómo construir filogenias (por ejemplo, si las bacterias termófilas son basales o derivadas en la evolución bacteriana), muchos artículos sobre ASR construyen varias filogenias con diferentes topologías y, por lo tanto, diferentes secuencias ASR. Luego, estas secuencias se comparan y, a menudo, se expresan y estudian varias (~10) por nodo filogenético. La ASR no pretende recrear la secuencia real de la proteína/ADN antigua, sino más bien una secuencia que probablemente sea similar a la que estaba efectivamente en el nodo. Esto no se considera una deficiencia de la ASR, ya que encaja en el modelo de " red neutral " de evolución de proteínas, por el cual en las uniones evolutivas (nodos) existía una población de secuencias de proteínas genotípicamente diferentes pero fenotípicamente similares en la población de organismos existente. Por lo tanto, es posible que la ASR genere una de las secuencias de la red neutral de un nodo y, si bien puede no representar el genotipo del último ancestro común de las secuencias modernas, probablemente represente el fenotipo. [8] Esto está respaldado por la observación moderna de que muchas mutaciones en el sitio no catalítico/funcional de una proteína causan cambios menores en las propiedades biofísicas. Por lo tanto, la ASR permite investigar las propiedades biofísicas de las proteínas pasadas y es indicativa de genética antigua.
Los métodos de máxima verosimilitud (ML) funcionan generando una secuencia en la que se predice que el residuo en cada posición es el más probable de ocupar dicha posición según el método de inferencia utilizado; por lo general, se trata de una matriz de puntuación (similar a las utilizadas en BLAST o MSA) calculada a partir de secuencias existentes. Los métodos alternativos incluyen la máxima parsimonia (MP), que construye una secuencia basada en un modelo de evolución de secuencias ; por lo general, la idea de que el número mínimo de cambios en la secuencia de nucleótidos representa la ruta más eficiente que puede tomar la evolución y, según la navaja de Occam, es la más probable. La MP se considera a menudo el método menos confiable para la reconstrucción, ya que posiblemente simplifica en exceso la evolución hasta un grado que no es aplicable en la escala de mil millones de años.
Otro método implica la consideración de la incertidumbre de los residuos (los llamados métodos bayesianos). Esta forma de ASR se utiliza a veces para complementar los métodos ML, pero normalmente produce secuencias más ambiguas. En ASR, el término "ambigüedad" se refiere a las posiciones de los residuos en las que no se puede predecir una sustitución clara; a menudo, en estos casos, se producen varias secuencias ASR que abarcan la mayoría de las ambigüedades y se comparan entre sí. La ASR ML a menudo necesita experimentos complementarios para indicar que las secuencias derivadas son más que simples consensos de las secuencias de entrada. Esto es particularmente necesario en la observación de la "superioridad ancestral". [7] En la tendencia de aumento de la termoestabilidad, una explicación es que la ASR ML crea una secuencia de consenso de varios mecanismos diferentes y paralelos que evolucionaron para conferir una termoestabilidad proteica menor a lo largo de la filogenia, lo que conduce a un efecto aditivo que resulta en una termoestabilidad ancestral "superior". [11]
A menudo se requiere la expresión de secuencias de consenso y ASR paralelas a través de métodos que no sean ML para desbaratar esta teoría por experimento. Otra preocupación planteada por los métodos ML es que las matrices de puntuación se derivan de secuencias modernas y las frecuencias particulares de aminoácidos observadas hoy pueden no ser las mismas que en la biología precámbrica, lo que resulta en una inferencia de secuencia sesgada. Varios estudios han intentado construir matrices de puntuación antiguas a través de varias metodologías y han comparado las secuencias resultantes y las propiedades biofísicas de sus proteínas. Si bien estas secuencias modificadas dan como resultado secuencias ASR algo diferentes, las propiedades biofísicas observadas no parecieron variar fuera del error experimental. [12] Debido a la naturaleza "holística" de ASR y la intensa complejidad que surge cuando se consideran todas las posibles fuentes de error experimental, la comunidad experimental considera que la medición definitiva de la confiabilidad de ASR es la comparación de varias reconstrucciones ASR alternativas del mismo nodo y la identificación de propiedades biofísicas similares. Si bien este método no ofrece una medida matemática y estadísticamente sólida de confiabilidad, se basa en la idea fundamental utilizada en ASR de que las sustituciones de aminoácidos individuales no causan cambios significativos en las propiedades biofísicas de una proteína, una premisa que debe considerarse verdadera para poder superar el efecto de la ambigüedad de la inferencia. [13]
Los candidatos utilizados para la ASR suelen seleccionarse en función de la propiedad de interés particular que se esté estudiando, por ejemplo, la termoestabilidad. [9] Al seleccionar secuencias de cualquiera de los extremos del rango de una propiedad (por ejemplo, proteínas psicrofílicas y proteínas termófilas), pero dentro de una familia de proteínas, la ASR se puede utilizar para investigar los cambios de secuencia específicos que confirieron el efecto biofísico observado, como las interacciones estabilizadoras. Considere en el diagrama, si la secuencia 'A' codifica una proteína que era funcionalmente óptima a pH neutros y 'D' en condiciones ácidas, los cambios de secuencia entre '5' y '2' pueden ilustrar la explicación biofísica precisa para esta diferencia. Como los experimentos de ASR pueden extraer ancestros que probablemente tengan miles de millones de años, a menudo hay decenas, si no cientos, de cambios de secuencia entre los propios ancestros y los ancestros y las secuencias existentes; debido a esto, tales estudios evolutivos de secuencia-función pueden requerir mucho trabajo y dirección racional. [1] [6] [14]
Hay muchos ejemplos de proteínas ancestrales que han sido reconstruidas computacionalmente, expresadas en líneas celulares vivas y, en muchos casos, purificadas y estudiadas bioquímicamente.
Otros ejemplos son los pigmentos visuales ancestrales en vertebrados, [19] las enzimas en levaduras que descomponen azúcares (800Ma); [20] las enzimas en bacterias que proporcionan resistencia a los antibióticos (2 – 3 Ga ); [21] las ribonucleasas involucradas en la digestión de los rumiantes; las alcohol deshidrogenasas (Adhs) involucradas en la fermentación de levaduras (~85Ma); [13] y RuBisCO en Solanaceae . [22]
La "edad" de una secuencia reconstruida se determina utilizando un modelo de reloj molecular , y a menudo se emplean varios. [7] [23] Esta técnica de datación a menudo se calibra utilizando puntos de tiempo geológicos (como los constituyentes oceánicos antiguos o BIF ) y, si bien estos relojes ofrecen el único método para inferir la edad de una proteína muy antigua, tienen amplios márgenes de error y son difíciles de defender contra datos contrarios. Con este fin, la "edad" de ASR realmente debería usarse solo como una característica indicativa y a menudo se supera por completo para una medición del número de sustituciones entre las secuencias ancestrales y modernas (el fundamento sobre el que se calcula el reloj). [9] Dicho esto, el uso de un reloj permite comparar los datos biofísicos observados de una proteína ASR con el entorno geológico o ecológico en ese momento. Por ejemplo, los estudios de ASR sobre EF-Tus bacterianos (proteínas involucradas en la traducción , que probablemente rara vez están sujetas a HGT y típicamente exhiben Tms ~2C mayores que Tenv) indican una Tierra Precámbrica más caliente que encaja muy de cerca con los datos geológicos sobre las temperaturas oceánicas de la Tierra antigua basadas en los niveles isotópicos de oxígeno-18 . [12] Los estudios de ASR de Adhs de levadura revelan que la aparición de Adhs subfuncionalizados para el metabolismo del etanol (no solo la excreción de desechos) surgió en un momento similar al amanecer de la fruta carnosa en el Período Cámbrico y que antes de esta aparición, Adh sirvió para excretar etanol como un subproducto del exceso de piruvato . [13] El uso de un reloj también indica quizás que el origen de la vida ocurrió antes de los primeros fósiles moleculares indicados (>4.1Ga), pero dada la discutible confiabilidad de los relojes moleculares, tales observaciones deben tomarse con cautela. [23] [24]
Un ejemplo es la reconstrucción de enzimas tiorredoxinas de organismos de hasta 4 mil millones de años de antigüedad. [25] Si bien la actividad química de estas enzimas reconstruidas era notablemente similar a la de las enzimas modernas, sus propiedades físicas mostraban una estabilidad térmica y ácida significativamente elevada. Estos resultados se interpretaron como una sugerencia de que la vida antigua puede haber evolucionado en océanos que eran mucho más calientes y ácidos que los actuales. [25]
Estos experimentos abordan varias cuestiones importantes en biología evolutiva: ¿ la evolución se produce en pequeños pasos o en grandes saltos?; ¿es reversible la evolución?; ¿cómo evoluciona la complejidad ? Se ha demostrado que pequeñas mutaciones en la secuencia de aminoácidos de los receptores hormonales determinan un cambio importante en sus preferencias por las hormonas. Estos cambios suponen enormes pasos en la evolución del sistema endocrino . Por tanto, cambios muy pequeños a nivel molecular pueden tener enormes consecuencias. El laboratorio de Thornton también ha podido demostrar que la evolución es irreversible estudiando el receptor de glucocorticoides . Este receptor fue modificado por siete mutaciones en un receptor de cortisol, pero revertir estas mutaciones no devolvió el receptor original. Esto indica que la epistasis juega un papel importante en la evolución de las proteínas, una observación que, en combinación con las observaciones de varios ejemplos de evolución paralela, apoya el modelo de red neutral mencionado anteriormente. [8] Otras mutaciones neutrales anteriores actuaron como un trinquete e hicieron que los cambios en el receptor fueran irreversibles. [26] Estos diferentes experimentos sobre receptores muestran que, durante su evolución, las proteínas se diferencian en gran medida y esto explica cómo puede evolucionar la complejidad. Un estudio más detallado de los diferentes receptores hormonales ancestrales y de las distintas hormonas muestra que, a nivel de interacción entre los residuos de aminoácidos individuales y los grupos químicos de las hormonas, se producen cambios muy pequeños pero específicos. El conocimiento de estos cambios puede, por ejemplo, conducir a la síntesis de equivalentes hormonales capaces de imitar o inhibir la acción de una hormona, lo que podría abrir posibilidades para nuevas terapias.
Dado que la ASR ha revelado una tendencia hacia la termoestabilidad antigua y la promiscuidad enzimática, la ASR se presenta como una herramienta valiosa para los ingenieros de proteínas que a menudo desean estos rasgos (produciendo efectos a veces mayores que las herramientas actuales, racionalmente dirigidas). [11] La ASR también promete "resucitar" "organismos antiguos" fenotípicamente similares que a su vez permitirían a los bioquímicos evolutivos investigar la historia de la vida. Los defensores de la ASR como Benner afirman que a través de estos y otros experimentos, el final del siglo actual verá un nivel de comprensión en biología análogo al que surgió en la química clásica en el siglo pasado. [13]