La reconstrucción de secuencia ancestral ( ASR ), también conocida como gen ancestral / reconstrucción de secuencia / resurrección , es una técnica utilizada en el estudio de la evolución molecular . El método utiliza secuencias relacionadas para reconstruir un gen "ancestral" a partir de un alineamiento de secuencias múltiples . [1]
El método puede utilizarse para "resucitar" proteínas ancestrales y fue sugerido en 1963 por Linus Pauling y Emile Zuckerkandl . [2] En el caso de las enzimas, este enfoque se ha denominado paleoenzimología (británico: paleoenzymology). Algunos de los primeros esfuerzos se realizaron en las décadas de 1980 y 1990, dirigidos por el laboratorio de Steven A. Benner , y demostraron el potencial de esta técnica. [3] Gracias a la mejora de los algoritmos y de mejores técnicas de secuenciación y síntesis, el método se desarrolló aún más a principios de la década de 2000 para permitir la resurrección de una mayor variedad de genes mucho más antiguos. [4] Durante la última década, la resurrección de proteínas ancestrales se ha desarrollado como una estrategia para revelar los mecanismos y la dinámica de la evolución de las proteínas. [5]
A diferencia de los enfoques evolutivos y bioquímicos convencionales para el estudio de proteínas, es decir, la llamada comparación horizontal de homólogos de proteínas relacionados de diferentes extremos de las ramas del árbol de la vida ; ASR sondea las proteínas ancestrales inferidas estadísticamente dentro de los nodos del árbol, de manera vertical (ver diagrama a la derecha). Este enfoque brinda acceso a propiedades de las proteínas que pueden haber surgido transitoriamente a lo largo del tiempo evolutivo y recientemente se ha utilizado como una forma de inferir las posibles presiones de selección que dieron como resultado las secuencias actuales. ASR se ha utilizado para investigar la mutación causante que resultó en la neofuncionalización de una proteína después de la duplicación determinando primero que dicha mutación estaba ubicada entre los ancestros '5' y '4' en el diagrama (ilustrativo) usando ensayos funcionales. [6] En el campo de la biofísica de proteínas , ASR también se ha utilizado para estudiar el desarrollo de los paisajes termodinámicos y cinéticos de una proteína a lo largo del tiempo evolutivo, así como las vías de plegamiento de proteínas mediante la combinación de muchas técnicas analíticas modernas como HX/MS . [7] Este tipo de conocimientos generalmente se infieren a partir de varios ancestros reconstruidos a lo largo de una filogenia, refiriéndose a la analogía anterior, mediante el estudio de nodos cada vez más altos (cada vez más atrás en el tiempo evolutivo) dentro del árbol de la vida. [8]
La mayoría de los estudios de ASR se llevan a cabo in vitro y han revelado propiedades proteicas ancestrales que parecen ser rasgos evolutivamente deseables, como una mayor termoestabilidad, actividad catalítica y promiscuidad catalítica. Estos datos se han acreditado como artefactos de los algoritmos ASR, así como también como ilustraciones indicativas del entorno de la Tierra antigua; a menudo, la investigación ASR debe complementarse con controles extensos (generalmente experimentos ASR alternativos) para mitigar el error algorítmico. No todas las proteínas ASR estudiadas exhiben esta llamada "superioridad ancestral". [9] El naciente campo de la ' bioquímica evolutiva ' se ha visto reforzado por el reciente aumento de estudios ASR que utilizan a los ancestros como formas de investigar la aptitud del organismo dentro de ciertos contextos celulares, probando efectivamente proteínas ancestrales in vivo . [8] Debido a las limitaciones inherentes a este tipo de estudios, principalmente la falta de genomas antiguos adecuados para encajar a estos ancestros, el pequeño repertorio de sistemas modelo de laboratorio bien categorizados y la incapacidad de imitar entornos celulares antiguos; Se han realizado muy pocos estudios de ASR in vivo . A pesar de los obstáculos mencionados anteriormente, los conocimientos preliminares sobre esta vía de investigación a partir de un artículo de 2015 han revelado que la "superioridad ancestral" observada in vitro no se recapituló in vivo de una proteína determinada. [10] ASR presenta uno de los pocos mecanismos para estudiar la bioquímica de la era de la vida Precámbrica (>541 Ma) y, por lo tanto, se utiliza a menudo en ' paleogenética '; de hecho, Zuckerkandl y Pauling originalmente pretendieron que la ASR fuera el punto de partida de un campo que denominaron "Paleobioquímica".
Se seleccionan y alinean varios homólogos relacionados de la proteína de interés en un alineamiento de secuencias múltiples (MSA), y se construye un ' árbol filogenético ' con secuencias inferidas estadísticamente en los nodos de las ramas. Estas secuencias son los llamados "antepasados": el proceso de sintetizar el ADN correspondiente, transformarlo en una célula y producir una proteína es lo que se llama "reconstrucción". Las secuencias ancestrales generalmente se calculan mediante máxima verosimilitud , sin embargo, también se implementan métodos bayesianos . Debido a que los ancestros se infieren a partir de una filogenia, la topología y composición de la filogenia juega un papel importante en las secuencias ASR de salida. Dado que hay mucho discurso y debate sobre cómo construir filogenias (por ejemplo, si las bacterias termófilas son basales o derivadas en la evolución bacteriana), muchos artículos de ASR construyen varias filogenias con diferentes topologías y, por lo tanto, diferentes secuencias de ASR. Luego, estas secuencias se comparan y, a menudo, se expresan y estudian varias (~10) por nodo filogenético. ASR no pretende recrear la secuencia real de la proteína/ADN antiguo, sino más bien una secuencia que probablemente sea similar a la que de hecho estaba en el nodo. Esto no se considera un defecto de la ASR, ya que encaja en el modelo de " red neutra " de la evolución de las proteínas, según el cual en las uniones evolutivas (nodos) existía una población de secuencias de proteínas genotípicamente diferentes pero fenotípicamente similares en la población de organismos existente. Por lo tanto, es posible que ASR genere una de las secuencias de la red neutral de un nodo y, si bien puede que no represente el genotipo del último ancestro común de las secuencias modernas, probablemente represente el fenotipo. [8] Esto está respaldado por la observación moderna de que muchas mutaciones en el sitio funcional/no catalítico de una proteína causan cambios menores en las propiedades biofísicas. Por lo tanto, la ASR permite investigar las propiedades biofísicas de proteínas pasadas y es indicativa de genética antigua.
Los métodos de máxima verosimilitud (ML) funcionan generando una secuencia en la que se predice que el residuo en cada posición será el más probable de ocupar dicha posición mediante el método de inferencia utilizado; normalmente se trata de una matriz de puntuación (similar a las utilizadas en BLAST o MSA). ) calculado a partir de secuencias existentes. Los métodos alternativos incluyen la parsimonia máxima (MP) que construye una secuencia basada en un modelo de evolución de secuencia ; generalmente la idea de que el número mínimo de cambios en la secuencia de nucleotidos representa la ruta más eficiente a seguir para la evolución y, según la navaja de Occam, es la más probable. A menudo se considera que el MP es el método menos fiable para la reconstrucción, ya que posiblemente simplifica demasiado la evolución hasta un punto que no es aplicable en la escala de mil millones de años.
Otro método implica la consideración de la incertidumbre de los residuos (los llamados métodos bayesianos). Esta forma de ASR se utiliza a veces para complementar los métodos de ML, pero normalmente produce secuencias más ambiguas. En ASR, el término "ambigüedad" se refiere a posiciones de residuos donde no se puede predecir una sustitución clara; a menudo, en estos casos, se producen varias secuencias de ASR, que abarcan la mayoría de las ambigüedades y se comparan entre sí. ML ASR a menudo necesita experimentos complementarios para indicar que las secuencias derivadas son más que simples consensos de las secuencias de entrada. Esto es particularmente necesario en la observación de la "Superioridad Ancestral". [7] En la tendencia de aumentar la termoestabilidad, una explicación es que ML ASR crea una secuencia de consenso de varios mecanismos paralelos diferentes evolucionados para conferir termoestabilidad de proteínas menores a lo largo de la filogenia, lo que lleva a un efecto aditivo que resulta en una termoestabilidad ancestral "superior". [11]
A menudo se requiere la expresión de secuencias consenso y ASR paralelo a través de métodos que no son ML para disolver esta teoría por experimento. Otra preocupación que plantean los métodos de ML es que las matrices de puntuación se derivan de secuencias modernas y que las frecuencias de aminoácidos particulares que se ven hoy en día pueden no ser las mismas que en la biología precámbrica, lo que da como resultado una inferencia de secuencias sesgada. Varios estudios han intentado construir matrices de puntuación antiguas mediante diversas metodologías y han comparado las secuencias resultantes y las propiedades biofísicas de sus proteínas. Si bien estas secuencias modificadas dan como resultado secuencias ASR algo diferentes, las propiedades biofísicas observadas no parecieron variar fuera del error experimental. [12] Debido a la naturaleza 'holística' del ASR y la intensa complejidad que surge cuando se consideran todas las posibles fuentes de error experimental, la comunidad experimental considera que la medida final de la confiabilidad del ASR es la comparación de varias reconstrucciones alternativas del ASR. mismo nodo y la identificación de propiedades biofísicas similares. Si bien este método no ofrece una medida estadística y matemática sólida de confiabilidad, se basa en la idea fundamental utilizada en ASR de que las sustituciones de aminoácidos individuales no causan cambios significativos en las propiedades biofísicas de una proteína, algo que debe considerarse cierto para poder para poder superar el efecto de la ambigüedad de la inferencia. [13]
Los candidatos utilizados para ASR a menudo se seleccionan en función de la propiedad particular de interés que se estudia (por ejemplo, la termoestabilidad). [9] Al seleccionar secuencias de cualquier extremo del rango de una propiedad (por ejemplo, proteínas psicrófilas y proteínas termófilas), pero dentro de una familia de proteínas, la ASR se puede utilizar para investigar los cambios de secuencia específicos que confirieron el efecto biofísico observado, como las interacciones estabilizadoras. Considere en el diagrama, si la secuencia 'A' codifica una proteína que era óptimamente funcional a pH neutros y 'D' en condiciones ácidas, los cambios de secuencia entre '5' y '2' pueden ilustrar la explicación biofísica precisa de esta diferencia. Como los experimentos ASR pueden extraer ancestros que probablemente tengan miles de millones de años, a menudo hay decenas, si no cientos, de cambios de secuencia entre los ancestros mismos y los ancestros y las secuencias existentes; debido a esto, tales estudios evolutivos de función de secuencia pueden requerir mucho trabajo y dirección racional. [1] [6] [14]
Hay muchos ejemplos de proteínas ancestrales que han sido reconstruidas computacionalmente, expresadas en líneas celulares vivas y, en muchos casos, purificadas y estudiadas bioquímicamente.
Algunos otros ejemplos son los pigmentos visuales ancestrales en los vertebrados, [19] enzimas en la levadura que descomponen los azúcares (800 Ma); [20] enzimas en bacterias que proporcionan resistencia a los antibióticos (2 – 3 Ga ); [21] las ribonucleasas implicadas en la digestión de rumiantes; las alcohol deshidrogenasas (Adhs) implicadas en la fermentación de la levadura (~85 Ma); [13] y RuBisCO en Solanaceae . [22]
La "edad" de una secuencia reconstruida se determina utilizando un modelo de reloj molecular y, a menudo, se emplean varios. [7] [23] Esta técnica de datación a menudo se calibra utilizando puntos de tiempo geológicos (como componentes oceánicos antiguos o BIF ) y, si bien estos relojes ofrecen el único método para inferir la edad de una proteína muy antigua, tienen amplios márgenes de error y son difíciles. para defenderse de datos contrarios. Con este fin, la "edad" del ASR debería utilizarse sólo como una característica indicativa y a menudo es superada por completo para medir el número de sustituciones entre las secuencias ancestrales y modernas (la base sobre la cual se calcula el reloj). [9] Dicho esto, el uso de un reloj permite comparar los datos biofísicos observados de una proteína ASR con el entorno geológico o ecológico en ese momento. Por ejemplo, los estudios ASR sobre EF-Tus bacterianos (proteínas involucradas en la traducción , que probablemente rara vez están sujetas a HGT y típicamente exhiben Tms ~2C mayor que Tenv) indican una Tierra Precámbrica más caliente que encaja muy de cerca con los datos geológicos sobre las temperaturas de los océanos de la Tierra antigua. basado en niveles isotópicos de oxígeno-18 . [12] Los estudios ASR de Adhs de levadura revelan que la aparición de Adhs subfuncionalizados para el metabolismo del etanol (no solo la excreción de desechos) surgió en un momento similar al amanecer de la fruta carnosa en el Período Cámbrico y que antes de esta aparición, Adh sirvió para excretar etanol. como subproducto del exceso de piruvato . [13] El uso de un reloj quizás también indique que el origen de la vida ocurrió antes de que lo indiquen los primeros fósiles moleculares (>4.1Ga), pero dada la confiabilidad discutible de los relojes moleculares, tales observaciones deben tomarse con precaución. [23] [24]
Un ejemplo es la reconstrucción de enzimas tiorredoxinas de organismos de hasta 4 mil millones de años. [25] Mientras que la actividad química de estas enzimas reconstruidas era notablemente similar a la de las enzimas modernas, sus propiedades físicas mostraron una estabilidad térmica y ácida significativamente elevada. Se interpretó que estos resultados sugerían que la vida antigua podría haber evolucionado en océanos que eran mucho más calientes y ácidos que los actuales. [25]
Estos experimentos abordan varias cuestiones importantes de la biología evolutiva: ¿ la evolución avanza en pequeños pasos o en grandes saltos? ¿Es la evolución reversible? ¿Cómo evoluciona la complejidad ? Se ha demostrado que ligeras mutaciones en la secuencia de aminoácidos de los receptores hormonales determinan un cambio importante en sus preferencias por las hormonas. Estos cambios significan grandes pasos en la evolución del sistema endocrino . Por tanto, cambios muy pequeños a nivel molecular pueden tener enormes consecuencias. El laboratorio de Thornton también ha podido demostrar que la evolución es irreversible estudiando el receptor de glucocorticoides . Este receptor fue modificado por siete mutaciones en un receptor de cortisol, pero revertir estas mutaciones no devolvió el receptor original. Lo que indica que la epistasis juega un papel importante en la evolución de las proteínas, una observación que, en combinación con las observaciones de varios ejemplos de evolución paralela, respalda el modelo de red neutral mencionado anteriormente. [8] Otras mutaciones neutrales anteriores actuaron como un trinquete e hicieron que los cambios en el receptor fueran irreversibles. [26] Estos diferentes experimentos con receptores muestran que, durante su evolución, las proteínas se diferencian mucho y esto explica cómo puede evolucionar la complejidad. Una mirada más cercana a los diferentes receptores hormonales ancestrales y las diversas hormonas muestra que en el nivel de interacción entre residuos de aminoácidos individuales y grupos químicos de las hormonas surgen cambios muy pequeños pero específicos. El conocimiento de estos cambios puede conducir, por ejemplo, a la síntesis de equivalentes hormonales capaces de imitar o inhibir la acción de una hormona, lo que podría abrir posibilidades para nuevas terapias.
Dado que la ASR ha revelado una tendencia hacia la termoestabilidad antigua y la promiscuidad enzimática, la ASR se presenta como una herramienta valiosa para los ingenieros de proteínas que a menudo desean estos rasgos (produciendo efectos a veces mayores que las herramientas actuales y racionalmente líderes). [11] ASR también promete "resucitar" "organismos antiguos" fenotípicamente similares, lo que a su vez permitiría a los bioquímicos evolutivos investigar la historia de la vida. Los defensores de la ASR como Benner afirman que a través de estos y otros experimentos, el final del siglo actual verá un nivel de comprensión en biología análogo al que surgió en la química clásica en el siglo pasado. [13]