La huella filogenética es una técnica que se utiliza para identificar los sitios de unión de factores de transcripción (TFBS) dentro de una región no codificante del ADN de interés comparándola con la secuencia ortóloga en diferentes especies . Cuando esta técnica se utiliza con una gran cantidad de especies estrechamente relacionadas, se denomina sombreado filogenético . [1]
Los investigadores han descubierto que fragmentos no codificantes de ADN contienen sitios de unión para proteínas reguladoras que gobiernan la expresión espaciotemporal de los genes . Estos sitios de unión de factores de transcripción (TFBS), o motivos reguladores, han resultado difíciles de identificar, principalmente porque son cortos y pueden mostrar variación de secuencia . La importancia de comprender la regulación transcripcional para muchos campos de la biología ha llevado a los investigadores a desarrollar estrategias para predecir la presencia de TFBS, muchas de las cuales han dado lugar a bases de datos disponibles públicamente. Una de esas técnicas es la huella filogenética .
La huella filogenética se basa en dos conceptos principales:
La huella filogenética fue utilizada y publicada por primera vez por Tagle et al. en 1988, lo que permitió a los investigadores predecir elementos cisreguladores conservados evolutivamente responsables de la expresión de los genes de las globulinas ε y γ embrionarias en primates. [3]
Antes de la técnica de huellas filogenéticas, se utilizaba la técnica de huellas de ADNasa , en la que las proteínas se unían a los sitios de unión de los factores de transcripción del ADN (TFBS) para protegerlas de la digestión por ADNasa. Uno de los problemas de esta técnica era la cantidad de tiempo y trabajo que requería. A diferencia de la técnica de huellas de ADNasa, la técnica de huellas filogenéticas depende de las limitaciones evolutivas dentro del genoma, y las partes "importantes" de la secuencia se conservan entre las diferentes especies. [4]
Al utilizar esta técnica, es importante decidir con qué genoma se debe alinear la secuencia. Las especies más divergentes tendrán menos similitud de secuencia entre genes ortólogos. Por lo tanto, la clave es elegir especies que estén lo suficientemente relacionadas como para detectar homología, pero lo suficientemente divergentes como para maximizar el "ruido" de no alineación. El enfoque paso a paso para la identificación filogenética consiste en:
No todos los sitios de unión de la transcripción se pueden encontrar mediante la técnica de huellas filogenéticas debido a la naturaleza estadística de esta técnica. A continuación, se indican varias razones por las que no se encuentran algunos sitios de unión de la transcripción:
Algunos sitios de unión parecen no tener coincidencias significativas en la mayoría de las demás especies. Por lo tanto, detectar estos sitios mediante la huella filogenética es probablemente imposible a menos que se disponga de una gran cantidad de especies estrechamente relacionadas.
Algunos sitios de unión muestran una excelente conservación, pero solo en una región más corta que la que se buscaba. Estos motivos cortos (por ejemplo, GC-box) suelen aparecer por casualidad en secuencias no funcionales y detectar estos motivos puede ser un desafío.
Algunos sitios de unión muestran cierta conservación, pero han tenido inserciones o deleciones. No es obvio si estas secuencias con inserciones o deleciones siguen siendo funcionales. Aunque pueden seguir siendo funcionales si el factor de unión es menos específico (o menos "quisquilloso", si se quiere). Debido a que las deleciones e inserciones son poco frecuentes en los sitios de unión, considerar las inserciones y deleciones en la secuencia detectaría algunos TFBS verdaderos más, pero probablemente podría incluir muchos más falsos positivos.
Algunos motivos están bastante bien conservados, pero son estadísticamente insignificantes en un conjunto de datos específico. El motivo podría haber aparecido en diferentes especies por casualidad. Estos motivos podrían detectarse si se dispone de secuencias de más organismos. Por lo tanto, esto será un problema menor en el futuro.
Algunos factores de transcripción se unen como dímeros. Por lo tanto, sus sitios de unión pueden consistir en dos regiones conservadas, separadas por unos pocos nucleótidos variables. Debido a la secuencia interna variable, no se puede detectar el motivo. Sin embargo, si pudiéramos utilizar un programa para buscar motivos que contuvieran una secuencia variable en el medio, sin contar las mutaciones, se podrían descubrir estos motivos.
Es importante tener en cuenta que no todas las secuencias conservadas se encuentran bajo presión de selección. Para eliminar los falsos positivos se deben realizar análisis estadísticos que muestren que los motivos reportados tienen una tasa de mutación significativamente menor que la de la secuencia no funcional circundante.
Además, los resultados podrían ser más precisos si se considera el conocimiento previo sobre la secuencia. Por ejemplo, algunos elementos reguladores se repiten 15 veces en una región promotora (p. ej., algunos promotores de metalotioneína tienen hasta 15 elementos de respuesta a metales (MRE)). Por lo tanto, para eliminar motivos falsos con un orden inconsistente entre especies, la orientación y el orden de los elementos reguladores en una región promotora deberían ser los mismos en todas las especies. Este tipo de información podría ayudarnos a identificar elementos reguladores que no están adecuadamente conservados pero que aparecen en varias copias en la secuencia de entrada. [5]