El perfil filogenético es una técnica bioinformática en la que se utiliza la presencia o ausencia conjunta de dos rasgos en un gran número de especies para inferir una conexión biológica significativa, como la participación de dos proteínas diferentes en la misma vía biológica . Junto con el examen de la sintenia conservada , la estructura conservada del operón o las fusiones de dominios de la "piedra de Rosetta" , la comparación de perfiles filogenéticos es una técnica denominada "post-homología", en el sentido de que el cálculo esencial para este método comienza después de que se determina qué proteínas son homólogas a cuáles. Varias de estas técnicas fueron desarrolladas por David Eisenberg y colegas; la comparación de perfiles filogenéticos fue introducida en 1999 por Pellegrini, et al. [1]
Más de 2000 especies de bacterias , arqueas y eucariotas están representadas ahora por secuencias completas del genoma de ADN. Normalmente, cada gen de un genoma codifica una proteína que puede asignarse a una familia de proteínas particular sobre la base de la homología . Para una familia de proteínas dada, su presencia o ausencia en cada genoma (en la formulación binaria original) se representa mediante 1 (presente) o 0 (ausente). En consecuencia, la distribución filogenética de la familia de proteínas puede representarse mediante un número binario largo con un dígito para cada genoma; tales representaciones binarias se comparan fácilmente entre sí para buscar distribuciones filogenéticas correlacionadas. La gran cantidad de genomas completos hace que estos perfiles sean ricos en información. La ventaja de usar solo genomas completos es que los valores 0, que representan la ausencia de un rasgo, tienden a ser confiables.
Se espera que las especies estrechamente relacionadas tengan conjuntos de genes muy similares. Sin embargo, los cambios se acumulan entre especies más distantes por procesos que incluyen la transferencia horizontal de genes y la pérdida de genes. Las proteínas individuales tienen funciones moleculares específicas, como llevar a cabo una única reacción enzimática o servir como una subunidad de un complejo proteico más grande. Un proceso biológico como la fotosíntesis , la metanogénesis o la biosíntesis de histidina puede requerir la acción concertada de muchas proteínas. Si se pierde alguna proteína crítica para un proceso, otras proteínas dedicadas a ese proceso se volverían inútiles; la selección natural hace improbable que estas proteínas inútiles se conserven a lo largo del tiempo evolutivo. Por lo tanto, si dos familias de proteínas diferentes tienden sistemáticamente a estar presentes o ausentes juntas, una hipótesis probable es que las dos proteínas cooperan en algún proceso biológico.
El perfil filogenético ha llevado a numerosos descubrimientos en biología, incluyendo enzimas previamente desconocidas en vías metabólicas , factores de transcripción que se unen a sitios reguladores conservados y explicaciones para los roles de ciertas mutaciones en enfermedades humanas . [2] Mejorar el método en sí es un área activa de investigación científica porque el método en sí enfrenta varias limitaciones. Primero, la coocurrencia de dos familias de proteínas a menudo representa una ascendencia común reciente de dos especies en lugar de una relación funcional conservada; desambiguar estas dos fuentes de correlación puede requerir métodos estadísticos mejorados. Segundo, las proteínas agrupadas como homólogos pueden diferir en función, o las proteínas conservadas en función pueden no registrarse como homólogos; métodos mejorados para adaptar el tamaño de cada familia de proteínas para reflejar la conservación funcional conducirán a mejores resultados.
Las herramientas incluyen PLEX (Protein Link Explorer) [3] (ahora obsoleto) y JGI IMG (Integrated Microbial Genomes) Phylogenetic Profiler (tanto para genes individuales como para casetes de genes ). [4]