El perfil filogenético es una técnica bioinformática en la que la presencia o ausencia conjunta de dos rasgos en un gran número de especies se utiliza para inferir una conexión biológica significativa, como la participación de dos proteínas diferentes en la misma vía biológica . Junto con el examen de la sintenia conservada, la estructura del operón conservada o las fusiones de dominios de "Rosetta Stone" , la comparación de perfiles filogenéticos es una técnica denominada "poshomología", en el sentido de que el cálculo esencial para este método comienza después de que se determina qué proteínas son homólogas a cual. Varias de estas técnicas fueron desarrolladas por David Eisenberg y sus colegas; La comparación de perfiles filogenéticos fue introducida en 1999 por Pellegrini, et al. [1]
Más de 2.000 especies de bacterias , arqueas y eucariotas están ahora representadas por secuencias completas del genoma del ADN. Normalmente, cada gen de un genoma codifica una proteína que puede asignarse a una familia de proteínas particular según su homología . Para una familia de proteínas determinada, su presencia o ausencia en cada genoma (en la formulación binaria original) está representada por 1 (presente) o 0 (ausente). En consecuencia, la distribución filogenética de la familia de proteínas puede representarse mediante un número binario largo con un dígito para cada genoma; Estas representaciones binarias se comparan fácilmente entre sí para buscar distribuciones filogenéticas correlacionadas. La gran cantidad de genomas completos hace que estos perfiles sean ricos en información. La ventaja de utilizar sólo genomas completos es que los valores 0, que representan la ausencia de un rasgo, tienden a ser fiables.
Se debe esperar que las especies estrechamente relacionadas tengan conjuntos de genes muy similares. Sin embargo, los cambios se acumulan entre especies relacionadas más lejanamente mediante procesos que incluyen la transferencia horizontal de genes y la pérdida de genes. Las proteínas individuales tienen funciones moleculares específicas, como llevar a cabo una única reacción enzimática o servir como una subunidad de un complejo proteico más grande. Un proceso biológico como la fotosíntesis , la metanogénesis o la biosíntesis de histidina puede requerir la acción concertada de muchas proteínas. Si se pierde alguna proteína crítica para un proceso, otras proteínas dedicadas a ese proceso se volverían inútiles; La selección natural hace que sea poco probable que estas proteínas inútiles se conserven a lo largo del tiempo evolutivo. Por lo tanto, si dos familias de proteínas diferentes tienden consistentemente a estar presentes o ausentes juntas, una hipótesis probable es que las dos proteínas cooperen en algún proceso biológico.
Los perfiles filogenéticos han dado lugar a numerosos descubrimientos en biología, incluidas enzimas previamente desconocidas en las vías metabólicas , factores de transcripción que se unen a sitios reguladores conservados y explicaciones de las funciones de ciertas mutaciones en las enfermedades humanas . [2] Mejorar el método en sí es un área activa de investigación científica porque el método en sí enfrenta varias limitaciones. En primer lugar, la coexistencia de dos familias de proteínas a menudo representa una ascendencia común reciente de dos especies en lugar de una relación funcional conservada; Eliminar la ambigüedad de estas dos fuentes de correlación puede requerir métodos estadísticos mejorados. En segundo lugar, las proteínas agrupadas como homólogos pueden diferir en su función, o las proteínas conservadas en su función pueden no registrarse como homólogas; Los métodos mejorados para adaptar el tamaño de cada familia de proteínas para reflejar la conservación funcional conducirán a mejores resultados.
Las herramientas incluyen PLEX (Protein Link Explorer). [3] (ahora desaparecido) y JGI IMG (genomas microbianos integrados) Perfilador filogenético (tanto para genes individuales como para casetes de genes ). [4]