Perfil filogenético

El perfil filogenético es una técnica bioinformática en la que la presencia o ausencia conjunta de dos rasgos en un gran número de especies se utiliza para inferir una conexión biológica significativa, como la participación de dos proteínas diferentes en la misma vía biológica . Junto con el examen de la sintenia conservada, la estructura del operón conservada o las fusiones de dominios de "Rosetta Stone" , la comparación de perfiles filogenéticos es una técnica denominada "poshomología", en el sentido de que el cálculo esencial para este método comienza después de que se determina qué proteínas son homólogas a cual. Varias de estas técnicas fueron desarrolladas por David Eisenberg y sus colegas; La comparación de perfiles filogenéticos fue introducida en 1999 por Pellegrini, et al. ^[1]

Método

Más de 2.000 especies de bacterias , arqueas y eucariotas están ahora representadas por secuencias completas del genoma del ADN. Normalmente, cada gen de un genoma codifica una proteína que puede asignarse a una familia de proteínas particular según su homología . Para una familia de proteínas determinada, su presencia o ausencia en cada genoma (en la formulación binaria original) está representada por 1 (presente) o 0 (ausente). En consecuencia, la distribución filogenética de la familia de proteínas puede representarse mediante un número binario largo con un dígito para cada genoma; Estas representaciones binarias se comparan fácilmente entre sí para buscar distribuciones filogenéticas correlacionadas. La gran cantidad de genomas completos hace que estos perfiles sean ricos en información. La ventaja de utilizar sólo genomas completos es que los valores 0, que representan la ausencia de un rasgo, tienden a ser fiables.

Teoría

Se debe esperar que las especies estrechamente relacionadas tengan conjuntos de genes muy similares. Sin embargo, los cambios se acumulan entre especies relacionadas más lejanamente mediante procesos que incluyen la transferencia horizontal de genes y la pérdida de genes. Las proteínas individuales tienen funciones moleculares específicas, como llevar a cabo una única reacción enzimática o servir como una subunidad de un complejo proteico más grande. Un proceso biológico como la fotosíntesis , la metanogénesis o la biosíntesis de histidina puede requerir la acción concertada de muchas proteínas. Si se pierde alguna proteína crítica para un proceso, otras proteínas dedicadas a ese proceso se volverían inútiles; La selección natural hace que sea poco probable que estas proteínas inútiles se conserven a lo largo del tiempo evolutivo. Por lo tanto, si dos familias de proteínas diferentes tienden consistentemente a estar presentes o ausentes juntas, una hipótesis probable es que las dos proteínas cooperen en algún proceso biológico.

Avances y desafíos

Los perfiles filogenéticos han dado lugar a numerosos descubrimientos en biología, incluidas enzimas previamente desconocidas en las vías metabólicas , factores de transcripción que se unen a sitios reguladores conservados y explicaciones de las funciones de ciertas mutaciones en las enfermedades humanas . ^[2] Mejorar el método en sí es un área activa de investigación científica porque el método en sí enfrenta varias limitaciones. En primer lugar, la coexistencia de dos familias de proteínas a menudo representa una ascendencia común reciente de dos especies en lugar de una relación funcional conservada; Eliminar la ambigüedad de estas dos fuentes de correlación puede requerir métodos estadísticos mejorados. En segundo lugar, las proteínas agrupadas como homólogos pueden diferir en su función, o las proteínas conservadas en su función pueden no registrarse como homólogas; Los métodos mejorados para adaptar el tamaño de cada familia de proteínas para reflejar la conservación funcional conducirán a mejores resultados.

Herramientas

Las herramientas incluyen PLEX (Protein Link Explorer). ^[3] (ahora desaparecido) y JGI IMG (genomas microbianos integrados) Perfilador filogenético (tanto para genes individuales como para casetes de genes ). ^[4]

Notas

^ Pellegrini, Mateo; Marcotte, Edward M; Thompson, Michael J; Eisenberg, David; Yeates, Todd O (1999). "Asignación de funciones de proteínas mediante análisis comparativo del genoma: perfiles filogenéticos de proteínas". Actas de la Academia Nacional de Ciencias de EE. UU . 96 (8): 4285–4288. doi :10.1073/pnas.96.8.4285. PMC 16324 . PMID 10200254.
^ Kensche, Philip R; van Noort, Vera; Dutilh, Bas E; Huynen, Martijn A (2008). "Avances prácticos y teóricos en la predicción de la función de una proteína por su distribución filogenética". Revista de la interfaz de la Royal Society . 5 (19): 151-170. doi :10.1098/rsif.2007.1047. PMC 2405902 . PMID 17535793.
^ Fecha, Shailesh V.; Marcotte, Edward M. (15 de mayo de 2005). "Predicción de la función de las proteínas utilizando Protein Link EXplorer (PLEX)". Bioinformática . 21 (10): 2558–2559. doi : 10.1093/bioinformática/bti313 . ISSN 1367-4803. PMID 15701682.
^ Chen, I.-Min A.; Chu, Ken; Palaniappan, Krishna; Pillay, Manoj; Ratner, Anna; Huang, Jinghua; Huntemann, Marcel; Varghese, Neha; Blanco, James R. (5 de octubre de 2018). "IMG/M v.5.0: un sistema integrado de análisis comparativo y gestión de datos para genomas y microbiomas microbianos". Investigación de ácidos nucleicos . 47 (D1): D666–D677. doi : 10.1093/nar/gky901. ISSN 1362-4962. PMC 6323987 . PMID 30289528.