PHILIP

PHYLogeny Inference Package ( PHYLIP ) es un paquete de programas de filogenética computacional libre para inferir árboles evolutivos ( filogenias ). ^[1] Consta de 65 programas portables , es decir, el código fuente está escrito en el lenguaje de programación C. A partir de la versión 3.696, está licenciado como software de código abierto ; las versiones 3.695 y anteriores eran software propietario freeware . Las versiones se producen como código fuente y como ejecutables precompilados para muchos sistemas operativos , incluidos Windows (95, 98, ME, NT, 2000, XP, Vista), Mac OS 8 , Mac OS 9 , OS X , Linux ( Debian , Red Hat ); y FreeBSD desde FreeBSD.org. ^[2] La documentación completa está escrita para todos los programas del paquete y está incluida en el mismo. Los programas del paquete phylip fueron escritos por el profesor Joseph Felsenstein , del Departamento de Ciencias del Genoma y del Departamento de Biología de la Universidad de Washington , Seattle. ^[3]

Los métodos (implementados por cada programa) que están disponibles en el paquete incluyen parsimonia , matriz de distancia y métodos de probabilidad , incluidos árboles de consenso y de arranque. Los tipos de datos que se pueden manejar incluyen secuencias moleculares , frecuencias genéticas, sitios y fragmentos de restricción , matrices de distancia y caracteres discretos. ^[2]

Cada programa se controla a través de un menú, que pregunta a los usuarios qué opciones quieren configurar y les permite iniciar el cálculo. Los datos se leen en el programa desde un archivo de texto, que el usuario puede preparar utilizando cualquier procesador de textos o editor de texto (pero este archivo de texto no puede estar en el formato especial del procesador de textos, sino que debe estar en formato ASCII plano o solo texto ). Algunos programas de análisis de secuencias, como el programa de alineación Clustal W, pueden escribir archivos de datos en el formato PHYLIP. La mayoría de los programas buscan los datos en un archivo llamado infile. Si los programas phylip no encuentran este archivo, le piden al usuario que escriba el nombre del archivo de datos. ^[2]

Formato de archivo

Los programas que componen phylip utilizan varios formatos diferentes, todos ellos relativamente simples. Los programas para el análisis de alineaciones de secuencias de ADN, alineaciones de secuencias de proteínas o caracteres discretos (por ejemplo, datos morfológicos) pueden aceptar esos datos en formato secuencial o intercalado, como se muestra a continuación.

Formato secuencial:

5 42Turquía AAGCTNGGGC ATTTCAGGGT GAGCCCGGGC AATACAGGGT ATSalmo schiAAGCCTTGGC AGTGCAGGGT GAGCCGTGGC CGGGCACGGT ATH. sapiensACCGGTTGGC CGTTCAGGGT ACAGGTTGGC CGTTCAGGGT AAChimpancé AAACCCTTGC CGTTACGCTT AAACCGAGGC CGGGACACTC ATGorila AAACCCTTGC CGGTACGCTT AAACCATTGC CGGTACGCTT AA

Formato intercalado:

5 42Turquía AAGCTNGGGC ATTTCAGGGTSalmo schiAAGCCTTGGC AGTGCAGGGTH. sapiensACCGGTTGGC CGTTCAGGGTChimpancé AAACCCTTGC CGTTACGCTTGorila AAACCCTTGC CGGTACGCTTGAGCCCGGGC AATACAGGGT ENGAGCCGTGGC CGGGCACGGT ENACAGGTTGGC CGTTCAGGGT AAAAACCGAGGC CGGGACACTC ENAAACCATTGC CGGTACGCTT AA

Los números corresponden al número de taxones (diferentes especies en el ejemplo que se muestra arriba) seguido del número de caracteres (nucleótidos alineados o aminoácidos en el caso de secuencias moleculares). Los datos del sitio de restricción también deben incluir el número de enzimas.

Los nombres están limitados a 10 caracteres de forma predeterminada y deben completarse con espacios en blanco para tener esa longitud y seguirse inmediatamente por los datos del carácter utilizando códigos de una letra, aunque el límite de 10 caracteres del nombre se puede cambiar con una pequeña modificación del código (cambiando nmlngthen phylip.h y recompilando). Se permiten todos los caracteres ASCII/ISO imprimibles, excepto los paréntesis (" " (y " )"), los corchetes (" [" y " ]"), los dos puntos (" :"), el punto y coma (" ;") y la coma (" ,"). Los espacios incrustados en la alineación se ignoran.

Muchos programas para análisis filogenéticos, incluidos los programas comúnmente utilizados RAxML ^[4]^[5] e IQ-TREE ^[6] , utilizan el formato phylip o una modificación menor de ese formato llamada formato phylip relajado.

Formato philip relajado (secuencial):

5 42Turquía AAGCTNGGGCATTTCAGGGTGAGCCCGGGCAATACAGGGTATSalmo_schiefermuelleri AAGCCTTGGCAGTGCAGGGTGAGCCGTGGCCGGGCACGGTATH_sapiens ACCGGTTGGCCGTTCAGGGTACAGGTTGGCCGTTCAGGGTAAChimpancé AAACCCTTGCCGTTACGCTTAAACCGAGGCCGGGACACTCATGorila AAACCCTTGCCGGTACGCTTAAACCATTGCCGGTACGCTTAA

La principal diferencia en el formato phylip relajado es la ausencia del límite de 10 caracteres y la eliminación de la necesidad de rellenar los nombres con espacios en blanco para alcanzar esa longitud (aunque rellenar los nombres para que la matriz de caracteres comience en la misma posición puede mejorar la legibilidad para el usuario). Este ejemplo de formato relajado utiliza guiones bajos en lugar de espacios en los nombres y utiliza espacios entre los nombres y los datos de caracteres alineados; suele ser una buena práctica evitar los espacios en blanco dentro de los nombres de taxones y separar los datos de caracteres del nombre al generar archivos. Al igual que los archivos de formato phylip estricto, los archivos de formato phylip relajado pueden estar en formato intercalado e incluir espacios y líneas finales dentro de los datos de secuencia.

Los programas que utilizan datos de distancia, como el neighborprograma que implementa el método de unión de vecinos , también utilizan un formato de matriz de distancia simple que incluye solo el número de taxones, sus nombres y valores numéricos para las distancias:

Matriz de distancia de Phylip:

7Bovino 0,0000 1,6866 1,7198 1,6606 1,5243 1,6043 1,5905Ratón 1,6866 0,0000 1,5232 1,4841 1,4465 1,4389 1,4629Gibón 1,7198 1,5232 0,0000 0,7115 0,5958 0,6179 0,5583Naranja 1,6606 1,4841 0,7115 0,0000 0,4631 0,5061 0,4710Gorila 1,5243 1,4465 0,5958 0,4631 0,0000 0,3484 0,3083Chimpancé 1,6043 1,4389 0,6179 0,5061 0,3484 0,0000 0,2692Humano 1,5905 1,4629 0,5583 0,4710 0,3083 0,2692 0,0000

El número indica la cantidad de taxones y existen las mismas limitaciones para los nombres de los taxones. Nótese que esta matriz es simétrica y la diagonal tiene valores de 0 (ya que la distancia entre un taxón y él mismo es cero por definición).

Los programas que utilizan árboles como entrada aceptan los árboles en formato Newick , un estándar informal acordado en 1986 por los autores de siete paquetes filogenéticos importantes. La salida se escribe en archivos con nombres como outfiley outtree. Los árboles escritos en outtreeestán en formato Newick.

Programas de componentes

Referencias

^ Felsenstein, J. (1981). "Árboles evolutivos a partir de secuencias de ADN: un enfoque de máxima verosimilitud". Journal of Molecular Evolution . 17 (6): 368–376. Bibcode :1981JMolE..17..368F. doi :10.1007/BF01734359. PMID 7288891. S2CID 8024924.
^ abc "Página de información general de PHYLIP" . Consultado el 14 de febrero de 2010 .
^ Joseph Felsenstein (agosto de 2003). Inferir filogenias. Asociados Sinauer. ISBN 0-87893-177-5Archivado desde el original el 22 de octubre de 2011. Consultado el 24 de marzo de 2006 .
^ Stamatakis, Alexandros (1 de mayo de 2014). "RAxML versión 8: una herramienta para el análisis filogenético y el postanálisis de grandes filogenias". Bioinformática . 30 (9): 1312–1313. doi :10.1093/bioinformatics/btu033. ISSN 1460-2059. PMC 3998144 . PMID 24451623.
^ Kozlov, Alexey M; Darriba, Diego; Flouri, Tomáš; Morel, Benoit; Stamatakis, Alexandros (1 de noviembre de 2019). Wren, Jonathan (ed.). "RAxML-NG: una herramienta rápida, escalable y fácil de usar para la inferencia filogenética de máxima verosimilitud". Bioinformática . 35 (21): 4453–4455. doi :10.1093/bioinformatics/btz305. ISSN 1367-4803. PMC 6821337 . PMID 31070718.
^ Minh, Bui Quang; Schmidt, Heiko A; Chernomor, Olga; Schrempf, Dominik; Woodhams, Michael D; von Haeseler, Arndt; Lanfear, Robert (1 de mayo de 2020). Teeling, Emma (ed.). "IQ-TREE 2: Nuevos modelos y métodos eficientes para la inferencia filogenética en la era genómica". Biología molecular y evolución . 37 (5): 1530–1534. doi :10.1093/molbev/msaa015. ISSN 0737-4038. PMC 7182206 . PMID 32011700.
^ "Sitio espejo de la documentación del paquete PHYLIP". Archivado desde el original el 19 de octubre de 2005. Consultado el 24 de marzo de 2006 .

Enlaces externos

Sitio web oficial
Lista de programas de filogenia: una lista extensa de paquetes de filogenia con detalles sobre cada uno. El recuento actual ^[actualizar]es de 366.