PHYLogeny Inference Package ( PHYLIP ) es un paquete de programas de filogenética computacional libre para inferir árboles evolutivos ( filogenias ). [1] Consta de 65 programas portables , es decir, el código fuente está escrito en el lenguaje de programación C. A partir de la versión 3.696, está licenciado como software de código abierto ; las versiones 3.695 y anteriores eran software propietario freeware . Las versiones se producen como código fuente y como ejecutables precompilados para muchos sistemas operativos , incluidos Windows (95, 98, ME, NT, 2000, XP, Vista), Mac OS 8 , Mac OS 9 , OS X , Linux ( Debian , Red Hat ); y FreeBSD desde FreeBSD.org. [2] La documentación completa está escrita para todos los programas del paquete y está incluida en el mismo. Los programas del paquete phylip fueron escritos por el profesor Joseph Felsenstein , del Departamento de Ciencias del Genoma y del Departamento de Biología de la Universidad de Washington , Seattle. [3]
Los métodos (implementados por cada programa) que están disponibles en el paquete incluyen parsimonia , matriz de distancia y métodos de probabilidad , incluidos árboles de consenso y de arranque. Los tipos de datos que se pueden manejar incluyen secuencias moleculares , frecuencias genéticas, sitios y fragmentos de restricción , matrices de distancia y caracteres discretos. [2]
Cada programa se controla a través de un menú, que pregunta a los usuarios qué opciones quieren configurar y les permite iniciar el cálculo. Los datos se leen en el programa desde un archivo de texto, que el usuario puede preparar utilizando cualquier procesador de textos o editor de texto (pero este archivo de texto no puede estar en el formato especial del procesador de textos, sino que debe estar en formato ASCII plano o solo texto ). Algunos programas de análisis de secuencias, como el programa de alineación Clustal W, pueden escribir archivos de datos en el formato PHYLIP. La mayoría de los programas buscan los datos en un archivo llamado infile
. Si los programas phylip no encuentran este archivo, le piden al usuario que escriba el nombre del archivo de datos. [2]
Los programas que componen phylip utilizan varios formatos diferentes, todos ellos relativamente simples. Los programas para el análisis de alineaciones de secuencias de ADN, alineaciones de secuencias de proteínas o caracteres discretos (por ejemplo, datos morfológicos) pueden aceptar esos datos en formato secuencial o intercalado, como se muestra a continuación.
Formato secuencial:
5 42Turquía AAGCTNGGGC ATTTCAGGGT GAGCCCGGGC AATACAGGGT ATSalmo schiAAGCCTTGGC AGTGCAGGGT GAGCCGTGGC CGGGCACGGT ATH. sapiensACCGGTTGGC CGTTCAGGGT ACAGGTTGGC CGTTCAGGGT AAChimpancé AAACCCTTGC CGTTACGCTT AAACCGAGGC CGGGACACTC ATGorila AAACCCTTGC CGGTACGCTT AAACCATTGC CGGTACGCTT AA
Formato intercalado:
5 42Turquía AAGCTNGGGC ATTTCAGGGTSalmo schiAAGCCTTGGC AGTGCAGGGTH. sapiensACCGGTTGGC CGTTCAGGGTChimpancé AAACCCTTGC CGTTACGCTTGorila AAACCCTTGC CGGTACGCTTGAGCCCGGGC AATACAGGGT ENGAGCCGTGGC CGGGCACGGT ENACAGGTTGGC CGTTCAGGGT AAAAACCGAGGC CGGGACACTC ENAAACCATTGC CGGTACGCTT AA
Los números corresponden al número de taxones (diferentes especies en el ejemplo que se muestra arriba) seguido del número de caracteres (nucleótidos alineados o aminoácidos en el caso de secuencias moleculares). Los datos del sitio de restricción también deben incluir el número de enzimas.
Los nombres están limitados a 10 caracteres de forma predeterminada y deben completarse con espacios en blanco para tener esa longitud y seguirse inmediatamente por los datos del carácter utilizando códigos de una letra, aunque el límite de 10 caracteres del nombre se puede cambiar con una pequeña modificación del código (cambiando nmlngth
en phylip.h y recompilando). Se permiten todos los caracteres ASCII/ISO imprimibles, excepto los paréntesis (" " (
y " )
"), los corchetes (" [
" y " ]
"), los dos puntos (" :
"), el punto y coma (" ;
") y la coma (" ,
"). Los espacios incrustados en la alineación se ignoran.
Muchos programas para análisis filogenéticos, incluidos los programas comúnmente utilizados RAxML [4] [5] e IQ-TREE [6] , utilizan el formato phylip o una modificación menor de ese formato llamada formato phylip relajado.
Formato philip relajado (secuencial):
5 42Turquía AAGCTNGGGCATTTCAGGGTGAGCCCGGGCAATACAGGGTATSalmo_schiefermuelleri AAGCCTTGGCAGTGCAGGGTGAGCCGTGGCCGGGCACGGTATH_sapiens ACCGGTTGGCCGTTCAGGGTACAGGTTGGCCGTTCAGGGTAAChimpancé AAACCCTTGCCGTTACGCTTAAACCGAGGCCGGGACACTCATGorila AAACCCTTGCCGGTACGCTTAAACCATTGCCGGTACGCTTAA
La principal diferencia en el formato phylip relajado es la ausencia del límite de 10 caracteres y la eliminación de la necesidad de rellenar los nombres con espacios en blanco para alcanzar esa longitud (aunque rellenar los nombres para que la matriz de caracteres comience en la misma posición puede mejorar la legibilidad para el usuario). Este ejemplo de formato relajado utiliza guiones bajos en lugar de espacios en los nombres y utiliza espacios entre los nombres y los datos de caracteres alineados; suele ser una buena práctica evitar los espacios en blanco dentro de los nombres de taxones y separar los datos de caracteres del nombre al generar archivos. Al igual que los archivos de formato phylip estricto, los archivos de formato phylip relajado pueden estar en formato intercalado e incluir espacios y líneas finales dentro de los datos de secuencia.
Los programas que utilizan datos de distancia, como el neighbor
programa que implementa el método de unión de vecinos , también utilizan un formato de matriz de distancia simple que incluye solo el número de taxones, sus nombres y valores numéricos para las distancias:
Matriz de distancia de Phylip:
7Bovino 0,0000 1,6866 1,7198 1,6606 1,5243 1,6043 1,5905Ratón 1,6866 0,0000 1,5232 1,4841 1,4465 1,4389 1,4629Gibón 1,7198 1,5232 0,0000 0,7115 0,5958 0,6179 0,5583Naranja 1,6606 1,4841 0,7115 0,0000 0,4631 0,5061 0,4710Gorila 1,5243 1,4465 0,5958 0,4631 0,0000 0,3484 0,3083Chimpancé 1,6043 1,4389 0,6179 0,5061 0,3484 0,0000 0,2692Humano 1,5905 1,4629 0,5583 0,4710 0,3083 0,2692 0,0000
El número indica la cantidad de taxones y existen las mismas limitaciones para los nombres de los taxones. Nótese que esta matriz es simétrica y la diagonal tiene valores de 0 (ya que la distancia entre un taxón y él mismo es cero por definición).
Los programas que utilizan árboles como entrada aceptan los árboles en formato Newick , un estándar informal acordado en 1986 por los autores de siete paquetes filogenéticos importantes. La salida se escribe en archivos con nombres como outfile
y outtree
. Los árboles escritos en outtree
están en formato Newick.