La métrica de diferencia simétrica o de Robinson-Foulds , a menudo abreviada como distancia RF , es una forma sencilla de calcular la distancia entre árboles filogenéticos . [1]
Se define como ( A + B ) donde A es el número de particiones de datos implícitas en el primer árbol pero no en el segundo árbol y B es el número de particiones de datos implícitas en el segundo árbol pero no en el primero (aunque algunas implementaciones de software dividen la métrica RF por 2 [2] y otras escalan la distancia RF para tener un valor máximo de 1). Las particiones se calculan para cada árbol eliminando cada rama. Por lo tanto, el número de particiones elegibles para cada árbol es igual al número de ramas en ese árbol.
Las distancias RF han sido criticadas por estar sesgadas, [3] pero representan una medida relativamente intuitiva de las distancias entre árboles filogenéticos y por lo tanto siguen siendo ampliamente utilizadas (el artículo original de 1981 que describe las distancias de Robinson-Foulds [1] fue citado más de 2700 veces en 2023 según Google Scholar ). Sin embargo, los sesgos inherentes a las distancias RF sugieren que los investigadores deberían considerar el uso de métricas de Robinson-Foulds "generalizadas" [4] que pueden tener un mejor desempeño teórico y práctico y evitar los sesgos y los atributos engañosos de la métrica original.
Dados dos árboles de nodos sin raíz y un conjunto de etiquetas (es decir, taxones ) para cada nodo (que podrían estar vacíos, pero solo los nodos con grado mayor o igual a tres pueden etiquetarse con un conjunto vacío), la métrica de Robinson-Foulds encuentra el número de operaciones y para convertir uno en el otro. El número de operaciones define su distancia. Los árboles con raíz se pueden examinar adjuntando una hoja ficticia al nodo raíz. [5]
Los autores definen que dos árboles son iguales si son isomorfos y el isomorfismo conserva el etiquetado. La construcción de la prueba se basa en una función llamada , que contrae una arista (combinando los nodos, creando una unión de sus conjuntos). Por el contrario, expande una arista (descontracción), donde el conjunto se puede dividir de cualquier manera.
La función elimina todas las aristas de que no están en , creando , y luego se utiliza para agregar las aristas descubiertas únicamente en al árbol para construir . La cantidad de operaciones en cada uno de estos procedimientos es equivalente a la cantidad de aristas en que no están en más la cantidad de aristas en que no están en . La suma de las operaciones es equivalente a una transformación de a , o viceversa.
La distancia RF corresponde a una métrica de similitud equivalente que refleja la resolución del consenso estricto de dos árboles, utilizada por primera vez para comparar árboles en 1980. [6]
En su artículo de 1981 [1] Robinson y Foulds demostraron que la distancia es de hecho una métrica .
En 1985, Day presentó un algoritmo basado en un hash perfecto que calcula esta distancia y que tiene una complejidad lineal únicamente en el número de nodos de los árboles. Se ha demostrado que un algoritmo aleatorio que utiliza tablas hash que no son necesariamente perfectas aproxima la distancia de Robinson-Foulds con un error acotado en tiempo sublineal.
En filogenética , la métrica se utiliza a menudo para calcular la distancia entre dos árboles. El programa treedist de la suite PHYLIP ofrece esta función, al igual que el paquete RAxML_standard, la biblioteca Python DendroPy (con el nombre de "métrica de diferencia simétrica") y los paquetes R TreeDist (función `RobinsonFoulds()`) y phangorn (función `treedist()`). Para comparar grupos de árboles, las implementaciones más rápidas incluyen HashRF y MrsRF.
La métrica de Robinson-Foulds también se ha utilizado en lingüística comparativa cuantitativa para calcular distancias entre árboles que representan cómo se relacionan las lenguas entre sí.
La métrica RF sigue utilizándose ampliamente porque la idea de utilizar el número de divisiones que difieren entre un par de árboles es una forma relativamente intuitiva de evaluar las diferencias entre árboles para muchos sistemáticos. Esta es la principal fortaleza de la distancia RF y la razón de su uso continuo en filogenética. Por supuesto, el número de divisiones que difieren entre un par de árboles depende del número de taxones en los árboles, por lo que se podría argumentar que esta unidad no es significativa. Sin embargo, es sencillo normalizar las distancias RF para que oscilen entre cero y uno.
Sin embargo, la métrica RF también adolece de una serie de deficiencias teóricas y prácticas: [7] [5]
Otro aspecto a tener en cuenta al utilizar distancias RF es que las diferencias en un clado pueden ser triviales (quizás si el clado resuelve tres especies dentro de un género de manera diferente) o pueden ser fundamentales (si el clado está en lo profundo del árbol y define dos subgrupos fundamentales, como mamíferos y aves). Sin embargo, este aspecto no es un problema de las distancias RF en sí, es una crítica más general a las distancias entre árboles. Independientemente del comportamiento de cualquier distancia entre árboles específica, un biólogo evolutivo en ejercicio puede considerar algunos reordenamientos entre árboles como "importantes" y otros como "triviales". Las distancias entre árboles son herramientas; son más útiles en el contexto de otra información sobre los organismos en los árboles.
Estos problemas se pueden abordar utilizando métricas menos conservadoras. Las "distancias RF generalizadas" reconocen la similitud entre divisiones similares, pero no idénticas; la distancia Robinson-Foulds original no tiene en cuenta cuán similares son dos agrupaciones; si no son idénticas, se descartan. [4]
Las distancias de Robinson-Foulds generalizadas de mejor rendimiento tienen una base en la teoría de la información y miden la distancia entre árboles en términos de la cantidad de información que las divisiones de los árboles tienen en común (medida en bits). [5] La distancia de información de agrupamiento (implementada en el paquete R TreeDist) se recomienda como la alternativa más adecuada a la distancia de Robinson-Foulds. [5]
Un enfoque alternativo para calcular la distancia entre árboles es utilizar la distancia de cuarteto , en lugar de divisiones, como base para la comparación de árboles. [7]