Las matrices de distancia se utilizan en filogenia como métodos de distancia no paramétricos y se aplicaron originalmente a datos fenéticos utilizando una matriz de distancias por pares. Estas distancias luego se concilian para producir un árbol (un filograma , con longitudes de rama informativas). La matriz de distancia puede provenir de varias fuentes diferentes, incluida la distancia medida (por ejemplo, de estudios inmunológicos ) o el análisis morfométrico , varias fórmulas de distancia por pares (como la distancia euclidiana ) aplicadas a caracteres morfológicos discretos o la distancia genética de datos de secuencias, fragmentos de restricción o alozimas . Para los datos de caracteres filogenéticos, los valores de distancia sin procesar se pueden calcular simplemente contando el número de diferencias por pares en los estados de los caracteres ( distancia de Hamming ).
Los métodos de análisis filogenético basados en matrices de distancias se basan explícitamente en una medida de "distancia genética" entre las secuencias que se están clasificando y, por lo tanto, comienzan con un alineamiento de secuencias múltiples (MSA) como entrada. A partir de él, construyen una matriz de todos a todos que describe la distancia entre cada par de secuencias. Finalmente, construyen un árbol filogenético que coloca secuencias estrechamente relacionadas bajo el mismo nodo interior y cuyas longitudes de rama reproducen de manera precisa las distancias observadas entre secuencias. El árbol producido puede tener o no raíz, según el algoritmo utilizado.
La distancia se define a menudo como la fracción de desajustes en posiciones alineadas, y los espacios se ignoran o se cuentan como desajustes. [1]
Los métodos de matriz de distancia se utilizan con frecuencia como base para tipos progresivos e iterativos de alineamiento de secuencias múltiples .
La principal desventaja de los métodos de matriz de distancia es su incapacidad para utilizar de manera eficiente la información sobre regiones locales de alta variación que aparecen en múltiples subárboles. [2]
Los métodos de unión de vecinos aplican técnicas generales de agrupamiento de datos al análisis de secuencias utilizando la distancia genética como métrica de agrupamiento. El método simple de unión de vecinos produce árboles sin raíz, pero no supone una tasa constante de evolución (es decir, un reloj molecular ) a lo largo de los linajes.
Los métodos UPGMA ( Método de grupo de pares no ponderados con media aritmética ) y WPGMA ( Método de grupo de pares ponderados con media aritmética ) producen árboles enraizados y requieren una suposición de tasa constante, es decir, supone un árbol ultramétrico en el que las distancias desde la raíz hasta cada punta de rama son iguales.
El método Fitch-Margoliash utiliza un método de mínimos cuadrados ponderados para la agrupación en función de la distancia genética. [3] Las secuencias estrechamente relacionadas reciben más peso en el proceso de construcción del árbol para corregir la mayor inexactitud en la medición de distancias entre secuencias distantemente relacionadas. En la práctica, la corrección de la distancia solo es necesaria cuando las tasas de evolución difieren entre las ramas. [2] Las distancias utilizadas como entrada para el algoritmo deben normalizarse para evitar grandes artefactos en el cálculo de las relaciones entre grupos estrechamente relacionados y distantemente relacionados. Las distancias calculadas por este método deben ser lineales ; el criterio de linealidad para las distancias requiere que los valores esperados de las longitudes de las ramas para dos ramas individuales deben ser iguales al valor esperado de la suma de las dos distancias de las ramas, una propiedad que se aplica a las secuencias biológicas solo cuando se han corregido por la posibilidad de mutaciones inversas en sitios individuales. Esta corrección se realiza mediante el uso de una matriz de sustitución como la derivada del modelo de Jukes-Cantor de la evolución del ADN.
El criterio de mínimos cuadrados aplicado a estas distancias es más preciso pero menos eficiente que los métodos de unión de vecinos. También se puede aplicar una mejora adicional que corrige las correlaciones entre distancias que surgen de muchas secuencias estrechamente relacionadas en el conjunto de datos con un mayor costo computacional. Encontrar el árbol de mínimos cuadrados óptimo con cualquier factor de corrección es NP-completo , [4] por lo que se aplican métodos de búsqueda heurística como los utilizados en el análisis de máxima parsimonia a la búsqueda a través del espacio del árbol.
La información independiente sobre la relación entre secuencias o grupos se puede utilizar para ayudar a reducir el espacio de búsqueda de árboles y enraizar árboles sin raíz. El uso estándar de los métodos de matriz de distancia implica la inclusión de al menos una secuencia de grupo externo que se sabe que solo está distantemente relacionada con las secuencias de interés en el conjunto de consulta. [1] Este uso puede verse como un tipo de control experimental . Si el grupo externo se ha elegido adecuadamente, tendrá una distancia genética mucho mayor y, por lo tanto, una longitud de rama más larga que cualquier otra secuencia, y aparecerá cerca de la raíz de un árbol enraizado. La elección de un grupo externo apropiado requiere la selección de una secuencia que esté moderadamente relacionada con las secuencias de interés; una relación demasiado cercana frustra el propósito del grupo externo y demasiado distante agrega ruido al análisis. [1] También se debe tener cuidado para evitar situaciones en las que las especies de las que se tomaron las secuencias están distantemente relacionadas, pero el gen codificado por las secuencias está altamente conservado entre linajes. La transferencia horizontal de genes , especialmente entre bacterias que de otro modo serían divergentes , también puede confundir el uso del grupo externo.
En general, los datos de distancia por pares son una subestimación de la distancia recorrida entre taxones en un filograma . Las distancias por pares efectivamente "acortan caminos" de una manera análoga a la distancia geográfica: la distancia entre dos ciudades puede ser de 100 millas "en línea recta", pero un viajero puede estar obligado a viajar 120 millas debido al diseño de las carreteras, el terreno, las paradas en el camino, etc. Entre pares de taxones, algunos cambios de caracteres que tuvieron lugar en linajes ancestrales serán indetectables, porque los cambios posteriores han borrado la evidencia (a menudo llamados aciertos múltiples y mutaciones retroactivas en los datos de secuencia). Este problema es común a toda estimación filogenética, pero es particularmente agudo para los métodos de distancia, porque solo se utilizan dos muestras para cada cálculo de distancia; otros métodos se benefician de la evidencia de estos cambios ocultos que se encuentran en otros taxones que no se consideran en las comparaciones por pares. Para los datos de secuencias de nucleótidos y aminoácidos , se pueden emplear los mismos modelos estocásticos de cambio de nucleótidos utilizados en el análisis de máxima verosimilitud para "corregir" distancias, haciendo que el análisis sea "semiparamétrico".
Existen varios algoritmos simples para construir un árbol directamente a partir de distancias por pares, incluyendo UPGMA y neighbor join (NJ), pero estos no necesariamente producirán el mejor árbol para los datos. Para contrarrestar las posibles complicaciones señaladas anteriormente, y para encontrar el mejor árbol para los datos, el análisis de distancias también puede incorporar un protocolo de búsqueda de árboles que busque satisfacer un criterio de optimalidad explícito. Dos criterios de optimalidad se aplican comúnmente a los datos de distancia, la evolución mínima (ME) y la inferencia de mínimos cuadrados . Los mínimos cuadrados son parte de una clase más amplia de métodos basados en regresión agrupados aquí para simplificar. Estas fórmulas de regresión minimizan las diferencias residuales entre las distancias de ruta a lo largo del árbol y las distancias por pares en la matriz de datos, "ajustando" efectivamente el árbol a las distancias empíricas. En contraste, ME acepta el árbol con la suma más corta de longitudes de rama y, por lo tanto, minimiza la cantidad total de evolución asumida. ME es muy similar a la parsimonia y, en ciertas condiciones, el análisis ME de distancias basado en un conjunto de datos de caracteres discretos favorecerá el mismo árbol que el análisis de parsimonia convencional de los mismos datos.
La estimación de la filogenia mediante métodos de distancia ha generado una serie de controversias. UPGMA supone un árbol ultramétrico (un árbol en el que todas las longitudes de los caminos desde la raíz hasta las puntas son iguales). Si la tasa de evolución fuera igual en todos los linajes muestreados (un reloj molecular ) y si el árbol estuviera completamente equilibrado (igual número de taxones en ambos lados de cualquier división, para contrarrestar el efecto de densidad de nodos), UPGMA no debería producir un resultado sesgado. La mayoría de los conjuntos de datos no cumplen estas expectativas y, aunque UPGMA es algo robusto a su violación, no se utiliza comúnmente para la estimación de la filogenia. La ventaja de UPGMA es que es rápido y puede manejar muchas secuencias.
La unión de vecinos es una forma de descomposición en estrella y, como método heurístico , es generalmente el que requiere menos recursos computacionales. Se utiliza muy a menudo por sí solo y, de hecho, con bastante frecuencia produce árboles razonables. Sin embargo, carece de cualquier tipo de búsqueda de árboles y criterio de optimalidad, por lo que no hay garantía de que el árbol recuperado sea el que mejor se ajuste a los datos. Un procedimiento analítico más apropiado sería utilizar NJ para producir un árbol de partida y, a continuación, emplear una búsqueda de árboles utilizando un criterio de optimalidad, para garantizar que se recupere el mejor árbol.
Muchos científicos evitan los métodos de distancia por diversas razones. Una razón que se cita con frecuencia es que las distancias son inherentemente fenéticas en lugar de filogenéticas , en el sentido de que no distinguen entre similitud ancestral ( simplesiomorfía ) y similitud derivada ( sinapomorfía ). Esta crítica no es del todo justa: la mayoría de las implementaciones actuales de parsimonia, verosimilitud e inferencia filogenética bayesiana utilizan modelos de caracteres reversibles en el tiempo y, por lo tanto, no otorgan un estatus especial a los estados de caracteres derivados o ancestrales. Según estos modelos, el árbol se estima sin raíz; el enraizamiento y, en consecuencia, la determinación de la polaridad, se realiza después del análisis. La principal diferencia entre estos métodos y las distancias es que los métodos de parsimonia, verosimilitud y bayesianos ajustan caracteres individuales al árbol, mientras que los métodos de distancia ajustan todos los caracteres a la vez. No hay nada inherentemente menos filogenético en este enfoque. [ cita requerida ]
En términos más prácticos, se evitan los métodos de distancia porque la relación entre los caracteres individuales y el árbol se pierde en el proceso de reducción de caracteres a distancias. Estos métodos no utilizan datos de caracteres directamente, y la información encerrada en la distribución de estados de caracteres se puede perder en las comparaciones por pares. Además, algunas relaciones filogenéticas complejas pueden producir distancias sesgadas. En cualquier filograma, las longitudes de las ramas se subestimarán porque algunos cambios no se pueden descubrir en absoluto debido a la falta de muestreo de algunas especies debido al diseño experimental o la extinción (un fenómeno llamado efecto de densidad de nodos). Sin embargo, incluso si las distancias por pares a partir de datos genéticos se "corrigen" utilizando modelos estocásticos de evolución como se mencionó anteriormente, pueden sumarse más fácilmente para formar un árbol diferente que uno producido a partir del análisis de los mismos datos y modelo utilizando máxima verosimilitud . Esto se debe a que las distancias por pares no son independientes; cada rama de un árbol está representada en las mediciones de distancia de todos los taxones que separa. El error resultante de cualquier característica de esa rama que pueda confundir la filogenia (variabilidad estocástica, cambio en los parámetros evolutivos, una longitud de rama anormalmente larga o corta) se propagará a través de todas las mediciones de distancia relevantes. La matriz de distancia resultante puede entonces ajustarse mejor a un árbol alternativo (presumiblemente menos óptimo).
A pesar de estos problemas potenciales, los métodos de distancia son extremadamente rápidos y a menudo producen una estimación razonable de la filogenia. También tienen ciertos beneficios sobre los métodos que utilizan caracteres directamente. En particular, los métodos de distancia permiten el uso de datos que pueden no ser fácilmente convertidos a datos de caracteres, como los ensayos de hibridación ADN-ADN . También permiten análisis que tienen en cuenta la posibilidad de que la velocidad a la que se incorporan nucleótidos particulares a las secuencias pueda variar a lo largo del árbol, utilizando distancias LogDet. Para algunos métodos de estimación de red (notablemente NeighborNet ), la abstracción de información sobre caracteres individuales en los datos de distancia es una ventaja. Cuando se considera carácter por carácter, el conflicto entre carácter y un árbol debido a la reticulación no se puede distinguir del conflicto debido a homoplasia o error. Sin embargo, el conflicto pronunciado en los datos de distancia, que representa una amalgama de muchos caracteres, es menos probable que se deba a error u homoplasia a menos que los datos estén fuertemente sesgados y, por lo tanto, es más probable que sea resultado de la reticulación.
Los métodos de distancia son populares entre los sistemáticos moleculares, un número considerable de los cuales utilizan NJ sin una etapa de optimización casi exclusivamente. Con la creciente velocidad de los análisis basados en caracteres, algunas de las ventajas de los métodos de distancia probablemente se desvanecerán. Sin embargo, las implementaciones casi instantáneas de NJ, la capacidad de incorporar un modelo evolutivo en un análisis rápido, las distancias LogDet, los métodos de estimación de redes y la necesidad ocasional de resumir relaciones con un solo número significan que los métodos de distancia probablemente seguirán siendo la corriente principal durante mucho tiempo.