La filogenética molecular ( / m ə ˈ l ɛ k j ʊ l ər ˌ f aɪ l oʊ dʒ ə ˈ n ɛ t ɪ k s , m ɒ -, m oʊ - / [1] [2] ) es la rama de la filogenia que analiza las diferencias moleculares genéticas y hereditarias, predominantemente en las secuencias de ADN, para obtener información sobre las relaciones evolutivas de un organismo. A partir de estos análisis, es posible determinar los procesos mediante los cuales se ha logrado la diversidad entre las especies. El resultado de un análisis filogenético molecular se expresa en un árbol filogenético . La filogenética molecular es un aspecto de la sistemática molecular , un término más amplio que también incluye el uso de datos moleculares en taxonomía y biogeografía . [3] [4] [5]
La filogenética molecular y la evolución molecular están relacionadas. La evolución molecular es el proceso de cambios selectivos (mutaciones) a nivel molecular (genes, proteínas, etc.) a lo largo de varias ramas del árbol de la vida (evolución). La filogenética molecular realiza inferencias de las relaciones evolutivas que surgen debido a la evolución molecular y da como resultado la construcción de un árbol filogenético. [6]
Los marcos teóricos para la sistemática molecular se establecieron en la década de 1960 en los trabajos de Emile Zuckerkandl , Emanuel Margoliash , Linus Pauling y Walter M. Fitch . [7] Las aplicaciones de la sistemática molecular fueron iniciadas por Charles G. Sibley ( aves ), Herbert C. Dessauer ( herpetología ) y Morris Goodman ( primates ), seguidos por Allan C. Wilson , Robert K. Selander y John C. Avise (quien estudió varios grupos). El trabajo con electroforesis de proteínas comenzó alrededor de 1956. Aunque los resultados no fueron cuantitativos y no mejoraron inicialmente la clasificación morfológica, proporcionaron pistas tentadoras de que las nociones de larga data de las clasificaciones de las aves , por ejemplo, necesitaban una revisión sustancial. En el período de 1974 a 1986, la hibridación ADN-ADN fue la técnica dominante utilizada para medir la diferencia genética. [8]
Los primeros intentos de sistemática molecular también se denominaron quimiotaxonomía e hicieron uso de proteínas, enzimas , carbohidratos y otras moléculas que se separaron y caracterizaron utilizando técnicas como la cromatografía . Estas han sido reemplazadas en los últimos tiempos en gran medida por la secuenciación de ADN , que produce las secuencias exactas de nucleótidos o bases en segmentos de ADN o ARN extraídos utilizando diferentes técnicas. En general, se consideran superiores para los estudios evolutivos, ya que las acciones de la evolución se reflejan en última instancia en las secuencias genéticas. En la actualidad, sigue siendo un proceso largo y costoso secuenciar todo el ADN de un organismo (su genoma ). Sin embargo, es bastante factible determinar la secuencia de un área definida de un cromosoma particular . Los análisis sistemáticos moleculares típicos requieren la secuenciación de alrededor de 1000 pares de bases . En cualquier ubicación dentro de dicha secuencia, las bases que se encuentran en una posición determinada pueden variar entre organismos. La secuencia particular que se encuentra en un organismo determinado se conoce como su haplotipo . En principio, dado que hay cuatro tipos de bases, con 1000 pares de bases, podríamos tener 4 1000 haplotipos distintos. Sin embargo, en el caso de organismos de una especie en particular o de un grupo de especies relacionadas, se ha descubierto empíricamente que solo una minoría de sitios muestran alguna variación, y la mayoría de las variaciones que se encuentran están correlacionadas, de modo que el número de haplotipos distintos que se encuentran es relativamente pequeño. [9]
En un análisis sistemático molecular, los haplotipos se determinan para un área definida de material genético ; se utiliza una muestra sustancial de individuos de la especie objetivo u otro taxón ; sin embargo, muchos estudios actuales se basan en individuos únicos. También se determinan los haplotipos de individuos de taxones estrechamente relacionados, pero diferentes. Finalmente, se determinan los haplotipos de un número menor de individuos de un taxón definitivamente diferente: estos se denominan " grupo externo" . Luego se comparan las secuencias de bases para los haplotipos. En el caso más simple, la diferencia entre dos haplotipos se evalúa contando el número de ubicaciones donde tienen bases diferentes: esto se denomina el número de sustituciones (también pueden ocurrir otros tipos de diferencias entre haplotipos, por ejemplo, la inserción de una sección de ácido nucleico en un haplotipo que no está presente en otro). La diferencia entre organismos suele reexpresarse como un porcentaje de divergencia , dividiendo el número de sustituciones por el número de pares de bases analizados: la esperanza es que esta medida sea independiente de la ubicación y la longitud de la sección de ADN que se secuencia.
Un método más antiguo y obsoleto consistía en determinar las divergencias entre los genotipos de los individuos mediante hibridación ADN-ADN . La ventaja que se atribuía al uso de la hibridación en lugar de la secuenciación de genes era que se basaba en el genotipo completo, en lugar de en secciones particulares del ADN. Las técnicas modernas de comparación de secuencias superan esta objeción mediante el uso de múltiples secuencias.
Una vez que se han determinado las divergencias entre todos los pares de muestras, la matriz triangular de diferencias resultante se somete a alguna forma de análisis estadístico de conglomerados y se examina el dendrograma resultante para ver si las muestras se agrupan de la manera que se esperaría a partir de las ideas actuales sobre la taxonomía del grupo. Cualquier grupo de haplotipos que sean más similares entre sí que cualquiera de ellos a cualquier otro haplotipo puede decirse que constituye un clado , que puede representarse visualmente como lo demuestra la figura que se muestra a la derecha. Las técnicas estadísticas como el bootstrapping y el jackknifing ayudan a proporcionar estimaciones de confiabilidad para las posiciones de los haplotipos dentro de los árboles evolutivos.
Cada organismo vivo contiene ácido desoxirribonucleico ( ADN ), ácido ribonucleico ( ARN ) y proteínas . En general, los organismos estrechamente relacionados tienen un alto grado de similitud en la estructura molecular de estas sustancias, mientras que las moléculas de los organismos distantemente relacionados a menudo muestran un patrón de disimilitud. Se espera que las secuencias conservadas, como el ADN mitocondrial, acumulen mutaciones con el tiempo y, asumiendo una tasa constante de mutación, proporcionan un reloj molecular para datar la divergencia. La filogenia molecular utiliza dichos datos para construir un "árbol de relaciones" que muestra la probable evolución de varios organismos. Con la invención de la secuenciación de Sanger en 1977, se hizo posible aislar e identificar estas estructuras moleculares. [10] [11] La secuenciación de alto rendimiento también se puede utilizar para obtener el transcriptoma de un organismo, lo que permite la inferencia de relaciones filogenéticas utilizando datos transcriptómicos .
El enfoque más común es la comparación de secuencias homólogas de genes utilizando técnicas de alineamiento de secuencias para identificar similitudes. Otra aplicación de la filogenia molecular es el código de barras del ADN , en el que la especie de un organismo individual se identifica utilizando pequeñas secciones de ADN mitocondrial o ADN de cloroplasto . Otra aplicación de las técnicas que hacen esto posible se puede ver en el campo muy limitado de la genética humana, como el uso cada vez más popular de pruebas genéticas para determinar la paternidad de un niño , así como el surgimiento de una nueva rama de la ciencia forense criminal centrada en la evidencia conocida como huella genética .
Existen varios métodos disponibles para realizar un análisis filogenético molecular. Uno de ellos, que incluye un protocolo integral paso a paso para construir un árbol filogenético, que incluye el ensamblaje de secuencias contiguas de ADN/aminoácidos, el alineamiento de secuencias múltiples , la prueba de modelos (prueba de modelos de sustitución que mejor se ajustan) y la reconstrucción de la filogenia utilizando la máxima verosimilitud y la inferencia bayesiana, está disponible en Nature Protocol. [12]
Pevsner ha descrito otra técnica de análisis filogenético molecular que se resumirá en las oraciones siguientes (Pevsner, 2015). Un análisis filogenético consta típicamente de cinco pasos principales. La primera etapa comprende la adquisición de secuencias. El siguiente paso consiste en realizar un alineamiento de secuencias múltiples, que es la base fundamental para construir un árbol filogenético. La tercera etapa incluye diferentes modelos de sustitución de ADN y aminoácidos. Existen varios modelos de sustitución. Algunos ejemplos incluyen la distancia de Hamming , el modelo de un parámetro de Jukes y Cantor y el modelo de dos parámetros de Kimura (ver Modelos de evolución del ADN ). La cuarta etapa consta de varios métodos de construcción de árboles, incluidos los métodos basados en la distancia y en los caracteres. La distancia de Hamming normalizada y las fórmulas de corrección de Jukes-Cantor proporcionan el grado de divergencia y la probabilidad de que un nucleótido cambie a otro, respectivamente. Los métodos comunes de construcción de árboles incluyen el método de grupo de pares no ponderados que utiliza media aritmética ( UPGMA ) y la unión de vecinos , que son métodos basados en la distancia, la parsimonia máxima , que es un método basado en caracteres, y la estimación de máxima verosimilitud y la inferencia bayesiana , que son métodos basados en caracteres/modelos. UPGMA es un método simple; sin embargo, es menos preciso que el enfoque de unión de vecinos. Finalmente, el último paso comprende la evaluación de los árboles. Esta evaluación de la precisión se compone de consistencia, eficiencia y robustez. [13]
MEGA (molecular evolutionary genetology analysis) es un software de análisis fácil de usar y de descarga y uso gratuitos. Este software es capaz de analizar metodologías de árboles basadas tanto en la distancia como en caracteres. MEGA también contiene varias opciones que se pueden utilizar, como enfoques heurísticos y bootstrapping. El bootstrapping es un enfoque que se utiliza comúnmente para medir la solidez de la topología en un árbol filogenético, que demuestra el porcentaje de cada clado que se mantiene después de numerosas réplicas. En general, un valor superior al 70% se considera significativo. El diagrama de flujo que se muestra a la derecha demuestra visualmente el orden de las cinco etapas de la técnica de análisis filogenético molecular de Pevsner que se han descrito. [13]
La sistemática molecular es un enfoque esencialmente cladístico : supone que la clasificación debe corresponder a la descendencia filogenética y que todos los taxones válidos deben ser monofiléticos . Esto supone una limitación cuando se intenta determinar el árbol o árboles óptimos, lo que a menudo implica dividir y reconectar partes del árbol o árboles filogenéticos.
El reciente descubrimiento de una extensa transferencia horizontal de genes entre organismos plantea una complicación significativa a la sistemática molecular, ya que indica que diferentes genes dentro del mismo organismo pueden tener diferentes filogenias. Las transferencias horizontales de genes se pueden detectar y excluir utilizando una serie de métodos filogenéticos (véase Inferencia de la transferencia horizontal de genes § Métodos filogenéticos explícitos ).
Además, las filogenias moleculares son sensibles a los supuestos y modelos que se utilizan para elaborarlas. En primer lugar, las secuencias deben estar alineadas; luego, deben abordarse cuestiones como la atracción de ramas largas , la saturación y los problemas de muestreo de taxones . Esto significa que se pueden obtener resultados sorprendentemente diferentes al aplicar diferentes modelos al mismo conjunto de datos. [14] [15] El método de construcción de árboles también conlleva supuestos específicos sobre la topología de los árboles, las velocidades de evolución y el muestreo. El UPGMA simplista supone un árbol enraizado y un reloj molecular uniforme, ambos pueden ser incorrectos. [13]