stringtranslate.com

Mutación puntual aceptada

Un ejemplo de mutaciones puntuales en un sitio de aminoácido que codifica lisina . Las mutaciones sin sentido pueden clasificarse como mutaciones puntuales aceptadas si la proteína mutada no es rechazada por la selección natural.

Una mutación puntual aceptada , también conocida como PAM, es la sustitución de un único aminoácido en la estructura primaria de una proteína por otro único aminoácido, que es aceptado mediante los procesos de selección natural . Esta definición no incluye todas las mutaciones puntuales en el ADN de un organismo. En particular, las mutaciones silenciosas no son mutaciones puntuales aceptadas, ni tampoco lo son las mutaciones que son letales o que son rechazadas por la selección natural de otras maneras.

Una matriz PAM es una matriz donde cada columna y fila representa uno de los veinte aminoácidos estándar. En bioinformática , las matrices PAM se utilizan a veces como matrices de sustitución para puntuar alineamientos de secuencias de proteínas. Cada entrada en una matriz PAM indica la probabilidad de que el aminoácido de esa fila sea reemplazado por el aminoácido de esa columna a través de una serie de una o más mutaciones puntuales aceptadas durante un intervalo evolutivo específico, en lugar de que estos dos aminoácidos se alineen debido al azar. Diferentes matrices PAM corresponden a diferentes períodos de tiempo en la evolución de la secuencia de proteínas.

Antecedentes biológicos

Las instrucciones genéticas de cada célula que se replica en un organismo vivo están contenidas en su ADN. [1] A lo largo de la vida de la célula, esta información se transcribe y replica mediante mecanismos celulares para producir proteínas o proporcionar instrucciones a las células hijas durante la división celular , y existe la posibilidad de que el ADN se altere durante estos procesos. [1] [2] Esto se conoce como mutación . A nivel molecular, existen sistemas reguladores que corrigen la mayoría (pero no todos) de estos cambios en el ADN antes de que se replique. [2] [3]

Una de las posibles mutaciones que se produce es la sustitución de un único nucleótido , lo que se conoce como mutación puntual. Si se produce una mutación puntual dentro de una región expresada de un gen , un exón , entonces esto cambiará el codón que especifica un aminoácido particular en la proteína producida por ese gen. [2] A pesar de la redundancia en el código genético , existe la posibilidad de que esta mutación cambie el aminoácido que se produce durante la traducción y, como consecuencia, se cambiará la estructura de la proteína.

La funcionalidad de una proteína depende en gran medida de su estructura. [4] Cambiar un solo aminoácido en una proteína puede reducir su capacidad para llevar a cabo esta función, o la mutación puede incluso cambiar la función que lleva a cabo la proteína. [2] Cambios como estos pueden afectar gravemente una función crucial de una célula, causando potencialmente la muerte de la célula y, en casos extremos, del organismo. [5] Por el contrario, el cambio puede permitir que la célula continúe funcionando aunque de manera diferente, y la mutación puede transmitirse a la descendencia del organismo. Si este cambio no resulta en ninguna desventaja física significativa para la descendencia, existe la posibilidad de que esta mutación persista dentro de la población. También existe la posibilidad de que el cambio de función resulte ventajoso. En cualquier caso, aunque está sujeta a los procesos de selección natural, la mutación puntual ha sido aceptada en el acervo genético.

Los 20 aminoácidos traducidos por el código genético varían mucho según las propiedades físicas y químicas de sus cadenas laterales. [4] Sin embargo, estos aminoácidos se pueden clasificar en grupos con propiedades fisicoquímicas similares. [4] Es más probable que sustituir un aminoácido por otro de la misma categoría tenga un impacto menor en la estructura y función de una proteína que reemplazarlo con un aminoácido de una categoría diferente. En consecuencia, la aceptación de mutaciones puntuales depende en gran medida del aminoácido que se reemplaza en la mutación y del aminoácido de reemplazo. Las matrices PAM son una herramienta matemática que tiene en cuenta estas diferentes tasas de aceptación al evaluar la similitud de proteínas durante la alineación.

Terminología

El término mutación puntual aceptada se utilizó inicialmente para describir el fenómeno de mutación. Sin embargo, se prefirió el acrónimo PAM a APM debido a su legibilidad, por lo que el término mutación puntual aceptada se utiliza con más regularidad. [6] Debido a que el valor en la matriz PAM n representa el número de mutaciones por 100 aminoácidos, que puede compararse con un porcentaje de mutaciones, a veces se utiliza el término porcentaje de mutación aceptada .

Es importante distinguir entre mutaciones puntuales aceptadas (PAM), matrices de mutación puntual aceptadas (matrices PAM) y la matriz PAM n . El término "mutación puntual aceptada" se refiere al evento de mutación en sí. Sin embargo, la 'matriz PAM' se refiere a una familia de matrices que contienen puntuaciones que representan la probabilidad de que dos aminoácidos se alineen debido a una serie de eventos de mutación, en lugar de al azar. La 'matriz PAM n ' es la matriz PAM correspondiente a un período de tiempo suficientemente largo para que se produzcan eventos de mutación por cada 100 aminoácidos.

Construcción de matrices PAM.

Las matrices PAM fueron introducidas por Margaret Dayhoff en 1978. [7] El cálculo de estas matrices se basó en 1572 mutaciones observadas en los árboles filogenéticos de 71 familias de proteínas estrechamente relacionadas. Las proteínas a estudiar se seleccionaron en función de su alta similitud con sus predecesoras. Se requirió que las alineaciones de proteínas incluidas mostraran al menos un 85% de identidad. [6] [8] Como resultado, es razonable suponer que cualquier desajuste alineado fue el resultado de un único evento de mutación, en lugar de varios en el mismo lugar.

Cada matriz PAM tiene veinte filas y veinte columnas, una que representa cada uno de los veinte aminoácidos traducidos por el código genético. El valor en cada celda de una matriz PAM está relacionado con la probabilidad de que un aminoácido de fila antes de la mutación se alinee con un aminoácido de columna posterior. [6] [7] [8] Según esta definición, las matrices PAM son un ejemplo de matriz de sustitución .

Recopilación de datos de árboles filogenéticos.

Para cada rama de los árboles filogenéticos de las familias de proteínas, se registró el número de discrepancias observadas y se mantuvo un registro de los dos aminoácidos implicados. [7] Estos recuentos se utilizaron como entradas debajo de la diagonal principal de la matriz . Dado que la gran mayoría de las muestras de proteínas provienen de organismos que están vivos hoy en día (especies existentes), no se puede determinar la "dirección" de una mutación. Es decir, el aminoácido presente antes de la mutación no se puede distinguir del aminoácido que lo reemplazó después de la mutación. Debido a esto, se supone que la matriz es simétrica y las entradas por encima de la diagonal principal se calculan sobre esta base. Las entradas a lo largo de la diagonal de no corresponden a mutaciones y pueden dejarse sin completar.

Además de estos recuentos, se obtuvieron datos sobre la mutabilidad y la frecuencia de los aminoácidos. [6] [7] La ​​mutabilidad de un aminoácido es la relación entre el número de mutaciones en las que participa y el número de veces que ocurre en una alineación. [7] La ​​mutabilidad mide la probabilidad de que un aminoácido mute de manera aceptable. Se descubrió que la asparagina , un aminoácido con una pequeña cadena lateral polar , era el más mutable de los aminoácidos. [7] Se descubrió que la cisteína y el triptófano eran los aminoácidos menos mutables. [7] Las cadenas laterales de cisteína y triptófano tienen estructuras menos comunes: la cadena lateral de cisteína contiene azufre que participa en enlaces disulfuro con otras moléculas de cisteína, y la cadena lateral de triptófano es grande y aromática . [4] Dado que hay varios aminoácidos polares pequeños, estos extremos sugieren que es más probable que los aminoácidos muten de manera aceptable si sus propiedades físicas y químicas son más comunes entre los aminoácidos alternativos. [6] [8]

Construcción de la matriz de mutación.

Para el aminoácido décimo, los valores y son su mutabilidad y frecuencia. Las frecuencias de los aminoácidos se normalizan para que sumen 1. Si el número total de apariciones del enésimo aminoácido es y es el número total de todos los aminoácidos, entonces

Basado en la definición de mutabilidad como la relación entre mutaciones y apariciones de un aminoácido.

o

La matriz de mutación se construye de modo que la entrada represente la probabilidad de que el enésimo aminoácido mute en el enésimo aminoácido. Las entradas no diagonales se calculan mediante la ecuación [7]

donde es una constante de proporcionalidad. Sin embargo, esta ecuación no calcula las entradas diagonales. Cada columna de la matriz enumera cada uno de los veinte resultados posibles para un aminoácido: puede mutar en uno de los otros 19 aminoácidos o permanecer sin cambios. Dado que se conocen las entradas no diagonales que enumeran las probabilidades de cada una de las 19 mutaciones, y la suma de las probabilidades de estos veinte resultados debe ser 1, esta última probabilidad se puede calcular mediante

lo que se simplifica a [7]

Un resultado de particular importancia es que para las entradas no diagonales

Lo que significa que para todas las entradas en la matriz de mutación

Elección de la constante de proporcionalidad

Las probabilidades contenidas en varían como una función desconocida de la cantidad de tiempo durante el cual se permite que una secuencia de proteínas mute. En lugar de intentar determinar esta relación, los valores de se calculan para un período de tiempo corto y las matrices para períodos de tiempo más largos se calculan asumiendo que las mutaciones siguen un modelo de cadena de Markov . [9] [10] La unidad base de tiempo para las matrices PAM es el tiempo necesario para que se produzca 1 mutación por cada 100 aminoácidos, a veces denominada "unidad PAM" o "PAM" de tiempo. [6] Ésta es precisamente la duración de la mutación asumida por la matriz PAM 1 .

La constante se utiliza para controlar la proporción de aminoácidos que permanecen sin cambios. Al utilizar únicamente alineamientos de proteínas que tenían al menos un 85 % de similitud, se podría suponer razonablemente que las mutaciones observadas eran directas, sin estados intermedios. Esto significa que reducir estos recuentos mediante un factor común proporcionaría una estimación precisa de los recuentos de mutaciones si la similitud hubiera sido más cercana al 100%. También significa que el número de mutaciones por cada 100 aminoácidos, en PAM n, es igual al número de aminoácidos mutados por cada 100 aminoácidos.

Para encontrar la matriz de mutación para la matriz PAM 1 , se impone el requisito de que el 99% de los aminoácidos de una secuencia estén conservados. La cantidad es igual al número de unidades de aminoácidos conservados, por lo que el número total de aminoácidos conservados es

El valor de necesario para ser elegido para producir el 99% de identidad después de la mutación viene dado por la ecuación

Este valor puede usarse luego en la matriz de mutación para la matriz PAM 1 .

Construcción de las matrices PAM n.

El modelo de cadena de Markov de mutación de proteínas relaciona la matriz de mutación para PAM n , con la matriz de mutación para la matriz PAM 1 , mediante la relación simple

La matriz PAM n se construye a partir de la relación entre la probabilidad de que mutaciones puntuales aceptadas reemplacen el aminoácido enésimo por el aminoácido enésimo y la probabilidad de que estos aminoácidos se alineen por casualidad. Las entradas de la matriz PAM n vienen dadas por la ecuación [11] [12]

Tenga en cuenta que en el libro de Gusfield, las entradas y están relacionadas con la probabilidad de que el aminoácido enésimo mute en el aminoácido enésimo. [11] Este es el origen de la ecuación diferente para las entradas de las matrices PAM.

Cuando se utiliza la matriz PAM n para puntuar una alineación de dos proteínas, se hace la siguiente suposición:

Si estas dos proteínas están relacionadas, el intervalo evolutivo que las separa es el tiempo que tardan en producirse mutaciones puntuales aceptadas por cada 100 aminoácidos.

Cuando se considera el alineamiento de los aminoácidos º y º, la puntuación indica las probabilidades relativas de que el alineamiento se deba a que las proteínas estén relacionadas o al azar.

Propiedades de las matrices PAM

Simetría de las matrices PAM.

Si bien la matriz de probabilidad de mutación no es simétrica, cada una de las matrices PAM sí lo es. [6] [7] Esta propiedad algo sorprendente es el resultado de la relación que se observó para la matriz de probabilidad de mutación:

De hecho, esta relación se cumple para todas las potencias enteras positivas de la matriz :

Como resultado, las entradas de la matriz PAM n son simétricas, ya que

Relacionar el número de aminoácidos mutados y el número de mutaciones.

El valor representa el número de mutaciones que ocurren por cada 100 aminoácidos; sin embargo, este valor rara vez es accesible y, a menudo, se estima. Sin embargo, al comparar dos proteínas, es fácil calcular cuál es el número de aminoácidos mutados por cada 100 aminoácidos. A pesar de la naturaleza aleatoria de la mutación, estos valores pueden relacionarse aproximadamente mediante [13]

La validez de estas estimaciones se puede verificar contando el número de aminoácidos que permanecen sin cambios bajo la acción de la matriz . El número total de aminoácidos sin cambios para el intervalo de tiempo de la matriz PAM n es

y entonces la proporción de aminoácidos inalterados es

Un ejemplo: PAM250

Matriz PAM250 con ambas mitades rellenas.

Un PAM250 es una matriz de puntuación de uso común para la comparación de secuencias. Sólo es necesario calcular la mitad inferior de la matriz, ya que, según su construcción, las matrices PAM deben ser simétricas. Cada uno de los 20 aminoácidos se muestra en la parte superior y lateral de la matriz, con 3 aminoácidos ambiguos adicionales . Los aminoácidos se muestran más comúnmente en orden alfabético o en grupos. Estos grupos son las características compartidas entre los aminoácidos. [7]

Usos en bioinformática

Determinando el tiempo de divergencia en árboles filogenéticos.

La hipótesis del reloj molecular predice que la tasa de sustitución de aminoácidos en una proteína particular será aproximadamente constante a lo largo del tiempo, aunque esta tasa puede variar entre familias de proteínas. [13] Esto sugiere que el número de mutaciones por aminoácido en una proteína aumenta aproximadamente de forma lineal con el tiempo.

Determinar el momento en el que dos proteínas divergieron es una tarea importante en filogenética . Los registros fósiles se utilizan a menudo para establecer la posición de eventos en la línea de tiempo de la historia evolutiva de la Tierra, pero la aplicación de esta fuente es limitada . Sin embargo, si se conoce la velocidad a la que funciona el reloj molecular de la familia de proteínas, es decir, la velocidad a la que aumenta el número de mutaciones por aminoácido, entonces conocer este número de mutaciones permitiría encontrar la fecha de la divergencia.

Supongamos que se busca la fecha de divergencia de dos proteínas relacionadas, tomadas de organismos que viven hoy. Las dos proteínas han estado acumulando mutaciones aceptadas desde la fecha de la divergencia, por lo que el número total de mutaciones por aminoácido que las separa es aproximadamente el doble del que las separa de su ancestro común . Si se utiliza una variedad de matrices PAM para alinear dos proteínas que se sabe que están relacionadas, entonces el valor de en la matriz PAM n que da como resultado la mejor puntuación probablemente corresponda a las mutaciones por aminoácido que separan las dos proteínas. Reducir a la mitad este valor y dividirlo por la velocidad a la que se acumulan las mutaciones aceptadas en la familia de proteínas proporciona una estimación del tiempo de divergencia de estas dos proteínas con respecto a su ancestro común. Es decir, el tiempo de divergencia en myr es [13]

¿Dónde es el número de mutaciones por aminoácido y es la tasa de acumulación de mutaciones aceptadas en mutaciones por sitio de aminoácido por millón de años?

Uso en EXPLOSIÓN

Las matrices PAM también se utilizan como matriz de puntuación al comparar secuencias de ADN o secuencias de proteínas para juzgar la calidad del alineamiento. Esta forma de sistema de puntuación es utilizada por una amplia gama de software de alineación, incluido BLAST . [15]

Comparando PAM y BLOSUM

Aunque las matrices de probabilidades logarítmicas de PAM fueron las primeras matrices de puntuación utilizadas con BLAST, las matrices de PAM han sido reemplazadas en gran medida por las matrices de BLOSUM . Aunque ambas matrices producen resultados de puntuación similares, se generaron utilizando metodologías diferentes. Las matrices BLOSUM se generaron directamente a partir de las diferencias de aminoácidos en bloques alineados que han divergido en diversos grados. Las matrices PAM reflejan la extrapolación de información evolutiva basada en secuencias estrechamente relacionadas a escalas de tiempo más largas. [16] Dado que la información de puntuación para las matrices PAM y BLOSUM se generó de maneras muy diferentes, los números asociados con las matrices tienen significados fundamentalmente diferentes; los números de las matrices PAM aumentan para las comparaciones entre proteínas más divergentes, mientras que los números de las matrices BLOSUM disminuyen. [17] Sin embargo, todas las matrices de sustitución de aminoácidos se pueden comparar en un marco teórico de la información [18] utilizando su entropía relativa.

Ver también

Referencias

  1. ^ ab Campbell NA, Reece JB, Meyers N, Urry LA, Cain ML, Wasserman SA, Minorsky PV, Jackson RB (2009). "La base molecular de la herencia". Biología (8ª ed.). Educación Pearson Australia. págs. 307–325. ISBN 9781442502215.
  2. ^ abcd Campbell NA, Reece JB, Meyers N, Urry LA, Cain ML, Wasserman SA, Minorsky PV, Jackson RB (2009). "Del gen a la proteína". Biología: versión australiana (8ª ed.). Educación Pearson Australia. págs. 327–350. ISBN 9781442502215.
  3. ^ Pal JK, Ghaskadbi SS (2009). "Daño, reparación y recombinación del ADN". Fundamentos de biología molecular (1ª ed.). Prensa de la Universidad de Oxford. págs. 187-203. ISBN 9780195697810.
  4. ^ abcd Campbell NA, Reece JB, Meyers N, Urry LA, Cain ML, Wasserman SA, Minorsky PV, Jackson RB (2009). "La estructura y función de grandes moléculas biológicas". Biología: versión australiana (8ª ed.). Educación Pearson Australia. págs. 68–89. ISBN 9781442502215.
  5. ^ Lobo I (enero de 2008). "Proporciones mendelianas y genes letales". Educación en la Naturaleza . 1 (1): 138.
  6. ^ abcdefg Pevsner J (2009). "Alineación de secuencia por pares". Bioinformática y genómica funcional (2ª ed.). Wiley-Blackwell. págs. 58–68. ISBN 978-0-470-08585-1.
  7. ^ abcdefghijk Dayhoff MO, Schwartz RM, Orcutt BC (1978). "Un modelo de cambio evolutivo en proteínas". Atlas de secuencia y estructura de proteínas (volumen 5, suplemento 3 ed.). Washington, DC.: Fundación Nacional de Investigación Biomédica. págs. 345–358. ISBN 978-0-912466-07-1.
  8. ^ abc Wing-Kin S (2010). Algoritmos en bioinformática: una introducción práctica . Prensa CRC. págs. 51–52. ISBN 978-1-4200-7033-0.
  9. ^ Kosiol C, Goldman N (2005). "Diferentes versiones de la matriz tarifaria de Dayhoff". Biología Molecular y Evolución . 22 (2): 193–9. doi : 10.1093/molbev/msi005 . PMID  15483331.
  10. ^ Liò P, Goldman N (1998). "Modelos de evolución molecular y filogenia". Investigación del genoma . 8 (12): 1233–44. doi : 10.1101/gr.8.12.1233 . PMID  9872979.
  11. ^ ab Gusfield D (1997). Algoritmos sobre cadenas, árboles y secuencias: informática y biología computacional . Prensa de la Universidad de Cambridge. págs. 383–384. ISBN 978-0521585194.
  12. ^ Boeckenhauer HJ, Bongartz D (2010). Aspectos algorítmicos de la bioinformática . Saltador. págs. 94–96. ISBN 978-3642091001.
  13. ^ abc Pevsner J (2009). "Filogenia molecular y evolución". Bioinformática y genómica funcional (2ª ed.). Wiley-Blackwell. págs. 221-227. ISBN 978-0-470-08585-1.
  14. ^ Motwani R, Raghavan P (1995). Algoritmos aleatorios. Prensa de la Universidad de Cambridge. pag. 94.ISBN 978-0521474658.
  15. ^ "Las estadísticas de puntuaciones de similitud de secuencias". Centro Nacional de Información Biotecnológica . Consultado el 20 de octubre de 2013 .
  16. ^ Henikoff S , Henikoff JG (1992). "Matrices de sustitución de aminoácidos a partir de bloques de proteínas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 89 (22): 10915–10919. Código bibliográfico : 1992PNAS...8910915H. doi : 10.1073/pnas.89.22.10915 . PMC 50453 . PMID  1438297. 
  17. ^ Saud O (2009). "Matrices de sustitución PAM y BLOSUM". Birec . Archivado desde el original el 9 de marzo de 2013 . Consultado el 20 de octubre de 2013 .
  18. ^ ab Altschul SF (junio de 1991). "Matrices de sustitución de aminoácidos desde una perspectiva de la teoría de la información". Revista de biología molecular . 219 (3): 555–65. doi :10.1016/0022-2836(91)90193-A. PMC 7130686 . PMID  2051488. 

enlaces externos