stringtranslate.com

Mutación de punto aceptado

Un ejemplo de mutaciones puntuales en un sitio de aminoácidos que codifica para la lisina . Las mutaciones sin sentido pueden clasificarse como mutaciones puntuales aceptadas si la proteína mutada no es rechazada por la selección natural.

Una mutación puntual aceptada , también conocida como PAM, es el reemplazo de un solo aminoácido en la estructura primaria de una proteína por otro solo aminoácido, que es aceptado por los procesos de selección natural . Esta definición no incluye todas las mutaciones puntuales en el ADN de un organismo. En particular, las mutaciones silenciosas no son mutaciones puntuales aceptadas, ni tampoco las mutaciones que son letales o que son rechazadas por la selección natural de otras maneras.

Una matriz PAM es una matriz en la que cada columna y fila representa uno de los veinte aminoácidos estándar. En bioinformática , las matrices PAM se utilizan a veces como matrices de sustitución para puntuar las alineaciones de secuencias de proteínas. Cada entrada en una matriz PAM indica la probabilidad de que el aminoácido de esa fila sea reemplazado por el aminoácido de esa columna a través de una serie de una o más mutaciones puntuales aceptadas durante un intervalo evolutivo específico, en lugar de que estos dos aminoácidos se alineen debido al azar. Diferentes matrices PAM corresponden a diferentes períodos de tiempo en la evolución de la secuencia de proteínas.

Antecedentes biológicos

Las instrucciones genéticas de cada célula replicante de un organismo vivo están contenidas en su ADN. [1] A lo largo de la vida de la célula, esta información se transcribe y replica mediante mecanismos celulares para producir proteínas o proporcionar instrucciones a las células hijas durante la división celular , y existe la posibilidad de que el ADN se altere durante estos procesos. [1] [2] Esto se conoce como mutación . A nivel molecular, existen sistemas reguladores que corrigen la mayoría de estos cambios en el ADN antes de que se replique. [2] [3]

Una de las posibles mutaciones que se producen es la sustitución de un único nucleótido , conocida como mutación puntual. Si una mutación puntual se produce dentro de una región expresada de un gen , un exón , entonces esto cambiará el codón que especifica un aminoácido particular en la proteína producida por ese gen. [2] A pesar de la redundancia en el código genético , existe la posibilidad de que esta mutación cambie entonces el aminoácido que se produce durante la traducción y, como consecuencia, se cambiará la estructura de la proteína.

La funcionalidad de una proteína depende en gran medida de su estructura. [4] Cambiar un solo aminoácido en una proteína puede reducir su capacidad para llevar a cabo esta función, o la mutación puede incluso cambiar la función que lleva a cabo la proteína. [2] Cambios como estos pueden afectar gravemente una función crucial en una célula, potencialmente causando que la célula -y en casos extremos, el organismo- muera. [5] Por el contrario, el cambio puede permitir que la célula continúe funcionando aunque de manera diferente, y la mutación puede transmitirse a la descendencia del organismo. Si este cambio no resulta en ninguna desventaja física significativa para la descendencia, existe la posibilidad de que esta mutación persista dentro de la población. También existe la posibilidad de que el cambio en la función se vuelva ventajoso. En cualquier caso, aunque esté sujeta a los procesos de selección natural, la mutación puntual ha sido aceptada en el acervo genético.

Los 20 aminoácidos que se traducen en el código genético varían mucho según las propiedades físicas y químicas de sus cadenas laterales. [4] Sin embargo, estos aminoácidos se pueden clasificar en grupos con propiedades fisicoquímicas similares. [4] Es más probable que la sustitución de un aminoácido por otro de la misma categoría tenga un impacto menor en la estructura y función de una proteína que el reemplazo por un aminoácido de una categoría diferente. En consecuencia, la aceptación de mutaciones puntuales depende en gran medida del aminoácido que se reemplaza en la mutación y del aminoácido de reemplazo. Las matrices PAM son una herramienta matemática que da cuenta de estas tasas variables de aceptación al evaluar la similitud de las proteínas durante el alineamiento.

Terminología

El término mutación puntual aceptada se utilizó inicialmente para describir el fenómeno de la mutación. Sin embargo, se prefirió el acrónimo PAM en lugar de APM debido a la legibilidad, por lo que el término mutación puntual aceptada se utiliza con más frecuencia. [6] Debido a que el valor en la matriz PAM n representa el número de mutaciones por cada 100 aminoácidos, que se puede comparar con un porcentaje de mutaciones, a veces se utiliza el término porcentaje de mutación aceptada .

Es importante distinguir entre mutaciones puntuales aceptadas (PAM), matrices de mutaciones puntuales aceptadas (matrices PAM) y la matriz PAM n . El término "mutación puntual aceptada" se refiere al evento de mutación en sí. Sin embargo, "matriz PAM" se refiere a una de una familia de matrices que contienen puntuaciones que representan la probabilidad de que dos aminoácidos se alineen debido a una serie de eventos de mutación, en lugar de debido al azar. La "matriz PAM n " es la matriz PAM que corresponde a un período de tiempo lo suficientemente largo para que ocurran eventos de mutación por cada 100 aminoácidos.

Construcción de matrices PAM

Las matrices PAM fueron introducidas por Margaret Dayhoff en 1978. [7] El cálculo de estas matrices se basó en 1572 mutaciones observadas en los árboles filogenéticos de 71 familias de proteínas estrechamente relacionadas. Las proteínas a estudiar se seleccionaron sobre la base de tener una alta similitud con sus predecesoras. Las alineaciones de proteínas incluidas debían mostrar al menos un 85% de identidad. [6] [8] Como resultado, es razonable suponer que cualquier desajuste en la alineación fue el resultado de un solo evento de mutación, en lugar de varios en la misma ubicación.

Cada matriz PAM tiene veinte filas y veinte columnas, cada una de las cuales representa cada uno de los veinte aminoácidos traducidos por el código genético. El valor en cada celda de una matriz PAM está relacionado con la probabilidad de que un aminoácido de la fila antes de la mutación se alinee con un aminoácido de la columna después. [6] [7] [8] Según esta definición, las matrices PAM son un ejemplo de una matriz de sustitución .

Recopilación de datos de árboles filogenéticos

Para cada rama en los árboles filogenéticos de las familias de proteínas, se registró el número de desajustes que se observaron y se mantuvo un registro de los dos aminoácidos involucrados. [7] Estos recuentos se utilizaron como entradas debajo de la diagonal principal de la matriz . Dado que la gran mayoría de las muestras de proteínas provienen de organismos que están vivos hoy en día (especies existentes), no se puede determinar la "dirección" de una mutación. Es decir, el aminoácido presente antes de la mutación no se puede distinguir del aminoácido que lo reemplazó después de la mutación. Debido a esto, se supone que la matriz es simétrica y las entradas de por encima de la diagonal principal se calculan sobre esta base. Las entradas a lo largo de la diagonal de no corresponden a mutaciones y se pueden dejar sin completar.

Además de estos recuentos, se obtuvieron datos sobre la mutabilidad y la frecuencia de los aminoácidos. [6] [7] La ​​mutabilidad de un aminoácido es la relación entre el número de mutaciones en las que está involucrado y el número de veces que ocurre en una alineación. [7] La ​​mutabilidad mide la probabilidad de que un aminoácido mute de manera aceptable. Se descubrió que la asparagina , un aminoácido con una pequeña cadena lateral polar , era el más mutable de los aminoácidos. [7] Se descubrió que la cisteína y el triptófano eran los aminoácidos menos mutables. [7] Las cadenas laterales de la cisteína y el triptófano tienen estructuras menos comunes: la cadena lateral de la cisteína contiene azufre que participa en enlaces disulfuro con otras moléculas de cisteína, y la cadena lateral del triptófano es grande y aromática . [4] Dado que hay varios aminoácidos polares pequeños, estos extremos sugieren que es más probable que los aminoácidos muten de manera aceptable si sus propiedades físicas y químicas son más comunes entre los aminoácidos alternativos. [6] [8]

Construcción de la matriz de mutación

Para el aminoácido n, los valores y son su mutabilidad y frecuencia. Las frecuencias de los aminoácidos se normalizan de modo que sumen 1. Si el número total de ocurrencias del aminoácido n es , y es el número total de todos los aminoácidos, entonces

Basado en la definición de mutabilidad como la relación entre mutaciones y apariciones de un aminoácido

o

La matriz de mutación se construye de modo que la entrada represente la probabilidad de que el aminoácido n.º mute en el aminoácido n.º. Las entradas no diagonales se calculan mediante la ecuación [7]

donde es una constante de proporcionalidad. Sin embargo, esta ecuación no calcula las entradas diagonales. Cada columna de la matriz enumera cada uno de los veinte resultados posibles para un aminoácido: puede mutar en uno de los otros 19 aminoácidos o permanecer sin cambios. Dado que se conocen las entradas no diagonales que enumeran las probabilidades de cada una de las 19 mutaciones, y la suma de las probabilidades de estos veinte resultados debe ser 1, esta última probabilidad se puede calcular mediante

lo cual se simplifica a [7]

Un resultado de particular importancia es que para las entradas no diagonales

Lo que significa que para todas las entradas en la matriz de mutación

Elección de la constante de proporcionalidad

Las probabilidades contenidas en varían como una función desconocida de la cantidad de tiempo durante el cual se permite que una secuencia de proteína mute. En lugar de intentar determinar esta relación, los valores de se calculan para un período de tiempo corto, y las matrices para períodos de tiempo más largos se calculan asumiendo que las mutaciones siguen un modelo de cadena de Markov . [9] [10] La unidad base de tiempo para las matrices PAM es el tiempo requerido para que ocurra 1 mutación por cada 100 aminoácidos, a veces llamado "una unidad PAM" o "un PAM" de tiempo. [6] Esta es precisamente la duración de la mutación asumida por la matriz PAM 1 .

La constante se utiliza para controlar la proporción de aminoácidos que no cambian. Al utilizar solo alineaciones de proteínas que tenían al menos un 85% de similitud, se podría suponer razonablemente que las mutaciones observadas fueron directas, sin ningún estado intermedio. Esto significa que reducir estos recuentos mediante un factor común proporcionaría una estimación precisa de los recuentos de mutaciones si la similitud hubiera sido más cercana al 100%. También significa que el número de mutaciones por cada 100 aminoácidos, en PAM n, es igual al número de aminoácidos mutados por cada 100 aminoácidos.

Para encontrar la matriz de mutación de la matriz PAM 1 , se impone el requisito de que el 99% de los aminoácidos de una secuencia estén conservados. La cantidad es igual al número de unidades de aminoácidos conservados, por lo que el número total de aminoácidos conservados es

El valor que se necesita elegir para producir una identidad del 99% después de la mutación se da entonces mediante la ecuación

Este valor se puede utilizar luego en la matriz de mutación para la matriz PAM 1 .

Construcción del PAMnortematrices

El modelo de cadena de Markov de mutación de proteínas relaciona la matriz de mutación para PAM n , , con la matriz de mutación para la matriz PAM 1 , mediante la simple relación

La matriz PAM n se construye a partir de la relación entre la probabilidad de mutaciones puntuales aceptadas que reemplacen el aminoácido n por el aminoácido n y la probabilidad de que estos aminoácidos se alineen por casualidad. Las entradas de la matriz PAM n se dan mediante la ecuación [11] [12]

Nótese que en el libro de Gusfield, las entradas y están relacionadas con la probabilidad de que el aminoácido n.º mute en el aminoácido n.º. [11] Este es el origen de la ecuación diferente para las entradas de las matrices PAM.

Al utilizar la matriz PAM n para puntuar una alineación de dos proteínas, se hace la siguiente suposición:

Si estas dos proteínas están relacionadas, el intervalo evolutivo que las separa es el tiempo que tardan en producirse mutaciones puntuales aceptadas por cada 100 aminoácidos.

Cuando se considera la alineación de los aminoácidos n y n, la puntuación indica las probabilidades relativas de la alineación debido a que las proteínas están relacionadas o debido al azar.

Propiedades de las matrices PAM

Simetría de las matrices PAM

Si bien la matriz de probabilidad de mutación no es simétrica, cada una de las matrices PAM lo es. [6] [7] Esta propiedad un tanto sorprendente es el resultado de la relación que se observó para la matriz de probabilidad de mutación:

De hecho, esta relación es válida para todas las potencias enteras positivas de la matriz :

Como resultado, las entradas de la matriz PAM n son simétricas, ya que

Relacionar el número de aminoácidos mutados y el número de mutaciones

El valor representa el número de mutaciones que ocurren por cada 100 aminoácidos, sin embargo, este valor rara vez es accesible y a menudo se estima. Sin embargo, al comparar dos proteínas es fácil calcular en su lugar, que es el número de aminoácidos mutados por cada 100 aminoácidos. A pesar de la naturaleza aleatoria de la mutación, estos valores pueden relacionarse aproximadamente mediante [13]

La validez de estas estimaciones se puede verificar contando el número de aminoácidos que permanecen inalterados bajo la acción de la matriz . El número total de aminoácidos inalterados para el intervalo de tiempo de la matriz PAM n es

y por lo tanto la proporción de aminoácidos inalterados es

Un ejemplo: PAM250

Matriz PAM250 con ambas mitades rellenas.

Una matriz de puntuación PAM250 es una matriz de puntuación que se utiliza con frecuencia para comparar secuencias. Solo es necesario calcular la mitad inferior de la matriz, ya que, por su construcción, las matrices PAM deben ser simétricas. Cada uno de los 20 aminoácidos se muestra en la parte superior y lateral de la matriz, con 3 aminoácidos ambiguos adicionales . Los aminoácidos se muestran más comúnmente en orden alfabético o en grupos. Estos grupos son las características compartidas entre los aminoácidos. [7]

Usos en bioinformática

Determinación del tiempo de divergencia en árboles filogenéticos

La hipótesis del reloj molecular predice que la tasa de sustitución de aminoácidos en una proteína particular será aproximadamente constante a lo largo del tiempo, aunque esta tasa puede variar entre familias de proteínas. [13] Esto sugiere que la cantidad de mutaciones por aminoácido en una proteína aumenta aproximadamente de manera lineal con el tiempo.

Determinar el momento en el que dos proteínas divergieron es una tarea importante en filogenética . Los registros fósiles se utilizan a menudo para establecer la posición de los acontecimientos en la línea de tiempo de la historia evolutiva de la Tierra, pero la aplicación de esta fuente es limitada . Sin embargo, si se conoce la velocidad a la que avanza el reloj molecular de la familia de proteínas (es decir, la velocidad a la que aumenta el número de mutaciones por aminoácido), entonces conocer este número de mutaciones permitiría encontrar la fecha de divergencia.

Supongamos que se busca la fecha de divergencia de dos proteínas relacionadas, tomadas de organismos vivos en la actualidad. Las dos proteínas han ido acumulando mutaciones aceptadas desde la fecha de divergencia, por lo que el número total de mutaciones por aminoácido que las separa es aproximadamente el doble del que las separa de su ancestro común . Si se utiliza un rango de matrices PAM para alinear dos proteínas que se sabe que están relacionadas, entonces el valor de en la matriz PAM n que da como resultado la mejor puntuación es más probable que corresponda a las mutaciones por aminoácido que separan las dos proteínas. Dividir este valor a la mitad y dividirlo por la tasa a la que se acumulan las mutaciones aceptadas en la familia de proteínas proporciona una estimación del tiempo de divergencia de estas dos proteínas de su ancestro común. Es decir, el tiempo de divergencia en myr es [13]

Donde es el número de mutaciones por aminoácido, y es la tasa de acumulación de mutaciones aceptadas en mutaciones por sitio de aminoácido por millón de años.

Uso en BLAST

Las matrices PAM también se utilizan como matriz de puntuación al comparar secuencias de ADN o secuencias de proteínas para evaluar la calidad de la alineación. Esta forma de sistema de puntuación se utiliza en una amplia gama de software de alineación, incluido BLAST . [15]

Comparación de PAM y BLOSUM

Aunque las matrices de probabilidades logarítmicas PAM fueron las primeras matrices de puntuación utilizadas con BLAST, las matrices PAM han sido reemplazadas en gran medida por las matrices BLOSUM . Aunque ambas matrices producen resultados de puntuación similares, se generaron utilizando diferentes metodologías. Las matrices BLOSUM se generaron directamente a partir de las diferencias de aminoácidos en bloques alineados que han divergido en diversos grados; las matrices PAM reflejan la extrapolación de información evolutiva basada en secuencias estrechamente relacionadas a escalas de tiempo más largas. [16] Dado que la información de puntuación para las matrices PAM y BLOSUM se generó de formas muy diferentes, los números asociados con las matrices tienen significados fundamentalmente diferentes; los números para las matrices PAM aumentan para las comparaciones entre proteínas más divergentes, mientras que los números para las matrices BLOSUM disminuyen. [17] Sin embargo, todas las matrices de sustitución de aminoácidos se pueden comparar en un marco teórico de la información [18] utilizando su entropía relativa.

Véase también

Referencias

  1. ^ ab Campbell NA, Reece JB, Meyers N, Urry LA, Cain ML, Wasserman SA, Minorsky PV, Jackson RB (2009). "La base molecular de la herencia". Biología (8.ª ed.). Pearson Education Australia. págs. 307–325. ISBN 9781442502215.
  2. ^ abcd Campbell NA, Reece JB, Meyers N, Urry LA, Cain ML, Wasserman SA, Minorsky PV, Jackson RB (2009). "Del gen a la proteína". Biología: versión australiana (8.ª ed.). Pearson Education Australia. págs. 327–350. ISBN 9781442502215.
  3. ^ Pal JK, Ghaskadbi SS (2009). "Daños, reparación y recombinación del ADN". Fundamentos de biología molecular (1.ª ed.). Oxford University Press. págs. 187–203. ISBN 9780195697810.
  4. ^ abcd Campbell NA, Reece JB, Meyers N, Urry LA, Cain ML, Wasserman SA, Minorsky PV, Jackson RB (2009). "La estructura y función de las grandes moléculas biológicas". Biología: versión australiana (8.ª ed.). Pearson Education Australia. págs. 68–89. ISBN 9781442502215.
  5. ^ Lobo I (enero de 2008). "Razones mendelianas y genes letales". Nature Education . 1 (1): 138.
  6. ^ abcdefg Pevsner J (2009). "Alineación de secuencias por pares". Bioinformática y genómica funcional (2.ª ed.). Wiley-Blackwell. págs. 58-68. ISBN 978-0-470-08585-1.
  7. ^ abcdefghijk Dayhoff MO, Schwartz RM, Orcutt BC (1978). "Un modelo de cambio evolutivo en proteínas". Atlas de secuencia y estructura de proteínas (volumen 5, suplemento 3.ª ed.). Washington, DC.: National Biomedical Research Foundation. págs. 345–358. ISBN 978-0-912466-07-1.
  8. ^ abc Wing-Kin S (2010). Algoritmos en bioinformática: una introducción práctica . CRC Press. págs. 51–52. ISBN 978-1-4200-7033-0.
  9. ^ Kosiol C, Goldman N (2005). "Diferentes versiones de la matriz de velocidad de Dayhoff". Biología molecular y evolución . 22 (2): 193–9. doi : 10.1093/molbev/msi005 . PMID  15483331.
  10. ^ Liò P, Goldman N (1998). "Modelos de evolución molecular y filogenia". Genome Research . 8 (12): 1233–44. doi : 10.1101/gr.8.12.1233 . PMID  9872979.
  11. ^ ab Gusfield D (1997). Algoritmos sobre cadenas, árboles y secuencias - Ciencias de la computación y biología computacional . Cambridge University Press. págs. 383–384. ISBN 978-0521585194.
  12. ^ Boeckenhauer HJ, Bongartz D (2010). Aspectos algorítmicos de la bioinformática . Springer. pp. 94–96. ISBN. 978-3642091001.
  13. ^ abc Pevsner J (2009). "Filogenia molecular y evolución". Bioinformática y genómica funcional (2.ª ed.). Wiley-Blackwell. págs. 221–227. ISBN 978-0-470-08585-1.
  14. ^ Motwani R, Raghavan P (1995). Algoritmos aleatorios. Cambridge University Press. pág. 94. ISBN 978-0521474658.
  15. ^ "Las estadísticas de las puntuaciones de similitud de secuencias". Centro Nacional de Información Biotecnológica . Consultado el 20 de octubre de 2013 .
  16. ^ Henikoff S , Henikoff JG (1992). "Matrices de sustitución de aminoácidos a partir de bloques de proteínas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 89 (22): 10915–10919. Bibcode :1992PNAS...8910915H. doi : 10.1073/pnas.89.22.10915 . PMC 50453 . PMID  1438297. 
  17. ^ Saud O (2009). «Matrices de sustitución PAM y BLOSUM». Birec . Archivado desde el original el 9 de marzo de 2013. Consultado el 20 de octubre de 2013 .
  18. ^ ab Altschul SF (junio de 1991). "Matrices de sustitución de aminoácidos desde una perspectiva de teoría de la información". Journal of Molecular Biology . 219 (3): 555–65. doi :10.1016/0022-2836(91)90193-A. PMC 7130686 . PMID  2051488. 

Enlaces externos