stringtranslate.com

FLOR

En la matriz BLOSUM62, los aminoácidos se han agrupado y coloreado según el esquema de clasificación de Margaret Dayhoff . Se han resaltado los valores positivos y cero.

En bioinformática , la matriz BLOSUM ( BLO cks SU bstitution M atrix) es una matriz de sustitución utilizada para el alineamiento de secuencias de proteínas . Las matrices BLOSUM se utilizan para puntuar alineamientos entre secuencias de proteínas evolutivamente divergentes . Se basan en alineamientos locales. Las matrices BLOSUM se introdujeron por primera vez en un artículo de Steven Henikoff y Jorja Henikoff. [1] Exploraron la base de datos BLOCKS en busca de regiones muy conservadas de familias de proteínas (que no tienen espacios en la alineación de secuencias) y luego contaron las frecuencias relativas de los aminoácidos y sus probabilidades de sustitución. Luego, calcularon una puntuación logarítmica de probabilidades para cada uno de los 210 posibles pares de sustitución de los 20 aminoácidos estándar. Todas las matrices BLOSUM se basan en alineamientos observados; no se extrapolan de comparaciones de proteínas estrechamente relacionadas como las matrices PAM .

Antecedentes biológicos

Las instrucciones genéticas de cada célula que se replica en un organismo vivo están contenidas en su ADN. [2] A lo largo de la vida de la célula, esta información se transcribe y replica mediante mecanismos celulares para producir proteínas o proporcionar instrucciones a las células hijas durante la división celular , y existe la posibilidad de que el ADN se altere durante estos procesos. [2] [3] Esto se conoce como mutación . A nivel molecular, existen sistemas reguladores que corrigen la mayoría (pero no todos) de estos cambios en el ADN antes de que se replique. [3] [4]

La funcionalidad de una proteína depende en gran medida de su estructura. [5] Cambiar un solo aminoácido en una proteína puede reducir su capacidad para llevar a cabo esta función, o la mutación puede incluso cambiar la función que lleva a cabo la proteína. [3] Cambios como estos pueden afectar gravemente una función crucial de una célula, provocando potencialmente la muerte de la célula (y, en casos extremos, del organismo). [6] Por el contrario, el cambio puede permitir que la célula continúe funcionando aunque de manera diferente, y la mutación puede transmitirse a la descendencia del organismo. Si este cambio no resulta en ninguna desventaja física significativa para la descendencia, existe la posibilidad de que esta mutación persista dentro de la población. También existe la posibilidad de que el cambio de función resulte ventajoso.

Los 20 aminoácidos traducidos por el código genético varían mucho según las propiedades físicas y químicas de sus cadenas laterales. [5] Sin embargo, estos aminoácidos se pueden clasificar en grupos con propiedades fisicoquímicas similares. [5] Es más probable que sustituir un aminoácido por otro de la misma categoría tenga un impacto menor en la estructura y función de una proteína que reemplazarlo con un aminoácido de una categoría diferente.

La alineación de secuencias es un método de investigación fundamental para la biología moderna. El alineamiento de secuencias más común de las proteínas es buscar similitudes entre diferentes secuencias para inferir funciones o establecer relaciones evolutivas. Esto ayuda a los investigadores a comprender mejor el origen y la función de los genes a través de la naturaleza de la homología y la conservación . Las matrices de sustitución se utilizan en algoritmos para calcular la similitud de diferentes secuencias de proteínas; sin embargo, la utilidad de Dayhoff PAM Matrix ha disminuido con el tiempo debido al requisito de secuencias con una similitud superior al 85%. Para llenar este vacío, Henikoff y Henikoff introdujeron la matriz BLOSUM (BLOcks SUbstitution Matrix) que condujo a marcadas mejoras en las alineaciones y en las búsquedas utilizando consultas de cada uno de los grupos de proteínas relacionadas. [1]

Terminología

FLOR
"Blocks Substitution Matrix, una matriz de sustitución utilizada para el alineamiento de secuencias de proteínas" .
Métricas de puntuación (estadísticas versus biológicas)
Al evaluar una alineación de secuencia, a uno le gustaría saber qué tan significativa es. Esto requiere una matriz de puntuación, o una tabla de valores que describa la probabilidad de que un par de residuos de aminoácidos o nucleótidos biológicamente significativos ocurra en una alineación. Las puntuaciones para cada posición se obtienen con las frecuencias de sustituciones en bloques de alineamientos locales de secuencias de proteínas. [7]
FLOR r
La matriz construida a partir de bloques con menos del r% de similitud
  • Por ejemplo, BLOSUM62 es la matriz construida utilizando secuencias con menos del 62% de similitud (se agruparon las secuencias con ≥ 62% de identidad).
  • Nota: BLOSUM 62 es la matriz predeterminada para la proteína BLAST. La experimentación ha demostrado que la matriz BLOSUM-62 se encuentra entre las mejores para detectar las similitudes de proteínas más débiles. [1]

Existen varios conjuntos de matrices BLOSUM que utilizan diferentes bases de datos de alineación, nombradas con números. Las matrices BLOSUM con números altos están diseñadas para comparar secuencias estrechamente relacionadas, mientras que aquellas con números bajos están diseñadas para comparar secuencias relacionadas distantes. Por ejemplo, BLOSUM80 se usa para alineaciones estrechamente relacionadas y BLOSUM45 se usa para alineaciones relacionadas más distantes. Las matrices se crearon fusionando (agrupando) todas las secuencias que eran más similares que un porcentaje determinado en una sola secuencia y luego comparando esas secuencias (que eran todas más divergentes que el valor porcentual dado); reduciendo así la contribución de secuencias estrechamente relacionadas. El porcentaje utilizado se añadió al nombre, dando BLOSUM80, por ejemplo, donde se agruparon secuencias que eran más del 80% idénticas.

Construcción de matrices BLOSUM.

Las matrices BLOSUM se obtienen utilizando bloques de secuencias de aminoácidos similares como datos y luego aplicando métodos estadísticos a los datos para obtener puntuaciones de similitud. Pasos de los métodos estadísticos: [8]

Eliminando secuencias

Elimine las secuencias que sean más del r% idénticas. Hay dos formas de eliminar las secuencias. Se puede hacer eliminando secuencias del bloque o simplemente buscando secuencias similares y reemplazándolas por nuevas secuencias que puedan representar el grupo. La eliminación se realiza para eliminar secuencias de proteínas que son más similares que el umbral especificado.

Calcular frecuencia y probabilidad

Una base de datos que almacena las alineaciones de secuencias de las regiones más conservadas de familias de proteínas. Estas alineaciones se utilizan para derivar las matrices BLOSUM. Sólo se utilizan las secuencias con un porcentaje de identidad inferior al umbral. Utilizando el bloque, contando los pares de aminoácidos en cada columna del alineamiento múltiple.

Razón de probabilidades logarítmicas

Proporciona la relación entre la aparición de cada combinación de aminoácidos en los datos observados y el valor esperado de aparición del par. Se redondea y se utiliza en la matriz de sustitución.

donde es la probabilidad de observar el par y es la probabilidad esperada de que ocurra dicho par, dadas las probabilidades de fondo de cada aminoácido.

Matrices BLOSUM

Las probabilidades de parentesco se calculan a partir del log de la razón de probabilidades, que luego se redondean para obtener las matrices de sustitución BLOSUM.

Puntuación de las matrices BLOSUM

Se requiere una matriz de puntuación o una tabla de valores para evaluar la importancia de un alineamiento de secuencia, como describir la probabilidad de que un par de residuos de aminoácidos o nucleótidos biológicamente significativos ocurra en un alineamiento. Normalmente, cuando se comparan dos secuencias de nucleótidos, lo único que se puntúa es si dos bases son iguales o no en una posición. Todas las coincidencias y discrepancias reciben respectivamente la misma puntuación (normalmente +1 o +5 para coincidencias, y -1 o -4 para discrepancias). [9] Pero es diferente para las proteínas. Las matrices de sustitución de aminoácidos son más complicadas e implícitamente tienen en cuenta todo lo que pueda afectar la frecuencia con la que se sustituye un aminoácido por otro. El objetivo es imponer una penalización relativamente fuerte por alinear dos residuos si tienen una baja probabilidad de ser homólogos (correctamente alineados por descendencia evolutiva). Dos fuerzas principales alejan la uniformidad de las tasas de sustitución de aminoácidos: las sustituciones ocurren con diferentes frecuencias y son menos toleradas funcionalmente que otras. Por lo tanto, las sustituciones se seleccionan en contra. [7]

Las matrices de sustitución comúnmente utilizadas incluyen las matrices de sustitución de bloques (BLOSUM) [1] y de mutación puntual aceptada (PAM) [10] [11] . Ambos se basan en tomar conjuntos de alineamientos de alta confianza de muchas proteínas homólogas y evaluar las frecuencias de todas las sustituciones, pero se calculan utilizando métodos diferentes. [7]

Las puntuaciones dentro de un BLOSUM son puntuaciones de probabilidades logarítmicas que miden, en una alineación, el logaritmo de la relación entre la probabilidad de que dos aminoácidos aparezcan con un sentido biológico y la probabilidad de que los mismos aminoácidos aparezcan por casualidad. Las matrices se basan en el porcentaje mínimo de identidad de la secuencia de proteínas alineada utilizada para calcularlas. [12] A cada posible identidad o sustitución se le asigna una puntuación basada en sus frecuencias observadas en el alineamiento de proteínas relacionadas. [13] Se otorga una puntuación positiva a las sustituciones más probables, mientras que se otorga una puntuación negativa a las sustituciones menos probables.

Para calcular una matriz BLOSUM se utiliza la siguiente ecuación:

Aquí, es la probabilidad de que dos aminoácidos se reemplacen entre sí en una secuencia homóloga, y son las probabilidades de fondo de encontrar los aminoácidos en cualquier secuencia de proteínas. El factor es un factor de escala, establecido de manera que la matriz contenga valores enteros fácilmente computables.

Un ejemplo - BLOSUM62

BLOSUM80: más proteínas relacionadas

BLOSUM62: rango medio

BLOSUM45: proteínas lejanamente relacionadas

Un artículo en Nature Biotechnology [14] reveló que el BLOSUM62 utilizado durante tantos años como estándar no es exactamente exacto según el algoritmo descrito por Henikoff y Henikoff. [1] Sorprendentemente, el BLOSUM62 mal calculado mejora el rendimiento de la búsqueda. [14]

La matriz BLOSUM62 con los aminoácidos de la tabla agrupados según la química de la cadena lateral, como en (a). Cada valor de la matriz se calcula dividiendo la frecuencia de aparición del par de aminoácidos en la base de datos BLOCKS, agrupados en el nivel del 62 %, dividida por la probabilidad de que los mismos dos aminoácidos puedan alinearse por casualidad. Luego, la relación se convierte a un logaritmo y se expresa como una puntuación logarítmica de probabilidades, como para PAM. Las matrices BLOSUM suelen escalarse en unidades de medio bit. Una puntuación de cero indica que la frecuencia con la que se encontraron dos aminoácidos determinados alineados en la base de datos fue la esperada por casualidad, mientras que una puntuación positiva indica que la alineación se encontró con más frecuencia que por casualidad, y una puntuación negativa indica que la alineación se encontró con menos frecuencia que por casualidad.

Algunos usos en bioinformática

Aplicaciones de investigación

Las puntuaciones de BLOSUM se utilizaron para predecir y comprender las variantes genéticas de superficie entre los portadores del virus de la hepatitis B [15] y los epítopos de las células T. [dieciséis]

Variantes genéticas de superficie entre portadores del virus de la hepatitis B

Se obtuvieron secuencias de ADN de HBsAg de 180 pacientes, de los cuales 51 eran portadores crónicos del VHB y 129 pacientes recién diagnosticados, y se compararon con secuencias consenso construidas con 168 secuencias del VHB importadas de GenBank. Se utilizaron revisiones de la literatura y puntuaciones BLOSUM para definir la antigenicidad potencialmente alterada. [15]

Predicción confiable de epítopos de células T

Se ha desarrollado una nueva representación de entrada que consiste en una combinación de codificación dispersa, codificación Blosum y entrada derivada de modelos ocultos de Markov. este método predice epítopos de células T para el genoma del virus de la hepatitis C y analiza posibles aplicaciones del método de predicción para guiar el proceso de diseño racional de vacunas. [dieciséis]

Uso en EXPLOSIÓN

Las matrices BLOSUM también se utilizan como matriz de puntuación al comparar secuencias de ADN o secuencias de proteínas para juzgar la calidad de la alineación. Esta forma de sistema de puntuación es utilizada por una amplia gama de software de alineación, incluido BLAST . [17]

Comparando PAM y BLOSUM

Además de las matrices BLOSUM, se puede utilizar una matriz de puntuación previamente desarrollada. Esto se conoce como PAM . Los dos dan como resultado el mismo resultado de puntuación, pero utilizan metodologías diferentes. BLOSUM analiza directamente las mutaciones en motivos de secuencias relacionadas, mientras que PAM extrapola información evolutiva basándose en secuencias estrechamente relacionadas. [1]

Dado que tanto PAM como BLOSUM son métodos diferentes para mostrar la misma información de puntuación, los dos se pueden comparar, pero debido al método muy diferente para obtener esta puntuación, un PAM100 no es igual a un BLOSUM100. [18]

La relación entre PAM y BLOSUM
Las diferencias entre PAM y BLOSUM
Paquetes de programas

Existen varios paquetes de software en diferentes lenguajes de programación que permiten un fácil uso de las matrices Blosum.

Algunos ejemplos son el módulo blosum para Python o la biblioteca BioJava para Java .

Ver también

Referencias

  1. ^ abcdefHenikoff , S.; Henikoff, JG (1992). "Matrices de sustitución de aminoácidos de bloques de proteínas". PNAS . 89 (22): 10915–10919. Código bibliográfico : 1992PNAS...8910915H. doi : 10.1073/pnas.89.22.10915 . PMC  50453 . PMID  1438297.
  2. ^ ab Campbell NA; Reece JB; Meyers N; Urry LA; Caín ML; Wasserman SA; Minorsky PV; Jackson RB (2009). "La base molecular de la herencia". Biología: versión australiana (8ª ed.). Educación Pearson Australia. págs. 307–325. ISBN 9781442502215.
  3. ^ abc Campbell NA; Reece JB; Meyers N; Urry LA; Caín ML; Wasserman SA; Minorsky PV; Jackson RB (2009). "Del gen a la proteína". Biología: versión australiana (8ª ed.). Educación Pearson Australia. págs. 327–350. ISBN 9781442502215.
  4. ^ Pal JK, Ghaskadbi SS (2009). "Daño, reparación y recombinación del ADN". Fundamentos de biología molecular (1ª ed.). Prensa de la Universidad de Oxford. págs. 187-203. ISBN 9780195697810.
  5. ^ abc Campbell NA; Reece JB; Meyers N; Urry LA; Caín ML; Wasserman SA; Minorsky PV; Jackson RB (2009). "La estructura y función de grandes moléculas biológicas". Biología: versión australiana (8ª ed.). Educación Pearson Australia. págs. 68–89. ISBN 9781442502215.
  6. ^ Lobo, Ingrid (2008). "Proporciones mendelianas y genes letales". Naturaleza . Consultado el 19 de octubre de 2013 .
  7. ^ abcpertsemlidis A.; Fondón JW.3rd (septiembre de 2001). "Divertirse con la bioinformática (y evitar BLASTphemy)". Biología del genoma . 2 (10): revisiones 2002.1–2002.10. doi : 10.1186/gb-2001-2-10-reviews2002 . PMC 138974 . PMID  11597340. {{cite journal}}: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
  8. ^ "MATRICES BLOSSUM: Introducción a la BIOINFORMÁTICA" (PDF) . UNIVERSITI TEKNOLOGI MALASIA . 2009 . Consultado el 9 de septiembre de 2014 .[ enlace muerto permanente ]
  9. ^ Murali Sivaramakrishnan; Ognjen Perisic; Shashi Ranjan. "CS#594 - Grupo 13 (Herramientas y software)" (PDF) . Universidad de Illinois en Chicago-UIC . Consultado el 9 de septiembre de 2014 .
  10. ^ Margaret O., Dayhoff (1978). "22". Atlas de secuencia y estructura de proteínas . vol. 5. Washington DC: Fundación Nacional de Investigación Biomédica. págs. 345–352.
  11. ^ Estados DJ.; Gish W.; Altschul SF. (1991). "Mejora de la sensibilidad de las búsquedas en bases de datos de ácidos nucleicos utilizando matrices de puntuación específicas de la aplicación". Métodos: un complemento de los métodos en enzimología . 3 : 66–70. CiteSeerX 10.1.1.114.8183 . doi :10.1016/s1046-2023(05)80165-3. ISSN  1046-2023. 
  12. ^ Albert Y. Zomaya (2006). Manual de informática innovadora e inspirada en la naturaleza. Nueva York, Nueva York: Springer. ISBN 978-0-387-40532-2.página 673
  13. ^ NIH "Sistemas de puntuación"
  14. ^ ab Mark P. Styczynski; Kyle L Jensen; Isidoro Rigoutsos; Gregorio Stephanopoulos (2008). "Los errores de cálculo de BLOSUM62 mejoran el rendimiento de la búsqueda". Nat. Biotecnología . 26 (3): 274–275. doi :10.1038/nbt0308-274. PMID  18327232. S2CID  205266180.
  15. ^ ab Roque-Afonso AM, Ferey MP, Ly TD (2007). "Factores virales y clínicos asociados con variantes genéticas de superficie entre portadores del virus de la hepatitis B". Antivir Ther . 12 (8): 1255-1263. doi : 10.1177/135965350701200801 . PMID  18240865. S2CID  9822759.
  16. ^ ab Nielsen M, Lundegaard C, Worning P, et al. (2003). "Predicción confiable de epítopos de células T utilizando redes neuronales con representaciones de secuencias novedosas" (PDF) . Ciencia de las proteínas . 12 (5): 1007–1017. doi :10.1110/ps.0239403. PMC 2323871 . PMID  12717023. 
  17. ^ "Las estadísticas de puntuaciones de similitud de secuencias". Centro Nacional de Información Biotecnológica . Consultado el 20 de octubre de 2013 .
  18. ^ Saud, Omama (2009). "Matrices de sustitución PAM y BLOSUM". Birec . Archivado desde el original el 9 de marzo de 2013 . Consultado el 20 de octubre de 2013 .
  19. ^ "El arte de alinear secuencias de proteínas, parte 1, matrices". Dai hoc Can Tho - Universidad Can Tho . Archivado desde el original el 11 de septiembre de 2014 . Consultado el 7 de septiembre de 2014 .

enlaces externos