stringtranslate.com

Explosión de CS

CS-BLAST [1] [2] [3] (Context-Specific BLAST) es una herramienta que busca una secuencia de proteínas que extiende BLAST (Basic Local Alignment Search Tool) [ 4] utilizando probabilidades de mutación específicas del contexto. Más específicamente, CS-BLAST deriva similitudes de aminoácidos específicas del contexto en cada secuencia de consulta a partir de ventanas cortas en las secuencias de consulta. El uso de CS-BLAST duplica la sensibilidad y mejora significativamente la calidad de la alineación sin una pérdida de velocidad en comparación con BLAST. CSI-BLAST (Context-Specific Iterated BLAST) es el análogo específico del contexto de PSI-BLAST [5] (Position-Specific Iterated BLAST), que calcula el perfil de mutación con probabilidades de sustitución y lo mezcla con el perfil de consulta. CSI-BLAST (Context-Specific Iterated BLAST) es el análogo específico del contexto de PSI-BLAST (Position-Specific Iterated BLAST). Ambos programas están disponibles como servidor web y se pueden descargar de forma gratuita.

Fondo

La homología es la relación entre las estructuras biológicas o secuencias derivadas de un ancestro común. Las proteínas homólogas (proteínas que tienen un ancestro común) se infieren a partir de su similitud de secuencia. Inferir relaciones homólogas implica calcular las puntuaciones de los pares alineados menos las penalizaciones por espacios. La alineación de pares de proteínas identifica regiones de similitud que indican una relación entre las dos o más proteínas. Para tener una relación homóloga, la suma de las puntuaciones de todos los pares alineados de aminoácidos o nucleótidos debe ser lo suficientemente alta [2]. Los métodos estándar de comparación de secuencias utilizan una matriz de sustitución para lograr esto [4]. Las similitudes entre aminoácidos o nucleótidos se cuantifican en estas matrices de sustitución. La puntuación de sustitución ( ) de aminoácidos y se puede escribir de la siguiente manera:

donde denota la probabilidad de que un aminoácido mute en un aminoácido [2]. En un conjunto grande de alineaciones de secuencias, contar la cantidad de aminoácidos así como la cantidad de pares alineados le permitirá derivar las probabilidades y .

Dado que las secuencias de proteínas necesitan mantener una estructura estable, las probabilidades de sustitución de un residuo están determinadas en gran medida por el contexto estructural en el que se encuentra. Como resultado, las matrices de sustitución se entrenan para contextos estructurales. Dado que la información de contexto está codificada en probabilidades de transición entre estados, la mezcla de probabilidades de mutación de matrices de sustitución ponderadas para los estados correspondientes logra mejores cualidades de alineación en comparación con las matrices de sustitución estándar. CS-BLAST mejora aún más este concepto. La figura ilustra la equivalencia de secuencia a secuencia y de perfil a secuencia con la matriz de alineación. El perfil de consulta resulta de las mutaciones artificiales en las que las alturas de las barras son proporcionales a las probabilidades de aminoácidos correspondientes.

(AQUÍ DEBE APARECER UNA FIGURA, ESTE ES EL TÍTULO) “Los algoritmos de búsqueda/alineación de secuencias encuentran la ruta que maximiza la suma de las puntuaciones de similitud (codificadas por colores de azul a rojo). Las puntuaciones de la matriz de sustitución son equivalentes a las puntuaciones del perfil si el perfil de secuencia (histograma de color) se genera a partir de la secuencia de consulta agregando mutaciones artificiales con el esquema de pseudoconteo de la matriz de sustitución. Las alturas de las barras del histograma representan la fracción de aminoácidos en las columnas del perfil”.

Actuación

CS-BLAST mejora enormemente la calidad de la alineación en todo el rango de identidades de secuencias y especialmente para alineaciones difíciles en comparación con BLAST y PSI-BLAST regulares. PSI-BLAST (Position-Specific Iterated BLAST) se ejecuta aproximadamente a la misma velocidad por iteración que BLAST regular, pero es capaz de detectar similitudes de secuencias más débiles que aún son biológicamente relevantes. La calidad de la alineación se basa en la sensibilidad y precisión de la alineación.

Calidad de alineación

La sensibilidad de la alineación se mide comparando correctamente las alineaciones previstas de pares de residuos con el número total de pares alineables posibles. Esto se calcula con la fracción: (pares correctamente alineados)/(pares estructuralmente alineables)

La precisión de la alineación se mide por la corrección de los pares de residuos alineados. Esto se calcula con la fracción: (pares alineados correctamente)/(pares alineados)

Rendimiento de búsqueda

El gráfico es el parámetro de referencia que Biegert y Söding utilizaron para evaluar la detección de homología. El parámetro de referencia compara CS-BLAST con BLAST utilizando verdaderos positivos de la misma superfamilia frente a falsos positivos de pares de diferentes pliegues. (ES NECESARIO INCLUIR UN GRÁFICO AQUÍ)

El otro gráfico detecta los verdaderos positivos (con una escala diferente a la del gráfico anterior) y los falsos positivos de PSI-BLAST y CSI-BLAST y los compara durante una a cinco iteraciones. (ES NECESARIO UTILIZAR UN GRÁFICO DIFERENTE AQUÍ)

CS-BLAST ofrece una mejor sensibilidad y calidad de alineación en la comparación de secuencias. Las búsquedas de secuencias con CS-BLAST son más del doble de sensibles que con BLAST. Produce alineaciones de mayor calidad y genera valores E confiables sin pérdida de velocidad. CS-BLAST detecta un 139 % más de proteínas homólogas con una tasa de error acumulada del 20 %. Con una tasa de error del 10 %, se detectan un 138 % más de homólogos y, para los casos más fáciles, con una tasa de error del 1 %, CS-BLAST sigue siendo un 96 % más eficaz que BLAST. Además, CS-BLAST en 2 iteraciones es más sensible que 5 iteraciones de PSI-BLAST. Se detectaron aproximadamente un 15 % más de homólogos en comparación.

Método

El método CS-BLAST obtiene similitudes entre aminoácidos específicos del contexto de secuencia para ventanas de 13 residuos centradas en cada residuo. CS-BLAST funciona generando un perfil de secuencia para una secuencia de consulta mediante mutaciones específicas del contexto y luego iniciando un método de búsqueda de perfil a secuencia.

CS-BLAST comienza prediciendo las probabilidades de mutación esperadas para cada posición. Para un residuo determinado, se selecciona una ventana de secuencia de diez residuos circundantes en total, como se ve en la imagen. Luego, Biegert y Söding compararon la ventana de secuencia con una biblioteca con miles de perfiles de contexto. La biblioteca se genera agrupando un conjunto representativo de ventanas de perfiles de secuencia. La predicción real de las probabilidades de mutación se logra mediante la mezcla ponderada de las columnas centrales de los perfiles de contexto más similares. Esto alinea los perfiles cortos que no son homólogos y no tienen espacios, lo que otorga mayor peso a los perfiles que coinciden mejor, lo que los hace más fáciles de detectar. Un perfil de secuencia representa una alineación múltiple de secuencias homólogas y describe qué aminoácidos es probable que aparezcan en cada posición en secuencias relacionadas. Con este método, las matrices de sustitución son innecesarias. Además, no hay necesidad de probabilidades de transición como resultado del hecho de que la información de contexto está codificada dentro de los perfiles de contexto. Esto simplifica el cálculo y permite que el tiempo de ejecución se escale linealmente en lugar de cuadráticamente.

La probabilidad de mutación específica del contexto, la probabilidad de observar un aminoácido específico en una secuencia homóloga dada en un contexto, se calcula mediante una mezcla ponderada de los aminoácidos en las columnas centrales de los perfiles de contexto más similares. La imagen ilustra el cálculo de las probabilidades de mutación esperadas para un residuo específico en una posición determinada. Como se ve en la imagen, la biblioteca de perfiles de contexto contribuye en función de la similitud con el perfil de secuencia específico del contexto para la secuencia de consulta.

Modelos

Al predecir las probabilidades de sustitución utilizando únicamente el contexto de la secuencia local del aminoácido, se obtiene la ventaja de no necesitar conocer la estructura de la proteína de consulta y, al mismo tiempo, permitir la detección de más proteínas homólogas que las matrices de sustitución estándar [4]. El enfoque de Bigert y Söding para predecir las probabilidades de sustitución se basó en un modelo generativo. En otro artículo en colaboración con Angermüller, desarrollan un método de aprendizaje automático discriminativo que mejora la precisión de la predicción [2].

Modelo generativo

Dada una variable observada y una variable objetivo , un modelo generativo define las probabilidades y por separado. Para predecir la variable objetivo no observada, , el teorema de Bayes,

Se utiliza un modelo generativo, como sugiere su nombre, que permite generar nuevos puntos de datos . La distribución conjunta se describe como . Para entrenar un modelo generativo, se utiliza la siguiente ecuación para maximizar la probabilidad conjunta .

Modelo discriminativo

El modelo discriminativo es un clasificador de máxima entropía de regresión logística. Con el modelo discriminativo, el objetivo es predecir una probabilidad de sustitución específica del contexto dada una secuencia de consulta. El enfoque discriminativo para modelar las probabilidades de sustitución, donde describe una secuencia de aminoácidos alrededor de la posición de una secuencia, se basa en estados de contexto. Los estados de contexto se caracterizan por los parámetros peso de emisión ( ), peso de sesgo ( ) y peso de contexto ( ) [2]. Las probabilidades de emisión de un estado de contexto se dan por los pesos de emisión de la siguiente manera para a :

donde es la probabilidad de emisión y es el estado del contexto. En el enfoque discriminativo, la probabilidad para un estado de contexto dado se modela directamente por el exponencial de una función afín del perfil de cuenta del contexto, donde es el perfil de recuento del contexto con una constante de normalización que normaliza la probabilidad a 1. Esta ecuación es la siguiente, donde la primera suma lleva a y la segunda suma lleva a : .

Al igual que con el modelo generativo, la distribución objetivo se obtiene mezclando las probabilidades de emisión de cada estado de contexto ponderadas por la similitud.

Usando CS-BLAST

El kit de herramientas de bioinformática de MPI es un sitio web y un servicio interactivos que permiten a cualquier persona realizar análisis de proteínas integrales y colaborativos con una variedad de herramientas diferentes, incluidas CS-BLAST y PSI-BLAST [1]. Esta herramienta permite ingresar una proteína y seleccionar opciones para personalizar el análisis. También puede enviar el resultado a otras herramientas.

Véase también

Referencias

  1. ^ Angermüller, C.; Biegert, A.; Söding, J. (diciembre de 2012). "Modelado discriminativo de probabilidades de sustitución de aminoácidos específicas del contexto". Bioinformática . 28 (24): 3240–7. doi : 10.1093/bioinformatics/bts622 . hdl : 11858/00-001M-0000-0015-8D22-F . PMID  23080114.
  2. ^ Biegert, A.; Söding, J. (marzo de 2009). "Perfiles específicos del contexto de secuencia para la búsqueda de homología" (PDF) . Proc Natl Acad Sci USA . 106 (10): 3770–5. Bibcode :2009PNAS..106.3770B. doi : 10.1073/pnas.0810767106 . PMC 2645910 . PMID  19234132. 
  3. ^ "Se han ideado mejores búsquedas de secuencias de genes y proteínas". ScienceDaily. 7 de marzo de 2009. Consultado el 14 de agosto de 2009 .
  4. ^ Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). "Herramienta básica de búsqueda de alineamiento local". J Mol Biol . 215 (3): 403–410. doi :10.1016/S0022-2836(05)80360-2. PMID  2231712.
  5. ^ Altschul SF; Madden TL; Schäffer AA; Zhang J; Zhang Z; Miller W; Lipman DJ. (1997). "Gapped BLAST y PSI-BLAST: una nueva generación de programas de búsqueda en bases de datos de proteínas". Nucleic Acids Res . 25 (17): 3389–3402. doi :10.1093/nar/25.17.3389. PMC 146917 . PMID  9254694. 

[1] Alva, Vikram, Seung-Zin Nam, Johannes Söding y Andrei N. Lupas. “El kit de herramientas de bioinformática MPI como plataforma integradora para el análisis avanzado de secuencias y estructuras de proteínas”. Nucleic Acids Research 44. Número del servidor web (2016): W410-415. NCBI . Web. 2 de noviembre de 2016.

[2] Angermüller, Christof, Andreas Biegert y Johannes Söding. “Modelado discriminativo de propiedades de sustitución de aminoácidos específicas del contexto” BIOINFORMATICS 28.24 (2012): 3240-247. Oxford Journals . Web. 2 de noviembre de 2016.

[3] Astschul, Stephen F., et al. “Gapped BLAST y PSI-BLAST: una nueva generación de programas de búsqueda en bases de datos de proteínas”. Nucleic Acids Research 25.17 (1997): 3389-402. Oxford University Press. Versión impresa .

[4] Bigert, A., y J. Söding. “Perfiles específicos del contexto de secuencia para la búsqueda de homología”. Actas de la Academia Nacional de Ciencias 106.10 (2009): 3770-3775. PNAS. Web. 23 de octubre de 2016.

Enlaces externos