En espectrometría de masas , la secuenciación de péptidos de novo es el método en el cual se determina una secuencia de aminoácidos de péptidos a partir de espectrometría de masas en tándem .
Conocer la secuencia de aminoácidos de los péptidos a partir de una digestión de proteínas es esencial para estudiar la función biológica de la proteína. Antiguamente, esto se lograba mediante el procedimiento de degradación de Edman . [1] Hoy en día, el análisis mediante un espectrómetro de masas en tándem es un método más común para resolver la secuenciación de péptidos. En general, existen dos enfoques: búsqueda en bases de datos y secuenciación de novo. La búsqueda en bases de datos es una versión simple, ya que se envían los datos del espectro de masas del péptido desconocido y se ejecutan para encontrar una coincidencia con una secuencia de péptidos conocida; se seleccionará el péptido con la puntuación de coincidencia más alta. [2] Este enfoque no reconoce péptidos nuevos, ya que solo puede coincidir con secuencias existentes en la base de datos. La secuenciación de novo es una asignación de iones de fragmentos de un espectro de masas. Se utilizan diferentes algoritmos [3] para la interpretación y la mayoría de los instrumentos vienen con programas de secuenciación de novo.
Los péptidos se protonan en modo de iones positivos. El protón se ubica inicialmente en el extremo N o en una cadena lateral de residuos básicos, pero debido a la solvatación interna , puede moverse a lo largo de la cadena principal rompiéndose en diferentes sitios, lo que da como resultado diferentes fragmentos. Las reglas de fragmentación están bien explicadas en algunas publicaciones. [4] [5] [6] [7] [8] [9]
Se pueden romper tres tipos diferentes de enlaces de la cadena principal para formar fragmentos peptídicos: enlace alquilocarbonilo (CHR-CO), enlace amida peptídica (CO-NH) y enlace aminoalquilo (NH-CHR). [ cita requerida ]
Cuando los enlaces de la cadena principal se rompen, se forman seis tipos diferentes de iones de secuencia, como se muestra en la figura 1. Los iones de fragmentos cargados en el extremo N se clasifican como a, b o c, mientras que los cargados en el extremo C se clasifican como x, y o z. El subíndice n es el número de residuos de aminoácidos. La nomenclatura fue propuesta por primera vez por Roepstorff y Fohlman, luego Biemann la modificó y esta se convirtió en la versión más aceptada. [11] [12]
Entre estos iones de secuencia, los iones a, b e y son los tipos de iones más comunes, especialmente en los espectrómetros de masas de disociación inducida por colisión (CID) de baja energía, ya que el enlace amida peptídica (CO-NH) es el más vulnerable y la pérdida de CO de los iones b.
Masa de iones b = Σ (masas de residuos) + 1 (H + )
Masa de iones y = Σ (masas de residuos) + 19 (H 2 O+H + )
Masa de iones a = masa de iones b – 28 (CO)
La escisión de la doble cadena produce iones internos, de tipo acilio como H 2 N-CHR 2 -CO-NH-CHR 3 -CO+ o de tipo imonio como H 2 N-CHR 2 -CO-NH + =CHR 3 . Estos iones suelen ser perturbadores en los espectros.
Se produce una escisión adicional bajo CID de alta energía en la cadena lateral de los residuos C-terminales, formándose iones d n , v n , w n . [8]
La mayoría de los iones fragmentados son iones b o y. Los iones a también se observan con frecuencia por la pérdida de CO de los iones b. [9]
Los iones satélite (iones w n , v n , d n ) se forman mediante CID de alta energía.
Los iones que contienen Ser, Thr, Asp y Glu generan una pérdida molecular neutra de agua (-18).
Los iones que contienen Asn, Gln, Lys y Arg generan una pérdida molecular neutra de amoníaco (-17).
La pérdida neutra de amoníaco de Arg conduce a iones fragmento (y-17) o (b-17) con mayor abundancia que sus iones correspondientes.
Cuando el extremo C tiene un residuo básico, el péptido genera el ion (b n-1 +18).
En los espectros de iones con cargas múltiples se puede observar un par de iones complementarios. Para este par de iones, la suma de sus subíndices es igual al número total de residuos de aminoácidos en el péptido desconocido.
Si el extremo C es Arg o Lys, se puede encontrar el ion y 1 en el espectro para demostrarlo.
En la disociación inducida por colisión de baja energía (CID), los iones b e y son los principales iones del producto. Además, se observa pérdida de amoníaco (-17 Da) en el fragmento que contiene aminoácidos RKNQ. Se puede observar pérdida de agua (-18 Da) en el fragmento que contiene aminoácidos STED. No se muestran iones satélite en los espectros. [ cita requerida ]
En la CID de alta energía, se pueden observar todos los diferentes tipos de iones de fragmentos, pero no hay pérdidas de amoníaco o agua. [ cita requerida ]
En la disociación por transferencia de electrones (ETD) y la disociación por captura de electrones (ECD), los iones predominantes son c, y, z+1, z+2 y, a veces, iones w. [ cita requerida ]
Para la desintegración posterior a la fuente (PSD) en MALDI , los iones a, b, y son los iones de producto más comunes. [ cita requerida ]
Los factores que afectan la fragmentación son el estado de carga (cuanto mayor sea el estado de carga, menos energía se necesita para la fragmentación), la masa del péptido (cuanto mayor sea la masa, más energía se requiere), la energía inducida (una mayor energía conduce a una mayor fragmentación), la secuencia primaria de aminoácidos, el modo de disociación y el gas de colisión. [ cita requerida ]
Para la interpretación, [14] primero, busque iones de amonio de un solo aminoácido (H 2 N + =CHR 2 ). Los iones de amonio correspondientes para los aminoácidos se enumeran en la Tabla 1. Ignore algunos picos en el extremo de alta masa del espectro. Son iones que sufren pérdidas de moléculas neutras (H 2 O, NH 3 , CO 2 , HCOOH) de los iones [M+H] + . Encuentre diferencias de masa a 28 Da ya que los iones b pueden formar iones a por pérdida de CO. Busque iones b 2 en el extremo de baja masa del espectro, lo que también ayuda a identificar iones y n-2 . La masa de los iones b 2 se enumera en la Tabla 2, así como los aminoácidos individuales que tienen la misma masa que los iones b 2 . [15] La masa del ión b 2 = masa de dos residuos de aminoácidos + 1.
Identificar una serie de iones de secuencia por la misma diferencia de masa, que coincida con una de las masas de los residuos de aminoácidos (ver Tabla 1). Por ejemplo, las diferencias de masa entre a n y a n-1 , b n y b n-1 , c n y c n-1 son las mismas. Identificar el ion y n-1 en el extremo de alta masa del espectro. Luego continuar identificando los iones y n-2 , y n-3 ... haciendo coincidir las diferencias de masa con las masas de los residuos de aminoácidos (ver Tabla 1). Buscar los iones b correspondientes de los iones y identificados. La masa de los iones b+y es la masa del péptido +2 Da. Después de identificar la serie de iones y y la serie de iones b, asignar la secuencia de aminoácidos y verificar la masa. El otro método es identificar primero los iones b y luego encontrar los iones y correspondientes. [ cita requerida ]
La secuenciación manual de novo es una tarea laboriosa y que requiere mucho tiempo. Por lo general, se aplican algoritmos o programas que vienen con el espectrómetro de masas para la interpretación de los espectros.
Un método antiguo consiste en enumerar todos los péptidos posibles para el ion precursor en el espectro de masas y hacer coincidir el espectro de masas de cada candidato con el espectro experimental. El péptido posible que tenga el espectro más similar tendrá la mayor probabilidad de ser la secuencia correcta. Sin embargo, el número de péptidos posibles puede ser grande. Por ejemplo, un péptido precursor con un peso molecular de 774 tiene 21.909.046 péptidos posibles. Aunque se hace en la computadora, lleva mucho tiempo. [17] [18]
Otro método se denomina "subsecuenciación", que en lugar de enumerar la secuencia completa de péptidos posibles, combina secuencias cortas de péptidos que representan solo una parte del péptido completo. Cuando se encuentran secuencias que coinciden en gran medida con los iones del fragmento en el espectro experimental, se extienden por residuos uno por uno para encontrar la mejor coincidencia. [19] [20] [21] [22]
En el tercer método, se aplica una representación gráfica de los datos, en la que los iones de fragmentos que tienen las mismas diferencias de masa de un residuo de aminoácido se conectan mediante líneas. De esta manera, es más fácil obtener una imagen clara de las series de iones del mismo tipo. Este método podría ser útil para la secuenciación manual de novo de péptidos, pero no funciona en condiciones de alto rendimiento. [23]
El cuarto método, que se considera exitoso, es la teoría de grafos. La aplicación de la teoría de grafos en la secuenciación de péptidos de novo fue mencionada por primera vez por Bartels [24] . Los picos del espectro se transforman en vértices en un grafo llamado "grafo espectral". Si dos vértices tienen la misma diferencia de masa de uno o varios aminoácidos, se aplicará un borde dirigido. El algoritmo SeqMS [25] , el algoritmo de Lutefisk [26] , el algoritmo de Sherenga [27] son algunos ejemplos de este tipo.
Más recientemente, se han aplicado técnicas de aprendizaje profundo para resolver el problema de secuenciación de péptidos de novo. El primer avance fue DeepNovo, que adoptó la estructura de red neuronal convolucional, logró importantes mejoras en la precisión de la secuencia y permitió el ensamblaje completo de la secuencia de proteínas sin ayudar a las bases de datos [28]. Posteriormente, se han adoptado estructuras de red adicionales, como PointNet (PointNovo [29] ), para extraer características de un espectro sin procesar. El problema de secuenciación de péptidos de novo se enmarca entonces como un problema de predicción de secuencia. Dada la secuencia de péptidos parcial previamente predicha, los modelos de secuenciación de péptidos de novo basados en redes neuronales generarán repetidamente el siguiente aminoácido más probable hasta que la masa del péptido predicho coincida con la masa del precursor. En el momento de la inferencia, se pueden adoptar estrategias de búsqueda como la búsqueda de haz para explorar un espacio de búsqueda más grande mientras se mantiene bajo el costo computacional. En comparación con los métodos anteriores, los modelos basados en redes neuronales han demostrado una precisión y sensibilidad significativamente mejores. [28] [29] [30] Además, con un diseño de modelo cuidadoso, los algoritmos de secuenciación de péptidos de novo basados en aprendizaje profundo también pueden ser lo suficientemente rápidos para lograr una secuenciación de péptidos de novo en tiempo real. [29] El software PEAKS incorpora este aprendizaje de redes neuronales en sus algoritmos de secuenciación de novo.
Como describieron Andreotti et al. en 2012, [31] Antilope es una combinación de relajación lagrangiana y una adaptación de los k caminos más cortos de Yen. Se basa en el método de "gráfico de espectro" y contiene diferentes funciones de puntuación, y puede compararse en tiempo de ejecución y precisión con "los populares programas de última generación " PepNovo y NovoHMM.
Grossmann et al. [32] presentaron AUDENS en 2005 como una herramienta automatizada de secuenciación de péptidos de novo que contiene un módulo de preprocesamiento que puede reconocer picos de señal y picos de ruido.
Lutefisk puede resolver la secuenciación de novo a partir de espectros de masas CID. En este algoritmo, primero se encuentran los iones significativos y luego se determina la lista de evidencias N- y C-terminales. Con base en la lista de secuencias, genera secuencias completas en espectros y las puntúa con el espectro experimental. Sin embargo, el resultado puede incluir varias secuencias candidatas que tienen solo una pequeña diferencia, por lo que es difícil encontrar la secuencia de péptidos correcta. Se puede aplicar un segundo programa, CIDentify, que es una versión modificada por Alex Taylor del algoritmo FASTA de Bill Pearson, para distinguir esos candidatos similares inciertos. [ cita requerida ]
Mo et al. presentaron el algoritmo MSNovo en 2007 y demostraron que funcionaba "mejor que las herramientas de novo existentes en múltiples conjuntos de datos". [33] Este algoritmo puede realizar una interpretación de secuenciación de novo de espectrómetros de masas LCQ y LTQ y de iones con carga simple, doble y triple. A diferencia de otros algoritmos, aplica una función de puntuación novedosa y utiliza una matriz de masas en lugar de un gráfico de espectro.
Fisher et al. [34] propusieron el método NovoHMM de secuenciación de novo. Se aplica un modelo oculto de Markov (HMM) como una nueva forma de resolver la secuenciación de novo en un marco bayesiano. En lugar de puntuar símbolos individuales de la secuencia, este método considera probabilidades posteriores para aminoácidos. En el artículo, se demuestra que este método tiene un mejor rendimiento que otros métodos populares de secuenciación de péptidos de novo como PepNovo mediante una gran cantidad de espectros de ejemplo.
PEAKS es un paquete de software completo para la interpretación de espectros de masas de péptidos. Contiene secuenciación de novo, búsqueda en bases de datos, identificación de PTM, búsqueda de homología y cuantificación en análisis de datos. Ma et al. describieron un nuevo modelo y algoritmo para la secuenciación de novo en PEAKS, y compararon el rendimiento con Lutefisk de varios péptidos tripsídicos de proteínas estándar, mediante el espectrómetro de masas de tiempo de vuelo cuadrupolo (Q-TOF). [35]
PepNovo es una herramienta de secuenciación de péptidos de novo de alto rendimiento que utiliza una red probabilística como método de puntuación. Por lo general, la interpretación de un espectro demora menos de 0,2 segundos. Descrito por Frank et al. , PepNovo funciona mejor que varios algoritmos populares como Sherenga, PEAKS y Lutefisk. [36] Ahora está disponible una nueva versión de PepNovo+.
Chi et al. presentaron pNovo+ en 2013 como una nueva herramienta de secuenciación de péptidos de novo mediante el uso de espectros de masas en tándem HCD y ETD complementarios. [37] En este método, un algoritmo de componentes, pDAG, acelera en gran medida el tiempo de adquisición de la secuenciación de péptidos a 0,018 s en promedio, que es tres veces más rápido que el otro software de secuenciación de novo popular.
Como lo describen Jeong et al. , en comparación con otras herramientas de secuenciación de péptidos do novo, que funcionan bien solo en ciertos tipos de espectros, UniNovo es una herramienta más universal que tiene un buen desempeño en varios tipos de espectros o pares espectrales como CID, ETD, HCD, CID/ETD, etc. Tiene una mejor precisión que PepNovo+ o PEAKS. Además, genera la tasa de error de las secuencias de péptidos informadas. [38]
Ma publicó Novor en 2015 como un motor de secuenciación de péptidos de novo en tiempo real. Se busca que la herramienta mejore la velocidad de novo en un orden de magnitud y mantenga una precisión similar a la de otras herramientas de novo del mercado. En una computadora portátil Macbook Pro, Novor ha logrado más de 300 espectros MS/MS por segundo. [39]
Pevtsov et al. compararon el rendimiento de los cinco algoritmos de secuenciación de novo anteriores: AUDENS, Lutefisk, NovoHMM, PepNovo y PEAKS. En el análisis se emplearon datos de espectrómetros de masas QSTAR y LCQ, y se evaluaron mediante el valor de distancia relativa a la secuencia (RSD), que era la similitud entre la secuenciación de péptidos de novo y la secuencia de péptidos verdadera calculada mediante un método de programación dinámica. Los resultados mostraron que todos los algoritmos tuvieron un mejor rendimiento en los datos QSTAR que en los datos LCQ, mientras que PEAKS, como el mejor, tuvo una tasa de éxito del 49,7 % en los datos QSTAR, y NovoHMM, como el mejor, tuvo una tasa de éxito del 18,3 % en los datos LCQ. El orden de rendimiento en los datos QSTAR fue PEAKS > Lutefisk, PepNovo > AUDENS, NovoHMM, y en los datos LCQ fue NovoHMM > PepNovo, PEAKS > Lutefisk > AUDENS. Comparados en un rango de calidad de espectro, PEAKS y NovoHMM también mostraron el mejor desempeño en ambos datos entre los 5 algoritmos. PEAKS y NovoHMM también tuvieron la mejor sensibilidad en los datos de QSTAR y LCQ. Sin embargo, ninguno de los algoritmos evaluados superó el 50% de identificación exacta para ambos conjuntos de datos. [40]
Los recientes avances en los espectrómetros de masas han hecho posible generar espectros de masas de resolución ultraalta [1]. La precisión mejorada, junto con la mayor cantidad de datos de espectrometría de masas que se están generando, atrae el interés de aplicar técnicas de aprendizaje profundo a la secuenciación de péptidos de novo. En 2017, Tran et al. propusieron DeepNovo, el primer software de secuenciación de novo basado en aprendizaje profundo. El análisis de referencia en la publicación original demostró que DeepNovo superó a los métodos anteriores, incluidos PEAKS, Novor y PepNovo, por un margen significativo. DeepNovo se implementa en Python con el marco Tensorflow. [41] Para representar un espectro de masas como una entrada de dimensión fija a la red neuronal, DeepNovo discretizó cada espectro en un vector de longitud 150.000. Esta representación de espectro innecesariamente grande y el uso de CPU de un solo subproceso en la implementación original evitan que DeepNovo realice la secuenciación de péptidos en tiempo real. Para mejorar aún más la eficiencia de los modelos de secuenciación de péptidos de novo, Qiao et al. PointNovo se propuso en 2020. PointNovo es un software de Python implementado con el marco PyTorch [42] y elimina la representación de espectro-vector que consume espacio adoptada por DeepNovo. En comparación con DeepNovo, PointNovo logró lograr una mejor precisión y eficiencia al mismo tiempo al representar directamente un espectro como un conjunto de pares m/z e intensidad. [ cita requerida ]