Proteogenómica

La proteogenómica es un campo de investigación biológica que utiliza una combinación de proteómica , genómica y transcriptómica para ayudar en el descubrimiento e identificación de péptidos. La proteogenómica se utiliza para identificar nuevos péptidos mediante la comparación de espectros MS/MS con una base de datos de proteínas que se ha derivado de información genómica y transcriptómica. La proteogenómica a menudo se refiere a estudios que utilizan información proteómica, a menudo derivada de la espectrometría de masas , para mejorar las anotaciones de genes . La utilización de datos proteómicos y genómicos junto con los avances en la disponibilidad y el poder de la tecnología espectrográfica y cromatográfica condujeron al surgimiento de la proteogenómica como un campo propio en 2004.

La proteómica se ocupa de las proteínas de la misma manera que la genómica estudia el código genético de organismos enteros, mientras que la transcriptómica se ocupa del estudio de la secuenciación y las transcripciones del ARN . Si bien los tres campos pueden utilizar formas de espectrometría de masas y cromatografía para identificar y estudiar las funciones del ADN , el ARN y las proteínas, la proteómica se basa en el supuesto de que los modelos genéticos actuales son correctos y que todas las secuencias de proteínas relevantes se pueden encontrar en una base de datos de referencia como la Base de datos de identificaciones proteómicas . La proteogenómica ayuda a eliminar esta dependencia de los modelos genéticos existentes y limitados al combinar conjuntos de datos de múltiples campos para producir una base de datos de proteínas o marcadores genéticos. Además, la aparición de nuevas secuencias de proteínas debido a mutaciones a menudo no se puede explicar en las bases de datos proteómicas tradicionales, pero se puede predecir y estudiar utilizando una síntesis de datos genómicos y transcriptómicos.

La investigación resultante tiene aplicaciones en la mejora de las anotaciones genéticas , el estudio de mutaciones y la comprensión de los efectos de la manipulación genética .

Más recientemente, el perfil conjunto de proteínas de superficie y transcripciones de ARNm de células individuales mediante métodos como CITE-Seq y ESCAPE ^[1] se ha denominado proteogenómica de células individuales, ^[2]^[3]^[4] aunque los objetivos de estos estudios no están relacionados con la identificación de péptidos. Desde 2019, estos métodos se denominan más comúnmente ómicas multimodales o multiómicas. ^[5]

Historia

La proteogenómica surgió como un campo independiente en 2004, basado en la integración de los avances tecnológicos en la genómica de secuenciación de próxima generación y la proteómica de espectrometría de masas. ^[6] El término en sí comenzó a usarse ese año, con la publicación de un artículo del grupo de investigación de George Church que describía su descubrimiento de una técnica de mapeo proteogenómico que utilizaba datos proteómicos para anotar mejor el genoma de la bacteria M. pneumoniae . Al utilizar una base de datos de proteínas moderna, el laboratorio mapeó péptidos detectados en una célula completa sobre un andamio genético utilizando espectrometría de masas en tándem, luego utilizó los "resultados" generados para crear un "mapa proteogenómico" basado en señales genéticas tradicionales. El mapa resultante resultó extremadamente preciso, con más del 81% de los marcos de lectura genómicos previstos detectados en las células bacterianas estudiadas. Además, el laboratorio descubrió varios cuadros nuevos que no se habían previsto mediante métodos puramente genéticos, así como algunas pruebas que apoyan la idea de que varias predicciones basadas en modelos genéticos podrían ser falsas, lo que demuestra la precisión y la rentabilidad de la técnica híbrida. ^[7]^[8]

El campo se expandió durante las siguientes dos décadas, inicialmente utilizando datos proteómicos para ayudar a refinar los modelos genéticos a través de bases de datos de proteínas. ^[6] En la década de 2020, una de las técnicas más comunes para identificar péptidos implica el uso de espectrometría de masas en tándem . Esta técnica se originó con Eng y Yates en 1994, que implica comparar un espectro de fragmento de péptido teórico para comparar un espectro de péptido derivado experimentalmente con y generar las coincidencias más probables encontradas. ^[7] Sin embargo, en ausencia de una base de datos de péptidos establecida, la proteogenómica compara el espectro experimental con una base de datos genómica que luego se puede usar para la anotación del genoma, como se describe en el trabajo de George Church. ^[3] Esta última técnica se ha vuelto más utilizada durante la última década en gran parte debido a la creciente asequibilidad y velocidad de las técnicas de secuenciación genómica junto con la creciente sensibilidad de la proteómica basada en espectrometría de masas. ^[6]

Metodología

La idea principal detrás del enfoque proteogenómico es identificar péptidos comparando datos MS/MS con bases de datos de proteínas que contienen secuencias de proteínas predichas. ^[9] La base de datos de proteínas se genera de diversas maneras mediante el uso de datos genómicos y transcriptómicos. A continuación, se presentan algunas de las formas en que se generan las bases de datos de proteínas:

Traducción de seis cuadros

Las traducciones de seis marcos se pueden utilizar para generar una base de datos que prediga secuencias de proteínas. La limitación de este método es que las bases de datos serán muy grandes debido a la cantidad de secuencias que se generan, algunas de las cuales no existen en la naturaleza. ^[10]

Predicción de genes ab initio

En este método, se genera una base de proteínas mediante algoritmos de predicción de genes que permiten la identificación de regiones codificantes de proteínas . La base de datos es similar a una generada mediante traducción de seis marcos en lo que respecta al hecho de que las bases de datos pueden ser muy grandes. ^[10]

Datos de etiquetas de secuencia expresada

Las traducciones de seis marcos pueden utilizar una etiqueta de secuencia expresada (EST) para generar bases de datos de proteínas. Los datos EST proporcionan información de transcripción que puede ayudar en la creación de la base de datos. La base de datos puede ser muy grande y tiene la desventaja de tener múltiples copias de una secuencia dada presentes; sin embargo, este problema se puede evitar comprimiendo la secuencia de proteínas generada a través de estrategias computacionales. ^[10]

Otros métodos

También se pueden crear bases de datos de proteínas utilizando datos de secuenciación de ARN , transcripciones de ARN anotadas y secuencias de proteínas variantes. Además, existen otras bases de datos de proteínas más especializadas que se pueden crear para identificar adecuadamente el péptido de interés. ^[10]

Otro método para la identificación de proteínas mediante la proteogenómica es la proteogenómica comparativa, que compara datos proteómicos de múltiples especies relacionadas de manera simultánea y aprovecha la homología entre sus proteínas para mejorar las anotaciones con mayor fiabilidad estadística. ^[11]^[12]

Aplicaciones

La proteogenómica se puede aplicar de diferentes maneras. Una de ellas es la mejora de las anotaciones genéticas en varios organismos. La anotación genética implica descubrir genes y sus funciones. ^[13] La proteogenómica se ha vuelto especialmente útil en el descubrimiento y la mejora de las anotaciones genéticas en organismos procariotas. Por ejemplo, se ha estudiado la anotación genómica de varios microorganismos a través del enfoque proteogenómico, entre ellos Escherichia coli , Mycobacterium y múltiples especies de bacterias Shewanella^{. [14]}

Además de mejorar las anotaciones genéticas, los estudios proteogenómicos también pueden proporcionar información valiosa sobre la presencia de cambios de marco programados , escisión de metionina N-terminal, péptidos señal , proteólisis y otras modificaciones postraduccionales . ^[15]^[11] La proteogenómica tiene aplicaciones potenciales en medicina, especialmente en la investigación oncológica . El cáncer se produce a través de mutaciones genéticas como la metilación , la translocación y las mutaciones somáticas . La investigación ha demostrado que se necesita información genómica y proteómica para comprender las variaciones moleculares que conducen al cáncer. ^[16]^[17] La proteogenómica ha ayudado en esto a través de la identificación de secuencias de proteínas que pueden tener roles funcionales en el cáncer. ^[18] Un ejemplo específico de esto ocurrió en un estudio que involucraba cáncer de colon que resultó en el descubrimiento de objetivos potenciales para el tratamiento del cáncer. ^[16] La proteogenómica también ha dado lugar a inmunoterapias personalizadas dirigidas al cáncer, en las que se predicen epítopos de anticuerpos para antígenos del cáncer mediante la proteogenómica para crear medicamentos que actúen sobre el tumor específico del paciente. ^[19] Además del tratamiento, la proteogenómica puede proporcionar información sobre el diagnóstico del cáncer. En estudios que involucraron cáncer de colon y recto, se utilizó la proteogenómica para identificar mutaciones somáticas. La identificación de mutaciones somáticas en pacientes podría utilizarse para diagnosticar el cáncer en pacientes. Además de las aplicaciones directas en el tratamiento y diagnóstico del cáncer, se puede utilizar un enfoque proteogenómico para estudiar proteínas que resultan en resistencia a la quimioterapia . ^[17]

Desafíos

La proteogenómica puede ofrecer métodos de identificación de péptidos sin tener la desventaja de las bases de datos de proteínas incompletas o inexactas que enfrenta la proteómica; sin embargo, existen desafíos con el enfoque proteogenómico. ^[10] Uno de los mayores desafíos de la proteogenómica es el gran tamaño de las bases de datos de proteínas generadas. estadísticamente, es más probable que una base de datos de proteínas grande resulte en una coincidencia incorrecta de los datos de la base de datos de proteínas con los datos MS/MS, este problema puede dificultar la identificación de nuevos péptidos. Los falsos positivos también son un problema a través de los enfoques proteogenómicos. Los falsos positivos pueden ocurrir como resultado de bases de datos de proteínas extremadamente grandes donde los datos no coincidentes conducen a una identificación incorrecta. Otro problema es la coincidencia incorrecta de los espectros MS/MS con los datos de la secuencia de proteínas que corresponden a un péptido similar en lugar del péptido real. Hay casos de recepción de datos de un péptido ubicado en múltiples sitios genéticos, esto puede conducir a datos que se pueden interpretar de diferentes maneras. A pesar de estos desafíos, existen formas de reducir muchos de los errores que ocurren. Por ejemplo, cuando se trabaja con una base de datos de proteínas muy grande, se podrían comparar las secuencias de péptidos nuevos identificados con todas las secuencias dentro de la base de datos y luego comparar las modificaciones postraduccionales. A continuación, se puede determinar si las dos secuencias representan el mismo péptido o si son dos péptidos diferentes. ^[10]

Referencias

^ "Secuenciación de ARN ESCAPE de Proteona". 11 de diciembre de 2018.
^ "Proteona impulsa la adopción de una plataforma de perfil inmunológico para la investigación del mieloma múltiple con CAR-T". Noticias de oncología de precisión . 2021-05-07 . Consultado el 2021-05-15 .
^ "Libro electrónico TotalSeq". BioLegend . Consultado el 23 de noviembre de 2020 .
^ "Proteona lanza la secuenciación de ARN ESCAPE™ para medir proteínas y ARN en células individuales con el foco puesto en cuestiones clínicas". Proteona . Consultado el 23 de noviembre de 2020 .
^ "Método del año 2019: ómica multimodal de células individuales". Nature Methods . 17 (1): 1. Enero de 2020. doi : 10.1038/s41592-019-0703-5 . ISSN 1548-7105. PMID 31907477.
^ abc Menschaert, Gerben; Fenyö, David (2017). "Proteogenómica desde un ángulo bioinformático: un campo en crecimiento". Mass Spectrometry Reviews . 36 (5): 584–599. Bibcode :2017MSRv...36..584M. doi :10.1002/mas.21483. ISSN 1098-2787. PMC 6101030 . PMID 26670565.
^ ab Ruggles, Kelly V.; Krug, Karsten; Wang, Xiaojing; Clauser, Karl R.; Wang, Jing; Payne, Samuel H.; Fenyö, David; Zhang, Bing; Mani, DR (1 de junio de 2017). "Métodos, herramientas y perspectivas actuales en proteogenómica*". Proteómica molecular y celular . 16 (6): 959–981. doi : 10.1074/mcp.MR117.000024 . ISSN 1535-9476. PMC 5461547 . PMID 28456751.
^ Jaffe, Jacob D.; Berg, Howard C.; Church, George M. (enero de 2004). "Mapeo proteogenómico como método complementario para realizar anotación del genoma". Proteómica . 4 (1): 59–77. doi :10.1002/pmic.200300511. ISSN 1615-9853. PMID 14730672. S2CID 10747815.
^ Nesvizhskii, Alexey I. (noviembre de 2014). "Proteogenómica: conceptos, aplicaciones y estrategias computacionales". Nature Methods . 11 (11): 1114–1125. doi :10.1038/nmeth.3144. ISSN 1548-7105. PMC 4392723 . PMID 25357241.
^ abcdef Nesvizhskii, Alexey I (1 de noviembre de 2014). "Proteogenómica: conceptos, aplicaciones y estrategias computacionales". Nature Methods . 11 (11): 1114–1125. doi :10.1038/nmeth.3144. PMC 4392723 . PMID 25357241.
^ ab Gupta N., Benhamida J., Bhargava V., Goodman D., Kain E., Kerman I., Nguyen N., Ollikainen N., Rodriguez J., Wang J., et al. Proteogenómica comparativa: combinación de espectrometría de masas y genómica comparativa para analizar múltiples genomas. Genome Res. 2008;18:1133–1142.
^ Gallien S., Perrodou E., Carapito C., Deshayes C., Reyrat JM, Van Dorsselaer A., Poch O., Schaeffer C., Lecompte O. (2009) Ortoproteogenómica: investigación de proteomas múltiples mediante ortología y un nuevo protocolo basado en EM. Genome Res 19, 128– 135.
^ Ansong, C.; Purvine, SO; Adkins, JN; Lipton, MS; Smith, RD (7 de marzo de 2008). "Proteogenómica: necesidades y funciones que debe cubrir la proteómica en la anotación del genoma". Briefings in Functional Genomics and Proteomics . 7 (1): 50–62. doi : 10.1093/bfgp/eln010 . PMID 18334489.
^ Kucharova, Veronika; Wiker, Harald G. (diciembre de 2014). "Proteogenómica en microbiología: tomando el camino correcto en la intersección de la genómica y la proteómica". Proteómica . 14 (23–24): 2360–2675. doi :10.1002/pmic.201400168. hdl : 1956/9547 . PMID 25263021. S2CID 3240135.
^ Gupta N., Tanner S., Jaitly N., Adkins JN, Lipton M., Edwards R., Romine M., Osterman A., Bafna V., Smith RD, et al. Análisis del proteoma completo de modificaciones postraduccionales: aplicaciones de la espectrometría de masas para la anotación proteogenómica. Genome Res. 2007;17:1362–1377.
^ ab Sajjad, Wasim; Rafiq, Mahoma; Ali, Barkat; Hayat, Mahoma; Zada, Sahib; Sajjad, Wasim; Kumar, Tanweer (julio de 2016). "Proteogenómica: nueva tecnología emergente". HAYATI Revista de Biociencias . 23 (3): 97-100. doi : 10.1016/j.hjb.2016.11.002 .
^ ab Shukla, Hem D.; Mahmood, Javed; Vujaskovic, Zeljko (diciembre de 2015). "Enfoque proteogenómico integrado para el diagnóstico temprano y el pronóstico del cáncer". Cancer Letters . 369 (1): 28–36. doi :10.1016/j.canlet.2015.08.003. PMID 26276717.
^ Chambers, Matthew C.; Jagtap, Pratik D.; Johnson, James E.; McGowan, Thomas; Kumar, Praveen; Onsongo, Getiria; Guerrero, Candace R.; Barsnes, Harald; Vaudel, Marc (1 de noviembre de 2017). "Un recurso informático de proteogenómica accesible para investigadores del cáncer". Cancer Research . 77 (21): e43–e46. doi :10.1158/0008-5472.can-17-0331. PMC 5675041 . PMID 29092937.
^ Creech, Amanda L.; Ting, Ying S.; Goulding, Scott P.; Sauld, John F. K.; Barthelme, Dominik; Rooney, Michael S.; Addona, Terri A.; Abelin, Jennifer G. (2018). "El papel de la espectrometría de masas y la proteogenómica en el avance de la predicción de epítopos HLA". Proteómica . 18 (12): e1700259. doi :10.1002/pmic.201700259. ISSN 1615-9861. PMC 6033110 . PMID 29314742.