El proteoma es el conjunto completo de proteínas que es, o puede ser, expresada por un genoma , célula, tejido u organismo en un momento determinado. Es el conjunto de proteínas expresadas en un determinado tipo de célula u organismo, en un momento determinado, en condiciones definidas. La proteómica es el estudio del proteoma.
Si bien el proteoma generalmente se refiere al proteoma de un organismo, los organismos multicelulares pueden tener proteomas muy diferentes en diferentes células, por lo que es importante distinguir los proteomas en células y organismos.
Un proteoma celular es el conjunto de proteínas que se encuentran en un tipo de célula particular bajo un conjunto particular de condiciones ambientales, como la exposición a la estimulación hormonal .
También puede resultar útil considerar el proteoma completo de un organismo , que puede conceptualizarse como el conjunto completo de proteínas de todos los proteomas celulares. Esto es, aproximadamente, el equivalente proteico del genoma .
El término proteoma también se ha utilizado para referirse a la colección de proteínas en ciertos sistemas subcelulares , como los orgánulos. Por ejemplo, el proteoma mitocondrial puede estar formado por más de 3.000 proteínas distintas. [1] [2] [3]
Las proteínas de un virus pueden denominarse proteoma viral . Por lo general, los proteomas virales se predicen a partir del genoma viral [4], pero se han realizado algunos intentos para determinar todas las proteínas expresadas a partir del genoma de un virus, es decir, el proteoma viral. [5] Sin embargo, con mayor frecuencia, la proteómica viral analiza los cambios de las proteínas del huésped tras la infección del virus, de modo que, en efecto, se estudian dos proteomas (del virus y su huésped). [6]
El proteoma se puede utilizar para analizar comparativamente diferentes líneas celulares cancerosas. Se han utilizado estudios proteómicos para identificar la probabilidad de metástasis en las líneas celulares de cáncer de vejiga KK47 e YTS1 y se encontró que tenían 36 proteínas no reguladas y 74 proteínas reguladas negativamente. [7] Las diferencias en la expresión de proteínas pueden ayudar a identificar nuevos mecanismos de señalización del cáncer.
Se han encontrado biomarcadores de cáncer mediante análisis proteómicos basados en espectrometría de masas . El uso de la proteómica o el estudio del proteoma es un paso adelante en la medicina personalizada para adaptar cócteles de fármacos al perfil proteómico y genómico específico del paciente. [8] El análisis de líneas celulares de cáncer de ovario mostró que los biomarcadores putativos para el cáncer de ovario incluyen "α-enolasa (ENOA), factor de elongación Tu , mitocondrial (EFTU), gliceraldehído-3-fosfato deshidrogenasa (G3P) , proteína estrés-70, mitocondrial (GRP75), apolipoproteína A-1 (APOA1) , peroxiredoxina (PRDX2) y anexina A (ANXA) ". [9]
Los análisis proteómicos comparativos de 11 líneas celulares demostraron la similitud entre los procesos metabólicos de cada línea celular; En este estudio se identificaron completamente 11.731 proteínas. Las proteínas domésticas tienden a mostrar una mayor variabilidad entre líneas celulares. [10]
Aún no se comprende bien la resistencia a ciertos medicamentos contra el cáncer. El análisis proteómico se ha utilizado para identificar proteínas que pueden tener propiedades farmacológicas contra el cáncer, específicamente para el fármaco contra el cáncer de colon irinotecán . [11] Los estudios de la línea celular de adenocarcinoma LoVo demostraron que 8 proteínas no estaban reguladas y 7 proteínas estaban reguladas negativamente. Las proteínas que mostraron una expresión diferencial estuvieron involucradas en procesos como la transcripción, la apoptosis y la proliferación/diferenciación celular, entre otros.
Se han realizado análisis proteómicos en diferentes tipos de bacterias para evaluar sus reacciones metabólicas ante diferentes condiciones. Por ejemplo, en bacterias como Clostridium y Bacillus , se utilizaron análisis proteómicos para investigar cómo diferentes proteínas ayudan a que las esporas de cada una de estas bacterias germinen después de un período prolongado de latencia. [12] Para comprender mejor cómo eliminar adecuadamente las esporas, se debe realizar un análisis proteómico.
Marc Wilkins acuñó el término proteoma [13] en 1994 en un simposio sobre "Electroforesis 2D: de mapas de proteínas a genomas" celebrado en Siena, Italia. Apareció impreso en 1995, [14] con la publicación de parte de su tesis doctoral. Wilkins utilizó el término para describir el complemento completo de proteínas expresadas por un genoma, célula, tejido u organismo.
Los genomas de virus y procariotas codifican un proteoma relativamente bien definido, ya que cada proteína se puede predecir con gran confianza, basándose en su marco de lectura abierto (en virus que van desde ~3 a ~1000, en bacterias que van desde aproximadamente 500 proteínas a aproximadamente 10,000). ). [15] Sin embargo, la mayoría de los algoritmos de predicción de proteínas utilizan ciertos límites, como 50 o 100 aminoácidos, por lo que dichas predicciones a menudo pasan por alto las proteínas pequeñas. [16] En eucariotas, esto se vuelve mucho más complicado ya que se puede producir más de una proteína a partir de la mayoría de los genes debido al empalme alternativo (por ejemplo, el proteoma humano codifica alrededor de 20.000 proteínas, pero algunas estimaciones predijeron 92.179 proteínas [ cita necesaria ] de las cuales 71.173 son empalmes variantes [ cita necesaria ] ). [17]
Asociación del tamaño del proteoma con la capacidad de reparación del ADN.
El concepto de “restricción proteómica” es que la capacidad de reparación del ADN se correlaciona positivamente con el contenido de información de un genoma , que, a su vez, está aproximadamente relacionado con el tamaño del proteoma. [18] En bacterias , arqueas y virus de ADN , la capacidad de reparación del ADN está relacionada positivamente con el contenido de información del genoma y con el tamaño del genoma. [18] La “restricción proteómica” propone que los moduladores de las tasas de mutación, como los genes de reparación del ADN, están sujetos a una presión de selección proporcional a la cantidad de información en un genoma. [18]
Proteoformas . Existen diferentes factores que pueden agregar variabilidad a las proteínas. Los SAP (polimorfismos de un solo aminoácido) y los polimorfismos de un solo nucleótido no sinónimos (nsSNP) pueden conducir a diferentes "proteoformas" [19] o "proteomorfos". Estimaciones recientes han encontrado ~135 000 cSNP no sinónimos validados actualmente alojados en SwissProt. En dbSNP, hay 4,7 millones de cSNP candidatos, pero solo ~670.000 cSNP se han validado en el conjunto de 1.000 genomas como cSNP no sinónimos que cambian la identidad de un aminoácido en una proteína. [19]
Proteoma oscuro . El término proteoma oscuro acuñado por Perdigão y colegas define regiones de proteínas que no tienen una homología de secuencia detectable con otras proteínas de estructura tridimensional conocida y, por lo tanto, no pueden modelarse mediante homología . Para 546.000 proteínas Swiss-Prot, se encontró que entre el 44% y el 54% del proteoma en eucariotas y virus era "oscuro", en comparación con sólo ~14% en arqueas y bacterias . [20]
Proteoma humano . Actualmente, varios proyectos tienen como objetivo mapear el proteoma humano, incluido Human Proteome Map, ProteomicsDB, isoform.io y The Human Proteome Project (HPP). Al igual que el proyecto del genoma humano , estos proyectos buscan encontrar y recopilar evidencia de todos los genes codificadores de proteínas predichos en el genoma humano. El mapa del proteoma humano actualmente (octubre de 2020) afirma 17.294 proteínas y ProteomicsDB 15.479, utilizando diferentes criterios. El 16 de octubre de 2020, el HPP publicó un plan muy riguroso [21] que cubre más del 90% de los genes codificadores de proteínas previstos. Las proteínas se identifican a partir de una amplia gama de tejidos y tipos de células fetales y adultas, incluidas las células hematopoyéticas .
El análisis de proteínas resulta más difícil que el análisis de secuencias de ácidos nucleicos. Si bien sólo hay 4 nucleótidos que forman el ADN, hay al menos 20 aminoácidos diferentes que pueden formar una proteína. Además, actualmente no se conoce ninguna tecnología de alto rendimiento para hacer copias de una sola proteína. Hay numerosos métodos disponibles para estudiar proteínas, conjuntos de proteínas o el proteoma completo. De hecho, las proteínas a menudo se estudian de forma indirecta, por ejemplo utilizando métodos computacionales y análisis de genomas. A continuación se dan sólo algunos ejemplos.
La proteómica , el estudio del proteoma, se ha practicado en gran medida mediante la separación de proteínas mediante electroforesis en gel bidimensional . En la primera dimensión, las proteínas se separan mediante enfoque isoeléctrico , que resuelve las proteínas en función de la carga. En la segunda dimensión, las proteínas se separan por peso molecular mediante SDS-PAGE . El gel se tiñe con azul brillante de Coomassie o plata para visualizar las proteínas. Las manchas en el gel son proteínas que han migrado a lugares específicos.
La espectrometría de masas es uno de los métodos clave para estudiar el proteoma. [22] Algunos métodos importantes de espectrometría de masas incluyen la espectrometría de masas Orbitrap, MALDI (desorción/ionización láser asistida por matriz) y ESI (ionización por electropulverización). La toma de huellas dactilares de masas peptídicas identifica una proteína dividiéndola en péptidos cortos y luego deduce la identidad de la proteína comparando las masas peptídicas observadas con una base de datos de secuencias . La espectrometría de masas en tándem , por otro lado, puede obtener información de secuencia de péptidos individuales aislándolos, colisionándolos con un gas no reactivo y luego catalogando los iones fragmentados producidos. [23]
En mayo de 2014, se publicó en Nature un borrador de mapa del proteoma humano . [24] Este mapa se generó utilizando espectrometría de masas por transformada de Fourier de alta resolución. Este estudio perfiló 30 muestras humanas histológicamente normales, lo que dio como resultado la identificación de proteínas codificadas por 17.294 genes. Esto representa alrededor del 84% del total de genes codificadores de proteínas anotados.
La cromatografía líquida es una herramienta importante en el estudio del proteoma. Permite una separación muy sensible de diferentes tipos de proteínas en función de su afinidad por una matriz. Algunos métodos más nuevos para la separación e identificación de proteínas incluyen el uso de columnas capilares monolíticas, cromatografía de alta temperatura y electrocromatografía capilar. [25]
La transferencia Western se puede utilizar para cuantificar la abundancia de determinadas proteínas. Utilizando anticuerpos específicos para la proteína de interés, es posible detectar la presencia de proteínas específicas a partir de una mezcla de proteínas.
Los ensayos de complementación de fragmentos de proteínas se utilizan a menudo para detectar interacciones entre proteínas . El ensayo de dos híbridos en levadura es el más popular de ellos, pero existen numerosas variaciones, tanto utilizadas in vitro como in vivo . Los ensayos desplegables son un método para determinar las parejas de unión a proteínas de una proteína determinada. [26]
La predicción de la estructura de proteínas se puede utilizar para proporcionar predicciones tridimensionales de la estructura de proteínas de proteomas completos. En 2022, una colaboración a gran escala entre EMBL-EBI y DeepMind proporcionó estructuras previstas para más de 200 millones de proteínas de todo el árbol de la vida. [27] Proyectos más pequeños también han utilizado la predicción de la estructura de las proteínas para ayudar a mapear el proteoma de organismos individuales; por ejemplo, isoform.io proporciona cobertura de múltiples isoformas de proteínas para más de 20.000 genes en el genoma humano . [28]
El Atlas de proteínas humanas contiene información sobre las proteínas humanas en células, tejidos y órganos. Todos los datos del recurso de conocimiento son de acceso abierto para permitir que los científicos, tanto del mundo académico como de la industria, accedan libremente a los datos para la exploración del proteoma humano. La organización ELIXIR ha seleccionado el atlas de proteínas como recurso principal debido a su importancia fundamental para una comunidad más amplia de ciencias biológicas.
La base de datos de proteomas plasmáticos Archivada el 27 de enero de 2021 en Wayback Machine contiene información sobre 10.500 proteínas del plasma sanguíneo . Debido a que el rango de contenidos de proteínas en el plasma es muy grande, es difícil detectar proteínas que tienden a ser escasas en comparación con las proteínas abundantes. Este es un límite analítico que posiblemente pueda ser una barrera para la detección de proteínas con concentraciones ultrabajas. [29]
Las bases de datos como neXtprot y UniProt son recursos centrales para datos proteómicos humanos.