El proteoma es el conjunto completo de proteínas que se expresan o pueden expresarse en un genoma , célula, tejido u organismo en un momento determinado. Es el conjunto de proteínas expresadas en un tipo determinado de célula u organismo, en un momento dado, en condiciones definidas. La proteómica es el estudio del proteoma.
Aunque el proteoma generalmente se refiere al proteoma de un organismo, los organismos multicelulares pueden tener proteomas muy diferentes en diferentes células, por lo tanto es importante distinguir los proteomas en las células y los organismos.
Un proteoma celular es el conjunto de proteínas que se encuentran en un tipo particular de célula bajo un conjunto particular de condiciones ambientales, como la exposición a la estimulación hormonal .
También puede resultar útil considerar el proteoma completo de un organismo , que puede definirse como el conjunto completo de proteínas de todos los diversos proteomas celulares. Este es, en líneas generales, el equivalente proteico del genoma .
El término proteoma también se ha utilizado para referirse al conjunto de proteínas en ciertos sistemas subcelulares , como los orgánulos. Por ejemplo, el proteoma mitocondrial puede estar formado por más de 3000 proteínas distintas. [1] [2] [3]
Las proteínas de un virus pueden denominarse proteoma viral . Por lo general, los proteomas virales se predicen a partir del genoma viral [4], pero se han realizado algunos intentos para determinar todas las proteínas expresadas a partir de un genoma viral, es decir, el proteoma viral. [5] Sin embargo, con más frecuencia, la proteómica viral analiza los cambios de las proteínas del huésped tras la infección viral, de modo que en efecto se estudian dos proteomas (del virus y de su huésped). [6]
El proteoma se puede utilizar para analizar comparativamente diferentes líneas celulares de cáncer. Se han utilizado estudios proteómicos para identificar la probabilidad de metástasis en las líneas celulares de cáncer de vejiga KK47 e YTS1 y se ha descubierto que tienen 36 proteínas no reguladas y 74 reguladas a la baja. [7] Las diferencias en la expresión de proteínas pueden ayudar a identificar nuevos mecanismos de señalización del cáncer.
Se han encontrado biomarcadores de cáncer mediante análisis proteómicos basados en espectrometría de masas . El uso de la proteómica o el estudio del proteoma es un paso adelante en la medicina personalizada para adaptar los cócteles de fármacos al perfil proteómico y genómico específico del paciente. [8] El análisis de líneas celulares de cáncer de ovario mostró que los biomarcadores putativos para el cáncer de ovario incluyen "α-enolasa (ENOA), factor de elongación Tu , mitocondrial (EFTU), gliceraldehído-3-fosfato deshidrogenasa (G3P) , proteína estrés-70, mitocondrial (GRP75), apolipoproteína A-1 (APOA1) , peroxirredoxina (PRDX2) y anexina A (ANXA) ". [9]
Los análisis proteómicos comparativos de 11 líneas celulares demostraron la similitud entre los procesos metabólicos de cada línea celular; en este estudio se identificaron 11.731 proteínas en su totalidad. Las proteínas de mantenimiento tienden a mostrar una mayor variabilidad entre líneas celulares. [10]
La resistencia a ciertos fármacos contra el cáncer aún no se comprende bien. Se ha utilizado el análisis proteómico para identificar proteínas que pueden tener propiedades anticancerígenas, específicamente para el fármaco contra el cáncer de colon irinotecan . [11] Los estudios de la línea celular de adenocarcinoma LoVo demostraron que 8 proteínas no estaban reguladas y 7 proteínas estaban reguladas a la baja. Las proteínas que mostraron una expresión diferencial estaban involucradas en procesos como la transcripción, la apoptosis y la proliferación/diferenciación celular, entre otros.
Se han realizado análisis proteómicos en diferentes tipos de bacterias para evaluar sus reacciones metabólicas en diferentes condiciones. Por ejemplo, en bacterias como Clostridium y Bacillus , se utilizaron análisis proteómicos para investigar cómo diferentes proteínas ayudan a las esporas de cada una de estas bacterias a germinar después de un período prolongado de latencia. [12] Para comprender mejor cómo eliminar adecuadamente las esporas, se deben realizar análisis proteómicos.
Marc Wilkins acuñó el término proteoma [13] en 1994 en un simposio sobre "Electroforesis 2D: de los mapas de proteínas a los genomas" celebrado en Siena (Italia). Apareció impreso en 1995 [14] , con la publicación de parte de su tesis doctoral. Wilkins utilizó el término para describir el conjunto completo de proteínas expresadas por un genoma, una célula, un tejido o un organismo.
Los genomas de los virus y procariotas codifican un proteoma relativamente bien definido, ya que cada proteína se puede predecir con alta confianza, en función de su marco de lectura abierto (en los virus, el rango va desde ~3 a ~1000, en las bacterias, desde aproximadamente 500 proteínas hasta aproximadamente 10 000). [15] Sin embargo, la mayoría de los algoritmos de predicción de proteínas utilizan ciertos puntos de corte, como 50 o 100 aminoácidos, por lo que las proteínas pequeñas a menudo se pasan por alto en dichas predicciones. [16] En los eucariotas, esto se vuelve mucho más complicado, ya que se puede producir más de una proteína a partir de la mayoría de los genes debido al empalme alternativo (por ejemplo, el genoma humano codifica alrededor de 20 000 proteínas, pero algunas estimaciones predijeron 92 179 proteínas [ cita requerida ] de las cuales 71 173 son variantes de empalme [ cita requerida ] ). [17]
Asociación del tamaño del proteoma con la capacidad de reparación del ADN
El concepto de “restricción proteómica” es que la capacidad de reparación del ADN está correlacionada positivamente con el contenido de información de un genoma , que, a su vez, está aproximadamente relacionado con el tamaño del proteoma. [18] En bacterias , arqueas y virus de ADN , la capacidad de reparación del ADN está relacionada positivamente con el contenido de información del genoma y con el tamaño del genoma. [18] La “restricción proteómica” propone que los moduladores de las tasas de mutación, como los genes de reparación del ADN, están sujetos a una presión de selección proporcional a la cantidad de información en un genoma. [18]
Proteoformas . Existen diferentes factores que pueden añadir variabilidad a las proteínas. Los SAP (polimorfismos de un solo aminoácido) y los polimorfismos de un solo nucleótido no sinónimo (nsSNP) pueden dar lugar a diferentes "proteoformas" [19] o "proteomorfos". Estimaciones recientes han encontrado ~135.000 cSNP no sinónimos validados actualmente alojados en SwissProt. En dbSNP, hay 4,7 millones de cSNP candidatos, pero solo se han validado ~670.000 cSNP en el conjunto de 1.000 genomas como cSNP no sinónimos que cambian la identidad de un aminoácido en una proteína. [19]
Proteoma oscuro . El término proteoma oscuro acuñado por Perdigão y colegas define regiones de proteínas que no tienen homología de secuencia detectable con otras proteínas de estructura tridimensional conocida y, por lo tanto, no se pueden modelar por homología . Para 546.000 proteínas Swiss-Prot, se encontró que entre el 44 y el 54 % del proteoma en eucariotas y virus era "oscuro", en comparación con solo el ~14 % en arqueas y bacterias . [20]
Proteoma humano . Actualmente, varios proyectos tienen como objetivo mapear el proteoma humano, incluido el Mapa del Proteoma Humano, ProteomicsDB, isoform.io y The Human Proteome Project (HPP). Al igual que el proyecto del genoma humano , estos proyectos buscan encontrar y recopilar evidencia de todos los genes codificadores de proteínas predichos en el genoma humano. El Mapa del Proteoma Humano actualmente (octubre de 2020) reclama 17,294 proteínas y ProteomicsDB 15,479, utilizando diferentes criterios. El 16 de octubre de 2020, el HPP publicó un plan de alta rigurosidad [21] que cubre más del 90% de los genes codificadores de proteínas predichos. Las proteínas se identifican a partir de una amplia gama de tejidos y tipos de células fetales y adultos, incluidas las células hematopoyéticas .
El análisis de proteínas resulta más difícil que el de secuencias de ácidos nucleicos. Si bien el ADN está formado por tan solo cuatro nucleótidos, una proteína puede estar formada por al menos veinte aminoácidos diferentes. Además, actualmente no se conoce ninguna tecnología de alto rendimiento para realizar copias de una sola proteína. Existen numerosos métodos para estudiar proteínas, conjuntos de proteínas o el proteoma completo. De hecho, las proteínas suelen estudiarse de forma indirecta, por ejemplo, mediante métodos computacionales y análisis de genomas. A continuación se ofrecen solo algunos ejemplos.
La proteómica , el estudio del proteoma, se ha practicado en gran medida a través de la separación de proteínas mediante electroforesis en gel bidimensional . En la primera dimensión, las proteínas se separan mediante isoelectroenfoque , que resuelve las proteínas en función de la carga. En la segunda dimensión, las proteínas se separan por peso molecular utilizando SDS-PAGE . El gel se tiñe con azul brillante de Coomassie o plata para visualizar las proteínas. Las manchas en el gel son proteínas que han migrado a ubicaciones específicas.
La espectrometría de masas es uno de los métodos clave para estudiar el proteoma. [22] Algunos métodos de espectrometría de masas importantes incluyen la espectrometría de masas Orbitrap, MALDI (desorción/ionización láser asistida por matriz) y ESI (ionización por electrospray). La huella de masa de péptidos identifica una proteína al escindirla en péptidos cortos y luego deduce la identidad de la proteína al hacer coincidir las masas de péptidos observadas con una base de datos de secuencias . La espectrometría de masas en tándem , por otro lado, puede obtener información de secuencia de péptidos individuales aislándolos, colisionándolos con un gas no reactivo y luego catalogando los iones de fragmentos producidos. [23]
En mayo de 2014, se publicó en Nature un borrador del mapa del proteoma humano . [24] Este mapa se generó mediante espectrometría de masas por transformada de Fourier de alta resolución. Este estudio perfiló 30 muestras humanas histológicamente normales y dio como resultado la identificación de proteínas codificadas por 17.294 genes. Esto representa alrededor del 84 % del total de genes codificadores de proteínas anotados.
La cromatografía líquida es una herramienta importante en el estudio del proteoma. Permite la separación muy sensible de diferentes tipos de proteínas en función de su afinidad por una matriz. Algunos métodos más nuevos para la separación e identificación de proteínas incluyen el uso de columnas capilares monolíticas, cromatografía de alta temperatura y electrocromatografía capilar. [25]
La técnica Western blot se puede utilizar para cuantificar la abundancia de determinadas proteínas. Mediante el uso de anticuerpos específicos para la proteína de interés, es posible detectar la presencia de proteínas específicas en una mezcla de proteínas.
Los ensayos de complementación de fragmentos de proteínas se utilizan a menudo para detectar interacciones proteína-proteína . El ensayo de doble híbrido en levadura es el más popular de ellos, pero existen numerosas variaciones, tanto utilizadas in vitro como in vivo . Los ensayos pull-down son un método para determinar los socios de unión de proteínas de una proteína dada. [26]
La predicción de la estructura de las proteínas se puede utilizar para proporcionar predicciones tridimensionales de la estructura de las proteínas de proteomas completos. En 2022, una colaboración a gran escala entre EMBL-EBI y DeepMind proporcionó estructuras predichas para más de 200 millones de proteínas de todo el árbol de la vida. [27] Proyectos más pequeños también han utilizado la predicción de la estructura de las proteínas para ayudar a mapear el proteoma de organismos individuales, por ejemplo, isoform.io proporciona cobertura de múltiples isoformas de proteínas para más de 20.000 genes en el genoma humano . [28]
El Atlas de Proteínas Humanas contiene información sobre las proteínas humanas en células, tejidos y órganos. Todos los datos de este recurso de conocimiento son de acceso abierto para permitir que los científicos, tanto del ámbito académico como de la industria, accedan libremente a los datos para explorar el proteoma humano. La organización ELIXIR ha seleccionado el atlas de proteínas como recurso central debido a su importancia fundamental para una comunidad más amplia de ciencias de la vida.
La base de datos del proteoma plasmático, archivada el 27 de enero de 2021 en Wayback Machine, contiene información sobre 10 500 proteínas del plasma sanguíneo . Debido a que el rango de contenidos de proteínas en el plasma es muy amplio, es difícil detectar proteínas que tienden a ser escasas en comparación con las proteínas abundantes. Este es un límite analítico que posiblemente sea una barrera para la detección de proteínas con concentraciones ultrabajas. [29]
Bases de datos como neXtprot y UniProt son recursos centrales para los datos proteómicos humanos.