Secuenciación de proteínas

La secuenciación de proteínas es el proceso práctico de determinar la secuencia de aminoácidos de toda o parte de una proteína o péptido . Esto puede servir para identificar la proteína o caracterizar sus modificaciones postraduccionales . Normalmente, la secuenciación parcial de una proteína proporciona suficiente información (una o más etiquetas de secuencia) para identificarla con referencia a bases de datos de secuencias de proteínas derivadas de la traducción conceptual de genes .

Los dos métodos directos principales de secuenciación de proteínas son la espectrometría de masas y la degradación de Edman utilizando un secuenciador de proteínas. Los métodos de espectrometría de masas son actualmente los más utilizados para la secuenciación e identificación de proteínas, pero la degradación de Edman sigue siendo una herramienta valiosa para caracterizar el extremo N de una proteína .

Determinación de la composición de aminoácidos

A menudo es deseable conocer la composición de aminoácidos no ordenados de una proteína antes de intentar encontrar la secuencia ordenada, ya que este conocimiento se puede utilizar para facilitar el descubrimiento de errores en el proceso de secuenciación o para distinguir entre resultados ambiguos. El conocimiento de la frecuencia de ciertos aminoácidos también se puede utilizar para elegir qué proteasa utilizar para la digestión de la proteína. También se puede determinar la incorporación incorrecta de niveles bajos de aminoácidos no estándar (por ejemplo, norleucina) en las proteínas. ^[1] Un método generalizado al que a menudo se hace referencia como análisis de aminoácidos ^[2] para determinar la frecuencia de aminoácidos es el siguiente:

Hidrolizar una cantidad conocida de proteína en sus aminoácidos constituyentes.
Separar y cuantificar los aminoácidos de alguna manera.

Hidrólisis

La hidrólisis se realiza calentando una muestra de la proteína en ácido clorhídrico 6 M a 100–110 °C durante 24 horas o más. Las proteínas con muchos grupos hidrófobos voluminosos pueden requerir períodos de calentamiento más largos. Sin embargo, estas condiciones son tan vigorosas que algunos aminoácidos ( serina , treonina , tirosina , triptófano , glutamina y cisteína ) se degradan. Para evitar este problema, Biochemistry Online sugiere calentar muestras separadas durante diferentes tiempos, analizar cada solución resultante y extrapolar de nuevo a un tiempo de hidrólisis cero. Rastall sugiere una variedad de reactivos para prevenir o reducir la degradación, como reactivos de tiol o fenol para proteger el triptófano y la tirosina del ataque del cloro y preoxidar la cisteína. También sugiere medir la cantidad de amoníaco evolucionado para determinar el grado de hidrólisis de la amida .

Separación y cuantificación

Los aminoácidos se pueden separar mediante cromatografía de intercambio iónico y luego derivatizar para facilitar su detección. Lo más habitual es que los aminoácidos se derivaticen y luego se resuelvan mediante cromatografía líquida de alto rendimiento (HPLC) de fase inversa .

Un ejemplo de cromatografía de intercambio iónico lo proporciona el NTRC, que utiliza poliestireno sulfonado como matriz, añadiendo los aminoácidos en solución ácida y haciendo pasar un tampón de pH en constante aumento a través de la columna. Los aminoácidos se eluyen cuando el pH alcanza sus respectivos puntos isoeléctricos . Una vez separados los aminoácidos, se determinan sus respectivas cantidades añadiendo un reactivo que formará un derivado coloreado. Si las cantidades de aminoácidos superan los 10 nmol, se puede utilizar ninhidrina para ello; da un color amarillo cuando reacciona con prolina y un morado intenso con otros aminoácidos. La concentración de aminoácidos es proporcional a la absorbancia de la solución resultante. Con cantidades muy pequeñas, de hasta 10 pmol, se pueden formar derivados fluorescentes utilizando reactivos como el ortoftaldehído (OPA) o la fluorescamina .

La derivatización previa a la columna puede utilizar el reactivo de Edman para producir un derivado que se detecta mediante luz ultravioleta. Se logra una mayor sensibilidad utilizando un reactivo que genera un derivado fluorescente. Los aminoácidos derivatizados se someten a cromatografía de fase inversa, normalmente utilizando una columna de sílice C8 o C18 y un gradiente de elución optimizado . Los aminoácidos eluidos se detectan utilizando un detector de fluorescencia o UV y las áreas de los picos se comparan con las de los estándares derivatizados para cuantificar cada aminoácido en la muestra.

norte-análisis de aminoácidos terminales

Determinar qué aminoácido forma el extremo N de una cadena peptídica es útil por dos razones: para facilitar la ordenación de las secuencias de fragmentos peptídicos individuales en una cadena completa, y porque la primera ronda de degradación de Edman suele estar contaminada por impurezas y, por lo tanto, no proporciona una determinación precisa del aminoácido N -terminal. A continuación se presenta un método generalizado para el análisis de aminoácidos N -terminales:

Haga reaccionar el péptido con un reactivo que marcará selectivamente el aminoácido terminal.
Hidrolizar la proteína.
Determinar el aminoácido mediante cromatografía y comparación con estándares.

Existen muchos reactivos diferentes que pueden utilizarse para marcar los aminoácidos terminales. Todos ellos reaccionan con grupos amino y, por lo tanto, también se unirán a grupos amino en las cadenas laterales de aminoácidos como la lisina; por este motivo, es necesario tener cuidado al interpretar los cromatogramas para asegurarse de elegir el punto correcto. Dos de los reactivos más comunes son el reactivo de Sanger ( 1-fluoro-2,4-dinitrobenceno ) y los derivados de dansilo como el cloruro de dansilo . También se puede utilizar fenilisotiocianato , el reactivo para la degradación de Edman. Aquí se aplican las mismas preguntas que en la determinación de la composición de aminoácidos, con la excepción de que no se necesita tinción, ya que los reactivos producen derivados coloreados y solo se requiere un análisis cualitativo. Por lo tanto, no es necesario eluir el aminoácido de la columna de cromatografía, solo compararlo con un estándar. Otra consideración a tener en cuenta es que, dado que cualquier grupo amina habrá reaccionado con el reactivo de marcado, no se puede utilizar cromatografía de intercambio iónico y en su lugar se debe utilizar cromatografía de capa fina o cromatografía líquida de alta presión .

Análisis de aminoácidos C-terminales

El número de métodos disponibles para el análisis de aminoácidos del extremo C es mucho menor que el número de métodos disponibles para el análisis del extremo N. El método más común consiste en añadir carboxipeptidasas a una solución de la proteína, tomar muestras a intervalos regulares y determinar el aminoácido terminal mediante el análisis de un gráfico de concentraciones de aminoácidos en función del tiempo. Este método será muy útil en el caso de polipéptidos y extremos N bloqueados por proteínas. La secuenciación del extremo C sería de gran ayuda para verificar las estructuras primarias de las proteínas predichas a partir de secuencias de ADN y para detectar cualquier procesamiento postraduccional de productos génicos a partir de secuencias de codones conocidas.

Degradación de Edman

La degradación de Edman es una reacción muy importante para la secuenciación de proteínas, ya que permite descubrir la composición ordenada de aminoácidos de una proteína. Los secuenciadores automáticos de Edman se utilizan ahora ampliamente y pueden secuenciar péptidos de hasta aproximadamente 50 aminoácidos de longitud. A continuación se presenta un esquema de reacción para secuenciar una proteína mediante la degradación de Edman; algunos de los pasos se explican más adelante.

Rompa los puentes disulfuro de la proteína con un agente reductor como el 2-mercaptoetanol . Puede ser necesario un grupo protector como el ácido yodoacético para evitar que se vuelvan a formar los enlaces.
Separar y purificar las cadenas individuales del complejo proteico, si hay más de una.
Determinar la composición de aminoácidos de cada cadena.
Determinar los aminoácidos terminales de cada cadena.
Rompe cada cadena en fragmentos de menos de 50 aminoácidos de longitud.
Separar y purificar los fragmentos.
Determinar la secuencia de cada fragmento.
Repita con un patrón de escote diferente.
Construya la secuencia de la proteína general.

Digestión en fragmentos peptídicos

Los péptidos de más de 50-70 aminoácidos no pueden secuenciarse de manera confiable mediante la degradación de Edman. Debido a esto, las cadenas proteicas largas deben dividirse en fragmentos pequeños que luego pueden secuenciarse individualmente. La digestión se realiza mediante endopeptidasas como la tripsina o la pepsina o mediante reactivos químicos como el bromuro de cianógeno . Diferentes enzimas dan diferentes patrones de escisión y la superposición entre fragmentos se puede utilizar para construir una secuencia general.

Reacción

El péptido que se va a secuenciar se adsorbe sobre una superficie sólida. Un sustrato común es la fibra de vidrio recubierta de polibreno , un polímero catiónico . El reactivo de Edman, fenilisotiocianato (PITC), se añade al péptido adsorbido, junto con una solución tampón ligeramente básica de trimetilamina al 12% . Esta reacciona con el grupo amino del aminoácido N-terminal.

El aminoácido terminal puede entonces separarse selectivamente mediante la adición de ácido anhidro . El derivado se isomeriza para dar una feniltiohidantoína sustituida, que puede eliminarse mediante lavado e identificarse mediante cromatografía, y el ciclo puede repetirse. La eficiencia de cada paso es de aproximadamente el 98%, lo que permite determinar de manera confiable alrededor de 50 aminoácidos.

Secuenciador de proteínas

Un secuenciador de proteínas ^[3] es una máquina que realiza la degradación de Edman de manera automatizada. Una muestra de la proteína o péptido se inmoviliza en el recipiente de reacción del secuenciador de proteínas y se realiza la degradación de Edman. Cada ciclo libera y derivatiza un aminoácido del extremo N de la proteína o péptido y luego el derivado de aminoácido liberado se identifica mediante HPLC. El proceso de secuenciación se realiza de manera repetitiva para todo el polipéptido hasta que se establece la secuencia medible completa o durante un número predeterminado de ciclos.

Identificación por espectrometría de masas

La identificación de proteínas es el proceso de asignar un nombre a una proteína de interés (POI), en función de su secuencia de aminoácidos. Normalmente, solo es necesario determinar experimentalmente una parte de la secuencia de la proteína para identificarla con referencia a bases de datos de secuencias de proteínas deducidas a partir de las secuencias de ADN de sus genes. Una caracterización adicional de la proteína puede incluir la confirmación de los extremos N y C reales de la POI, la determinación de variantes de secuencia y la identificación de cualquier modificación postraduccional presente.

Digestiones proteolíticas

Se describe un esquema general para la identificación de proteínas. ^[4]^[5]

El POI se aísla, normalmente mediante SDS-PAGE o cromatografía .
El POI aislado puede modificarse químicamente para estabilizar los residuos de cisteína (por ejemplo, S-amidometilación o S-carboximetilación).
El POI se digiere con una proteasa específica para generar péptidos. La tripsina , que escinde selectivamente el lado C-terminal de los residuos de lisina o arginina, es la proteasa más utilizada. Sus ventajas incluyen i) la frecuencia de los residuos de lisina y arginina en las proteínas, ii) la alta especificidad de la enzima, iii) la estabilidad de la enzima y iv) la idoneidad de los péptidos tripsínicos para la espectrometría de masas.
Los péptidos pueden desalinizarse para eliminar los contaminantes ionizables y someterse a espectrometría de masas MALDI-TOF . La medición directa de las masas de los péptidos puede proporcionar información suficiente para identificar la proteína (véase Identificación de masas de péptidos ), pero a menudo se utiliza una mayor fragmentación de los péptidos dentro del espectrómetro de masas para obtener información sobre las secuencias de los péptidos. Alternativamente, los péptidos pueden desalinizarse y separarse mediante HPLC de fase inversa e introducirse en un espectrómetro de masas a través de una fuente ESI . La LC-ESI-MS puede proporcionar más información que la MALDI-MS para la identificación de proteínas, pero utiliza más tiempo del instrumento.
Según el tipo de espectrómetro de masas, la fragmentación de iones peptídicos puede ocurrir a través de una variedad de mecanismos, como la disociación inducida por colisión (CID) o la desintegración posterior a la fuente (PSD). En cada caso, el patrón de iones fragmentados de un péptido proporciona información sobre su secuencia.
La información que incluye la masa medida de los iones peptídicos putativos y las de sus iones fragmentados se compara luego con los valores de masa calculados a partir de la proteólisis conceptual (in silico) y la fragmentación de bases de datos de secuencias de proteínas. Se encontrará una coincidencia exitosa si su puntuación supera un umbral basado en los parámetros de análisis. Incluso si la proteína real no está representada en la base de datos, la comparación tolerante a errores permite la posible identificación de una proteína en función de su similitud con proteínas homólogas . Hay una variedad de paquetes de software disponibles para realizar este análisis.
Los paquetes de software generalmente generan un informe que muestra la identidad (código de acceso) de cada proteína identificada, su puntaje de coincidencia y proporcionan una medida de la fuerza relativa de la coincidencia cuando se identifican múltiples proteínas.
A menudo se utiliza un diagrama de los péptidos coincidentes en la secuencia de la proteína identificada para mostrar la cobertura de la secuencia (porcentaje de la proteína detectada como péptidos). Cuando se cree que el POI es significativamente más pequeño que la proteína coincidente, el diagrama puede sugerir si el POI es un fragmento N- o C-terminal de la proteína identificada.

Secuenciación de novo

El patrón de fragmentación de un péptido permite la determinación directa de su secuencia mediante secuenciación de novo . Esta secuencia puede utilizarse para comparar bases de datos de secuencias de proteínas o para investigar modificaciones postraduccionales o químicas. Puede proporcionar evidencia adicional para las identificaciones de proteínas realizadas como se indicó anteriormente.

N- y C-terminales

Los péptidos que se emparejan durante la identificación de proteínas no necesariamente incluyen los extremos N o C predichos para la proteína emparejada. Esto puede deberse a que los péptidos N o C son difíciles de identificar mediante MS (por ejemplo, porque son demasiado cortos o demasiado largos), están modificados postraduccionalmente (por ejemplo, acetilación del extremo N) o difieren genuinamente de la predicción. Las modificaciones postraduccionales o los extremos truncados se pueden identificar mediante un examen más detallado de los datos (es decir, secuenciación de novo ). También puede ser útil una digestión repetida utilizando una proteasa de diferente especificidad.

Modificaciones postraduccionales

Si bien la comparación detallada de los datos de MS con las predicciones basadas en la secuencia de proteína conocida se puede utilizar para definir modificaciones postraduccionales, también se pueden utilizar enfoques específicos para la adquisición de datos. Por ejemplo, el enriquecimiento específico de fosfopéptidos puede ayudar a identificar sitios de fosforilación en una proteína. Los métodos alternativos de fragmentación de péptidos en el espectrómetro de masas, como ETD o ECD , pueden brindar información complementaria de la secuencia.

Determinación de masa total

La masa total de la proteína es la suma de las masas de sus residuos de aminoácidos más la masa de una molécula de agua y se ajusta para tener en cuenta las modificaciones postraduccionales. Aunque las proteínas se ionizan menos que los péptidos derivados de ellas, una proteína en solución puede someterse a ESI-MS y medir su masa con una precisión de 1 parte en 20.000 o mejor. Esto suele ser suficiente para confirmar los extremos (por lo tanto, que la masa medida de la proteína coincida con la predicha a partir de su secuencia) e inferir la presencia o ausencia de muchas modificaciones postraduccionales.

Limitaciones

La proteólisis no siempre produce un conjunto de péptidos fácilmente analizables que cubran toda la secuencia de POI. La fragmentación de péptidos en el espectrómetro de masas a menudo no produce iones correspondientes a la escisión en cada enlace peptídico. Por lo tanto, la secuencia deducida para cada péptido no es necesariamente completa. Los métodos estándar de fragmentación no distinguen entre residuos de leucina e isoleucina, ya que son isoméricos.

Debido a que la degradación de Edman procede del extremo N de la proteína, no funcionará si el extremo N ha sido modificado químicamente (por ejemplo, mediante acetilación o formación de ácido piroglutámico). La degradación de Edman generalmente no es útil para determinar las posiciones de los puentes disulfuro. También requiere cantidades de péptidos de 1 picomol o más para obtener resultados discernibles, lo que la hace menos sensible que la espectrometría de masas.

Predicción a partir de secuencias de ADN/ARN

En biología, las proteínas se producen mediante la traducción del ARN mensajero (ARNm), cuya secuencia proteica deriva de la secuencia de codones del ARNm. El ARNm se forma a su vez mediante la transcripción de genes y puede modificarse posteriormente. Estos procesos se comprenden lo suficiente como para utilizar algoritmos informáticos para automatizar las predicciones de secuencias proteicas a partir de secuencias de ADN, como los proyectos de secuenciación de ADN de todo el genoma, y han llevado a la generación de grandes bases de datos de secuencias proteicas, como UniProt . Las secuencias proteicas predichas son un recurso importante para la identificación de proteínas mediante espectrometría de masas.

Históricamente, las secuencias cortas de proteínas (10 a 15 residuos) determinadas mediante degradación de Edman se traducían hacia atrás en secuencias de ADN que podían utilizarse como sondas o cebadores para aislar clones moleculares del gen correspondiente o ADN complementario. A continuación, se determinaba la secuencia del ADN clonado y se utilizaba para deducir la secuencia completa de aminoácidos de la proteína.

Herramientas bioinformáticas

Existen herramientas bioinformáticas para ayudar con la interpretación de espectros de masas (ver secuenciación de péptidos de novo ), para comparar o analizar secuencias de proteínas (ver análisis de secuencias ) o para buscar bases de datos utilizando secuencias de péptidos o proteínas (ver BLAST ).

Aplicaciones de la criptografía

Recientemente se propuso la dificultad de la secuenciación de proteínas como base para crear programas de tiempo k, programas que se ejecutan exactamente k veces antes de autodestruirse. Algo así es imposible de crear puramente mediante software porque todo software es inherentemente clonable un número ilimitado de veces.

Véase también

Referencias

^ Bogosian G, Violand BN, Dorward-King EJ, Workman WE, Jung PE, Kane JF (enero de 1989). "Biosíntesis e incorporación de norleucina a la proteína por Escherichia coli". The Journal of Biological Chemistry . 264 (1): 531–9. doi : 10.1016/S0021-9258(17)31291-7 . PMID 2642478.
^ Michail A. Alterman; Peter Hunziker (2 de diciembre de 2011). Análisis de aminoácidos: métodos y protocolos. Humana Press. ISBN 978-1-61779-444-5.
^ Edman P, Begg G (marzo de 1967). "Un secuenciador de proteínas". Revista Europea de Bioquímica . 1 (1): 80–91. doi : 10.1111/j.1432-1033.1967.tb00047.x . PMID 6059350.
^ Shevchenko A, Tomas H, Havlis J, Olsen JV, Mann M (2006). "Digestión en gel para la caracterización espectrométrica de masas de proteínas y proteomas". Nature Protocols . 1 (6): 2856–60. doi :10.1038/nprot.2006.468. PMID 17406544. S2CID 8248224.
^ Gundry RL, White MY, Murray CI, Kane LA, Fu Q, Stanley BA, Van Eyk JE (octubre de 2009). "Preparación de proteínas y péptidos para análisis de espectrometría de masas en un flujo de trabajo de proteómica de abajo hacia arriba". Protocolos actuales en biología molecular . Capítulo 10: Unidad 10.25. doi :10.1002/0471142727.mb1025s88. ISBN 978-0471142720. PMC 2905857 . PMID 19816929.

Lectura adicional

Steen H, Mann M (septiembre de 2004). "El ABC (y XYZ) de la secuenciación de péptidos". Nature Reviews Molecular Cell Biology . 5 (9): 699–711. doi :10.1038/nrm1468. PMID 15340378. S2CID 5176895.