La secuenciación de proteínas es el proceso práctico de determinar la secuencia de aminoácidos de toda o parte de una proteína o péptido . Esto puede servir para identificar la proteína o caracterizar sus modificaciones postraduccionales . Normalmente, la secuenciación parcial de una proteína proporciona suficiente información (una o más etiquetas de secuencia) para identificarla con referencia a bases de datos de secuencias de proteínas derivadas de la traducción conceptual de genes .
Los dos métodos directos principales de secuenciación de proteínas son la espectrometría de masas y la degradación de Edman utilizando un secuenciador de proteínas. Los métodos de espectrometría de masas son actualmente los más utilizados para la secuenciación e identificación de proteínas, pero la degradación de Edman sigue siendo una herramienta valiosa para caracterizar el extremo N de una proteína .
A menudo es deseable conocer la composición de aminoácidos no ordenados de una proteína antes de intentar encontrar la secuencia ordenada, ya que este conocimiento se puede utilizar para facilitar el descubrimiento de errores en el proceso de secuenciación o para distinguir entre resultados ambiguos. El conocimiento de la frecuencia de ciertos aminoácidos también se puede utilizar para elegir qué proteasa utilizar para la digestión de la proteína. También se puede determinar la incorporación incorrecta de niveles bajos de aminoácidos no estándar (por ejemplo, norleucina) en las proteínas. [1] Un método generalizado al que a menudo se hace referencia como análisis de aminoácidos [2] para determinar la frecuencia de aminoácidos es el siguiente:
La hidrólisis se realiza calentando una muestra de la proteína en ácido clorhídrico 6 M a 100–110 °C durante 24 horas o más. Las proteínas con muchos grupos hidrófobos voluminosos pueden requerir períodos de calentamiento más largos. Sin embargo, estas condiciones son tan vigorosas que algunos aminoácidos ( serina , treonina , tirosina , triptófano , glutamina y cisteína ) se degradan. Para evitar este problema, Biochemistry Online sugiere calentar muestras separadas durante diferentes tiempos, analizar cada solución resultante y extrapolar de nuevo a un tiempo de hidrólisis cero. Rastall sugiere una variedad de reactivos para prevenir o reducir la degradación, como reactivos de tiol o fenol para proteger el triptófano y la tirosina del ataque del cloro y preoxidar la cisteína. También sugiere medir la cantidad de amoníaco evolucionado para determinar el grado de hidrólisis de la amida .
Los aminoácidos se pueden separar mediante cromatografía de intercambio iónico y luego derivatizar para facilitar su detección. Lo más habitual es que los aminoácidos se derivaticen y luego se resuelvan mediante cromatografía líquida de alto rendimiento (HPLC) de fase inversa .
Un ejemplo de cromatografía de intercambio iónico lo proporciona el NTRC, que utiliza poliestireno sulfonado como matriz, añadiendo los aminoácidos en solución ácida y haciendo pasar un tampón de pH en constante aumento a través de la columna. Los aminoácidos se eluyen cuando el pH alcanza sus respectivos puntos isoeléctricos . Una vez separados los aminoácidos, se determinan sus respectivas cantidades añadiendo un reactivo que formará un derivado coloreado. Si las cantidades de aminoácidos superan los 10 nmol, se puede utilizar ninhidrina para ello; da un color amarillo cuando reacciona con prolina y un morado intenso con otros aminoácidos. La concentración de aminoácidos es proporcional a la absorbancia de la solución resultante. Con cantidades muy pequeñas, de hasta 10 pmol, se pueden formar derivados fluorescentes utilizando reactivos como el ortoftaldehído (OPA) o la fluorescamina .
La derivatización previa a la columna puede utilizar el reactivo de Edman para producir un derivado que se detecta mediante luz ultravioleta. Se logra una mayor sensibilidad utilizando un reactivo que genera un derivado fluorescente. Los aminoácidos derivatizados se someten a cromatografía de fase inversa, normalmente utilizando una columna de sílice C8 o C18 y un gradiente de elución optimizado . Los aminoácidos eluidos se detectan utilizando un detector de fluorescencia o UV y las áreas de los picos se comparan con las de los estándares derivatizados para cuantificar cada aminoácido en la muestra.
Determinar qué aminoácido forma el extremo N de una cadena peptídica es útil por dos razones: para facilitar la ordenación de las secuencias de fragmentos peptídicos individuales en una cadena completa, y porque la primera ronda de degradación de Edman suele estar contaminada por impurezas y, por lo tanto, no proporciona una determinación precisa del aminoácido N -terminal. A continuación se presenta un método generalizado para el análisis de aminoácidos N -terminales:
Existen muchos reactivos diferentes que pueden utilizarse para marcar los aminoácidos terminales. Todos ellos reaccionan con grupos amino y, por lo tanto, también se unirán a grupos amino en las cadenas laterales de aminoácidos como la lisina; por este motivo, es necesario tener cuidado al interpretar los cromatogramas para asegurarse de elegir el punto correcto. Dos de los reactivos más comunes son el reactivo de Sanger ( 1-fluoro-2,4-dinitrobenceno ) y los derivados de dansilo como el cloruro de dansilo . También se puede utilizar fenilisotiocianato , el reactivo para la degradación de Edman. Aquí se aplican las mismas preguntas que en la determinación de la composición de aminoácidos, con la excepción de que no se necesita tinción, ya que los reactivos producen derivados coloreados y solo se requiere un análisis cualitativo. Por lo tanto, no es necesario eluir el aminoácido de la columna de cromatografía, solo compararlo con un estándar. Otra consideración a tener en cuenta es que, dado que cualquier grupo amina habrá reaccionado con el reactivo de marcado, no se puede utilizar cromatografía de intercambio iónico y en su lugar se debe utilizar cromatografía de capa fina o cromatografía líquida de alta presión .
El número de métodos disponibles para el análisis de aminoácidos del extremo C es mucho menor que el número de métodos disponibles para el análisis del extremo N. El método más común consiste en añadir carboxipeptidasas a una solución de la proteína, tomar muestras a intervalos regulares y determinar el aminoácido terminal mediante el análisis de un gráfico de concentraciones de aminoácidos en función del tiempo. Este método será muy útil en el caso de polipéptidos y extremos N bloqueados por proteínas. La secuenciación del extremo C sería de gran ayuda para verificar las estructuras primarias de las proteínas predichas a partir de secuencias de ADN y para detectar cualquier procesamiento postraduccional de productos génicos a partir de secuencias de codones conocidas.
La degradación de Edman es una reacción muy importante para la secuenciación de proteínas, ya que permite descubrir la composición ordenada de aminoácidos de una proteína. Los secuenciadores automáticos de Edman se utilizan ahora ampliamente y pueden secuenciar péptidos de hasta aproximadamente 50 aminoácidos de longitud. A continuación se presenta un esquema de reacción para secuenciar una proteína mediante la degradación de Edman; algunos de los pasos se explican más adelante.
Los péptidos de más de 50-70 aminoácidos no pueden secuenciarse de manera confiable mediante la degradación de Edman. Debido a esto, las cadenas proteicas largas deben dividirse en fragmentos pequeños que luego pueden secuenciarse individualmente. La digestión se realiza mediante endopeptidasas como la tripsina o la pepsina o mediante reactivos químicos como el bromuro de cianógeno . Diferentes enzimas dan diferentes patrones de escisión y la superposición entre fragmentos se puede utilizar para construir una secuencia general.
El péptido que se va a secuenciar se adsorbe sobre una superficie sólida. Un sustrato común es la fibra de vidrio recubierta de polibreno , un polímero catiónico . El reactivo de Edman, fenilisotiocianato (PITC), se añade al péptido adsorbido, junto con una solución tampón ligeramente básica de trimetilamina al 12% . Esta reacciona con el grupo amino del aminoácido N-terminal.
El aminoácido terminal puede entonces separarse selectivamente mediante la adición de ácido anhidro . El derivado se isomeriza para dar una feniltiohidantoína sustituida, que puede eliminarse mediante lavado e identificarse mediante cromatografía, y el ciclo puede repetirse. La eficiencia de cada paso es de aproximadamente el 98%, lo que permite determinar de manera confiable alrededor de 50 aminoácidos.
Un secuenciador de proteínas [3] es una máquina que realiza la degradación de Edman de manera automatizada. Una muestra de la proteína o péptido se inmoviliza en el recipiente de reacción del secuenciador de proteínas y se realiza la degradación de Edman. Cada ciclo libera y derivatiza un aminoácido del extremo N de la proteína o péptido y luego el derivado de aminoácido liberado se identifica mediante HPLC. El proceso de secuenciación se realiza de manera repetitiva para todo el polipéptido hasta que se establece la secuencia medible completa o durante un número predeterminado de ciclos.
La identificación de proteínas es el proceso de asignar un nombre a una proteína de interés (POI), en función de su secuencia de aminoácidos. Normalmente, solo es necesario determinar experimentalmente una parte de la secuencia de la proteína para identificarla con referencia a bases de datos de secuencias de proteínas deducidas a partir de las secuencias de ADN de sus genes. Una caracterización adicional de la proteína puede incluir la confirmación de los extremos N y C reales de la POI, la determinación de variantes de secuencia y la identificación de cualquier modificación postraduccional presente.
Se describe un esquema general para la identificación de proteínas. [4] [5]
El patrón de fragmentación de un péptido permite la determinación directa de su secuencia mediante secuenciación de novo . Esta secuencia puede utilizarse para comparar bases de datos de secuencias de proteínas o para investigar modificaciones postraduccionales o químicas. Puede proporcionar evidencia adicional para las identificaciones de proteínas realizadas como se indicó anteriormente.
Los péptidos que se emparejan durante la identificación de proteínas no necesariamente incluyen los extremos N o C predichos para la proteína emparejada. Esto puede deberse a que los péptidos N o C son difíciles de identificar mediante MS (por ejemplo, porque son demasiado cortos o demasiado largos), están modificados postraduccionalmente (por ejemplo, acetilación del extremo N) o difieren genuinamente de la predicción. Las modificaciones postraduccionales o los extremos truncados se pueden identificar mediante un examen más detallado de los datos (es decir, secuenciación de novo ). También puede ser útil una digestión repetida utilizando una proteasa de diferente especificidad.
Si bien la comparación detallada de los datos de MS con las predicciones basadas en la secuencia de proteína conocida se puede utilizar para definir modificaciones postraduccionales, también se pueden utilizar enfoques específicos para la adquisición de datos. Por ejemplo, el enriquecimiento específico de fosfopéptidos puede ayudar a identificar sitios de fosforilación en una proteína. Los métodos alternativos de fragmentación de péptidos en el espectrómetro de masas, como ETD o ECD , pueden brindar información complementaria de la secuencia.
La masa total de la proteína es la suma de las masas de sus residuos de aminoácidos más la masa de una molécula de agua y se ajusta para tener en cuenta las modificaciones postraduccionales. Aunque las proteínas se ionizan menos que los péptidos derivados de ellas, una proteína en solución puede someterse a ESI-MS y medir su masa con una precisión de 1 parte en 20.000 o mejor. Esto suele ser suficiente para confirmar los extremos (por lo tanto, que la masa medida de la proteína coincida con la predicha a partir de su secuencia) e inferir la presencia o ausencia de muchas modificaciones postraduccionales.
La proteólisis no siempre produce un conjunto de péptidos fácilmente analizables que cubran toda la secuencia de POI. La fragmentación de péptidos en el espectrómetro de masas a menudo no produce iones correspondientes a la escisión en cada enlace peptídico. Por lo tanto, la secuencia deducida para cada péptido no es necesariamente completa. Los métodos estándar de fragmentación no distinguen entre residuos de leucina e isoleucina, ya que son isoméricos.
Debido a que la degradación de Edman procede del extremo N de la proteína, no funcionará si el extremo N ha sido modificado químicamente (por ejemplo, mediante acetilación o formación de ácido piroglutámico). La degradación de Edman generalmente no es útil para determinar las posiciones de los puentes disulfuro. También requiere cantidades de péptidos de 1 picomol o más para obtener resultados discernibles, lo que la hace menos sensible que la espectrometría de masas.
En biología, las proteínas se producen mediante la traducción del ARN mensajero (ARNm), cuya secuencia proteica deriva de la secuencia de codones del ARNm. El ARNm se forma a su vez mediante la transcripción de genes y puede modificarse posteriormente. Estos procesos se comprenden lo suficiente como para utilizar algoritmos informáticos para automatizar las predicciones de secuencias proteicas a partir de secuencias de ADN, como los proyectos de secuenciación de ADN de todo el genoma, y han llevado a la generación de grandes bases de datos de secuencias proteicas, como UniProt . Las secuencias proteicas predichas son un recurso importante para la identificación de proteínas mediante espectrometría de masas.
Históricamente, las secuencias cortas de proteínas (10 a 15 residuos) determinadas mediante degradación de Edman se traducían hacia atrás en secuencias de ADN que podían utilizarse como sondas o cebadores para aislar clones moleculares del gen correspondiente o ADN complementario. A continuación, se determinaba la secuencia del ADN clonado y se utilizaba para deducir la secuencia completa de aminoácidos de la proteína.
Existen herramientas bioinformáticas para ayudar con la interpretación de espectros de masas (ver secuenciación de péptidos de novo ), para comparar o analizar secuencias de proteínas (ver análisis de secuencias ) o para buscar bases de datos utilizando secuencias de péptidos o proteínas (ver BLAST ).
Recientemente se propuso la dificultad de la secuenciación de proteínas como base para crear programas de tiempo k, programas que se ejecutan exactamente k veces antes de autodestruirse. Algo así es imposible de crear puramente mediante software porque todo software es inherentemente clonable un número ilimitado de veces.