En biología molecular , una proteína intrínsecamente desordenada ( IDP ) es una proteína que carece de una estructura tridimensional fija u ordenada , [2] [3] [4] típicamente en ausencia de sus compañeros de interacción macromolecular , como otras proteínas o ARN . . Los IDP varían desde completamente no estructurados hasta parcialmente estructurados e incluyen espirales aleatorias , agregados fundidos en forma de glóbulos o conectores flexibles en grandes proteínas multidominio . A veces se las considera una clase separada de proteínas junto con las proteínas globulares , fibrosas y de membrana . [5]
Las IDP son una clase de proteínas muy grande y funcionalmente importante y su descubrimiento ha refutado la idea de que las estructuras tridimensionales de las proteínas deben fijarse para cumplir sus funciones biológicas . Por ejemplo, se ha identificado que los desplazados internos participan en interacciones multivalentes débiles que son altamente cooperativas y dinámicas, lo que les otorga importancia en la regulación del ADN y en la señalización celular . [6] [7] Muchos desplazados internos también pueden adoptar una estructura tridimensional fija después de unirse a otras macromoléculas. En general, las IDP se diferencian de las proteínas estructuradas en muchos aspectos y tienden a tener funciones, estructuras, secuencias , interacciones, evolución y regulación distintivas. [8]
En las décadas de 1930 y 1950, las primeras estructuras de proteínas se resolvieron mediante cristalografía de proteínas . Estas primeras estructuras sugirieron que generalmente podría ser necesaria una estructura tridimensional fija para mediar las funciones biológicas de las proteínas. Estas publicaciones solidificaron el dogma central de la biología molecular de que la secuencia de aminoácidos de una proteína determina su estructura, la cual, a su vez, determina su función. En 1950, Karush escribió sobre la "adaptabilidad configuracional" contradiciendo esta suposición. Estaba convencido de que las proteínas tienen más de una configuración al mismo nivel de energía y pueden elegir una cuando se unen a otros sustratos. En la década de 1960, la paradoja de Levinthal sugirió que es poco probable que la búsqueda conformacional sistemática de un polipéptido largo produzca una estructura proteica plegada única en escalas de tiempo biológicamente relevantes (es decir, de microsegundos a minutos). Curiosamente, para muchas proteínas (pequeñas) o dominios proteicos, se puede observar in vitro un replegamiento relativamente rápido y eficiente. Como se afirma en el Dogma de Anfinsen de 1973, la estructura tridimensional fija de estas proteínas está codificada de forma única en su estructura primaria (la secuencia de aminoácidos), es cinéticamente accesible y estable en una variedad de condiciones (casi) fisiológicas y, por lo tanto, puede considerarse como el estado nativo de tales proteínas "ordenadas". [10]
Sin embargo, durante las décadas siguientes, muchas regiones proteicas grandes no pudieron asignarse en conjuntos de datos de rayos X, lo que indica que ocupan múltiples posiciones, que se promedian en los mapas de densidad electrónica . La falta de posiciones únicas y fijas en relación con la red cristalina sugirió que estas regiones estaban "desordenadas". La espectroscopia de proteínas por resonancia magnética nuclear también demostró la presencia de grandes conectores y extremos flexibles en muchos conjuntos estructurales resueltos.
En 2001, Dunker cuestionó si la información recién encontrada fue ignorada durante 50 años [11] y si en la década de 2000 estuvieron disponibles más análisis cuantitativos. [12] En la década de 2010 quedó claro que los desplazados internos son comunes entre las proteínas relacionadas con enfermedades, como la alfa-sinucleína y la tau . [13]
Actualmente se acepta generalmente que las proteínas existen como un conjunto de estructuras similares con algunas regiones más restringidas que otras. Los desplazados internos ocupan el extremo de este espectro de flexibilidad e incluyen proteínas de considerable tendencia a la estructura local o conjuntos multidominio flexibles. [14] [15]
El desorden intrínseco es particularmente elevado entre las proteínas que regulan la cromatina y la transcripción, [16] y las predicciones bioinformáticas indican que es más común en genomas y proteomas que en estructuras conocidas en la base de datos de proteínas . Según la predicción de DISOPRED2, se producen segmentos desordenados largos (>30 residuos) en el 2,0 % de las proteínas arcaicas, el 4,2 % de las eubacterianas y el 33,0 % de las eucariotas, [12] incluidas ciertas proteínas relacionadas con enfermedades. [13]
Regiones desordenadas altamente dinámicas de proteínas se han relacionado con fenómenos funcionalmente importantes como la regulación alostérica y la catálisis enzimática . [14] [15] Muchas proteínas desordenadas tienen afinidad de unión con sus receptores reguladas por modificación postraduccional , por lo que se ha propuesto que la flexibilidad de las proteínas desordenadas facilita los diferentes requisitos conformacionales para unirse a las enzimas modificadoras así como a sus receptores. [17] El trastorno intrínseco está particularmente enriquecido en proteínas implicadas en la señalización y transcripción celular, [16] así como en las funciones de remodelación de la cromatina . [18] [19] Los genes que han nacido recientemente de novo tienden a tener un mayor desorden. [20] [21] En los animales, los genes con alto desorden se pierden a tasas más altas durante la evolución. [22]
Las regiones desordenadas a menudo se encuentran como enlazadores flexibles o bucles que conectan dominios. Las secuencias enlazadoras varían mucho en longitud pero típicamente son ricas en aminoácidos polares no cargados . Los conectores flexibles permiten que los dominios de conexión se giren y giren libremente para reclutar a sus socios de unión mediante la dinámica de dominios proteicos . También permiten que sus socios vinculantes induzcan cambios conformacionales a mayor escala mediante alostería de largo alcance . [14] [2] El conector flexible de FBP25 que conecta dos dominios de FKBP25 es importante para la unión de FKBP25 con el ADN. [23]
Los motivos lineales son segmentos cortos desordenados de proteínas que median interacciones funcionales con otras proteínas u otras biomoléculas (ARN, ADN, azúcares, etc.). [16] Muchas funciones de los motivos lineales están asociadas con la regulación celular, por ejemplo, en el control de la forma celular, la localización subcelular de proteínas individuales y el recambio proteico regulado. A menudo, las modificaciones postraduccionales, como la fosforilación, ajustan la afinidad (no raramente en varios órdenes de magnitud) de motivos lineales individuales para interacciones específicas. La evolución relativamente rápida y un número relativamente pequeño de restricciones estructurales para establecer interfaces novedosas (de baja afinidad) hacen que sea particularmente difícil detectar motivos lineales, pero sus funciones biológicas generalizadas y el hecho de que muchos virus imitan/secuestran motivos lineales para recodificar eficientemente las células infectadas lo subrayan. la urgencia oportuna de realizar investigaciones sobre este tema tan desafiante y apasionante.
A diferencia de las proteínas globulares, los desplazados internos no tienen bolsas activas dispuestas espacialmente. Curiosamente, el 80% de los desplazados internos sin objetivos (~4 docenas) sometidos a una caracterización estructural detallada mediante RMN poseen motivos lineales denominados PresMos (motivos preestructurados) [24] que son elementos estructurales secundarios transitorios preparados para el reconocimiento de objetivos. En varios casos se ha demostrado que estas estructuras transitorias se convierten en estructuras secundarias completas y estables, por ejemplo, hélices, tras la unión al objetivo. Por lo tanto, los PresMos son los supuestos sitios activos en los desplazados internos.
Muchas proteínas no estructuradas experimentan transiciones a estados más ordenados al unirse a sus objetivos (por ejemplo, características de reconocimiento molecular (MoRF) [25] ). El plegamiento y la unión acoplados pueden ser locales e implicar sólo unos pocos residuos que interactúan, o pueden implicar un dominio proteico completo. Recientemente se demostró que el plegado y la unión acoplados permiten enterrar una gran superficie que sólo sería posible para proteínas completamente estructuradas si fueran mucho más grandes. [26] Además, ciertas regiones desordenadas podrían servir como "interruptores moleculares" en la regulación de ciertas funciones biológicas al cambiar a una conformación ordenada tras el reconocimiento molecular, como la unión de moléculas pequeñas, la unión de ADN/ARN, las interacciones iónicas, etc.
La capacidad de las proteínas desordenadas para unirse y, por tanto, ejercer una función, muestra que la estabilidad no es una condición necesaria. Muchos sitios funcionales cortos, por ejemplo los motivos lineales cortos, están sobrerrepresentados en proteínas desordenadas. Las proteínas desordenadas y los motivos lineales cortos son particularmente abundantes en muchos virus de ARN como el virus Hendra , el VHC , el VIH-1 y los virus del papiloma humano . Esto permite a dichos virus superar sus genomas informativos limitados al facilitar la unión y manipulación de una gran cantidad de proteínas de la célula huésped . [28] [29]
Las proteínas intrínsecamente desordenadas pueden conservar su libertad conformacional incluso cuando se unen específicamente a otras proteínas. El desorden estructural en estado ligado puede ser estático o dinámico. En los complejos difusos se requiere multiplicidad estructural para la función y la manipulación de la región desordenada unida cambia la actividad. El conjunto conformacional del complejo se modula mediante modificaciones postraduccionales o interacciones proteicas. [30] La especificidad de las proteínas de unión al ADN a menudo depende de la longitud de las regiones borrosas, que varía mediante empalme alternativo. [31] Algunos complejos difusos pueden exhibir una alta afinidad de unión, [32] aunque otros estudios mostraron diferentes valores de afinidad para el mismo sistema en un régimen de concentración diferente. [33]
Las proteínas intrínsecamente desordenadas adaptan muchas estructuras diferentes in vivo según las condiciones de la célula, creando un conjunto estructural o conformacional. [34] [35]
Por tanto, sus estructuras están fuertemente relacionadas con las funciones. Sin embargo, sólo unas pocas proteínas están completamente desordenadas en su estado nativo. El trastorno se encuentra principalmente en regiones intrínsecamente desordenadas (IDR) dentro de una proteína que de otro modo estaría bien estructurada. Por lo tanto, el término proteína intrínsecamente desordenada (IDP) incluye proteínas que contienen IDR, así como proteínas completamente desordenadas.
La existencia y tipo de trastorno proteico está codificado en su secuencia de aminoácidos. [2] En general, los desplazados internos se caracterizan por un bajo contenido de aminoácidos hidrofóbicos voluminosos y una alta proporción de aminoácidos polares y cargados, generalmente denominados de baja hidrofobicidad. [34] Esta propiedad conduce a buenas interacciones con el agua. Además, las cargas netas elevadas promueven el desorden debido a la repulsión electrostática resultante de residuos igualmente cargados. [35] Por lo tanto, las secuencias desordenadas no pueden enterrar lo suficiente un núcleo hidrofóbico para plegarse en proteínas globulares estables. En algunos casos, los grupos hidrofóbicos en secuencias desordenadas proporcionan pistas para identificar las regiones que se someten a plegamiento y unión acoplados (consulte las funciones biológicas). Muchas proteínas desordenadas revelan regiones sin ninguna estructura secundaria regular. Estas regiones pueden denominarse flexibles, en comparación con los bucles estructurados. Mientras que estos últimos son rígidos y contienen sólo un conjunto de ángulos de Ramachandran, los IDP implican múltiples conjuntos de ángulos. [35] El término flexibilidad también se utiliza para proteínas bien estructuradas, pero describe un fenómeno diferente en el contexto de proteínas desordenadas. La flexibilidad en las proteínas estructuradas está ligada a un estado de equilibrio, mientras que no es así en los desplazados internos. [35] Muchas proteínas desordenadas también revelan secuencias de baja complejidad , es decir, secuencias con sobrerrepresentación de unos pocos residuos . Si bien las secuencias de baja complejidad son un fuerte indicio de desorden, lo contrario no es necesariamente cierto, es decir, no todas las proteínas desordenadas tienen secuencias de baja complejidad. Las proteínas desordenadas tienen un bajo contenido de estructura secundaria prevista .
Debido a la naturaleza desordenada de estas proteínas, se han desarrollado enfoques topológicos para buscar patrones conformacionales en su dinámica. Por ejemplo, se ha aplicado la topología de circuitos para rastrear la dinámica de dominios proteicos desordenados. [36] Al emplear un enfoque topológico, se pueden clasificar los motivos según su acumulación topológica y la escala de tiempo de su formación.
Los desplazados internos pueden validarse en varios contextos. La mayoría de los enfoques para la validación experimental de los desplazados internos se limitan a proteínas extraídas o purificadas, mientras que algunas estrategias experimentales nuevas tienen como objetivo explorar las conformaciones in vivo y las variaciones estructurales de los desplazados internos dentro de células vivas intactas y las comparaciones sistemáticas entre su dinámica in vivo e in vitro .
La primera evidencia directa de la persistencia in vivo del trastorno intrínseco se logró mediante RMN en las células tras la electroporación de un IDP purificado y la recuperación de las células a un estado intacto. [37]
Ahora es posible la validación in vivo a mayor escala de las predicciones IDR utilizando la "pintura" con biotina. [38] [39]
Las proteínas intrínsecamente desplegadas, una vez purificadas, pueden identificarse mediante diversos métodos experimentales. El método principal para obtener información sobre regiones desordenadas de una proteína es la espectroscopia de RMN . La falta de densidad electrónica en los estudios cristalográficos de rayos X también puede ser un signo de desorden.
Las proteínas plegadas tienen una alta densidad (volumen específico parcial de 0,72-0,74 ml/g) y un radio de giro proporcionalmente pequeño . Por lo tanto, las proteínas desplegadas pueden detectarse mediante métodos que son sensibles al tamaño molecular, la densidad o la resistencia hidrodinámica , como la cromatografía de exclusión por tamaño , la ultracentrifugación analítica , la dispersión de rayos X de ángulo pequeño (SAXS) y las mediciones de la constante de difusión . Las proteínas desplegadas también se caracterizan por su falta de estructura secundaria , según lo evaluado por dicroísmo circular en UV lejano (170-250 nm) (especialmente un mínimo pronunciado a ~200 nm) o espectroscopia infrarroja . Las proteínas desplegadas también tienen grupos peptídicos de la columna vertebral expuestos al disolvente, de modo que las proteasas las escinden fácilmente , experimentan un rápido intercambio de hidrógeno-deuterio y exhiben una pequeña dispersión (<1 ppm) en sus cambios químicos de 1H amida medidos por RMN . (Las proteínas plegadas suelen mostrar dispersiones de hasta 5 ppm para los protones de amida). Recientemente, se han introducido nuevos métodos, incluida la proteólisis paralela rápida (FASTpp) , que permiten determinar la fracción plegada/desordenada sin necesidad de purificación. [40] [41] Incluso diferencias sutiles en la estabilidad de las mutaciones sin sentido, la unión de proteínas asociadas y el plegamiento inducido por (auto)polimerización de (por ejemplo) espirales pueden detectarse usando FASTpp como se demostró recientemente usando la interacción de la proteína tropomiosina-troponina. [42] Las regiones proteicas completamente no estructuradas pueden validarse experimentalmente por su hipersusceptibilidad a la proteólisis utilizando tiempos de digestión cortos y bajas concentraciones de proteasa. [43]
Los métodos masivos para estudiar la estructura y dinámica del IDP incluyen SAXS para obtener información sobre la forma del conjunto, RMN para el refinamiento del conjunto atomístico, fluorescencia para visualizar interacciones moleculares y transiciones conformacionales, cristalografía de rayos X para resaltar regiones más móviles en cristales de proteínas que de otro modo serían rígidos, crio-EM para revelar partes menos fijadas de las proteínas, dispersión de luz para monitorear las distribuciones de tamaño de los desplazados internos o su cinética de agregación, cambio químico por RMN y dicroísmo circular para monitorear la estructura secundaria de los desplazados internos.
Los métodos de molécula única para estudiar los desplazados internos incluyen spFRET [44] para estudiar la flexibilidad conformacional de los desplazados internos y la cinética de las transiciones estructurales, pinzas ópticas [45] para obtener información de alta resolución sobre los conjuntos de desplazados internos y sus oligómeros o agregados, nanoporos [46] para revelar distribuciones de formas globales de los desplazados internos, pinzas magnéticas [47] para estudiar transiciones estructurales durante tiempos prolongados con fuerzas bajas, AFM de alta velocidad [48] para visualizar la flexibilidad espacio-temporal de los desplazados internos directamente.
El desorden intrínseco puede anotarse a partir de información experimental o predecirse con software especializado. Los algoritmos de predicción de trastornos pueden predecir la propensión al trastorno intrínseco (ID) con alta precisión (cerca del 80%) basándose en la composición de la secuencia primaria, la similitud con segmentos no asignados en conjuntos de datos de rayos X de proteínas, regiones flexibles en estudios de RMN y propiedades fisicoquímicas de los aminoácidos. .
Se han establecido bases de datos para anotar secuencias de proteínas con información sobre trastornos intrínsecos. La base de datos DisProt contiene una colección de segmentos de proteínas seleccionados manualmente que se ha determinado experimentalmente que están desordenados. MobiDB es una base de datos que combina anotaciones de trastornos seleccionadas experimentalmente (por ejemplo, de DisProt) con datos derivados de residuos faltantes en estructuras cristalográficas de rayos X y regiones flexibles en estructuras de RMN.
Separar proteínas desordenadas de ordenadas es esencial para la predicción de trastornos. Uno de los primeros pasos para encontrar un factor que distinga a los desplazados internos de los no desplazados es especificar sesgos dentro de la composición de aminoácidos. Los siguientes aminoácidos cargados hidrófilos A, R, G, Q, S, P, E y K se han caracterizado como aminoácidos promotores de desorden, mientras que los aminoácidos promotores de orden W, C, F, I, Y, V, L y N son hidrófobos y no tienen carga. Los aminoácidos restantes H, M, T y D son ambiguos y se encuentran tanto en regiones ordenadas como no estructuradas. [2] Un análisis más reciente clasificó los aminoácidos según su propensión a formar regiones desordenadas de la siguiente manera (orden que promueve el desorden): W, F, Y, I, M, L, V, N, C, T, A, G. , R, D, H, Q, K, S, E, P. [49] Como se puede ver en la lista, los residuos pequeños, cargados e hidrofílicos a menudo promueven el desorden, mientras que los residuos grandes e hidrofóbicos promueven el orden.
Esta información es la base de la mayoría de los predictores basados en secuencias. Las regiones con poca o ninguna estructura secundaria, también conocidas como regiones NORS (sin estructura secundaria regular), [50] y regiones de baja complejidad, se pueden detectar fácilmente. Sin embargo, no todas las proteínas desordenadas contienen secuencias de tan baja complejidad.
La determinación de regiones desordenadas mediante métodos bioquímicos es muy costosa y requiere mucho tiempo. Debido a la naturaleza variable de los desplazados internos, sólo se pueden detectar ciertos aspectos de su estructura, por lo que una caracterización completa requiere una gran cantidad de métodos y experimentos diferentes. Esto aumenta aún más el costo de la determinación de los desplazados internos. Para superar este obstáculo, se crean métodos informáticos para predecir la estructura y función de las proteínas. Uno de los principales objetivos de la bioinformática es obtener conocimiento mediante predicción. También se están desarrollando predictores de la función IDP, pero utilizan principalmente información estructural, como sitios de motivos lineales. [4] [51] Existen diferentes enfoques para predecir la estructura del IDP, como redes neuronales o cálculos matriciales, basados en diferentes propiedades estructurales y/o biofísicas.
Muchos métodos computacionales explotan la información de la secuencia para predecir si una proteína está desordenada. [52] Ejemplos notables de dicho software incluyen IUPRED y Disopred. Diferentes métodos pueden utilizar diferentes definiciones de trastorno. Los metapredictores muestran un nuevo concepto, que combina diferentes predictores primarios para crear un predictor más competente y exacto.
Debido a los diferentes enfoques para predecir proteínas desordenadas, estimar su precisión relativa es bastante difícil. Por ejemplo, las redes neuronales suelen entrenarse en diferentes conjuntos de datos. La categoría de predicción de desorden es parte del experimento CASP bianual que está diseñado para probar métodos según la precisión en la búsqueda de regiones a las que les falta una estructura 3D (marcadas en archivos PDB como REMARK465, densidades de electrones faltantes en estructuras de rayos X).
Las proteínas intrínsecamente no estructuradas han sido implicadas en una serie de enfermedades. [13] La agregación de proteínas mal plegadas es la causa de muchas sinucleinopatías y toxicidad, ya que esas proteínas comienzan a unirse entre sí de forma aleatoria y pueden provocar cáncer o enfermedades cardiovasculares. Por lo tanto, el plegamiento incorrecto puede ocurrir espontáneamente porque se producen millones de copias de proteínas durante la vida de un organismo. Se cree que la responsable es la agregación de la proteína α-sinucleína intrínsecamente no estructurada. La flexibilidad estructural de esta proteína junto con su susceptibilidad a la modificación en la célula conduce a un plegamiento incorrecto y agregación. La genética, el estrés oxidativo y nitrativo, así como el deterioro mitocondrial, afectan la flexibilidad estructural de la proteína α-sinucleína no estructurada y los mecanismos de enfermedad asociados. [53] Muchos supresores de tumores clave tienen grandes regiones intrínsecamente no estructuradas, por ejemplo, p53 y BRCA1. Estas regiones de las proteínas son responsables de mediar en muchas de sus interacciones. Tomando como modelo los mecanismos de defensa nativos de la célula, se pueden desarrollar fármacos que intenten bloquear el lugar de los sustratos nocivos e inhibirlos, y así contrarrestar la enfermedad. [54]
Debido a la alta heterogeneidad estructural, los parámetros experimentales de NMR/SAXS obtenidos serán un promedio de un gran número de estados muy diversos y desordenados (un conjunto de estados desordenados). Por lo tanto, para comprender las implicaciones estructurales de estos parámetros experimentales, es necesaria una representación precisa de estos conjuntos mediante simulaciones por computadora. Para este propósito se pueden utilizar simulaciones de dinámica molecular de todos los átomos, pero su uso está limitado por la precisión de los campos de fuerza actuales para representar proteínas desordenadas. Sin embargo, algunos campos de fuerza se han desarrollado explícitamente para estudiar proteínas desordenadas optimizando los parámetros del campo de fuerza utilizando datos de RMN disponibles para proteínas desordenadas. (Ejemplos son CHARMM 22*, CHARMM 32, [56] Ámbar ff03*, etc.)
También se han utilizado simulaciones de MD restringidas por parámetros experimentales (MD restringida) para caracterizar proteínas desordenadas. [57] [58] [59] En principio, se puede muestrear todo el espacio conformacional si se ejecuta una simulación MD (con un campo de fuerza preciso) durante el tiempo suficiente. Debido a la muy alta heterogeneidad estructural, las escalas de tiempo que deben ejecutarse para este propósito son muy grandes y están limitadas por el poder computacional. Sin embargo, otras técnicas computacionales como las simulaciones MD aceleradas, [60] simulaciones de intercambio de réplicas , [61]
[62] metadinámica , [63] [64] simulaciones MD multicanónicas , [65] o métodos que utilizan representación de grano grueso con solventes implícitos y explícitos [66] [67] [68] se han utilizado para muestrear un espacio conformacional más amplio en un tiempo más corto. escamas.
Además, para comprender los segmentos funcionales de los desplazados internos se han utilizado varios protocolos y métodos de análisis de los desplazados internos, como estudios basados en el análisis cuantitativo del contenido de GC en genes y sus respectivas bandas cromosómicas. [69] [70]