En biología molecular , una proteína intrínsecamente desordenada ( IDP ) es una proteína que carece de una estructura tridimensional fija u ordenada , [2] [3] [4] típicamente en ausencia de sus socios de interacción macromolecular , como otras proteínas o ARN . Las IDP varían desde completamente desestructuradas a parcialmente estructuradas e incluyen espirales aleatorias , agregados similares a glóbulos fundidos o enlaces flexibles en proteínas grandes de múltiples dominios . A veces se las considera como una clase separada de proteínas junto con las proteínas globulares , fibrosas y de membrana . [5]
Las IDP son una clase de proteínas muy grande y funcionalmente importante y su descubrimiento ha refutado la idea de que las estructuras tridimensionales de las proteínas deben ser fijas para cumplir sus funciones biológicas . Por ejemplo, se ha identificado que las IDP participan en interacciones multivalentes débiles que son altamente cooperativas y dinámicas, lo que les otorga importancia en la regulación del ADN y en la señalización celular . [6] [7] Muchas IDP también pueden adoptar una estructura tridimensional fija después de unirse a otras macromoléculas. En general, las IDP son diferentes de las proteínas estructuradas en muchos sentidos y tienden a tener una función, estructura, secuencia , interacciones, evolución y regulación distintivas. [8]
En los años 1930-1950, las primeras estructuras de proteínas fueron resueltas por cristalografía de proteínas . Estas estructuras tempranas sugirieron que una estructura tridimensional fija podría ser generalmente necesaria para mediar las funciones biológicas de las proteínas. Estas publicaciones solidificaron el dogma central de la biología molecular en el que la secuencia de aminoácidos de una proteína determina su estructura que, a su vez, determina su función. En 1950, Karush escribió sobre "Adaptabilidad configuracional" contradiciendo esta suposición. Estaba convencido de que las proteínas tienen más de una configuración en el mismo nivel de energía y pueden elegir una cuando se unen a otros sustratos. En la década de 1960, la paradoja de Levinthal sugirió que la búsqueda conformacional sistemática de un polipéptido largo es poco probable que produzca una única estructura de proteína plegada en escalas de tiempo biológicamente relevantes (es decir, microsegundos a minutos). Curiosamente, para muchas proteínas (pequeñas) o dominios proteicos, se puede observar un replegamiento relativamente rápido y eficiente in vitro. Como se afirma en el Dogma de Anfinsen de 1973, la estructura 3D fija de estas proteínas está codificada de forma única en su estructura primaria (la secuencia de aminoácidos), es cinéticamente accesible y estable en un rango de condiciones (casi) fisiológicas y, por lo tanto, puede considerarse como el estado nativo de dichas proteínas "ordenadas". [10]
Sin embargo, durante las décadas siguientes, muchas regiones proteínicas de gran tamaño no pudieron asignarse en los conjuntos de datos de rayos X, lo que indica que ocupan posiciones múltiples, que se promedian en los mapas de densidad electrónica . La falta de posiciones fijas y únicas en relación con la red cristalina sugería que estas regiones estaban "desordenadas". La espectroscopia de resonancia magnética nuclear de proteínas también demostró la presencia de grandes enlaces y extremos flexibles en muchos conjuntos estructurales resueltos.
En 2001, Dunker cuestionó si la información recién encontrada fue ignorada durante 50 años [11] y si en la década de 2000 se dispuso de más análisis cuantitativos. [12] En la década de 2010 quedó claro que las IDP son comunes entre las proteínas relacionadas con enfermedades, como la alfa-sinucleína y la tau . [13]
En la actualidad, se acepta generalmente que las proteínas existen como un conjunto de estructuras similares con algunas regiones más limitadas que otras. Los IDP ocupan el extremo de este espectro de flexibilidad e incluyen proteínas con una considerable tendencia a la estructura local o conjuntos multidominio flexibles. [14] [15]
El desorden intrínseco es particularmente elevado entre las proteínas que regulan la cromatina y la transcripción, [16] y las predicciones bioinformáticas indican que es más común en genomas y proteomas que en estructuras conocidas en la base de datos de proteínas . Según la predicción de DISOPRED2, los segmentos desordenados largos (>30 residuos) ocurren en el 2,0 % de las proteínas arqueanas, el 4,2 % de las eubacterianas y el 33,0 % de las eucariotas, [12] incluidas ciertas proteínas relacionadas con enfermedades. [13]
Las regiones desordenadas altamente dinámicas de proteínas se han vinculado a fenómenos funcionalmente importantes como la regulación alostérica y la catálisis enzimática . [14] [15] Muchas proteínas desordenadas tienen la afinidad de unión con sus receptores regulada por modificación postraduccional , por lo que se ha propuesto que la flexibilidad de las proteínas desordenadas facilita los diferentes requisitos conformacionales para la unión de las enzimas modificadoras, así como sus receptores. [17] El desorden intrínseco está particularmente enriquecido en proteínas implicadas en la señalización celular y la transcripción, [16] así como en las funciones de remodelación de la cromatina . [18] [19] Los genes que han nacido recientemente de novo tienden a tener un mayor desorden. [20] [21] En los animales, los genes con alto desorden se pierden a tasas más altas durante la evolución. [22]
Las regiones desordenadas se encuentran a menudo como enlaces flexibles o bucles que conectan dominios. Las secuencias de enlaces varían mucho en longitud, pero normalmente son ricas en aminoácidos polares sin carga . Los enlaces flexibles permiten que los dominios de conexión se tuerzan y roten libremente para reclutar a sus socios de unión a través de la dinámica del dominio de la proteína . También permiten que sus socios de unión induzcan cambios conformacionales a mayor escala mediante alosterio de largo alcance . [14] [2] El enlace flexible de FBP25 que conecta dos dominios de FKBP25 es importante para la unión de FKBP25 con el ADN. [23]
Los motivos lineales son segmentos cortos y desordenados de proteínas que median interacciones funcionales con otras proteínas u otras biomoléculas (ARN, ADN, azúcares, etc.). [16] Muchas funciones de los motivos lineales están asociadas con la regulación celular, por ejemplo, en el control de la forma celular, la localización subcelular de proteínas individuales y la regulación del recambio proteico. A menudo, las modificaciones postraduccionales, como la fosforilación, ajustan la afinidad (no pocas veces en varios órdenes de magnitud) de los motivos lineales individuales para interacciones específicas. La evolución relativamente rápida y un número relativamente pequeño de restricciones estructurales para establecer interfaces nuevas (de baja afinidad) hacen que sea particularmente difícil detectar motivos lineales, pero sus funciones biológicas generalizadas y el hecho de que muchos virus imiten o secuestren motivos lineales para recodificar de manera eficiente las células infectadas subrayan la urgencia oportuna de la investigación sobre este tema tan desafiante y apasionante.
A diferencia de las proteínas globulares, las IDP no tienen bolsillos activos dispuestos espacialmente. Curiosamente, el 80 % de las IDP no unidas al objetivo (aproximadamente 4 docenas) sometidas a una caracterización estructural detallada por RMN poseen motivos lineales denominados PresMos (motivos preestructurados) [24] que son elementos estructurales secundarios transitorios preparados para el reconocimiento del objetivo. En varios casos se ha demostrado que estas estructuras transitorias se convierten en estructuras secundarias completas y estables, por ejemplo, hélices, tras la unión al objetivo. Por lo tanto, los PresMos son los supuestos sitios activos en las IDP.
Muchas proteínas no estructuradas experimentan transiciones a estados más ordenados al unirse a sus objetivos (por ejemplo, las características de reconocimiento molecular (MoRF) [25] ). El plegamiento y la unión acoplados pueden ser locales, involucrando solo unos pocos residuos interactuantes, o pueden involucrar un dominio proteico completo. Recientemente se demostró que el plegamiento y la unión acoplados permiten el enterramiento de una gran área de superficie que solo sería posible para proteínas completamente estructuradas si fueran mucho más grandes. [26] Además, ciertas regiones desordenadas podrían servir como "interruptores moleculares" en la regulación de ciertas funciones biológicas al cambiar a una conformación ordenada tras el reconocimiento molecular, como la unión de moléculas pequeñas, la unión de ADN/ARN, las interacciones iónicas, etc. [27]
La capacidad de las proteínas desordenadas de unirse y, por lo tanto, de ejercer una función, muestra que la estabilidad no es una condición necesaria. Muchos sitios funcionales cortos, por ejemplo, los motivos lineales cortos, están sobrerrepresentados en las proteínas desordenadas. Las proteínas desordenadas y los motivos lineales cortos son particularmente abundantes en muchos virus de ARN, como el virus Hendra , el VHC , el VIH-1 y los virus del papiloma humano . Esto permite que dichos virus superen sus genomas limitados en información al facilitar la unión y la manipulación de una gran cantidad de proteínas de la célula huésped . [28] [29]
Las proteínas intrínsecamente desordenadas pueden conservar su libertad conformacional incluso cuando se unen específicamente a otras proteínas. El desorden estructural en estado unido puede ser estático o dinámico. En los complejos difusos, se requiere multiplicidad estructural para la función y la manipulación de la región desordenada unida cambia la actividad. El conjunto conformacional del complejo se modula mediante modificaciones postraduccionales o interacciones proteicas. [30] La especificidad de las proteínas de unión al ADN a menudo depende de la longitud de las regiones difusas, que varía mediante el empalme alternativo. [31] Algunos complejos difusos pueden exhibir alta afinidad de unión, [32] aunque otros estudios mostraron diferentes valores de afinidad para el mismo sistema en un régimen de concentración diferente. [33]
Las proteínas intrínsecamente desordenadas adaptan muchas estructuras diferentes in vivo según las condiciones de la célula, creando un conjunto estructural o conformacional. [34] [35]
Por lo tanto, sus estructuras están fuertemente relacionadas con su función. Sin embargo, solo unas pocas proteínas están completamente desordenadas en su estado nativo. El desorden se encuentra principalmente en regiones intrínsecamente desordenadas (IDR) dentro de una proteína que, por lo demás, está bien estructurada. Por lo tanto, el término proteína intrínsecamente desordenada (IDP) incluye proteínas que contienen IDR, así como proteínas completamente desordenadas.
La existencia y el tipo de desorden de la proteína están codificados en su secuencia de aminoácidos. [2] En general, los IDP se caracterizan por un bajo contenido de aminoácidos hidrofóbicos voluminosos y una alta proporción de aminoácidos polares y cargados, generalmente denominados baja hidrofobicidad. [34] Esta propiedad conduce a buenas interacciones con el agua. Además, las altas cargas netas promueven el desorden debido a la repulsión electrostática resultante de residuos igualmente cargados. [35] Por lo tanto, las secuencias desordenadas no pueden enterrar lo suficiente un núcleo hidrofóbico para plegarse en proteínas globulares estables. En algunos casos, los grupos hidrofóbicos en secuencias desordenadas proporcionan las pistas para identificar las regiones que experimentan un plegamiento y unión acoplados (consulte los roles biológicos). Muchas proteínas desordenadas revelan regiones sin ninguna estructura secundaria regular. Estas regiones pueden denominarse flexibles, en comparación con los bucles estructurados. Mientras que estos últimos son rígidos y contienen solo un conjunto de ángulos de Ramachandran, los IDP involucran múltiples conjuntos de ángulos. [35] El término flexibilidad también se utiliza para proteínas bien estructuradas, pero describe un fenómeno diferente en el contexto de las proteínas desordenadas. La flexibilidad en las proteínas estructuradas está ligada a un estado de equilibrio, mientras que no es así en las IDP. [35] Muchas proteínas desordenadas también revelan secuencias de baja complejidad , es decir, secuencias con sobrerrepresentación de unos pocos residuos . Si bien las secuencias de baja complejidad son un fuerte indicio de desorden, lo inverso no es necesariamente cierto, es decir, no todas las proteínas desordenadas tienen secuencias de baja complejidad. Las proteínas desordenadas tienen un bajo contenido de estructura secundaria predicha .
Debido a la naturaleza desordenada de estas proteínas, se han desarrollado enfoques topológicos para buscar patrones conformacionales en su dinámica. Por ejemplo, se ha aplicado la topología de circuitos para rastrear la dinámica de dominios proteicos desordenados. [36] Al emplear un enfoque topológico, se pueden categorizar los motivos según su estructura topológica y la escala temporal de su formación.
Los IDP se pueden validar en varios contextos. La mayoría de los enfoques para la validación experimental de los IDP se limitan a proteínas extraídas o purificadas, mientras que algunas nuevas estrategias experimentales apuntan a explorar las conformaciones in vivo y las variaciones estructurales de los IDP dentro de células vivas intactas y las comparaciones sistemáticas entre su dinámica in vivo e in vitro .
La primera evidencia directa de la persistencia in vivo del trastorno intrínseco se ha logrado mediante RMN en células tras la electroporación de un IDP purificado y la recuperación de las células a un estado intacto. [37]
Ahora es posible una validación in vivo a mayor escala de las predicciones de IDR utilizando "pintura" con biotina. [38] [39]
Las proteínas intrínsecamente desplegadas, una vez purificadas, pueden identificarse mediante diversos métodos experimentales. El método principal para obtener información sobre las regiones desordenadas de una proteína es la espectroscopia de RMN . La falta de densidad electrónica en los estudios cristalográficos de rayos X también puede ser un signo de desorden.
Las proteínas plegadas tienen una alta densidad (volumen específico parcial de 0,72-0,74 mL/g) y un radio de giro proporcionalmente pequeño . Por lo tanto, las proteínas desplegadas se pueden detectar mediante métodos sensibles al tamaño molecular, la densidad o la resistencia hidrodinámica , como la cromatografía de exclusión por tamaño , la ultracentrifugación analítica , la dispersión de rayos X de ángulo pequeño (SAXS) y las mediciones de la constante de difusión . Las proteínas desplegadas también se caracterizan por su falta de estructura secundaria , como se evalúa mediante dicroísmo circular de UV lejano (170-250 nm) (especialmente un mínimo pronunciado a ~200 nm) o espectroscopia infrarroja . Las proteínas desplegadas también tienen grupos peptídicos de la cadena principal expuestos al disolvente, de modo que se escinden fácilmente por proteasas , experimentan un rápido intercambio de hidrógeno-deuterio y exhiben una pequeña dispersión (<1 ppm) en sus desplazamientos químicos de amida 1H medidos por RMN . (Las proteínas plegadas suelen mostrar dispersiones de hasta 5 ppm para los protones amida). Recientemente, se han introducido nuevos métodos, incluida la proteólisis paralela rápida (FASTpp) , que permiten determinar la fracción plegada/desordenada sin necesidad de purificación. [40] [41] Incluso las diferencias sutiles en la estabilidad de las mutaciones sin sentido, la unión de proteínas asociadas y el plegamiento inducido por (auto)polimerización de (por ejemplo) supercoils se pueden detectar utilizando FASTpp, como se demostró recientemente utilizando la interacción proteína tropomiosina-troponina. [42] Las regiones proteicas completamente desestructuradas se pueden validar experimentalmente por su hipersusceptibilidad a la proteólisis utilizando tiempos de digestión cortos y bajas concentraciones de proteasa. [43]
Los métodos masivos para estudiar la estructura y dinámica de los IDP incluyen SAXS para obtener información sobre la forma del conjunto, RMN para el refinamiento atomístico del conjunto, fluorescencia para visualizar interacciones moleculares y transiciones conformacionales, cristalografía de rayos X para resaltar regiones más móviles en cristales de proteínas que de otro modo serían rígidos, crio-EM para revelar partes menos fijas de proteínas, dispersión de luz para monitorear las distribuciones de tamaño de los IDP o su cinética de agregación, desplazamiento químico de RMN y dicroísmo circular para monitorear la estructura secundaria de los IDP.
Los métodos de molécula única para estudiar los IDP incluyen spFRET [44] para estudiar la flexibilidad conformacional de los IDP y la cinética de las transiciones estructurales, pinzas ópticas [45] para obtener información de alta resolución sobre los conjuntos de IDP y sus oligómeros o agregados, nanoporos [46] para revelar distribuciones de formas globales de los IDP, pinzas magnéticas [47] para estudiar las transiciones estructurales durante tiempos prolongados con fuerzas bajas, AFM de alta velocidad [48] para visualizar la flexibilidad espaciotemporal de los IDP directamente.
El trastorno intrínseco se puede anotar a partir de información experimental o predecir con software especializado. Los algoritmos de predicción de trastornos pueden predecir la propensión al trastorno intrínseco (DI) con gran precisión (aproximadamente el 80 %) en función de la composición de la secuencia primaria, la similitud con segmentos no asignados en conjuntos de datos de rayos X de proteínas, regiones flexibles en estudios de RMN y propiedades fisicoquímicas de los aminoácidos.
Se han creado bases de datos para anotar secuencias de proteínas con información intrínseca sobre trastornos. La base de datos DisProt contiene una colección de segmentos de proteínas seleccionados manualmente que se ha determinado experimentalmente que están desordenados. MobiDB es una base de datos que combina anotaciones de trastornos seleccionadas experimentalmente (por ejemplo, de DisProt) con datos derivados de residuos faltantes en estructuras cristalográficas de rayos X y regiones flexibles en estructuras de RMN.
La separación de las proteínas desordenadas de las ordenadas es esencial para la predicción del desorden. Uno de los primeros pasos para encontrar un factor que distinga a las proteínas IDP de las que no lo son es especificar los sesgos dentro de la composición de aminoácidos. Los siguientes aminoácidos hidrofílicos y cargados A, R, G, Q, S, P, E y K se han caracterizado como aminoácidos promotores del desorden, mientras que los aminoácidos promotores del orden W, C, F, I, Y, V, L y N son hidrofóbicos y no tienen carga. Los aminoácidos restantes H, M, T y D son ambiguos y se encuentran tanto en regiones ordenadas como no estructuradas. [2] Un análisis más reciente clasificó los aminoácidos por su propensión a formar regiones desordenadas de la siguiente manera (de promotores de orden a promotores de desorden): W, F, Y, I, M, L, V, N, C, T, A, G, R, D, H, Q, K, S, E, P. [49] Como se puede ver en la lista, los residuos pequeños, cargados e hidrófilos a menudo promueven el desorden, mientras que los residuos grandes e hidrófobos promueven el orden.
Esta información es la base de la mayoría de los predictores basados en secuencias. Las regiones con poca o ninguna estructura secundaria, también conocidas como regiones NORS (NO Regular Secondary Structure), [50] y las regiones de baja complejidad se pueden detectar fácilmente. Sin embargo, no todas las proteínas desordenadas contienen secuencias de complejidad tan baja.
La determinación de regiones desordenadas a partir de métodos bioquímicos es muy costosa y requiere mucho tiempo. Debido a la naturaleza variable de los IDP, solo se pueden detectar ciertos aspectos de su estructura, por lo que una caracterización completa requiere una gran cantidad de métodos y experimentos diferentes. Esto aumenta aún más el costo de la determinación de IDP. Para superar este obstáculo, se crean métodos basados en computadora para predecir la estructura y la función de las proteínas. Uno de los principales objetivos de la bioinformática es derivar conocimiento mediante predicción. También se están desarrollando predictores de la función de IDP, pero principalmente utilizan información estructural como sitios de motivos lineales. [4] [51] Existen diferentes enfoques para predecir la estructura de IDP, como redes neuronales o cálculos matriciales, basados en diferentes propiedades estructurales y/o biofísicas.
Muchos métodos computacionales explotan la información de secuencias para predecir si una proteína está desordenada. [52] Ejemplos notables de este tipo de software incluyen IUPRED y Disopred. Diferentes métodos pueden utilizar diferentes definiciones de desorden. Los metapredictores muestran un nuevo concepto, combinando diferentes predictores primarios para crear un predictor más competente y exacto.
Debido a los diferentes enfoques para predecir proteínas desordenadas, estimar su precisión relativa es bastante difícil. Por ejemplo, las redes neuronales suelen entrenarse con diferentes conjuntos de datos. La categoría de predicción de desorden es parte de un experimento bianual CASP que está diseñado para probar métodos según la precisión en la búsqueda de regiones con estructura 3D faltante (marcadas en archivos PDB como REMARK465, densidades electrónicas faltantes en estructuras de rayos X).
Las proteínas intrínsecamente no estructuradas se han relacionado con varias enfermedades. [13] La agregación de proteínas mal plegadas es la causa de muchas sinucleinopatías y toxicidad, ya que esas proteínas comienzan a unirse entre sí de forma aleatoria y pueden provocar cáncer o enfermedades cardiovasculares. Por lo tanto, el plegamiento incorrecto puede ocurrir de forma espontánea porque se crean millones de copias de proteínas durante la vida de un organismo. Se cree que la agregación de la proteína intrínsecamente no estructurada α-sinucleína es la responsable. La flexibilidad estructural de esta proteína junto con su susceptibilidad a la modificación en la célula conduce al plegamiento incorrecto y la agregación. La genética, el estrés oxidativo y nitrativo, así como el deterioro mitocondrial, afectan la flexibilidad estructural de la proteína α-sinucleína no estructurada y los mecanismos patológicos asociados. [53] Muchos supresores tumorales clave tienen grandes regiones intrínsecamente no estructuradas, por ejemplo p53 y BRCA1. Estas regiones de las proteínas son responsables de mediar muchas de sus interacciones. Tomando como modelo los mecanismos de defensa nativos de la célula se pueden desarrollar fármacos que intenten bloquear la presencia de sustratos nocivos e inhibirlos, contrarrestando así la enfermedad. [54]
Debido a la alta heterogeneidad estructural, los parámetros experimentales de RMN/SAXS obtenidos serán un promedio de un gran número de estados altamente diversos y desordenados (un conjunto de estados desordenados). Por lo tanto, para comprender las implicaciones estructurales de estos parámetros experimentales, existe la necesidad de una representación precisa de estos conjuntos mediante simulaciones por computadora. Las simulaciones de dinámica molecular de todos los átomos se pueden utilizar para este propósito, pero su uso está limitado por la precisión de los campos de fuerza actuales para representar proteínas desordenadas. Sin embargo, algunos campos de fuerza se han desarrollado explícitamente para estudiar proteínas desordenadas mediante la optimización de los parámetros de campo de fuerza utilizando datos de RMN disponibles para proteínas desordenadas (algunos ejemplos son CHARMM 22*, CHARMM 32, [56] Amber ff03*, etc.) .
Las simulaciones MD restringidas por parámetros experimentales (MD restringida) también se han utilizado para caracterizar proteínas desordenadas. [57] [58] [59] En principio, se puede muestrear todo el espacio conformacional si se ejecuta una simulación MD (con un campo de fuerza preciso) durante el tiempo suficiente. Debido a la heterogeneidad estructural muy alta, las escalas de tiempo que se deben ejecutar para este propósito son muy grandes y están limitadas por la potencia computacional. Sin embargo, otras técnicas computacionales como las simulaciones MD aceleradas, [60] simulaciones de intercambio de réplicas , [61]
[62] metadinámica , [63] [64] simulaciones MD multicanónicas , [65] o métodos que utilizan representación de grano grueso con solventes implícitos y explícitos [66] [67] [68] se han utilizado para muestrear un espacio conformacional más amplio en escalas de tiempo más pequeñas.
Además, se han utilizado diversos protocolos y métodos de análisis de IDP, como estudios basados en el análisis cuantitativo del contenido de GC en los genes y sus respectivas bandas cromosómicas, para comprender los segmentos funcionales de IDP. [69] [70]