Predicción de la estructura de las proteínas

Los aminoácidos constituyentes se pueden analizar para predecir la estructura secundaria, terciaria y cuaternaria de las proteínas.

La predicción de la estructura de proteínas es la inferencia de la estructura tridimensional de una proteína a partir de su secuencia de aminoácidos , es decir, la predicción de su estructura secundaria y terciaria a partir de la estructura primaria . La predicción de la estructura es diferente del problema inverso del diseño de proteínas . La predicción de la estructura de proteínas es uno de los objetivos más importantes que persigue la biología computacional ; es importante en medicina (por ejemplo, en el diseño de fármacos ) y biotecnología (por ejemplo, en el diseño de nuevas enzimas ).

Desde 1994, el rendimiento de los métodos actuales se evalúa dos veces al año en el experimento de Evaluación crítica de la predicción de la estructura ( CASP ). El proyecto comunitario Continuous Automated Model EvaluatiOn ( CAMEO3D ) lleva a cabo una evaluación continua de los servidores web de predicción de la estructura de proteínas .

Estructura y terminología de las proteínas

Las proteínas son cadenas de aminoácidos unidas entre sí por enlaces peptídicos . Muchas conformaciones de esta cadena son posibles debido a la rotación de la cadena principal alrededor de los dos ángulos de torsión φ y ψ en el átomo Cα (ver figura). Esta flexibilidad conformacional es responsable de las diferencias en la estructura tridimensional de las proteínas. Los enlaces peptídicos en la cadena son polares, es decir, tienen cargas positivas y negativas separadas (cargas parciales) en el grupo carbonilo , que puede actuar como aceptor de enlaces de hidrógeno y en el grupo NH, que puede actuar como donante de enlaces de hidrógeno. Por lo tanto, estos grupos pueden interactuar en la estructura de la proteína. Las proteínas constan principalmente de 20 tipos diferentes de L-α-aminoácidos (los aminoácidos proteinogénicos ). Estos se pueden clasificar según la química de la cadena lateral, que también juega un papel estructural importante. La glicina ocupa una posición especial, ya que tiene la cadena lateral más pequeña, solo un átomo de hidrógeno, y por lo tanto puede aumentar la flexibilidad local en la estructura de la proteína. La cisteína , por el contrario, puede reaccionar con otro residuo de cisteína para formar una cistina y así formar un enlace cruzado que estabiliza toda la estructura.

La estructura de la proteína puede considerarse como una secuencia de elementos estructurales secundarios, como hélices α y láminas β . En estas estructuras secundarias, se forman patrones regulares de enlaces de hidrógeno entre los grupos NH y CO de la cadena principal de aminoácidos espacialmente vecinos, y los aminoácidos tienen ángulos Φ y ψ similares . ^[1]

Ángulos de torsión φ y ψ de la cadena principal de la proteína

La formación de estas estructuras secundarias satisface de manera eficiente las capacidades de unión de hidrógeno de los enlaces peptídicos. Las estructuras secundarias pueden estar compactadas en el núcleo de la proteína en un entorno hidrofóbico, pero también pueden estar presentes en la superficie polar de la proteína. Cada cadena lateral de aminoácido tiene un volumen limitado que ocupar y un número limitado de posibles interacciones con otras cadenas laterales cercanas, una situación que debe tenerse en cuenta en el modelado molecular y los alineamientos. ^[2]^[3]

hélice α

La hélice α es el tipo de estructura secundaria más abundante en las proteínas. La hélice α tiene 3,6 aminoácidos por vuelta con un enlace de hidrógeno formado entre cada cuarto residuo; la longitud media es de 10 aminoácidos (3 vueltas) o 10 Å , pero varía de 5 a 40 (1,5 a 11 vueltas). La alineación de los enlaces de hidrógeno crea un momento dipolar para la hélice con una carga positiva parcial resultante en el extremo amino de la hélice. Debido a que esta región tiene grupos NH2 libres , interactuará con grupos cargados negativamente, como los fosfatos. La ubicación más común de las hélices α es en la superficie de los núcleos de las proteínas, donde proporcionan una interfaz con el entorno acuoso. El lado interno de la hélice tiende a tener aminoácidos hidrófobos y el lado externo, aminoácidos hidrófilos. Por lo tanto, cada tercio de los cuatro aminoácidos a lo largo de la cadena tenderá a ser hidrófobo, un patrón que se puede detectar con bastante facilidad. En el motivo de la cremallera de leucina, un patrón repetitivo de leucinas en los lados enfrentados de dos hélices adyacentes es altamente predictivo del motivo. Se puede utilizar un gráfico de rueda helicoidal para mostrar este patrón repetido. Otras hélices α enterradas en el núcleo de la proteína o en las membranas celulares tienen una distribución más alta y más regular de aminoácidos hidrofóbicos, y son altamente predictivas de tales estructuras. Las hélices expuestas en la superficie tienen una menor proporción de aminoácidos hidrofóbicos. El contenido de aminoácidos puede predecir una región α-helicoidal. Las regiones más ricas en alanina (A), ácido glutámico (E), leucina (L) y metionina (M) y más pobres en prolina (P), glicina (G), tirosina (Y) y serina (S) tienden a formar una hélice α. La prolina desestabiliza o rompe una hélice α, pero puede estar presente en hélices más largas, formando una curva.

lámina β

Las láminas β se forman mediante enlaces de hidrógeno entre un promedio de 5 a 10 aminoácidos consecutivos en una porción de la cadena con otros 5 a 10 más abajo en la cadena. Las regiones que interactúan pueden ser adyacentes, con un bucle corto en el medio, o muy separadas, con otras estructuras en el medio. Cada cadena puede correr en la misma dirección para formar una lámina paralela, cada otra cadena puede correr en la dirección química inversa para formar una lámina antiparalela, o las cadenas pueden ser paralelas y antiparalelas para formar una lámina mixta. El patrón de enlaces de hidrógeno es diferente en las configuraciones paralela y antiparalela. Cada aminoácido en las hebras interiores de la lámina forma dos enlaces de hidrógeno con aminoácidos vecinos, mientras que cada aminoácido en las hebras externas forma solo un enlace con una hebra interior. Mirando a través de la lámina en ángulo recto con las hebras, las hebras más distantes están rotadas ligeramente en sentido antihorario para formar un giro hacia la izquierda. Los átomos de Cα se alternan por encima y por debajo de la lámina en una estructura plegada, y los grupos laterales R de los aminoácidos se alternan por encima y por debajo de los pliegues. Los ángulos Φ y Ψ de los aminoácidos en láminas varían considerablemente en una región del diagrama de Ramachandran . Es más difícil predecir la ubicación de las láminas β que de las hélices α. La situación mejora un poco cuando se tiene en cuenta la variación de aminoácidos en alineaciones de secuencias múltiples.

Bucles

Algunas partes de la proteína tienen una estructura tridimensional fija, pero no forman estructuras regulares. No deben confundirse con segmentos desordenados o desdoblados de proteínas o con espirales aleatorias , una cadena polipeptídica desdoblada que carece de una estructura tridimensional fija. Estas partes se denominan con frecuencia "bucles" porque conectan láminas β y hélices α. Los bucles suelen estar ubicados en la superficie de la proteína y, por lo tanto, las mutaciones de sus residuos se toleran más fácilmente. Tener más sustituciones, inserciones y deleciones en una determinada región de una alineación de secuencias puede ser una indicación de un bucle. Las posiciones de los intrones en el ADN genómico pueden correlacionarse con las ubicaciones de los bucles en la proteína codificada ^{[ cita requerida ]} . Los bucles también tienden a tener aminoácidos cargados y polares y con frecuencia son un componente de los sitios activos.

Clasificación de proteínas

Las proteínas pueden clasificarse de acuerdo con su similitud estructural y secuencial. Para la clasificación estructural, se comparan los tamaños y las disposiciones espaciales de las estructuras secundarias descritas en el párrafo anterior en estructuras tridimensionales conocidas. La clasificación basada en la similitud de secuencias fue históricamente la primera en utilizarse. Inicialmente, se realizó la similitud basada en alineaciones de secuencias completas. Más tarde, las proteínas se clasificaron sobre la base de la aparición de patrones de aminoácidos conservados. Existen bases de datos que clasifican las proteínas según uno o más de estos esquemas. Al considerar los esquemas de clasificación de proteínas, es importante tener en cuenta varias observaciones. En primer lugar, dos secuencias de proteínas completamente diferentes de diferentes orígenes evolutivos pueden plegarse en una estructura similar. Por el contrario, la secuencia de un gen antiguo para una estructura dada puede haber divergido considerablemente en diferentes especies mientras que al mismo tiempo mantiene las mismas características estructurales básicas. Reconocer cualquier similitud de secuencia restante en tales casos puede ser una tarea muy difícil. En segundo lugar, dos proteínas que comparten un grado significativo de similitud de secuencia, ya sea entre sí o con una tercera secuencia, también comparten un origen evolutivo y también deberían compartir algunas características estructurales. Sin embargo, la duplicación de genes y los reordenamientos genéticos durante la evolución pueden dar lugar a nuevas copias de genes, que luego pueden evolucionar en proteínas con nueva función y estructura. ^[2]

Términos utilizados para clasificar las estructuras y secuencias de proteínas

A continuación se enumeran los términos más utilizados para las relaciones evolutivas y estructurales entre las proteínas. Se utilizan muchos otros términos para los distintos tipos de características estructurales que se encuentran en las proteínas. Se pueden encontrar descripciones de dichos términos en el sitio web de CATH, el sitio web de Structural Classification of Proteins (SCOP) y un tutorial de Glaxo Wellcome en el sitio web de Swiss bioinformática Expasy.

Sitio activo: Combinación localizada de grupos laterales de aminoácidos dentro de la estructura terciaria (tridimensional) o cuaternaria (subunidad proteica) que puede interactuar con un sustrato químicamente específico y que proporciona a la proteína actividad biológica. Proteínas con secuencias de aminoácidos muy diferentes pueden plegarse en una estructura que produce el mismo sitio activo.
Arquitectura: son las orientaciones relativas de las estructuras secundarias en una estructura tridimensional sin tener en cuenta si comparten o no una estructura de bucle similar.
Pliegue (topología): un tipo de arquitectura que también tiene una estructura de bucle conservada.
Bloques: es un patrón de secuencia de aminoácidos conservado en una familia de proteínas. El patrón incluye una serie de posibles coincidencias en cada posición de las secuencias representadas, pero no hay posiciones insertadas o eliminadas en el patrón o en las secuencias. Por el contrario, los perfiles de secuencia son un tipo de matriz de puntuación que representa un conjunto similar de patrones que incluye inserciones y eliminaciones.
Clase: Término utilizado para clasificar los dominios proteicos según su contenido estructural secundario y su organización. Levitt y Chothia (1976) reconocieron originalmente cuatro clases y se han añadido varias más a la base de datos SCOP. En la base de datos CATH se dan tres clases: principalmente-α, principalmente-β y α–β, y la clase α–β incluye estructuras alternantes α/β y α+β.
Centro: la parte de una molécula de proteína plegada que comprende el interior hidrofóbico de las hélices α y las láminas β. La estructura compacta reúne grupos laterales de aminoácidos en una proximidad lo suficientemente cercana como para que puedan interactuar. Al comparar estructuras de proteínas, como en la base de datos SCOP, el núcleo es la región común a la mayoría de las estructuras que comparten un pliegue común o que están en la misma superfamilia. En la predicción de estructuras, el núcleo a veces se define como la disposición de estructuras secundarias que es probable que se conserve durante el cambio evolutivo.
Dominio (contexto de secuencia): Segmento de una cadena polipeptídica que puede plegarse para formar una estructura tridimensional independientemente de la presencia de otros segmentos de la cadena. Los dominios separados de una proteína dada pueden interactuar ampliamente o pueden estar unidos solo por una longitud de cadena polipeptídica. Una proteína con varios dominios puede utilizar estos dominios para interacciones funcionales con diferentes moléculas.
Familia (contexto de secuencia): un grupo de proteínas de función bioquímica similar que son más del 50% idénticas cuando se alinean. Este mismo límite de corte todavía se utiliza en Protein Information Resource (PIR). Una familia de proteínas comprende proteínas con la misma función en diferentes organismos (secuencias ortólogas), pero también puede incluir proteínas en el mismo organismo (secuencias parálogas) derivadas de la duplicación y reordenamientos de genes. Si una alineación de secuencias múltiples de una familia de proteínas revela un nivel común de similitud a lo largo de las longitudes de las proteínas, PIR se refiere a la familia como una familia homeomórfica. La región alineada se conoce como un dominio homeomórfico, y esta región puede comprender varios dominios de homología más pequeños que se comparten con otras familias. Las familias pueden subdividirse en subfamilias o agruparse en superfamilias según los respectivos niveles superiores o inferiores de similitud de secuencia. La base de datos SCOP informa 1296 familias y la base de datos CATH (versión 1.7 beta), informa 1846 familias.; Cuando se examinan con mayor detalle las secuencias de proteínas con la misma función, se descubre que algunas comparten una gran similitud de secuencia. Obviamente, son miembros de la misma familia según los criterios anteriores. Sin embargo, se descubre que otras tienen una similitud de secuencia muy pequeña, o incluso insignificante, con otros miembros de la familia. En tales casos, la relación familiar entre dos miembros distantes de la familia, A y C, a menudo se puede demostrar encontrando un miembro adicional de la familia, B, que comparte una similitud significativa con A y C. Por lo tanto, B proporciona un vínculo de conexión entre A y C. Otro enfoque es examinar alineaciones distantes para encontrar coincidencias altamente conservadas.; En un nivel de identidad del 50%, es probable que las proteínas tengan la misma estructura tridimensional, y los átomos idénticos en la alineación de secuencias también se superpondrán dentro de aproximadamente 1 Å en el modelo estructural. Por lo tanto, si se conoce la estructura de un miembro de una familia, se puede hacer una predicción confiable para un segundo miembro de la familia, y cuanto mayor sea el nivel de identidad, más confiable será la predicción. El modelado estructural de proteínas se puede realizar examinando qué tan bien encajan las sustituciones de aminoácidos en el núcleo de la estructura tridimensional.
Familia (contexto estructural): tal como se utiliza en la base de datos FSSP ( Familias de proteínas estructuralmente similares ) y el sitio web DALI/FSSP, dos estructuras que tienen un nivel significativo de similitud estructural pero no necesariamente una similitud de secuencia significativa.
Doblar: Similar al motivo estructural, incluye una combinación más grande de unidades estructurales secundarias en la misma configuración. Por lo tanto, las proteínas que comparten el mismo pliegue tienen la misma combinación de estructuras secundarias que están conectadas por bucles similares. Un ejemplo es el pliegue de Rossman que comprende varias hélices α alternas y cadenas β paralelas. En las bases de datos SCOP, CATH y FSSP, las estructuras proteicas conocidas se han clasificado en niveles jerárquicos de complejidad estructural con el pliegue como nivel básico de clasificación.
Dominio homólogo (contexto de secuencia): un patrón de secuencia extendido, generalmente encontrado mediante métodos de alineamiento de secuencias, que indica un origen evolutivo común entre las secuencias alineadas. Un dominio de homología es generalmente más largo que los motivos. El dominio puede incluir toda una secuencia de proteína dada o solo una parte de la secuencia. Algunos dominios son complejos y están formados por varios dominios de homología más pequeños que se unieron para formar uno más grande durante la evolución. Un dominio que cubre una secuencia completa se denomina dominio homeomórfico según PIR ( Protein Information Resource ).
Módulo: Región de patrones conservados de aminoácidos que comprende uno o más motivos y se considera una unidad fundamental de estructura o función. La presencia de un módulo también se ha utilizado para clasificar las proteínas en familias.
Motivo (contexto de secuencia): un patrón conservado de aminoácidos que se encuentra en dos o más proteínas. En el catálogo Prosite , un motivo es un patrón de aminoácidos que se encuentra en un grupo de proteínas que tienen una actividad bioquímica similar y que a menudo se encuentra cerca del sitio activo de la proteína. Ejemplos de bases de datos de motivos de secuencias son el catálogo Prosite y la base de datos Stanford Motifs. ^[4]
Motivo (contexto estructural): Combinación de varios elementos estructurales secundarios producidos por el plegamiento de secciones adyacentes de la cadena polipeptídica en una configuración tridimensional específica. Un ejemplo es el motivo hélice-bucle-hélice. Los motivos estructurales también se denominan estructuras supersecundarias y pliegues.
Matriz de puntuación específica de la posición (contexto de secuencia, también conocida como matriz de ponderación o puntuación): representa una región conservada en una alineación de secuencias múltiples sin espacios vacíos. Cada columna de la matriz representa la variación encontrada en una columna de la alineación de secuencias múltiples.
Matriz de puntuación específica de la posición —3D (contexto estructural): representa la variación de aminoácidos que se encuentra en una alineación de proteínas que pertenecen a la misma clase estructural. Las columnas de la matriz representan la variación de aminoácidos que se encuentra en una posición de aminoácido en las estructuras alineadas.
Estructura primaria: la secuencia lineal de aminoácidos de una proteína, que químicamente es una cadena polipeptídica compuesta de aminoácidos unidos por enlaces peptídicos.
Perfil (contexto de secuencia): Matriz de puntuación que representa una alineación de secuencias múltiples de una familia de proteínas. El perfil se obtiene generalmente a partir de una región bien conservada en una alineación de secuencias múltiples. El perfil tiene la forma de una matriz en la que cada columna representa una posición en la alineación y cada fila uno de los aminoácidos. Los valores de la matriz dan la probabilidad de que cada aminoácido se encuentre en la posición correspondiente en la alineación. El perfil se mueve a lo largo de la secuencia objetivo para localizar las regiones con mejor puntuación mediante un algoritmo de programación dinámica. Se permiten espacios durante la coincidencia y, en este caso, se incluye una penalización por espacio como una puntuación negativa cuando no se coincide con ningún aminoácido. Un perfil de secuencia también puede representarse mediante un modelo oculto de Markov , denominado perfil HMM.
Perfil (contexto estructural): Matriz de puntuación que representa qué aminoácidos deberían encajar bien y cuáles no en posiciones secuenciales de una estructura proteica conocida. Las columnas del perfil representan posiciones secuenciales en la estructura y las filas del perfil representan los 20 aminoácidos. Al igual que con un perfil de secuencia, el perfil estructural se desplaza a lo largo de una secuencia objetivo para encontrar la puntuación de alineación más alta posible mediante un algoritmo de programación dinámica. Se pueden incluir espacios vacíos y recibir una penalización. La puntuación resultante proporciona una indicación de si la proteína objetivo podría adoptar o no dicha estructura.
Estructura cuaternaria: la configuración tridimensional de una molécula de proteína que comprende varias cadenas polipeptídicas independientes.
Estructura secundaria: las interacciones que ocurren entre los grupos C, O y NH de los aminoácidos en una cadena polipeptídica para formar hélices α, láminas β, giros, bucles y otras formas, y que facilitan el plegado en una estructura tridimensional.
Superfamilia: un grupo de familias de proteínas de longitudes iguales o diferentes que están relacionadas por una similitud de secuencia distante pero detectable. Los miembros de una superfamilia dada tienen, por lo tanto, un origen evolutivo común. Originalmente, Dayhoff definió el límite para el estado de superfamilia como la probabilidad de que las secuencias no estén relacionadas de 10 6, sobre la base de una puntuación de alineamiento (Dayhoff et al. 1978). Las proteínas con pocas identidades en un alineamiento de las secuencias pero con un número convincentemente común de características estructurales y funcionales se colocan en la misma superfamilia. A nivel de estructura tridimensional, las proteínas de la superfamilia compartirán características estructurales comunes como un pliegue común, pero también puede haber diferencias en el número y la disposición de las estructuras secundarias. El recurso PIR utiliza el término superfamilias homeomórficas para referirse a las superfamilias que están compuestas de secuencias que pueden alinearse de extremo a extremo, lo que representa un dominio de homología de secuencia compartida, una región de similitud que se extiende a lo largo del alineamiento. Este dominio también puede comprender dominios de homología más pequeños que se comparten con otras familias y superfamilias de proteínas. Aunque una secuencia de proteína dada puede contener dominios que se encuentran en varias superfamilias, lo que indica una historia evolutiva compleja, las secuencias se asignarán a una sola superfamilia homeomórfica en función de la presencia de similitud a lo largo de una alineación de secuencias múltiples. La alineación de la superfamilia también puede incluir regiones que no se alinean ni dentro ni en los extremos de la alineación. Por el contrario, las secuencias de la misma familia se alinean bien a lo largo de la alineación.
Estructura supersecundaria: Término con un significado similar al de motivo estructural. La estructura terciaria es la estructura tridimensional o globular formada por el empaquetamiento o plegado de las estructuras secundarias de una cadena polipeptídica. ^[2]

Estructura secundaria

La predicción de la estructura secundaria es un conjunto de técnicas en bioinformática que tienen como objetivo predecir las estructuras secundarias locales de las proteínas basándose únicamente en el conocimiento de su secuencia de aminoácidos . En el caso de las proteínas, una predicción consiste en asignar regiones de la secuencia de aminoácidos como probables hélices alfa , cadenas beta (a menudo denominadas conformaciones extendidas ) o giros . El éxito de una predicción se determina comparándola con los resultados del algoritmo DSSP (o similar, por ejemplo, STRIDE ) aplicado a la estructura cristalina de la proteína. Se han desarrollado algoritmos especializados para la detección de patrones específicos bien definidos, como hélices transmembrana y bobinas enrolladas en proteínas. ^[2]

Se afirmó que los mejores métodos modernos de predicción de la estructura secundaria en proteínas alcanzaban una precisión del 80% después de usar el aprendizaje automático y las alineaciones de secuencias ; ^[5] esta alta precisión permite el uso de las predicciones como reconocimiento de pliegues que mejora las características y predicción de la estructura de proteínas ab initio , clasificación de motivos estructurales y refinamiento de alineaciones de secuencias . La precisión de los métodos actuales de predicción de la estructura secundaria de proteínas se evalúa en puntos de referencia semanales como LiveBench y EVA .

Fondo

Los primeros métodos de predicción de la estructura secundaria, introducidos en la década de 1960 y principios de la de 1970, ^[6]^[7]^[8]^[9]^[10] se centraron en la identificación de probables hélices alfa y se basaban principalmente en modelos de transición hélice-bobina . ^[11] En la década de 1970 se introdujeron predicciones significativamente más precisas que incluían láminas beta y se basaban en evaluaciones estadísticas basadas en parámetros de probabilidad derivados de estructuras resueltas conocidas. Estos métodos, aplicados a una sola secuencia, suelen tener una precisión de entre el 60 y el 65 % como máximo y, a menudo, subestiman las láminas beta. ^[2] Desde la década de 1980, se han aplicado redes neuronales artificiales a la predicción de estructuras proteicas. ^[12]^[13] La conservación evolutiva de las estructuras secundarias se puede explotar evaluando simultáneamente muchas secuencias homólogas en una alineación de secuencias múltiples , calculando la propensión neta a la estructura secundaria de una columna alineada de aminoácidos. En conjunto con bases de datos más grandes de estructuras proteicas conocidas y métodos modernos de aprendizaje automático como redes neuronales y máquinas de vectores de soporte , estos métodos pueden lograr hasta un 80% de precisión general en proteínas globulares . ^[14] El límite superior teórico de precisión es de alrededor del 90%, ^[14] en parte debido a idiosincrasias en la asignación de DSSP cerca de los extremos de las estructuras secundarias, donde las conformaciones locales varían en condiciones nativas pero pueden verse obligadas a asumir una única conformación en cristales debido a restricciones de empaquetamiento. Además, los métodos típicos de predicción de la estructura secundaria no tienen en cuenta la influencia de la estructura terciaria en la formación de la estructura secundaria; por ejemplo, una secuencia predicha como una hélice probable aún puede adoptar una conformación de cadena beta si se encuentra dentro de una región de hoja beta de la proteína y sus cadenas laterales se empaquetan bien con sus vecinas. Los cambios conformacionales dramáticos relacionados con la función o el entorno de la proteína también pueden alterar la estructura secundaria local.

Perspectiva histórica

Hasta la fecha, se han desarrollado más de 20 métodos diferentes de predicción de estructuras secundarias. Uno de los primeros algoritmos fue el método Chou-Fasman , que se basa predominantemente en parámetros de probabilidad determinados a partir de las frecuencias relativas de aparición de cada aminoácido en cada tipo de estructura secundaria. ^[15] Los parámetros originales de Chou-Fasman, determinados a partir de la pequeña muestra de estructuras resueltas a mediados de la década de 1970, producen resultados deficientes en comparación con los métodos modernos, aunque la parametrización se ha actualizado desde que se publicó por primera vez. El método Chou-Fasman tiene una precisión de aproximadamente el 50-60% en la predicción de estructuras secundarias. ^[2]

El siguiente programa notable fue el método GOR , un método basado en la teoría de la información . Utiliza la técnica probabilística más poderosa de la inferencia bayesiana . ^[16] El método GOR tiene en cuenta no solo la probabilidad de que cada aminoácido tenga una estructura secundaria particular, sino también la probabilidad condicional de que el aminoácido asuma cada estructura dadas las contribuciones de sus vecinos (no asume que los vecinos tengan esa misma estructura). El enfoque es a la vez más sensible y más preciso que el de Chou y Fasman porque las propensiones estructurales de los aminoácidos solo son fuertes para un pequeño número de aminoácidos como la prolina y la glicina . Las contribuciones débiles de cada uno de muchos vecinos pueden sumarse para generar fuertes efectos en general. El método GOR original tenía una precisión de aproximadamente el 65% y es dramáticamente más exitoso en la predicción de hélices alfa que de láminas beta, que con frecuencia predecía erróneamente como bucles o regiones desorganizadas. ^[2]

Otro gran avance fue el uso de métodos de aprendizaje automático . Primero se utilizaron métodos de redes neuronales artificiales . Como conjuntos de entrenamiento, utilizan estructuras resueltas para identificar motivos de secuencia comunes asociados con disposiciones particulares de estructuras secundarias. Estos métodos tienen una precisión de más del 70% en sus predicciones, aunque las cadenas beta aún suelen subestimarse debido a la falta de información estructural tridimensional que permita la evaluación de patrones de enlaces de hidrógeno que pueden promover la formación de la conformación extendida requerida para la presencia de una hoja beta completa. ^[2] PSIPRED y JPRED son algunos de los programas más conocidos basados en redes neuronales para la predicción de la estructura secundaria de proteínas. A continuación, las máquinas de vectores de soporte han demostrado ser particularmente útiles para predecir las ubicaciones de los giros , que son difíciles de identificar con métodos estadísticos. ^[17]^[18]

Las extensiones de las técnicas de aprendizaje automático intentan predecir propiedades locales más detalladas de las proteínas, como los ángulos diedros de la estructura principal en regiones no asignadas. Tanto las SVM ^[19] como las redes neuronales ^[20] se han aplicado a este problema. ^[17] Más recientemente, SPINE-X puede predecir con precisión los ángulos de torsión de valor real y emplearlos con éxito para la predicción de la estructura ab initio. ^[21]

Otras mejoras

Se ha informado de que, además de la secuencia de proteínas, la formación de la estructura secundaria depende de otros factores. Por ejemplo, se ha informado de que las tendencias de la estructura secundaria dependen también del entorno local, ^[22] la accesibilidad de los residuos a los disolventes, ^[23] la clase estructural de la proteína, ^[24] e incluso el organismo del que se obtienen las proteínas. ^[25] Con base en dichas observaciones, algunos estudios han demostrado que la predicción de la estructura secundaria se puede mejorar añadiendo información sobre la clase estructural de la proteína, ^[26] el área superficial accesible a los residuos ^[27]^[28] y también información del número de contacto . ^[29]

Estructura terciaria

El papel práctico de la predicción de la estructura de las proteínas es ahora más importante que nunca. ^{[30] Los esfuerzos modernos de secuenciación}de ADN a gran escala, como el Proyecto Genoma Humano , generan cantidades masivas de datos de secuencias de proteínas . A pesar de los esfuerzos de toda la comunidad en genómica estructural , el resultado de las estructuras de proteínas determinadas experimentalmente (normalmente mediante cristalografía de rayos X o espectroscopia de RMN , que requieren mucho tiempo y son relativamente caras ) está muy por detrás del resultado de las secuencias de proteínas.

La predicción de la estructura de las proteínas sigue siendo una tarea extremadamente difícil y sin resolver. Los dos problemas principales son el cálculo de la energía libre de las proteínas y la búsqueda del mínimo global de esta energía. Un método de predicción de la estructura de las proteínas debe explorar el espacio de posibles estructuras proteínicas, que es astronómicamente grande . Estos problemas se pueden evitar parcialmente con métodos de reconocimiento de pliegues y de modelado "comparativo" u homólogo , en los que el espacio de búsqueda se poda suponiendo que la proteína en cuestión adopta una estructura cercana a la estructura determinada experimentalmente de otra proteína homóloga. Por el contrario, los métodos de predicción de la estructura de las proteínas de novo deben resolver explícitamente estos problemas. Zhang ha revisado los avances y los desafíos en la predicción de la estructura de las proteínas. ^[31]

Antes de modelar

La mayoría de los métodos de modelado de la estructura terciaria, como Rosetta, están optimizados para modelar la estructura terciaria de dominios proteicos individuales. Un paso llamado análisis de dominios , o predicción de límites de dominios , generalmente se realiza primero para dividir una proteína en posibles dominios estructurales. Al igual que con el resto de la predicción de la estructura terciaria, esto se puede hacer comparativamente a partir de estructuras conocidas ^[32] o ab initio solo con la secuencia (generalmente mediante aprendizaje automático , asistido por covariación). ^[33] Las estructuras de los dominios individuales se acoplan en un proceso llamado ensamblaje de dominios para formar la estructura terciaria final. ^[34]^[35]

Desde el principiomodelado de proteínas

Métodos basados en energía y fragmentos

Los métodos de modelado de proteínas ab initio -o de novo- buscan construir modelos proteicos tridimensionales "desde cero", es decir, basados en principios físicos en lugar de (directamente) en estructuras resueltas previamente. Hay muchos procedimientos posibles que intentan imitar el plegamiento de proteínas o aplicar algún método estocástico para buscar posibles soluciones (es decir, optimización global de una función de energía adecuada). Estos procedimientos tienden a requerir vastos recursos computacionales y, por lo tanto, solo se han llevado a cabo para proteínas diminutas. Para predecir la estructura de proteínas de novo para proteínas más grandes se requerirán mejores algoritmos y mayores recursos computacionales como los que ofrecen las supercomputadoras potentes (como Blue Gene o MDGRAPE-3 ) o la computación distribuida (como Folding@home , el Proyecto de Plegado del Proteoma Humano y Rosetta@Home ). Aunque estas barreras computacionales son enormes, los beneficios potenciales de la genómica estructural (por métodos predichos o experimentales) hacen que la predicción de la estructura ab initio sea un campo de investigación activo. ^[31]

A partir de 2009, una proteína de 50 residuos se podía simular átomo por átomo en una supercomputadora durante 1 milisegundo. ^[36] A partir de 2012, se podía realizar un muestreo de estado estable comparable en una computadora de escritorio estándar con una nueva tarjeta gráfica y algoritmos más sofisticados. ^[37] Se pueden lograr escalas de tiempo de simulación mucho más grandes utilizando modelos de grano grueso . ^[38]^[39]

Covariación evolutiva para predecir contactos 3D

A medida que la secuenciación se volvió más común en la década de 1990, varios grupos utilizaron alineaciones de secuencias de proteínas para predecir mutaciones correlacionadas y se esperaba que estos residuos coevolucionados pudieran usarse para predecir la estructura terciaria (usando la analogía de las restricciones de distancia de los procedimientos experimentales como la RMN ). La suposición es que cuando las mutaciones de un solo residuo son ligeramente perjudiciales, pueden ocurrir mutaciones compensatorias para reestabilizar las interacciones residuo-residuo. Este trabajo temprano utilizó lo que se conoce como métodos locales para calcular mutaciones correlacionadas a partir de secuencias de proteínas, pero sufrió correlaciones falsas indirectas que resultan de tratar cada par de residuos como independiente de todos los demás pares. ^[40]^[41]^[42]

En 2011, un enfoque estadístico diferente, y esta vez global , demostró que los residuos coevolucionados predichos eran suficientes para predecir el plegamiento 3D de una proteína, siempre que haya suficientes secuencias disponibles (se necesitan más de 1000 secuencias homólogas). ^[43] El método, EVfold, no utiliza modelado de homología, enhebrado ni fragmentos de estructura 3D y se puede ejecutar en una computadora personal estándar incluso para proteínas con cientos de residuos. La precisión de los contactos predichos utilizando este y otros enfoques relacionados ahora se ha demostrado en muchas estructuras conocidas y mapas de contacto, ^[44]^[45]^[46] incluida la predicción de proteínas transmembrana no resueltas experimentalmente. ^[47]

Modelado comparativo de proteínas

El modelado comparativo de proteínas utiliza estructuras resueltas previamente como puntos de partida o plantillas. Esto es eficaz porque parece que, aunque el número de proteínas reales es enorme, existe un conjunto limitado de motivos estructurales terciarios a los que pertenecen la mayoría de las proteínas. Se ha sugerido que solo existen alrededor de 2000 pliegues proteicos distintos en la naturaleza, aunque existen muchos millones de proteínas diferentes. El modelado comparativo de proteínas puede combinarse con la covariación evolutiva en la predicción de la estructura. ^[48]

Estos métodos también pueden dividirse en dos grupos: ^[31]

El modelado de homología se basa en la suposición razonable de que dos proteínas homólogas compartirán estructuras muy similares. Debido a que el plegamiento de una proteína está más conservado evolutivamente que su secuencia de aminoácidos, una secuencia objetivo se puede modelar con una precisión razonable en una plantilla muy distantemente relacionada, siempre que la relación entre el objetivo y la plantilla se pueda discernir a través del alineamiento de secuencias . Se ha sugerido que el principal cuello de botella en el modelado comparativo surge de las dificultades en el alineamiento en lugar de los errores en la predicción de la estructura dada una alineación conocida como buena. ^[49] No es sorprendente que el modelado de homología sea más preciso cuando el objetivo y la plantilla tienen secuencias similares.
El enhebrado de proteínas ^[50] escanea la secuencia de aminoácidos de una estructura desconocida comparándola con una base de datos de estructuras resueltas. En cada caso, se utiliza una función de puntuación para evaluar la compatibilidad de la secuencia con la estructura, lo que permite obtener posibles modelos tridimensionales. Este tipo de método también se conoce como reconocimiento de pliegues 3D-1D debido a su análisis de compatibilidad entre estructuras tridimensionales y secuencias de proteínas lineales. Este método también ha dado lugar a métodos que realizan una búsqueda de pliegues inversos evaluando la compatibilidad de una estructura dada con una gran base de datos de secuencias, lo que permite predecir qué secuencias tienen el potencial de producir un pliegue determinado.

Modelado de conformaciones de cadenas laterales

El empaquetamiento preciso de las cadenas laterales de aminoácidos representa un problema aparte en la predicción de la estructura de las proteínas. Los métodos que abordan específicamente el problema de predecir la geometría de las cadenas laterales incluyen la eliminación de extremos muertos y los métodos de campo medio autoconsistente . Las conformaciones de cadena lateral con baja energía se determinan generalmente en la estructura principal rígida del polipéptido y utilizando un conjunto de conformaciones de cadena lateral discretas conocidas como " rotámeros ". Los métodos intentan identificar el conjunto de rotámeros que minimizan la energía general del modelo.

Estos métodos utilizan bibliotecas de rotámeros, que son colecciones de conformaciones favorables para cada tipo de residuo en las proteínas. Las bibliotecas de rotámeros pueden contener información sobre la conformación, su frecuencia y las desviaciones estándar sobre los ángulos diedros medios, que se pueden utilizar en el muestreo. ^[51] Las bibliotecas de rotámeros se derivan de la bioinformática estructural u otro análisis estadístico de las conformaciones de la cadena lateral en estructuras experimentales conocidas de proteínas, como por ejemplo agrupando las conformaciones observadas para carbonos tetraédricos cerca de los valores escalonados (60°, 180°, -60°).

Las bibliotecas de rotámeros pueden ser independientes de la estructura principal, dependientes de la estructura secundaria o dependientes de la estructura principal. Las bibliotecas de rotámeros independientes de la estructura principal no hacen referencia a la conformación de la estructura principal y se calculan a partir de todas las cadenas laterales disponibles de un tipo determinado (por ejemplo, el primer ejemplo de una biblioteca de rotámeros, realizado por Ponder y Richards en Yale en 1987). ^[52] Las bibliotecas dependientes de la estructura secundaria presentan diferentes ángulos diedros y/o frecuencias de rotámero para estructuras secundarias de hélice, lámina o espiral. ^[53]Las bibliotecas de rotámeros dependientes de la estructura principal presentan conformaciones y/o frecuencias que dependen de la conformación local de la estructura principal, tal como se define por los ángulos diedros de la estructura principal y , independientemente de la estructura secundaria. ^[54] ${\estilo de visualización \alpha}$ ${\estilo de visualización \beta}$ ${\estilo de visualización \phi}$ ${\estilo de visualización \psi}$

Las versiones modernas de estas bibliotecas, que se utilizan en la mayoría de los programas informáticos, se presentan como distribuciones multidimensionales de probabilidad o frecuencia, donde los picos corresponden a las conformaciones de ángulo diedro consideradas como rotámeros individuales en las listas. Algunas versiones se basan en datos cuidadosamente seleccionados y se utilizan principalmente para la validación de estructuras, ^[55] mientras que otras enfatizan las frecuencias relativas en conjuntos de datos mucho más grandes y son la forma utilizada principalmente para la predicción de estructuras, como las bibliotecas de rotámeros de Dunbrack . ^[56]

Los métodos de empaquetamiento de cadenas laterales son más útiles para analizar el núcleo hidrofóbico de la proteína , donde las cadenas laterales están empaquetadas más estrechamente; tienen más dificultades para abordar las restricciones más flexibles y la mayor flexibilidad de los residuos de la superficie, que a menudo ocupan múltiples conformaciones de rotámero en lugar de solo una. ^[57]^[58]

Estructura cuaternaria

En el caso de complejos de dos o más proteínas , en los que se conocen las estructuras de las proteínas o se pueden predecir con gran precisión, se pueden utilizar métodos de acoplamiento proteína-proteína para predecir la estructura del complejo. La información sobre el efecto de las mutaciones en sitios específicos sobre la afinidad del complejo ayuda a comprender la estructura del complejo y a orientar los métodos de acoplamiento.

Software

Existe una gran cantidad de herramientas de software para la predicción de la estructura de proteínas. Los enfoques incluyen el modelado de homología , el enhebrado de proteínas , los métodos ab initio , la predicción de la estructura secundaria y la predicción de hélices transmembrana y péptidos señal. En particular, el aprendizaje profundo basado en la memoria a corto plazo se ha utilizado para este propósito desde 2007, cuando se aplicó con éxito a la detección de homología de proteínas ^[59] y para predecir la localización subcelular de proteínas. ^[60] Algunos métodos exitosos recientes basados en los experimentos CASP incluyen I-TASSER , HHpred y AlphaFold . En 2021, se informó que AlphaFold tuvo el mejor desempeño. ^[61]

Conocer la estructura de una proteína también permite realizar predicciones funcionales. Por ejemplo, el colágeno se pliega formando una cadena larga similar a una fibra y eso lo convierte en una proteína fibrosa. Recientemente, se han desarrollado varias técnicas para predecir el plegamiento de proteínas y, por lo tanto, su estructura, por ejemplo, Itasser y AlphaFold.

Métodos de IA

AlphaFold fue una de las primeras IA en predecir estructuras de proteínas. Fue presentada por DeepMind de Google en la 13.ª competencia CASP, que se celebró en 2018. ^[61] AlphaFold se basa en un enfoque de red neuronal , que predice directamente las coordenadas 3D de todos los átomos que no son hidrógeno para una proteína dada utilizando la secuencia de aminoácidos y secuencias homólogas alineadas . La red AlphaFold consta de un tronco que procesa las entradas a través de capas repetidas y un módulo de estructura que introduce una estructura 3D explícita. ^[61] Las redes neuronales anteriores para la predicción de la estructura de proteínas utilizaban LSTM . ^[59]^[60]

Dado que AlphaFold genera coordenadas de proteínas directamente, produce predicciones en minutos de la unidad de procesamiento gráfico (GPU) a horas de GPU, dependiendo de la longitud de la secuencia de proteínas. ^[61]

Métodos de IA actuales y bases de datos de estructuras de proteínas predichas

AlphaFold2, se introdujo en CASP14 y es capaz de predecir estructuras de proteínas con una precisión casi experimental. ^[62] AlphaFold fue seguido rápidamente por RoseTTAFold ^[63] y más tarde por OmegaFold y el Atlas metagenómico ESM. ^[64] En un estudio reciente, Sommer et al. 2022 demostraron la aplicación de la predicción de la estructura de proteínas en la anotación del genoma, específicamente en la identificación de isoformas funcionales de proteínas utilizando estructuras predichas computacionalmente, disponibles en https://www.isoform.io. ^[65] Este estudio destaca la promesa de la predicción de la estructura de proteínas como una herramienta de anotación del genoma y presenta un enfoque práctico, guiado por la estructura, que se puede utilizar para mejorar la anotación de cualquier genoma.

El Instituto Europeo de Bioinformática junto con DeepMind han construido la base de datos AlphaFold - EBI ^[66] para las estructuras de proteínas predichas. ^[67]

Evaluación de servidores de predicción automática de estructuras

CASP , que significa Evaluación crítica de técnicas para la predicción de la estructura de proteínas, es un experimento comunitario para la predicción de la estructura de proteínas que se lleva a cabo cada dos años desde 1994. CASP ofrece una oportunidad para evaluar la calidad de la metodología humana, no automatizada (categoría humana) y de los servidores automáticos disponibles para la predicción de la estructura de proteínas (categoría servidor, introducida en CASP7). ^[68]

El servidor de evaluación automatizada continua de modelos CAMEO3D evalúa semanalmente servidores de predicción automatizada de estructuras proteínicas mediante predicciones a ciegas para estructuras proteínicas recién publicadas. CAMEO publica los resultados en su sitio web.

Véase también

Referencias

^ Comisión IUPAC-IUB sobre nomenclatura bioquímica (1 de septiembre de 1970). "Comisión IUPAC-IUB sobre nomenclatura bioquímica. Abreviaturas y símbolos para la descripción de la conformación de cadenas polipeptídicas. Reglas provisionales (1969)". Bioquímica . 9 (18): 3471–3479. doi :10.1021/bi00820a001. PMID 5509841. S2CID 196933.
^ abcdefgh Mount DM (2004). Bioinformática: análisis de secuencias y genomas . Vol. 2. Cold Spring Harbor Laboratory Press. ISBN 978-0-87969-712-9.
^ Yousif, Ragheed Hussam, et al. "Exploración de las interacciones moleculares entre la neoculina y los receptores humanos del gusto dulce mediante enfoques computacionales". Sains Malaysiana 49.3 (2020): 517-525.
^ Huang JY, Brutlag DL (enero de 2001). "La base de datos EMOTIF". Nucleic Acids Research . 29 (1): 202–4. doi :10.1093/nar/29.1.202. PMC 29837 . PMID 11125091.
^ Pirovano W, Heringa J (2010). "Predicción de la estructura secundaria de proteínas". Técnicas de minería de datos para las ciencias de la vida . Métodos en biología molecular. Vol. 609. págs. 327–48. doi :10.1007/978-1-60327-241-4_19. ISBN 978-1-60327-240-7. Número de identificación personal 20221928.
^ Guzzo AV (noviembre de 1965). "La influencia de la secuencia de aminoácidos en la estructura de las proteínas". Revista biofísica . 5 (6): 809–22. Código Bibliográfico :1965BpJ.....5..809G. doi :10.1016/S0006-3495(65)86753-4. PMC 1367904 . PMID 5884309.
^ Prothero JW (mayo de 1966). "Correlación entre la distribución de aminoácidos y hélices alfa". Revista biofísica . 6 (3): 367–70. Código Bibliográfico :1966BpJ.....6..367P. doi :10.1016/S0006-3495(66)86662-6. PMC 1367951 . PMID 5962284.
^ Schiffer M, Edmundson AB (marzo de 1967). "Uso de ruedas helicoidales para representar las estructuras de las proteínas e identificar segmentos con potencial helicoidal". Biophysical Journal . 7 (2): 121–35. Bibcode :1967BpJ.....7..121S. doi :10.1016/S0006-3495(67)86579-2. PMC 1368002 . PMID 6048867.
^ Kotelchuck D, Scheraga HA (enero de 1969). "La influencia de las interacciones de corto alcance en la formación de proteínas. II. Un modelo para predecir las regiones alfa-helicoidales de las proteínas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 62 (1): 14–21. Bibcode :1969PNAS...62...14K. doi : 10.1073/pnas.62.1.14 . PMC 285948 . PMID 5253650.
^ Lewis PN, Go N, Go M, Kotelchuck D, Scheraga HA (abril de 1970). "Perfiles de probabilidad de hélice de proteínas desnaturalizadas y su correlación con estructuras nativas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 65 (4): 810–5. Bibcode :1970PNAS...65..810L. doi : 10.1073/pnas.65.4.810 . PMC 282987 . PMID 5266152.
^ Froimowitz M, Fasman GD (1974). "Predicción de la estructura secundaria de las proteínas utilizando la teoría de la transición hélice-enrollamiento". Macromolecules . 7 (5): 583–9. Bibcode :1974MaMol...7..583F. doi :10.1021/ma60041a009. PMID 4371089.
^ Qian, Ning; Sejnowski, Terry J. (1988). "Predicción de la estructura secundaria de proteínas globulares utilizando modelos de redes neuronales" (PDF) . Revista de Biología Molecular . 202 (4): 865–884. doi :10.1016/0022-2836(88)90564-5. PMID 3172241. Qian1988.
^ Rost, Burkhard ; Sander, Chris (1993). "Predicción de la estructura secundaria de proteínas con una precisión superior al 70%" (PDF) . Journal of Molecular Biology . 232 (2): 584–599. doi :10.1006/jmbi.1993.1413. PMID 8345525. Rost1993. Archivado desde el original (PDF) el 2019-01-31 . Consultado el 2023-04-20 .
^ ab Dor O, Zhou Y (marzo de 2007). "Lograr una precisión de validación cruzada del 80 % diez veces mayor para la predicción de la estructura secundaria mediante entrenamiento a gran escala". Proteins . 66 (4): 838–45. doi :10.1002/prot.21298. PMID 17177203. S2CID 14759081.
^ Chou PY, Fasman GD (enero de 1974). "Predicción de la conformación de proteínas". Bioquímica . 13 (2): 222–45. doi :10.1021/bi00699a002. PMID 4358940.
^ Garnier J, Osguthorpe DJ, Robson B (marzo de 1978). "Análisis de la precisión y las implicaciones de métodos simples para predecir la estructura secundaria de proteínas globulares". Journal of Molecular Biology . 120 (1): 97–120. doi :10.1016/0022-2836(78)90297-8. PMID 642007.
^ ab Pham TH, Satou K, Ho TB (abril de 2005). "Máquinas de vectores de soporte para la predicción y el análisis de giros beta y gamma en proteínas". Revista de bioinformática y biología computacional . 3 (2): 343–58. doi :10.1142/S0219720005001089. PMID 15852509.
^ Zhang Q, Yoon S, Welsh WJ (mayo de 2005). "Método mejorado para predecir el giro beta utilizando una máquina de vectores de soporte". Bioinformática . 21 (10): 2370–4. doi :10.1093/bioinformatics/bti358. PMID 15797917.
^ Zimmermann O, Hansmann UH (diciembre de 2006). "Máquinas de vectores de soporte para la predicción de regiones de ángulos diedros". Bioinformática . 22 (24): 3009–15. doi :10.1093/bioinformatics/btl489. PMID 17005536.
^ Kuang R, Leslie CS, Yang AS (julio de 2004). "Predicción del ángulo de la estructura de la proteína con métodos de aprendizaje automático". Bioinformática . 20 (10): 1612–21. doi : 10.1093/bioinformatics/bth136 . PMID 14988121.
^ Faraggi E, Yang Y, Zhang S, Zhou Y (noviembre de 2009). "Predicción de la estructura local continua y el efecto de su sustitución por la estructura secundaria en la predicción de la estructura de proteínas sin fragmentos". Structure . 17 (11): 1515–27. doi :10.1016/j.str.2009.09.006. PMC 2778607 . PMID 19913486.
^ Zhong L, Johnson WC (mayo de 1992). "El entorno afecta la preferencia de aminoácidos por la estructura secundaria". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 89 (10): 4462–5. Bibcode :1992PNAS...89.4462Z. doi : 10.1073/pnas.89.10.4462 . PMC 49102 . PMID 1584778.
^ Macdonald JR, Johnson WC (junio de 2001). "Las características ambientales son importantes para determinar la estructura secundaria de las proteínas". Protein Science . 10 (6): 1172–7. doi :10.1110/ps.420101. PMC 2374018 . PMID 11369855.
^ Costantini S, Colonna G, Facchiano AM (abril de 2006). "Las propensiones de los aminoácidos a las estructuras secundarias están influenciadas por la clase estructural de la proteína". Comunicaciones de investigación bioquímica y biofísica . 342 (2): 441–51. doi :10.1016/j.bbrc.2006.01.159. PMID 16487481.
^ Marashi SA, Behrouzi R, Pezeshk H (enero de 2007). "Adaptación de proteínas a diferentes entornos: una comparación de las propiedades estructurales del proteoma en Bacillus subtilis y Escherichia coli". Journal of Theoretical Biology . 244 (1): 127–32. Bibcode :2007JThBi.244..127M. doi :10.1016/j.jtbi.2006.07.021. PMID 16945389.
^ Costantini S, Colonna G, Facchiano AM (octubre de 2007). "PreSSAPro: un software para la predicción de la estructura secundaria mediante las propiedades de los aminoácidos". Computational Biology and Chemistry . 31 (5–6): 389–92. doi :10.1016/j.compbiolchem.2007.08.010. PMID 17888742.
^ Momen-Roknabadi A, Sadeghi M, Pezeshk H, Marashi SA (agosto de 2008). "Impacto del área superficial accesible a los residuos en la predicción de las estructuras secundarias de las proteínas". BMC Bioinformatics . 9 : 357. doi : 10.1186/1471-2105-9-357 . PMC 2553345 . PMID 18759992.
^ Adamczak R, Porollo A, Meller J (mayo de 2005). "Combinación de predicción de la estructura secundaria y accesibilidad a solventes en proteínas". Proteins . 59 (3): 467–75. doi :10.1002/prot.20441. PMID 15768403. S2CID 13267624.
^ Lakizadeh A, Marashi SA (2009). "La adición de información del número de contacto puede mejorar la predicción de la estructura secundaria de proteínas mediante redes neuronales" (PDF) . Excli J. 8 : 66–73.
^ Dorn, Márcio; e Silva, Mariel Barbachan; Buriol, Luciana S.; Lamb, Luis C. (1 de diciembre de 2014). "Predicción tridimensional de la estructura de proteínas: métodos y estrategias computacionales". Computational Biology and Chemistry . 53 : 251–276. doi :10.1016/j.compbiolchem.2014.10.001. ISSN 1476-9271. PMID 25462334.
^ abc Zhang Y (junio de 2008). "Progreso y desafíos en la predicción de la estructura de proteínas". Current Opinion in Structural Biology . 18 (3): 342–8. doi :10.1016/j.sbi.2008.02.004. PMC 2680823 . PMID 18436442.
^ Ovchinnikov S, Kim DE, Wang RY, Liu Y, DiMaio F, Baker D (septiembre de 2016). "Mejora de la predicción de la estructura de novo en CASP11 mediante la incorporación de información de coevolución en Rosetta". Proteins . 84 (Supl 1): 67–75. doi :10.1002/prot.24974. PMC 5490371 . PMID 26677056.
^ Hong SH, Joo K, Lee J (noviembre de 2018). "ConDo: predicción de límites de dominios proteicos utilizando información coevolutiva". Bioinformática . 35 (14): 2411–2417. doi :10.1093/bioinformatics/bty973. PMID 30500873.
^ Wollacott AM, Zanghellini A, Murphy P, Baker D (febrero de 2007). "Predicción de estructuras de proteínas multidominio a partir de las estructuras de los dominios individuales". Protein Science . 16 (2): 165–75. doi :10.1110/ps.062270707. PMC 2203296 . PMID 17189483.
^ Xu D, Jaroszewski L, Li Z, Godzik A (julio de 2015). "AIDA: ensamblaje de dominios ab initio para predicción automatizada de la estructura de proteínas multidominio y predicción de interacción dominio-dominio". Bioinformática . 31 (13): 2098–105. doi :10.1093/bioinformatics/btv092. PMC 4481839 . PMID 25701568.
^ Shaw DE, Dror RO, Salmon JK, Grossman JP, Mackenzie KM, Bank JA, Young C, Deneroff MM, Batson B, Bowers KJ, Chow E (2009). Simulaciones de dinámica molecular a escala de milisegundos en Anton . Actas de la Conferencia sobre redes, almacenamiento y análisis de computación de alto rendimiento - SC '09. p. 1. doi :10.1145/1654059.1654126. ISBN 9781605587448.
^ Pierce LC, Salomon-Ferrer R, de Oliveira CA, McCammon JA, Walker RC (septiembre de 2012). "Acceso rutinario a eventos en escala de tiempo de milisegundos con dinámica molecular acelerada". Journal of Chemical Theory and Computation . 8 (9): 2997–3002. doi :10.1021/ct300284c. PMC 3438784 . PMID 22984356.
^ Kmiecik S, Gront D, Kolinski M, Wieteska L, Dawid AE, Kolinski A (julio de 2016). "Modelos de proteínas de grano grueso y sus aplicaciones". Reseñas químicas . 116 (14): 7898–936. doi : 10.1021/acs.chemrev.6b00163 . PMID 27333362.
^ Cheung NJ, Yu W (noviembre de 2018). "Predicción de la estructura de proteínas de novo mediante simulación de dinámica molecular ultrarrápida". PLOS ONE . 13 (11): e0205819. Bibcode :2018PLoSO..1305819C. doi : 10.1371/journal.pone.0205819 . PMC 6245515 . PMID 30458007.
^ Göbel U, Sander C, Schneider R, Valencia A (abril de 1994). "Mutaciones correlacionadas y contactos de residuos en proteínas". Proteins . 18 (4): 309–17. doi :10.1002/prot.340180402. PMID 8208723. S2CID 14978727.
^ Taylor WR, Hatrick K (marzo de 1994). "Cambios compensatorios en alineaciones de secuencias múltiples de proteínas". Ingeniería de proteínas . 7 (3): 341–8. doi :10.1093/protein/7.3.341. PMID 8177883.
^ Neher E (enero de 1994). "¿Con qué frecuencia se correlacionan los cambios en las familias de secuencias de proteínas?". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 91 (1): 98–102. Bibcode :1994PNAS...91...98N. doi : 10.1073/pnas.91.1.98 . PMC 42893 . PMID 8278414.
^ Marks DS, Colwell LJ, Sheridan R, Hopf TA, Pagnani A, Zecchina R, Sander C (2011). "Estructura 3D de proteínas calculada a partir de la variación de la secuencia evolutiva". PLOS ONE . 6 (12): e28766. Bibcode :2011PLoSO...628766M. doi : 10.1371/journal.pone.0028766 . PMC 3233603 . PMID 22163331.
^ Burger L, van Nimwegen E (enero de 2010). "Disociación de la coevolución directa e indirecta de residuos en alineamientos de proteínas". PLOS Computational Biology . 6 (1): e1000633. Bibcode :2010PLSCB...6E0633B. doi : 10.1371/journal.pcbi.1000633 . PMC 2793430 . PMID 20052271.
^ Morcos F, Pagnani A, Lunt B, Bertolino A, Marks DS, Sander C, Zecchina R, Onuchic JN, Hwa T, Weigt M (diciembre de 2011). "El análisis de acoplamiento directo de la coevolución de residuos captura contactos nativos en muchas familias de proteínas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 108 (49): E1293-301. arXiv : 1110.5223 . Bibcode :2011PNAS..108E1293M. doi : 10.1073/pnas.1111471108 . PMC 3241805 . PMID 22106262.
^ Nugent T, Jones DT (junio de 2012). "Predicción precisa de la estructura de novo de grandes dominios de proteínas transmembrana mediante ensamblaje de fragmentos y análisis de mutaciones correlacionadas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 109 (24): E1540-7. Bibcode :2012PNAS..109E1540N. doi : 10.1073/pnas.1120036109 . PMC 3386101 . PMID 22645369.
^ Hopf TA, Colwell LJ, Sheridan R, Rost B, Sander C, Marks DS (junio de 2012). "Estructuras tridimensionales de proteínas de membrana a partir de secuenciación genómica". Cell . 149 (7): 1607–21. doi :10.1016/j.cell.2012.04.012. PMC 3641781 . PMID 22579045.
^ Jin, Shikai; Chen, Mingchen; Chen, Xun; Bueno, Carlos; Lu, Wei; Schafer, Nicholas P.; Lin, Xingcheng; Onuchic, José N.; Wolynes, Peter G. (9 de junio de 2020). "Predicción de la estructura de la proteína en CASP13 usando AWSEM-Suite". Revista de teoría y computación química . 16 (6): 3977–3988. doi :10.1021/acs.jctc.0c00188. PMID 32396727. S2CID 218618842.
^ Zhang Y, Skolnick J (enero de 2005). "El problema de predicción de la estructura de las proteínas podría resolverse utilizando la biblioteca PDB actual". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 102 (4): 1029–34. Bibcode :2005PNAS..102.1029Z. doi : 10.1073/pnas.0407152101 . PMC 545829 . PMID 15653774.
^ Bowie JU, Lüthy R, Eisenberg D (julio de 1991). "Un método para identificar secuencias de proteínas que se pliegan en una estructura tridimensional conocida". Science . 253 (5016): 164–70. Bibcode :1991Sci...253..164B. doi :10.1126/science.1853201. PMID 1853201.
^ Dunbrack RL (agosto de 2002). "Bibliotecas de rotámeros en el siglo XXI". Current Opinion in Structural Biology . 12 (4): 431–40. doi :10.1016/S0959-440X(02)00344-5. PMID 12163064.
^ Ponder JW, Richards FM (febrero de 1987). "Plantillas terciarias para proteínas. Uso de criterios de empaquetamiento en la enumeración de secuencias permitidas para diferentes clases estructurales". Journal of Molecular Biology . 193 (4): 775–91. doi :10.1016/0022-2836(87)90358-5. PMID 2441069.
^ Lovell SC, Word JM, Richardson JS, Richardson DC (agosto de 2000). "La penúltima biblioteca de rotámeros". Proteins . 40 (3): 389–408. doi :10.1002/1097-0134(20000815)40:3<389::AID-PROT50>3.0.CO;2-2. PMID 10861930. S2CID 3055173.
^ Shapovalov MV, Dunbrack RL (junio de 2011). "Una biblioteca de rotámeros dependiente de la estructura principal suavizada para proteínas derivadas de estimaciones y regresiones de densidad de núcleo adaptativo". Structure . 19 (6): 844–58. doi :10.1016/j.str.2011.03.019. PMC 3118414 . PMID 21645855.
^ Chen VB, Arendall WB, Headd JJ, Keedy DA, Immormino RM, Kapral GJ, Murray LW, Richardson JS, Richardson DC (enero de 2010). "MolProbity: validación de la estructura de todos los átomos para cristalografía macromolecular". Acta Crystallographica. Sección D, Cristalografía biológica . 66 (Pt 1): 12–21. doi :10.1107/S0907444909042073. PMC 2803126. PMID 20057044 .
^ Bower MJ, Cohen FE, Dunbrack RL (abril de 1997). "Predicción de rotámeros de cadena lateral de proteínas a partir de una biblioteca de rotámeros dependiente de la estructura principal: una nueva herramienta de modelado de homología". Journal of Molecular Biology . 267 (5): 1268–82. doi :10.1006/jmbi.1997.0926. PMID 9150411.
^ Voigt CA, Gordon DB, Mayo SL (junio de 2000). "Intercambio de precisión por velocidad: una comparación cuantitativa de algoritmos de búsqueda en el diseño de secuencias de proteínas". Journal of Molecular Biology . 299 (3): 789–803. CiteSeerX 10.1.1.138.2023 . doi :10.1006/jmbi.2000.3758. PMID 10835284.
^ Krivov GG, Shapovalov MV, Dunbrack RL (diciembre de 2009). "Mejora de la predicción de las conformaciones de la cadena lateral de proteínas con SCWRL4". Proteins . 77 (4): 778–95. doi :10.1002/prot.22488. PMC 2885146 . PMID 19603484.
^ ab Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). "Detección rápida de homología de proteínas basada en modelos sin alineamiento". Bioinformática . 23 (14): 1728–1736. doi : 10.1093/bioinformatics/btm247 . PMID 17488755.
^ ab Thireou, T.; Reczko, M. (2007). "Redes de memoria a corto y largo plazo bidireccionales para predecir la localización subcelular de proteínas eucariotas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 4 (3): 441–446. doi :10.1109/tcbb.2007.1015. PMID 17666763. S2CID 11787259.
^ abcd Jumper, John; Evans, Richard; Pritzel, Alexander; Green, Tim; Figurnov, Michael; Ronneberger, Olaf; Tunyasuvunakool, Kathryn; Bates, Russ; Žídek, Augustin; Potapenko, Anna; Bridgland, Alex (agosto de 2021). "Predicción de la estructura de proteínas de alta precisión con AlphaFold". Nature . 596 (7873): 583–589. Bibcode :2021Natur.596..583J. doi :10.1038/s41586-021-03819-2. ISSN 1476-4687. PMC 8371605 . PMID 34265844.
^ Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, et al. (agosto de 2021). "Predicción de la estructura de proteínas de alta precisión con AlphaFold". Nature . 596 (7873): 583–589. doi :10.1038/s41586-021-03819-2. PMC 8371605 . PMID 34265844.
^ Baek M, DiMaio F, Anishchenko I, Dauparas J, Ovchinnikov S, Lee GR, et al. (agosto de 2021). "Predicción precisa de estructuras e interacciones de proteínas utilizando una red neuronal de tres vías". Science . 373 (6557): 871–876. doi :10.1126/science.abj8754. PMC 7612213 . PMID 34282049.
^ Callaway E (noviembre de 2022). "¿El nuevo rival de AlphaFold? Meta AI predice la forma de 600 millones de proteínas". Nature . 611 (7935): 211–212. doi :10.1038/d41586-022-03539-1. PMID 36319775. S2CID 253257926.
^ Sommer, Markus J.; Cha, Sooyoung; Varabyou, Ales; Rincon, Natalia; Park, Sukhwan; Minkin, Ilia; Pertea, Mihaela; Steinegger, Martin; Salzberg, Steven L. (15 de diciembre de 2022). "Identificación de isoformas guiada por la estructura para el transcriptoma humano". eLife . 11 : e82556. doi : 10.7554/eLife.82556 . PMC 9812405 . PMID 36519529.
^ "Base de datos de estructura de proteínas AlphaFold". EMBL-EBI . Consultado el 30 de noviembre de 2022 .
^ Varadi M, Anyango S, Deshpande M, Nair S, Natassia C, Yordanova G, et al. (enero de 2022). "Base de datos de estructura de proteínas AlphaFold: expansión masiva de la cobertura estructural del espacio de secuencias de proteínas con modelos de alta precisión". Nucleic Acids Res . 50 (D1): D439–D444. doi :10.1093/nar/gkab1061. PMC 8728224 . PMID 34791371.
^ Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007). "Predicciones automatizadas de servidor en CASP7". Proteins . 69 (Supl 8): 68–82. doi : 10.1002/prot.21761 . PMID 17894354. S2CID 29879391.

Lectura adicional

Majorek K, Kozlowski L, Jakalski M, Bujnicki JM (18 de diciembre de 2008). "Capítulo 2: Primeros pasos en la predicción de la estructura de proteínas" (PDF) . En Bujnicki J (ed.). Predicción de estructuras, funciones e interacciones de proteínas . John Wiley & Sons, Ltd. págs. 39–62. doi :10.1002/9780470741894.ch2. ISBN 9780470517673.^{[ enlace muerto permanente ]}
Baker D, Sali A (octubre de 2001). "Predicción de la estructura de proteínas y genómica estructural". Science . 294 (5540): 93–6. Bibcode :2001Sci...294...93B. doi :10.1126/science.1065659. PMID 11588250. S2CID 7193705.
Kelley LA, Sternberg MJ (2009). "Predicción de la estructura de proteínas en la Web: un estudio de caso utilizando el servidor Phyre" (PDF) . Nature Protocols . 4 (3): 363–71. doi :10.1038/nprot.2009.2. hdl : 10044/1/18157 . PMID: 19247286. S2CID : 12497300.
Kryshtafovych A, Fidelis K (abril de 2009). "Predicción de la estructura de proteínas y evaluación de la calidad del modelo". Drug Discovery Today . 14 (7–8): 386–93. doi :10.1016/j.drudis.2008.11.010. PMC 2808711 . PMID 19100336.
Qu X, Swanson R, Day R, Tsai J (junio de 2009). "Una guía para la predicción de la estructura basada en plantillas". Current Protein & Peptide Science . 10 (3): 270–85. doi :10.2174/138920309788452182. PMID 19519455.
Daga PR, Patel RY, Doerksen RJ (2010). "Modelado de proteínas basado en plantillas: avances metodológicos recientes". Temas actuales en química médica . 10 (1): 84–94. doi :10.2174/156802610790232314. PMC 5943704. PMID 19929829 .
Fiser, A. (2010). "Modelado de la estructura de proteínas basado en plantillas". Computational Biology . Methods in Molecular Biology. Vol. 673. págs. 73–94. doi :10.1007/978-1-60761-842-3_6. ISBN 978-1-60761-841-6. PMC 4108304 . PMID 20835794.
Cozzetto D, Tramontano A (diciembre de 2008). "Avances y dificultades en la predicción de la estructura de proteínas". Current Protein & Peptide Science . 9 (6): 567–77. doi :10.2174/138920308786733958. PMID 19075747.
Nayeem A, Sitkoff D, Krystek S (abril de 2006). "Un estudio comparativo del software disponible para el modelado de homología de alta precisión: desde alineaciones de secuencias hasta modelos estructurales". Protein Science . 15 (4): 808–24. doi :10.1110/ps.051892906. PMC 2242473 . PMID 16600967.

Enlaces externos

Sitio web oficial , Centro de predicción de la estructura de proteínas, experimentos CASP
Herramientas de proteómica ExPASy: lista de herramientas de predicción y servidores