stringtranslate.com

Predicción de la estructura de las proteínas.

Los aminoácidos constituyentes se pueden analizar para predecir la estructura de las proteínas secundarias, terciarias y cuaternarias.

La predicción de la estructura de una proteína es la inferencia de la estructura tridimensional de una proteína a partir de su secuencia de aminoácidos , es decir, la predicción de su estructura secundaria y terciaria a partir de su estructura primaria . La predicción de estructuras es diferente del problema inverso del diseño de proteínas . La predicción de la estructura de las proteínas es uno de los objetivos más importantes que persigue la biología computacional ; es importante en medicina (por ejemplo, en el diseño de fármacos ) y biotecnología (por ejemplo, en el diseño de nuevas enzimas ).

A partir de 1994, el rendimiento de los métodos actuales se evalúa cada dos años en el experimento CASP (Evaluación crítica de técnicas para la predicción de la estructura de proteínas). El proyecto comunitario CAMEO3D realiza una evaluación continua de los servidores web de predicción de la estructura de proteínas .

Estructura y terminología de las proteínas.

Las proteínas son cadenas de aminoácidos unidas entre sí mediante enlaces peptídicos . Son posibles muchas conformaciones de esta cadena debido a la rotación de la cadena principal alrededor de los dos ángulos de torsión φ y ψ en el átomo de Cα (ver figura). Esta flexibilidad conformacional es responsable de las diferencias en la estructura tridimensional de las proteínas. Los enlaces peptídicos de la cadena son polares, es decir, tienen cargas positivas y negativas separadas (cargas parciales) en el grupo carbonilo , que puede actuar como aceptor de enlaces de hidrógeno, y en el grupo NH, que puede actuar como donador de enlaces de hidrógeno. Por tanto, estos grupos pueden interactuar en la estructura de la proteína. Las proteínas constan principalmente de 20 tipos diferentes de L-α-aminoácidos (los aminoácidos proteinogénicos ). Estos se pueden clasificar según la química de la cadena lateral, que también desempeña un papel estructural importante. La glicina ocupa una posición especial, ya que tiene la cadena lateral más pequeña, solo un átomo de hidrógeno, y por lo tanto puede aumentar la flexibilidad local en la estructura de la proteína. La cisteína, por otro lado, puede reaccionar con otro residuo de cisteína para formar una cistina y así formar un enlace cruzado que estabiliza toda la estructura.

La estructura de la proteína puede considerarse como una secuencia de elementos de estructura secundaria, como hélices α y láminas β . En estas estructuras secundarias, se forman patrones regulares de enlaces H entre los grupos NH y CO de la cadena principal de aminoácidos espacialmente vecinos, y los aminoácidos tienen ángulos Φ y ψ similares . [1]

Ángulos de torsión φ y ψ de la cadena principal de proteínas.

La formación de estas estructuras secundarias satisface eficientemente las capacidades de enlace de hidrógeno de los enlaces peptídicos. Las estructuras secundarias pueden estar estrechamente empaquetadas en el núcleo de la proteína en un ambiente hidrofóbico, pero también pueden presentarse en la superficie de la proteína polar. Cada cadena lateral de aminoácido tiene un volumen limitado que ocupar y un número limitado de posibles interacciones con otras cadenas laterales cercanas, situación que debe tenerse en cuenta en el modelado y alineamientos moleculares. [2]

hélice α

Una hélice alfa con enlaces de hidrógeno (puntos amarillos)

La hélice α es el tipo de estructura secundaria más abundante en las proteínas. La hélice α tiene 3,6 aminoácidos por vuelta con un enlace H formado entre cada cuarto residuo; la longitud promedio es de 10 aminoácidos (3 vueltas) o 10 Å , pero varía de 5 a 40 (1,5 a 11 vueltas). La alineación de los enlaces H crea un momento dipolar para la hélice con una carga positiva parcial resultante en el extremo amino de la hélice. Debido a que esta región tiene grupos NH 2 libres , interactuará con grupos cargados negativamente como los fosfatos. La ubicación más común de las hélices α es en la superficie de los núcleos de proteínas, donde proporcionan una interfaz con el entorno acuoso. El lado interior de la hélice tiende a tener aminoácidos hidrófobos y el lado exterior aminoácidos hidrófilos. Por tanto, uno de cada tres aminoácidos a lo largo de la cadena tenderá a ser hidrófobo, un patrón que puede detectarse con bastante facilidad. En el motivo de la cremallera de leucina, un patrón repetido de leucinas en los lados enfrentados de dos hélices adyacentes es altamente predictivo del motivo. Se puede utilizar un gráfico de rueda helicoidal para mostrar este patrón repetido. Otras hélices α enterradas en el núcleo de la proteína o en las membranas celulares tienen una distribución mayor y más regular de aminoácidos hidrófobos y son altamente predictivas de tales estructuras. Las hélices expuestas en la superficie tienen una menor proporción de aminoácidos hidrofóbicos. El contenido de aminoácidos puede predecir una región de hélice α. Tienden a formarse regiones más ricas en alanina (A), ácido glutámico (E), leucina (L) y metionina (M) y más pobres en prolina (P), glicina (G), tirosina (Y) y serina (S). una hélice α. La prolina desestabiliza o rompe una hélice α, pero puede estar presente en hélices más largas, formando una curva.

hoja β

Las láminas β se forman mediante enlaces H entre un promedio de 5 a 10 aminoácidos consecutivos en una porción de la cadena y otros 5 a 10 más abajo en la cadena. Las regiones que interactúan pueden ser adyacentes, con un bucle corto entre ellas, o muy separadas, con otras estructuras intermedias. Cada cadena puede correr en la misma dirección para formar una lámina paralela, cada dos cadenas puede correr en la dirección química inversa para formar una lámina antiparalela, o las cadenas pueden ser paralelas y antiparalelas para formar una lámina mixta. El patrón de enlace H es diferente en las configuraciones paralela y antiparalela. Cada aminoácido de las hebras interiores de la lámina forma dos enlaces H con los aminoácidos vecinos, mientras que cada aminoácido de las hebras exteriores forma sólo un enlace con una hebra interior. Mirando a través de la hoja en ángulo recto con respecto a las hebras, las hebras más distantes se giran ligeramente en sentido antihorario para formar un giro hacia la izquierda. Los átomos de Cα se alternan por encima y por debajo de la lámina en una estructura plisada, y los grupos laterales R de los aminoácidos se alternan por encima y por debajo de los pliegues. Los ángulos Φ y Ψ de los aminoácidos en las láminas varían considerablemente en una región del gráfico de Ramachandran . Es más difícil predecir la ubicación de las láminas β que de las hélices α. La situación mejora algo cuando se tiene en cuenta la variación de aminoácidos en múltiples alineamientos de secuencias.

Bucles

Algunas partes de la proteína tienen una estructura tridimensional fija, pero no forman estructuras regulares. No deben confundirse con segmentos de proteínas desordenados o desplegados o con espirales aleatorias , una cadena polipeptídica desplegada que carece de estructura tridimensional fija. Estas partes se denominan frecuentemente "bucles" porque conectan láminas β y hélices α. Los bucles suelen estar situados en la superficie de las proteínas y, por tanto, las mutaciones de sus residuos se toleran más fácilmente. Tener más sustituciones, inserciones y eliminaciones en una determinada región de una alineación de secuencia puede ser una indicación de un bucle. Las posiciones de los intrones en el ADN genómico pueden correlacionarse con las ubicaciones de los bucles en la proteína codificada [ cita requerida ] . Los bucles también tienden a tener aminoácidos cargados y polares y frecuentemente son un componente de sitios activos.

Clasificación de proteínas

Las proteínas pueden clasificarse según su similitud estructural y secuencial. Para la clasificación estructural, los tamaños y disposiciones espaciales de las estructuras secundarias descritas en el párrafo anterior se comparan en estructuras tridimensionales conocidas. Históricamente, la clasificación basada en la similitud de secuencias fue la primera en utilizarse. Inicialmente, se realizó una similitud basada en alineamientos de secuencias completas. Posteriormente, las proteínas se clasificaron sobre la base de la aparición de patrones de aminoácidos conservados. Se encuentran disponibles bases de datos que clasifican las proteínas según uno o más de estos esquemas. Al considerar los esquemas de clasificación de proteínas, es importante tener en cuenta varias observaciones. En primer lugar, dos secuencias de proteínas completamente diferentes y de diferentes orígenes evolutivos pueden plegarse en una estructura similar. Por el contrario, la secuencia de un gen antiguo para una estructura determinada puede haber divergido considerablemente en diferentes especies manteniendo al mismo tiempo las mismas características estructurales básicas. Reconocer cualquier similitud de secuencia restante en tales casos puede ser una tarea muy difícil. En segundo lugar, dos proteínas que comparten un grado significativo de similitud de secuencia entre sí o con una tercera secuencia también comparten un origen evolutivo y también deberían compartir algunas características estructurales. Sin embargo, la duplicación y los reordenamientos genéticos durante la evolución pueden dar lugar a nuevas copias de genes, que luego pueden evolucionar hacia proteínas con nuevas funciones y estructuras. [2]

Términos utilizados para clasificar estructuras y secuencias de proteínas.

A continuación se enumeran los términos más utilizados para las relaciones evolutivas y estructurales entre proteínas. Se utilizan muchos términos adicionales para diversos tipos de características estructurales que se encuentran en las proteínas. Las descripciones de dichos términos se pueden encontrar en el sitio web de CATH, el sitio web de Clasificación estructural de proteínas (SCOP) y un tutorial de Glaxo Wellcome en el sitio web suizo de bioinformática Expasy.

Sitio activo
una combinación localizada de grupos laterales de aminoácidos dentro de la estructura terciaria (tridimensional) o cuaternaria (subunidad proteica) que puede interactuar con un sustrato químicamente específico y que proporciona a la proteína actividad biológica. Proteínas de secuencias de aminoácidos muy diferentes pueden plegarse en una estructura que produce el mismo sitio activo.
Arquitectura
son las orientaciones relativas de las estructuras secundarias en una estructura tridimensional sin tener en cuenta si comparten o no una estructura de bucle similar.
Plegar (topología)
un tipo de arquitectura que también tiene una estructura de bucle conservada.
Bloques
es un patrón de secuencia de aminoácidos conservado en una familia de proteínas. El patrón incluye una serie de posibles coincidencias en cada posición de las secuencias representadas, pero no hay posiciones insertadas o eliminadas en el patrón ni en las secuencias. Por el contrario, los perfiles de secuencia son un tipo de matriz de puntuación que representa un conjunto similar de patrones que incluye inserciones y eliminaciones.
Clase
Término utilizado para clasificar dominios proteicos según su contenido estructural secundario y su organización. Levitt y Chothia (1976) reconocieron originalmente cuatro clases , y se agregaron varias otras a la base de datos SCOP. En la base de datos CATH se dan tres clases: principalmente-α, principalmente-β y α–β, y la clase α–β incluye estructuras alternas α/β y α+β.
Centro
la porción de una molécula de proteína plegada que comprende el interior hidrófobo de las hélices α y las láminas β. La estructura compacta reúne grupos laterales de aminoácidos lo suficientemente cerca como para que puedan interactuar. Al comparar estructuras de proteínas, como en la base de datos SCOP, el núcleo es la región común a la mayoría de las estructuras que comparten un pliegue común o que están en la misma superfamilia. En la predicción de estructuras, el núcleo a veces se define como la disposición de estructuras secundarias que probablemente se conservarán durante el cambio evolutivo.
Dominio (contexto de secuencia)
un segmento de una cadena polipeptídica que puede plegarse en una estructura tridimensional independientemente de la presencia de otros segmentos de la cadena. Los dominios separados de una proteína determinada pueden interactuar ampliamente o pueden estar unidos sólo por un tramo de cadena polipeptídica. Una proteína con varios dominios puede utilizar estos dominios para interacciones funcionales con diferentes moléculas.
Familia (contexto de secuencia)
un grupo de proteínas de función bioquímica similar que son idénticas en más del 50% cuando están alineadas. Este mismo límite todavía lo utiliza el Protein Information Resource (PIR). Una familia de proteínas comprende proteínas con la misma función en diferentes organismos (secuencias ortólogas), pero también puede incluir proteínas en el mismo organismo (secuencias parálogas) derivadas de duplicaciones y reordenamientos de genes. Si una alineación de secuencias múltiples de una familia de proteínas revela un nivel común de similitud en toda la longitud de las proteínas, PIR se refiere a la familia como una familia homeomórfica. La región alineada se denomina dominio homeomorfo y esta región puede comprender varios dominios de homología más pequeños que se comparten con otras familias. Las familias pueden subdividirse en subfamilias o agruparse en superfamilias según los respectivos niveles superiores o inferiores de similitud de secuencia. La base de datos SCOP reporta 1296 familias y la base de datos CATH (versión 1.7 beta), reporta 1846 familias.
Cuando se examinan con mayor detalle las secuencias de proteínas con la misma función, se descubre que algunas comparten una alta similitud de secuencia. Obviamente son miembros de la misma familia según los criterios anteriores. Sin embargo, se encuentran otros que tienen muy poca, o incluso insignificante, similitud de secuencia con otros miembros de la familia. En tales casos, la relación familiar entre dos miembros distantes de la familia, A y C, a menudo puede demostrarse encontrando un miembro adicional de la familia B que comparta una similitud significativa tanto con A como con C. Por lo tanto, B proporciona un vínculo de conexión entre A y C. Otro enfoque es examinar alineaciones distantes en busca de coincidencias altamente conservadas.
Con un nivel de identidad del 50%, es probable que las proteínas tengan la misma estructura tridimensional, y los átomos idénticos en la alineación de secuencia también se superpondrán dentro de aproximadamente 1 Å en el modelo estructural. Así, si se conoce la estructura de un miembro de una familia, se puede hacer una predicción confiable para un segundo miembro de la familia, y cuanto mayor sea el nivel de identidad, más confiable será la predicción. El modelado estructural de proteínas se puede realizar examinando qué tan bien encajan las sustituciones de aminoácidos en el núcleo de la estructura tridimensional.
Familia (contexto estructural)
tal como se utiliza en la base de datos FSSP ( Familias de proteínas estructuralmente similares ) y el sitio web DALI/FSSP, dos estructuras que tienen un nivel significativo de similitud estructural pero no necesariamente una similitud de secuencia significativa.
Doblar
similar al motivo estructural, incluye una combinación más grande de unidades estructurales secundarias en la misma configuración. Por tanto, las proteínas que comparten el mismo pliegue tienen la misma combinación de estructuras secundarias que están conectadas por bucles similares. Un ejemplo es el pliegue de Rossman que comprende varias hélices α alternas y hebras β paralelas. En las bases de datos SCOP, CATH y FSSP, las estructuras de proteínas conocidas se han clasificado en niveles jerárquicos de complejidad estructural con el pliegue como nivel básico de clasificación.
Dominio homólogo (contexto de secuencia)
un patrón de secuencia extendido, generalmente encontrado mediante métodos de alineación de secuencias, que indica un origen evolutivo común entre las secuencias alineadas. Un dominio de homología es generalmente más largo que los motivos. El dominio puede incluir toda una secuencia proteica determinada o sólo una parte de la secuencia. Algunos dominios son complejos y están formados por varios dominios de homología más pequeños que se unieron para formar uno más grande durante la evolución. Un dominio que cubre una secuencia completa se denomina dominio homeomorfo por PIR ( Protein Information Resource ).
Módulo
una región de patrones de aminoácidos conservados que comprende uno o más motivos y se considera una unidad fundamental de estructura o función. La presencia de un módulo también se ha utilizado para clasificar proteínas en familias.
Motivo (contexto de secuencia)
un patrón conservado de aminoácidos que se encuentra en dos o más proteínas. En el catálogo de Prosite , un motivo es un patrón de aminoácidos que se encuentra en un grupo de proteínas que tienen una actividad bioquímica similar y que a menudo se encuentra cerca del sitio activo de la proteína. Ejemplos de bases de datos de motivos de secuencia son el catálogo Prosite y la base de datos Stanford Motifs. [3]
Motivo (contexto estructural)
una combinación de varios elementos estructurales secundarios producidos por el plegado de secciones adyacentes de la cadena polipeptídica en una configuración tridimensional específica. Un ejemplo es el motivo hélice-bucle-hélice. Los motivos estructurales también se denominan estructuras supersecundarias y pliegues.
Matriz de puntuación específica de la posición (contexto de secuencia, también conocida como matriz de ponderación o puntuación)
representa una región conservada en una alineación de secuencias múltiples sin espacios. Cada columna de la matriz representa la variación encontrada en una columna del alineamiento de secuencias múltiples.
Matriz de puntuación específica del puesto: 3D (contexto estructural)
representa la variación de aminoácidos que se encuentra en una alineación de proteínas que pertenecen a la misma clase estructural. Las columnas de matriz representan la variación de aminoácidos encontrada en una posición de aminoácido en las estructuras alineadas.
Estructura primaria
la secuencia lineal de aminoácidos de una proteína, que químicamente es una cadena polipeptídica compuesta de aminoácidos unidos por enlaces peptídicos.
Perfil (contexto de secuencia)
una matriz de puntuación que representa un alineamiento de secuencias múltiples de una familia de proteínas. El perfil suele obtenerse de una región bien conservada en un alineamiento de secuencias múltiples. El perfil tiene la forma de una matriz en la que cada columna representa una posición en la alineación y cada fila uno de los aminoácidos. Los valores de la matriz dan la probabilidad de que cada aminoácido esté en la posición correspondiente en la alineación. El perfil se mueve a lo largo de la secuencia objetivo para localizar las regiones con mejor puntuación mediante un algoritmo de programación dinámica. Se permiten espacios durante la coincidencia y en este caso se incluye una penalización por brecha como puntuación negativa cuando no se coincide ningún aminoácido. Un perfil de secuencia también puede representarse mediante un modelo de Markov oculto , denominado perfil HMM.
Perfil (contexto estructural)
una matriz de puntuación que representa qué aminoácidos deberían encajar bien y cuáles deberían encajar mal en posiciones secuenciales en una estructura proteica conocida. Las columnas de perfil representan posiciones secuenciales en la estructura y las filas de perfil representan los 20 aminoácidos. Al igual que con un perfil de secuencia, el perfil estructural se mueve a lo largo de una secuencia objetivo para encontrar la puntuación de alineación más alta posible mediante un algoritmo de programación dinámica. Los huecos pueden incluirse y recibir una penalización. La puntuación resultante proporciona una indicación de si la proteína diana podría adoptar dicha estructura o no.
Estructura cuaternaria
la configuración tridimensional de una molécula de proteína que comprende varias cadenas polipeptídicas independientes.
Estructura secundaria
las interacciones que ocurren entre los grupos C, O y NH en los aminoácidos de una cadena polipeptídica para formar hélices α, láminas β, vueltas, bucles y otras formas, y que facilitan el plegado en una estructura tridimensional.
superfamilia
un grupo de familias de proteínas de longitudes iguales o diferentes que están relacionadas por una similitud de secuencia distante pero detectable. Por tanto , los miembros de una superfamilia determinada tienen un origen evolutivo común. Originalmente, Dayhoff definió el límite para el estatus de superfamilia como la probabilidad de que las secuencias no estén relacionadas de 10 6, sobre la base de una puntuación de alineación (Dayhoff et al. 1978). Las proteínas con pocas identidades en una alineación de secuencias pero con un número convincentemente común de características estructurales y funcionales se ubican en la misma superfamilia. A nivel de estructura tridimensional, las proteínas de la superfamilia compartirán características estructurales comunes, como un pliegue común, pero también puede haber diferencias en el número y disposición de las estructuras secundarias. El recurso PIR utiliza el término superfamilias homeomórficas para referirse a superfamilias que están compuestas de secuencias que se pueden alinear de un extremo a otro, lo que representa un dominio compartido de homología de secuencia única, una región de similitud que se extiende a lo largo de la alineación. Este dominio también puede comprender dominios de homología más pequeños que se comparten con otras familias y superfamilias de proteínas. Aunque una secuencia de proteína determinada puede contener dominios que se encuentran en varias superfamilias, lo que indica una historia evolutiva compleja, las secuencias se asignarán a una sola superfamilia homeomórfica en función de la presencia de similitud a lo largo de un alineamiento de secuencias múltiples. La alineación de la superfamilia también puede incluir regiones que no se alinean ni dentro ni en los extremos de la alineación. Por el contrario, las secuencias de la misma familia se alinean bien a lo largo del alineamiento.
Estructura supersecundaria
un término con significado similar a un motivo estructural. La estructura terciaria es la estructura tridimensional o globular formada por el empaquetamiento o plegado de estructuras secundarias de una cadena polipeptídica. [2]

Estructura secundaria

La predicción de estructuras secundarias es un conjunto de técnicas en bioinformática que tienen como objetivo predecir las estructuras secundarias locales de proteínas basándose únicamente en el conocimiento de su secuencia de aminoácidos . Para las proteínas, una predicción consiste en asignar regiones de la secuencia de aminoácidos como probables hélices alfa , cadenas beta (a menudo denominadas conformaciones "extendidas") o giros . El éxito de una predicción se determina comparándola con los resultados del algoritmo DSSP (o similar, por ejemplo STRIDE ) aplicado a la estructura cristalina de la proteína. Se han desarrollado algoritmos especializados para la detección de patrones específicos bien definidos, como hélices transmembrana y espirales en proteínas. [2]

Se afirmó que los mejores métodos modernos de predicción de estructuras secundarias en proteínas alcanzaban un 80% de precisión después de utilizar aprendizaje automático y alineaciones de secuencias ; [4] esta alta precisión permite el uso de las predicciones como característica que mejora el reconocimiento de pliegues y la predicción ab initio de la estructura de proteínas, la clasificación de motivos estructurales y el refinamiento de las alineaciones de secuencias . La precisión de los métodos actuales de predicción de la estructura secundaria de las proteínas se evalúa en puntos de referencia semanales como LiveBench y EVA .

Fondo

Los primeros métodos de predicción de estructuras secundarias, introducidos en los años 1960 y principios de los 1970, [5] [6] [7] [8] [9] se centraban en identificar probables hélices alfa y se basaban principalmente en modelos de transición hélice-bobina . [10] En la década de 1970 se introdujeron predicciones significativamente más precisas que incluían hojas beta y se basaban en evaluaciones estadísticas basadas en parámetros de probabilidad derivados de estructuras resueltas conocidas. Estos métodos, aplicados a una sola secuencia, suelen tener como máximo una precisión de entre un 60% y un 65% y, a menudo, subestiman las hojas beta. [2] Desde la década de 1980, las redes neuronales artificiales se han aplicado a la predicción de estructuras de proteínas. [11] [12] La conservación evolutiva de las estructuras secundarias se puede aprovechar evaluando simultáneamente muchas secuencias homólogas en un alineamiento de secuencias múltiples , calculando la propensión neta a la estructura secundaria de una columna de aminoácidos alineada. Junto con bases de datos más grandes de estructuras de proteínas conocidas y métodos modernos de aprendizaje automático , como redes neuronales y máquinas de vectores de soporte , estos métodos pueden lograr hasta un 80% de precisión general en proteínas globulares . [13] El límite superior teórico de precisión es de alrededor del 90%, [13] en parte debido a idiosincrasias en la asignación de DSSP cerca de los extremos de las estructuras secundarias, donde las conformaciones locales varían en condiciones nativas pero pueden verse obligadas a asumir una conformación única en los cristales debido a restricciones de embalaje. Además, los métodos típicos de predicción de la estructura secundaria no tienen en cuenta la influencia de la estructura terciaria en la formación de la estructura secundaria; por ejemplo, una secuencia predicha como una probable hélice aún puede ser capaz de adoptar una conformación de cadena beta si está ubicada dentro de una región de hoja beta de la proteína y sus cadenas laterales se empaquetan bien con sus vecinas. Los cambios conformacionales dramáticos relacionados con la función o el entorno de la proteína también pueden alterar la estructura secundaria local.

Perspectiva historica

Hasta la fecha, se han desarrollado más de 20 métodos diferentes de predicción de estructuras secundarias. Uno de los primeros algoritmos fue el método Chou-Fasman , que se basa predominantemente en parámetros de probabilidad determinados a partir de frecuencias relativas de la aparición de cada aminoácido en cada tipo de estructura secundaria. [14] Los parámetros originales de Chou-Fasman, determinados a partir de una pequeña muestra de estructuras resueltas a mediados de la década de 1970, producen resultados pobres en comparación con los métodos modernos, aunque la parametrización se ha actualizado desde que se publicó por primera vez. El método Chou-Fasman tiene aproximadamente entre un 50% y un 60% de precisión para predecir estructuras secundarias. [2]

El siguiente programa notable fue el método GOR , un método basado en la teoría de la información . Utiliza la técnica probabilística más poderosa de la inferencia bayesiana . [15] El método GOR tiene en cuenta no sólo la probabilidad de que cada aminoácido tenga una estructura secundaria particular, sino también la probabilidad condicional de que el aminoácido asuma cada estructura dadas las contribuciones de sus vecinos (no supone que los vecinos tengan esa misma estructura). El enfoque es más sensible y más preciso que el de Chou y Fasman porque las propensiones estructurales de los aminoácidos sólo son fuertes para un pequeño número de aminoácidos como la prolina y la glicina . Las contribuciones débiles de cada uno de los muchos vecinos pueden generar efectos fuertes en general. El método GOR original tenía aproximadamente un 65% de precisión y es mucho más exitoso en la predicción de hélices alfa que de láminas beta, que con frecuencia predecía erróneamente como bucles o regiones desorganizadas. [2]

Otro gran paso adelante fue el uso de métodos de aprendizaje automático . Se utilizaron los primeros métodos de redes neuronales artificiales . Como conjuntos de entrenamiento, utilizan estructuras resueltas para identificar motivos de secuencia comunes asociados con disposiciones particulares de estructuras secundarias. Estos métodos tienen una precisión de más del 70% en sus predicciones, aunque las cadenas beta a menudo todavía no se predicen debido a la falta de información estructural tridimensional que permitiría evaluar los patrones de enlaces de hidrógeno que pueden promover la formación de la conformación extendida requerida para la presencia de una hoja beta completa. [2] PSIPRED y JPRED son algunos de los programas más conocidos basados ​​en redes neuronales para la predicción de estructuras secundarias de proteínas. A continuación, las máquinas de vectores de soporte han demostrado ser particularmente útiles para predecir las ubicaciones de los giros , que son difíciles de identificar con métodos estadísticos. [16] [17]

Las extensiones de las técnicas de aprendizaje automático intentan predecir propiedades locales más detalladas de las proteínas, como los ángulos diédricos de la columna vertebral en regiones no asignadas. Tanto las SVM [18] como las redes neuronales [19] se han aplicado a este problema. [16] Más recientemente, SPINE-X puede predecir con precisión ángulos de torsión de valor real y emplearlos con éxito para la predicción de estructuras ab initio. [20]

Otras mejoras

Se informa que además de la secuencia de proteínas, la formación de estructuras secundarias depende de otros factores. Por ejemplo, se informa que las tendencias de la estructura secundaria dependen también del entorno local, [21] la accesibilidad de los residuos a los disolventes, [22] la clase estructural de las proteínas, [23] e incluso el organismo del que se obtienen las proteínas. [24] Con base en tales observaciones, algunos estudios han demostrado que la predicción de la estructura secundaria se puede mejorar agregando información sobre la clase estructural de la proteína, [25] el área de superficie accesible a los residuos [26] [27] y también información sobre el número de contacto . [28]

Estructura terciaria

El papel práctico de la predicción de la estructura de las proteínas es ahora más importante que nunca. [29] Los esfuerzos modernos de secuenciación de ADN a gran escala , como el Proyecto Genoma Humano , producen cantidades masivas de datos de secuencias de proteínas . A pesar de los esfuerzos de toda la comunidad en genómica estructural , la producción de estructuras proteicas determinadas experimentalmente (normalmente mediante cristalografía de rayos X o espectroscopia de RMN, que requiere mucho tiempo y es relativamente costosa ) está muy por detrás de la producción de secuencias de proteínas.

La predicción de la estructura de las proteínas sigue siendo una tarea extremadamente difícil y sin resolver. Los dos problemas principales son el cálculo de la energía libre de proteínas y encontrar el mínimo global de esta energía. Un método de predicción de la estructura de las proteínas debe explorar el espacio de posibles estructuras de las proteínas, que es astronómicamente grande . Estos problemas pueden evitarse parcialmente en el modelado "comparativo" o de homología y en los métodos de reconocimiento de pliegues , en los que el espacio de búsqueda se poda mediante la suposición de que la proteína en cuestión adopta una estructura cercana a la estructura determinada experimentalmente de otra proteína homóloga. Por otro lado, los métodos de predicción de novo de la estructura de las proteínas deben resolver explícitamente estos problemas. Zhang ha revisado los avances y los desafíos en la predicción de la estructura de las proteínas. [30]

Antes de modelar

La mayoría de los métodos de modelado de estructuras terciarias, como Rosetta, están optimizados para modelar la estructura terciaria de dominios proteicos individuales. Por lo general, primero se realiza un paso llamado análisis de dominio , o predicción de límites de dominio , para dividir una proteína en dominios estructurales potenciales. Al igual que con el resto de la predicción de estructuras terciarias, esto se puede hacer comparativamente a partir de estructuras conocidas [31] o ab initio solo con la secuencia (generalmente mediante aprendizaje automático , asistido por covariación). [32] Las estructuras de los dominios individuales se unen en un proceso llamado ensamblaje de dominios para formar la estructura terciaria final. [33] [34]

Modelado de proteínas ab initio

Métodos basados ​​en energía y fragmentos.

Los métodos ab initio - o de novo - de modelado de proteínas buscan construir modelos tridimensionales de proteínas "desde cero", es decir, basados ​​en principios físicos en lugar de (directamente) en estructuras previamente resueltas. Hay muchos procedimientos posibles que intentan imitar el plegamiento de proteínas o aplicar algún método estocástico para buscar posibles soluciones (es decir, optimización global de una función energética adecuada). Estos procedimientos tienden a requerir enormes recursos computacionales y, por lo tanto, sólo se han llevado a cabo para proteínas diminutas. Para predecir la estructura de las proteínas de novo para proteínas más grandes se necesitarán mejores algoritmos y mayores recursos computacionales como los que ofrecen potentes supercomputadoras (como Blue Gene o MDGRAPE-3 ) o computación distribuida (como Folding@home , el Human Proteome Folding Project y Rosetta@Inicio ). Aunque estas barreras computacionales son enormes, los beneficios potenciales de la genómica estructural (mediante métodos predichos o experimentales) hacen de la predicción de estructuras ab initio un campo de investigación activo. [30]

A partir de 2009, se podía simular una proteína de 50 residuos átomo por átomo en una supercomputadora durante 1 milisegundo. [35] A partir de 2012, se podría realizar un muestreo de estado estable comparable en una computadora de escritorio estándar con una nueva tarjeta gráfica y algoritmos más sofisticados. [36] Se pueden lograr escalas de tiempo de simulación mucho mayores utilizando modelos de grano grueso . [37] [38]

Covariación evolutiva para predecir contactos 3D.

A medida que la secuenciación se volvió más común en la década de 1990, varios grupos utilizaron alineamientos de secuencias de proteínas para predecir mutaciones correlacionadas y se esperaba que estos residuos coevolucionados pudieran usarse para predecir la estructura terciaria (usando la analogía para distanciar las limitaciones de procedimientos experimentales como la RMN ). Se supone que cuando las mutaciones de un solo residuo son ligeramente perjudiciales, pueden ocurrir mutaciones compensatorias para reestabilizar las interacciones residuo-residuo. Este primer trabajo utilizó lo que se conoce como métodos locales para calcular mutaciones correlacionadas a partir de secuencias de proteínas, pero adolecía de correlaciones falsas indirectas que resultan del tratamiento de cada par de residuos como independiente de todos los demás pares. [39] [40] [41]

En 2011, un enfoque estadístico diferente, y esta vez global , demostró que los residuos coevolucionados predichos eran suficientes para predecir el pliegue 3D de una proteína, siempre que hubiera suficientes secuencias disponibles (se necesitan> 1000 secuencias homólogas). [42] El método, EVfold, no utiliza modelado de homología, subprocesos ni fragmentos de estructura 3D y puede ejecutarse en una computadora personal estándar incluso para proteínas con cientos de residuos. La precisión de los contactos predichos utilizando este y otros enfoques relacionados ahora se ha demostrado en muchas estructuras y mapas de contactos conocidos, [43] [44] [45], incluida la predicción de proteínas transmembrana no resueltas experimentalmente. [46]

Modelado comparativo de proteínas.

El modelado comparativo de proteínas utiliza estructuras previamente resueltas como puntos de partida o plantillas. Esto es eficaz porque parece que, aunque el número de proteínas reales es enorme, existe un conjunto limitado de motivos estructurales terciarios a los que pertenecen la mayoría de las proteínas. Se ha sugerido que sólo existen alrededor de 2.000 pliegues proteicos distintos en la naturaleza, aunque hay muchos millones de proteínas diferentes. El modelado comparativo de proteínas se puede combinar con la covariación evolutiva en la predicción de la estructura. [47]

Estos métodos también se pueden dividir en dos grupos: [30]

Modelado de conformaciones de cadenas laterales.

El empaquetado preciso de las cadenas laterales de los aminoácidos representa un problema aparte en la predicción de la estructura de las proteínas. Los métodos que abordan específicamente el problema de predecir la geometría de la cadena lateral incluyen la eliminación de callejones sin salida y los métodos de campo medio autoconsistentes . Las conformaciones de las cadenas laterales con baja energía generalmente se determinan en la cadena principal del polipéptido rígido y utilizando un conjunto de conformaciones de cadenas laterales discretas conocidas como " rotámeros ". Los métodos intentan identificar el conjunto de rotámeros que minimizan la energía general del modelo.

Estos métodos utilizan bibliotecas de rotámeros, que son colecciones de conformaciones favorables para cada tipo de residuo en las proteínas. Las bibliotecas de rotámeros pueden contener información sobre la conformación, su frecuencia y las desviaciones estándar de los ángulos diédricos medios, que pueden usarse en el muestreo. [50] Las bibliotecas de rotámeros se derivan de bioinformática estructural u otros análisis estadísticos de conformaciones de cadenas laterales en estructuras experimentales conocidas de proteínas, como agrupando las conformaciones observadas para carbonos tetraédricos cerca del escalonado (60°, 180°, -60°). valores.

Las bibliotecas de rotámeros pueden ser independientes del esqueleto, dependientes de la estructura secundaria o dependientes del esqueleto. Las bibliotecas de rotámeros independientes de la columna vertebral no hacen referencia a la conformación de la columna vertebral y se calculan a partir de todas las cadenas laterales disponibles de un determinado tipo (por ejemplo, el primer ejemplo de una biblioteca de rotámeros, realizado por Ponder y Richards en Yale en 1987). [51] Las bibliotecas dependientes de la estructura secundaria presentan diferentes ángulos diédricos y/o frecuencias de rotámero para estructuras secundarias de hélice, lámina o bobina. [52] Las bibliotecas de rotámeros dependientes de la columna vertebral presentan conformaciones y/o frecuencias que dependen de la conformación de la columna vertebral local definida por los ángulos diédricos de la columna vertebral y , independientemente de la estructura secundaria. [53]

Las versiones modernas de estas bibliotecas, tal como se utilizan en la mayoría del software, se presentan como distribuciones multidimensionales de probabilidad o frecuencia, donde los picos corresponden a las conformaciones de ángulos diédricos consideradas como rotámeros individuales en las listas. Algunas versiones se basan en datos cuidadosamente seleccionados y se utilizan principalmente para la validación de estructuras, [54] mientras que otras enfatizan las frecuencias relativas en conjuntos de datos mucho más grandes y son la forma utilizada principalmente para la predicción de estructuras, como las bibliotecas de rotámeros de Dunbrack . [55]

Los métodos de empaquetamiento de cadenas laterales son más útiles para analizar el núcleo hidrofóbico de la proteína , donde las cadenas laterales están más estrechamente empaquetadas; tienen más dificultades para abordar las restricciones más flexibles y la mayor flexibilidad de los residuos de la superficie, que a menudo ocupan múltiples conformaciones de rotámeros en lugar de solo una. [56] [57]

Estructura cuaternaria

En el caso de complejos de dos o más proteínas , donde las estructuras de las proteínas se conocen o pueden predecirse con gran precisión, se pueden utilizar métodos de acoplamiento proteína-proteína para predecir la estructura del complejo. La información sobre el efecto de las mutaciones en sitios específicos sobre la afinidad del complejo ayuda a comprender la estructura compleja y a guiar los métodos de acoplamiento.

Software

Existe una gran cantidad de herramientas de software para la predicción de la estructura de proteínas. Los enfoques incluyen modelado de homología , enhebrado de proteínas , métodos ab initio , predicción de estructuras secundarias y predicción de hélices transmembrana y péptidos señal. En particular, el aprendizaje profundo basado en la memoria a largo plazo se ha utilizado para este propósito desde 2007, cuando se aplicó con éxito a la detección de homología de proteínas [58] y para predecir la localización subcelular de proteínas. [59] Algunos métodos exitosos recientes basados ​​en los experimentos CASP incluyen I-TASSER , HHpred y AlphaFold . En 2021, se informó que AlphaFold tenía actualmente el mejor rendimiento. [60]

Conocer la estructura de una proteína a menudo también permite realizar predicciones funcionales. Por ejemplo, el colágeno se pliega en una cadena larga parecida a una fibra y lo convierte en una proteína fibrosa. Recientemente, se han desarrollado varias técnicas para predecir el plegamiento de proteínas y, por tanto, su estructura, por ejemplo, Itasser y AlphaFold.

Métodos de IA

AlphaFold fue una de las primeras IA en predecir estructuras de proteínas. Fue presentado por DeepMind de Google en la decimotercera competencia CASP, que se celebró en 2018. [60] AlphaFold se basa en un enfoque de red neuronal , que predice directamente las coordenadas 3D de todos los átomos distintos de hidrógeno para una proteína determinada utilizando la secuencia de aminoácidos. y secuencias homólogas alineadas . La red AlphaFold consta de un tronco que procesa las entradas a través de capas repetidas y un módulo de estructura que introduce una estructura 3D explícita. [60] Las redes neuronales anteriores para la predicción de la estructura de proteínas utilizaban LSTM . [58] [59]

a, El rendimiento de AlphaFold en el conjunto de datos CASP14 (n = 87 dominios de proteínas) en relación con las 15 entradas principales (de 146 entradas), los números de grupo corresponden a los números asignados a los participantes por CASP. Los datos son la mediana y el intervalo de confianza del 95% de la mediana, estimados a partir de 10.000 muestras bootstrap. b, Nuestra predicción del objetivo CASP14 T1049 (PDB 6Y4F, azul) en comparación con la estructura verdadera (experimental) (verde). Cuatro residuos en el extremo C de la estructura cristalina son valores atípicos del factor B y no se representan. c, objetivo CASP14 T1056 (PDB 6YJ1). Un ejemplo de un sitio de unión de zinc bien predicho (AlphaFold tiene cadenas laterales precisas aunque no predice explícitamente el ion zinc). d, el objetivo CASP T1044 (PDB 6VR4), una cadena única de 2180 residuos, se predijo con el empaquetado de dominio correcto (la predicción se realizó después de CASP utilizando AlphaFold sin intervención).
Arquitectura modelo. Las flechas muestran el flujo de información entre los diversos componentes descritos en este documento. Las formas de las matrices se muestran entre paréntesis con s, número de secuencias (Nseq en el texto principal); r, número de residuos (Nres en el texto principal); c, número de canales.

Dado que AlphaFold genera coordenadas de proteínas directamente, AlphaFold produce predicciones en minutos de unidad de procesamiento de gráficos (GPU) a horas de GPU, dependiendo de la longitud de la secuencia de proteínas. [60]

Métodos actuales de IA y bases de datos de estructuras proteicas predichas.

AlphaFold2, se introdujo en CASP14 y es capaz de predecir estructuras de proteínas con una precisión casi experimental. [61] AlphaFold fue seguido rápidamente por RoseTTAFold [62] y más tarde por OmegaFold y el ESM Metagenomic Atlas. [63] En un estudio reciente, Sommer et al. 2022 demostró la aplicación de la predicción de la estructura de proteínas en la anotación del genoma, específicamente en la identificación de isoformas de proteínas funcionales utilizando estructuras predichas computacionalmente, disponible en https://www.isoform.io. [64] Este estudio destaca la promesa de la predicción de la estructura de las proteínas como herramienta de anotación del genoma y presenta un enfoque práctico guiado por la estructura que se puede utilizar para mejorar la anotación de cualquier genoma.

El Instituto Europeo de Bioinformática junto con DeepMind han construido la base de datos AlphaFold - EBI [65] para estructuras proteicas previstas. [66]

Evaluación de servidores de predicción automática de estructuras.

CASP , que significa Evaluación Crítica de Técnicas para la Predicción de la Estructura de Proteínas, es un experimento comunitario para la predicción de la estructura de proteínas que se lleva a cabo cada dos años desde 1994. CASP brinda la oportunidad de evaluar la calidad de la metodología humana no automatizada disponible ( categoría humana) y servidores automáticos para la predicción de la estructura de proteínas (categoría de servidor, introducida en el CASP7). [67]

El servidor de evaluación automatizada continua de modelos CAMEO3D evalúa los servidores automatizados de predicción de estructuras de proteínas semanalmente utilizando predicciones ciegas para estructuras de proteínas recién liberadas. CAMEO publica los resultados en su sitio web.

Ver también

Referencias

  1. ^ Comunicación Iupac-Iub. Sobre bioquímica. Nomenclatura (1 de septiembre de 1970). "Comisión IUPAC-IUB de Nomenclatura Bioquímica. Abreviaturas y símbolos para la descripción de la conformación de cadenas polipeptídicas. Reglas provisionales (1969)". Bioquímica . 9 (18): 3471–3479. doi :10.1021/bi00820a001. PMID  5509841. S2CID  196933.
  2. ^ abcdefgh Monte DM (2004). Bioinformática: análisis de secuencias y genoma . vol. 2. Prensa del laboratorio Cold Spring Harbor. ISBN 978-0-87969-712-9.
  3. ^ Huang JY, Brutlag DL (enero de 2001). "La base de datos EMOTIF". Investigación de ácidos nucleicos . 29 (1): 202–4. doi :10.1093/nar/29.1.202. PMC 29837 . PMID  11125091. 
  4. ^ Pirovano W, Heringa J (2010). "Predicción de la estructura secundaria de proteínas". Técnicas de minería de datos para las ciencias biológicas . Métodos en biología molecular. vol. 609, págs. 327–48. doi :10.1007/978-1-60327-241-4_19. ISBN 978-1-60327-240-7. PMID  20221928.
  5. ^ Guzzo AV (noviembre de 1965). "La influencia de la secuencia de aminoácidos en la estructura de las proteínas". Revista Biofísica . 5 (6): 809–22. Código bibliográfico : 1965BpJ......5..809G. doi :10.1016/S0006-3495(65)86753-4. PMC 1367904 . PMID  5884309. 
  6. ^ Prothero JW (mayo de 1966). "Correlación entre la distribución de aminoácidos y alfa hélices". Revista Biofísica . 6 (3): 367–70. Código bibliográfico : 1966BpJ.....6..367P. doi :10.1016/S0006-3495(66)86662-6. PMC 1367951 . PMID  5962284. 
  7. ^ Schiffer M, Edmundson AB (marzo de 1967). "Uso de ruedas helicoidales para representar las estructuras de proteínas e identificar segmentos con potencial helicoidal". Revista Biofísica . 7 (2): 121–35. Código bibliográfico : 1967BpJ......7..121S. doi :10.1016/S0006-3495(67)86579-2. PMC 1368002 . PMID  6048867. 
  8. ^ Kotelchuck D, Scheraga HA (enero de 1969). "La influencia de las interacciones de corto alcance en la formación de proteínas. II. Un modelo para predecir las regiones alfa-helicoidales de las proteínas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 62 (1): 14-21. Código bibliográfico : 1969PNAS...62...14K. doi : 10.1073/pnas.62.1.14 . PMC 285948 . PMID  5253650. 
  9. ^ Lewis PN, Go N, Go M, Kotelchuck D, Scheraga HA (abril de 1970). "Perfiles de probabilidad de hélice de proteínas desnaturalizadas y su correlación con estructuras nativas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 65 (4): 810–5. Código bibliográfico : 1970PNAS...65..810L. doi : 10.1073/pnas.65.4.810 . PMC 282987 . PMID  5266152. 
  10. ^ Froimowitz M, Fasman GD (1974). "Predicción de la estructura secundaria de proteínas mediante la teoría de la transición hélice-bobina". Macromoléculas . 7 (5): 583–9. Código bibliográfico : 1974MaMol...7..583F. doi :10.1021/ma60041a009. PMID  4371089.
  11. ^ Qian, Ning; Sejnowski, Terry J. (1988). "Predecir la estructura secundaria de proteínas globulares utilizando modelos de redes neuronales" (PDF) . Revista de biología molecular . 202 (4): 865–884. doi :10.1016/0022-2836(88)90564-5. PMID  3172241. Qian1988.
  12. ^ Rost, Burkhard ; Lijadora, Chris (1993). "Predicción de la estructura secundaria de proteínas con una precisión superior al 70%" (PDF) . Revista de biología molecular . 232 (2): 584–599. doi :10.1006/jmbi.1993.1413. PMID  8345525. Rost1993.
  13. ^ ab Dor O, Zhou Y (marzo de 2007). "Lograr una precisión con validación cruzada del 80% diez veces mayor para la predicción de estructuras secundarias mediante entrenamiento a gran escala". Proteínas . 66 (4): 838–45. doi :10.1002/prot.21298. PMID  17177203. S2CID  14759081.
  14. ^ Chou PY, Fasman GD (enero de 1974). "Predicción de la conformación de proteínas". Bioquímica . 13 (2): 222–45. doi :10.1021/bi00699a002. PMID  4358940.
  15. ^ Garnier J, Osguthorpe DJ, Robson B (marzo de 1978). "Análisis de la precisión e implicaciones de métodos simples para predecir la estructura secundaria de proteínas globulares". Revista de biología molecular . 120 (1): 97–120. doi :10.1016/0022-2836(78)90297-8. PMID  642007.
  16. ^ ab Pham TH, Satou K, Ho TB (abril de 2005). "Máquinas de vectores de soporte para predicción y análisis de giros beta y gamma en proteínas". Revista de Bioinformática y Biología Computacional . 3 (2): 343–58. doi :10.1142/S0219720005001089. PMID  15852509.
  17. ^ Zhang Q, Yoon S, Welsh WJ (mayo de 2005). "Método mejorado para predecir el giro beta utilizando una máquina de vectores de soporte". Bioinformática . 21 (10): 2370–4. doi : 10.1093/bioinformática/bti358. PMID  15797917.
  18. ^ Zimmermann O, Hansmann UH (diciembre de 2006). "Máquinas de vectores de soporte para la predicción de regiones de ángulos diédricos". Bioinformática . 22 (24): 3009–15. doi : 10.1093/bioinformática/btl489. PMID  17005536.
  19. ^ Kuang R, Leslie CS, Yang AS (julio de 2004). "Predicción del ángulo de la columna vertebral de proteínas con enfoques de aprendizaje automático". Bioinformática . 20 (10): 1612–21. doi : 10.1093/bioinformática/bth136 . PMID  14988121.
  20. ^ Faraggi E, Yang Y, Zhang S, Zhou Y (noviembre de 2009). "Predicción de la estructura local continua y el efecto de su sustitución por la estructura secundaria en la predicción de la estructura de proteínas sin fragmentos". Estructura . 17 (11): 1515–27. doi :10.1016/j.str.2009.09.006. PMC 2778607 . PMID  19913486. 
  21. ^ Zhong L, Johnson WC (mayo de 1992). "El medio ambiente afecta la preferencia de los aminoácidos por la estructura secundaria". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 89 (10): 4462–5. Código bibliográfico : 1992PNAS...89.4462Z. doi : 10.1073/pnas.89.10.4462 . PMC 49102 . PMID  1584778. 
  22. ^ Macdonald JR, Johnson WC (junio de 2001). "Las características ambientales son importantes para determinar la estructura secundaria de las proteínas". Ciencia de las proteínas . 10 (6): 1172–7. doi :10.1110/ps.420101. PMC 2374018 . PMID  11369855. 
  23. ^ Costantini S, Colonna G, Facchiano AM (abril de 2006). "Las propensiones de los aminoácidos a las estructuras secundarias están influenciadas por la clase estructural de la proteína". Comunicaciones de investigación bioquímica y biofísica . 342 (2): 441–51. doi :10.1016/j.bbrc.2006.01.159. PMID  16487481.
  24. ^ Marashi SA, Behrouzi R, Pezeshk H (enero de 2007). "Adaptación de proteínas a diferentes entornos: una comparación de las propiedades estructurales del proteoma en Bacillus subtilis y Escherichia coli". Revista de Biología Teórica . 244 (1): 127–32. Código Bib : 2007JThBi.244..127M. doi :10.1016/j.jtbi.2006.07.021. PMID  16945389.
  25. ^ Costantini S, Colonna G, Facchiano AM (octubre de 2007). "PreSSAPro: un software para la predicción de estructura secundaria mediante propiedades de aminoácidos". Biología y Química Computacional . 31 (5–6): 389–92. doi :10.1016/j.compbiolchem.2007.08.010. PMID  17888742.
  26. ^ Momen-Roknabadi A, Sadeghi M, Pezeshk H, Marashi SA (agosto de 2008). "Impacto de la superficie accesible a residuos en la predicción de estructuras secundarias de proteínas". Bioinformática BMC . 9 : 357. doi : 10.1186/1471-2105-9-357 . PMC 2553345 . PMID  18759992. 
  27. ^ Adamczak R, Porollo A, Meller J (mayo de 2005). "Combinación de predicción de estructura secundaria y accesibilidad a disolventes en proteínas". Proteínas . 59 (3): 467–75. doi :10.1002/prot.20441. PMID  15768403. S2CID  13267624.
  28. ^ Lakizadeh A, Marashi SA (2009). "La adición de información del número de contacto puede mejorar la predicción de la estructura secundaria de proteínas mediante redes neuronales" (PDF) . Excl J. 8 : 66–73.
  29. ^ Dorn, Marcio; y Silva, Mariel Barbachán; Buriol, Luciana S.; Cordero, Luis C. (1 de diciembre de 2014). "Predicción de la estructura de proteínas tridimensional: métodos y estrategias computacionales". Biología y Química Computacional . 53 : 251–276. doi :10.1016/j.compbiolchem.2014.10.001. ISSN  1476-9271. PMID  25462334.
  30. ^ abc Zhang Y (junio de 2008). "Avances y desafíos en la predicción de la estructura de proteínas". Opinión actual en biología estructural . 18 (3): 342–8. doi :10.1016/j.sbi.2008.02.004. PMC 2680823 . PMID  18436442. 
  31. ^ Ovchinnikov S, Kim DE, Wang RY, Liu Y, DiMaio F, Baker D (septiembre de 2016). "Predicción mejorada de la estructura de novo en CASP11 mediante la incorporación de información de coevolución en Rosetta". Proteínas . 84 (Suplemento 1): 67–75. doi :10.1002/prot.24974. PMC 5490371 . PMID  26677056. 
  32. ^ Hong SH, Joo K, Lee J (noviembre de 2018). "ConDo: predicción de límites de dominio de proteínas utilizando información coevolutiva". Bioinformática . 35 (14): 2411–2417. doi : 10.1093/bioinformática/bty973. PMID  30500873.
  33. ^ Wollacott AM, Zanghellini A, Murphy P, Baker D (febrero de 2007). "Predicción de estructuras de proteínas multidominio a partir de estructuras de los dominios individuales". Ciencia de las proteínas . 16 (2): 165–75. doi : 10.1110/ps.062270707. PMC 2203296 . PMID  17189483. 
  34. ^ Xu D, Jaroszewski L, Li Z, Godzik A (julio de 2015). "AIDA: ensamblaje de dominio ab initio para la predicción automatizada de la estructura de proteínas multidominio y la predicción de la interacción dominio-dominio". Bioinformática . 31 (13): 2098–105. doi : 10.1093/bioinformática/btv092. PMC 4481839 . PMID  25701568. 
  35. ^ Shaw DE, Dror RO, Salmon JK, Grossman JP, Mackenzie KM, Bank JA, Young C, Deneroff MM, Batson B, Bowers KJ, Chow E (2009). "Simulaciones de dinámica molecular a escala de milisegundos en Anton" . Actas de la conferencia sobre análisis, almacenamiento y redes informáticas de alto rendimiento - SC '09. pag. 1. doi : 10.1145/1654059.1654126. ISBN 9781605587448.
  36. ^ Pierce LC, Salomon-Ferrer R, de Oliveira CA, McCammon JA, Walker RC (septiembre de 2012). "Acceso de rutina a eventos de escala de tiempo de milisegundos con dinámica molecular acelerada". Revista de Teoría y Computación Química . 8 (9): 2997–3002. doi :10.1021/ct300284c. PMC 3438784 . PMID  22984356. 
  37. ^ Kmiecik S, Gront D, Kolinski M, Wieteska L, Dawid AE, Kolinski A (julio de 2016). "Modelos de proteínas de grano grueso y sus aplicaciones". Reseñas químicas . 116 (14): 7898–936. doi : 10.1021/acs.chemrev.6b00163 . PMID  27333362.
  38. ^ Cheung Nueva Jersey, Yu W (noviembre de 2018). "Predicción de novo de la estructura de proteínas mediante simulación de dinámica molecular ultrarrápida". MÁS UNO . 13 (11): e0205819. Código Bib : 2018PLoSO..1305819C. doi : 10.1371/journal.pone.0205819 . PMC 6245515 . PMID  30458007. 
  39. ^ Göbel U, Sander C, Schneider R, Valencia A (abril de 1994). "Mutaciones correlacionadas y contactos de residuos en proteínas". Proteínas . 18 (4): 309–17. doi :10.1002/prot.340180402. PMID  8208723. S2CID  14978727.
  40. ^ Taylor WR, Hatrick K (marzo de 1994). "Cambios compensatorios en alineamientos de secuencias múltiples de proteínas". Ingeniería de proteínas . 7 (3): 341–8. doi : 10.1093/proteína/7.3.341. PMID  8177883.
  41. ^ Neher E (enero de 1994). "¿Con qué frecuencia son cambios correlacionados en familias de secuencias de proteínas?". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 91 (1): 98-102. Código bibliográfico : 1994PNAS...91...98N. doi : 10.1073/pnas.91.1.98 . PMC 42893 . PMID  8278414. 
  42. ^ Marks DS, Colwell LJ, Sheridan R, Hopf TA, Pagnani A, Zecchina R, Sander C (2011). "Estructura 3D de la proteína calculada a partir de la variación de la secuencia evolutiva". MÁS UNO . 6 (12): e28766. Código bibliográfico : 2011PLoSO...628766M. doi : 10.1371/journal.pone.0028766 . PMC 3233603 . PMID  22163331. 
  43. ^ Burger L, van Nimwegen E (enero de 2010). "Separar la coevolución directa de la indirecta de residuos en alineamientos de proteínas". PLOS Biología Computacional . 6 (1): e1000633. Código Bib : 2010PLSCB...6E0633B. doi : 10.1371/journal.pcbi.1000633 . PMC 2793430 . PMID  20052271. 
  44. ^ Morcos F, Pagnani A, Lunt B, Bertolino A, Marks DS, Sander C, Zecchina R, Onuchic JN, Hwa T, Weigt M (diciembre de 2011). "El análisis de acoplamiento directo de la coevolución de residuos captura contactos nativos en muchas familias de proteínas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 108 (49): E1293-301. arXiv : 1110.5223 . Código Bib : 2011PNAS..108E1293M. doi : 10.1073/pnas.1111471108 . PMC 3241805 . PMID  22106262. 
  45. ^ Nugent T, Jones DT (junio de 2012). "Predicción precisa de la estructura de novo de grandes dominios de proteínas transmembrana mediante ensamblaje de fragmentos y análisis de mutaciones correlacionadas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 109 (24): E1540-7. Código Bib : 2012PNAS..109E1540N. doi : 10.1073/pnas.1120036109 . PMC 3386101 . PMID  22645369. 
  46. ^ Hopf TA, Colwell LJ, Sheridan R, Rost B, Sander C, Marks DS (junio de 2012). "Estructuras tridimensionales de proteínas de membrana a partir de secuenciación genómica". Celúla . 149 (7): 1607–21. doi :10.1016/j.cell.2012.04.012. PMC 3641781 . PMID  22579045. 
  47. ^ Jin, Shikai; Chen, Mingchen; Chen, Xun; Bueno, Carlos; Lu, Wei; Schafer, Nicolás P.; Lin, Xingcheng; Onuchic, José N.; Wolynes, Peter G. (9 de junio de 2020). "Predicción de la estructura de proteínas en CASP13 utilizando AWSEM-Suite". Revista de Teoría y Computación Química . 16 (6): 3977–3988. doi : 10.1021/acs.jctc.0c00188. PMID  32396727. S2CID  218618842.
  48. ^ Zhang Y, Skolnick J (enero de 2005). "El problema de predicción de la estructura de las proteínas podría resolverse utilizando la biblioteca PDB actual". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 102 (4): 1029–34. Código Bib : 2005PNAS..102.1029Z. doi : 10.1073/pnas.0407152101 . PMC 545829 . PMID  15653774. 
  49. ^ Bowie JU, Lüthy R, Eisenberg D (julio de 1991). "Un método para identificar secuencias de proteínas que se pliegan en una estructura tridimensional conocida". Ciencia . 253 (5016): 164–70. Código Bib : 1991 Ciencia... 253.. 164B. doi : 10.1126/ciencia.1853201. PMID  1853201.
  50. ^ Dunbrack RL (agosto de 2002). "Bibliotecas Rotamer en el siglo XXI". Opinión actual en biología estructural . 12 (4): 431–40. doi :10.1016/S0959-440X(02)00344-5. PMID  12163064.
  51. ^ Reflexione sobre JW, Richards FM (febrero de 1987). "Plantillas terciarias para proteínas. Uso de criterios de empaquetamiento en la enumeración de secuencias permitidas para diferentes clases estructurales". Revista de biología molecular . 193 (4): 775–91. doi :10.1016/0022-2836(87)90358-5. PMID  2441069.
  52. ^ Lovell SC, Word JM, Richardson JS, Richardson DC (agosto de 2000). "La penúltima biblioteca de rotámeros". Proteínas . 40 (3): 389–408. doi :10.1002/1097-0134(20000815)40:3<389::AID-PROT50>3.0.CO;2-2. PMID  10861930. S2CID  3055173.
  53. ^ Shapovalov MV, Dunbrack RL (junio de 2011). "Una biblioteca de rotámeros dependiente de la columna vertebral suavizada para proteínas derivadas de regresiones y estimaciones adaptativas de la densidad del núcleo". Estructura . 19 (6): 844–58. doi :10.1016/j.str.2011.03.019. PMC 3118414 . PMID  21645855. 
  54. ^ Chen VB, Arendall WB, Headd JJ, Keedy DA, Immormino RM, Kapral GJ, Murray LW, Richardson JS, Richardson DC (enero de 2010). "MolProbity: validación de la estructura de todos los átomos para cristalografía macromolecular". Acta Cristalográfica. Sección D, Cristalografía biológica . 66 (Parte 1): 12-21. doi :10.1107/S0907444909042073. PMC 2803126 . PMID  20057044. 
  55. ^ Bower MJ, Cohen FE, Dunbrack RL (abril de 1997). "Predicción de rotámeros de cadenas laterales de proteínas a partir de una biblioteca de rotámeros dependiente de la columna vertebral: una nueva herramienta de modelado de homología". Revista de biología molecular . 267 (5): 1268–82. doi :10.1006/jmbi.1997.0926. PMID  9150411.
  56. ^ Voigt CA, Gordon DB, Mayo SL (junio de 2000). "Cambiar precisión por velocidad: una comparación cuantitativa de algoritmos de búsqueda en el diseño de secuencias de proteínas". Revista de biología molecular . 299 (3): 789–803. CiteSeerX 10.1.1.138.2023 . doi :10.1006/jmbi.2000.3758. PMID  10835284. 
  57. ^ Krivov GG, Shapovalov MV, Dunbrack RL (diciembre de 2009). "Predicción mejorada de conformaciones de cadenas laterales de proteínas con SCWRL4". Proteínas . 77 (4): 778–95. doi :10.1002/prot.22488. PMC 2885146 . PMID  19603484. 
  58. ^ ab Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). "Detección rápida de homología de proteínas basada en modelos sin alineación". Bioinformática . 23 (14): 1728-1736. doi : 10.1093/bioinformática/btm247 . PMID  17488755.
  59. ^ ab Thireou, T.; Reczko, M. (2007). "Redes bidireccionales de memoria a largo plazo para predecir la localización subcelular de proteínas eucariotas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 4 (3): 441–446. doi :10.1109/tcbb.2007.1015. PMID  17666763. S2CID  11787259.
  60. ^ saltador abcd, John; Evans, Ricardo; Pritzel, Alejandro; Verde, Tim; Figurnov, Michael; Ronneberger, Olaf; Tunyasuvunakool, Kathryn; Bates, Russ; Žídek, Agustín; Potapenko, Anna; Bridgland, Alex (agosto de 2021). "Predicción de la estructura de proteínas de alta precisión con AlphaFold". Naturaleza . 596 (7873): 583–589. Código Bib :2021Natur.596..583J. doi :10.1038/s41586-021-03819-2. ISSN  1476-4687. PMC 8371605 . PMID  34265844. 
  61. ^ Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, et al. (agosto de 2021). "Predicción de la estructura de proteínas de alta precisión con AlphaFold". Naturaleza . 596 (7873): 583–589. doi :10.1038/s41586-021-03819-2. PMC 8371605 . PMID  34265844. 
  62. ^ Baek M, DiMaio F, Anishchenko I, Dauparas J, Ovchinnikov S, Lee GR y col. (agosto de 2021). "Predicción precisa de estructuras e interacciones de proteínas utilizando una red neuronal de tres vías". Ciencia . 373 (6557): 871–876. doi : 10.1126/ciencia.abj8754. PMC 7612213 . PMID  34282049. 
  63. ^ Callaway E (noviembre de 2022). "¿El nuevo rival de AlphaFold? Meta AI predice la forma de 600 millones de proteínas". Naturaleza . 611 (7935): 211–212. doi :10.1038/d41586-022-03539-1. PMID  36319775. S2CID  253257926.
  64. ^ Sommer, Markus J.; Cha, Sooyoung; Varabyou, Ales; Rincón, Natalia; Parque, Sukhwan; Minkin, Ilia; Pertea, Mihaela; Steinegger, Martín; Salzberg, Steven L. (15 de diciembre de 2022). "Identificación de isoformas guiada por estructura para el transcriptoma humano". eVida . 11 : e82556. doi : 10.7554/eLife.82556 . PMC 9812405 . PMID  36519529. 
  65. ^ "Base de datos de estructura de proteínas AlphaFold". EMBL-EBI . Consultado el 30 de noviembre de 2022 .
  66. ^ Varadi M, Anyango S, Deshpande M, Nair S, Natassia C, Yordanova G, et al. (enero de 2022). "Base de datos de estructura de proteínas AlphaFold: ampliar masivamente la cobertura estructural del espacio de secuencia de proteínas con modelos de alta precisión". Ácidos nucleicos Res . 50 (D1): D439–D444. doi : 10.1093/nar/gkab1061. PMC 8728224 . PMID  34791371. 
  67. ^ Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007). "Predicciones de servidor automatizadas en CASP7". Proteínas . 69 (Suplemento 8): 68–82. doi : 10.1002/prot.21761 . PMID  17894354. S2CID  29879391.

Otras lecturas

enlaces externos