stringtranslate.com

AlfaFold

AlphaFold es un programa de inteligencia artificial (IA) desarrollado por DeepMind , una filial de Alphabet , que realiza predicciones de la estructura de las proteínas . [1] El programa está diseñado como un sistema de aprendizaje profundo . [2]

El software AlphaFold ha tenido dos versiones principales. Un equipo de investigadores que utilizó AlphaFold 1 (2018) obtuvo el primer lugar en la clasificación general de la 13.ª Evaluación Crítica de Predicción de Estructuras (CASP) en diciembre de 2018. El programa fue particularmente exitoso en predecir la estructura más precisa para objetivos calificados como los más difíciles. por los organizadores del concurso, donde no existían estructuras plantilla disponibles a partir de proteínas con una secuencia parcialmente similar. Un equipo que utilizó AlphaFold 2 (2020) repitió su colocación en la competencia CASP14 en noviembre de 2020. [3] El equipo logró un nivel de precisión mucho más alto que cualquier otro grupo. [2] [4] Obtuvo una puntuación superior a 90 para alrededor de dos tercios de las proteínas en la prueba de distancia global (GDT) de CASP , una prueba que mide el grado en que la estructura predicha de un programa computacional es similar a la estructura determinada por un experimento de laboratorio, con 100 es una coincidencia completa, dentro del límite de distancia utilizado para calcular GDT. [2] [5]

Los resultados de AlphaFold 2 en CASP14 se describieron como "asombrosos" [6] y "transformacionales". [7] Algunos investigadores observaron que la precisión no es lo suficientemente alta para un tercio de sus predicciones, y que no revela el mecanismo o las reglas del plegamiento de proteínas para que el problema del plegamiento de proteínas se considere resuelto. [8] [9] Sin embargo, ha habido un respeto generalizado por el logro técnico, y el análisis sugiere que AlphaFold 2 es lo suficientemente preciso como para predecir incluso los efectos de una sola mutación. [10] El 15 de julio de 2021, el artículo AlphaFold 2 se publicó en Nature como una publicación de acceso avanzado junto con software de código abierto y una base de datos con capacidad de búsqueda de proteomas de especies . [11] [12] [13] Actualmente se está desarrollando una versión más avanzada de AlphaFold. Permite modelar complejos proteicos con ácidos nucleicos, pequeños ligandos, iones y residuos modificados. [14]

Problema de plegamiento de proteínas

tres cadenas polipeptídicas individuales en diferentes niveles de plegamiento y un grupo de cadenas
Las cadenas de aminoácidos, conocidas como polipéptidos , se pliegan para formar una proteína.

Las proteínas consisten en cadenas de aminoácidos que se pliegan espontáneamente, en un proceso llamado plegamiento de proteínas , para formar estructuras tridimensionales (3-D) de las proteínas. La estructura tridimensional es crucial para la función biológica de la proteína. Sin embargo, comprender cómo la secuencia de aminoácidos puede determinar la estructura tridimensional es un gran desafío, y esto se denomina "problema de plegamiento de proteínas". [15] El "problema del plegamiento de proteínas" implica comprender la termodinámica de las fuerzas interatómicas que determinan la estructura estable plegada, el mecanismo y la vía a través de los cuales una proteína puede alcanzar su estado final plegado con extrema rapidez, y cómo se modifica la estructura nativa de una proteína. puede predecirse a partir de su secuencia de aminoácidos. [dieciséis]

Actualmente las estructuras de las proteínas se determinan experimentalmente mediante técnicas como la cristalografía de rayos X , la criomicroscopía electrónica y la resonancia magnética nuclear , técnicas que son a la vez costosas y requieren mucho tiempo. [15] Tales esfuerzos han identificado las estructuras de alrededor de 170.000 proteínas en los últimos 60 años, mientras que hay más de 200 millones de proteínas conocidas en todas las formas de vida. [5] Si es posible predecir la estructura de las proteínas únicamente a partir de la secuencia de aminoácidos, sería de gran ayuda para avanzar en la investigación científica. Sin embargo, la paradoja de Levinthal muestra que si bien una proteína puede plegarse en milisegundos, el tiempo que lleva calcular todas las estructuras posibles al azar para determinar la verdadera estructura nativa es mayor que la edad del universo conocido, lo que hizo que predecir las estructuras de las proteínas fuera un gran desafío. en biología para científicos. [15]

A lo largo de los años, los investigadores han aplicado numerosos métodos computacionales para resolver el problema de la predicción de la estructura de las proteínas , pero su precisión no se ha acercado a las técnicas experimentales, excepto para proteínas pequeñas y simples, lo que limita su valor. CASP , que se lanzó en 1994 para desafiar a la comunidad científica a producir sus mejores predicciones de la estructura de las proteínas, descubrió que en 2016 se pueden lograr puntuaciones GDT de aproximadamente 40 sobre 100 para las proteínas más difíciles. [5] AlphaFold comenzó a competir en el 2018 CASP utilizando una técnica de aprendizaje profundo de inteligencia artificial (IA) . [15]

Algoritmo

Se sabe que DeepMind ha entrenado el programa en más de 170.000 proteínas de un depósito público de secuencias y estructuras de proteínas. El programa utiliza una forma de red de atención , una técnica de aprendizaje profundo que se centra en hacer que la IA identifique partes de un problema mayor y luego las una para obtener la solución general. [2] La capacitación general se llevó a cabo con una potencia de procesamiento de entre 100 y 200 GPU . [2] Entrenar el sistema en este hardware tomó "unas pocas semanas", después de lo cual el programa tardaría "una cuestión de días" en converger para cada estructura. [17]

AlphaFold 1, 2018

AlphaFold 1 (2018) se basó en el trabajo desarrollado por varios equipos en la década de 2010, un trabajo que analizó los grandes bancos de datos de secuencias de ADN relacionadas ahora disponibles de muchos organismos diferentes (la mayoría sin estructuras 3D conocidas), para tratar de encontrar cambios en diferentes residuos . eso parecía estar correlacionado, aunque los residuos no eran consecutivos en la cadena principal. Tales correlaciones sugieren que los residuos pueden estar físicamente cerca unos de otros, aunque no cerca en la secuencia, lo que permite estimar un mapa de contactos . Sobre la base de un trabajo reciente anterior a 2018, AlphaFold 1 amplió esto para estimar una distribución de probabilidad de qué tan cerca podrían estar los residuos, convirtiendo el mapa de contacto en un mapa de distancia probable. También utilizó métodos de aprendizaje más avanzados que antes para desarrollar la inferencia. Combinando un potencial estadístico basado en esta distribución de probabilidad con la energía libre local calculada de la configuración, el equipo pudo utilizar el descenso de gradiente hasta una solución que se adaptaba mejor a ambas. [ se necesita aclaración ] [18] [19]

Más técnicamente, Torrisi et al resumieron en 2019 el enfoque de AlphaFold versión 1 de la siguiente manera: [20]

Lo fundamental de AlphaFold es un predictor de mapas de distancia implementado como una red neuronal residual muy profunda con 220 bloques residuales que procesan una representación de dimensionalidad 64 × 64 × 128, correspondiente a características de entrada calculadas a partir de dos fragmentos de 64 aminoácidos. Cada bloque residual tiene tres capas, incluida una capa convolucional dilatada de 3 × 3: los bloques pasan por la dilatación de los valores 1, 2, 4 y 8. En total, el modelo tiene 21 millones de parámetros. La red utiliza una combinación de entradas 1D y 2D, incluidos perfiles evolutivos de diferentes fuentes y características de coevolución. Junto con un mapa de distancias en forma de un histograma de distancias muy fino, AlphaFold predice los ángulos Φ y Ψ para cada residuo que se utilizan para crear la estructura 3D predicha inicial. Los autores de AlphaFold concluyeron que la profundidad del modelo, su gran tamaño de cultivo, el gran conjunto de entrenamiento de aproximadamente 29.000 proteínas, las técnicas modernas de aprendizaje profundo y la riqueza de información del histograma de distancias predichas ayudaron a AlphaFold a lograr una alta precisión de predicción del mapa de contacto. .

AlphaFold 2, 2020

Rendimiento, experimentos y arquitectura de AlphaFold 2 [21]
Detalles arquitectónicos de AlphaFold 2 [21]

La versión 2020 del programa ( AlphaFold 2 , 2020) es significativamente diferente de la versión original que ganó CASP 13 en 2018, según el equipo de DeepMind. [22] [23]

El equipo de DeepMind había identificado que su enfoque anterior, que combinaba la física local con un potencial guía derivado del reconocimiento de patrones, tenía una tendencia a sobreestimar las interacciones entre residuos que estaban cerca en la secuencia en comparación con las interacciones entre residuos más alejados a lo largo de la cadena. Como resultado, AlphaFold 1 tendía a preferir modelos con una estructura ligeramente más secundaria ( hélices alfa y láminas beta ) de lo que era en realidad (una forma de sobreajuste ). [24]

El diseño del software utilizado en AlphaFold 1 contenía una serie de módulos, cada uno entrenado por separado, que se utilizaron para producir el potencial guía que luego se combinó con el potencial energético basado en la física. AlphaFold 2 reemplazó esto con un sistema de subredes acopladas en un único modelo diferenciable de extremo a extremo, basado completamente en el reconocimiento de patrones, que fue entrenado de manera integrada como una única estructura integrada. [23] [25] La física local, en forma de refinamiento de energía basado en el modelo AMBER , se aplica solo como un paso de refinamiento final una vez que la predicción de la red neuronal ha convergido, y solo ajusta ligeramente la estructura predicha. [24]

Una parte clave del sistema 2020 son dos módulos, que se cree que están basados ​​en un diseño de transformador , que se utilizan para refinar progresivamente un vector de información para cada relación (o " borde " en la terminología de la teoría de grafos) entre un residuo de aminoácido de la proteína y otro residuo de aminoácido (estas relaciones están representadas por la matriz que se muestra en verde); y entre cada posición de aminoácido y cada secuencia diferente en la alineación de la secuencia de entrada (estas relaciones están representadas por la matriz que se muestra en rojo). [25] Internamente, estas transformaciones de refinamiento contienen capas que tienen el efecto de reunir datos relevantes y filtrar datos irrelevantes (el "mecanismo de atención") para estas relaciones, de una manera dependiente del contexto, aprendido de los datos de entrenamiento. Estas transformaciones se repiten, la información actualizada producida en un paso se convierte en la entrada del siguiente, con la información mejorada de residuo/residuo alimentando la actualización de la información de residuo/secuencia, y luego la información mejorada de residuo/secuencia alimentando la actualización de la información sobre residuos/residuos. [25] A medida que avanza la iteración, según un informe, el "algoritmo de atención... imita la forma en que una persona podría armar un rompecabezas: primero conectando piezas en pequeños grupos, en este caso grupos de aminoácidos, y luego buscando formas de unir los grupos en un todo más grande". [5]

La salida de estas iteraciones luego informa al módulo de predicción de estructura final, [25] que también usa transformadores, [26] y luego se itera a su vez. En un ejemplo presentado por DeepMind, el módulo de predicción de estructura logró una topología correcta para la proteína objetivo en su primera iteración, con un GDT_TS de 78, pero con una gran cantidad (90%) de violaciones estereoquímicas, es decir, ángulos de enlace no físicos o longitudes. En iteraciones posteriores, el número de violaciones estereoquímicas disminuyó. En la tercera iteración, el GDT_TS de la predicción se acercaba a 90, y en la octava iteración, el número de violaciones estereoquímicas se acercaba a cero. [27]

El equipo de AlphaFold declaró en noviembre de 2020 que cree que AlphaFold se puede desarrollar aún más, con margen para seguir mejorando la precisión. [22] Un análisis reciente sugiere que la versión actual de AlphaFold2 ya es lo suficientemente precisa como para predecir incluso los efectos de una sola mutación. [10]

Los datos de entrenamiento se restringieron originalmente a cadenas peptídicas individuales. Sin embargo, la actualización de octubre de 2021, denominada AlphaFold-Multimer, incluyó complejos de proteínas en sus datos de entrenamiento. DeepMind afirmó que esta actualización logró aproximadamente el 70% de las veces predecir con precisión las interacciones proteína-proteína. [28]

Competiciones

Resultados obtenidos para la predicción de proteínas mediante las mejores reconstrucciones en la competencia CASP 2018 (círculos pequeños) y la competencia CASP 2020 (círculos grandes), en comparación con los resultados logrados en años anteriores.
La línea de tendencia carmesí muestra cómo un puñado de modelos, incluido AlphaFold 1, lograron un cambio significativo en 2018 con respecto a la tasa de progreso que se había logrado anteriormente, particularmente con respecto a las secuencias de proteínas consideradas las más difíciles de predecir.
(Se habían realizado mejoras cualitativas en años anteriores, pero sólo cuando los cambios acercan las estructuras dentro de los 8 Å de sus posiciones experimentales comienzan a afectar la medida CASP GDS-TS).
La línea de tendencia naranja muestra que para 2020 los servidores de predicción en línea habían podido aprender de este desempeño e igualarlo, mientras que los mejores otros grupos (curva verde) habían podido, en promedio, realizar algunas mejoras. Sin embargo, la curva de tendencia negra muestra el grado en que AlphaFold 2 volvió a superar esto en 2020, en todos los ámbitos.
La distribución detallada de los puntos de datos indica el grado de coherencia o variación lograda por AlphaFold. Los valores atípicos representan el puñado de secuencias para las que no hizo una predicción tan exitosa.

CASP13

En diciembre de 2018, AlphaFold de DeepMind ocupó el primer lugar en la clasificación general de la 13.ª Evaluación crítica de técnicas para la predicción de la estructura de proteínas (CASP). [29] [30]

El programa predijo con especial éxito la estructura más precisa para objetivos calificados como los más difíciles por los organizadores de la competición, donde no había estructuras plantilla disponibles a partir de proteínas con una secuencia parcialmente similar. AlphaFold dio la mejor predicción para 25 de 43 objetivos proteicos en esta clase, [30] [31] [32] logrando una puntuación media de 58,9 en la puntuación de la prueba de distancia global (GDT) del CASP , por delante de 52,5 y 52,4 de los dos Los siguientes equipos mejor ubicados, [33] que también estaban utilizando el aprendizaje profundo para estimar las distancias de contacto. [34] [35] En general, en todos los objetivos, el programa logró una puntuación GDT de 68,5. [36]

En enero de 2020, las implementaciones y el código ilustrativo de AlphaFold 1 se lanzaron de código abierto en GitHub . [37] [15] pero, como se indica en el archivo "Léame" en ese sitio web: "Este código no se puede usar para predecir la estructura de una secuencia de proteínas arbitraria. Se puede usar para predecir la estructura solo en el conjunto de datos CASP13 (enlaces a continuación). El código de generación de funciones está estrechamente vinculado a nuestra infraestructura interna y a las herramientas externas, por lo que no podemos abrirlo". Por lo tanto, en esencia, el código depositado no es adecuado para uso general sino sólo para las proteínas CASP13. La compañía no ha anunciado planes para hacer que su código esté disponible públicamente a partir del 5 de marzo de 2021.

CASP14

En noviembre de 2020, la nueva versión de DeepMind, AlphaFold 2, ganó CASP14. [17] [38] En general, AlphaFold 2 hizo la mejor predicción para 88 de los 97 objetivos. [6]

En la medida de precisión de la prueba de distancia global (GDT) preferida de la competencia , el programa logró una puntuación media de 92,4 (sobre 100), lo que significa que más de la mitad de sus predicciones obtuvieron una puntuación superior al 92,4% por tener sus átomos en más de 100 puntos. o menos en el lugar correcto, [39] [40] un nivel de precisión que, según se informa , es comparable a técnicas experimentales como la cristalografía de rayos X. [22] [7] [36] En 2018, AlphaFold 1 solo había alcanzado este nivel de precisión en dos de todas sus predicciones. [6] El 88% de las predicciones en la competición de 2020 tuvieron una puntuación GDT_TS superior a 80. En el grupo de objetivos clasificados como los más difíciles, AlphaFold 2 logró una puntuación media de 87.

Medido por la desviación cuadrática media (RMS-D) de la ubicación de los átomos de carbono alfa de la cadena principal de la proteína, que tiende a estar dominada por el desempeño de los valores atípicos peor ajustados, el 88% de las predicciones de AlphaFold 2 tenía una desviación RMS de menos de 4 Å para el conjunto de átomos de C-alfa superpuestos. [6] El 76% de las predicciones lograron mejores que 3 Å, y el 46% tuvo una precisión RMS del átomo de C-alfa mejor que 2 Å, [6] con una desviación RMS mediana en sus predicciones de 2,1 Å para un conjunto de átomos de CA superpuestos. . [6] AlphaFold 2 también logró una precisión en el modelado de cadenas laterales de superficie descrita como "realmente extraordinaria".

Para verificar adicionalmente AlphaFold-2, los organizadores de la conferencia se acercaron a cuatro grupos experimentales líderes en busca de estructuras que encontraban particularmente desafiantes y que no habían podido determinar. En los cuatro casos, los modelos tridimensionales producidos por AlphaFold 2 fueron lo suficientemente precisos como para determinar las estructuras de estas proteínas mediante reemplazo molecular . Entre ellos se encontraba la diana T1100 (Af1503), una pequeña proteína de membrana estudiada por experimentadores durante diez años. [5]

De las tres estructuras en las que AlphaFold 2 tuvo menos éxito en predecir, dos se obtuvieron mediante métodos de RMN de proteínas , que definen la estructura de las proteínas directamente en una solución acuosa, mientras que AlphaFold se entrenó principalmente en estructuras de proteínas en cristales . El tercero existe en la naturaleza como un complejo multidominio que consta de 52 copias idénticas del mismo dominio , una situación que AlphaFold no fue programado para considerar. Para todos los objetivos con un solo dominio, excluyendo solo una proteína muy grande y las dos estructuras determinadas por RMN, AlphaFold 2 logró una puntuación GDT_TS superior a 80.

CASP15

En 2022, DeepMind no ingresó a CASP15, pero la mayoría de los participantes utilizaron AlphaFold o herramientas que incorporaban AlphaFold. [41]

Respuestas

AlphaFold 2 con una puntuación de más de 90 en la prueba de distancia global (GDT) de CASP se considera un logro significativo en biología computacional [5] y un gran progreso hacia un gran desafío de la biología que ya lleva décadas. [7] El ganador del Premio Nobel y biólogo estructural Venki Ramakrishnan calificó el resultado como "un avance sorprendente en el problema del plegamiento de proteínas", [5] y agregó que "Ha ocurrido décadas antes de que muchas personas en el campo hubieran predicho. Será emocionante "Vemos las muchas maneras en que cambiará fundamentalmente la investigación biológica". [17]

Impulsado por comunicados de prensa de CASP y DeepMind, [42] [17] El éxito de AlphaFold 2 recibió una amplia atención de los medios. [43] Además de artículos periodísticos en la prensa científica especializada, como Nature , [7] Science , [5] MIT Technology Review , [2] y New Scientist , [44] [45] la historia fue ampliamente cubierta por los principales medios de comunicación. periódicos nacionales, [46] [47] [48] [49] así como servicios de noticias generales y publicaciones semanales, como Fortune , [50] [23] The Economist , [22] Bloomberg , [36] Der Spiegel , [51] y El espectador . [52] En Londres, The Times hizo de la historia su portada fotográfica, con dos páginas más de cobertura interna y un editorial. [53] [54] Un tema frecuente fue que se espera que la capacidad de predecir estructuras de proteínas con precisión basándose en la secuencia de aminoácidos constituyentes tenga una amplia variedad de beneficios en el espacio de las ciencias biológicas, incluida la aceleración del descubrimiento de fármacos avanzados y la posibilidad de una mejor comprensión de las enfermedades. [7] [55] Al escribir sobre el evento, MIT Technology Review señaló que la IA había "resuelto un gran desafío de la biología de cincuenta años de antigüedad". [2] El mismo artículo continuó señalando que el algoritmo de IA podría "predecir la forma de las proteínas dentro del ancho de un átomo". [2]

Como resume Der Spiegel, las reservas sobre esta cobertura se centran principalmente en dos áreas: "Aún queda mucho por hacer" y: "Ni siquiera sabemos cómo lo hacen". [56]

Aunque el líder del proyecto, John Jumper, realizó una presentación de 30 minutos sobre AlphaFold 2 el segundo día de la conferencia CASP (1 de diciembre), [57] se ha descrito como "de un nivel extremadamente alto, llena de ideas e insinuaciones, pero casi totalmente carente de detalles". [58] [ ¿ fuente poco confiable? ] A diferencia de otros grupos de investigación que se presentaron en CASP14, la presentación de DeepMind no fue grabada y no está disponible públicamente. Se espera que DeepMind publique un artículo científico que describa AlphaFold 2 en el volumen de actas [ ¿cuándo? ] de la conferencia CASP; pero no se sabe si irá más allá de lo dicho en la presentación.

En declaraciones a El País , el investigador Alfonso Valencia afirma: "Lo más importante que nos deja este avance es saber que este problema tiene solución, que es posible solucionarlo... Sólo sabemos el resultado. Google no proporciona el software". Y esta es la parte frustrante del logro porque no beneficiará directamente a la ciencia". [49] Sin embargo, por mucho que Google y DeepMind publiquen, puede ayudar a otros equipos a desarrollar sistemas de inteligencia artificial similares, un beneficio "indirecto". [49] A finales de 2019, DeepMind lanzó gran parte del código de la primera versión de AlphaFold como código abierto; pero sólo cuando el trabajo ya estaba en marcha en el mucho más radical AlphaFold 2. Otra opción que podría tomarse podría ser hacer que la predicción de estructuras AlphaFold 2 esté disponible como un servicio de suscripción en línea de caja negra. Se ha estimado que la convergencia de una única secuencia requiere del orden de 10.000 dólares en tiempo de cálculo al por mayor . [59] Pero esto negaría a los investigadores el acceso a los estados internos del sistema, la oportunidad de aprender de manera más cualitativa qué da lugar al éxito de AlphaFold 2 y el potencial de nuevos algoritmos que podrían ser más livianos y eficientes y aun así lograr tales resultados. Los temores de una posible falta de transparencia por parte de DeepMind se contrastan con cinco décadas de fuertes inversiones públicas en el banco de datos de proteínas abierto y luego también en repositorios abiertos de secuencias de ADN , sin los cuales los datos para entrenar AlphaFold 2 no habrían existido. [60] [61] [62]

Es de destacar que el 18 de junio de 2021, Demis Hassabis tuiteó: "¡Breve actualización sobre algunos avances interesantes en #AlphaFold! Hemos estado trabajando a fondo en nuestro documento de métodos completo (actualmente bajo revisión) con el código fuente abierto adjunto y en proporcionando amplio acceso gratuito a AlphaFold para la comunidad científica. ¡Más muy pronto!" [63]

Sin embargo, todavía no está claro hasta qué punto las predicciones estructurales realizadas por AlphaFold 2 se mantendrán para las proteínas unidas en complejos con otras proteínas y otras moléculas. [64] Esto no fue parte de la competencia CASP en la que participó AlphaFold, y no fue una eventualidad para la que fue diseñado internamente. Mientras que las estructuras que AlphaFold 2 predijo eran para proteínas que tenían fuertes interacciones con otras copias de sí mismas o con otras estructuras, estos fueron los casos en los que las predicciones de AlphaFold 2 tendieron a ser menos refinadas y menos confiables. Como una gran fracción de las máquinas biológicas más importantes de una célula comprende tales complejos, o se relacionan con cómo las estructuras de las proteínas se modifican cuando entran en contacto con otras moléculas, esta es un área que seguirá siendo el foco de considerable atención experimental. [64]

Con tan poco conocimiento aún sobre los patrones internos que AlphaFold 2 aprende a hacer sus predicciones, aún no está claro hasta qué punto el programa puede verse afectado en su capacidad para identificar nuevos pliegues, si dichos pliegues no están bien representados en la proteína existente. estructuras conocidas en bases de datos de estructuras. [8] [64] Tampoco se sabe bien hasta qué punto las estructuras de proteínas en tales bases de datos, en su abrumadora mayoría de proteínas que han sido posibles cristalizar en rayos X, son representativas de proteínas típicas que aún no han sido cristalizadas. Y tampoco está claro qué tan representativas son las estructuras de proteínas congeladas en los cristales de las estructuras dinámicas encontradas en las células in vivo . Las dificultades de AlphaFold 2 con las estructuras obtenidas mediante métodos de RMN de proteínas pueden no ser una buena señal.

Por lo tanto, las estructuras de AlphaFold 2 pueden ser sólo una ayuda limitada en tales contextos. [8] [64] Además, según el columnista de Science Derek Lowe , debido a que la predicción de la unión de moléculas pequeñas incluso entonces todavía no es muy buena, la predicción computacional de los objetivos farmacológicos simplemente no está en condiciones de asumir el papel de "columna vertebral". del descubrimiento de fármacos corporativo, por lo que "la determinación de la estructura de las proteínas simplemente no es un paso limitante en el descubrimiento de fármacos en general". [65] También se ha observado que incluso con una estructura para una proteína, comprender cómo funciona, qué hace y cómo encaja dentro de procesos biológicos más amplios todavía puede ser un gran desafío. [66] Sin embargo, si un mejor conocimiento de la estructura de las proteínas pudiera conducir a una mejor comprensión de los mecanismos de las enfermedades individuales y, en última instancia, a mejores objetivos farmacológicos, o a una mejor comprensión de las diferencias entre los modelos humanos y animales, en última instancia, eso podría conducir a mejoras. [67]

Además, debido a que AlphaFold procesa secuencias exclusivas de proteínas por diseño, no se consideran otras biomoléculas asociadas. Sobre el impacto de la ausencia de metales, cofactores y, más visiblemente, modificaciones cotraduccionales y postraduccionales como la glicosilación de proteínas de los modelos AlphaFold, Elisa Fadda (Universidad de Maynooth, Irlanda) y Jon Agirre (Universidad de York, Reino Unido) destacaron la Es necesario que los científicos revisen bases de datos como UniProt-KB para detectar posibles componentes faltantes, ya que estos pueden desempeñar un papel importante no solo en el plegamiento sino también en la función de las proteínas. [68] Sin embargo, los autores destacaron que muchos modelos AlphaFold eran lo suficientemente precisos como para permitir la introducción de modificaciones posteriores a la predicción . [68]

Finalmente, algunos han observado que incluso una respuesta perfecta al problema de la predicción de proteínas aún dejaría preguntas sobre el problema del plegamiento de las proteínas : comprender en detalle cómo ocurre realmente el proceso de plegamiento en la naturaleza (y cómo a veces también pueden plegarse mal ). [69]

Pero incluso con tales advertencias, AlphaFold 2 fue descrito como un gran paso técnico y un logro intelectual. [70] [71]

Base de datos de estructura de proteínas

La base de datos de estructura de proteínas AlphaFold se lanzó el 22 de julio de 2021, como un esfuerzo conjunto entre AlphaFold y EMBL-EBI . En el momento del lanzamiento, la base de datos contiene modelos predichos por AlphaFold de estructuras proteicas de casi todo el proteoma UniProt de humanos y 20 organismos modelo , lo que suma más de 365.000 proteínas. La base de datos no incluye proteínas con menos de 16 o más de 2700 residuos de aminoácidos , [72] pero para los humanos están disponibles en el archivo por lotes completo. [73] AlphaFold planeó agregar más secuencias a la colección, siendo el objetivo inicial (a principios de 2022) cubrir la mayor parte del conjunto UniRef90 de más de 100 millones de proteínas. Al 15 de mayo de 2022, estaban disponibles 992.316 predicciones. [74]

En julio de 2021, UniProt-KB e InterPro [75] se actualizaron para mostrar las predicciones de AlphaFold cuando estén disponibles. [76]

El 28 de julio de 2022, el equipo subió a la base de datos las estructuras de alrededor de 200 millones de proteínas de 1 millón de especies, cubriendo casi todas las proteínas conocidas del planeta. [77]

Limitaciones

AlphaFold DB utiliza un modelo monomérico similar a la versión CASP14. Como resultado, se esperan muchas de las mismas limitaciones: [78]

Aplicaciones

SARS-CoV-2

AlphaFold se ha utilizado para predecir estructuras de proteínas del SARS-CoV-2 , el agente causante del COVID-19 . Las estructuras de estas proteínas estaban pendientes de detección experimental a principios de 2020. [83] [7] Los científicos del Instituto Francis Crick del Reino Unido examinaron los resultados antes de publicarlos en la comunidad de investigación en general. El equipo también confirmó una predicción precisa contra la proteína de pico del SARS-CoV-2 determinada experimentalmente que se compartió en el Protein Data Bank , una base de datos internacional de acceso abierto, antes de publicar las estructuras determinadas computacionalmente de las moléculas de proteína poco estudiadas. [84] El equipo reconoció que, aunque estas estructuras proteicas podrían no ser objeto de esfuerzos de investigación terapéutica en curso, contribuirán a la comprensión de la comunidad sobre el virus SARS-CoV-2. [84] Específicamente, la predicción de AlphaFold 2 de la estructura de la proteína ORF3a fue muy similar a la estructura determinada por investigadores de la Universidad de California, Berkeley, utilizando microscopía crioelectrónica . Se cree que esta proteína específica ayuda al virus a salir de la célula huésped una vez que se replica. También se cree que esta proteína desempeña un papel en el desencadenamiento de la respuesta inflamatoria a la infección. [85]

Obras publicadas

Ver también

Referencias

  1. ^ "AlfaFold". Mente profunda . Consultado el 30 de noviembre de 2020 .
  2. ^ abcdefgh "La IA de plegamiento de proteínas de DeepMind ha resuelto un gran desafío de la biología de 50 años". Revisión de tecnología del MIT . Consultado el 30 de noviembre de 2020 .
  3. ^ Cabeza, Sam (30 de noviembre de 2020). "DeepMind resuelve el 'gran desafío' de 50 años con IA para el plegamiento de proteínas" CNBC . Consultado el 30 de noviembre de 2020 .
  4. ^ Stoddart, Charlotte (1 de marzo de 2022). "Biología estructural: cómo las proteínas obtuvieron su primer plano". Revista Conocible . doi : 10.1146/conocible-022822-1 . S2CID  247206999 . Consultado el 25 de marzo de 2022 .
  5. ^ abcdefgh Robert F. Service, "El juego ha cambiado". La IA triunfa en la resolución de estructuras de proteínas, Ciencia , 30 de noviembre de 2020
  6. ^ abcdef Mohammed AlQuraishi, Las puntuaciones de CASP14 acaban de publicarse y son asombrosas, Twitter, 30 de noviembre de 2020.
  7. ^ abcdef Callaway, Ewen (30 de noviembre de 2020). "'Lo cambiará todo': la IA de DeepMind da un salto gigantesco en la resolución de estructuras de proteínas". Nature . 588 (7837): 203–204. Bibcode :2020Natur.588..203C. doi :10.1038/d41586-020-03348-4. PMID  33257889. S2CID  227243204.
  8. ^ abc Stephen Curry, No, DeepMind no ha resuelto el plegamiento de proteínas, Reciprocal Space (blog), 2 de diciembre de 2020
  9. ^ Balls, Phillip (9 de diciembre de 2020). "Detrás de las pantallas de AlphaFold". Mundo de la Química .
  10. ^ ab McBride, John M.; Polev, Konstantin; Abdirasulov, Amirbek; Reinharz, Vladimir; Grzybowski, Bartosz A.; Tlusty, Tsvi (20 de noviembre de 2023). "AlphaFold2 puede predecir efectos de mutación única". Cartas de revisión física . 131 (21). arXiv : 2204.06860 . doi : 10.1103/PhysRevLett.131.218401. ISSN  0031-9007.
  11. ^ ab Saltador, John; Evans, Ricardo; Pritzel, Alejandro; Verde, Tim; Figurnov, Michael; Ronneberger, Olaf; Tunyasuvunakool, Kathryn; Bates, Russ; Žídek, Agustín; Potapenko, Anna; Bridgland, Alex; Meyer, Clemens; Kohl, Simón AA; Ballard, Andrew J; Cowie, Andrés; Romera-Paredes, Bernardino; Nikólov, Stanislav; Jainista, Rishub; Adler, Jonás; Atrás, Trevor; Petersen, Stig; Reiman, David; Clancy, Elena; Zielinski, Michal; Steinegger, Martín; Pacholska, Michalina; Berghammer, Tamas; Bodenstein, Sebastián; Plata, David; Vinyals, Oriol; Mayor, Andrew W; Kavukcuoglu, Koray; Kohli, Pushmeet; Hassabis, Demis (15 de julio de 2021). "Predicción de la estructura de proteínas de alta precisión con AlphaFold". Naturaleza . 596 (7873): 583–589. Código Bib :2021Natur.596..583J. doi : 10.1038/s41586-021-03819-2 . PMC 8371605 . PMID  34265844. 
  12. ^ "GitHub - deepmind/alphafold: código fuente abierto para AlphaFold". GitHub . Consultado el 24 de julio de 2021 .
  13. ^ "Base de datos de estructura de proteínas AlphaFold". alphafold.ebi.ac.uk . Consultado el 24 de julio de 2021 .
  14. ^ Un vistazo a la próxima generación de AlphaFold, 31 de octubre de 2023, por el equipo de Google DeepMind AlphaFold y el equipo de Isomorphic Labs
  15. ^ abcde "AlphaFold: uso de IA para descubrimientos científicos". Mente profunda . Consultado el 30 de noviembre de 2020 .
  16. ^ Ken A. Eneldo; S. Banu Ozkan; M. Scott Shell; Thomas R. Weikl (2008). "El problema del plegamiento de proteínas". Revista Anual de Biofísica . 37 : 289–316. doi : 10.1146/annurev.biophys.37.092707.153558. PMC 2443096 . PMID  18573083. 
  17. ^ abcd "AlphaFold: una solución a un gran desafío en biología de 50 años". Mente profunda . Consultado el 30 de noviembre de 2020 .
  18. ^ Mohammed AlQuraishi (mayo de 2019), AlphaFold en CASP13, Bioinformática , 35 (22), 4862–4865 doi :10.1093/bioinformatics/btz422. Véase también Mohammed AlQuraishi (9 de diciembre de 2018), AlphaFold @ CASP13: "¿Qué acaba de pasar?" (entrada en el blog). Mohammed AlQuraishi (15 de enero de 2020), Un momento decisivo para la predicción de la estructura de las proteínas, Nature 577 , 627–628 doi :10.1038/d41586-019-03951-0
  19. ^ AlphaFold: aprendizaje automático para la predicción de la estructura de proteínas, Foldit , 31 de enero de 2020
  20. ^ Torrisi, Mirko y col. (22 de enero de 2020), Métodos de aprendizaje profundo en la predicción de la estructura de proteínas. Revista de biotecnología computacional y estructural vol. 18 1301–1310. doi :10.1016/j.csbj.2019.12.011 (CC-BY-4.0)
  21. ^ ab Saltador, John; et al. (agosto de 2021). "Predicción de la estructura de proteínas de alta precisión con AlphaFold". Naturaleza . 596 (7873): 583–589. Código Bib :2021Natur.596..583J. doi :10.1038/s41586-021-03819-2. ISSN  1476-4687. PMC 8371605 . PMID  34265844. 
  22. ^ abcd "DeepMind está respondiendo a uno de los mayores desafíos de la biología". El economista . 2020-11-30. ISSN  0013-0613 . Consultado el 30 de noviembre de 2020 .
  23. ^ abc Jeremy Kahn, Lecciones del avance de DeepMind en la IA del plegamiento de proteínas, Fortune , 1 de diciembre de 2020
  24. ^ ab John Jumper et al., resumen de la conferencia (diciembre de 2020)
  25. ^ abcd Ver diagrama de bloques. También John Jumper et al. (1 de diciembre de 2020), presentación de AlphaFold 2, diapositiva 10
  26. ^ Se afirma que el módulo de estructura utiliza una "arquitectura de transformador equivalente en 3D" (John Jumper et al. (1 de diciembre de 2020), presentación de AlphaFold 2, diapositiva 12).
    Un diseño para una red de transformadores con SE(3) - equivarianza se propuso en Fabian Fuchs et al SE(3)-Transformers: 3D Roto-Translation Equivariant Attention Networks, NeurIPS 2020; también sitio web. No se sabe qué tan similar puede ser o no a lo que se usó en AlphaFold.
    Vea también la publicación del blog de AlQuaraishi sobre esto, o la publicación más detallada de Fabian Fuchs.
  27. ^ John Jumper y otros. (1 de diciembre de 2020), presentación de AlphaFold 2, diapositivas 12 a 20
  28. ^ Callaway, Ewen (13 de abril de 2022). "¿Qué sigue para AlphaFold y la revolución del plegamiento de proteínas de la IA?". Naturaleza . 604 (7905): 234–238. Código Bib :2022Natur.604..234C. doi : 10.1038/d41586-022-00997-5 . PMID  35418629. S2CID  248156195.
  29. ^ Rendimiento del grupo basado en puntuaciones z combinadas, CASP 13, diciembre de 2018. (AlphaFold = Equipo 043: A7D)
  30. ^ ab Sample, Ian (2 de diciembre de 2018). "DeepMind de Google predice formas 3D de proteínas". El guardián . Consultado el 30 de noviembre de 2020 .
  31. ^ "AlphaFold: uso de IA para descubrimientos científicos". Mente profunda . Consultado el 30 de noviembre de 2020 .
  32. ^ Singh, Arunima (2020). "Estructuras 3D de aprendizaje profundo". Métodos de la naturaleza . 17 (3): 249. doi : 10.1038/s41592-020-0779-y . ISSN  1548-7105. PMID  32132733. S2CID  212403708.
  33. ^ Consulte las tablas de datos CASP 13 para 043 A7D, 322 Zhang y 089 MULTICOM.
  34. ^ Wei Zheng et al , Predicción de la estructura de proteínas guiada por mapas de contactos de aprendizaje profundo en CASP13, Proteínas: estructura, función y bioinformática , 87 (12) 1149–1164 doi : 10.1002/prot.25792; y diapositivas
  35. ^ Hou, Jie; Wu, Tianqi; Cao, Renzhi; Cheng, Jianlin (25 de abril de 2019). "Modelado de estructuras terciarias de proteínas impulsado por aprendizaje profundo y predicción de distancia de contacto en CASP13". Proteínas: estructura, función y bioinformática . Wiley. 87 (12): 1165-1178. bioRxiv 10.1101/552422 . doi :10.1002/prot.25697. ISSN  0887-3585. PMC 6800999 . PMID  30985027.  
  36. ^ abc "El avance de DeepMind ayuda a resolver cómo las enfermedades invaden las células". Bloomberg.com . 2020-11-30 . Consultado el 30 de noviembre de 2020 .
  37. ^ "mente profunda / investigación mental profunda". GitHub . Consultado el 30 de noviembre de 2020 .
  38. ^ "La IA de plegamiento de proteínas de DeepMind ha resuelto un gran desafío de la biología de 50 años". Revisión de tecnología del MIT . Consultado el 30 de noviembre de 2020 .
  39. ^ Para la medida GDT_TS utilizada, cada átomo en la predicción obtiene un cuarto de punto si está dentro de los 8 Å (0,80 nm) de la posición experimental; medio punto si está dentro de 4 Å, tres cuartos de punto si está dentro de 2 Å y un punto entero si está dentro de 1 Å.
  40. ^ Para lograr una puntuación GDT_TS de 92,5, matemáticamente al menos el 70% de la estructura debe tener una precisión de 1 Å, y al menos el 85% debe tener una precisión de 2 Å,
  41. ^ Callaway, Ewen (13 de diciembre de 2022). "Después de AlphaFold: el concurso de plegamiento de proteínas busca el próximo gran avance". Naturaleza . 613 (7942): 13–14. doi : 10.1038/d41586-022-04438-1 . PMID  36513827. S2CID  254660427.
  42. ^ La solución de inteligencia artificial a un desafío científico de 50 años podría "revolucionar" la investigación médica (nota de prensa), comité organizador de CASP , 30 de noviembre de 2020
  43. ^ Brigitte Nerlich, Plegado de proteínas y comunicación científica: entre la exageración y la humildad, blog de la Universidad de Nottingham , 4 de diciembre de 2020
  44. ^ Michael Le Page, el biólogo de inteligencia artificial de DeepMind puede descifrar los secretos de la maquinaria de la vida, New Scientist , 30 de noviembre de 2020
  45. ^ Las predicciones de la última IA de DeepMind podrían revolucionar la medicina, New Scientist , 2 de diciembre de 2020
  46. ^ Cade Metz, Laboratorio de IA de Londres afirma un avance que podría acelerar el descubrimiento de fármacos, New York Times , 30 de noviembre de 2020
  47. ^ Ian Sample,DeepMind AI resuelve el problema del plegamiento de proteínas que data de hace 50 años, The Guardian , 30 de noviembre de 2020
  48. ^ Lizzie Roberts, 'Un avance único en una generación' mientras los investigadores de inteligencia artificial de Google resuelven un desafío biológico de 50 años. Daily Telegraph , 30 de noviembre de 2020
  49. ^ abc Nuño Dominguez, La inteligencia artificial arrasa en uno de los problemas más importantes de la biología, El País , 2 de diciembre de 2020
  50. ^ Jeremy Kahn, En un gran avance científico, la IA predice la forma exacta de las proteínas, Fortune , 30 de noviembre de 2020
  51. ^ Julia Merlot, Forscher hoffen auf Durchbruch für die Medikamentenforschung (Los investigadores esperan un gran avance en la investigación de fármacos), Der Spiegel , 2 de diciembre de 2020
  52. ^ Bissan Al-Lazikani, La resolución de un misterio biológico, The Spectator , 1 de diciembre de 2020
  53. ^ Tom Whipple, "La computadora Deepmind resuelve un nuevo rompecabezas: la vida", The Times , 1 de diciembre de 2020. imagen de portada, vía Twitter.
  54. ^ Tom Whipple, Deepmind encuentra el 'santo grial' de la biología con una respuesta al problema de las proteínas, The Times (en línea), 30 de noviembre de 2020.
    En total, el editor científico Tom Whipple escribió seis artículos sobre el tema para The Times el día que se conoció la noticia. (hilo).
  55. ^ Tim Hubbard , El secreto de la vida, parte 2: la solución al problema del plegamiento de proteínas, medium.com , 30 de noviembre de 2020
  56. ^ Christian Stöcker, Google greift nach dem Leben selbst (Google busca la vida misma), Der Spiegel , 6 de diciembre de 2020
  57. ^ John Jumper y otros. (1 de diciembre de 2020), AlphaFold 2. Presentación realizada en CASP 14.
  58. ^ AlQuraishi, Mohammed (8 de diciembre de 2020). "AlphaFold2 @ CASP14:" Se siente como si el hijo se hubiera ido de casa. "El método". Algunas reflexiones sobre un universo misterioso . Archivado desde el original el 8 de diciembre de 2020 . Consultado el 15 de diciembre de 2020 .
  59. ^ Carlos Outeiral, CASP14: lo que realmente logró AlphaFold 2 de Google DeepMind y lo que significa para el plegamiento de proteínas, la biología y la bioinformática, Oxford Protein Informatics Group. (3 de diciembre)
  60. ^ Aled Edwards, El éxito de AlphaFold2: se necesitó un pueblo, a través de medium.com , 5 de diciembre de 2020
  61. ^ David Briggs, Si Alphafold2 de Google realmente ha resuelto el problema del plegamiento de proteínas, deben mostrar su funcionamiento, The Skeptic , 4 de diciembre de 2020
  62. ^ La visión de The Guardian sobre el cerebro de DeepMind: la forma de lo que vendrá, The Guardian , 6 de diciembre de 2020
  63. ^ Demis Hassabis , "¡Breve actualización sobre algunos avances interesantes en #AlphaFold!" (tuit), vía twitter , 18 de junio de 2021
  64. ^ abcd Tom Ireland, ¿Cómo cambiará AlphaFold la investigación en biociencias?, The Biologist , 4 de diciembre de 2020
  65. ^ Derek Lowe , En proceso: qué es crucial y qué no, Medicina traslacional científica , 25 de septiembre de 2019
  66. ^ Philip Ball , Behind the Screens of AlphaFold, Chemistry World , 9 de diciembre de 2020. Véanse también los tweets del 1 de diciembre
  67. ^ Derek Lowe , En proceso: los grandes problemas, Medicina traslacional científica , 1 de diciembre de 2020
  68. ^ abc Bagdonas, Haroldas; Fogarty, Carl A.; Fadda, Elisa; Agirre, Jon (29/10/2021). "El caso de las modificaciones pospredictivas en la base de datos de estructura de proteínas AlphaFold" (PDF) . Naturaleza Biología estructural y molecular . 28 (11): 869–870. doi : 10.1038/s41594-021-00680-9 . ISSN  1545-9985. PMID  34716446. S2CID  240228913.
  69. ^ por ejemplo, Greg Bowman, El plegamiento de proteínas y los problemas relacionados siguen sin resolverse a pesar del avance de AlphaFold, blog Folding@home , 8 de diciembre de 2020
  70. ^ Cristina Sáez, El último avance fundamental de la biología se basa en la investigación de un científico español, La Vanguardia , 2 de diciembre de 2020. ( Visión general de Alfonso Valencia )
  71. ^ Zero Gravitas y Jacky Liang, AlphaFold 2 de DeepMind: un avance impresionante con cobertura hiperbólica, Skynet hoy (blog), Stanford, 9 de diciembre de 2020
  72. ^ "Base de datos de estructura de proteínas AlphaFold". alphafold.ebi.ac.uk . Consultado el 29 de julio de 2021 .
  73. ^ "Base de datos de estructura de proteínas AlphaFold". alphafold.ebi.ac.uk . Consultado el 27 de julio de 2021 .
  74. ^ "Base de datos de estructura de proteínas AlphaFold". www.alphafold.ebi.ac.uk .
  75. ^ InterPro (22 de julio de 2021). "Predicciones de estructura alfafold disponibles en Interpro". proteínaswebteam.github.io . Consultado el 29 de julio de 2021 .
  76. ^ "Poner el poder de AlphaFold en manos del mundo". Mente profunda .
  77. ^ Callaway, Ewen (28 de julio de 2022). "'Todo el universo de las proteínas: la IA predice la forma de casi todas las proteínas conocidas ". Naturaleza . 608 (7921): 15-16. doi : 10.1038/d41586-022-02083-2 . PMID  35902752. S2CID  251159714.
  78. ^ ab "¿Qué casos de uso no admite AlphaFold?". Base de datos de estructura de proteínas AlphaFold .
  79. ^ "El último avance en inteligencia artificial de DeepMind podría impulsar el descubrimiento de fármacos". Empresa Rápida . ISSN  1085-9241 . Consultado el 24 de enero de 2023 .
  80. ^ An, Hyun Joo; Froehlich, John W; Lebrilla, Carlito B (1 de octubre de 2009). "Determinación de sitios de glicosilación y heterogeneidad específica de sitio en glicoproteínas". Opinión actual en biología química . Técnicas/Mecanismos Analíticos. 13 (4): 421–426. doi :10.1016/j.cbpa.2009.07.022. ISSN  1367-5931. PMC 2749913 . PMID  19700364. 
  81. ^ Hekkelman, Maarten L.; de Vries, Ida; Joosten, Robbie P.; Perrakis, Anastassis (febrero de 2023). "AlphaFill: enriquecimiento de modelos AlphaFold con ligandos y cofactores". Métodos de la naturaleza . 20 (2): 205–213. doi : 10.1038/s41592-022-01685-y . PMC 9911346 . PMID  36424442. 
  82. ^ Dabrowski-Tumanski, Pawel; Stasiak, Andrzej (7 de noviembre de 2023). "La ceguera de AlphaFold a las barreras topológicas afecta su capacidad para predecir correctamente la topología de las proteínas". Moléculas . 28 (22): 7462. doi : 10,3390/moléculas28227462 . PMC 10672856 . 
  83. ^ "La IA puede ayudar a los científicos a encontrar una vacuna contra el Covid-19". Cableado . ISSN  1059-1028 . Consultado el 1 de diciembre de 2020 .
  84. ^ ab "Predicciones computacionales de estructuras proteicas asociadas con COVID-19". Mente profunda . Consultado el 1 de diciembre de 2020 .
  85. ^ "Cómo la nueva IA de plegamiento de proteínas de DeepMind ya está ayudando a combatir la pandemia de coronavirus". Fortuna . Consultado el 1 de diciembre de 2020 .

Otras lecturas

enlaces externos