L'IA générative imagine de nouvelles structures protéiques | Actualités du MIT



MIT Actualités FrameDiff 0

La biologie est une tapisserie merveilleuse mais délicate. Au cœur se trouve l’ADN, le maître tisserand qui code les protéines, responsable de l’orchestration des nombreuses fonctions biologiques qui soutiennent la vie dans le corps humain. Cependant, notre corps s’apparente à un instrument finement accordé, susceptible de perdre son harmonie. Après tout, nous sommes confrontés à un monde naturel implacable et en constante évolution : agents pathogènes, virus, maladies et cancers. 

Imaginez si nous pouvions accélérer le processus de création de vaccins ou de médicaments contre les agents pathogènes nouvellement apparus. Et si nous disposions d’une technologie d’édition génétique capable de produire automatiquement des protéines pour rectifier les erreurs d’ADN qui causent le cancer ? La recherche de protéines capables de se lier fortement à des cibles ou d’accélérer des réactions chimiques est vitale pour le développement de médicaments, les diagnostics et de nombreuses applications industrielles, mais il s’agit souvent d’une entreprise longue et coûteuse.

Pour faire progresser nos capacités en ingénierie des protéines, les chercheurs du MIT CSAIL ont mis au point « FrameDiff », un outil informatique permettant de créer de nouvelles structures protéiques au-delà de ce que la nature a produit. L’approche d’apprentissage automatique génère des « cadres » qui s’alignent sur les propriétés inhérentes des structures protéiques, lui permettant de construire de nouvelles protéines indépendamment des conceptions préexistantes, facilitant ainsi des structures protéiques sans précédent.

« Dans la nature, la conception des protéines est un processus lent qui prend des millions d’années. Notre technique vise à apporter une réponse à la résolution des problèmes d'origine humaine qui évoluent beaucoup plus rapidement que le rythme de la nature », déclare Jason Yim, doctorant au MIT CSAIL, auteur principal d'un nouvel article sur ce travail. « L’objectif, en ce qui concerne cette nouvelle capacité de générer des structures protéiques synthétiques, ouvre une myriade de capacités améliorées, telles que de meilleurs liants. Cela signifie concevoir des protéines capables de s'attacher à d'autres molécules de manière plus efficace et sélective, avec des implications étendues liées à l'administration ciblée de médicaments et à la biotechnologie, où cela pourrait conduire au développement de meilleurs biocapteurs. Cela pourrait également avoir des implications dans le domaine de la biomédecine et au-delà, offrant des possibilités telles que le développement de protéines de photosynthèse plus efficaces, la création d’anticorps plus efficaces et l’ingénierie de nanoparticules pour la thérapie génique. 

Cadrage FrameDiff

Les protéines ont des structures complexes, constituées de nombreux atomes reliés par des liaisons chimiques. Les atomes les plus importants qui déterminent la forme 3D de la protéine sont appelés la « colonne vertébrale », un peu comme la colonne vertébrale de la protéine. Chaque triplet d’atomes le long du squelette partage le même modèle de liaisons et de types d’atomes. Les chercheurs ont remarqué que ce modèle pouvait être exploité pour créer des algorithmes d’apprentissage automatique en utilisant des idées issues de la géométrie différentielle et des probabilités. C'est là qu'interviennent les cadres : mathématiquement, ces triplets peuvent être modélisés comme des corps rigides appelés « cadres » (courants en physique) qui ont une position et une rotation en 3D. 

Ces cadres fournissent à chaque triplet suffisamment d’informations pour connaître son environnement spatial. La tâche consiste alors pour un algorithme d’apprentissage automatique à apprendre à déplacer chaque image pour construire un squelette protéique. En apprenant à construire des protéines existantes, l’algorithme, espérons-le, se généralisera et sera capable de créer de nouvelles protéines jamais vues auparavant dans la nature.

Entraîner un modèle pour construire des protéines par « diffusion » implique d’injecter du bruit qui déplace toutes les images de manière aléatoire et brouille l’apparence de la protéine d’origine. Le travail de l'algorithme consiste à déplacer et à faire pivoter chaque image jusqu'à ce qu'elle ressemble à la protéine d'origine. Bien que simple, le développement de la diffusion sur des référentiels nécessite des techniques de calcul stochastique sur les variétés riemanniennes. Du côté théorique, les chercheurs ont développé la « diffusion SE(3) » pour l’apprentissage des distributions de probabilité qui relie de manière non triviale les composantes de translation et de rotation de chaque trame.

L'art subtil de la diffusion

En 2021, DeepMind a introduit AlphaFold2, un algorithme d'apprentissage en profondeur permettant de prédire les structures protéiques 3D à partir de leurs séquences. Lors de la création de protéines synthétiques, il y a deux étapes essentielles : la génération et la prédiction. La génération signifie la création de nouvelles structures et séquences protéiques, tandis que la « prédiction » signifie déterminer quelle est la structure 3D d'une séquence. Ce n'est pas un hasard si AlphaFold2 a également utilisé des cadres pour modéliser des protéines. SE(3) diffusion et FrameDiff ont été inspirés pour pousser plus loin l'idée des frames en incorporant des frames dans des modèles de diffusion, une technique d'IA générative devenue extrêmement populaire dans la génération d'images, comme Midjourney, par exemple. 

Les cadres et principes partagés entre la génération et la prédiction de la structure des protéines signifiaient que les meilleurs modèles des deux côtés étaient compatibles. En collaboration avec l'Institute for Protein Design de l'Université de Washington, la diffusion SE(3) est déjà utilisée pour créer et valider expérimentalement de nouvelles protéines. Plus précisément, ils ont combiné la diffusion SE(3) avec RosettaFold2, un outil de prédiction de la structure des protéines un peu comme AlphaFold2, ce qui a conduit à la « RFdiffusion ». Ce nouvel outil a rapproché les concepteurs de protéines de la résolution de problèmes cruciaux en biotechnologie, notamment le développement de liants protéiques hautement spécifiques pour la conception accélérée de vaccins, l'ingénierie de protéines symétriques pour la délivrance de gènes et un échafaudage de motifs robuste pour une conception précise d'enzymes. 

Les projets futurs de FrameDiff impliquent d'améliorer la généralité des problèmes combinant plusieurs exigences en matière de produits biologiques tels que les médicaments. Une autre extension consiste à généraliser les modèles à toutes les modalités biologiques, y compris l'ADN et les petites molécules. L'équipe postule qu'en élargissant la formation de FrameDiff sur des données plus substantielles et en améliorant son processus d'optimisation, elle pourrait générer des structures fondamentales dotées de capacités de conception comparables à celles de RFdiffusion, tout en préservant la simplicité inhérente de FrameDiff. 

"L'abandon d'un modèle de prédiction de structure pré-entraîné [dans FrameDiff] ouvre la possibilité de générer rapidement des structures s'étendant sur de grandes longueurs", explique Sergey Ovchinnikov, biologiste informatique de l'Université Harvard. L'approche innovante des chercheurs constitue une étape prometteuse pour surmonter les limites des modèles actuels de prédiction de structure. Même s'il s'agit encore d'un travail préliminaire, il s'agit d'un pas encourageant dans la bonne direction. En tant que telle, la vision de la conception de protéines, jouant un rôle central pour relever les défis les plus urgents de l’humanité, semble de plus en plus à portée de main, grâce au travail pionnier de cette équipe de recherche du MIT. 

Yim a rédigé l'article aux côtés de Brian Trippe, postdoctorant à l'Université de Columbia, Valentin De Bortoli, chercheur au Centre national de recherche scientifique du Centre national de recherche scientifique de Paris, Emile Mathieu, postdoctorant à l'Université de Cambridge, et Arnaud Doucet, professeur de statistiques à l'Université d'Oxford et chercheur principal à DeepMind. . Les professeurs Regina Barzilay et Tommi Jaakkola du MIT ont conseillé la recherche. 

Le travail de l'équipe a été soutenu, en partie, par la clinique MIT Abdul Latif Jameel pour l'apprentissage automatique en santé, des subventions EPSRC et un partenariat pour la prospérité entre Microsoft Research et l'Université de Cambridge, le programme de bourses de recherche supérieures de la National Science Foundation, la subvention NSF Expeditions, l'apprentissage automatique. pour le consortium Pharmaceutical Discovery and Synthesis, le programme DTRA Discovery of Medical Countermeasures Against New and Emerging menaces, le programme DARPA Accelerated Molecular Discovery et la subvention Sanofi Computational Antibody Design. Cette recherche sera présentée à la Conférence internationale sur l’apprentissage automatique en juillet.



Lien source

Laisser une réponse

Votre adresse email ne sera pas publiée. Les champs requis sont indiqués *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

fr_FRFrench