Les modèles génératifs profonds deviennent des outils de plus en plus puissants lorsqu’il s’agit de la création in silico de nouvelles protéines. Les modèles de diffusion, une classe de modèles génératifs récemment démontrés comme générant des protéines physiologiquement plausibles, distinctes de toutes les protéines réelles observées dans la nature, permettent une capacité et un contrôle inégalés dans la conception de protéines de novo. Cependant, les modèles de pointe actuels construisent des structures protéiques, ce qui limite considérablement l’étendue de leurs données d’entraînement et confine les générations à une fraction infime et biaisée de l’espace de conception des protéines. Les chercheurs de Microsoft ont développé EvoDiff, un cadre de diffusion à usage général qui permet la création de protéines réglables dans l'espace des séquences en combinant des données à l'échelle évolutive avec les capacités de conditionnement distinctes des modèles de diffusion. EvoDiff peut rendre variées les protéines structurellement plausibles, couvrant toute la gamme des séquences et des fonctions possibles. L'universalité de la formulation basée sur la séquence est démontrée par le fait qu'EvoDiff peut construire des protéines inaccessibles aux modèles basés sur la structure, tels que ceux comportant des sections désordonnées, tout en étant capable de concevoir des échafaudages pour des motifs structurels utiles. Ils espèrent qu’EvoDiff ouvrira la voie à une conception programmable et axée sur la séquence dans l’ingénierie des protéines, leur permettant ainsi d’aller au-delà du paradigme structure-fonction.
EvoDiff est un nouveau système de modélisation générative pour la création de protéines programmables à partir de données de séquence uniquement, développé en combinant des ensembles de données à l'échelle évolutive avec des modèles de diffusion. Ils utilisent un cadre de diffusion discret dans lequel un processus direct corrompt de manière itérative une séquence protéique en modifiant ses identités d'acides aminés, et un processus inverse appris, paramétré par un réseau neuronal, prédit les changements apportés à chaque itération, en tirant parti du cadrage naturel de protéines sous forme de séquences de jetons discrets sur un langage d’acides aminés.
Des séquences de protéines peuvent être créées à partir de zéro en utilisant la méthode inversée. Comparée aux formulations de diffusion continue traditionnellement utilisées dans la conception de structures protéiques, la formulation de diffusion discrète utilisée dans EvoDiff se démarque comme une amélioration mathématique significative. Les alignements de séquences multiples (MSA) mettent en évidence les modèles de conservation et la variation des séquences d'acides aminés de groupes de protéines apparentées, capturant ainsi des liens évolutifs au-delà des ensembles de données à l'échelle évolutive de séquences protéiques uniques. Pour profiter de cette profondeur supplémentaire d'informations évolutives, ils construisent des modèles de diffusion discrets formés sur les MSA pour produire de nouvelles lignées uniques.
Pour illustrer leur efficacité dans la conception de protéines accordables, les chercheurs examinent les modèles de séquence et de MSA (EvoDiff-Seq et EvoDiff-MSA, respectivement) sur un spectre d'activités de génération. Ils commencent par démontrer qu’EvoDiff-Seq produit de manière fiable des protéines variées et de haute qualité qui reflètent avec précision la composition et la fonction des protéines dans la nature. EvoDiff-MSA permet le développement guidé de nouvelles séquences en alignant des protéines avec des histoires évolutives similaires mais uniques. Enfin, ils montrent qu'EvoDiff peut générer de manière fiable des protéines avec des IDR, surmontant directement une limitation clé des modèles génératifs basés sur la structure, et peut générer des échafaudages pour des motifs structurels fonctionnels sans aucune information structurelle explicite en exploitant les capacités de conditionnement du cadre de modélisation basé sur la diffusion. et son ancrage dans un espace de conception universel.
Pour générer des protéines diverses et nouvelles avec la possibilité de conditionnement basé sur des limitations de séquence, les chercheurs présentent EvoDiff, un cadre de modélisation de diffusion. En remettant en question un paradigme de conception de protéines basé sur la structure, EvoDiff peut échantillonner de manière inconditionnelle une diversité de protéines structurellement plausible en générant des zones intrinsèquement désordonnées et en échafaudant des motifs structurels à partir de données de séquence. Dans le domaine de l'évolution des séquences protéiques, EvoDiff est le premier framework d'apprentissage en profondeur à démontrer l'efficacité de la modélisation générative de diffusion.
Le conditionnement via le guidage, dans lequel les séquences créées peuvent être ajustées de manière itérative pour répondre aux qualités souhaitées, pourrait être ajouté à ces capacités dans des études futures. Le cadre EvoDiff-D3PM est naturel pour le conditionnement via le guidage, car l'identité de chaque résidu dans une séquence peut être modifiée à chaque étape de décodage. Cependant, les chercheurs ont observé que l’OADM surpasse généralement le D3PM en termes de génération inconditionnelle, probablement parce que la tâche de débruitage de l’OADM est plus facile à apprendre que celle du D3PM. Malheureusement, l’efficacité du guidage est réduite par l’OADM et d’autres modèles LRAR conditionnels préexistants comme ProGen (54). On s'attend à ce que de nouvelles séquences protéiques soient générées en conditionnant EvoDiff-D3PM avec des objectifs fonctionnels, tels que ceux décrits par les classificateurs de fonctions de séquence.
Les exigences minimales en matière de données d'EvoDiff signifient qu'il peut être facilement adapté à des utilisations ultérieures, ce qui ne serait possible qu'avec une approche basée sur la structure. Les chercheurs ont montré qu'EvoDiff peut créer un IDR via l'inpainting sans réglage fin, évitant ainsi l'écueil classique des modèles prédictifs et génératifs basés sur la structure. Le coût élevé d'obtention de structures pour de grands ensembles de données de séquençage peut empêcher les chercheurs d'utiliser de nouvelles options de conception biologique, médicinale ou scientifique qui pourraient être débloquées en ajustant EvoDiff sur des ensembles de données spécifiques à une application, comme ceux des bibliothèques d'affichage ou des écrans à grande échelle. Bien qu'AlphaFold et les algorithmes associés puissent prédire les structures de nombreuses séquences, ils ont du mal à gérer les mutations ponctuelles et peuvent être trop confiants lorsqu'ils indiquent les structures de protéines parasites.
Les chercheurs ont montré plusieurs méthodes grossières pour conditionner la production via des échafaudages et de la peinture ; cependant, EvoDiff peut être conditionné par du texte, des informations chimiques ou d'autres modalités pour fournir un contrôle beaucoup plus fin sur la fonction des protéines. À l’avenir, ce concept de conception de séquences protéiques accordables sera utilisé de diverses manières. Par exemple, des facteurs de transcription ou des endonucléases conçus de manière conditionnelle pourraient être utilisés pour moduler les acides nucléiques par programmation ; les produits biologiques pourraient être optimisés pour la livraison et le trafic in vivo ; et le réglage zéro de la spécificité enzyme-substrat pourrait ouvrir des voies entièrement nouvelles pour la catalyse.
Ensembles de données
Uniref50 est un ensemble de données contenant environ 42 millions de séquences protéiques utilisées par les chercheurs. Les MSA proviennent de l'ensemble de données OpenFold, qui comprend 16 000 000 de clusters UniClust30 et 401 381 MSA couvrant 140 000 chaînes PDB distinctes. Les informations sur les IDR (régions intrinsèquement désordonnées) proviennent du GitHub Reverse Homology.
Les chercheurs utilisent les lignes de base de RFDiffusion pour relever le défi des motifs structurels des échafaudages. Dans le dossier examples/scaffolding-pdbs, vous trouverez des fichiers pdb et fasta qui peuvent être utilisés pour générer des séquences de manière conditionnelle. Le dossier examples/scaffolding-msas comprend également des fichiers pdb qui peuvent être utilisés pour créer des MSA en fonction de certaines conditions.
Modèles actuels
Les chercheurs ont étudié les deux pour décider quelle technique de diffusion directe sur des modalités de données discrètes serait la plus efficace. Un acide aminé est transformé en un jeton de masque unique à chaque étape audacieuse de la distribution autorégressive indépendante de l'ordre OADM. La séquence complète est masquée après un certain nombre d'étapes. Des modèles probabilistes de diffusion par débruitage discret (D3PM) ont également été développés par le groupe, spécifiquement pour les séquences protéiques. Pendant la phase avant d'EvoDiff-D3PM, les lignes sont corrompues par l'échantillonnage de mutations selon une matrice de transition. Cela continue jusqu'à ce que la séquence ne puisse plus être distinguée d'un échantillon uniforme sur les acides aminés, ce qui se produit après plusieurs étapes. Dans tous les cas, la phase de récupération implique de recycler un modèle de réseau neuronal pour réparer les dégâts. Pour EvoDiff-OADM et EvoDiff-D3PM, le modèle entraîné peut produire de nouvelles séquences à partir de séquences de jetons masqués ou d'acides aminés uniformément échantillonnés. En utilisant l’architecture de réseau neuronal convolutif dilaté vue pour la première fois dans le modèle de langage masqué par la protéine CARP, ils ont formé tous les modèles de séquence EvoDiff sur 42 millions de séquences d’UniRef50. Pour chaque schéma de corruption directe et décodage LRAR, ils ont développé des versions avec 38 M et 640 M de paramètres entraînés.
Principales caractéristiques
- Pour générer des séquences protéiques gérables, EvoDiff intègre des données à l’échelle évolutive avec des modèles de diffusion.
- EvoDiff peut rendre variées les protéines structurellement plausibles, couvrant toute la gamme des séquences et des fonctions possibles.
- En plus de générer des protéines avec des sections désordonnées et d'autres caractéristiques inaccessibles aux modèles basés sur la structure, EvoDiff peut également produire des échafaudages pour des motifs structurels fonctionnels, prouvant ainsi l'applicabilité générale de la formulation basée sur la séquence.
En conclusion, les scientifiques de Microsoft ont publié un ensemble de modèles de diffusion discrète sur lesquels on peut s'appuyer pour réaliser l'ingénierie et la conception de protéines basées sur des séquences. Il est possible d'étendre les modèles EvoDiff pour une conception guidée basée sur la structure ou la fonction, et ils peuvent être utilisés immédiatement pour la création inconditionnelle, guidée par l'évolution et conditionnelle de séquences protéiques. Ils espèrent qu'en lisant et en écrivant des processus directement dans le langage des protéines, EvoDiff ouvrira de nouvelles possibilités dans la création de protéines programmables.
Vérifiez Papier pré-imprimé et GitHub. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de vous inscrire notre SubReddit de plus de 30 000 ML, Plus de 40 000 communautés Facebook, Chaîne Discorde, et Courriel, où nous partageons les dernières nouvelles en matière de recherche sur l'IA, des projets intéressants en matière d'IA et bien plus encore.
Si vous aimez notre travail, vous allez adorer notre newsletter.
Dhanshree Shenwai est ingénieur en informatique et possède une bonne expérience dans des entreprises FinTech couvrant les domaines de la finance, des cartes et paiements et de la banque avec un vif intérêt pour les applications de l'IA. Elle est enthousiaste à l'idée d'explorer les nouvelles technologies et les progrès dans le monde en évolution d'aujourd'hui qui facilite la vie de chacun.
Laisser une réponse