La découverte de nouveaux matériaux et médicaments implique généralement un processus manuel d’essais et d’erreurs qui peut prendre des décennies et coûter des millions de dollars. Pour rationaliser ce processus, les scientifiques utilisent souvent l’apprentissage automatique pour prédire les propriétés moléculaires et affiner les molécules dont ils ont besoin pour synthétiser et tester en laboratoire.
Des chercheurs du MIT et du MIT-IBM Watson AI Lab ont développé un nouveau cadre unifié qui peuvent simultanément prédire les propriétés moléculaires et générer de nouvelles molécules beaucoup plus efficacement que ces approches populaires d’apprentissage en profondeur.
Pour apprendre à un modèle d'apprentissage automatique à prédire les propriétés biologiques ou mécaniques d'une molécule, les chercheurs doivent lui montrer des millions de structures moléculaires marquées – un processus connu sous le nom de formation. En raison des dépenses liées à la découverte de molécules et des défis liés à l'étiquetage manuel de millions de structures, de grands ensembles de données de formation sont souvent difficiles à obtenir, ce qui limite l'efficacité des approches d'apprentissage automatique.
En revanche, le système créé par les chercheurs du MIT peut prédire efficacement les propriétés moléculaires en utilisant seulement une petite quantité de données. Leur système a une compréhension sous-jacente des règles qui dictent la manière dont les éléments constitutifs se combinent pour produire des molécules valides. Ces règles capturent les similitudes entre les structures moléculaires, ce qui aide le système à générer de nouvelles molécules et à prédire leurs propriétés de manière efficace en termes de données.
Cette méthode a surpassé les autres approches d’apprentissage automatique sur des ensembles de données petits et grands, et a pu prédire avec précision les propriétés moléculaires et générer des molécules viables lorsqu’on lui donnait un ensemble de données contenant moins de 100 échantillons.
"Notre objectif avec ce projet est d'utiliser des méthodes basées sur les données pour accélérer la découverte de nouvelles molécules, afin que vous puissiez former un modèle pour faire des prédictions sans toutes ces expériences coûteuses", explique l'auteur principal Minghao Guo, chercheur. Étudiant diplômé en informatique et génie électrique (EECS).
Les co-auteurs de Guo comprennent Veronika Thost, Payel Das et Jie Chen, membres du personnel de recherche du MIT-IBM Watson AI Lab ; Samuel Song '23 et Adithya Balachandran '23, récents diplômés du MIT ; et l'auteur principal Wojciech Matusik, professeur de génie électrique et d'informatique et membre du MIT-IBM Watson AI Lab, qui dirige le groupe de conception et de fabrication informatiques au sein du laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL). La recherche sera présentée à la Conférence internationale sur l’apprentissage automatique.
Apprendre le langage des molécules
Pour obtenir les meilleurs résultats avec les modèles d’apprentissage automatique, les scientifiques ont besoin d’ensembles de données d’entraînement contenant des millions de molécules possédant des propriétés similaires à celles qu’ils espèrent découvrir. En réalité, ces ensembles de données spécifiques à un domaine sont généralement très petits. Ainsi, les chercheurs utilisent des modèles qui ont été pré-entraînés sur de grands ensembles de données de molécules générales, qu’ils appliquent à un ensemble de données ciblées beaucoup plus petit. Cependant, comme ces modèles n’ont pas acquis beaucoup de connaissances spécifiques au domaine, ils ont tendance à être peu performants.
L'équipe du MIT a adopté une approche différente. Ils ont créé un système d’apprentissage automatique qui apprend automatiquement le « langage » des molécules – ce que l’on appelle une grammaire moléculaire – en utilisant uniquement un petit ensemble de données spécifique à un domaine. Il utilise cette grammaire pour construire des molécules viables et prédire leurs propriétés.
En théorie du langage, on génère des mots, des phrases ou des paragraphes basés sur un ensemble de règles de grammaire. Vous pouvez penser à une grammaire moléculaire de la même manière. Il s'agit d'un ensemble de règles de production qui dictent la manière de générer des molécules ou des polymères en combinant des atomes et des sous-structures.
Tout comme une grammaire de langue, qui peut générer une multitude de phrases utilisant les mêmes règles, une grammaire moléculaire peut représenter un grand nombre de molécules. Les molécules ayant des structures similaires utilisent les mêmes règles de production grammaticale et le système apprend à comprendre ces similitudes.
Étant donné que les molécules structurellement similaires ont souvent des propriétés similaires, le système utilise ses connaissances sous-jacentes en matière de similarité moléculaire pour prédire plus efficacement les propriétés de nouvelles molécules.
"Une fois que nous avons cette grammaire comme représentation de toutes les différentes molécules, nous pouvons l'utiliser pour stimuler le processus de prédiction des propriétés", explique Guo.
Le système apprend les règles de production d’une grammaire moléculaire à l’aide de l’apprentissage par renforcement – un processus d’essais et d’erreurs dans lequel le modèle est récompensé pour le comportement qui le rapproche d’un objectif.
Mais comme il pourrait y avoir des milliards de façons de combiner des atomes et des sous-structures, le processus d’apprentissage des règles de production de grammaire serait trop coûteux en termes de calcul, sauf pour le plus petit ensemble de données.
Les chercheurs ont découplé la grammaire moléculaire en deux parties. La première partie, appelée métagrammaire, est une grammaire générale et largement applicable qu'ils conçoivent manuellement et donnent au système au départ. Il lui suffit ensuite d’apprendre une grammaire beaucoup plus petite et spécifique à la molécule à partir de l’ensemble de données du domaine. Cette approche hiérarchique accélère le processus d'apprentissage.
Gros résultats, petits ensembles de données
Lors d'expériences, le nouveau système des chercheurs a généré simultanément des molécules et des polymères viables et a prédit leurs propriétés avec plus de précision que plusieurs approches d'apprentissage automatique populaires, même lorsque les ensembles de données spécifiques à un domaine ne contenaient que quelques centaines d'échantillons. Certaines autres méthodes nécessitaient également une étape de pré-formation coûteuse que le nouveau système évite.
La technique s’est avérée particulièrement efficace pour prédire les propriétés physiques des polymères, telles que la température de transition vitreuse, qui est la température requise pour qu’un matériau passe du solide au liquide. L’obtention manuelle de ces informations est souvent extrêmement coûteuse car les expériences nécessitent des températures et des pressions extrêmement élevées.
Pour pousser leur approche plus loin, les chercheurs ont réduit de plus de moitié un ensemble de formations, à seulement 94 échantillons. Leur modèle a quand même obtenu des résultats comparables à ceux des méthodes entraînées à l’aide de l’ensemble des données.
« Cette représentation basée sur la grammaire est très puissante. Et comme la grammaire elle-même est une représentation très générale, elle peut être déployée sur différents types de données sous forme de graphique. Nous essayons d'identifier d'autres applications au-delà de la chimie ou de la science des matériaux », explique Guo.
À l’avenir, ils souhaitent également étendre leur grammaire moléculaire actuelle pour inclure la géométrie 3D des molécules et des polymères, essentielle à la compréhension des interactions entre les chaînes polymères. Ils développent également une interface qui montrerait à un utilisateur les règles de production grammaticales apprises et solliciterait des commentaires pour corriger les règles qui pourraient être erronées, améliorant ainsi la précision du système.
Ce travail est financé, en partie, par le MIT-IBM Watson AI Lab et sa société membre, Evonik.
Laisser une réponse