La scoperta di nuovi materiali e farmaci in genere comporta un processo manuale, basato su tentativi ed errori, che può richiedere decenni e costare milioni di dollari. Per semplificare questo processo, gli scienziati spesso utilizzano l’apprendimento automatico per prevedere le proprietà molecolari e restringere il campo delle molecole che devono sintetizzare e testare in laboratorio.
I ricercatori del MIT e del MIT-IBM Watson AI Lab hanno sviluppato un quadro nuovo e unificato che possono simultaneamente prevedere le proprietà molecolari e generare nuove molecole in modo molto più efficiente rispetto a questi popolari approcci di deep learning.
Per insegnare a un modello di apprendimento automatico a prevedere le proprietà biologiche o meccaniche di una molecola, i ricercatori devono mostrargli milioni di strutture molecolari etichettate, un processo noto come training. A causa dei costi legati alla scoperta delle molecole e delle sfide legate all’etichettatura manuale di milioni di strutture, è spesso difficile ottenere grandi set di dati di addestramento, il che limita l’efficacia degli approcci di apprendimento automatico.
Al contrario, il sistema creato dai ricercatori del MIT può prevedere efficacemente le proprietà molecolari utilizzando solo una piccola quantità di dati. Il loro sistema ha una comprensione di fondo delle regole che determinano il modo in cui gli elementi costitutivi si combinano per produrre molecole valide. Queste regole catturano le somiglianze tra le strutture molecolari, il che aiuta il sistema a generare nuove molecole e a prevederne le proprietà in modo efficiente in termini di dati.
Questo metodo ha sovraperformato altri approcci di apprendimento automatico su set di dati sia di piccole che di grandi dimensioni ed è stato in grado di prevedere con precisione le proprietà molecolari e generare molecole vitali quando è stato fornito un set di dati con meno di 100 campioni.
"Il nostro obiettivo con questo progetto è utilizzare alcuni metodi basati sui dati per accelerare la scoperta di nuove molecole, in modo da poter addestrare un modello per fare la previsione senza tutti questi esperimenti costosi", afferma l'autore principale Minghao Guo, un ricercatore Studente laureato in informatica ed ingegneria elettrica (EECS).
I coautori di Guo includono i membri dello staff di ricerca del MIT-IBM Watson AI Lab Veronika Thost, Payel Das e Jie Chen; i neolaureati del MIT Samuel Song '23 e Adithya Balachandran '23; e l'autore senior Wojciech Matusik, professore di ingegneria elettrica e informatica e membro del MIT-IBM Watson AI Lab, che guida il Computational Design and Fabrication Group all'interno del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). La ricerca sarà presentata alla Conferenza Internazionale sul Machine Learning.
Imparare il linguaggio delle molecole
Per ottenere i migliori risultati con i modelli di apprendimento automatico, gli scienziati hanno bisogno di set di dati di addestramento con milioni di molecole che hanno proprietà simili a quelle che sperano di scoprire. In realtà, questi set di dati specifici del dominio sono generalmente molto piccoli. Pertanto, i ricercatori utilizzano modelli che sono stati preaddestrati su grandi set di dati di molecole generali, che applicano a un set di dati mirato molto più piccolo. Tuttavia, poiché questi modelli non hanno acquisito molta conoscenza specifica del dominio, tendono a funzionare in modo scarso.
Il team del MIT ha adottato un approccio diverso. Hanno creato un sistema di apprendimento automatico che apprende automaticamente il “linguaggio” delle molecole – quella che è nota come grammatica molecolare – utilizzando solo un piccolo set di dati specifico del dominio. Utilizza questa grammatica per costruire molecole vitali e prevederne le proprietà.
Nella teoria del linguaggio, si generano parole, frasi o paragrafi in base a un insieme di regole grammaticali. Puoi pensare ad una grammatica molecolare allo stesso modo. È un insieme di regole di produzione che determinano come generare molecole o polimeri combinando atomi e sottostrutture.
Proprio come una grammatica linguistica, che può generare una pletora di frasi utilizzando le stesse regole, una grammatica molecolare può rappresentare un vasto numero di molecole. Molecole con strutture simili utilizzano le stesse regole di produzione grammaticali e il sistema impara a comprendere queste somiglianze.
Poiché le molecole strutturalmente simili hanno spesso proprietà simili, il sistema utilizza la conoscenza di base della somiglianza molecolare per prevedere le proprietà delle nuove molecole in modo più efficiente.
"Una volta che avremo questa grammatica come rappresentazione di tutte le diverse molecole, potremo usarla per potenziare il processo di previsione delle proprietà", afferma Guo.
Il sistema apprende le regole di produzione di una grammatica molecolare utilizzando l’apprendimento per rinforzo, un processo di tentativi ed errori in cui il modello viene premiato per il comportamento che lo avvicina al raggiungimento di un obiettivo.
Ma poiché potrebbero esserci miliardi di modi per combinare atomi e sottostrutture, il processo per apprendere le regole di produzione grammaticale sarebbe troppo costoso dal punto di vista computazionale per qualsiasi cosa tranne il più piccolo set di dati.
I ricercatori hanno disaccoppiato la grammatica molecolare in due parti. La prima parte, chiamata metagrammatica, è una grammatica generale e ampiamente applicabile che viene progettata manualmente e fornita al sistema all'inizio. Quindi deve solo apprendere una grammatica molto più piccola, specifica per la molecola, dal set di dati del dominio. Questo approccio gerarchico accelera il processo di apprendimento.
Grandi risultati, piccoli set di dati
Negli esperimenti, il nuovo sistema dei ricercatori ha generato simultaneamente molecole e polimeri vitali e ha previsto le loro proprietà in modo più accurato rispetto a diversi approcci popolari di apprendimento automatico, anche quando i set di dati specifici del dominio contenevano solo poche centinaia di campioni. Anche altri metodi richiedevano una costosa fase di pre-addestramento che il nuovo sistema evita.
La tecnica si è rivelata particolarmente efficace nel prevedere le proprietà fisiche dei polimeri, come la temperatura di transizione vetrosa, che è la temperatura richiesta affinché un materiale passi dallo stato solido a quello liquido. Ottenere queste informazioni manualmente è spesso estremamente costoso perché gli esperimenti richiedono temperature e pressioni estremamente elevate.
Per spingere ulteriormente il loro approccio, i ricercatori hanno ridotto di oltre la metà un set di addestramento, portandolo a soli 94 campioni. Il loro modello ha comunque ottenuto risultati alla pari con i metodi addestrati utilizzando l’intero set di dati.
“Questa rappresentazione basata sulla grammatica è molto potente. E poiché la grammatica stessa è una rappresentazione molto generale, può essere distribuita a diversi tipi di dati sotto forma di grafico. Stiamo cercando di identificare altre applicazioni oltre alla chimica o alla scienza dei materiali”, afferma Guo.
In futuro, vogliono anche estendere la loro attuale grammatica molecolare per includere la geometria 3D di molecole e polimeri, che è fondamentale per comprendere le interazioni tra le catene polimeriche. Stanno anche sviluppando un'interfaccia che mostrerebbe all'utente le regole di produzione grammaticali apprese e solleciterebbe feedback per correggere regole che potrebbero essere errate, aumentando la precisione del sistema.
Questo lavoro è finanziato, in parte, dal MIT-IBM Watson AI Lab e dalla sua azienda membro, Evonik.
lascia un commento