Menemui bahan dan ubat baharu lazimnya melibatkan proses manual, percubaan dan kesilapan yang boleh mengambil masa beberapa dekad dan menelan belanja berjuta-juta dolar. Untuk menyelaraskan proses ini, saintis sering menggunakan pembelajaran mesin untuk meramalkan sifat molekul dan mengecilkan molekul yang mereka perlukan untuk mensintesis dan menguji dalam makmal.
Penyelidik dari MIT dan MIT-IBM Watson AI Lab telah membangunkan a rangka kerja baru yang bersatu yang secara serentak boleh meramalkan sifat molekul dan menjana molekul baharu dengan lebih cekap daripada pendekatan pembelajaran mendalam yang popular ini.
Untuk mengajar model pembelajaran mesin untuk meramalkan sifat biologi atau mekanikal molekul, penyelidik mesti menunjukkan kepada berjuta-juta struktur molekul berlabel — satu proses yang dikenali sebagai latihan. Disebabkan perbelanjaan untuk menemui molekul dan cabaran pelabelan tangan berjuta-juta struktur, set data latihan yang besar selalunya sukar diperoleh, yang mengehadkan keberkesanan pendekatan pembelajaran mesin.
Sebaliknya, sistem yang dicipta oleh penyelidik MIT secara berkesan boleh meramalkan sifat molekul menggunakan hanya sejumlah kecil data. Sistem mereka mempunyai pemahaman asas tentang peraturan yang menentukan cara blok binaan bergabung untuk menghasilkan molekul yang sah. Peraturan ini menangkap persamaan antara struktur molekul, yang membantu sistem menjana molekul baharu dan meramalkan sifatnya dengan cara yang cekap data.
Kaedah ini mengatasi pendekatan pembelajaran mesin yang lain pada set data kecil dan besar, dan dapat meramalkan sifat molekul dengan tepat dan menjana molekul berdaya maju apabila diberikan set data dengan kurang daripada 100 sampel.
"Matlamat kami dengan projek ini adalah untuk menggunakan beberapa kaedah dipacu data untuk mempercepatkan penemuan molekul baharu, supaya anda boleh melatih model untuk melakukan ramalan tanpa semua eksperimen yang memerlukan kos tinggi ini," kata pengarang utama Minghao Guo, seorang pelajar siswazah sains komputer dan kejuruteraan elektrik (EECS).
Pengarang bersama Guo termasuk kakitangan penyelidik MIT-IBM Watson AI Lab Veronika Thost, Payel Das dan Jie Chen; graduan MIT baru-baru ini Samuel Song '23 dan Adithya Balachandran '23; dan pengarang kanan Wojciech Matusik, seorang profesor kejuruteraan elektrik dan sains komputer dan ahli MIT-IBM Watson AI Lab, yang mengetuai Kumpulan Reka Bentuk dan Fabrikasi Pengiraan dalam Makmal Sains Komputer dan Kepintaran Buatan (CSAIL) MIT. Penyelidikan itu akan dibentangkan di Persidangan Antarabangsa untuk Pembelajaran Mesin.
Mempelajari bahasa molekul
Untuk mencapai hasil terbaik dengan model pembelajaran mesin, saintis memerlukan set data latihan dengan berjuta-juta molekul yang mempunyai sifat serupa dengan yang mereka harap dapat temui. Pada hakikatnya, set data khusus domain ini biasanya sangat kecil. Jadi, penyelidik menggunakan model yang telah dipralatih pada set data besar molekul umum, yang digunakan pada set data sasaran yang jauh lebih kecil. Walau bagaimanapun, kerana model ini tidak memperoleh banyak pengetahuan khusus domain, model ini cenderung berprestasi buruk.
Pasukan MIT mengambil pendekatan yang berbeza. Mereka mencipta sistem pembelajaran mesin yang secara automatik mempelajari "bahasa" molekul — yang dikenali sebagai tatabahasa molekul — hanya menggunakan set data kecil khusus domain. Ia menggunakan tatabahasa ini untuk membina molekul yang berdaya maju dan meramalkan sifatnya.
Dalam teori bahasa, seseorang menghasilkan perkataan, ayat, atau perenggan berdasarkan satu set peraturan tatabahasa. Anda boleh memikirkan tatabahasa molekul dengan cara yang sama. Ia adalah satu set peraturan pengeluaran yang menentukan cara menghasilkan molekul atau polimer dengan menggabungkan atom dan substruktur.
Sama seperti tatabahasa bahasa, yang boleh menghasilkan banyak ayat menggunakan peraturan yang sama, satu tatabahasa molekul boleh mewakili sejumlah besar molekul. Molekul dengan struktur yang serupa menggunakan peraturan pengeluaran tatabahasa yang sama, dan sistem belajar memahami persamaan ini.
Oleh kerana molekul yang serupa secara struktur selalunya mempunyai sifat yang serupa, sistem menggunakan pengetahuan asasnya tentang persamaan molekul untuk meramalkan sifat molekul baru dengan lebih cekap.
"Sebaik sahaja kami mempunyai tatabahasa ini sebagai perwakilan untuk semua molekul yang berbeza, kami boleh menggunakannya untuk meningkatkan proses ramalan harta benda," kata Guo.
Sistem ini mempelajari peraturan pengeluaran untuk tatabahasa molekul menggunakan pembelajaran pengukuhan — proses cuba-ralat di mana model diberi ganjaran untuk tingkah laku yang mendekatkannya kepada mencapai matlamat.
Tetapi kerana mungkin terdapat berbilion-bilion cara untuk menggabungkan atom dan substruktur, proses untuk mempelajari peraturan pengeluaran tatabahasa akan menjadi terlalu mahal dari segi pengiraan untuk apa-apa kecuali set data terkecil.
Para penyelidik membahagikan tatabahasa molekul kepada dua bahagian. Bahagian pertama, dipanggil metagrammar, ialah tatabahasa umum yang boleh digunakan secara meluas yang mereka reka secara manual dan memberikan sistem pada awalnya. Kemudian ia hanya perlu mempelajari tatabahasa khusus molekul yang lebih kecil daripada dataset domain. Pendekatan hierarki ini mempercepatkan proses pembelajaran.
Hasil besar, set data kecil
Dalam eksperimen, sistem baharu penyelidik secara serentak menjana molekul dan polimer yang berdaya maju, dan meramalkan sifatnya dengan lebih tepat daripada beberapa pendekatan pembelajaran mesin yang popular, walaupun apabila set data khusus domain hanya mempunyai beberapa ratus sampel. Beberapa kaedah lain juga memerlukan langkah pralatihan yang mahal yang dielakkan oleh sistem baharu.
Teknik ini amat berkesan untuk meramalkan sifat fizik polimer, seperti suhu peralihan kaca, iaitu suhu yang diperlukan untuk bahan untuk beralih daripada pepejal kepada cecair. Mendapatkan maklumat ini secara manual selalunya sangat mahal kerana eksperimen memerlukan suhu dan tekanan yang sangat tinggi.
Untuk meneruskan pendekatan mereka, para penyelidik mengurangkan satu latihan yang ditetapkan sebanyak lebih separuh - kepada hanya 94 sampel. Model mereka masih mencapai hasil yang setanding dengan kaedah yang dilatih menggunakan keseluruhan set data.
“Perwakilan berasaskan tatabahasa ini sangat berkuasa. Dan kerana tatabahasa itu sendiri adalah perwakilan yang sangat umum, ia boleh digunakan untuk pelbagai jenis data bentuk graf. Kami cuba mengenal pasti aplikasi lain di luar kimia atau sains bahan, "kata Guo.
Pada masa hadapan, mereka juga ingin melanjutkan tatabahasa molekul semasa mereka untuk memasukkan geometri 3D molekul dan polimer, yang merupakan kunci untuk memahami interaksi antara rantai polimer. Mereka juga sedang membangunkan antara muka yang akan menunjukkan kepada pengguna peraturan pengeluaran tatabahasa yang dipelajari dan meminta maklum balas untuk membetulkan peraturan yang mungkin salah, meningkatkan ketepatan sistem.
Kerja ini dibiayai, sebahagiannya, oleh MIT-IBM Watson AI Lab dan syarikat ahlinya, Evonik.
Tinggalkan pesanan