Apa yang Seterusnya dalam Reka Bentuk Protein? Penyelidik Microsoft Memperkenalkan EvoDiff: Rangka Kerja AI Pecah Tanah untuk Kejuruteraan Protein Urutan Pertama


Model generatif mendalam menjadi alat yang semakin kuat apabila ia datang kepada penciptaan dalam silico protein baru. Model resapan, kelas model generatif baru-baru ini ditunjukkan untuk menghasilkan protein yang munasabah dari segi fisiologi yang berbeza daripada mana-mana protein sebenar yang dilihat dalam alam semula jadi, membolehkan keupayaan dan kawalan yang tiada tandingan dalam reka bentuk protein de novo. Walau bagaimanapun, model terkini semasa membina struktur protein, yang sangat mengehadkan keluasan data latihan mereka dan menghadkan generasi kepada pecahan kecil dan berat sebelah ruang reka bentuk protein. Penyelidik Microsoft membangunkan EvoDiff, rangka kerja resapan tujuan umum yang membolehkan penciptaan protein yang boleh disesuaikan dalam ruang jujukan dengan menggabungkan data skala evolusi dengan keupayaan penyesuaian model resapan yang berbeza. EvoDiff boleh menjadikan protein yang munasabah dari segi struktur diubah, meliputi rangkaian penuh urutan dan fungsi yang mungkin. Kesejagatan formulasi berasaskan urutan ditunjukkan oleh fakta bahawa EvoDiff mungkin membina protein yang tidak boleh diakses oleh model berasaskan struktur, seperti yang mempunyai bahagian yang tidak teratur sambil dapat mereka bentuk perancah untuk motif struktur yang berguna. Mereka berharap EvoDiff akan membuka jalan untuk reka bentuk yang boleh diprogramkan, urutan pertama dalam kejuruteraan protein, membolehkan mereka bergerak melangkaui paradigma fungsi struktur. 

EvoDiff ialah sistem pemodelan generatif baru untuk penciptaan protein boleh atur cara daripada data jujukan sahaja, dibangunkan dengan menggabungkan set data skala evolusi dengan model resapan. Mereka menggunakan rangka kerja resapan diskret di mana proses ke hadapan secara berulang merosakkan jujukan protein dengan menukar identiti asid aminonya, dan proses songsang yang dipelajari, diparameterkan oleh rangkaian saraf, meramalkan perubahan yang dibuat pada setiap lelaran, mengambil kesempatan daripada pembingkaian semula jadi protein sebagai jujukan token diskret ke atas bahasa asid amino.

Urutan protein boleh dibuat dari awal menggunakan kaedah terbalik. Berbanding dengan rumusan resapan berterusan yang digunakan secara tradisional dalam reka bentuk struktur protein, rumusan resapan diskret yang digunakan dalam EvoDiff menonjol sebagai peningkatan matematik yang ketara. Penjajaran jujukan berbilang (MSA) menyerlahkan corak pemuliharaan, variasi dalam jujukan asid amino kumpulan protein yang berkaitan, dengan itu menangkap pautan evolusi melangkaui set data skala evolusi bagi jujukan protein tunggal. Untuk memanfaatkan maklumat evolusi yang lebih mendalam ini, mereka membina model resapan diskret yang dilatih pada MSA untuk menghasilkan baris tunggal baru.

Untuk menggambarkan keberkesanan mereka untuk reka bentuk protein yang boleh disesuaikan, penyelidik meneliti urutan dan model MSA (EvoDiff-Seq dan EvoDiff-MSA, masing-masing) dalam spektrum aktiviti penjanaan. Mereka bermula dengan menunjukkan bahawa EvoDiff-Seq dengan pasti menghasilkan protein yang berkualiti tinggi dan pelbagai yang mencerminkan dengan tepat komposisi dan fungsi protein dalam alam semula jadi. EvoDiff-MSA membolehkan pembangunan berpandu bagi jujukan baharu dengan menyelaraskan protein dengan sejarah evolusi yang serupa tetapi unik. Akhir sekali, mereka menunjukkan bahawa EvoDiff boleh menjana protein dengan mudah dengan IDR, secara langsung mengatasi had utama model generatif berasaskan struktur, dan boleh menjana perancah untuk motif struktur berfungsi tanpa sebarang maklumat struktur yang jelas dengan memanfaatkan keupayaan penyesuaian rangka kerja pemodelan berasaskan resapan dan asasnya dalam ruang reka bentuk sejagat.

Untuk menjana protein yang pelbagai dan baharu dengan kemungkinan penyaman berdasarkan had jujukan, penyelidik mempersembahkan EvoDiff, rangka kerja pemodelan resapan. Dengan mencabar paradigma reka bentuk protein berasaskan struktur, EvoDiff boleh mencuba kepelbagaian protein yang munasabah secara struktur tanpa syarat dengan menghasilkan kawasan yang tidak teratur secara intrinsik dan motif struktur perancah daripada data jujukan. Dalam evolusi jujukan protein, EvoDiff ialah rangka kerja pembelajaran mendalam yang pertama untuk mempamerkan keberkesanan pemodelan generatif resapan.

Pengkondisian melalui bimbingan, di mana urutan yang dicipta boleh dilaraskan secara berulang untuk memenuhi kualiti yang diingini, boleh ditambah kepada keupayaan ini dalam kajian masa depan. Rangka kerja EvoDiff-D3PM adalah semula jadi untuk pelaziman melalui panduan untuk berfungsi di dalamnya kerana identiti setiap sisa dalam urutan boleh diedit pada setiap langkah penyahkodan. Walau bagaimanapun, penyelidik telah memerhatikan bahawa OADM secara amnya mengatasi prestasi D3PM dalam penjanaan tanpa syarat, mungkin kerana tugas penolakan OADM lebih mudah dipelajari berbanding tugasan D3PM. Malangnya, keberkesanan panduan dikurangkan oleh OADM dan model LRAR bersyarat yang sedia ada seperti ProGen (54). Dijangkakan bahawa jujukan protein baru akan dijana dengan mengkondisikan EvoDiff-D3PM dengan matlamat berfungsi, seperti yang diterangkan oleh pengelas fungsi jujukan.

Keperluan data minimum EvoDiff bermakna ia boleh disesuaikan dengan mudah untuk kegunaan turun-temurun, yang hanya boleh dilakukan dengan pendekatan berasaskan struktur. Penyelidik telah menunjukkan bahawa EvoDiff boleh mencipta IDR melalui inpainting tanpa penalaan halus, mengelakkan perangkap klasik model ramalan dan generatif berasaskan struktur. Kos yang tinggi untuk mendapatkan struktur bagi set data penjujukan yang besar mungkin menghalang penyelidik daripada menggunakan pilihan reka bentuk biologi, perubatan atau saintifik baharu yang boleh dibuka kuncinya dengan memperhalusi EvoDiff pada set data khusus aplikasi seperti daripada pustaka paparan atau skrin berskala besar. Walaupun AlphaFold dan algoritma yang berkaitan boleh meramalkan struktur untuk banyak jujukan, mereka bergelut dengan mutasi titik dan boleh terlalu yakin apabila menunjukkan struktur untuk protein palsu.

Penyelidik menunjukkan beberapa cara berbutir kasar untuk pengeluaran penyaman melalui perancah dan pengecatan; walau bagaimanapun, EvoDiff mungkin dikondisikan pada teks, maklumat kimia atau modaliti lain untuk memberikan kawalan yang lebih halus ke atas fungsi protein. Pada masa hadapan, konsep reka bentuk jujukan protein boleh tala ini akan digunakan dalam pelbagai cara. Contohnya, faktor transkripsi atau endonuklease yang direka bentuk secara bersyarat boleh digunakan untuk memodulasi asid nukleik secara pemprograman; biologi boleh dioptimumkan untuk penghantaran dan pemerdagangan in vivo; dan penalaan tangkapan sifar kekhususan enzim-substrat boleh membuka jalan baru untuk pemangkinan.

Set data

Uniref50 ialah set data yang mengandungi kira-kira 42 juta jujukan protein yang digunakan oleh penyelidik. MSA adalah daripada dataset OpenFold, yang merangkumi 16,000,000 kluster UniClust30 dan 401,381 MSA yang meliputi 140,000 rantaian PDB yang berbeza. Maklumat tentang IDR (kawasan bercelaru intrinsik) datang daripada GitHub Homologi Songsang.

Penyelidik menggunakan garis dasar RFDiffusion untuk cabaran motif struktur perancah. Dalam folder examples/scaffolding-pdbs, anda akan menemui fail pdb dan fasta yang boleh digunakan untuk menjana jujukan secara bersyarat. Folder contoh/scaffolding-msas juga termasuk fail pdb yang boleh digunakan untuk mencipta MSA berdasarkan syarat tertentu.

Model Semasa

Penyelidik melihat kedua-duanya untuk memutuskan teknik ke hadapan untuk penyebaran ke atas modaliti data diskret yang paling berkesan. Satu asid amino diubah menjadi token topeng unik pada setiap langkah berani pengedaran autoregresif agnostik OADM. Urutan penuh disembunyikan selepas beberapa peringkat tertentu. Model kebarangkalian resapan diskret (D3PM) juga dibangunkan oleh kumpulan itu, khusus untuk jujukan protein. Semasa fasa hadapan EvoDiff-D3PM, garisan rosak oleh mutasi pensampelan mengikut matriks peralihan. Ini berterusan sehingga urutan tidak lagi dapat dibezakan daripada sampel seragam ke atas asid amino, yang berlaku selepas beberapa langkah. Dalam semua kes, fasa pemulihan melibatkan latihan semula model rangkaian saraf untuk membatalkan kerosakan. Untuk EvoDiff-OADM dan EvoDiff-D3PM, model terlatih boleh menghasilkan jujukan baharu daripada jujukan token bertopeng atau asid amino sampel seragam. Menggunakan seni bina rangkaian neural convolutional diluaskan yang pertama kali dilihat dalam model bahasa bertopeng protein CARP, mereka melatih semua model jujukan EvoDiff pada jujukan 42M daripada UniRef50. Bagi setiap skim rasuah hadapan dan penyahkodan LRAR, mereka membangunkan versi dengan parameter terlatih 38M dan 640M.

Ciri-ciri utama

  • Untuk menjana jujukan protein yang boleh diurus, EvoDiff menggabungkan data skala evolusi dengan model resapan. 
  • EvoDiff boleh menjadikan protein yang munasabah dari segi struktur diubah, meliputi rangkaian penuh urutan dan fungsi yang mungkin.
  • Selain menjana protein dengan bahagian yang tidak teratur dan ciri lain yang tidak boleh diakses oleh model berasaskan struktur, EvoDiff juga boleh menghasilkan perancah untuk motif struktur berfungsi, membuktikan kebolehgunaan umum rumusan berasaskan jujukan.

Kesimpulannya, saintis Microsoft telah mengeluarkan satu set model resapan diskret yang boleh digunakan untuk membina apabila menjalankan kejuruteraan dan reka bentuk protein berasaskan jujukan. Model EvoDiff boleh dikembangkan untuk reka bentuk berpandu berdasarkan struktur atau fungsi, dan ia boleh digunakan serta-merta untuk penciptaan urutan protein tanpa syarat, berpandukan evolusi dan bersyarat. Mereka berharap dengan membaca dan menulis proses secara langsung dalam bahasa protein, EvoDiff akan membuka kemungkinan baharu dalam penciptaan protein boleh atur cara.


Semak Kertas Pracetak dan GitHubSemua Kredit Untuk Penyelidikan Ini Ditujukan Kepada Penyelidik Projek Ini. Juga, jangan lupa untuk menyertai 30k+ ML SubReddit kami, 40k+ Komuniti Facebook, Saluran Discord, dan E-mel Surat Berita, tempat kami berkongsi berita penyelidikan AI terkini, projek AI yang hebat dan banyak lagi.

Jika anda menyukai kerja kami, anda akan menyukai surat berita kami..


20221028 101632 Dhanshree Shenwai

Dhanshree Shenwai ialah seorang Jurutera Sains Komputer dan mempunyai pengalaman yang baik dalam syarikat FinTech meliputi domain Kewangan, Kad & Pembayaran dan Perbankan dengan minat yang mendalam dalam aplikasi AI. Dia bersemangat untuk menerokai teknologi dan kemajuan baharu dalam dunia yang semakin berkembang hari ini menjadikan kehidupan semua orang mudah.




Pautan sumber

Tinggalkan pesanan

Alamat e-mel anda tidak akan diterbitkan. Medan yang diperlukan ditanda *

Anda boleh menggunakan tag dan atribut HTML ini: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

ms_MYMalay