Generativní AI si představuje nové proteinové struktury | Zprávy MIT



MIT News FrameDiff 0

Biologie je úžasná, ale delikátní tapisérie. V srdci je DNA, hlavní tkadlec, který kóduje proteiny, zodpovědný za uspořádání mnoha biologických funkcí, které udržují život v lidském těle. Naše tělo je však podobné jemně vyladěnému nástroji, který je náchylný ke ztrátě harmonie. Koneckonců, čelíme neustále se měnícímu a neúprosnému přírodnímu světu: patogenům, virům, nemocem a rakovině. 

Představte si, že bychom mohli urychlit proces vytváření vakcín nebo léků pro nově objevené patogeny. Co kdybychom měli technologii úpravy genů schopnou automaticky produkovat proteiny k nápravě chyb DNA, které způsobují rakovinu? Hledání proteinů, které se mohou silně vázat na cíle nebo urychlit chemické reakce, je životně důležité pro vývoj léků, diagnostiku a četné průmyslové aplikace, ale často jde o zdlouhavé a nákladné úsilí.

Abychom zlepšili naše schopnosti v proteinovém inženýrství, přišli výzkumníci MIT CSAIL s „FrameDiff“, výpočetním nástrojem pro vytváření nových proteinových struktur nad rámec toho, co vytvořila příroda. Přístup strojového učení generuje „rámce“, které jsou v souladu s vlastními vlastnostmi proteinových struktur, což mu umožňuje konstruovat nové proteiny nezávisle na již existujících návrzích, což usnadňuje bezprecedentní proteinové struktury.

„V přírodě je proteinový design procesem pomalého spalování, který trvá miliony let. Naše technika má za cíl poskytnout odpověď na řešení problémů způsobených lidmi, které se vyvíjejí mnohem rychleji než tempo přírody,“ říká doktorand MIT CSAIL Jason Yim, hlavní autor nového článku o této práci. „Cílem, s ohledem na tuto novou schopnost generování syntetických proteinových struktur, se otevírá nespočet vylepšených schopností, jako jsou lepší pojiva. To znamená vytvořit proteiny, které se mohou účinněji a selektivněji připojovat k jiným molekulám, s rozsáhlými důsledky souvisejícími s cíleným dodáváním léků a biotechnologií, kde by to mohlo vést k vývoji lepších biosenzorů. Mohlo by to mít také důsledky pro oblast biomedicíny i mimo ni, protože nabízí možnosti, jako je vývoj účinnějších proteinů fotosyntézy, vytváření účinnějších protilátek a vytváření nanočástic pro genovou terapii. 

Rámování FrameDiff

Proteiny mají složité struktury, složené z mnoha atomů spojených chemickými vazbami. Nejdůležitější atomy, které určují 3D tvar proteinu, se nazývají „páteř“, něco jako páteř proteinu. Každá trojice atomů podél páteře sdílí stejný vzor vazeb a typů atomů. Výzkumníci si všimli, že tento vzor lze využít k vytvoření algoritmů strojového učení pomocí nápadů z diferenciální geometrie a pravděpodobnosti. Zde přichází na řadu snímky: Matematicky lze tyto trojice modelovat jako pevná tělesa nazývaná „rámy“ (běžné ve fyzice), která mají polohu a rotaci ve 3D. 

Tyto rámce vybavují každou trojici dostatek informací, aby věděli o svém prostorovém okolí. Úkolem pak je, aby se algoritmus strojového učení naučil, jak posouvat každý snímek, aby vytvořil proteinovou páteř. Tím, že se algoritmus naučí konstruovat existující proteiny, doufejme, že zobecní a bude schopen vytvořit nové proteiny, které v přírodě dosud nebyly vidět.

Trénink modelu pro konstrukci proteinů prostřednictvím „difúze“ zahrnuje vstřikování hluku, který náhodně pohybuje všemi snímky a rozmazává, jak vypadal původní protein. Úkolem algoritmu je pohybovat a otáčet každý snímek, dokud nebude vypadat jako původní protein. Ačkoli je to jednoduché, vývoj difúze na rámech vyžaduje techniky stochastického počtu na Riemannových varietách. Na straně teorie výzkumníci vyvinuli „SE(3) difúzi“ pro učení rozdělení pravděpodobnosti, která netriviálně spojuje komponenty translace a rotace každého snímku.

Jemné umění šíření

V roce 2021 DeepMind představil AlphaFold2, algoritmus hlubokého učení pro predikci 3D proteinových struktur z jejich sekvencí. Při vytváření syntetických proteinů existují dva základní kroky: generování a predikce. Generování znamená vytvoření nových proteinových struktur a sekvencí, zatímco „predikce“ znamená zjistit, jaká je 3D struktura sekvence. Není náhodou, že AlphaFold2 také používal rámy k modelování proteinů. SE(3) diffusion a FrameDiff byly inspirovány k tomu, aby myšlenku snímků posunuly dále, začleněním snímků do difúzních modelů, což je generativní technika umělé inteligence, která se stala nesmírně populární při generování obrázků, jako je například Midjourney. 

Sdílené rámce a principy mezi tvorbou proteinové struktury a predikcí znamenaly, že nejlepší modely z obou konců byly kompatibilní. Ve spolupráci s Institute for Protein Design na University of Washington se SE(3) difúze již používá k vytváření a experimentálnímu ověřování nových proteinů. Konkrétně zkombinovali SE(3) difúzi s RosettaFold2, nástrojem pro predikci proteinové struktury podobně jako AlphaFold2, což vedlo k „RFdiffusion“. Tento nový nástroj přivedl konstruktéry proteinů blíže k řešení zásadních problémů v biotechnologii, včetně vývoje vysoce specifických proteinových pojiv pro urychlený návrh vakcín, inženýrství symetrických proteinů pro přenos genů a robustního lešení motivů pro přesný návrh enzymů. 

Budoucí snahy o FrameDiff zahrnují zlepšení obecnosti problémů, které kombinují více požadavků na biologické látky, jako jsou léky. Dalším rozšířením je zobecnění modelů na všechny biologické modality včetně DNA a malých molekul. Tým předpokládá, že rozšířením školení FrameDiff na podstatnější data a vylepšením jeho optimalizačního procesu by mohl generovat základní struktury pyšnící se konstrukčními schopnostmi na stejné úrovni jako RFdiffusion, to vše při zachování inherentní jednoduchosti FrameDiff. 

„Odstranění předem připraveného modelu predikce struktury [v FrameDiff] otevírá možnosti pro rychlé generování struktur rozšiřujících se do velkých délek,“ říká výpočetní biolog Harvardské univerzity Sergej Ovchinnikov. Inovativní přístup výzkumníků nabízí slibný krok k překonání omezení současných modelů predikce struktury. I když je to stále přípravná práce, je to povzbuzující krok správným směrem. Vize proteinového designu, která hraje klíčovou roli při řešení nejnaléhavějších výzev lidstva, se jako taková zdá stále více na dosah díky průkopnické práci tohoto výzkumného týmu MIT. 

Yim napsal článek spolu s postdoktorem Columbia University Brianem Trippem, Francouzským národním centrem pro vědecký výzkum v pařížském Centru pro vědu dat Valentinem De Bortoli, postdoktorem Emile Mathieu na Cambridgeské univerzitě a profesorem statistiky na Oxfordské univerzitě a vedoucím vědeckým pracovníkem DeepMind Arnaud Doucet. . Profesoři MIT Regina Barzilay a Tommi Jaakkola radili při výzkumu. 

Práce týmu byla částečně podporována klinikou MIT Abdul Latif Jameel pro strojové učení ve zdraví, granty EPSRC a partnerstvím prosperity mezi Microsoft Research a Cambridge University, programem pro postgraduální výzkum National Science Foundation, grantem NSF Expeditions, Machine Learning pro konsorcium Pharmaceutical Discovery and Synthesis, program DTRA Discovery of Medical Countermeasures Against New and Emerging hrozbami, program DARPA Accelerated Molecular Discovery a grant Sanofi Computational Antibody Design. Tento výzkum bude prezentován na Mezinárodní konferenci o strojovém učení v červenci.



Odkaz na zdroj

zanechte odpověď

Vaše e-mailová adresa nebude zveřejněna. Povinná pole jsou označena *

Můžete použít tyto HTML značky a atributy: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

cs_CZCzech