Hluboké generativní modely se stávají stále účinnějšími nástroji, pokud jde o vytváření nových proteinů in silico. Difúzní modely, třída generativních modelů, o kterých se nedávno ukázalo, že generují fyziologicky věrohodné proteiny odlišné od jakýchkoli skutečných proteinů pozorovaných v přírodě, umožňují bezkonkurenční schopnost a kontrolu v de novo designu proteinů. Současné nejmodernější modely však vytvářejí proteinové struktury, což výrazně omezuje šíři jejich tréninkových dat a omezuje generace na nepatrnou a zkreslenou část prostoru pro návrh proteinů. Výzkumníci společnosti Microsoft vyvinuli EvoDiff, obecný difúzní rámec, který umožňuje laditelné vytváření proteinů v sekvenčním prostoru kombinací dat evolučního měřítka s odlišnými schopnostmi kondicionování modelů difúze. EvoDiff dokáže měnit strukturně věrohodné proteiny, které pokrývají celou škálu možných sekvencí a funkcí. Univerzálnost formulace založené na sekvenci je demonstrována skutečností, že EvoDiff může vytvářet proteiny nepřístupné pro modely založené na struktuře, jako jsou ty s neuspořádanými sekcemi, přičemž je schopen navrhnout lešení pro užitečné strukturní motivy. Doufají, že EvoDiff vydláždí cestu pro programovatelný, sekvenční design v proteinovém inženýrství, což jim umožní posunout se za paradigma struktura-funkce.
EvoDiff je nový generativní modelovací systém pro tvorbu programovatelného proteinu ze samotných sekvenčních dat, vyvinutý kombinací datových sad evolučního měřítka s difúzními modely. Používají diskrétní difúzní rámec, ve kterém dopředný proces iterativně kazí proteinovou sekvenci změnou její identity aminokyselin, a naučený zpětný proces, parametrizovaný neuronovou sítí, předpovídá změny provedené při každé iteraci s využitím přirozeného rámce proteiny jako sekvence diskrétních tokenů přes jazyk aminokyselin.
Proteinové sekvence mohou být vytvořeny od začátku pomocí obrácené metody. Ve srovnání s formulacemi pro kontinuální difúzi tradičně používanými při návrhu struktury proteinů vyniká diskrétní difúzní formulace používaná v EvoDiff jako významné matematické zlepšení. Vícenásobná zarovnání sekvencí (MSA) zvýrazňují vzory konzervace, variace v aminokyselinových sekvencích skupin příbuzných proteinů, čímž zachycují evoluční vazby za soubory dat jednotlivých proteinových sekvencí v evolučním měřítku. Aby využili této mimořádné hloubky evolučních informací, konstruují diskrétní difúzní modely trénované na MSA, aby produkovaly nové jednoduché linie.
Pro ilustraci jejich účinnosti pro design laditelných proteinů výzkumníci zkoumají sekvenční a MSA modely (EvoDiff-Seq a EvoDiff-MSA, v tomto pořadí) v rámci spektra generačních aktivit. Začínají tím, že demonstrují, že EvoDiff-Seq spolehlivě produkuje vysoce kvalitní, rozmanité proteiny, které přesně odrážejí složení a funkci proteinů v přírodě. EvoDiff-MSA umožňuje řízený vývoj nových sekvencí zarovnáním proteinů s podobnou, ale jedinečnou evoluční historií. Nakonec ukazují, že EvoDiff může spolehlivě generovat proteiny s IDR, čímž přímo překonává klíčové omezení generativních modelů založených na struktuře, a může generovat lešení pro funkční strukturální motivy bez jakýchkoli explicitních strukturních informací využitím kondicionačních schopností modelovacího rámce založeného na difúzi. a jeho uzemnění v univerzálním designovém prostoru.
Aby se vytvořily rozmanité a nové proteiny s možností kondicionování na základě omezení sekvence, vědci představují EvoDiff, rámec pro modelování difúze. Zpochybněním paradigmatu designu založeného na struktuře může EvoDiff bezpodmínečně vzorkovat strukturně věrohodnou diverzitu proteinů generováním vnitřně neuspořádaných oblastí a vytvářením strukturních motivů ze sekvenčních dat. V evoluci proteinové sekvence je EvoDiff prvním rámcem pro hluboké učení, který předvádí účinnost difúzního generativního modelování.
K těmto schopnostem by v budoucích studiích mohlo být přidáno kondicionování prostřednictvím vedení, ve kterém lze vytvořené sekvence iterativně upravovat tak, aby splňovaly požadované kvality. Rámec EvoDiff-D3PM je přirozený pro kondicionování prostřednictvím vedení, které funguje uvnitř, protože identitu každého zbytku v sekvenci lze upravit v každém kroku dekódování. Výzkumníci však pozorovali, že OADM obecně překonává D3PM v bezpodmínečném generování, pravděpodobně proto, že úkol odšumování OADM je snazší se naučit než úkol D3PM. Bohužel účinnost vedení je snížena OADM a dalšími již existujícími podmíněnými modely LRAR, jako je ProGen (54). Očekává se, že nové proteinové sekvence budou generovány úpravou EvoDiff-D3PM s funkčními cíli, jako jsou ty popsané klasifikátory sekvenčních funkcí.
Minimální požadavky na data EvoDiff znamenají, že jej lze snadno přizpůsobit pro použití, což by bylo možné pouze s přístupem založeným na struktuře. Výzkumníci prokázali, že EvoDiff dokáže vytvořit IDR pomocí inpaintingu bez jemného ladění, čímž se vyhne klasickému úskalu prediktivních a generativních modelů založených na struktuře. Vysoké náklady na získání struktur pro velké sekvenační datové sady mohou výzkumníkům bránit v používání nových biologických, medicínských nebo vědeckých možností návrhu, které by bylo možné odemknout jemným doladěním EvoDiff na datových sadách specifických pro aplikaci, jako jsou ty z knihoven displejů nebo velkoplošných obrazovek. Ačkoli AlphaFold a související algoritmy mohou předpovídat struktury pro mnoho sekvencí, potýkají se s bodovými mutacemi a mohou být příliš sebevědomé, když ukazují struktury pro falešné proteiny.
Výzkumníci ukázali několik hrubozrnných způsobů úpravy výroby pomocí lešení a malby; nicméně EvoDiff může být podmíněn textem, chemickými informacemi nebo jinými modalitami, aby poskytoval mnohem jemnější kontrolu nad funkcí proteinu. V budoucnu bude tento koncept návrhu laditelné proteinové sekvence využíván různými způsoby. Například podmíněně navržené transkripční faktory nebo endonukleázy by mohly být použity k programové modulaci nukleových kyselin; biologické látky by mohly být optimalizovány pro in vivo dodávání a obchodování; a nulové ladění specifičnosti enzym-substrát by mohlo otevřít zcela nové cesty pro katalýzu.
Datové sady
Uniref50 je datový soubor obsahující asi 42 milionů proteinových sekvencí používaných výzkumníky. MSA jsou z datové sady OpenFold, která zahrnuje 16 000 000 klastrů UniClust30 a 401 381 MSA pokrývajících 140 000 různých řetězců PDB. Informace o IDR (vnitřně neuspořádané oblasti) pocházejí z Reverse Homology GitHub.
Výzkumníci používají základní linie RFDiffusion pro výzvu strukturních motivů lešení. Ve složce example/scaffolding-pdbs najdete soubory pdb a fasta, které lze použít k podmíněnému generování sekvencí. Složka example/scaffolding-msas také obsahuje soubory pdb, které lze použít k vytvoření MSA na základě určitých podmínek.
Aktuální modely
Výzkumníci se zabývali oběma, aby rozhodli, která dopředná technika pro šíření přes diskrétní datové modality by byla nejúčinnější. Jedna aminokyselina je transformována do jedinečného maskovacího tokenu v každém tučném kroku řádově agnostické autoregresní distribuce OADM. Celá sekvence je skryta po určitém počtu fází. Skupina také vyvinula diskrétní denoising diffusion probabilistic modely (D3PM), konkrétně pro proteinové sekvence. Během dopředné fáze EvoDiff-D3PM jsou linie poškozeny vzorkovacími mutacemi podle přechodové matice. Toto pokračuje, dokud sekvence již nemůže být odlišena od jednotného vzorku přes aminokyseliny, což se stane po několika krocích. Ve všech případech fáze obnovy zahrnuje přeškolení modelu neuronové sítě, aby se škoda napravila. Pro EvoDiff-OADM a EvoDiff-D3PM může trénovaný model produkovat nové sekvence ze sekvencí maskovaných tokenů nebo jednotně vzorkovaných aminokyselin. Pomocí architektury dilatované konvoluční neuronové sítě poprvé viděné v jazykovém modelu maskovaného proteinem CARP trénovali všechny modely sekvencí EvoDiff na 42M sekvencích z UniRef50. Pro každé schéma dopředné korupce a dekódování LRAR vyvinuli verze s natrénovanými parametry 38M a 640M.
Klíčové vlastnosti
- Pro generování zvládnutelných proteinových sekvencí EvoDiff zahrnuje data evolučního měřítka s modely difúze.
- EvoDiff dokáže měnit strukturně věrohodné proteiny, které pokrývají celou škálu možných sekvencí a funkcí.
- Kromě generování proteinů s neuspořádanými sekcemi a dalšími vlastnostmi, které jsou pro modely založené na struktuře nedostupné, může EvoDiff také vyrábět lešení pro funkční strukturní motivy, což dokazuje obecnou použitelnost formulace založené na sekvenci.
Závěrem lze říci, že vědci společnosti Microsoft vydali sadu diskrétních difúzních modelů, na kterých lze stavět při provádění proteinového inženýrství a designu založeného na sekvenci. Modely EvoDiff je možné rozšířit o řízený návrh na základě struktury nebo funkce a lze je okamžitě použít pro nepodmíněné, evolučně řízené a podmíněné vytváření proteinových sekvencí. Doufají, že čtením a zápisem procesů přímo v řeči proteinů EvoDiff otevře nové možnosti v programovatelné tvorbě proteinů.
Podívejte se na Předtiskový papír a GitHub. Veškerá zásluha za tento výzkum patří výzkumníkům na tomto projektu. Také se nezapomeňte připojit náš 30k+ ML SubReddit, 40 000+ Facebook komunita, Discord Channel, a E-mailový newsletter, kde sdílíme nejnovější zprávy o výzkumu AI, skvělé projekty AI a další.
Pokud se vám naše práce líbí, náš newsletter se vám bude líbit..
Dhanshree Shenwai je inženýr počítačových věd a má dobré zkušenosti ve společnostech FinTech pokrývajících oblast financí, karet a plateb a bankovnictví s velkým zájmem o aplikace AI. Je nadšená z objevování nových technologií a pokroků v dnešním vyvíjejícím se světě, který všem usnadňuje život.
zanechte odpověď