I modelli generativi profondi stanno diventando strumenti sempre più potenti quando si tratta della creazione in silico di nuove proteine. I modelli di diffusione, una classe di modelli generativi recentemente dimostrati in grado di generare proteine fisiologicamente plausibili distinte da qualsiasi proteina reale vista in natura, consentono capacità e controllo senza precedenti nella progettazione delle proteine de novo. Tuttavia, gli attuali modelli all’avanguardia costruiscono strutture proteiche, il che limita fortemente l’ampiezza dei dati di addestramento e confina le generazioni in una frazione piccola e distorta dello spazio di progettazione delle proteine. I ricercatori Microsoft hanno sviluppato EvoDiff, un framework di diffusione generico che consente la creazione di proteine sintonizzabili nello spazio delle sequenze combinando dati su scala evolutiva con le distinte capacità di condizionamento dei modelli di diffusione. EvoDiff può rendere varie le proteine strutturalmente plausibili, coprendo l'intera gamma di possibili sequenze e funzioni. L'universalità della formulazione basata sulla sequenza è dimostrata dal fatto che EvoDiff può costruire proteine inaccessibili a modelli basati sulla struttura, come quelli con sezioni disordinate, pur essendo in grado di progettare scaffold per motivi strutturali utili. Sperano che EvoDiff possa aprire la strada alla progettazione programmabile e sequenziale nell'ingegneria delle proteine, consentendo loro di andare oltre il paradigma struttura-funzione.
EvoDiff è un nuovo sistema di modellazione generativa per la creazione di proteine programmabili solo a partire da dati di sequenza, sviluppato combinando set di dati su scala evolutiva con modelli di diffusione. Usano una struttura di diffusione discreta in cui un processo diretto corrompe iterativamente una sequenza proteica cambiando le sue identità di amminoacidi, e un processo inverso appreso, parametrizzato da una rete neurale, predice i cambiamenti apportati ad ogni iterazione, sfruttando l'inquadramento naturale di proteine come sequenze di token discreti su un linguaggio di amminoacidi.
Le sequenze proteiche possono essere create da zero utilizzando il metodo invertito. Rispetto alle formulazioni a diffusione continua tradizionalmente utilizzate nella progettazione della struttura proteica, la formulazione a diffusione discreta utilizzata in EvoDiff si distingue come un significativo miglioramento matematico. Gli allineamenti di sequenze multiple (MSA) evidenziano modelli di conservazione e variazione nelle sequenze di amminoacidi di gruppi di proteine correlate, catturando così collegamenti evolutivi oltre i set di dati su scala evolutiva di singole sequenze proteiche. Per sfruttare questa ulteriore profondità di informazioni evolutive, costruiscono modelli di diffusione discreti addestrati su MSA per produrre nuove linee singole.
Per illustrare la loro efficacia per la progettazione di proteine sintonizzabili, i ricercatori esaminano la sequenza e i modelli MSA (rispettivamente EvoDiff-Seq ed EvoDiff-MSA) su uno spettro di attività di generazione. Cominciano dimostrando che EvoDiff-Seq produce in modo affidabile proteine varie e di alta qualità che riflettono accuratamente la composizione e la funzione delle proteine in natura. EvoDiff-MSA consente lo sviluppo guidato di nuove sequenze allineando proteine con storie evolutive simili ma uniche. Infine, mostrano che EvoDiff può generare in modo affidabile proteine con IDR, superando direttamente una limitazione chiave dei modelli generativi basati sulla struttura, e può generare impalcature per motivi strutturali funzionali senza alcuna informazione strutturale esplicita sfruttando le capacità di condizionamento del quadro di modellazione basato sulla diffusione e il suo radicamento in uno spazio di progettazione universale.
Per generare proteine diverse e nuove con la possibilità di condizionamento in base a limitazioni di sequenza, i ricercatori presentano EvoDiff, un quadro di modellazione della diffusione. Sfidando un paradigma di progettazione proteica basato sulla struttura, EvoDiff può campionare incondizionatamente diversità proteica strutturalmente plausibile generando aree intrinsecamente disordinate e motivi strutturali di impalcatura dai dati di sequenza. Nell'evoluzione delle sequenze proteiche, EvoDiff è il primo framework di deep learning a mostrare l'efficacia della modellazione generativa della diffusione.
Il condizionamento tramite guida, in cui le sequenze create possono essere adattate in modo iterativo per soddisfare le qualità desiderate, potrebbe essere aggiunto a queste capacità in studi futuri. Il framework EvoDiff-D3PM è naturale per il condizionamento tramite guida all'interno del quale lavorare poiché l'identità di ciascun residuo in una sequenza può essere modificata in ogni fase di decodifica. Tuttavia, i ricercatori hanno osservato che OADM generalmente supera D3PM nella generazione incondizionata, probabilmente perché l'attività di denoising di OADM è più facile da apprendere rispetto a quella di D3PM. Sfortunatamente, l’efficacia della guida è ridotta dall’OADM e da altri modelli LRAR condizionali preesistenti come ProGen (54). Si prevede che nuove sequenze proteiche verranno generate condizionando EvoDiff-D3PM con obiettivi funzionali, come quelli descritti dai classificatori di funzioni di sequenza.
I requisiti minimi di dati di EvoDiff fanno sì che possa essere facilmente adattato per gli usi successivi, cosa che sarebbe possibile solo con un approccio basato sulla struttura. I ricercatori hanno dimostrato che EvoDiff può creare IDR tramite l'inpainting senza messa a punto, evitando la classica trappola dei modelli predittivi e generativi basati sulla struttura. L’elevato costo per ottenere strutture per grandi set di dati di sequenziamento potrebbe impedire ai ricercatori di utilizzare nuove opzioni di progettazione biologica, medicinale o scientifica che potrebbero essere sbloccate ottimizzando EvoDiff su set di dati specifici dell’applicazione come quelli provenienti da librerie di visualizzazione o schermi su larga scala. Sebbene AlphaFold e gli algoritmi correlati possano prevedere strutture per molte sequenze, hanno difficoltà con le mutazioni puntiformi e possono essere eccessivamente sicuri quando indicano strutture per proteine spurie.
I ricercatori hanno mostrato diversi modi a grana grossa per condizionare la produzione tramite impalcature e verniciatura; tuttavia, EvoDiff può essere condizionato da testo, informazioni chimiche o altre modalità per fornire un controllo molto più preciso sulla funzione proteica. In futuro, questo concetto di progettazione di sequenze proteiche sintonizzabili verrà utilizzato in vari modi. Ad esempio, fattori di trascrizione o endonucleasi progettati in modo condizionale potrebbero essere utilizzati per modulare gli acidi nucleici in modo programmatico; i prodotti biologici potrebbero essere ottimizzati per la consegna e il traffico in vivo; e la messa a punto zero della specificità del substrato enzimatico potrebbe aprire strade completamente nuove per la catalisi.
Set di dati
Uniref50 è un set di dati contenente circa 42 milioni di sequenze proteiche utilizzate dai ricercatori. Gli MSA provengono dal set di dati OpenFold, che include 16.000.000 di cluster UniClust30 e 401.381 MSA che coprono 140.000 catene PDB distinte. Le informazioni sugli IDR (regioni intrinsecamente disordinate) provengono da Reverse Homology GitHub.
I ricercatori utilizzano le linee di base RFDiffusion per la sfida dei motivi strutturali delle impalcature. Nella cartella example/scaffolding-pdbs troverai i file pdb e fasta che possono essere utilizzati per generare sequenze in modo condizionale. La cartella example/scaffolding-msas include anche file pdb che possono essere utilizzati per creare MSA in base a determinate condizioni.
Modelli attuali
I ricercatori hanno esaminato entrambi per decidere quale tecnica avanzata per la diffusione su modalità di dati discrete sarebbe stata più efficiente. Un amminoacido viene trasformato in un token maschera unico in ogni fase audace della distribuzione autoregressiva indipendente dall'ordine OADM. L'intera sequenza viene nascosta dopo un certo numero di fasi. Il gruppo ha sviluppato anche modelli probabilistici di diffusione discreta del denoising (D3PM), specifici per le sequenze proteiche. Durante la fase avanzata di EvoDiff-D3PM, le linee vengono danneggiate dalle mutazioni di campionamento secondo una matrice di transizione. Ciò continua fino a quando la sequenza non può più essere distinta da un campione uniforme sugli aminoacidi, cosa che avviene dopo diversi passaggi. In tutti i casi, la fase di recupero prevede la riqualificazione di un modello di rete neurale per riparare il danno. Per EvoDiff-OADM ed EvoDiff-D3PM, il modello addestrato può produrre nuove sequenze da sequenze di token mascherati o amminoacidi campionati in modo uniforme. Utilizzando l'architettura della rete neurale convoluzionale dilatata vista per la prima volta nel modello di linguaggio mascherato della proteina CARP, hanno addestrato tutti i modelli di sequenze EvoDiff su sequenze 42M da UniRef50. Per ogni schema di corruzione diretta e decodifica LRAR, hanno sviluppato versioni con parametri addestrati 38M e 640M.
Caratteristiche principali
- Per generare sequenze proteiche gestibili, EvoDiff incorpora dati su scala evolutiva con modelli di diffusione.
- EvoDiff può rendere varie le proteine strutturalmente plausibili, coprendo l'intera gamma di possibili sequenze e funzioni.
- Oltre a generare proteine con sezioni disordinate e altre caratteristiche inaccessibili ai modelli basati sulla struttura, EvoDiff può anche produrre scaffold per motivi strutturali funzionali, dimostrando l'applicabilità generale della formulazione basata su sequenze.
In conclusione, gli scienziati Microsoft hanno rilasciato una serie di modelli di diffusione discreta che possono essere utilizzati come base per l'ingegneria e la progettazione di proteine basate su sequenze. È possibile estendere i modelli EvoDiff per la progettazione guidata basata sulla struttura o sulla funzione e possono essere utilizzati immediatamente per la creazione incondizionata, guidata dall'evoluzione e condizionale di sequenze proteiche. Sperano che, leggendo e scrivendo i processi direttamente nel linguaggio delle proteine, EvoDiff apra nuove possibilità nella creazione di proteine programmabili.
Dai un'occhiata a Carta prestampata E GitHub. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di iscriverti il nostro subReddit da 30k+ ML, Oltre 40.000 comunità Facebook, Canale Discordia, E Newsletter via e-mail, dove condividiamo le ultime notizie sulla ricerca sull'intelligenza artificiale, interessanti progetti sull'intelligenza artificiale e altro ancora.
Se ti piace il nostro lavoro, adorerai la nostra newsletter..
Dhanshree Shenwai è un ingegnere informatico e ha una buona esperienza in società FinTech che coprono il settore finanziario, carte e pagamenti e bancario con vivo interesse per le applicazioni dell'intelligenza artificiale. È entusiasta di esplorare nuove tecnologie e progressi nel mondo in evoluzione di oggi, rendendo la vita facile a tutti.
lascia un commento