L’intelligenza artificiale generativa immagina nuove strutture proteiche | Notizie del MIT



Notizie del MIT FrameDiff 0

La biologia è un arazzo meraviglioso ma delicato. Al centro c’è il DNA, il maestro tessitore che codifica le proteine, responsabile dell’orchestrazione delle numerose funzioni biologiche che sostengono la vita nel corpo umano. Tuttavia, il nostro corpo è simile a uno strumento finemente accordato, suscettibile di perdere la sua armonia. Dopotutto, ci troviamo di fronte a un mondo naturale in continua evoluzione e implacabile: agenti patogeni, virus, malattie e cancro. 

Immagina se potessimo accelerare il processo di creazione di vaccini o farmaci per i patogeni appena emersi. E se avessimo una tecnologia di editing genetico in grado di produrre automaticamente proteine per correggere gli errori del DNA che causano il cancro? La ricerca per identificare le proteine che possono legarsi fortemente ai bersagli o accelerare le reazioni chimiche è vitale per lo sviluppo di farmaci, la diagnostica e numerose applicazioni industriali, ma spesso è uno sforzo lungo e costoso.

Per migliorare le nostre capacità nell’ingegneria proteica, i ricercatori del MIT CSAIL hanno ideato “FrameDiff”, uno strumento computazionale per creare nuove strutture proteiche oltre ciò che la natura ha prodotto. L’approccio di apprendimento automatico genera “frame” che si allineano con le proprietà intrinseche delle strutture proteiche, consentendo di costruire nuove proteine indipendentemente dai progetti preesistenti, facilitando strutture proteiche senza precedenti.

“In natura, la progettazione delle proteine è un processo a combustione lenta che richiede milioni di anni. La nostra tecnica mira a fornire una risposta per affrontare i problemi causati dall’uomo che si evolvono molto più velocemente del ritmo della natura”, afferma Jason Yim, dottorando del MIT CSAIL, autore principale di un nuovo articolo sul lavoro. “L’obiettivo, rispetto a questa nuova capacità di generare strutture proteiche sintetiche, apre una miriade di capacità migliorate, come leganti migliori. Ciò significa progettare proteine che possano legarsi ad altre molecole in modo più efficiente e selettivo, con implicazioni diffuse legate alla somministrazione mirata di farmaci e alla biotecnologia, dove potrebbe portare allo sviluppo di biosensori migliori. Potrebbe anche avere implicazioni per il campo della biomedicina e oltre, offrendo possibilità come lo sviluppo di proteine di fotosintesi più efficienti, la creazione di anticorpi più efficaci e l’ingegneria di nanoparticelle per la terapia genica”. 

Inquadratura FrameDiff

Le proteine hanno strutture complesse, costituite da molti atomi collegati da legami chimici. Gli atomi più importanti che determinano la forma 3D della proteina sono chiamati “spina dorsale”, un po' come la spina dorsale della proteina. Ogni tripletta di atomi lungo la spina dorsale condivide lo stesso modello di legami e tipi di atomi. I ricercatori hanno notato che questo modello può essere sfruttato per costruire algoritmi di apprendimento automatico utilizzando idee provenienti dalla geometria differenziale e dalla probabilità. È qui che entrano in gioco i fotogrammi: matematicamente, queste triplette possono essere modellate come corpi rigidi chiamati “fotogrammi” (comuni in fisica) che hanno una posizione e una rotazione in 3D. 

Questi fotogrammi forniscono a ciascuna tripletta informazioni sufficienti per conoscere l'ambiente circostante. Il compito è quindi che un algoritmo di apprendimento automatico impari come spostare ciascun fotogramma per costruire una spina dorsale proteica. Imparando a costruire proteine esistenti, si spera che l’algoritmo si generalizzi e sia in grado di creare nuove proteine mai viste prima in natura.

Addestrare un modello per costruire proteine tramite “diffusione” comporta l’iniezione di rumore che sposta casualmente tutti i fotogrammi e offusca l’aspetto della proteina originale. Il compito dell'algoritmo è spostare e ruotare ogni fotogramma finché non assomiglia alla proteina originale. Sebbene semplice, lo sviluppo della diffusione su frame richiede tecniche di calcolo stocastico su varietà Riemanniane. Dal punto di vista teorico, i ricercatori hanno sviluppato la “diffusione SE(3)” per l’apprendimento di distribuzioni di probabilità che collegano in modo non banale le componenti di traslazione e rotazione di ciascun fotogramma.

La sottile arte della diffusione

Nel 2021, DeepMind ha introdotto AlphaFold2, un algoritmo di apprendimento profondo per prevedere le strutture proteiche 3D dalle loro sequenze. Quando si creano proteine sintetiche, ci sono due passaggi essenziali: generazione e previsione. Generazione significa la creazione di nuove strutture e sequenze proteiche, mentre “previsione” significa capire quale sia la struttura 3D di una sequenza. Non è un caso che AlphaFold2 abbia utilizzato anche i frame per modellare le proteine. SE(3) diffusion e FrameDiff sono stati ispirati a sviluppare ulteriormente l'idea dei fotogrammi incorporando i fotogrammi nei modelli di diffusione, una tecnica di intelligenza artificiale generativa che è diventata immensamente popolare nella generazione di immagini, come Midjourney, ad esempio. 

Le strutture e i principi condivisi tra la generazione e la previsione della struttura proteica hanno fatto sì che i migliori modelli da entrambe le parti fossero compatibili. In collaborazione con l'Institute for Protein Design dell'Università di Washington, la diffusione SE(3) è già utilizzata per creare e validare sperimentalmente nuove proteine. Nello specifico, hanno combinato la diffusione SE(3) con RosettaFold2, uno strumento di previsione della struttura proteica molto simile a AlphaFold2, che ha portato alla “RFdiffusione”. Questo nuovo strumento ha avvicinato i progettisti di proteine alla risoluzione di problemi cruciali della biotecnologia, tra cui lo sviluppo di leganti proteici altamente specifici per la progettazione accelerata di vaccini, l’ingegnerizzazione di proteine simmetriche per la consegna dei geni e una robusta impalcatura di motivi per una progettazione precisa degli enzimi. 

Gli sforzi futuri per FrameDiff riguardano il miglioramento della generalità dei problemi che combinano molteplici requisiti per prodotti biologici come i farmaci. Un'altra estensione consiste nel generalizzare i modelli a tutte le modalità biologiche, inclusi il DNA e le piccole molecole. Il team presuppone che espandendo la formazione di FrameDiff su dati più sostanziali e migliorando il suo processo di ottimizzazione, si potrebbero generare strutture fondamentali che vantano capacità di progettazione alla pari di RFdiffusion, il tutto preservando la semplicità intrinseca di FrameDiff. 

"L'eliminazione di un modello di previsione della struttura pre-addestrato [in FrameDiff] apre la possibilità di generare rapidamente strutture che si estendono su grandi lunghezze", afferma il biologo computazionale dell'Università di Harvard Sergey Ovchinnikov. L'approccio innovativo dei ricercatori rappresenta un passo promettente verso il superamento dei limiti degli attuali modelli di previsione della struttura. Anche se si tratta ancora di un lavoro preliminare, è un passo incoraggiante nella giusta direzione. Pertanto, la visione della progettazione delle proteine, che gioca un ruolo fondamentale nell’affrontare le sfide più urgenti dell’umanità, sembra sempre più a portata di mano, grazie al lavoro pionieristico di questo gruppo di ricerca del MIT”. 

Yim ha scritto l'articolo insieme al postdoc della Columbia University Brian Trippe, al ricercatore del Centro nazionale francese per la ricerca scientifica del Center for Science of Data di Parigi Valentin De Bortoli, al postdoc dell'Università di Cambridge Emile Mathieu e al professore di statistica dell'Università di Oxford e ricercatore senior presso DeepMind Arnaud Doucet. . I professori del MIT Regina Barzilay e Tommi Jaakkola hanno consigliato la ricerca. 

Il lavoro del team è stato supportato, in parte, dalla Clinica Abdul Latif Jameel del MIT per il Machine Learning in Health, dalle sovvenzioni EPSRC e da una partnership di prosperità tra Microsoft Research e l'Università di Cambridge, dal programma di borse di ricerca per laureati della National Science Foundation, dalla sovvenzione NSF Expeditions, dal Machine Learning per il consorzio Pharmaceutical Discovery and Synthesis, il programma DTRA Discovery of Medical Countermeasures Against New and Emerging threats, il programma DARPA Accelerated Molecular Discovery e il finanziamento Sanofi Computational Antibody Design. Questa ricerca sarà presentata alla Conferenza internazionale sull’apprendimento automatico a luglio.



Collegamento alla fonte

lascia un commento

L'indirizzo email non verrà pubblicato. I campi richiesti sono contrassegnati *

Puoi utilizzare questi tag e attributi HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

it_ITItalian