Was kommt als nächstes im Proteindesign? Microsoft-Forscher stellen EvoDiff vor: ein bahnbrechendes KI-Framework für Sequence-First-Protein-Engineering


Tiefe generative Modelle werden zu immer leistungsfähigeren Werkzeugen, wenn es um die In-silico-Erstellung neuartiger Proteine geht. Diffusionsmodelle, eine Klasse generativer Modelle, von denen kürzlich gezeigt wurde, dass sie physiologisch plausible Proteine erzeugen, die sich von allen in der Natur vorkommenden tatsächlichen Proteinen unterscheiden, ermöglichen eine beispiellose Fähigkeit und Kontrolle beim De-novo-Proteindesign. Allerdings bauen die aktuellen, hochmodernen Modelle Proteinstrukturen auf, was die Breite ihrer Trainingsdaten stark einschränkt und Generationen auf einen winzigen und voreingenommenen Bruchteil des Proteindesignraums beschränkt. Microsoft-Forscher haben EvoDiff entwickelt, ein Allzweck-Diffusions-Framework, das eine einstellbare Proteinerzeugung im Sequenzraum ermöglicht, indem es Daten im Evolutionsmaßstab mit den ausgeprägten Konditionierungsfähigkeiten von Diffusionsmodellen kombiniert. EvoDiff kann strukturell plausible Proteine vielfältig machen und dabei das gesamte Spektrum möglicher Sequenzen und Funktionen abdecken. Die Universalität der sequenzbasierten Formulierung wird durch die Tatsache demonstriert, dass EvoDiff Proteine aufbauen kann, die für strukturbasierte Modelle unzugänglich sind, beispielsweise solche mit ungeordneten Abschnitten, und gleichzeitig in der Lage ist, Gerüste für nützliche Strukturmotive zu entwerfen. Sie hoffen, dass EvoDiff den Weg für programmierbares, sequenzorientiertes Design in der Proteintechnik ebnen und es ihnen ermöglichen wird, über das Struktur-Funktions-Paradigma hinauszugehen. 

EvoDiff ist ein neuartiges generatives Modellierungssystem für die programmierbare Proteinerzeugung allein aus Sequenzdaten, das durch die Kombination von Datensätzen im Evolutionsmaßstab mit Diffusionsmodellen entwickelt wurde. Sie verwenden ein diskretes Diffusionsgerüst, in dem ein Vorwärtsprozess iterativ eine Proteinsequenz durch Änderung ihrer Aminosäureidentitäten korrumpiert, und ein erlernter Rückwärtsprozess, parametrisiert durch ein neuronales Netzwerk, die bei jeder Iteration vorgenommenen Änderungen vorhersagt und dabei die natürliche Rahmung von nutzt Proteine als Sequenzen diskreter Token über einer Aminosäuresprache.

Mit der invertierten Methode können Proteinsequenzen von Grund auf erstellt werden. Im Vergleich zu den kontinuierlichen Diffusionsformulierungen, die traditionell beim Proteinstrukturdesign verwendet werden, stellt die in EvoDiff verwendete diskrete Diffusionsformulierung eine erhebliche mathematische Verbesserung dar. Multiple Sequence Alignments (MSAs) heben Konservierungsmuster und Variationen in den Aminosäuresequenzen von Gruppen verwandter Proteine hervor und erfassen so evolutionäre Zusammenhänge über Datensätze einzelner Proteinsequenzen im Evolutionsmaßstab hinaus. Um diese zusätzliche Tiefe an evolutionären Informationen zu nutzen, konstruieren sie diskrete Diffusionsmodelle, die auf MSAs trainiert werden, um neuartige Einzellinien zu erzeugen.

Um ihre Wirksamkeit für das Design abstimmbarer Proteine zu veranschaulichen, untersuchen Forscher die Sequenz- und MSA-Modelle (EvoDiff-Seq bzw. EvoDiff-MSA) über ein Spektrum von Generierungsaktivitäten. Sie zeigen zunächst, dass EvoDiff-Seq zuverlässig hochwertige und vielfältige Proteine produziert, die die Zusammensetzung und Funktion von Proteinen in der Natur genau widerspiegeln. EvoDiff-MSA ermöglicht die gesteuerte Entwicklung neuer Sequenzen durch die Ausrichtung von Proteinen mit ähnlichen, aber einzigartigen Evolutionsgeschichten. Schließlich zeigen sie, dass EvoDiff zuverlässig Proteine mit IDRs erzeugen kann, wodurch eine wesentliche Einschränkung strukturbasierter generativer Modelle direkt überwunden wird, und dass es Gerüste für funktionelle Strukturmotive ohne explizite Strukturinformationen generieren kann, indem es die Konditionierungsfähigkeiten des diffusionsbasierten Modellierungsrahmens nutzt und seine Verankerung in einem universellen Designraum.

Um vielfältige und neue Proteine mit der Möglichkeit einer Konditionierung basierend auf Sequenzbeschränkungen zu erzeugen, stellen Forscher EvoDiff vor, ein Diffusionsmodellierungs-Framework. Indem EvoDiff ein strukturbasiertes Proteindesign-Paradigma in Frage stellt, kann es bedingungslos strukturell plausible Proteinvielfalt testen, indem es intrinsisch ungeordnete Bereiche und Gerüststrukturmotive aus Sequenzdaten generiert. In der Proteinsequenzentwicklung ist EvoDiff das erste Deep-Learning-Framework, das die Wirksamkeit der generativen Diffusionsmodellierung demonstriert.

Konditionierung durch Führung, bei der erstellte Sequenzen iterativ angepasst werden können, um gewünschte Qualitäten zu erfüllen, könnte in zukünftigen Studien zu diesen Fähigkeiten hinzugefügt werden. Das EvoDiff-D3PM-Framework eignet sich hervorragend für die Konditionierung per Anleitung, da die Identität jedes Rests in einer Sequenz bei jedem Decodierungsschritt bearbeitet werden kann. Forscher haben jedoch beobachtet, dass OADM im Allgemeinen D3PM bei der bedingungslosen Generierung übertrifft, wahrscheinlich weil die OADM-Entrauschungsaufgabe einfacher zu erlernen ist als die von D3PM. Leider wird die Wirksamkeit der Anleitung durch OADM und andere bereits bestehende bedingte LRAR-Modelle wie ProGen (54) verringert. Es wird erwartet, dass durch die Konditionierung von EvoDiff-D3PM mit funktionellen Zielen, wie sie beispielsweise durch Sequenzfunktionsklassifikatoren beschrieben werden, neue Proteinsequenzen erzeugt werden.

Aufgrund der minimalen Datenanforderungen von EvoDiff lässt es sich leicht an spätere Anwendungen anpassen, was nur mit einem strukturbasierten Ansatz möglich wäre. Forscher haben gezeigt, dass EvoDiff IDR durch Inpainting ohne Feinabstimmung erstellen kann und so die klassische Falle strukturbasierter prädiktiver und generativer Modelle vermeidet. Die hohen Kosten für die Beschaffung von Strukturen für große Sequenzierungsdatensätze können Forscher davon abhalten, neue biologische, medizinische oder wissenschaftliche Designoptionen zu nutzen, die durch die Feinabstimmung von EvoDiff auf anwendungsspezifische Datensätze wie solche aus Anzeigebibliotheken oder großen Bildschirmen freigeschaltet werden könnten. Obwohl AlphaFold und verwandte Algorithmen Strukturen für viele Sequenzen vorhersagen können, haben sie Probleme mit Punktmutationen und können bei der Angabe von Strukturen für unechte Proteine zu selbstsicher sein.

Die Forscher zeigten mehrere grobkörnige Möglichkeiten zur Konditionierung der Produktion durch Gerüstbau und Inpainting auf; Allerdings kann EvoDiff an Text, chemische Informationen oder andere Modalitäten gebunden sein, um eine viel feinere Kontrolle über die Proteinfunktion zu ermöglichen. In Zukunft wird dieses Konzept des abstimmbaren Proteinsequenzdesigns auf verschiedene Weise genutzt. Beispielsweise könnten bedingt entworfene Transkriptionsfaktoren oder Endonukleasen verwendet werden, um Nukleinsäuren programmatisch zu modulieren; Biologika könnten für die In-vivo-Verabreichung und den Handel optimiert werden; und die Zero-Shot-Abstimmung der Enzym-Substrat-Spezifität könnte völlig neue Wege für die Katalyse eröffnen.

Datensätze

Uniref50 ist ein Datensatz mit etwa 42 Millionen Proteinsequenzen, der von Forschern verwendet wird. Die MSAs stammen aus dem OpenFold-Datensatz, der 16.000.000 UniClust30-Cluster und 401.381 MSAs umfasst, die 140.000 verschiedene PDB-Ketten abdecken. Die Informationen über IDRs (intrinsisch ungeordnete Regionen) stammen vom Reverse Homology GitHub.

Forscher nutzen RFDiffusion-Basislinien für die Herausforderung der Gerüststrukturmotive. Im Ordner „examples/scaffolding-pdbs“ finden Sie PDB- und Fasta-Dateien, die zum bedingten Generieren von Sequenzen verwendet werden können. Der Ordner „examples/scaffolding-msas“ enthält auch PDB-Dateien, die zum Erstellen von MSAs basierend auf bestimmten Bedingungen verwendet werden können.

Aktuelle Modelle

Die Forscher untersuchten beides, um zu entscheiden, welche Vorwärtstechnik zur Verbreitung über diskrete Datenmodalitäten am effizientesten wäre. Bei jedem fetten Schritt der reihenfolgeunabhängigen autoregressiven Verteilung OADM wird eine Aminosäure in ein einzigartiges Maskentoken umgewandelt. Die vollständige Sequenz wird nach einer bestimmten Anzahl von Etappen ausgeblendet. Die Gruppe entwickelte auch diskrete Entrauschungs-Diffusions-Wahrscheinlichkeitsmodelle (D3PM), speziell für Proteinsequenzen. Während der Vorwärtsphase von EvoDiff-D3PM werden Linien durch Sampling-Mutationen gemäß einer Übergangsmatrix beschädigt. Dies geschieht so lange, bis die Sequenz nicht mehr von einer einheitlichen Probe über die Aminosäuren unterschieden werden kann, was nach mehreren Schritten geschieht. In allen Fällen umfasst die Wiederherstellungsphase die Neuschulung eines neuronalen Netzwerkmodells, um den Schaden zu beheben. Für EvoDiff-OADM und EvoDiff-D3PM kann das trainierte Modell neue Sequenzen aus Sequenzen maskierter Token oder einheitlich abgetasteter Aminosäuren erzeugen. Unter Verwendung der erweiterten Faltungs-Neuronalen Netzwerkarchitektur, die erstmals im CARP-Protein-maskierten Sprachmodell zu sehen war, trainierten sie alle EvoDiff-Sequenzmodelle auf 42M-Sequenzen von UniRef50. Für jedes Forward-Corruption-Schema und die LRAR-Dekodierung entwickelten sie Versionen mit 38M und 640M trainierten Parametern.

Hauptmerkmale

  • Um überschaubare Proteinsequenzen zu generieren, integriert EvoDiff Daten im Evolutionsmaßstab mit Diffusionsmodellen. 
  • EvoDiff kann strukturell plausible Proteine vielfältig machen und dabei das gesamte Spektrum möglicher Sequenzen und Funktionen abdecken.
  • Neben der Generierung von Proteinen mit ungeordneten Abschnitten und anderen Merkmalen, die für strukturbasierte Modelle nicht zugänglich sind, kann EvoDiff auch Gerüste für funktionelle Strukturmotive erzeugen, was die allgemeine Anwendbarkeit der sequenzbasierten Formulierung beweist.

Zusammenfassend lässt sich sagen, dass Microsoft-Wissenschaftler eine Reihe diskreter Diffusionsmodelle veröffentlicht haben, auf denen bei der Durchführung sequenzbasierter Proteinentwicklung und -designs aufgebaut werden kann. Es ist möglich, EvoDiff-Modelle für geführtes Design basierend auf Struktur oder Funktion zu erweitern und sie können sofort für die bedingungslose, evolutionsgesteuerte und bedingte Erstellung von Proteinsequenzen verwendet werden. Sie hoffen, dass EvoDiff durch das Lesen und Schreiben von Prozessen direkt in der Sprache der Proteine neue Möglichkeiten bei der programmierbaren Proteinerzeugung eröffnen wird.


Besuche die Preprint-Papier Und GitHubAlle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 30k+ ML SubReddit, Über 40.000 Facebook-Community, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.

Wenn Ihnen unsere Arbeit gefällt, werden Sie unseren Newsletter lieben.


20221028 101632 Dhanshree Shenwai

Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.




Quelllink

Hinterlasse eine Antwort

Deine Email-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Sie können diese HTML- Tags und -Attribute verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

de_DEGerman