Generative KI erfindet neue Proteinstrukturen | MIT-Nachrichten



MIT News FrameDiff 0

Die Biologie ist ein wundersamer und zugleich heikler Wandteppich. Das Herzstück ist die DNA, der Meisterweber, der Proteine kodiert und für die Orchestrierung der vielen biologischen Funktionen verantwortlich ist, die das Leben im menschlichen Körper aufrechterhalten. Unser Körper ähnelt jedoch einem fein gestimmten Instrument, das leicht seine Harmonie verliert. Schließlich sind wir mit einer sich ständig verändernden und unerbittlichen natürlichen Welt konfrontiert: Krankheitserreger, Viren, Krankheiten und Krebs. 

Stellen Sie sich vor, wir könnten den Prozess der Entwicklung von Impfstoffen oder Medikamenten gegen neu aufgetretene Krankheitserreger beschleunigen. Was wäre, wenn wir eine Gen-Editing-Technologie hätten, die in der Lage wäre, automatisch Proteine zu produzieren, um DNA-Fehler zu korrigieren, die Krebs verursachen? Die Suche nach Proteinen, die sich stark an Ziele binden oder chemische Reaktionen beschleunigen können, ist für die Arzneimittelentwicklung, Diagnostik und zahlreiche industrielle Anwendungen von entscheidender Bedeutung, ist jedoch oft ein langwieriges und kostspieliges Unterfangen.

Um unsere Fähigkeiten im Protein-Engineering zu verbessern, haben MIT-CSAIL-Forscher „FrameDiff“ entwickelt, ein Computertool zur Schaffung neuer Proteinstrukturen, die über das hinausgehen, was die Natur hervorgebracht hat. Der Ansatz des maschinellen Lernens generiert „Rahmen“, die sich an den inhärenten Eigenschaften von Proteinstrukturen orientieren und es ihm ermöglichen, neuartige Proteine unabhängig von bereits bestehenden Designs zu konstruieren und so beispiellose Proteinstrukturen zu ermöglichen.

„In der Natur ist Proteindesign ein langsam ablaufender Prozess, der Millionen von Jahren dauert. „Unsere Technik zielt darauf ab, eine Antwort auf die Bewältigung von vom Menschen verursachten Problemen zu liefern, die sich viel schneller entwickeln als die Natur“, sagt Jason Yim, Doktorand am MIT CSAIL, Hauptautor einer neuen Arbeit über die Arbeit. „Das Ziel im Hinblick auf diese neue Fähigkeit, synthetische Proteinstrukturen zu erzeugen, eröffnet eine Vielzahl verbesserter Möglichkeiten, wie zum Beispiel bessere Bindemittel.“ Das bedeutet, Proteine zu entwickeln, die sich effizienter und selektiver an andere Moleküle binden können, mit weitreichenden Auswirkungen im Zusammenhang mit der gezielten Arzneimittelabgabe und der Biotechnologie, wo dies zur Entwicklung besserer Biosensoren führen könnte. Es könnte auch Auswirkungen auf den Bereich der Biomedizin und darüber hinaus haben und Möglichkeiten wie die Entwicklung effizienterer Photosyntheseproteine, die Schaffung wirksamerer Antikörper und die Entwicklung von Nanopartikeln für die Gentherapie bieten.“ 

Rahmen FrameDiff

Proteine haben komplexe Strukturen, die aus vielen Atomen bestehen, die durch chemische Bindungen verbunden sind. Die wichtigsten Atome, die die dreidimensionale Form des Proteins bestimmen, werden als „Rückgrat“ bezeichnet, ähnlich wie das Rückgrat des Proteins. Jedes Atomtriplett entlang des Rückgrats weist das gleiche Muster an Bindungen und Atomtypen auf. Forscher stellten fest, dass dieses Muster genutzt werden kann, um Algorithmen für maschinelles Lernen zu erstellen, die Ideen aus der Differentialgeometrie und Wahrscheinlichkeit nutzen. Hier kommen die Frames ins Spiel: Mathematisch können diese Tripletts als starre Körper modelliert werden, die „Frames“ genannt werden (in der Physik üblich), die eine Position und Rotation in 3D haben. 

Diese Rahmen versorgen jedes Triplett mit genügend Informationen, um etwas über seine räumliche Umgebung zu erfahren. Die Aufgabe besteht dann darin, dass ein Algorithmus für maschinelles Lernen lernt, wie jeder Frame bewegt wird, um ein Proteinrückgrat aufzubauen. Indem der Algorithmus lernt, bestehende Proteine zu konstruieren, wird er hoffentlich verallgemeinert und in der Lage sein, neue Proteine zu erzeugen, die es in der Natur noch nie gegeben hat.

Beim Trainieren eines Modells zum Aufbau von Proteinen durch „Diffusion“ wird Rauschen injiziert, das alle Frames zufällig verschiebt und das Aussehen des ursprünglichen Proteins verwischt. Die Aufgabe des Algorithmus besteht darin, jeden Frame zu verschieben und zu drehen, bis er wie das ursprüngliche Protein aussieht. Obwohl einfach, erfordert die Entwicklung der Diffusion auf Frames Techniken in der stochastischen Analysis auf Riemannschen Mannigfaltigkeiten. Auf der theoretischen Seite entwickelten die Forscher die „SE(3)-Diffusion“ zum Lernen von Wahrscheinlichkeitsverteilungen, die die Translations- und Rotationskomponenten jedes Frames nichttrivial verbindet.

Die subtile Kunst der Verbreitung

Im Jahr 2021 führte DeepMind AlphaFold2 ein, einen Deep-Learning-Algorithmus zur Vorhersage von 3D-Proteinstrukturen aus ihren Sequenzen. Bei der Herstellung synthetischer Proteine gibt es zwei wesentliche Schritte: Generierung und Vorhersage. Unter Generierung versteht man die Schaffung neuer Proteinstrukturen und -sequenzen, während „Vorhersage“ bedeutet, herauszufinden, wie die 3D-Struktur einer Sequenz aussieht. Es ist kein Zufall, dass AlphaFold2 auch Rahmen zur Modellierung von Proteinen verwendete. SE(3) diffusion und FrameDiff wurden dazu inspiriert, die Idee von Frames durch die Integration von Frames in Diffusionsmodelle weiterzuentwickeln, eine generative KI-Technik, die in der Bilderzeugung, wie beispielsweise Midjourney, immens populär geworden ist. 

Die gemeinsamen Rahmen und Prinzipien zwischen der Generierung und Vorhersage der Proteinstruktur führten dazu, dass die besten Modelle von beiden Seiten kompatibel waren. In Zusammenarbeit mit dem Institute for Protein Design der University of Washington wird die SE(3)-Diffusion bereits zur Schaffung und experimentellen Validierung neuartiger Proteine eingesetzt. Konkret kombinierten sie die SE(3)-Diffusion mit RosettaFold2, einem Tool zur Vorhersage der Proteinstruktur ähnlich wie AlphaFold2, was zur „RFdiffusion“ führte. Dieses neue Tool brachte Proteindesigner der Lösung entscheidender Probleme in der Biotechnologie einen Schritt näher, darunter die Entwicklung hochspezifischer Proteinbinder für ein beschleunigtes Impfstoffdesign, die Konstruktion symmetrischer Proteine für die Genabgabe und ein robustes Motivgerüst für ein präzises Enzymdesign. 

Zukünftige Bemühungen für FrameDiff umfassen die Verbesserung der Allgemeingültigkeit bei Problemen, die mehrere Anforderungen an Biologika wie Arzneimittel vereinen. Eine weitere Erweiterung besteht darin, die Modelle auf alle biologischen Modalitäten zu verallgemeinern, einschließlich DNA und kleine Moleküle. Das Team geht davon aus, dass durch die Erweiterung des FrameDiff-Trainings auf umfangreichere Daten und die Verbesserung seines Optimierungsprozesses grundlegende Strukturen generiert werden könnten, deren Designfähigkeiten denen von RFdiffusion ebenbürtig sind, und das alles unter Beibehaltung der inhärenten Einfachheit von FrameDiff. 

„Das Verwerfen eines vorab trainierten Strukturvorhersagemodells [in FrameDiff] eröffnet Möglichkeiten für die schnelle Erzeugung von Strukturen, die sich über große Längen erstrecken“, sagt der Computerbiologe Sergey Ovchinnikov von der Harvard University. Der innovative Ansatz der Forscher bietet einen vielversprechenden Schritt zur Überwindung der Einschränkungen aktueller Strukturvorhersagemodelle. Auch wenn es sich noch um Vorarbeiten handelt, ist es ein ermutigender Schritt in die richtige Richtung. Daher scheint die Vision des Proteindesigns, das eine entscheidende Rolle bei der Bewältigung der dringendsten Herausforderungen der Menschheit spielt, dank der Pionierarbeit dieses MIT-Forschungsteams immer greifbarer zu werden.“ 

Yim schrieb das Papier zusammen mit Brian Trippe, Postdoktorand der Columbia University, Valentin De Bortoli, Forscher am Centre for Science of Data des französischen Nationalen Zentrums für wissenschaftliche Forschung in Paris, Emile Mathieu, Postdoktorand der Universität Cambridge, und Arnaud Doucet, Professor für Statistik an der Universität Oxford und leitender Forschungswissenschaftler bei DeepMind . Die MIT-Professoren Regina Barzilay und Tommi Jaakkola haben die Forschung beraten. 

Die Arbeit des Teams wurde teilweise durch die MIT Abdul Latif Jameel Clinic for Machine Learning in Health, EPSRC-Zuschüsse und eine Prosperity Partnership zwischen Microsoft Research und der Universität Cambridge, das Graduate Research Fellowship Program der National Science Foundation, NSF Expeditions-Zuschuss und maschinelles Lernen unterstützt für das Pharmaceutical Discovery and Synthesis-Konsortium, das DTRA Discovery of Medical Countermeasures Against New and Emerging Threats-Programm, das DARPA Accelerated Molecular Discovery-Programm und das Sanofi Computational Antibody Design-Stipendium. Diese Forschung wird auf der International Conference on Machine Learning im Juli vorgestellt.



Quelllink

Hinterlasse eine Antwort

Deine Email-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Sie können diese HTML- Tags und -Attribute verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

de_DEGerman