أصبحت النماذج التوليدية العميقة أدوات فعالة بشكل متزايد عندما يتعلق الأمر بإنشاء بروتينات جديدة. نماذج الانتشار، وهي فئة من النماذج التوليدية التي تم عرضها مؤخرًا لتوليد بروتينات معقولة من الناحية الفسيولوجية تختلف عن أي بروتينات فعلية موجودة في الطبيعة، تسمح بقدرة وتحكم لا مثيل لهما في تصميم بروتين دي نوفو. ومع ذلك، فإن النماذج الحديثة الحالية تبني هياكل البروتين، مما يحد بشدة من اتساع نطاق بيانات التدريب الخاصة بهم ويحصر الأجيال في جزء صغير ومتحيز من مساحة تصميم البروتين. قام باحثو Microsoft بتطوير EvoDiff، وهو إطار نشر للأغراض العامة يسمح بإنشاء بروتين قابل للضبط في مساحة التسلسل من خلال الجمع بين البيانات التطورية وإمكانيات التكييف المتميزة لنماذج الانتشار. يمكن لـ EvoDiff أن يجعل البروتينات المعقولة من الناحية الهيكلية متنوعة، بحيث تغطي النطاق الكامل للتسلسلات والوظائف المحتملة. تتجلى عالمية الصياغة القائمة على التسلسل في حقيقة أن EvoDiff قد يبني بروتينات لا يمكن الوصول إليها بواسطة النماذج القائمة على البنية، مثل تلك التي تحتوي على أقسام غير منتظمة بينما يكون قادرًا على تصميم سقالات للزخارف الهيكلية المفيدة. ويأملون أن يمهد EvoDiff الطريق لتصميم تسلسلي قابل للبرمجة في هندسة البروتين، مما يسمح لهم بتجاوز نموذج البنية والوظيفة.
EvoDiff هو نظام نمذجة توليدي جديد لإنشاء البروتين القابل للبرمجة من بيانات التسلسل وحدها، تم تطويره من خلال الجمع بين مجموعات البيانات ذات النطاق التطوري ونماذج الانتشار. إنهم يستخدمون إطار نشر منفصل حيث تقوم العملية الأمامية بإفساد تسلسل البروتين بشكل متكرر عن طريق تغيير هويات الأحماض الأمينية الخاصة به، وتتنبأ العملية العكسية المتعلمة، التي تحددها شبكة عصبية، بالتغييرات التي يتم إجراؤها في كل تكرار، مع الاستفادة من التأطير الطبيعي للبروتين. البروتينات كتسلسلات من الرموز المنفصلة عبر لغة الأحماض الأمينية.
يمكن إنشاء تسلسلات البروتين من الصفر باستخدام الطريقة المقلوبة. بالمقارنة مع تركيبات الانتشار المستمر المستخدمة تقليديًا في تصميم بنية البروتين، تبرز تركيبة الانتشار المنفصلة المستخدمة في EvoDiff كتحسن رياضي كبير. تسلط محاذاة التسلسلات المتعددة (MSAs) الضوء على أنماط الحفظ، والتباين في تسلسلات الأحماض الأمينية لمجموعات من البروتينات ذات الصلة، وبالتالي التقاط الروابط التطورية خارج نطاق مجموعات البيانات التطورية لتسلسلات البروتين الفردي. وللاستفادة من هذا العمق الإضافي للمعلومات التطورية، قاموا ببناء نماذج انتشار منفصلة مدربة على اتفاقات الدعم الإداري لإنتاج خطوط مفردة جديدة.
لتوضيح فعاليتها في تصميم البروتين القابل للضبط، قام الباحثون بفحص التسلسل ونماذج MSA (EvoDiff-Seq وEvoDiff-MSA، على التوالي) عبر مجموعة من أنشطة التوليد. بدأوا بإثبات أن EvoDiff-Seq ينتج بروتينات متنوعة وعالية الجودة تعكس بدقة تكوين ووظيفة البروتينات في الطبيعة. يسمح EvoDiff-MSA بالتطوير الموجه لتسلسلات جديدة من خلال محاذاة البروتينات ذات التاريخ التطوري المماثل ولكن الفريد. أخيرًا، أظهروا أن EvoDiff يمكنه توليد بروتينات بشكل موثوق باستخدام IDRs، والتغلب بشكل مباشر على القيود الرئيسية للنماذج التوليدية القائمة على البنية، ويمكنه إنشاء سقالات للزخارف الهيكلية الوظيفية دون أي معلومات هيكلية صريحة من خلال الاستفادة من قدرات التكييف لإطار النمذجة القائم على الانتشار. وتأريضها في مساحة التصميم العالمية.
لتوليد بروتينات متنوعة وجديدة مع إمكانية تكييفها بناءً على قيود التسلسل، يقدم الباحثون EvoDiff، وهو إطار عمل لنمذجة الانتشار. من خلال تحدي نموذج تصميم البروتين القائم على البنية، يمكن لـ EvoDiff أخذ عينات من تنوع البروتين المعقول من الناحية الهيكلية دون قيد أو شرط عن طريق توليد مناطق مضطربة جوهريًا وزخارف هيكلية من بيانات التسلسل. في تطور تسلسل البروتين، يعد EvoDiff أول إطار عمل للتعلم العميق يعرض فعالية النمذجة التوليدية للانتشار.
يمكن إضافة التكييف عبر التوجيه، حيث يمكن تعديل التسلسلات التي تم إنشاؤها بشكل متكرر لتلبية الصفات المطلوبة، إلى هذه القدرات في الدراسات المستقبلية. يعد إطار EvoDiff-D3PM أمرًا طبيعيًا للتكييف من خلال التوجيه للعمل داخله لأنه يمكن تحرير هوية كل بقايا في التسلسل في كل خطوة فك تشفير. ومع ذلك، لاحظ الباحثون أن OADM يتفوق بشكل عام على D3PM في التوليد غير المشروط، ويرجع ذلك على الأرجح إلى أن مهمة تقليل الضوضاء OADM أسهل في التعلم من مهمة D3PM. لسوء الحظ، يتم تقليل فعالية التوجيه بواسطة OADM ونماذج LRAR الشرطية الأخرى الموجودة مسبقًا مثل ProGen (54). من المتوقع أن يتم إنشاء تسلسلات بروتينية جديدة عن طريق تكييف EvoDiff-D3PM بأهداف وظيفية، مثل تلك الموصوفة بواسطة مصنفات وظائف التسلسل.
إن الحد الأدنى من متطلبات البيانات الخاصة بـ EvoDiff يعني أنه يمكن تكييفها بسهولة للاستخدامات اللاحقة، وهو ما لن يكون ممكنًا إلا من خلال النهج القائم على البنية. أظهر الباحثون أن EvoDiff يمكنه إنشاء IDR من خلال الطلاء الداخلي دون ضبط دقيق، مما يتجنب الوقوع في مأزق كلاسيكي للنماذج التنبؤية والتوليدية القائمة على البنية. إن التكلفة العالية للحصول على هياكل لمجموعات بيانات التسلسل الكبيرة قد تمنع الباحثين من استخدام خيارات تصميم بيولوجية أو طبية أو علمية جديدة يمكن فتحها عن طريق ضبط EvoDiff على مجموعات البيانات الخاصة بالتطبيقات مثل تلك الموجودة في مكتبات العرض أو الشاشات واسعة النطاق. على الرغم من أن AlphaFold والخوارزميات ذات الصلة يمكنها التنبؤ بهياكل العديد من التسلسلات، إلا أنها تواجه صعوبات مع الطفرات النقطية ويمكن أن تكون مفرطة الثقة عند الإشارة إلى هياكل البروتينات الزائفة.
أظهر الباحثون عدة طرق خشنة لتكييف الإنتاج عن طريق السقالات والطلاء. ومع ذلك، قد يكون EvoDiff مشروطًا بالنص أو المعلومات الكيميائية أو طرائق أخرى لتوفير تحكم أكثر دقة في وظيفة البروتين. في المستقبل، سيتم استخدام مفهوم تصميم تسلسل البروتين القابل للضبط بطرق مختلفة. على سبيل المثال، يمكن استخدام عوامل النسخ المصممة بشكل مشروط أو نوكليازات داخلية لتعديل الأحماض النووية برمجياً؛ يمكن تحسين المواد البيولوجية لتوصيلها إلى الجسم الحي والاتجار بها؛ والضبط الصفري لخصوصية الركيزة الإنزيمية يمكن أن يفتح آفاقًا جديدة تمامًا للتحفيز.
مجموعات البيانات
Uniref50 عبارة عن مجموعة بيانات تحتوي على حوالي 42 مليون تسلسل بروتيني يستخدمه الباحثون. اتفاقات الخدمة الإدارية هي من مجموعة بيانات OpenFold، والتي تتضمن 16,000,000 مجموعة UniClust30 و401,381 اتفاقات خدمة إضافية تغطي 140,000 سلسلة PDB متميزة. المعلومات حول IDRs (المناطق المضطربة جوهريًا) جاءت من Reverse Homology GitHub.
يستخدم الباحثون خطوط أساس انتشار RFD لتحدي الزخارف الهيكلية للسقالات. في المجلد example/scaffolding-pdbs، ستجد ملفات pdb وfasta التي يمكن استخدامها لإنشاء تسلسلات مشروطة. يتضمن المجلد example/scaffolding-msas أيضًا ملفات pdb التي يمكن استخدامها لإنشاء اتفاقات الخدمة المشتركة بناءً على شروط معينة.
النماذج الحالية
نظر الباحثون في كليهما لتحديد التقنية المتقدمة للنشر عبر طرائق البيانات المنفصلة التي ستكون أكثر كفاءة. يتم تحويل أحد الأحماض الأمينية إلى رمز قناع فريد في كل خطوة جريئة من توزيع الانحدار الذاتي الحيادي للنظام (OADM). يتم إخفاء التسلسل الكامل بعد عدد معين من المراحل. كما طورت المجموعة أيضًا نماذج احتمالية لانتشار تقليل الضوضاء (D3PM)، خصيصًا لتسلسلات البروتين. خلال المرحلة الأمامية من EvoDiff-D3PM، يتم إتلاف الخطوط عن طريق طفرات أخذ العينات وفقًا لمصفوفة الانتقال. ويستمر هذا حتى لا يمكن تمييز التسلسل عن عينة موحدة فوق الأحماض الأمينية، وهو ما يحدث بعد عدة خطوات. في جميع الحالات، تتضمن مرحلة التعافي إعادة تدريب نموذج الشبكة العصبية لإصلاح الضرر. بالنسبة إلى EvoDiff-OADM وEvoDiff-D3PM، يمكن للنموذج المُدرب إنتاج تسلسلات جديدة من تسلسلات الرموز المميزة أو الأحماض الأمينية التي تم أخذ عينات منها بشكل موحد. باستخدام بنية الشبكة العصبية التلافيفية المتوسعة التي شوهدت لأول مرة في نموذج اللغة المقنع لبروتين CARP، قاموا بتدريب جميع نماذج تسلسل EvoDiff على تسلسلات 42M من UniRef50. بالنسبة لكل مخطط تلف أمامي وفك تشفير LRAR، قاموا بتطوير إصدارات تحتوي على 38 مليونًا و640 مليونًا من المعلمات المدربة.
دلائل الميزات
- لتوليد تسلسلات بروتينية يمكن التحكم فيها، يدمج EvoDiff بيانات النطاق التطوري مع نماذج الانتشار.
- يمكن لـ EvoDiff أن يجعل البروتينات المعقولة من الناحية الهيكلية متنوعة، بحيث تغطي النطاق الكامل للتسلسلات والوظائف المحتملة.
- بالإضافة إلى توليد بروتينات ذات أقسام غير منتظمة وميزات أخرى لا يمكن الوصول إليها للنماذج القائمة على البنية، يمكن لـ EvoDiff أيضًا إنتاج سقالات للزخارف الهيكلية الوظيفية، مما يثبت قابلية التطبيق العام للصيغة القائمة على التسلسل.
في الختام، أصدر علماء مايكروسوفت مجموعة من نماذج الانتشار المنفصلة التي يمكن استخدامها للبناء عليها عند تنفيذ هندسة وتصميم البروتين القائم على التسلسل. من الممكن توسيع نماذج EvoDiff للتصميم الموجه استنادًا إلى البنية أو الوظيفة، ويمكن استخدامها على الفور لإنشاء تسلسلات البروتين غير المشروطة والموجهة بالتطور والمشروطة. ويأملون أنه من خلال عمليات القراءة والكتابة مباشرة بلغة البروتينات، سيفتح EvoDiff إمكانيات جديدة في إنشاء البروتين القابل للبرمجة.
تفحص ال ورق ما قبل الطباعة و جيثب. كل الفضل في هذا البحث يعود إلى الباحثين في هذا المشروع. وأيضا لا تنسى الإنضمام لدينا 30k+ ML SubReddit, 40 ألف+ مجتمع الفيسبوك، قناة الديسكورد, و النشرة البريد الإلكتروني، حيث نشارك آخر أخبار أبحاث الذكاء الاصطناعي ومشاريع الذكاء الاصطناعي الرائعة والمزيد.
إذا أعجبك عملنا، فسوف تحب نشرتنا الإخبارية..
Dhanshree Shenwai هو مهندس علوم كمبيوتر ويتمتع بخبرة جيدة في شركات FinTech التي تغطي المجال المالي والبطاقات والمدفوعات والخدمات المصرفية مع اهتمام كبير بتطبيقات الذكاء الاصطناعي. إنها متحمسة لاستكشاف التقنيات والتطورات الجديدة في عالم اليوم المتطور مما يجعل حياة الجميع سهلة.
اترك رد