प्रोटीन डिज़ाइन में आगे क्या है? माइक्रोसॉफ्ट के शोधकर्ताओं ने इवोडिफ़ पेश किया: अनुक्रम-प्रथम प्रोटीन इंजीनियरिंग के लिए एक अभूतपूर्व एआई फ्रेमवर्क


जब नवीन प्रोटीनों के सिलिको निर्माण की बात आती है तो डीप जेनेरेटिव मॉडल तेजी से शक्तिशाली उपकरण बनते जा रहे हैं। डिफ्यूजन मॉडल, जेनेरिक मॉडल का एक वर्ग जिसे हाल ही में प्रकृति में देखे गए किसी भी वास्तविक प्रोटीन से अलग शारीरिक रूप से प्रशंसनीय प्रोटीन उत्पन्न करने के लिए दिखाया गया है, डे नोवो प्रोटीन डिजाइन में अद्वितीय क्षमता और नियंत्रण की अनुमति देता है। हालाँकि, वर्तमान अत्याधुनिक मॉडल प्रोटीन संरचनाओं का निर्माण करते हैं, जो उनके प्रशिक्षण डेटा की चौड़ाई को गंभीर रूप से सीमित कर देता है और पीढ़ियों को प्रोटीन डिज़ाइन स्थान के एक छोटे और पक्षपाती अंश तक सीमित कर देता है। माइक्रोसॉफ्ट के शोधकर्ताओं ने इवोडिफ़ विकसित किया है, जो एक सामान्य प्रयोजन प्रसार ढांचा है जो प्रसार मॉडल की विशिष्ट कंडीशनिंग क्षमताओं के साथ विकासवादी-पैमाने के डेटा को जोड़कर अनुक्रम स्थान में ट्यून करने योग्य प्रोटीन निर्माण की अनुमति देता है। इवोडिफ़ संभावित अनुक्रमों और कार्यों की पूरी श्रृंखला को कवर करते हुए संरचनात्मक रूप से प्रशंसनीय प्रोटीन को विविध बना सकता है। अनुक्रम-आधारित फॉर्मूलेशन की सार्वभौमिकता इस तथ्य से प्रदर्शित होती है कि ईवोडिफ़ उपयोगी संरचनात्मक रूपांकनों के लिए मचान डिजाइन करने में सक्षम होने के साथ-साथ संरचना-आधारित मॉडलों के लिए दुर्गम प्रोटीन का निर्माण कर सकता है, जैसे कि अव्यवस्थित वर्गों वाले। उन्हें उम्मीद है कि इवोडिफ़ प्रोटीन इंजीनियरिंग में प्रोग्रामयोग्य, अनुक्रम-प्रथम डिज़ाइन का मार्ग प्रशस्त करेगा, जिससे उन्हें संरचना-फ़ंक्शन प्रतिमान से आगे बढ़ने की अनुमति मिलेगी। 

इवोडिफ़ अकेले अनुक्रम डेटा से प्रोग्रामयोग्य प्रोटीन निर्माण के लिए एक नवीन जेनरेटिव मॉडलिंग प्रणाली है, जिसे प्रसार मॉडल के साथ विकासवादी-पैमाने के डेटासेट के संयोजन द्वारा विकसित किया गया है। वे एक असतत प्रसार ढांचे का उपयोग करते हैं जिसमें एक आगे की प्रक्रिया अपने अमीनो एसिड पहचान को बदलकर प्रोटीन अनुक्रम को पुनरावृत्त रूप से भ्रष्ट कर देती है, और एक तंत्रिका नेटवर्क द्वारा मानकीकृत एक सीखी गई रिवर्स प्रक्रिया, प्राकृतिक फ्रेमिंग का लाभ उठाते हुए, प्रत्येक पुनरावृत्ति में किए गए परिवर्तनों की भविष्यवाणी करती है। अमीनो एसिड भाषा पर अलग-अलग टोकन के अनुक्रम के रूप में प्रोटीन।

उल्टे विधि का उपयोग करके खरोंच से प्रोटीन अनुक्रम बनाया जा सकता है। प्रोटीन संरचना डिजाइन में पारंपरिक रूप से उपयोग किए जाने वाले निरंतर प्रसार फॉर्मूलेशन की तुलना में, इवोडिफ़ में उपयोग किया जाने वाला असतत प्रसार फॉर्मूलेशन एक महत्वपूर्ण गणितीय सुधार के रूप में सामने आता है। एकाधिक अनुक्रम संरेखण (एमएसए) संबंधित प्रोटीन के समूहों के अमीनो एसिड अनुक्रमों में संरक्षण, भिन्नता के पैटर्न को उजागर करते हैं, जिससे एकल प्रोटीन अनुक्रमों के विकासवादी-पैमाने डेटासेट से परे विकासवादी लिंक कैप्चर होते हैं। विकासवादी जानकारी की इस अतिरिक्त गहराई का लाभ उठाने के लिए, वे नई एकल पंक्तियाँ तैयार करने के लिए एमएसए पर प्रशिक्षित असतत प्रसार मॉडल का निर्माण करते हैं।

ट्यून करने योग्य प्रोटीन डिज़ाइन के लिए उनकी प्रभावकारिता को स्पष्ट करने के लिए, शोधकर्ता पीढ़ी की गतिविधियों के एक स्पेक्ट्रम पर अनुक्रम और एमएसए मॉडल (क्रमशः इवोडिफ़-सेक और इवोडिफ़-एमएसए) की जांच करते हैं। वे यह प्रदर्शित करके शुरू करते हैं कि EvoDiff-Seq विश्वसनीय रूप से उच्च गुणवत्ता वाले, विविध प्रोटीन का उत्पादन करता है जो प्रकृति में प्रोटीन की संरचना और कार्य को सटीक रूप से दर्शाता है। इवोडिफ़-एमएसए समान लेकिन अद्वितीय विकासवादी इतिहास के साथ प्रोटीन को संरेखित करके नए अनुक्रमों के निर्देशित विकास की अनुमति देता है। अंत में, वे दिखाते हैं कि इवोडिफ़ आईडीआर के साथ विश्वसनीय रूप से प्रोटीन उत्पन्न कर सकता है, सीधे संरचना-आधारित जेनरेटिव मॉडल की एक प्रमुख सीमा पर काबू पा सकता है, और प्रसार-आधारित मॉडलिंग ढांचे की कंडीशनिंग क्षमताओं का लाभ उठाकर बिना किसी स्पष्ट संरचनात्मक जानकारी के कार्यात्मक संरचनात्मक रूपांकनों के लिए मचान उत्पन्न कर सकता है। और एक सार्वभौमिक डिज़ाइन स्थान में इसकी ग्राउंडिंग।

अनुक्रम सीमाओं के आधार पर कंडीशनिंग की संभावना के साथ विविध और नए प्रोटीन उत्पन्न करने के लिए, शोधकर्ता एक प्रसार मॉडलिंग ढांचा, इवोडिफ़ प्रस्तुत करते हैं। संरचना-आधारित-प्रोटीन डिज़ाइन प्रतिमान को चुनौती देकर, इवोडिफ़ अनुक्रम डेटा से आंतरिक रूप से अव्यवस्थित क्षेत्रों और मचान संरचनात्मक रूपांकनों को उत्पन्न करके बिना शर्त संरचनात्मक रूप से प्रशंसनीय प्रोटीन विविधता का नमूना ले सकता है। प्रोटीन अनुक्रम विकास में, इवोडिफ़ प्रसार जनरेटिव मॉडलिंग की प्रभावकारिता को प्रदर्शित करने वाला पहला गहन-शिक्षण ढांचा है।

मार्गदर्शन के माध्यम से कंडीशनिंग, जिसमें वांछित गुणों को पूरा करने के लिए बनाए गए अनुक्रमों को पुनरावृत्त रूप से समायोजित किया जा सकता है, को भविष्य के अध्ययनों में इन क्षमताओं में जोड़ा जा सकता है। EvoDiff-D3PM फ्रेमवर्क मार्गदर्शन के माध्यम से कंडीशनिंग के लिए स्वाभाविक है क्योंकि अनुक्रम में प्रत्येक अवशेष की पहचान को प्रत्येक डिकोडिंग चरण में संपादित किया जा सकता है। हालाँकि, शोधकर्ताओं ने देखा है कि OADM आम तौर पर बिना शर्त पीढ़ी में D3PM से बेहतर प्रदर्शन करता है, संभवतः इसलिए क्योंकि OADM डीनोइज़िंग कार्य D3PM की तुलना में सीखना आसान है। दुर्भाग्य से, OADM और अन्य पूर्व-मौजूदा सशर्त LRAR मॉडल जैसे ProGen (54) द्वारा मार्गदर्शन की प्रभावशीलता कम हो गई है। यह उम्मीद की जाती है कि नवीन प्रोटीन अनुक्रम कार्यात्मक लक्ष्यों के साथ EvoDiff-D3PM को कंडीशनिंग द्वारा उत्पन्न किया जाएगा, जैसे कि अनुक्रम फ़ंक्शन क्लासिफायर द्वारा वर्णित।

इवोडिफ़ की न्यूनतम डेटा आवश्यकताओं का मतलब है कि इसे लाइन के नीचे के उपयोग के लिए आसानी से अनुकूलित किया जा सकता है, जो केवल संरचना-आधारित दृष्टिकोण के साथ संभव होगा। शोधकर्ताओं ने दिखाया है कि इवोडिफ़ संरचना-आधारित भविष्य कहनेवाला और जेनरेटिव मॉडल के क्लासिक नुकसान से बचते हुए, फाइन-ट्यूनिंग के बिना इनपेंटिंग के माध्यम से आईडीआर बना सकता है। बड़े अनुक्रमण डेटासेट के लिए संरचनाएं प्राप्त करने की उच्च लागत शोधकर्ताओं को नए जैविक, औषधीय, या वैज्ञानिक डिज़ाइन विकल्पों का उपयोग करने से रोक सकती है जिन्हें डिस्प्ले लाइब्रेरी या बड़े पैमाने पर स्क्रीन जैसे एप्लिकेशन-विशिष्ट डेटासेट पर ईवोडिफ़ को फाइन-ट्यूनिंग द्वारा अनलॉक किया जा सकता है। यद्यपि अल्फाफोल्ड और संबंधित एल्गोरिदम कई अनुक्रमों के लिए संरचनाओं की भविष्यवाणी कर सकते हैं, वे बिंदु उत्परिवर्तन के साथ संघर्ष करते हैं और नकली प्रोटीन के लिए संरचनाओं का संकेत देते समय अति आत्मविश्वास में हो सकते हैं।

शोधकर्ताओं ने मचान और इनपेंटिंग के माध्यम से कंडीशनिंग उत्पादन के लिए कई मोटे अनाज वाले तरीके दिखाए; हालाँकि, प्रोटीन फ़ंक्शन पर अधिक सूक्ष्म नियंत्रण प्रदान करने के लिए इवोडिफ़ को पाठ, रासायनिक जानकारी या अन्य तौर-तरीकों पर आधारित किया जा सकता है। भविष्य में, ट्यून करने योग्य प्रोटीन अनुक्रम डिज़ाइन की इस अवधारणा का उपयोग विभिन्न तरीकों से किया जाएगा। उदाहरण के लिए, सशर्त रूप से डिज़ाइन किए गए प्रतिलेखन कारक या एंडोन्यूक्लाइजेस का उपयोग न्यूक्लिक एसिड को प्रोग्रामेटिक रूप से मॉड्यूलेट करने के लिए किया जा सकता है; बायोलॉजिक्स को विवो डिलीवरी और तस्करी के लिए अनुकूलित किया जा सकता है; और एंजाइम-सब्सट्रेट विशिष्टता की शून्य-शॉट ट्यूनिंग उत्प्रेरक के लिए पूरी तरह से नए रास्ते खोल सकती है।

डेटासेट

Uniref50 एक डेटासेट है जिसमें शोधकर्ताओं द्वारा उपयोग किए जाने वाले लगभग 42 मिलियन प्रोटीन अनुक्रम हैं। एमएसए ओपनफोल्ड डेटासेट से हैं, जिसमें 16,000,000 यूनीक्लस्ट30 क्लस्टर और 401,381 एमएसए शामिल हैं जो 140,000 अलग-अलग पीडीबी श्रृंखलाओं को कवर करते हैं। आईडीआर (आंतरिक रूप से अव्यवस्थित क्षेत्र) के बारे में जानकारी रिवर्स होमोलॉजी गिटहब से मिली।

शोधकर्ता मचान संरचनात्मक रूपांकनों की चुनौती के लिए आरएफडिफ्यूजन बेसलाइन का उपयोग करते हैं। उदाहरण/मचान-पीडीबीएस फ़ोल्डर में, आपको पीडीबी और फास्टा फ़ाइलें मिलेंगी जिनका उपयोग सशर्त रूप से अनुक्रम उत्पन्न करने के लिए किया जा सकता है। उदाहरण/स्कैफोल्डिंग-एमएसएएस फ़ोल्डर में पीडीबी फ़ाइलें भी शामिल हैं जिनका उपयोग कुछ शर्तों के आधार पर एमएसए बनाने के लिए किया जा सकता है।

वर्तमान मॉडल

शोधकर्ताओं ने यह तय करने के लिए दोनों पर गौर किया कि अलग-अलग डेटा तौर-तरीकों पर प्रसार के लिए कौन सी आगे की तकनीक सबसे कुशल होगी। ऑर्डर-अज्ञेयवादी ऑटोरेग्रेसिव वितरण ओएडीएम के प्रत्येक साहसिक चरण में एक अमीनो एसिड एक अद्वितीय मास्क टोकन में बदल जाता है। निश्चित संख्या में चरणों के बाद पूरा क्रम छिपा रहता है। समूह द्वारा विशेष रूप से प्रोटीन अनुक्रमों के लिए असतत डीनोइजिंग प्रसार संभाव्य मॉडल (डी3पीएम) भी विकसित किए गए थे। EvoDiff-D3PM के आगे के चरण के दौरान, संक्रमण मैट्रिक्स के अनुसार नमूना उत्परिवर्तन द्वारा लाइनें दूषित हो जाती हैं। यह तब तक जारी रहता है जब तक अनुक्रम को अमीनो एसिड पर एक समान नमूने से अलग नहीं किया जा सकता है, जो कई चरणों के बाद होता है। सभी मामलों में, पुनर्प्राप्ति चरण में क्षति को पूर्ववत करने के लिए तंत्रिका नेटवर्क मॉडल को फिर से प्रशिक्षित करना शामिल है। EvoDiff-OADM और EvoDiff-D3PM के लिए, प्रशिक्षित मॉडल मास्क्ड टोकन या समान रूप से सैंपल किए गए अमीनो एसिड के अनुक्रम से नए अनुक्रम उत्पन्न कर सकता है। CARP प्रोटीन मास्क्ड भाषा मॉडल में पहली बार देखे गए विस्तारित कन्वेन्शनल न्यूरल नेटवर्क आर्किटेक्चर का उपयोग करते हुए, उन्होंने UniRef50 से 42M अनुक्रमों पर सभी EvoDiff अनुक्रम मॉडल को प्रशिक्षित किया। प्रत्येक फॉरवर्ड भ्रष्टाचार योजना और एलआरएआर डिकोडिंग के लिए, उन्होंने 38M और 640M प्रशिक्षित मापदंडों के साथ संस्करण विकसित किए।

प्रमुख विशेषताऐं

  • प्रबंधनीय प्रोटीन अनुक्रम उत्पन्न करने के लिए, इवोडिफ़ प्रसार मॉडल के साथ विकासवादी-पैमाने के डेटा को शामिल करता है। 
  • इवोडिफ़ संभावित अनुक्रमों और कार्यों की पूरी श्रृंखला को कवर करते हुए संरचनात्मक रूप से प्रशंसनीय प्रोटीन को विविध बना सकता है।
  • अव्यवस्थित वर्गों और संरचना-आधारित मॉडल के लिए दुर्गम अन्य सुविधाओं के साथ प्रोटीन उत्पन्न करने के अलावा, इवोडिफ़ कार्यात्मक संरचनात्मक रूपांकनों के लिए मचान भी तैयार कर सकता है, जो अनुक्रम-आधारित फॉर्मूलेशन की सामान्य प्रयोज्यता को साबित करता है।

निष्कर्ष में, माइक्रोसॉफ्ट के वैज्ञानिकों ने अलग-अलग प्रसार मॉडल का एक सेट जारी किया है जिसका उपयोग अनुक्रम-आधारित प्रोटीन इंजीनियरिंग और डिज़ाइन को आगे बढ़ाने के लिए किया जा सकता है। संरचना या कार्य के आधार पर निर्देशित डिज़ाइन के लिए इवोडिफ़ मॉडल का विस्तार करना संभव है, और उन्हें प्रोटीन अनुक्रमों के बिना शर्त, विकास-निर्देशित और सशर्त निर्माण के लिए तुरंत उपयोग किया जा सकता है। उन्हें उम्मीद है कि प्रक्रियाओं को सीधे प्रोटीन की भाषा में पढ़ने और लिखने से, इवोडिफ़ प्रोग्रामयोग्य प्रोटीन निर्माण में नई संभावनाएं खोलेगा।


इसकी जाँच पड़ताल करो प्रीप्रिंट पेपर और GitHubइस शोध का सारा श्रेय इस परियोजना के शोधकर्ताओं को जाता है। साथ ही जुड़ना न भूलें हमारा 30k+ एमएल सबरेडिट, 40k+ फेसबुक समुदाय, कलह चैनल, और ईमेल न्यूज़लेटर, जहां हम नवीनतम एआई अनुसंधान समाचार, बेहतरीन एआई प्रोजेक्ट और बहुत कुछ साझा करते हैं।

यदि आपको हमारा काम पसंद है, तो आपको हमारा न्यूज़लेटर भी पसंद आएगा..


20221028 101632 धनश्री शेनवई

धनश्री शेनवई एक कंप्यूटर साइंस इंजीनियर हैं और एआई के अनुप्रयोगों में गहरी रुचि के साथ वित्तीय, कार्ड और भुगतान और बैंकिंग डोमेन को कवर करने वाली फिनटेक कंपनियों में उनका अच्छा अनुभव है। वह आज की बदलती दुनिया में हर किसी के जीवन को आसान बनाने वाली नई तकनीकों और प्रगति की खोज करने को लेकर उत्साहित हैं।




स्रोत लिंक

उत्तर छोड़ दें

आपकी ईमेल आईडी प्रकाशित नहीं की जाएगी। आवश्यक फ़ील्ड चिह्नित हैं *

आप इन HTML टैग और विशेषताओं का उपयोग कर सकते हैं: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

hi_INHindi