शोधकर्ताओं और उपभोक्ताओं ने हाल के वर्षों में संवर्धित वास्तविकता (एआर) को संयोजित करने वाले स्मार्टफोन अनुप्रयोगों के प्रति बढ़ते उत्साह को दिखाया है। यह उपयोगकर्ताओं को लघु वीडियो, वीआर और गेम के लिए वास्तविक समय में चेहरे की विशेषताओं को उत्पन्न करने और बदलने की अनुमति देता है। जेनेरेटिव एडवरसैरियल नेटवर्क (जीएएन) दृष्टिकोण पर आधारित फेस जेनरेशन और एडिटिंग मॉडल लोकप्रिय हैं क्योंकि वे उत्कृष्ट गुणवत्ता बनाए रखते हुए हल्के होते हैं। हालाँकि, अधिकांश GAN मॉडल में कंप्यूटिंग जटिलता के मामले में गंभीर सीमाएँ होती हैं और एक विशाल प्रशिक्षण डेटासेट की आवश्यकता होती है। GAN मॉडल का नैतिक उपयोग करना भी महत्वपूर्ण है।
Google शोधकर्ताओं ने मीडियापाइप फेसस्टाइलाइज़र को कुछ-शॉट फेस स्टाइलाइज़ेशन के लिए एक प्रभावी समाधान के रूप में विकसित किया है जो मॉडल जटिलता और डेटा दक्षता के साथ इन मुद्दों पर विचार करता है। GAN व्युत्क्रम इस मॉडल में फेस जनरेटर के लिए छवि को गुप्त कोडिंग में बदल देता है। मोटे से बारीक स्तर पर उच्च गुणवत्ता वाली छवियां उत्पन्न करने के लिए, वे फेस जनरेटर के लिए एक मोबाइल-अनुकूल संश्लेषण नेटवर्क पेश करते हैं, जो एक सहायक हेड के साथ पूरा होता है जो प्रत्येक जनरेटर स्तर पर सुविधाओं को आरजीबी में परिवर्तित करता है। इसके अलावा, उन्होंने शिक्षक स्टाइलजीएएन मॉडल से छात्र जनरेटर को डिस्टिल किया, जिसके परिणामस्वरूप एक हल्का मॉडल तैयार हुआ जो उपरोक्त सहायक प्रमुखों के लिए हानि कार्यों को सावधानीपूर्वक डिजाइन करके और उन्हें सामान्य जीएएन हानि कार्यों के साथ जोड़कर अच्छी पीढ़ी की गुणवत्ता बनाए रखता है। मीडियापाइप प्रस्तावित समाधान तक ओपन-सोर्स पहुंच प्रदान करता है। मीडियापाइप मॉडल मेकर उपयोगकर्ताओं को एक या कुछ तस्वीरों से शैली सीखने के लिए जनरेटर को फाइन-ट्यून करने की अनुमति देता है। मीडियापाइप फेसस्टाइलाइज़र उपयोगकर्ताओं को परिणामी मॉडल को ऑन-डिवाइस फेस स्टाइलाइज़ेशन अनुप्रयोगों में तैनात करने में सक्षम करेगा।
मीडियापाइप फेस स्टाइलाइज़र कार्य की सहायता से छवियों और वीडियो में चेहरों को स्क्रैच से बढ़ाया या बनाया जा सकता है। यह गतिविधि सौंदर्य विकल्पों की एक विस्तृत श्रृंखला के साथ आभासी पात्र बना सकती है।
इस कार्य के लिए ब्लेज़फेसस्टाइलाइज़र मॉडल का उपयोग किया जाता है, जिसमें एक फेस जनरेटर और फेस एनकोडर शामिल होता है। स्टाइलगैन मॉडल परिवार, ब्लेज़स्टाइलगैन का हल्का कार्यान्वयन, किसी दिए गए सौंदर्य से मेल खाने के लिए चेहरों का निर्माण और परिष्कृत करता है। MobileNet V2 कोर का उपयोग करते हुए, फेस एनकोडर इनपुट फ़ोटो को फेस जनरेटर द्वारा निर्मित चेहरों के साथ जोड़ता है।
परियोजना का लक्ष्य एक पाइपलाइन प्रदान करना है जो उपयोगकर्ताओं को विभिन्न शैलियों के अनुरूप मीडियापाइप फेसस्टाइलाइज़र मॉडल को ठीक करने में मदद करता है। शोधकर्ताओं ने GAN व्युत्क्रम एनकोडर और एक प्रभावी फेस जनरेटर मॉडल के साथ एक फेस स्टाइलाइज़ेशन पाइपलाइन का निर्माण किया (इस पर अधिक जानकारी के लिए, नीचे देखें)। एनकोडर और जनरेटर पाइपलाइन को विभिन्न शैलियों के कुछ उदाहरणों के साथ प्रशिक्षित किया जा सकता है। आरंभ करने के लिए, उपयोगकर्ता मीडियापाइप मॉडलमेकर को वांछित सौंदर्य के एक या कई प्रतिनिधि नमूने भेजेगा। फ़ाइन-ट्यूनिंग प्रक्रिया के दौरान एनकोडर मॉड्यूल फ़्रीज़ हो जाता है, और केवल जनरेटर को समायोजित किया जाता है। जनरेटर को प्रशिक्षित करने के लिए इनपुट शैली छवियों के एन्कोडिंग आउटपुट के आसपास कई गुप्त कोड का नमूना लिया जाता है। इसके बाद, इनपुट स्टाइल छवि के समान सौंदर्य में चेहरे की छवि को फिर से बनाने के लिए जनरेटर को तैयार करने के लिए एक संयुक्त प्रतिकूल हानि फ़ंक्शन को अनुकूलित किया जाता है। इस फाइन-ट्यूनिंग प्रक्रिया के लिए धन्यवाद, मीडियापाइप फेसस्टाइलाइज़र उपयोगकर्ता के इनपुट को समायोजित करने के लिए पर्याप्त लचीला है। यह विधि वास्तविक मानव चेहरों की तस्वीरों का परीक्षण करने के लिए एक शैलीकरण लागू कर सकती है।
Google के शोधकर्ता प्रशिक्षक मॉडल के रूप में व्यापक रूप से उपयोग किए जाने वाले StyleGAN2 का उपयोग करके ब्लेज़स्टाइलGAN को प्रशिक्षित करने के लिए ज्ञान आसवन का उपयोग करते हैं। इसके अतिरिक्त, वे सीखने की प्रक्रिया में बहु-स्तरीय अवधारणात्मक हानि का परिचय देकर बेहतर छवियां उत्पन्न करने के लिए मॉडल को प्रशिक्षित करते हैं। BlazeStyleGAN में MobileStyleGAN की तुलना में कम पैरामीटर और सरल मॉडल हैं। उन्होंने कई मोबाइल उपकरणों पर ब्लेज़स्टाइलगैन को बेंचमार्क किया, जिससे पता चला कि यह मोबाइल जीपीयू पर वास्तविक समय की गति से चल सकता है। ब्लेज़स्टाइलगैन का आउटपुट इसके शिक्षक मॉडल की दृश्य गुणवत्ता से बहुत बारीकी से मेल खाता है। उन्होंने यह भी ध्यान दिया कि ब्लेज़स्टाइलगैन प्रशिक्षक मॉडल द्वारा उत्पादित कलाकृतियों को कम करके कुछ स्थितियों में दृश्य गुणवत्ता में सुधार कर सकता है। ब्लेज़स्टाइलगैन के लिए फ़्रेचेट इंसेप्शन डिस्टेंस (एफआईडी) परिणाम प्रशिक्षक स्टाइलगैन के तुलनीय हैं। निम्नलिखित योगदानों का सारांश है:
- शोधकर्ताओं ने प्रत्येक जनरेटर स्तर पर एक अतिरिक्त UpToRGB हेड जोड़कर और केवल अनुमान के दौरान इसका उपयोग करके एक मोबाइल-अनुकूल आर्किटेक्चर बनाया है।
- सहायक प्रमुखों का उपयोग करके बहु-स्तरीय अवधारणात्मक हानि और वास्तविक छवियों पर प्रतिकूल हानि की गणना करके, वे आसवन तकनीक को बढ़ाते हैं, जिससे बेहतर छवि निर्माण होता है और प्रशिक्षक मॉडल से कलाकृतियों को स्थानांतरित करने के प्रभाव को कम किया जाता है।
- ब्लेज़स्टाइलगैन विभिन्न लोकप्रिय स्मार्टफोन पर वास्तविक समय में उच्च गुणवत्ता वाली छवियां तैयार कर सकता है।
Google की अनुसंधान टीम ने दुनिया का पहला स्टाइलगैन मॉडल (ब्लेज़स्टाइलगैन) पेश किया है जो अधिकांश प्रीमियम स्मार्टफोन पर वास्तविक समय में उच्च गुणवत्ता वाले चेहरे की तस्वीरें तैयार कर सकता है। कुशल ऑन-डिवाइस जेनरेटर मॉडल में अन्वेषण की काफी गुंजाइश है। प्रशिक्षक मॉडल की कलाकृतियों के प्रभाव को कम करने के लिए, वे स्टाइलगैन संश्लेषण नेटवर्क के लिए एक परिष्कृत वास्तुकला तैयार करते हैं और आसवन तकनीक को ठीक करते हैं। ब्लेज़स्टाइलगैन बेंचमार्क में मोबाइल उपकरणों पर वास्तविक समय में प्रदर्शन प्राप्त कर सकता है क्योंकि मॉडल जटिलता काफी कम हो गई है।
इसकी जाँच पड़ताल करो गूगल आलेख. इस शोध का सारा श्रेय इस परियोजना के शोधकर्ताओं को जाता है। साथ ही जुड़ना न भूलें हमारा 30k+ एमएल सबरेडिट, 40k+ फेसबुक समुदाय, कलह चैनल, और ईमेल न्यूज़लेटर, जहां हम नवीनतम एआई अनुसंधान समाचार, बेहतरीन एआई प्रोजेक्ट और बहुत कुछ साझा करते हैं।
यदि आपको हमारा काम पसंद है, तो आपको हमारा न्यूज़लेटर भी पसंद आएगा..
धनश्री शेनवई एक कंप्यूटर साइंस इंजीनियर हैं और एआई के अनुप्रयोगों में गहरी रुचि के साथ वित्तीय, कार्ड और भुगतान और बैंकिंग डोमेन को कवर करने वाली फिनटेक कंपनियों में उनका अच्छा अनुभव है। वह आज की बदलती दुनिया में हर किसी के जीवन को आसान बनाने वाली नई तकनीकों और प्रगति की खोज करने को लेकर उत्साहित हैं।
उत्तर छोड़ दें