أظهر الباحثون والمستهلكون حماسًا متزايدًا لتطبيقات الهواتف الذكية التي تجمع بين الواقع المعزز (AR) في السنوات الأخيرة. يتيح ذلك للمستخدمين إنشاء ميزات الوجه وتغييرها في الوقت الفعلي لمقاطع الفيديو القصيرة والواقع الافتراضي والألعاب. تحظى نماذج إنشاء الوجه وتحريرها المستندة إلى أساليب شبكة الخصومة التوليدية (GAN) بشعبية كبيرة لأنها خفيفة الوزن مع الحفاظ على الجودة الممتازة. ومع ذلك، فإن معظم نماذج GAN تعاني من قيود شديدة من حيث تعقيد الحوسبة وتتطلب مجموعة بيانات تدريب ضخمة. ومن المهم أيضًا الاستفادة بشكل أخلاقي من نماذج GAN.
قام باحثو Google بتطوير MediaPipe FaceStylizer كحل فعال لأسلوب تصميم الوجوه في لقطات قليلة يأخذ في الاعتبار هذه المشكلات مع تعقيد النموذج وكفاءة البيانات. يقوم انعكاس GAN بتحويل الصورة إلى ترميز كامن لمولد الوجه في هذا النموذج. ولإنشاء صور عالية الجودة بحبيبات تتراوح من الخشنة إلى الدقيقة، يقدمون شبكة تركيبية متوافقة مع الهاتف المحمول لمولد الوجه، مكتملة برأس مساعد يحول الميزات إلى RGB في كل مستوى من مستويات المولد. علاوة على ذلك، قاموا باستخلاص مولد الطالب من نموذج StyleGAN للمعلم، مما أدى إلى نموذج خفيف الوزن يحافظ على جودة توليد جيدة من خلال تصميم وظائف الخسارة للرؤوس المساعدة المذكورة أعلاه بعناية ودمجها مع وظائف خسارة GAN الشائعة. يوفر MediaPipe وصولاً مفتوح المصدر إلى الحل المقترح. يتيح MediaPipe Model Maker للمستخدمين ضبط المولد لتعلم النمط من صورة واحدة أو بضع صور فوتوغرافية. سوف يمكّن MediaPipe FaceStylizer المستخدمين من نشر النموذج الناتج في تطبيقات تصميم الوجه على الجهاز.
يمكن تحسين الوجوه في الصور ومقاطع الفيديو أو إنشاؤها من البداية بمساعدة مهمة MediaPipe Face stylizer. يمكن لهذا النشاط إنشاء شخصيات افتراضية مع مجموعة واسعة من الخيارات الجمالية.
يتم استخدام نموذج BlazeFaceStylizer، الذي يتضمن مولد الوجه وجهاز تشفير الوجه، لهذه المهمة. إن التنفيذ الخفيف لعائلة طرازات StyleGAN، BlazeStyleGAN، ينتج الوجوه ويحسنها لتتناسب مع جمالية معينة. باستخدام نواة MobileNet V2، يقوم برنامج تشفير الوجه بربط الصور المدخلة مع الوجوه التي ينتجها مولد الوجه.
يهدف المشروع إلى توفير خط أنابيب يساعد المستخدمين على ضبط نموذج MediaPipe FaceStylizer ليناسب الأنماط المختلفة. قام الباحثون ببناء خط أنابيب لأسلوب تصميم الوجه باستخدام مشفر انعكاس GAN ونموذج فعال لمولد الوجه (لمزيد من المعلومات حول هذا، انظر أدناه). يمكن بعد ذلك تدريب خط أنابيب التشفير والمولد باستخدام بعض الأمثلة من أنماط مختلفة. للبدء، سيقوم المستخدم بإرسال عينة تمثيلية واحدة أو عدة عينات من الجمالية المطلوبة إلى MediaPipe ModelMaker. يتم تجميد وحدة التشفير أثناء إجراء الضبط الدقيق، ويتم ضبط المولد فقط. يتم أخذ عينات من العديد من الرموز الكامنة حول مخرجات التشفير لصور نمط الإدخال لتدريب المولد. بعد ذلك، تم تحسين وظيفة الخسارة العدائية المشتركة لإعداد المولد لإعادة بناء صورة الوجه بنفس الجمالية مثل صورة نمط الإدخال. بفضل عملية الضبط الدقيق هذه، يتمتع MediaPipe FaceStylizer بالمرونة الكافية لاستيعاب مدخلات المستخدم. يمكن لهذه الطريقة تطبيق أسلوب لاختبار صور الوجوه البشرية الفعلية.
يستخدم الباحثون في Google تقطير المعرفة لتدريب BlazeStyleGAN باستخدام StyleGAN2 المستخدم على نطاق واسع كنموذج للمدرب. بالإضافة إلى ذلك، قاموا بتدريب النموذج على توليد صور أفضل من خلال إدخال فقدان إدراكي متعدد المقاييس لعملية التعلم. يحتوي BlazeStyleGAN على معلمات أقل ونماذج أبسط من MobileStyleGAN. لقد قاموا بقياس BlazeStyleGAN على العديد من الأجهزة المحمولة، مما يوضح أنه يمكن تشغيله بسرعات في الوقت الفعلي على وحدات معالجة الرسومات المحمولة. تتوافق مخرجات BlazeStyleGAN مع الجودة المرئية لنموذج المعلم الخاص بها بشكل وثيق جدًا. كما لاحظوا أيضًا أن BlazeStyleGAN يمكنه تحسين الجودة المرئية في بعض المواقف عن طريق تقليل القطع الأثرية التي ينتجها نموذج المدرب. نتائج Frechet Inception Distance (FID) لـ BlazeStyleGAN قابلة للمقارنة مع نتائج المدرب StyleGAN. وفيما يلي ملخص للمساهمات:
- أنشأ الباحثون بنية متوافقة مع الأجهزة المحمولة عن طريق إضافة رأس UpToRGB إضافي في كل مستوى من مستويات المولد واستخدامه فقط أثناء الاستدلال.
- من خلال حساب الخسارة الإدراكية متعددة النطاقات باستخدام الرؤوس المساعدة والخسارة المعاكسة على الصور الحقيقية، فإنها تعزز تقنية التقطير، مما يؤدي إلى توليد صور أفضل وتقليل تأثير نقل القطع الأثرية من نموذج المدرب.
- يمكن لـ BlazeStyleGAN إنتاج صور عالية الجودة في الوقت الفعلي على العديد من الهواتف الذكية الشهيرة.
قدم فريق البحث في Google أول نموذج StyleGAN في العالم (BlazeStyleGAN) الذي يمكنه إنتاج صور عالية الجودة للوجه في الوقت الفعلي على الغالبية العظمى من الهواتف الذكية المتميزة. هناك مجال كبير للاستكشاف في النماذج التوليدية الفعالة الموجودة على الجهاز. لتقليل تأثير المصنوعات اليدوية لنموذج المدرب، قاموا بابتكار بنية محسنة لشبكة التوليف StyleGAN وضبط تقنية التقطير. يمكن لـ BlazeStyleGAN تحقيق الأداء في الوقت الفعلي على الأجهزة المحمولة في المعيار نظرًا لتقليل تعقيد النموذج بشكل كبير.
تفحص ال مقالة جوجل. كل الفضل في هذا البحث يعود إلى الباحثين في هذا المشروع. وأيضا لا تنسى الإنضمام لدينا 30k+ ML SubReddit, 40 ألف+ مجتمع الفيسبوك، قناة الديسكورد, و النشرة البريد الإلكتروني، حيث نشارك آخر أخبار أبحاث الذكاء الاصطناعي ومشاريع الذكاء الاصطناعي الرائعة والمزيد.
إذا أعجبك عملنا، فسوف تحب نشرتنا الإخبارية..
Dhanshree Shenwai هو مهندس علوم كمبيوتر ويتمتع بخبرة جيدة في شركات FinTech التي تغطي المجال المالي والبطاقات والمدفوعات والخدمات المصرفية مع اهتمام كبير بتطبيقات الذكاء الاصطناعي. إنها متحمسة لاستكشاف التقنيات والتطورات الجديدة في عالم اليوم المتطور مما يجعل حياة الجميع سهلة.
اترك رد