Penyelidik dan pengguna telah menunjukkan peningkatan semangat untuk aplikasi telefon pintar yang menggabungkan realiti tambahan (AR) dalam beberapa tahun kebelakangan ini. Ini membolehkan pengguna menjana dan mengubah ciri muka dalam masa nyata untuk video pendek, VR dan permainan. Model penjanaan wajah dan penyuntingan berdasarkan pendekatan rangkaian lawan generatif (GAN) adalah popular kerana ia ringan sambil mengekalkan kualiti yang sangat baik. Kebanyakan model GAN, bagaimanapun, mempunyai had yang teruk dari segi kerumitan pengkomputeran dan menuntut set data latihan yang besar. Ia juga penting untuk menggunakan model GAN secara beretika.
Penyelidik Google membangunkan MediaPipe FaceStylizer sebagai penyelesaian berkesan untuk penggayaan muka beberapa tangkapan yang mempertimbangkan isu ini dengan kerumitan model dan kecekapan data. Penyongsangan GAN mengubah imej menjadi pengekodan terpendam untuk penjana muka dalam model ini. Untuk menjana imej berkualiti tinggi pada butiran antara kasar hingga halus, mereka memperkenalkan rangkaian sintesis mesra mudah alih untuk penjana muka, lengkap dengan kepala tambahan yang menukar ciri kepada RGB pada setiap peringkat penjana. Tambahan pula, mereka menyaring penjana pelajar daripada model StyleGAN guru, menghasilkan model ringan yang mengekalkan kualiti penjanaan yang baik dengan mereka bentuk fungsi kehilangan dengan teliti untuk kepala tambahan yang disebutkan di atas dan menggabungkannya dengan fungsi kehilangan GAN biasa. MediaPipe menyediakan akses sumber terbuka kepada penyelesaian yang dicadangkan. MediaPipe Model Maker membolehkan pengguna memperhalusi penjana untuk mempelajari gaya daripada satu atau beberapa gambar. MediaPipe FaceStylizer akan membolehkan pengguna menggunakan model yang terhasil pada aplikasi penggayaan muka pada peranti.
Wajah dalam imej dan video boleh dipertingkatkan atau dicipta dari awal dengan bantuan tugas penggaya Muka MediaPipe. Aktiviti ini boleh membuat watak maya dengan pelbagai pilihan estetik.
Model BlazeFaceStylizer, yang termasuk penjana muka dan pengekod muka, digunakan untuk tugas ini. Pelaksanaan ringan bagi keluarga model StyleGAN, BlazeStyleGAN, menghasilkan dan memperhalusi wajah agar sepadan dengan estetika tertentu. Menggunakan teras MobileNet V2, pengekod muka mengaitkan foto input dengan muka yang dihasilkan oleh penjana muka.
Projek ini bertujuan untuk menyediakan saluran paip yang membantu pengguna memperhalusi model MediaPipe FaceStylizer agar sesuai dengan pelbagai gaya. Penyelidik membina saluran paip penggayaan muka dengan pengekod penyongsangan GAN dan model penjana muka yang berkesan (untuk lebih lanjut mengenai perkara ini, lihat di bawah). Pengekod dan saluran paip penjana kemudiannya boleh dilatih dengan beberapa contoh daripada pelbagai gaya. Untuk bermula, pengguna akan menghantar satu atau beberapa sampel wakil estetik yang dikehendaki kepada MediaPipe ModelMaker. Modul pengekod dibekukan semasa prosedur penalaan halus, dan hanya penjana dilaraskan. Beberapa kod terpendam di sekitar output pengekodan imej gaya input dijadikan sampel untuk melatih penjana. Berikutan ini, fungsi kehilangan lawan bersama dioptimumkan untuk menyediakan penjana membina semula imej muka dalam estetik yang sama seperti imej gaya input. Terima kasih kepada proses penalaan halus ini, MediaPipe FaceStylizer cukup fleksibel untuk menampung input pengguna. Kaedah ini boleh menggunakan penggayaan untuk menguji foto wajah manusia sebenar.
Penyelidik di Google menggunakan penyulingan pengetahuan untuk melatih BlazeStyleGAN menggunakan StyleGAN2 yang digunakan secara meluas sebagai model pengajar. Selain itu, mereka melatih model untuk menghasilkan imej yang lebih baik dengan memperkenalkan kehilangan persepsi berskala besar kepada proses pembelajaran. BlazeStyleGAN mempunyai lebih sedikit parameter dan model yang lebih ringkas daripada MobileStyleGAN. Mereka menanda aras BlazeStyleGAN pada beberapa peranti mudah alih, menunjukkan bahawa ia boleh berjalan pada kelajuan masa nyata pada GPU mudah alih. Output BlazeStyleGAN sepadan dengan kualiti visual model gurunya dengan sangat rapat. Mereka juga ambil perhatian bahawa BlazeStyleGAN boleh meningkatkan kualiti visual dalam beberapa situasi dengan mengurangkan artifak yang dihasilkan oleh model pengajar. Keputusan Frechet Inception Distance (FID) untuk BlazeStyleGAN adalah setanding dengan hasil pengajar StyleGAN. Berikut adalah ringkasan sumbangan:
- Penyelidik telah mencipta seni bina mesra mudah alih dengan menambahkan kepala UpToRGB tambahan pada setiap peringkat penjana dan hanya menggunakannya semasa inferens.
- Dengan mengira kehilangan persepsi berbilang skala menggunakan kepala tambahan dan kehilangan musuh pada imej sebenar, mereka meningkatkan teknik penyulingan, membawa kepada penjanaan imej yang lebih baik dan mengurangkan kesan pemindahan artifak daripada model pengajar.
- BlazeStyleGAN boleh menghasilkan imej berkualiti tinggi dalam masa nyata pada pelbagai telefon pintar popular.
Pasukan penyelidik Google telah memperkenalkan model StyleGAN (BlazeStyleGAN) pertama di dunia yang boleh menghasilkan gambar wajah berkualiti tinggi dalam masa nyata pada kebanyakan telefon pintar premium. Terdapat banyak ruang untuk penerokaan dalam model generatif pada peranti yang cekap. Untuk mengurangkan kesan artifak model pengajar, mereka mencipta seni bina yang diperhalusi untuk rangkaian sintesis StyleGAN dan memperhalusi teknik penyulingan. BlazeStyleGAN boleh mencapai prestasi masa nyata pada peranti mudah alih dalam penanda aras kerana kerumitan model telah dikurangkan secara drastik.
Semak Artikel Google. Semua Kredit Untuk Penyelidikan Ini Ditujukan Kepada Penyelidik Projek Ini. Juga, jangan lupa untuk menyertai 30k+ ML SubReddit kami, 40k+ Komuniti Facebook, Saluran Discord, dan E-mel Surat Berita, tempat kami berkongsi berita penyelidikan AI terkini, projek AI yang hebat dan banyak lagi.
Jika anda menyukai kerja kami, anda akan menyukai surat berita kami..
Dhanshree Shenwai ialah seorang Jurutera Sains Komputer dan mempunyai pengalaman yang baik dalam syarikat FinTech meliputi domain Kewangan, Kad & Pembayaran dan Perbankan dengan minat yang mendalam dalam aplikasi AI. Dia bersemangat untuk menerokai teknologi dan kemajuan baharu dalam dunia yang semakin berkembang hari ini menjadikan kehidupan semua orang mudah.
Tinggalkan pesanan