Výzkumníci a spotřebitelé v posledních letech prokázali rostoucí nadšení pro aplikace pro chytré telefony, které kombinují rozšířenou realitu (AR). To umožňuje uživatelům vytvářet a měnit rysy obličeje v reálném čase pro krátká videa, VR a hry. Modely generování a úprav obličejů založené na přístupech generativních adversariálních sítí (GAN) jsou oblíbené, protože jsou lehké při zachování vynikající kvality. Většina modelů GAN má však vážná omezení, pokud jde o výpočetní složitost a vyžaduje obrovskou trénovací datovou sadu. Důležité je také etické využívání modelů GAN.
Výzkumníci společnosti Google vyvinuli MediaPipe FaceStylizer jako efektivní řešení pro stylizaci obličeje s několika snímky, které tyto problémy zohledňuje se složitostí modelu a efektivitou dat. Inverze GAN transformuje obraz na latentní kódování pro generátor obličejů v tomto modelu. Pro generování vysoce kvalitních obrázků s granularitami v rozsahu od hrubých po jemné zavádějí mobilní síť syntézy pro generátor obličejů, doplněnou pomocnou hlavou, která převádí funkce na RGB na každé úrovni generátoru. Dále destilovali studentský generátor z učitelského modelu StyleGAN, což vedlo k lehkému modelu, který si zachovává dobrou generační kvalitu pečlivým navržením ztrátových funkcí pro výše uvedené pomocné hlavy a jejich kombinací s běžnými ztrátovými funkcemi GAN. MediaPipe poskytuje open source přístup k navrhovanému řešení. MediaPipe Model Maker umožňuje uživatelům doladit generátor, aby se naučil styl z jedné nebo několika fotografií. MediaPipe FaceStylizer umožní uživatelům nasadit výsledný model do aplikací pro stylizaci obličeje v zařízení.
Obličeje na obrázcích a videích lze vylepšit nebo vytvořit úplně od začátku pomocí úlohy stylizátoru MediaPipe Face. Tato aktivita dokáže vytvořit virtuální postavy s širokou škálou estetických možností.
K tomuto úkolu slouží model BlazeFaceStylizer, který obsahuje generátor obličejů a kodér obličejů. Lehká implementace rodiny modelů StyleGAN, BlazeStyleGAN, vytváří a zušlechťuje obličeje tak, aby odpovídaly dané estetice. Pomocí jádra MobileNet V2 kodér obličejů spojuje vstupní fotografie s obličeji vytvořenými generátorem obličejů.
Cílem projektu je poskytnout kanál, který uživatelům pomůže doladit model MediaPipe FaceStylizer tak, aby vyhovoval různým stylům. Výzkumníci zkonstruovali potrubí stylizace obličeje s inverzním kodérem GAN a modelem efektivního generátoru obličeje (více o tom viz níže). Potrubí kodéru a generátoru lze poté trénovat pomocí několika příkladů z různých stylů. Pro začátek uživatel odešle jeden nebo několik reprezentativních vzorků požadované estetiky do MediaPipe ModelMaker. Modul kodéru je během procesu jemného ladění zamrzlý a seřizuje se pouze generátor. Pro trénování generátoru je navzorkováno několik latentních kódů kolem výstupu kódování obrázků vstupního stylu. V návaznosti na to je optimalizována společná funkce ztráty protivníka, aby připravila generátor na přestavbu obrazu obličeje ve stejné estetice jako obraz vstupního stylu. Díky tomuto procesu jemného ladění je MediaPipe FaceStylizer dostatečně flexibilní, aby vyhovoval zadání uživatele. Tato metoda může použít stylizaci na testovací fotografie skutečných lidských tváří.
Výzkumníci z Google používají destilaci znalostí k výcviku BlazeStyleGAN pomocí široce používaného StyleGAN2 jako modelu instruktora. Navíc trénují model tak, aby generoval lepší obrazy tím, že do procesu učení zavádějí víceúrovňovou ztrátu vnímání. BlazeStyleGAN má méně parametrů a jednodušší modely než MobileStyleGAN. Srovnávají BlazeStyleGAN na několika mobilních zařízeních a ukazují, že může běžet rychlostí v reálném čase na mobilních GPU. Výstup BlazeStyleGAN velmi úzce odpovídá vizuální kvalitě jeho učitelského modelu. Poznamenávají také, že BlazeStyleGAN může v některých situacích zlepšit vizuální kvalitu snížením artefaktů produkovaných modelem instruktora. Výsledky Frechet Inception Distance (FID) pro BlazeStyleGAN jsou srovnatelné s výsledky instruktora StyleGAN. Následuje shrnutí příspěvků:
- Výzkumníci vytvořili architekturu vhodnou pro mobilní zařízení přidáním další hlavy UpToRGB na každou úroveň generátoru a její použití pouze během inference.
- Výpočtem víceúrovňové percepční ztráty pomocí pomocných hlav a nepříznivé ztráty na skutečných snímcích vylepšují techniku destilace, což vede k lepšímu generování obrazu a snižuje dopad přenosu artefaktů z modelu instruktora.
- BlazeStyleGAN dokáže produkovat vysoce kvalitní snímky v reálném čase na různých populárních chytrých telefonech.
Výzkumný tým společnosti Google představil první model StyleGAN na světě (BlazeStyleGAN), který dokáže vytvářet vysoce kvalitní fotografie obličejů v reálném čase na velké většině prémiových smartphonů. V efektivních generativních modelech na zařízení je velký prostor pro zkoumání. Aby snížili dopad artefaktů modelu instruktora, navrhli rafinovanou architekturu pro síť syntézy StyleGAN a doladili techniku destilace. BlazeStyleGAN může v benchmarku dosáhnout výkonu v reálném čase na mobilních zařízeních, protože složitost modelu byla drasticky snížena.
Podívejte se na Článek Google. Veškerá zásluha za tento výzkum patří výzkumníkům na tomto projektu. Také se nezapomeňte připojit náš 30k+ ML SubReddit, 40 000+ Facebook komunita, Discord Channel, a E-mailový newsletter, kde sdílíme nejnovější zprávy o výzkumu AI, skvělé projekty AI a další.
Pokud se vám naše práce líbí, náš newsletter se vám bude líbit..
Dhanshree Shenwai je inženýr počítačových věd a má dobré zkušenosti ve společnostech FinTech pokrývajících oblast financí, karet a plateb a bankovnictví s velkým zájmem o aplikace AI. Je nadšená z objevování nových technologií a pokroků v dnešním vyvíjejícím se světě, který všem usnadňuje život.
zanechte odpověď