Google Research stellt MediaPipe FaceStylizer vor: ein effizientes Design für die Gesichtsstilisierung mit wenigen Aufnahmen


Forscher und Verbraucher zeigen in den letzten Jahren zunehmend Begeisterung für Smartphone-Anwendungen, die Augmented Reality (AR) kombinieren. Dadurch können Benutzer Gesichtszüge in Echtzeit für kurze Videos, VR und Spiele generieren und ändern. Gesichtsgenerierungs- und -bearbeitungsmodelle, die auf GAN-Ansätzen (Generative Adversarial Network) basieren, sind beliebt, da sie leichtgewichtig sind und gleichzeitig eine hervorragende Qualität beibehalten. Die meisten GAN-Modelle weisen jedoch erhebliche Einschränkungen hinsichtlich der Rechenkomplexität auf und erfordern einen riesigen Trainingsdatensatz. Es ist auch wichtig, GAN-Modelle ethisch zu nutzen.

Google-Forscher haben MediaPipe FaceStylizer als effektive Lösung für die Gesichtsstilisierung mit wenigen Aufnahmen entwickelt, die diese Probleme mit Modellkomplexität und Dateneffizienz berücksichtigt. Die GAN-Inversion wandelt das Bild in diesem Modell in eine latente Codierung für den Gesichtsgenerator um. Um qualitativ hochwertige Bilder mit einer Körnigkeit von grob bis fein zu erzeugen, führen sie ein mobilfreundliches Synthesenetzwerk für den Gesichtsgenerator ein, komplett mit einem Hilfskopf, der Merkmale auf jeder Generatorebene in RGB umwandelt. Darüber hinaus haben sie den Schülergenerator aus dem StyleGAN-Modell des Lehrers destilliert, was zu einem leichten Modell führte, das eine gute Erzeugungsqualität beibehält, indem die Verlustfunktionen für die oben genannten Hilfsköpfe sorgfältig entworfen und mit den üblichen GAN-Verlustfunktionen kombiniert wurden. MediaPipe bietet Open-Source-Zugriff auf die vorgeschlagene Lösung. Mit MediaPipe Model Maker können Benutzer den Generator optimieren, um einen Stil aus einem oder mehreren Fotos zu lernen. Mit MediaPipe FaceStylizer können Benutzer das resultierende Modell für Gesichtsstilisierungsanwendungen auf dem Gerät bereitstellen.

Gesichter in Bildern und Videos können mit Hilfe der MediaPipe Face Stylizer-Aufgabe verbessert oder von Grund auf neu erstellt werden. Durch diese Aktivität können virtuelle Charaktere mit einer Vielzahl ästhetischer Optionen erstellt werden.

Für diese Aufgabe wird das BlazeFaceStylizer-Modell verwendet, das einen Gesichtsgenerator und einen Gesichtsencoder umfasst. Die leichte Implementierung der StyleGAN-Modellfamilie BlazeStyleGAN erzeugt und verfeinert Gesichter, um sie an eine bestimmte Ästhetik anzupassen. Mithilfe eines MobileNet V2-Kerns ordnet der Gesichtsencoder Eingabefotos den vom Gesichtsgenerator erzeugten Gesichtern zu.

Ziel des Projekts ist es, eine Pipeline bereitzustellen, die Benutzern hilft, das MediaPipe FaceStylizer-Modell an verschiedene Stile anzupassen. Die Forscher konstruierten eine Gesichtsstilisierungspipeline mit einem GAN-Inversionsencoder und einem effektiven Gesichtsgeneratormodell (mehr dazu siehe unten). Anschließend kann die Encoder- und Generator-Pipeline mit einigen Beispielen aus verschiedenen Stilrichtungen trainiert werden. Zunächst sendet der Benutzer ein oder mehrere repräsentative Muster der gewünschten Ästhetik an MediaPipe ModelMaker. Während des Feinabstimmungsvorgangs ist das Encodermodul eingefroren und nur der Generator wird angepasst. Mehrere latente Codes rund um die Codierungsausgabe der Eingabestilbilder werden abgetastet, um den Generator zu trainieren. Anschließend wird eine gemeinsame gegnerische Verlustfunktion optimiert, um den Generator darauf vorzubereiten, ein Gesichtsbild in der gleichen Ästhetik wie das Eingabestilbild neu zu erstellen. Dank dieses Feinabstimmungsprozesses ist der MediaPipe FaceStylizer flexibel genug, um die Eingaben des Benutzers zu berücksichtigen. Mit dieser Methode kann eine Stilisierung angewendet werden, um Fotos von tatsächlichen menschlichen Gesichtern zu testen.

Forscher bei Google nutzen die Wissensdestillation, um BlazeStyleGAN zu trainieren, wobei sie das weit verbreitete StyleGAN2 als Ausbildermodell verwenden. Darüber hinaus trainieren sie das Modell, um bessere Bilder zu erzeugen, indem sie einen mehrskaligen Wahrnehmungsverlust in den Lernprozess einführen. BlazeStyleGAN hat weniger Parameter und einfachere Modelle als MobileStyleGAN. Sie vergleichen BlazeStyleGAN auf mehreren Mobilgeräten und zeigen, dass es auf mobilen GPUs mit Echtzeitgeschwindigkeit ausgeführt werden kann. Die Ausgabe von BlazeStyleGAN entspricht sehr genau der visuellen Qualität seines Lehrermodells. Sie stellen außerdem fest, dass BlazeStyleGAN in manchen Situationen die visuelle Qualität verbessern kann, indem es die vom Ausbildermodell erzeugten Artefakte reduziert. Die Ergebnisse der Frechet Inception Distance (FID) für BlazeStyleGAN sind mit denen des Ausbilders StyleGAN vergleichbar. Nachfolgend finden Sie eine Zusammenfassung der Beiträge:

  • Forscher haben eine mobilfreundliche Architektur geschaffen, indem sie auf jeder Generatorebene einen zusätzlichen UpToRGB-Kopf hinzugefügt und ihn nur während der Inferenz verwendet haben.
  • Durch die Berechnung eines mehrskaligen Wahrnehmungsverlusts mithilfe der Hilfsköpfe und eines kontradiktorischen Verlusts bei realen Bildern verbessern sie die Destillationstechnik, was zu einer besseren Bilderzeugung führt und die Auswirkungen der Übertragung von Artefakten aus dem Lehrermodell verringert.
  • Der BlazeStyleGAN kann auf verschiedenen gängigen Smartphones hochwertige Bilder in Echtzeit erzeugen.

Das Forschungsteam von Google hat das weltweit erste StyleGAN-Modell (BlazeStyleGAN) vorgestellt, das auf den meisten Premium-Smartphones hochwertige Gesichtsfotos in Echtzeit erstellen kann. Es gibt viel Raum für die Erforschung effizienter generativer Modelle auf dem Gerät. Um die Auswirkungen der Artefakte des Ausbildermodells zu reduzieren, entwickeln sie eine verfeinerte Architektur für das StyleGAN-Synthesenetzwerk und optimieren die Destillationstechnik. BlazeStyleGAN kann im Benchmark eine Echtzeitleistung auf Mobilgeräten erreichen, da die Modellkomplexität drastisch reduziert wurde.


Besuche die Google-ArtikelAlle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 30k+ ML SubReddit, Über 40.000 Facebook-Community, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.

Wenn Ihnen unsere Arbeit gefällt, werden Sie unseren Newsletter lieben.


20221028 101632 Dhanshree Shenwai

Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.




Quelllink

Hinterlasse eine Antwort

Deine Email-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Sie können diese HTML- Tags und -Attribute verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

de_DEGerman