Les chercheurs et les consommateurs ont manifesté ces dernières années un enthousiasme croissant pour les applications pour smartphones combinant la réalité augmentée (RA). Cela permet aux utilisateurs de générer et de modifier les caractéristiques du visage en temps réel pour de courtes vidéos, la réalité virtuelle et les jeux. Les modèles de génération et d'édition de visages basés sur des approches de réseau contradictoire génératif (GAN) sont populaires car ils sont légers tout en conservant une excellente qualité. La plupart des modèles GAN présentent cependant de sévères limitations en termes de complexité informatique et nécessitent un énorme ensemble de données de formation. Il est également crucial de faire un usage éthique des modèles GAN.
Les chercheurs de Google ont développé MediaPipe FaceStylizer comme une solution efficace pour la stylisation du visage en quelques clichés qui prend en compte ces problèmes de complexité des modèles et d'efficacité des données. L'inversion GAN transforme l'image en codage latent pour le générateur de visage dans ce modèle. Pour générer des images de haute qualité avec des granularités allant de grossière à fine, ils introduisent un réseau de synthèse adapté aux appareils mobiles pour le générateur de visage, complété par une tête auxiliaire qui convertit les caractéristiques en RVB à chaque niveau du générateur. En outre, ils ont distillé le générateur d'étudiant à partir du modèle StyleGAN de l'enseignant, ce qui a abouti à un modèle léger qui maintient une bonne qualité de génération en concevant soigneusement les fonctions de perte pour les têtes auxiliaires susmentionnées et en les combinant avec les fonctions de perte GAN communes. MediaPipe fournit un accès open source à la solution proposée. MediaPipe Model Maker permet aux utilisateurs d'affiner le générateur pour apprendre un style à partir d'une ou de quelques photographies. MediaPipe FaceStylizer permettra aux utilisateurs de déployer le modèle résultant sur des applications de stylisation de visage sur l'appareil.
Les visages dans les images et les vidéos peuvent être améliorés ou créés à partir de zéro à l'aide de la tâche MediaPipe Face stylizer. Cette activité permet de créer des personnages virtuels avec un large éventail d'options esthétiques.
Le modèle BlazeFaceStylizer, qui comprend un générateur de visage et un encodeur de visage, est utilisé pour cette tâche. Implémentation légère de la famille de modèles StyleGAN, BlazeStyleGAN, produit et affine les visages pour correspondre à une esthétique donnée. À l'aide d'un noyau MobileNet V2, l'encodeur de visage associe les photos d'entrée aux visages produits par le générateur de visages.
Le projet vise à fournir un pipeline qui aide les utilisateurs à affiner le modèle MediaPipe FaceStylizer pour l'adapter à différents styles. Les chercheurs ont construit un pipeline de stylisation de visage avec un encodeur d'inversion GAN et un modèle de générateur de visage efficace (pour en savoir plus, voir ci-dessous). Le pipeline d'encodeur et de générateur peut ensuite être formé avec quelques exemples de différents styles. Pour commencer, l'utilisateur enverra à MediaPipe ModelMaker un ou plusieurs échantillons représentatifs de l'esthétique souhaitée. Le module codeur est figé pendant la procédure de réglage fin, et seul le générateur est réglé. Plusieurs codes latents autour de la sortie de codage des images de style d'entrée sont échantillonnés pour entraîner le générateur. Suite à cela, une fonction de perte contradictoire commune est optimisée pour préparer le générateur à reconstruire une image de visage dans la même esthétique que l'image de style d'entrée. Grâce à ce processus de réglage fin, le MediaPipe FaceStylizer est suffisamment flexible pour s'adapter aux entrées de l'utilisateur. Cette méthode peut appliquer une stylisation pour tester des photos de visages humains réels.
Les chercheurs de Google utilisent la distillation des connaissances pour former le BlazeStyleGAN en utilisant le StyleGAN2 largement utilisé comme modèle d'instructeur. De plus, ils entraînent le modèle à générer de meilleures images en introduisant une perte de perception multi-échelle dans le processus d'apprentissage. BlazeStyleGAN a moins de paramètres et des modèles plus simples que MobileStyleGAN. Ils comparent BlazeStyleGAN sur plusieurs appareils mobiles, montrant qu'il peut fonctionner à des vitesses en temps réel sur les GPU mobiles. La sortie de BlazeStyleGAN correspond de très près à la qualité visuelle de son modèle d'enseignant. Ils notent également que BlazeStyleGAN peut améliorer la qualité visuelle dans certaines situations en réduisant les artefacts produits par le modèle de l'instructeur. Les résultats de Frechet Inception Distance (FID) pour BlazeStyleGAN sont comparables à ceux de l'instructeur StyleGAN. Voici un résumé des contributions :
- Les chercheurs ont créé une architecture adaptée aux appareils mobiles en ajoutant une tête UpToRGB supplémentaire à chaque niveau de générateur et en l'utilisant uniquement pendant l'inférence.
- En calculant une perte de perception multi-échelle à l'aide des têtes auxiliaires et une perte contradictoire sur des images réelles, ils améliorent la technique de distillation, conduisant à une meilleure génération d'images et réduisant l'impact du transfert d'artefacts à partir du modèle d'instructeur.
- Le BlazeStyleGAN peut produire des images de haute qualité en temps réel sur divers smartphones populaires.
L'équipe de recherche de Google a présenté le premier modèle StyleGAN au monde (BlazeStyleGAN) capable de produire des photographies de visage de haute qualité en temps réel sur la grande majorité des smartphones haut de gamme. Il y a beaucoup de place à l’exploration de modèles génératifs efficaces sur les appareils. Pour réduire l'impact des artefacts du modèle instructeur, ils conçoivent une architecture raffinée pour le réseau de synthèse StyleGAN et affinent la technique de distillation. BlazeStyleGAN peut atteindre des performances en temps réel sur les appareils mobiles dans le benchmark car la complexité du modèle a été considérablement réduite.
Vérifiez Article Google. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de vous inscrire notre SubReddit de plus de 30 000 ML, Plus de 40 000 communautés Facebook, Chaîne Discorde, et Courriel, où nous partageons les dernières nouvelles en matière de recherche sur l'IA, des projets intéressants en matière d'IA et bien plus encore.
Si vous aimez notre travail, vous allez adorer notre newsletter.
Dhanshree Shenwai est ingénieur en informatique et possède une bonne expérience dans des entreprises FinTech couvrant les domaines de la finance, des cartes et paiements et de la banque avec un vif intérêt pour les applications de l'IA. Elle est enthousiaste à l'idée d'explorer les nouvelles technologies et les progrès dans le monde en évolution d'aujourd'hui qui facilite la vie de chacun.
Laisser une réponse