Google 研究推出 MediaPipe FaceStylizer:一种针对少镜头脸部风格化的高效设计


近年来,研究人员和消费者对结合增强现实(AR)的智能手机应用程序表现出越来越大的热情。这使得用户可以为短视频、VR 和游戏实时生成和改变面部特征。基于生成对抗网络(GAN)方法的人脸生成和编辑模型很受欢迎,因为它们重量轻,同时保持卓越的质量。然而,大多数 GAN 模型在计算复杂性方面存在严重限制,并且需要庞大的训练数据集。合乎道德地使用 GAN 模型也很重要。

Google 研究人员开发了 MediaPipe FaceStylizer 作为少镜头面部风格化的有效解决方案,它考虑了模型复杂性和数据效率的这些问题。 GAN 反转将图像转换为该模型中面部生成器的潜在编码。为了生成从粗到细粒度的高质量图像,他们为面部生成器引入了一个适合移动设备的合成网络,并配有一个辅助头,可在每个生成器级别将特征转换为 RGB。此外,他们从教师 StyleGAN 模型中提炼出学生生成器,通过仔细设计上述辅助头的损失函数并将其与常见的 GAN 损失函数相结合,得到了一个保持良好生成质量的轻量级模型。 MediaPipe 提供对建议解决方案的开源访问。 MediaPipe Model Maker 允许用户微调生成器,以从一张或多张照片中学习风格。 MediaPipe FaceStylizer 将使用户能够将生成的模型部署到设备上的面部风格化应用程序。

借助 MediaPipe 脸部造型器任务,可以增强或从头开始创建图像和视频中的脸部。这项活动可以使虚拟角色具有广泛的审美选择。

BlazeFaceStylizer 模型(包括面部生成器和面部编码器)用于此任务。 StyleGAN 模型系列 BlazeStyleGAN 的轻量级实现,可生成和细化面部以匹配给定的审美。使用 MobileNet V2 核心,面部编码器将输入照片与面部生成器生成的面部相关联。

该项目旨在提供一个管道,帮助用户微调 MediaPipe FaceStylizer 模型以适应各种风格。研究人员使用 GAN 反转编码器和有效的面部生成器模型构建了面部风格化管道(有关更多信息,请参见下文)。然后可以使用不同风格的一些示例来训练编码器和生成器管道。首先,用户将向 MediaPipe ModelMaker 发送一个或多个具有所需美感的代表性样本。微调过程中编码器模块被冻结,仅调整发生器。对输入样式图像的编码输出周围的几个潜在代码进行采样以训练生成器。接下来,优化联合对抗性损失函数,以准备生成器以与输入风格图像相同的美感重建面部图像。由于这种微调过程,MediaPipe FaceStylizer 足够灵活,可以适应用户的输入。该方法可以应用程式化来测试真实人脸的照片。

谷歌的研究人员使用知识蒸馏来训练 BlazeStyleGAN,使用广泛使用的 StyleGAN2 作为指导模型。此外,他们通过在学习过程中引入多尺度感知损失来训练模型生成更好的图像。 BlazeStyleGAN 比 MobileStyleGAN 参数更少、模型更简单。他们在多种移动设备上对 BlazeStyleGAN 进行了基准测试,表明它可以在移动 GPU 上以实时速度运行。 BlazeStyleGAN 的输出与其教师模型的视觉质量非常匹配。他们还指出,BlazeStyleGAN 在某些情况下可以通过减少指导模型产生的伪影来提高视觉质量。 BlazeStyleGAN 的 Frechet 起始距离 (FID) 结果与教练 StyleGAN 的结果相当。以下是贡献摘要:

  • 研究人员通过在每个生成器级别添加额外的 UpToRGB 头并仅在推理期间使用它,创建了一种适合移动设备的架构。
  • 通过使用辅助头计算多尺度感知损失和真实图像上的对抗性损失,他们增强了蒸馏技术,从而产生更好的图像并减少从指导模型转移伪影的影响。
  • BlazeStyleGAN 可以在各种流行的智能手机上实时生成高质量图像。

谷歌研究团队推出了世界上第一个 StyleGAN 模型(BlazeStyleGAN),可以在绝大多数高端智能手机上实时生成高质量的人脸照片。高效的设备端生成模型还有很大的探索空间。为了减少指导模型伪影的影响,他们为 StyleGAN 合成网络设计了一种改进的架构,并对蒸馏技术进行了微调。 BlazeStyleGAN 可以在基准测试中在移动设备上实现实时性能,因为模型复杂度已大幅降低。


查看 谷歌文章这项研究的所有功劳都归功于该项目的研究人员。另外,别忘了加入 我们的 30k+ ML SubReddit, 40k+ Facebook 社区, 不和谐频道, 和 电子邮件通讯,我们在这里分享最新的人工智能研究新闻、酷炫的人工智能项目等等。

如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。


20221028 101632 丹斯里神外

Dhanshree Shenwai 是一名计算机科学工程师,在金融、卡与支付以及银行领域的金融科技公司拥有丰富的经验,对人工智能的应用有着浓厚的兴趣。她热衷于在当今不断发展的世界中探索新技术和进步,让每个人的生活变得轻松。




来源链接

发表评论

您的电子邮件地址不会被公开。 必需的地方已做标记 *

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

zh_CNChinese