En los últimos años, investigadores y consumidores han mostrado un creciente entusiasmo por las aplicaciones para teléfonos inteligentes que combinan realidad aumentada (RA). Esto permite a los usuarios generar y modificar rasgos faciales en tiempo real para videos cortos, realidad virtual y juegos. Los modelos de generación y edición de rostros basados en enfoques de redes generativas adversarias (GAN) son populares porque son livianos y mantienen una calidad excelente. Sin embargo, la mayoría de los modelos GAN tienen graves limitaciones en términos de complejidad informática y exigen un enorme conjunto de datos de entrenamiento. También es fundamental hacer un uso ético de los modelos GAN.
Los investigadores de Google desarrollaron MediaPipe FaceStylizer como una solución eficaz para la estilización de rostros en pocas tomas que considera estos problemas con la complejidad del modelo y la eficiencia de los datos. La inversión GAN transforma la imagen en codificación latente para el generador de rostros en este modelo. Para generar imágenes de alta calidad con granularidades que van desde gruesas hasta finas, introducen una red de síntesis compatible con dispositivos móviles para el generador de rostros, completa con un cabezal auxiliar que convierte características a RGB en cada nivel del generador. Además, destilaron el generador de estudiantes del modelo StyleGAN de maestro, lo que dio como resultado un modelo liviano que mantiene una buena calidad de generación al diseñar cuidadosamente las funciones de pérdida para los cabezales auxiliares antes mencionados y combinarlas con las funciones de pérdida de GAN comunes. MediaPipe proporciona acceso de código abierto a la solución propuesta. MediaPipe Model Maker permite a los usuarios ajustar el generador para aprender un estilo a partir de una o varias fotografías. MediaPipe FaceStylizer permitirá a los usuarios implementar el modelo resultante en aplicaciones de estilización facial en el dispositivo.
Los rostros de imágenes y vídeos se pueden mejorar o crear desde cero con la ayuda de la tarea de estilizador de rostros de MediaPipe. Esta actividad permite realizar personajes virtuales con una amplia gama de opciones estéticas.
Para esta tarea se utiliza el modelo BlazeFaceStylizer, que incluye un generador de rostros y un codificador de rostros. La implementación ligera de la familia de modelos StyleGAN, BlazeStyleGAN, produce y refina rostros para que coincidan con una estética determinada. Usando un núcleo MobileNet V2, el codificador de rostros asocia fotos de entrada con los rostros producidos por el generador de rostros.
El proyecto tiene como objetivo proporcionar un canal que ayude a los usuarios a ajustar el modelo MediaPipe FaceStylizer para adaptarlo a varios estilos. Los investigadores construyeron un proceso de estilización de rostros con un codificador de inversión GAN y un modelo generador de rostros eficaz (para obtener más información sobre esto, consulte a continuación). Luego, la canalización del codificador y el generador se puede entrenar con algunos ejemplos de varios estilos. Para comenzar, el usuario enviará una o varias muestras representativas de la estética deseada a MediaPipe ModelMaker. El módulo codificador se congela durante el procedimiento de ajuste fino y solo se ajusta el generador. Se muestrean varios códigos latentes alrededor de la salida codificada de las imágenes de estilo de entrada para entrenar el generador. Después de esto, se optimiza una función de pérdida adversaria conjunta para preparar el generador para reconstruir una imagen facial con la misma estética que la imagen de estilo de entrada. Gracias a este proceso de ajuste, MediaPipe FaceStylizer es lo suficientemente flexible como para adaptarse a las aportaciones del usuario. Este método puede aplicar una estilización para probar fotografías de rostros humanos reales.
Los investigadores de Google utilizan la destilación de conocimientos para entrenar BlazeStyleGAN utilizando el ampliamente utilizado StyleGAN2 como modelo de instructor. Además, entrenan el modelo para generar mejores imágenes al introducir una pérdida de percepción de múltiples escalas en el proceso de aprendizaje. BlazeStyleGAN tiene menos parámetros y modelos más simples que MobileStyleGAN. Compararon BlazeStyleGAN en varios dispositivos móviles y demostraron que puede ejecutarse a velocidades en tiempo real en GPU móviles. La producción de BlazeStyleGAN coincide muy de cerca con la calidad visual de su modelo de maestro. También señalan que BlazeStyleGAN puede mejorar la calidad visual en algunas situaciones al reducir los artefactos producidos por el modelo del instructor. Los resultados de la distancia de inicio de Frechet (FID) para BlazeStyleGAN son comparables a los del instructor StyleGAN. A continuación se presenta un resumen de las contribuciones:
- Los investigadores han creado una arquitectura compatible con dispositivos móviles agregando un cabezal UpToRGB adicional en cada nivel del generador y usándolo solo durante la inferencia.
- Al calcular una pérdida de percepción a múltiples escalas utilizando los cabezales auxiliares y una pérdida adversa en imágenes reales, mejoran la técnica de destilación, lo que conduce a una mejor generación de imágenes y reduce el impacto de la transferencia de artefactos desde el modelo del instructor.
- BlazeStyleGAN puede producir imágenes de alta calidad en tiempo real en varios teléfonos inteligentes populares.
El equipo de investigación de Google ha presentado el primer modelo StyleGAN del mundo (BlazeStyleGAN) que puede producir fotografías faciales de alta calidad en tiempo real en la gran mayoría de los teléfonos inteligentes premium. Hay mucho espacio para la exploración de modelos generativos eficientes en el dispositivo. Para reducir el impacto de los artefactos del modelo del instructor, diseñan una arquitectura refinada para la red de síntesis StyleGAN y afinan la técnica de destilación. BlazeStyleGAN puede lograr un rendimiento en tiempo real en dispositivos móviles en el punto de referencia porque la complejidad del modelo se ha reducido drásticamente.
Revisar la Artículo de Google. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónico, donde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.
Deja una respuesta