La ricerca di Google presenta MediaPipe FaceStylizer: un design efficiente per la stilizzazione del viso in pochi scatti


Negli ultimi anni ricercatori e consumatori hanno mostrato un crescente entusiasmo per le applicazioni per smartphone che combinano la realtà aumentata (AR). Ciò consente agli utenti di generare e modificare le caratteristiche facciali in tempo reale per brevi video, realtà virtuale e giochi. I modelli di generazione e modifica dei volti basati su approcci GAN (Generative Adversarial Network) sono popolari poiché sono leggeri pur mantenendo una qualità eccellente. La maggior parte dei modelli GAN, tuttavia, presenta gravi limitazioni in termini di complessità computazionale e richiede un enorme set di dati di addestramento. È inoltre fondamentale fare un uso etico dei modelli GAN.

I ricercatori di Google hanno sviluppato MediaPipe FaceStylizer come una soluzione efficace per la stilizzazione del viso in pochi scatti che considera questi problemi con la complessità del modello e l'efficienza dei dati. L'inversione GAN trasforma l'immagine in codifica latente per il generatore di volti in questo modello. Per generare immagini di alta qualità con granularità che vanno da grossolana a fine, introducono una rete di sintesi ottimizzata per i dispositivi mobili per il generatore di volti, completa di una testa ausiliaria che converte le caratteristiche in RGB a ciascun livello del generatore. Inoltre, hanno distillato il generatore dello studente dal modello StyleGAN dell'insegnante, ottenendo un modello leggero che mantiene una buona qualità di generazione progettando attentamente le funzioni di perdita per le suddette teste ausiliarie e combinandole con le comuni funzioni di perdita GAN. MediaPipe fornisce accesso open source alla soluzione proposta. MediaPipe Model Maker consente agli utenti di mettere a punto il generatore per apprendere uno stile da una o più fotografie. MediaPipe FaceStylizer consentirà agli utenti di distribuire il modello risultante su applicazioni di stilizzazione del viso sul dispositivo.

I volti nelle immagini e nei video possono essere migliorati o creati da zero con l'aiuto dell'attività Stilizzatore volti di MediaPipe. Questa attività può creare personaggi virtuali con una vasta gamma di opzioni estetiche.

Per questa attività viene utilizzato il modello BlazeFaceStylizer, che include un generatore di volti e un codificatore di volti. L'implementazione leggera della famiglia di modelli StyleGAN, BlazeStyleGAN, produce e perfeziona i volti per adattarli a una determinata estetica. Utilizzando un core MobileNet V2, il codificatore di volti associa le foto di input ai volti prodotti dal generatore di volti.

Il progetto mira a fornire una pipeline che aiuti gli utenti a mettere a punto il modello MediaPipe FaceStylizer per adattarlo a vari stili. I ricercatori hanno costruito una pipeline di stilizzazione del volto con un codificatore di inversione GAN e un modello efficace di generatore di volti (per ulteriori informazioni, vedere di seguito). La pipeline del codificatore e del generatore può quindi essere addestrata con alcuni esempi di vari stili. Per iniziare, l'utente invierà uno o più campioni rappresentativi dell'estetica desiderata a MediaPipe ModelMaker. Durante la procedura di messa a punto il modulo encoder viene congelato e viene regolato solo il generatore. Diversi codici latenti attorno all'output di codifica delle immagini dello stile di input vengono campionati per addestrare il generatore. Successivamente, viene ottimizzata una funzione di perdita contraddittoria congiunta per preparare il generatore a ricostruire un'immagine del volto con la stessa estetica dell'immagine con stile di input. Grazie a questo processo di messa a punto, MediaPipe FaceStylizer è sufficientemente flessibile da accogliere l'input dell'utente. Questo metodo può applicare una stilizzazione per testare foto di volti umani reali.

I ricercatori di Google utilizzano la distillazione della conoscenza per addestrare BlazeStyleGAN utilizzando StyleGAN2 ampiamente utilizzato come modello di istruttore. Inoltre, addestrano il modello a generare immagini migliori introducendo una perdita percettiva multiscala nel processo di apprendimento. BlazeStyleGAN ha meno parametri e modelli più semplici rispetto a MobileStyleGAN. Confrontano BlazeStyleGAN su diversi dispositivi mobili, dimostrando che può funzionare a velocità in tempo reale su GPU mobili. L'output di BlazeStyleGAN corrisponde molto fedelmente alla qualità visiva del suo modello insegnante. Notano inoltre che BlazeStyleGAN può migliorare la qualità visiva in alcune situazioni riducendo gli artefatti prodotti dal modello dell'istruttore. I risultati della Frechet Inception Distance (FID) per BlazeStyleGAN sono paragonabili a quelli dell'istruttore StyleGAN. Di seguito la sintesi dei contributi:

  • I ricercatori hanno creato un'architettura ottimizzata per i dispositivi mobili aggiungendo un'ulteriore testina UpToRGB a ciascun livello del generatore e utilizzandola solo durante l'inferenza.
  • Calcolando una perdita percettiva su più scale utilizzando le teste ausiliarie e una perdita contraddittoria sulle immagini reali, migliorano la tecnica di distillazione, portando a una migliore generazione di immagini e diminuendo l'impatto del trasferimento di artefatti dal modello dell'istruttore.
  • BlazeStyleGAN può produrre immagini di alta qualità in tempo reale su vari smartphone popolari.

Il team di ricerca di Google ha introdotto il primo modello StyleGAN al mondo (BlazeStyleGAN) in grado di produrre fotografie di volti di alta qualità in tempo reale sulla stragrande maggioranza degli smartphone premium. C’è molto spazio per l’esplorazione in modelli generativi efficienti su dispositivo. Per ridurre l'impatto degli artefatti del modello dell'istruttore, hanno ideato un'architettura raffinata per la rete di sintesi StyleGAN e messo a punto la tecnica di distillazione. BlazeStyleGAN può ottenere prestazioni in tempo reale sui dispositivi mobili nel benchmark perché la complessità del modello è stata drasticamente ridotta.


Dai un'occhiata a Articolo di GoogleTutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di iscriverti il nostro subReddit da 30k+ ML, Oltre 40.000 comunità Facebook, Canale Discordia, E Newsletter via e-mail, dove condividiamo le ultime notizie sulla ricerca sull'intelligenza artificiale, interessanti progetti sull'intelligenza artificiale e altro ancora.

Se ti piace il nostro lavoro, adorerai la nostra newsletter..


20221028 101632 Dhanshree Shenwai

Dhanshree Shenwai è un ingegnere informatico e ha una buona esperienza in società FinTech che coprono il settore finanziario, carte e pagamenti e bancario con vivo interesse per le applicazioni dell'intelligenza artificiale. È entusiasta di esplorare nuove tecnologie e progressi nel mondo in evoluzione di oggi, rendendo la vita facile a tutti.




Collegamento alla fonte

lascia un commento

L'indirizzo email non verrà pubblicato. I campi richiesti sono contrassegnati *

Puoi utilizzare questi tag e attributi HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

it_ITItalian