Des chercheurs NVIDIA mettent au point un GAN exploitant le transfert de style pour un contrôle fin du résultat

Les réseaux GANs permettent de réaliser des images plus vraies que nature, les exemples de génération de visages avec des GANs se multiplient sur internet. Outre la qualité du résultat de celui mis au point par ces chercheurs Nvidia, c’est la finesse du contrôle des résultats qui est marquante.

Tero Karras, Samuli Laine et Timo Aila, tous trois chercheurs chez Nvidia ont publié le 12 décembre le résultat de leur dernier travail en date sur les GANs. L’originalité de cette recherche est de s’appuyer sur les techniques de transfert de style appliquées à des sous-ensembles de caractéristiques du visage, ce qui permet un contrôle fin du résultat obtenu.

Comme l’expliquent les chercheurs dans la vidéo :

“Les GANs apprennent à générer de toute pièce des images qui imitent l’apparence de photos réelles. Cependant, elles offrent un contrôle très limité sur les images générées. Nous avons mis au point un générateur qui apprend automatiquement à séparer différents aspects de l’image sans la moindre supervision humaine. Après la phase d’apprentissage, nous combinons ces différents aspects comme nous le souhaitons. L’ensemble des images de cette vidéo ont été produites par notre générateur. Ce ne sont PAS des photos de personnes réelles.”

Il est ainsi possible de fournir 3 photos en entrée, l’une pour les styles “grossiers” : position, chevelure, forme de la tête, une seconde pour les caractéristiques du visage et les yeux, ainsi qu’une troisième pour la couleur de peau. Le GAN génère alors une nouvelle image basée sur la compilation de l’ensemble de ces caractéristiques.

Si cela peut sembler contre-intuitif, les chercheurs démontrent également que la méthodologie employée ne dégrade pas la qualité et le réalisme des images générées mais au contraire l’améliore. Il est d’ailleurs impressionnant de ne constater aucun artefact sur les images générées. Si les GANs permettent habituellement d’obtenir des résultats convaincants dans de nombreux cas, il n’est pas rare de relever quelques incohérences.

Bien sûr, cette génération de visage n’est qu’une illustration du contrôle fin que propose cette nouvelle architecture de GAN. Notons que la séparation des caractéristiques est le résultat d’une clusterisation non supervisée. Il est donc tout à fait envisageable d’appliquer la même méthodologie pour des images d’autre nature.

La publication est ainsi illustrée de la génération de chambres, de voitures et de chats avec la même méthodologie. Les auteurs relèvent cependant un résultat plus faible sur les chambres et les chats à cause de la qualité plus réduite des datasets utilisés.

Notons enfin pour ceux qui s’intéressent aux visages que les auteurs de cette publication ont constitué un dataset de 70 000 visages qu’ils s’apprêtent à rendre public. Vous pourrez donc reproduire des résultats d’une qualité identique à celle présentée dans la vidéo.

Retrouvez la publication complète sur http://stylegan.xyz/paper