Des chercheurs de Samsung présentent une méthode pour animer un visage à partir d'une seule image

Egor Zakharov, Aliaksandra Shysheya, Egor Burkov et Victor Lempitsky, chercheurs au centre de recherche de Samsung AI ont présenté une méthode permettant d’animer un visage à partir d’une seule image (idéalement 32).

De nombreuses recherches se sont penchées sur la création de fausses vidéos de personnes, permettant de les mettre de façon réaliste dans des situations insolites ou leur prêtant des discours qu’elles n’ont jamais prononcé.

Les DeepFakes et leurs variantes nécessitent toutefois un jeu d’entrainement conséquent : il faut avoir un ensemble de photos de bonne qualité, prises dans des conditions semblables (notamment en terme d’éclairage), pour que le résultat puisse être correct.

Cette nouvelle recherche qui vient d’être publiée sur Arxiv n’a pas pour objectif de s’attaquer au résultat optimal contrairement aux recherches précédentes. Elle présente un framework pour le méta-apprentissage des GAN qui se focalise avant tout sur la réduction du nombre d’images nécessaires pour pouvoir animer les photos d’une personne de façon réaliste.

Selon les auteurs, 32 images suffisent à obtenir un résultat parfait. Il est également possible d’obtenir des résultats intéressants avec une seule image, ce qui ouvre la porte à l’animation de tableaux :

Cette méthode présente également l’avantage de réduire la durée et les ressources nécessaires à l’apprentissage, grâce au jeu d’entraînement extrêmement réduit.

La clef réside dans le meta-learning (pré-apprentissage du modèle sur un large corpus de vidéos de personnes parlant) qui permettent au générateur et discriminateur d’être extrêmements performants pour ce type de problème dès le début de la phase d’apprentissage.

Les auteurs attirent l’attention sur le fait que la principale limitation de leur méthode est qu’elle ne reproduit pas les mimiques ou expressions propres à la personne, puisque les photos de ces expressions ne sont pas présentes dans le jeu d’entraînement.

Ils estiment que ce type d’intelligence artificielle destinée à animer une image peut avoir des applications dans les domaines de la téléprésence, de la vidéoconférence, des jeux multijoueurs et de l’industrie des effets spéciaux.

Consulter la publication du 20 mai sur Arxiv : https://arxiv.org/pdf/1905.08233.pdf