Des chercheurs de l'Université de Stanford et de NVIDIA publient l'étude « EG3D : GAN 3D efficaces et sensibles à la géométrie »

Transformer les images 2D en scènes 3D est le sujet de nombreuses recherches, Nvidia Research a récemment présenté Instant NeRf, un modèle d’IA capable de le faire très rapidement, différents logiciels sont proposés gratuitement dans ce but sur Internet. Des chercheurs de l’Université de Stanford et de NVIDIA ont utilisé les GAN (Generative Antagonist Networks ou Réseaux antagonistes Génératifs) pour créer des rendus 3D réalistes. Leur étude intitulée « Efficient Geometry-aware 3D Generative Adversarial Networks » a été publiée sur Arxiv et partagée sur la plateforme Github.

La génération non supervisée d’images 3D de haute qualité utilisant uniquement des collections de photographies 2D à vue unique est un défi de longue date. Les GAN 3D existants sont soit gourmands en calcul, soit font des approximations qui ne sont pas cohérentes en 3D, limitant la qualité et la résolution des images générées.

Dans cette étude, les chercheurs de Stanford et de Nvidia ont amélioré l’efficacité de calcul et la qualité d’image des GAN 3D sans trop se fier à ces approximations. La formation d’un GAN avec un rendu neuronal est coûteuse, ils ont choisi d’introduire une architecture de réseau expressive hybride explicite-implicite qui, associée à d’autres choix de conception, synthétise non seulement des images haute résolution multi-vues cohérentes en temps réel, mais produit également une géométrie 3D de haute qualité.

Cette représentation combine une colonne vertébrale explicite, qui produit des caractéristiques alignées sur trois plans orthogonaux, avec un petit décodeur implicite. Par rapport à une représentation de perceptron multicouche typique, elle est plus de sept fois plus rapide et utilise moins d’un seizième de plus de mémoire.

En découplant la génération de caractéristiques et le rendu neuronal, leur cadre peut tirer parti des générateurs CNN 2D de pointe, tels que StyleGAN2, et hérite de leur efficacité et de leur expressivité.

Les résultats de l’étude

Bien que les formes obtenues montrent des améliorations significatives par rapport à celles générées par les précédents GAN compatibles 3D, ils peuvent encore contenir des artefacts et manquer des détails plus fins, tels que des dents et nécessitent quelques améliorations.

Toutefois, en combinant une efficace explicite-implicite représentation neuronale avec un générateur convolutif expressif sensible à la pose et un double discriminateur, cette approche pourrait permettre des avancées significatives vers la synthèse d’images photoréalistes prenant en charge la 3D et la génération de formes non supervisées de haute qualité.

Cela peut permettre le prototypage rapide de modèles 3D, une synthèse d’images plus contrôlable et de nouvelles techniques pour la reconstruction de forme à partir de données temporelles.

Sources de l’article :
Efficient Geometry-aware 3D Generative Adversarial Networks ArXiv:2112.07945v2

AUTEURS :
Eric R. Chan, Stanford University, NVIDIA,
Connor Z. Lin, Stanford University
Matthew A. Chan, Stanford University
Koki Nagano, NVIDIA
Boxiao Pan, Stanford University
Shalini De Mello, NVIDIA
Orazio Gallo, NVIDIA
Leonidas Guibas, Stanford University
Jonathan Tremblay, NVIDIA
Sameh Khamis, NVIDIA
Tero Karras, NVIDIA
Gordon Wetzstein, Stanford University