Meta dévoile Movie Gen, son dernier modèle Text-to-Video

Meta s’est intéressé très tôt à la génération de vidéos : dès 2022, il présentait Make-a Video, un système d’IA générant des vidéos de quelques secondes à partir d’invites textuelles basé notamment sur Make-A-Scene. Il s’appuie sur ces recherches pour Movie Gen, une nouvelle suite de modèles pouvant générer une vidéo à partir d’une invite textuelle, ajouter de la musique ou des effets sonores à une vidéo générée ou existante, ainsi que de produire une vidéo personnalisée à partir d’une photo et d’une invite.

Movie Gen repose sur deux modèles de fondation, qui tirent parti des avancées des modèles de diffusion et des modèles Llama Image, pour offrir des capacités accrues de génération et d’édition multimodale :

  • Movie Gen Video : ce modèle de 30 milliards de paramètres peut produire des vidéos HD de 1080 pixels, allant jusqu’à 16 secondes, à une vitesse de 16 images par seconde, à partir de prompts textuels. Il est capable de générer des vidéos dans plusieurs formats et résolutions, en ayant été pré-entraîné sur un vaste ensemble de vidéos et d’images, ce qui lui permet d’apprendre la dynamique visuelle, les mouvements d’objets, les interactions et la physique.
  • Movie Gen Audio : un modèle de 13 milliards de paramètres dédié à la génération d’effets sonores et de musique synchronisés avec les vidéos, à une qualité de 48kHz. Ce modèle peut générer des sons cinématiques adaptés à l’atmosphère visuelle, et est capable de produire à la fois des effets sonores diégétiques (liés aux actions visibles) et non-diégétiques (comme la musique d’ambiance), synchronisés au contenu vidéo.

En plus de leurs capacités de génération, les modèles ont été enrichis de fonctionnalités de personnalisation et d’édition. Cependant, la génération de voix n’est pas encore prise en charge. Selon Meta, Movie Gen Video a été entraîné sur un ensemble de “données sous licence et accessibles au public”.

La personnalisation permet de générer des vidéos mettant en scène une personne à partir d’une photo et d’un texte. La vidéo personnalisée préserve l’identité de la personne tout en suivant l’invite textuelle. Pour entraîner le modèle, un sous-ensemble de vidéos avec des humains est utilisé pour créer automatiquement des paires d’entrées (image, texte) et de sorties vidéo.

L’édition permet aux utilisateurs d’apporter des modifications à des vidéos réelles et générées en utilisant des instructions textuelles. Le modèle peut ajouter, supprimer ou remplacer des éléments spécifiques, ainsi que réaliser des changements globaux comme la modification de l’arrière-plan ou du style. Contrairement aux outils traditionnels qui nécessitent des compétences spécialisées ou aux outils génératifs qui manquent de précision, Movie Gen conserve le contenu original, ne modifiant que les pixels pertinents.

 

On peut retrouver d’autres exemples de vidéos générées par Movie Gen dans la vidéo ci-dessous.

Performances et limitations

Selon les évaluations humaines présentées par Meta, Movie Gen arrive devant ses concurrents de pointe : Sora d’OpenAI, Runway Gen3 et le modèle chinois Kling de Kuaishou.

Cependant, Meta n’entend pas publier Movie Gen dans l’état, il le présente comme un projet de recherche et lui a d’ailleurs consacré un article.

Les auteurs déclarent :

“Bien que la recherche que nous partageons aujourd’hui montre un potentiel immense pour les futures applications, nous reconnaissons que nos modèles actuels ont des limitations. Notamment, de nombreuses optimisations peuvent encore être faites pour réduire davantage le temps d’inférence et améliorer la qualité des modèles en les faisant évoluer davantage”.

Movie Gen est avant tout pour Meta “un outil d’amélioration de la créativité”, il entend collaborer activement avec les créateurs et les professionnels du secteur pour affiner les modèles et les rendre encore plus performants avant un potentiel déploiement à grande échelle.

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.
Partager l'article
1 an d'abonnement au magazine de référence sur l'IA pour 27,60€ Boutique ActuIA Recherche, Business, Impact : Restez à la page en matière d'intelligence artificielle.
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.