L’essor de la GenAI en Chine : MiniMax dévoile Video-01, son premier modèle text-to-video

Zhipu AI a annoncé récemment CogVideoX-5B, son dernier modèle text-to-video open source. Une autre start-up chinoise, tout aussi prometteuse, Minimax, a dévoilé sa première IA générative de vidéos lors de sa conférence des développeurs. "Magic Coin", la vidéo générée par Video-01, la première itération du modèle éponyme de la start-up, a suscité un vif enthousiasme.

La génération de vidéos est une tâche beaucoup plus complexe que la génération d’images, impliquant une dimension temporelle en plus de la dimension spatiale, le modèle doit non seulement générer correctement chaque pixel, mais également prédire comment ce dernier évoluera pour produire une vidéo cohérente et fluide.

Alors que les modèles text-to-video précédents pouvaient générer des vidéos de quelques secondes, OpenAI avait fait sensation en février dernier avec Sora, son IA capable de produire des vidéos très réalistes d’une minute. Cependant, le modèle n'est toujours pas disponible au public.

Depuis, plusieurs entreprises chinoises sont entrées en compétition dans ce domaine avec l’objectif de rattraper, voire surpasser, leurs concurrents américains. En juin dernier, Kuaishou présentait ainsi Kling, capable de générer quant à lui des vidéos allant jusqu’à 2 minutes.

Minimax Video-01

Basée à Shanghai, fondée en 2021 par d'anciens employés de SenseTime, Minimax bénéficie du soutien de géants technologiques tels qu'Alibaba et Tencent. La première démonstration du modèle avec la vidéo "Magic Coin", met en lumière sa capacité à générer des vidéos cohérentes à partir de simples descriptions textuelles. On peut constater dans la vidéo ci-dessous partagée par AI Movie que le mouvement des mains, une difficulté majeure pour les IA génératives, est ici plutôt naturel.

https://youtu.be/bAQGJixPhm8?t=64

Cette première version du modèle permet déjà de produire des vidéos de six secondes en seulement deux minutes, à une résolution de 1280 x 720 pixels et une fréquence de 25 images par seconde. Cependant, MiniMax prévoit d'étendre rapidement leur durée à 10 secondes, et travaille à plusieurs mises à jour, notamment la possibilité de générer des vidéos à partir d’images et d’éditer ces vidéos de manière plus complexe dans les futures versions du modèle. Pour l'instant, la start-up n'a pas communiqué sur les paramètres et les détails techniques du modèle.

Les utilisateurs peuvent générer les vidéos à partir d'invites textuelles simples ou plus complexes allant jusqu'à 2000 caractères, ce qui leur permet de détailler le genre de contenu attendu, notamment l'action et le style.

Si vous désirez tester gratuitement le modèle, il suffit de vous rendre sur le site de Minimax, vous pourrez également y découvrir des vidéos générées par le modèle.

Comprendre l'IA

Applications de l'IA

L’essor de la GenAI en Chine : MiniMax dévoile Video-01, son premier modèle text-to-video

Minimax Video-01