Modèles Text-to-Video : Kling, le modèle chinois de Kuaishou, entre en lice

En février dernier, OpenAI dévoilait Sora, un modèle Text-to-Video capable de générer des vidéos très réalistes allant jusqu'à une minute, surpassant ainsi les modèles existants qui produisaient des vidéos de quelques secondes. Le mois dernier, lors de la conférence Google I/O 2024, Google a présenté VEO, étendant les capacités de génération vidéos de Sora à plus d'une minute. Aujourd'hui, ces deux modèles ont un sérieux concurrent : Kling, développé par l'entreprise chinoise Kuaishou Technology, qui génère des vidéos allant jusqu'à 2 minutes.

Kuaishou est surtout connu pour sa plateforme de partage de vidéos courtes, qui permet aux utilisateurs de créer, partager et visionner des vidéos de courte durée. Lancée en 2011, Kuaishou est devenue le second réseau social le plus populaire en Chine derrière TikTok et a également gagné en popularité à l'international, opérant sous le nom de Kwai dans certains marchés. L'application propose une grande variété de contenus, allant des vidéos de divertissement et des défis viraux aux tutoriels et aux vlogs personnels.

En parallèle, l’entreprise a mis en place une stratégie d'IA l'an passé, notamment dans le domaine de l'IA générative : son équipe dédiée a présenté en août 2023 sa famille de LLM KwaiYii et plus récemment son modèle texte-image Kolors.

Le dernier né de Kuaishou, Kling, actuellement en phase d’essai, permet de convertir du texte en clips vidéo d’une durée maximale de 2 minutes avec une résolution de 1080p et une fréquence de 30 images par seconde grâce, selon la société, "à une infrastructure d’entraînement efficace, une optimisation extrême de l’inférence et une infrastructure évolutive".

Kling, tout comme Sora, est un modèle de diffusion utilisant une architecture de transformer et possédant une compréhension approfondie de la sémantique texte-vidéo. Une stratégie d’entraînement à résolution variable lui permet de prendre en charge divers formats d’image. D'après Kuaishou, il peut simuler avec précision les propriétés du monde physique grâce à une architecture auto-développée en interne et à de puissantes capacités de modélisation inspirées de la loi de mise à l’échelle physique du monde réel.

Le modèle adopte un mécanisme d’attention conjointe spatio-temporelle 3D, ce qui lui permet de mieux modéliser des mouvements spatio-temporels complexes. La technologie de reconstruction 3D du visage et du corps humain développée en interne (3D VAE) améliore l'expression des visages et du corps, et ce, à partir d'une seule image.

Kuaishou publie une série de vidéos de démonstration sur son site :

[caption id="" align="aligncenter" width="768"] un petit garçon fait du vélo dans le jardin et vit les saisons[/caption]

certaines ont été partagées également sur X :

https://twitter.com/i/status/1798777787660046445

Des modèles tels que Kling ont le potentiel de transformer l'industrie du cinéma, preuve en est la projection samedi prochain des “Sora Shorts”, une série de courts métrages créés avec l’aide de Sora, par cinq cinéastes ayant eu un accès anticipé au modèle d'OpenAI, dans le cadre du Tribeca Film Festival, un festival de cinéma indépendant américain.

Comprendre l'IA

Applications de l'IA

Modèles Text-to-Video : Kling, le modèle chinois de Kuaishou, entre en lice