En février dernier, OpenAI dévoilait son premier modèle text-to-video, Sora, depuis lors en preview. La société a annoncé ce 9 décembre le déploiement de Sora Turbo, une version plus rapide, sur sora.com. Elle est disponible sans frais supplémentaires pour les abonnés ChatGPT Plu...
L’Adobe Firefly Summit 2024, en avril dernier, a été l’occasion pour l’éditeur de logiciels graphiques dont InDesign, Acrobat, Photoshop et Illustrator, de présenter les innovations qui allaient permettre aux marques d’optimiser leur créations de contenu. Cette semaine, lor...
Zhipu AI a annoncé récemment CogVideoX-5B, son dernier modèle text-to-video open source. Une autre start-up chinoise, tout aussi prometteuse, Minimax, a dévoilé sa première IA générative de vidéos lors de sa conférence des développeurs. “Magic Coin”, la vidéo générée ...
Zhipu AI, licorne chinoise spin-off de l’Université Tsinghua de Pékin a annoncé récemment le lancement de son dernier modèle text-to-vidéo CogVideoX-5B. Comme son prédécesseur, CogVideoX-2B, le modèle est open source, mais est, quant à lui, publié sous la licence CogVideoX ...
Lors de sa conférence Google I/O 2024, Google a présenté VEO, un modèle text-to-video mais les vidéos qu’il génère manquent d’une composante essentielle : le son, ce à quoi DeepMind travaille. Il a dernièrement partagé les avancées de sa technologie vidéo-audio (V2A) ...
En février dernier, OpenAI dévoilait Sora, un modèle Text-to-Video capable de générer des vidéos très réalistes allant jusqu’à une minute, surpassant ainsi les modèles existants qui produisaient des vidéos de quelques secondes. Le mois dernier, lors de la conférence Google ...
Jeudi dernier, le jour même où Meta présentait V-Jepa, OpenAI dévoilait SORA, un modèle de génération de vidéos. Plusieurs modèles text-to-video ont été présentés dernièrement comme Stable Video Diffusion de Stability AI ou W.A.L.T, au développement duquel a participé Google Rese...
Le modèle de génération de vidéos Lumiere, récemment présenté par des chercheurs de Google Research, utilise un modèle de diffusion probabiliste basé sur un réseau U-Net spatio-temporel, pour générer des vidéos de 5 secondes réalistes et cohérentes à partir d’invites ou d...
Le modèle Window Attention Latent Transformer (W.A.L.T) a été récemment présenté par des chercheurs de l’Université de Stanford, de Google Research et du Georgia Institute of Technology. Utilisant l’architecture de réseau neuronal transformer et proposant une nouvell...
Meta AI a dévoilé un nouveau projet de recherche et présenté, fin septembre, des clips produits avec Make-A- Video, un système d’IA qui génère des vidéos de quelques secondes à partir d’invites textuelles. Make-A-Video s’appuie sur les récents progrès de Meta AI en matière ...