RunwayML, pionnier dans les outils de création multimédia alimentés par l’IA, a récemment annoncé la prochaine sortie de Gen-3 Alpha. Ce modèle de fondation, offrant des améliorations majeures en termes de fidélité, de cohérence et de mouvement par rapport à son prédécesseur, Gen-2, est présenté par la start-up comme le premier d’une série de modèles entraînés sur une nouvelle infrastructure conçue pour l’entraînement multimodal à grande échelle.
Gen-3 Alpha, dont le prédécesseur a été lancé en juin 2023, a été entraîné conjointement sur des vidéos et des images. Il alimentera, selon Runway, ses outils Text-to-Video, Image-to-Video et Text-to-Image, les modes de contrôle existants tels que Motion Brush, les commandes avancées de la caméra, le mode réalisateur ainsi que les outils à venir pour un contrôle plus précis de la structure, du style et du mouvement.
Une étape vers la construction de modèles généraux du monde
Gen-3 Alpha est, selon la start-up, une avancée vers ce qu’elle appelle un “General World Model”, un système d’IA qui construit une représentation interne d’un environnement et l’utilise pour simuler des événements futurs dans cet environnement. Un tel modèle sera capable de représenter et de simuler un large éventail de situations et d’interactions, comme celles rencontrées dans le monde réel.
Il devra non seulement capturer la dynamique du monde, mais aussi la dynamique de ses habitants, ce qui implique également de construire des modèles réalistes du comportement humain.
L’entraînement de Gen-3 Alpha est le fruit d’une collaboration entre une équipe interdisciplinaire de chercheurs, d’ingénieurs et d’artistes.
Gen-3 Alpha permet la génération de vidéos de 5 à 10 secondes basées sur des invites créatives complexes, comme celles-ci :
- Reflets subtils d’une femme sur la fenêtre d’un train roulant à grande vitesse dans une ville japonaise ;
- Travelling à l’épaule la nuit, suivant un ballon bleu sale flottant au-dessus du sol dans une vieille rue européenne abandonnée.
Il a été entraîné avec des légendes très descriptives et temporellement denses, ce qui lui permet de passer d’une scène à une autre de manière créative et fluide, tout en maintenant une narration cohérente par rapport à l’invite. Le modèle est également très bon dans la génération de personnages humains photoréalistes, expressifs et dotés d’un large éventail d’actions, de gestes et d’émotions, offrant ainsi des opportunités pour la narration immersive.
Sécurité et intégrité du contenu généré renforcées
Runway a intégré des mesures de protection robustes dans Gen-3 Alpha. La start-up a amélioré son système de modération visuelle interne pour surveiller et filtrer le contenu généré, afin de s’assurer qu’il respecte les normes éthiques et ne contienne pas de matériel inapproprié ou offensant. Elle a également adopté les normes C2PA (Coalition for Content Provenance and Authenticity) qui attestent de l’origine et de l’authenticité d’un contenu.
Des modèles Gen-3 personnalisés
Runway dit avoir établi des partenariats avec des organisations de divertissement et de médias de premier plan pour créer des versions personnalisées de Gen-3 Alpha, qui permettent d’obtenir des personnages plus cohérents et plus contrôlés sur le plan stylistique, et ciblent des exigences artistiques et narratives spécifiques, entre autres fonctionnalités.
La start-up n’a toutefois pas précisé la date de sortie du modèle.