En février dernier, Stability AI annonçait ses deux derniers modèles text-to-image : Stable Cascade et Stable Diffusion 3 ainsi que l’ouverture de la liste d’attente pour une prévisualisation anticipée de cette dernière itération de son modèle phare. La start-up a récemment publié Stable Diffusion 3 (SD3) Medium, un modèle open source de 2 milliards de paramètres qu’elle présente comme son modèle de génération d’images le plus sophistiqué à ce jour.
La famille SD3 comprend des modèles allant de 800 millions à 8 milliards de paramètres, offrant aux utilisateurs un éventail d’options adaptées à leurs besoins créatifs spécifiques.
Les modèles de petite taille comme SD3 Medium offrent une combinaison équilibrée de performance, accessibilité et efficacité. Ils sont plus faciles à recycler et à affiner pour des cas d’utilisation spécifiques et accessibles à un plus large éventail d’utilisateurs, puisque compatibles avec le matériel grand public.
SD3 Medium
Selon Stability AI, “la petite taille de SD3 medium le rend parfait pour fonctionner sur des PC et des ordinateurs portables grand public ainsi que sur des GPU de niveau entreprise”.
Le minimum requis pour exécuter Stable Diffusion Medium n’est en effet que de 5 Go de VRAM (mémoire vidéo). Stability AI recommande néanmoins 16 Go de VRAM pour une utilisation vraiment confortable et optimale.
SD3 est un modèle de diffusion latente qui se compose de trois encodeurs de texte différents (CLIP L/14, OpenCLIP bigG/14 et T5-v1.1-XXL), d’un nouveau modèle de transformateur de diffusion multimodale (MMDiT) et d’un modèle d’auto-encodeur (VAE ou Variational Autoencoder) à 16 canaux similaire à celui utilisé pour Stable Diffusion XL
Les performances du modèle
Selon Stability AI, SD3 Medium se distingue par son photoréalisme, le respect des prompts, sa capacité à générer des textes et les possibilités de fine-tuning.
Il présente plusieurs améliorations significatives :
- Qualité Globale et Photoréalisme : Stable Diffusion 3 Medium produit des images d’une qualité exceptionnelle, avec des détails précis, des couleurs vives et un éclairage réaliste. Grâce à l’intégration d’un VAE à 16 canaux, il parvient à surmonter les défis typiques des modèles IA, notamment le réalisme des mains et des visages ;
- Compréhension Rapide : SD3 Medium peut traiter des invites longues et complexes, il excellerait dans la gestion du raisonnement spatial, des éléments de composition, des actions et des styles. Les utilisateurs peuvent optimiser les performances et l’efficacité grâce aux trois encodeurs de texte intégrés ;
- Typographie : l’architecture Diffusion Transformer permet d’atteindre une qualité de texte inégalée, réduisant les erreurs d’orthographe, de crénage, de formation des lettres et d’espacement.
- Économe en Ressources : Stable Diffusion 3 Medium fonctionne parfaitement sur des GPU grand public standards, sans dégradation des performances, grâce à son faible encombrement VRAM ;
- Réglage Fin : Ce modèle est conçu pour absorber des détails nuancés à partir de petits ensembles de données, le rendant idéal pour la personnalisation et les applications spécifiques ;
Voici quelques images générées par le modèle et leurs prompts partagées par Stability AI :
Collaboration avec NVIDIA et AMD
Stability AI a collaboré avec NVIDIA pour optimiser les performances de ses modèles, y compris Stable Diffusion 3 Medium, en utilisant les GPU NVIDIA® RTX™ et TensorRT™. Les versions optimisées pour TensorRT offrent une augmentation de 50 % des performances, garantissant une efficacité inégalée.
De plus, AMD a optimisé l’inférence pour Stable Diffusion 3 Medium sur divers appareils, y compris les derniers APU d’AMD, les GPU grand public et les GPU MI-300X Enterprise, assurant une compatibilité et des performances de pointe sur une large gamme de matériels.
Accessibilité et Licences
Stable Diffusion 3 Medium est un modèle open source publié sous la licence Stability Non-Commercial Research Community, réaffirmant l’engagement de Stability AI envers une IA générative ouverte. Pour un usage commercial, les artistes, designers et développeurs peuvent se tourner vers une nouvelle licence de créateur pour 20$ par mois. Quant aux entreprises souhaitant une utilisation commerciale à grande échelle, Stability AI propose des licences adaptées et invite à les contacter pour plus de détails.
Essayer Stable Diffusion 3
Stable Diffusion 3 Medium est désormais disponible via l’API alimentée par Fireworks AI. Les utilisateurs peuvent également essayer d’autres versions de la série Stable Diffusion 3, telles que le modèle SD3 Large et SD3 Ultra, grâce à un essai gratuit de trois jours sur le chatbot Stable Assistant et sur Discord via Stable Artisan.