DeepFloyd IF, le nouveau modèle text-to-image du laboratoire de recherche en IA de Stability AI

Selon Stability AI et son laboratoire de recherche en IA multimodale DeepFloyd, DeepFloyd IF est un modèle text-to-image puissant et à la pointe de la technologie, offrant un haut degré de photoréalisme et de compréhension du langage, capable d’intégrer intelligemment du texte dans les images. Il est disponible en open source sur GitHub.

DeepFloyd IF est un réseau neuronal modulaire basé sur l’approche en cascade : il a été construit avec plusieurs réseaux neuronaux indépendants s’attaquant à des tâches spécifiques au sein d’une seule architecture pour produire un effet synergique.

Les chercheurs de DeepFloyd l’ont entraîné sur environ 1 milliard de paires image-texte de LAION-5B, qui a lui aussi servi pour l’entraînement de Stable Diffusion mais contrairement à ce dernier, IF fonctionne dans l’espace pixel.

Le module DeepFloyd IF

DeepFloyd IF est composé d’un encodeur de texte figé et de trois modules de diffusion de pixels en cascade.

Un modèle de diffusion de base transforme tout d’abord le texte qualitatif en une image 64×64 (l’équipe DeepFloyd a entraîné trois versions du modèle de base, chacune avec des paramètres différents: IF-I 400M, IF-I 900M et IF-I 4.3B.).

Pour amplifier l’image, deux modèles de super-résolution conditionnels au texte (Efficient U-Net) sont appliqués à la sortie du modèle de base :

Le premier de ces modèles met à l’échelle l’image 64×64 en une image 256×256. Là encore, plusieurs versions de ce modèle sont disponibles: IF-II 400M et IF-II 1.2B.
Le deuxième modèle de diffusion de super-résolution est alors appliqué pour produire une image vive de 1024×1024.

Toutes les étapes du modèle utilisent un encodeur de texte figé basé sur le transformateur T5 pour extraire les intégrations de texte, qui sont ensuite introduites dans une architecture UNet améliorée avec une attention croisée et une mise en commun des attentions.

DeepFloyd n’a pas encore publié le modèle final de la troisième étape IF à 700 millions de paramètres, le caractère modulaire du modèle IF lui a permis d’utiliser d’autres modèles d’agrandissement (comme l’Upscaler Stable Diffusion x4) dans la troisième étape.

Le plus grand modèle avec un upscaler à 1 024 pixels nécessite 24 gigaoctets de VRAM, tandis que pour le plus grand modèle avec un upscaler de 256 pixels,16 gigaoctets suffisent.

Traduction d’image à image

Pour modifier le style, les motifs et les détails de la sortie tout en préservant l’essence de l’image source, IF offre une traduction image à image zéro shot : il faut pour cela redimensionner l’image d’origine à 64 pixels, ajouter du bruit via la diffusion directe et débruiter l’image avec une nouvelle invite pendant le processus de diffusion arrière.

Les résultats

Le fait d’utiliser le modèle de langage T5-XXL comme encodeur de texte apporte un alignement fin entre les invites et les images générées.

Selon l’équipe, DeepFloyd IF est également très performant pour l’intégration de texte : il génère un texte cohérent et clair aux côtés d’objets aux propriétés différentes, apparaissant dans diverses relations spatiales, tâche ardue pour la plupart des modèles text-to-image.

D’autre part, il présente un haut degré de photoréalisme : bien que son architecture soit similaire à celle d’Imagen, DeepFloyd IF-4.3B a surpassé ce dernier lors des tests, tout comme d’autres modèles comme Stable Diffusion ou DALL-E 2, obtenant un score FID Zero-Shot de 6,66 sur l’ensemble de données COCO, démontrant des capacités supérieures en synthèse texte-image.

Pour DeepFloyd, “IF démontre le potentiel d’architectures UNet plus grandes dans la première étape des modèles de diffusion en cascade et dépeint un avenir prometteur pour la synthèse texte-image”. Publié sous une licence non commerciale, il offre la possibilité aux chercheurs et aux développeurs d’explorer et expérimenter des approches avancées de génération de texte en image. Conformément à ses autres modèles, Stability AI a l’intention de publier un modèle DeepFloyd IF entièrement open source à une date ultérieure.

Références article : Stability AI, DeepFloyd

Code: GitHub

L’accès aux poids peut être obtenu en acceptant la licence sur les cartes du modèle à l’espace Hugging Face