Un nouvel acteur de l’IA générative européen vient de faire son apparition : Black Forest Labs. Le 1er août dernier, la start-up annonçait non seulement son lancement officiel et la clôture d’une ronde de financement de démarrage de 31 millions de dollars, mais également FLUX-1, une famille de modèles d’IA text-to-image.
Basée à Fribourg-en-Brisgau, en Allemagne, au pied des montagnes de la Forêt-Noire, la start-up a été cofondée par Robin Rombach, Patrick Esser, Andreas Blattmann, Axel Sauer, Frederic Boesel et Tim Dockhorn. Composée de chercheurs et d’ingénieurs ayant développé des modèles d’IA pionniers comme VQGAN, Latent Diffusion, Stable Diffusion, SDXL, son équipe se concentre sur l’accessibilité et la transparence pour favoriser l’innovation.
Black Forest Labs (BFL) déclare sur son site web :
“Notre mission est de développer et de faire progresser des modèles d’apprentissage profond génératif de pointe pour les médias tels que les images et les vidéos, et de repousser les limites de la créativité, de l’efficacité et de la diversité. Nous pensons que l’IA générative sera un élément fondamental de toutes les technologies futures. En rendant nos modèles accessibles à un large public, nous voulons en faire profiter tout le monde, éduquer le public et renforcer la confiance dans la sécurité de ces modèles”.
Une levée de fonds de 31 millions de dollars
Cette levée témoigne de la confiance de l’industrie dans le potentiel de la start-up à transformer le paysage de l’IA générative. Menée par le fonds de capital-risque Andreessen Horowitz, elle a attiré des contributeurs notables comme Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila et Vladlen Koltun, des figures reconnues dans le domaine de l’IA et de la création d’entreprises technologiques. Des fonds supplémentaires ont été apportés par General Catalyst et MätchVC, deux sociétés d’investissement qui ont décidé de soutenir la mission de Black Forest Labs de développer et de diffuser des technologies d’IA avancées issues de l’Europe à l’échelle mondiale.
Le conseil consultatif de la start-up comprend Michael Ovitz, qui apporte une vaste expérience dans le secteur de la création de contenu, et le professeur Matthias Bethge, un pionnier du transfert de style neuronal et expert de premier plan dans la recherche européenne ouverte sur l’IA.
FLUX.1 : repousser les frontières de la synthèse texte-image
FLUX.1 est proposé en trois variantes, chacune adaptée à des besoins spécifiques :
- FLUX.1 [pro] : la version la plus performante, conçue pour offrir des images de qualité supérieure avec un suivi d’invite précis, une diversité de style et une complexité de scène inégalée. Cette version, accessible via l’API de BFL, est idéale pour les entreprises ou les utilisateurs recherchant la meilleure qualité disponible ;
- FLUX.1 [dev] : Ce modèle est destiné aux applications non commerciales. Il s’agit d’une version distillée de FLUX.1 [pro], offrant une qualité d’image similaire tout en étant plus efficace en termes de ressources. Les utilisateurs peuvent accéder à ses poids ouverts sur HuggingFace pour l’explorer et l’intégrer dans des projets ;
- FLUX.1 [schnell] : Adapté à un usage personnel et au développement local, ce modèle est le plus rapide de la gamme. Il est disponible gratuitement sous une licence Apache2.0, permettant aux développeurs de l’utiliser pour des projets individuels ou expérimentaux.
Les trois versions sont accessibles via Replicate et fal.ai.
Architecture et performance
Les modèles FLUX.1 reposent sur une architecture hybride avancée combinant des transformateurs de diffusion multimodaux. Comptant 12 milliards de paramètres, ils intègrent des techniques de pointe comme l’appariement de flux (flow matching), les plongements positionnels rotatifs et les couches d’attention parallèles pour améliorer les performances et l’efficacité matérielle. Ces innovations permettent à FLUX.1 de surpasser les modèles concurrents dans diverses catégories, y compris la qualité visuelle, la diversité de sortie, et la complexité des scènes générées.
Crédit : BFL
Selon la start-up, FLUX.1 [pro] et [dev] surpassent les modèles populaires comme Midjourney v6.0, DALL· E 3 (HD) et SD3-Ultra dans chacun des aspects suivants : qualité visuelle, suivi des invites, variabilité de la taille et de l’aspect, typographie et diversité de sortie. FLUX.1 [schnell] serait le modèle en quelques étapes le plus avancé à ce jour, surpassant non seulement les concurrents de sa catégorie, mais aussi de puissants modèles non distillés comme Midjourney v6.0 et DALL· E 3 (HD).
Les 3 variantes du modèle FLUX.1 prennent en charge une large gamme de rapports d’aspect et de résolutions allant de 0,1 à 2 mégapixels.
Perspectives de BFL : les modèles text-to-video
Black Forest Labs ne compte pas s’arrêter à la génération d’images. En s’appuyant sur les capacités robustes de FLUX.1, l’entreprise travaille au développement d’une suite de modèles génératifs texte-vidéo. La start-up conclut ses annonces par :
“Nos modèles vidéo débloqueront une création et un montage précis en haute définition et à une vitesse sans précédent. Nous nous engageons à continuer à innover dans l’avenir des médias génératifs”.