C’est sur X que Mistral AI a choisi d’annoncer Mixtral 8x22B mercredi dernier à l’aide d’un lien magnet Torrent. La jeune licorne n’a pas publié de communiqué de presse ni consacré un blog sur son site à ce dernier modèle, donc on ne sait pour l’instant que peu de choses sur ce nouveau modèle open source mais de premiers benchmarks arrivent sur Hugging Face.
Mistral AI a publié Mixtral 8x7B en décembre dernier, on peut présumer que Mixtral 8x22B en est une version plus performante.
Ces 2 modèles Mixtral 8x sont basés sur une architecture à mélange clairsemé d’experts (SMoE) publiés sous licence Apache 2.0.
En tant que modèle de décodeur exclusivement, Mixtral 8x7B utilise un bloc de rétroaction pour choisir parmi huit groupes distincts de paramètres. À chaque couche et pour chaque jeton, un réseau de routeurs sélectionne deux de ces groupes, appelés “experts”, pour traiter le jeton et combine leur sortie de manière additive.
Cette approche augmente le nombre total de paramètres du modèle tout en contrôlant le coût et la latence. Mixtral 8xB dispose de 46,7 milliards de paramètres au total, mais n’utilise que 12,9 milliards de paramètres par jeton, traitant ainsi les entrées et générant les sorties à la même vitesse et au même coût qu’un modèle 12,9B. Le modèle est pré-entraîné sur des données extraites du Web ouvert, permettant la formation simultanée d’experts et de routeurs.
L’approche a été la même pour Mixtral 8x22B dont le nombre de paramètres peut monter jusqu’à 176 milliards et la fenêtre contextuelle de 65 000 jetons.
Alors que certains voyaient dans le partenariat de distribution que Mistral AI a signé avec Microsoft un abandon de l’open source, la start-up leur prouve qu’il n’en est rien, comme elle l’avait assuré face aux critiques.