C’est sur X que Mistral AI a choisi d’annoncer Pixtral 12B, à l’aide d’un lien magnet Torrent. Ce premier LLM multimodal de la jeune licorne qui peut traiter à la fois le texte et les images est disponible sur GitHub et Hugging Face. Il peut être téléchargé, affiné et utilisé sous la licence open source Apache 2.0 qui permet son utilisation pour la recherche ainsi que le développement commercial.
Les 12 milliards de paramètres de Pixtral, basé sur Mistral Nemo 12B présenté en juillet dernier par la start-up avec NVIDIA, sont répartis sur 40 couches, lui conférant une grande capacité de traitement des données textuelles et visuelles.
Pixtral 12B intègre un adaptateur de vision de 400 millions de paramètres, ce qui permet aux utilisateurs de soumettre des images via des URL ou encodées en base64,un schéma d’encodage binaire-texte. Il peut gérer des images de haute résolution (1024 x 1024 pixels), découpées en patchs de 16 x 16 pixels pour une analyse détaillée. En outre, le modèle peut également reconnaître et traiter plus de 131 000 jetons, cette taille de vocabulaire étendue permet une plus grande flexibilité dans la gestion des données textuelles.
Grâce à ces caractéristiques, Pixtral 12B peut générer des descriptions textuelles détaillées à partir d’images et est particulièrement efficace pour des tâches telles que le sous-titrage d’images, la classification d’images, ou encore le comptage d’objets dans une scène visuelle.
Amélioration de la compréhension visuelle grâce à 2D RoPE
L’une des forces de Pixtral 12B réside dans l’utilisation de la technologie 2D RoPE (Rotary Position Embeddings) pour son encodeur de vision, qui renforce la capacité du modèle à comprendre les relations spatiales dans les images. Cela permet une interprétation précise des éléments visuels dans leur contexte spatial, une fonction cruciale pour les applications nécessitant une compréhension détaillée des images.
Mistral AI devrait donner prochainement plus de détails sur le modèle qu’on devrait bientôt pouvoir tester sur Le Chat et Le Plateforme de la start-up.