La semaine dernière a été, comme pour une grande partie de celles qui l’ont précédée, rythmée par les annonces autour de la GenAI et des LLM. OpenAI a présenté GPT-4 Turbo with Vision, Mistral AI son dernier modèle open source Mixtral 8x22B et xAI le LLM multimodal Grok-1.5V.
Meta n’est d’ailleurs pas en reste, la société a annoncé que Llama 3 initialement prévu en juillet serait lancé courant mai, cependant des versions allégées devraient être proposées dans les jours prochains. Quand bien même elle a publié en février dernier V-JEPA, un modèle non génératif basé sur l’architecture Joint-Embedding Predictive Architecture (JEPA), proposée par Yann LeCun en 2022 comme une alternative aux IA génératives, Meta n’entend pas laisser sa place dans la course à la GenAI.
Grok-1,5V, le modèle multimodal de première génération d’xAI
GROK, la première IA générative de la start-up xAI a été dévoilée en novembre dernier, puis publiée en open source le 17 mars dernier. A peine Grok 1,5, avec des capacités de raisonnement améliorées et une longueur de contexte de 128 000 jetons, a-t-il fait son apparition sur le chatbot d’xAI, qu’Elon Musk et sa start-up annoncent sa version dotée de vision : le modèle multimodal Grok-1,5 V.
Le modèle peut désormais traiter une grande variété d’informations visuelles, notamment des documents, des diagrammes, des graphiques, des captures d’écran et des photographies. Selon la start-up qui l’a soumis à divers tests et benchmarks et comparé à d’autres modèles multimodaux de premier plan : GPT-4V, Claude 3 Sonnet, Claude 3 Opus et Gemini Pro 1.5, “la caractéristique notable du Grok-1.5V est sa capacité à comprendre les concepts spatiaux du monde réel, surpassant les autres modèles du benchmark RealWorldQA – une mesure importante de la compréhension pratique d’un modèle des environnements physiques”.
L’ensemble de données du benchmark RealWorldQA d’xAI se compose de plus de 700 images, avec une question et une réponse facilement vérifiable pour chaque image.
Evalué dans un contexte de zero-shot sans incitation à la chaîne de pensée, Grok-1.5V obtient des résultats compétitifs dans pratiquement tous les autres benchmarks, comme on peut le constater ci-dessous.
Grok-1.5V sera bientôt disponible pour les premiers testeurs et les utilisateurs existants de Grok. Pour xAI :
“L’amélioration de notre compréhension multimodale et de nos capacités de génération sont des étapes importantes dans la construction d’IAG bénéfiques capables de comprendre l’univers. Dans les mois à venir, nous prévoyons d’apporter des améliorations significatives à ces deux capacités, dans diverses modalités telles que les images, l’audio et la vidéo”.