Un peu plus de quatre mois après sa création, Mistral AI annonce la mise à disposition open-source de son premier LLM : Mistral 7B. Bien que de petite taille, le modèle de langage surpasse tous les modèles ouverts allant jusqu’à 13B paramètres actuellement disponibles sur tous les benchmarks standard en anglais et en code.
Mistral AI n’en finit pas de surprendre : un mois après sa création, elle annonçait une levée de fonds de 105 millions d’euros, l’une des plus importantes en France pour lune start-up d’IA.
La start-up a été cofondée par Timothée Lacroix, chercheur chez Meta, Guillaume Lample qui avait rejoint Facebook AI Research (FAIR) en 2016, deux chercheurs de l’équipe à l’origine de LLama (Large Language Model Meta AI), une collection de modèles de langage de fondation publiée en février dernier. Le 3ème cofondateur, Arthur Mensch, possède une solide expérience en deep learning, LLM, notamment dans les modèles multimodaux, et a travaillé un peu plus de 2 ans et demi au sein de DeepMind, le laboratoire d’IA de Google.
Mistral AI s’est donné pour ambition de développer et de diffuser au plus grand nombre les meilleurs modèles d’IA générative, en s’appuyant sur une démarche ouverte. Elle affiche ses convictions sur son site :
“Chez Mistral AI, nous pensons qu’une approche ouverte de l’IA générative est nécessaire. Le développement de modèles soutenus par la communauté est le moyen le plus sûr de lutter contre la censure et les préjugés dans une technologie qui façonne notre avenir. Nous croyons fermement qu’en formant nos propres modèles, en les publiant ouvertement et en encourageant les contributions de la communauté, nous pouvons construire une alternative crédible à l’oligopole émergent de l’IA. Les modèles génératifs à poids ouvert joueront un rôle central dans la prochaine révolution de l’IA”.
Mistral 7B
Mis au point en seulement trois mois, Mistral 7B est un modèle dit « de petite taille » (7 milliards de paramètres) qui s’impose comme le meilleur modèle du monde dans sa catégorie. Il surpasse de loin les performances du meilleur modèle de 13 milliards de paramètres disponible à ce jour, tout en divisant par deux la puissance de calcul nécessaire à son utilisation (- 46%).
Le graphique ci-dessous compare Mistral 7B à la famille de modèles Llama sur différents benchmarks. On constate que Mistral 7B surpasse significativement Llama 2 13B sur tous les indicateurs, et est à égalité avec Llama 34B
Le modèle est disponible sous une licence Apache 2.0 qui autorise la réutilisation, la modification et la commercialisation, permet de résoudre de nombreuses tâches de traitement ou de génération de texte. Il est accompagné d’une solution de déploiement efficace sur tous les environnements cloud existants, facile à utiliser. L’IA générative déployée est entièrement contrôlée par l’utilisateur, qui maîtrise totalement ses flux de données.
Les équipes de Mistral AI entraînent déjà des modèles significativement plus grands et performants. La start-up mettra également rapidement à disposition des solutions commerciales d’hébergement et de spécialisation de modèles pour des cas d’usage professionnels.
Arthur Mensch, co-fondateur et CEO de Mistral AI, conclut :
“Nous sommes heureux de dévoiler aujourd’hui notre premier modèle de langage open-source à destination des développeurs, un peu plus de quatre mois après notre lancement et en avance sur notre calendrier. L’immense engagement de notre équipe fondatrice cet été a permis ce développement rapide. Nous remercions chaleureusement nos partenaires de la communauté open source, dont les contributions actives ont été précieuses pour ce lancement, ainsi que EuroHPC, qui nous a prêté de la puissance de calcul supplémentaire”.
Il ajoute :
“Mistral 7B n’est qu’une première étape. Ses performances excèdent très largement celles des modèles comparables disponibles, et annoncent de très belles performances pour nos modèles plus grands, aujourd’hui en cours d’entraînement. Ils confortent notre conviction que l’approche open source est la meilleure pour la science, pour nos économies et pour nos démocraties. Nous restons pleinement tournés vers notre objectif : établir les modèles ouverts comme les meilleures solutions d’intelligence artificielle générative, afin de permettre aux entreprises de mieux s’approprier cette technologie révolutionnaire”.