Les équipes de recherche du laboratoire MICS de CentraleSupélec ont développé avec Illuin Technology un nouveau modèle de langage (LLM) appelé CroissantLLM. Totalement ouvert, comptant 1,3 milliard de paramètres, il fonctionne efficacement sur du matériel local grand public y compris sur les ordinateurs personnels et smartphones d’entrée de gamme. Le modèle, qui est disponible sur la plateforme Hugging Face, sera présenté ce 7 mars dans le cadre de l’événement “Les Ateliers de l’IA”, à Paris La Défense et en distanciel.
CroissantLLM est présenté comme un modèle de langage souverain, ouvert, éthique, frugal, étant le fruit d’une collaboration entre académie et industrie, comme Céline Hudelot, professeure, Directrice du laboratoire MICS, l’explique :
“Ce travail est le fruit d’une collaboration étroite entre académie et industrie, illustrant l’importance de la synergie dans l’avancée de la recherche en IA. CroissantLLM résulte en effet des travaux menés par CentraleSupélec en collaboration avec plusieurs partenaires académiques de renom tels que Sorbonne Université, INESC-ID, Instituto Superior Técnico, Carnegie Mellon University et Institut DATAIA. Elle a aussi pu voir le jour grâce au soutien précieux de partenaires industriels : ILLUIN Technology ainsi que Unbabel, Diabolocom, et EqualAI”.
Le modèle a été développé par une équipe de recherche française qui s’est appuyée sur le supercalculateur Jean Zay au sein du GENCI. Plutôt que de l’entraîner sur des corpus à dominante anglaise comme l’ont été les modèles les plus récents, l’équipe a choisi de le faire sur une quantité égale de données en français et en anglais, ce qui lui permet d’intégrer et de maîtriser les spécificités de la langue et de la culture françaises.
Dans ce but, l’équipe a collecté plus de 303 milliards de tokens de données françaises ainsi que 36 milliards de tokens de données de traduction français-anglais, toutes publiques. L’ensemble d’entraînement compte 3 000 milliards de données de jetons après suréchantillonnage, soit plus que celui de Llama 2.
CroissantLLM, basé sur l’architecture Llama, compte 1,3 milliard de paramètres, une taille qui permet une exécution rapide sur des serveurs GPU bas de gamme et une vitesse décente sur des appareils mobiles ou des processeurs. Le modèle est ainsi accessible à un large éventail d’utilisateurs, que ce soit pour des applications industrielles spécifiques, des traductions ou le chat.
Les évaluations du modèle
Pour évaluer les performances du modèle en français, les chercheurs ont introduit FrenchBench, qui se compose de diverses tâches de classification et de génération. Ils l’ont par ailleurs également évalué sur des benchmarks anglais.
Les évaluations montrent que CroissantLLM offre des performances compétitives tant en anglais qu’en français. Sur les benchmarks de classification français, CroissantLLM surpasse largement les modèles de tailles similaires entraînés principalement sur des données monolingues anglais ou français, ainsi que les modèles multilingues. Il devance des modèles jusqu’à 3 fois plus grands sur la plupart des tâches (Bloom 3B).
Pour CroissantLLM Chat, les chercheurs ont affiné CroissantLLM sur des données de chat, notamment sur des interactions avec ChatGPT, afin de développer ses compétences de conversation dans les deux langues.
Un modèle transparent et éthique
L’équipe de recherche a veillé au respect des règles fixées par le récent AI Act afin de faire de CroissantLLM un modèle éthique.
Manuel Faysse, l’un des membres de l’équipe de recherche, explique dans un blog sur Hugging Face :
“L’initiative CroissantLLM a été conçue dès le départ dans un souci de transparence. Nous validons 81 % des critères de transparence du cadre FMTI, bien au-delà des scores des initiatives les plus ouvertes, en publiant les données, les modèles, la procédure de formation et tout le code utilisé pour conserver les données et entraîner le modèle”.
Les modèles, ensembles de données, codes de formation, critères d’évaluation et données sont entièrement open source :
Références de l’article : blog Manuel Faysse