- Pleias, une start-up française, annonce le lancement de sa première famille de grands modèles de langage (LLM), définissant de nouvelles références en matière de transparence, d’éthique et de conformité. Ces modèles compacts, qui s’appuient exclusivement sur des données ouvertes, démontrent que performance technologique, respect du droit d’auteur et open source peuvent aller de pair.
Pleias est une start-up parisienne créée en décembre 2023 par Pierre-Carl Langlais, Ivan Yamschikov et Anastasia Stasenko. Ses modèles sont élaborés à partir du Common Corpus, un ensemble de données multilingues unique par son ampleur et son ouverture. Ce corpus, qu’elle a publié le 13 novembre dernier, disponible sur HuggingFace, a été soutenu par la start-up d’état Langu:IA, un projet du ministère de la Culture et la DINUM, dans le cadre de la préfiguration de l’offre de services de l’Alliance pour les technologies du langage EDIC (ALT-EDIC).
Son développement a réuni un consortium exceptionnel de partenaires, dont le cluster de supercalculateurs Jean-Zay (Genci, Idris, Eviden), NVIDIA, TractoAI, Wikimedia Entreprise. Il a également bénéficié du soutien de grandes organisations open-source, dont la Mozilla Foundation, l’AI Alliance et Eleuther AI, renforçant son engagement envers la science ouverte et l’innovation collaborative.
Comptant plus de 2 000 milliards de tokens, le Common Corpus est le plus grand ensemble de données d’entraînement pour les LLMs exclusivement composé de textes appartenant au domaine public.
Il se distingue par plusieurs caractéristiques fondamentales :
- Véritablement ouvert : toutes les données incluses sont sous licences permissives, garantissant une utilisation en conformité avec les droits d’auteur ;
- Multilingue et diversifié : plus de 30 langues sont représentées, notamment l’anglais (808 milliards de tokens) et le français (266 milliards), ainsi que des langues comme l’espagnol, l’italien et le néerlandais. Les sources incluent des articles académiques, des textes juridiques, du contenu culturel et du code open source ;
- Qualité optimisée : les contenus ont été rigoureusement filtrés pour éliminer les données nuisibles ou de faible valeur informative.
Une suite adaptée aux besoins européens
Pleias présente trois modèles qui sont, de par leurs données d’entraînement, entièrement conformes au RGPD et à l’AI Act européen :
- Pleias 1.0 : avec 3 milliards de paramètres, il est spécialisé dans les domaines de la gestion des connaissances et des applications administratives ou juridiques ;
- Pleias-Nano (1 milliard) et Pleias-Pico (350 millions) : conçus pour des usages plus légers comme la génération augmentée par la récupération (RAG) et l’harmonisation des données.
Ils fonctionnent efficacement sur du matériel grand public, leur petite taille les rendant particulièrement adaptés aux environnements où les ressources informatiques sont limitées ou pour des applications nécessitant une faible latence.
Anastasia Stasenko, PDG de Pleias, conclut :
“Notre approche démontre qu’il est possible de créer des modèles de langage puissants tout en respectant pleinement la loi sur le droit d’auteur, les exigences du RGPD et les principes éthiques de l’IA”.