LightOn, l’un des fleurons français de l’IA, pionnier de l’IA générative pour les entreprises, annonce le lancement de ModernBERT, une version modernisée et optimisée du célèbre modèle BERT. Fruit d’une collaboration avec le laboratoire de R&D Answer.AI, cette famille de modèles a été conçue pour répondre aux besoins des environnements professionnels français et européens.
BERT (Bidirectional Encoder Representations from Transformers) largement utilisé dans le domaine du traitement automatique du langage naturel (TALN), développé par des chercheurs de Google AI Language en 2018, est encore largement utilisé aujourd’hui. Les modèles dérivés comme ModernBERT continuent d’améliorer et d’optimiser les performances de BERT pour répondre aux besoins croissants des entreprises et des chercheurs.
Les deux modèles d’encodeur de la famille ModernBERT tirent parti des avancées réalisées pour les LLMs, des modèles principalement à décodeur, qui permettent d’améliorer l’efficacité, la rapidité et la capacité à gérer des tâches complexes comme la classification de texte. ModernBERT-base et ModernBERT-large, qui ont respectivement 149 millions et 395 millions de paramètres, proposent une longueur de séquence maximale de 8192 tokens, un net progrès par rapport à la limite de 512 tokens des versions antérieures de BER
Une performance accrue pour des besoins d’entreprise complexes
ModernBERT se distingue par des améliorations notables en matière de performances et de flexibilité. Parmi ses caractéristiques clés :
- Efficacité optimisée : Le modèle surpasse les standards actuels dans des benchmarks de recherche d’information et de classification de données. Cela le rend idéal pour analyser des volumes étendus et traiter des documents complexes, y compris des données techniques et du code ;
- Latence réduite : ModernBERT est conçu pour répondre rapidement, même dans des environnements aux ressources limitées ;
- Coûts maîtrisés : Contrairement aux grands modèles de langage (LLM) comme GPT, souvent gourmands en ressources et onéreux, ModernBERT propose une alternative à moindre coût. Il diminue le coût total de possession (TCO) tout en maintenant des performances élevées ;
- Déploiement adapté : Intégré de manière sécurisée aux infrastructures des clients, il garantit un contrôle total des données dans des environnements conformes aux réglementations européennes.
Une solution pour les secteurs sensibles
ModernBERT est spécifiquement conçu pour répondre aux exigences des entreprises européennes en matière de gestion de données et de conformité réglementaire. Son architecture modulaire permet une intégration rapide aux outils métiers existants, en assurant la confidentialité des données, un aspect crucial pour des secteurs sensibles comme la finance, la santé ou encore la défense.
En intégrant ModernBERT dans les pipelines de « Retrieval Augmented Generation » (RAG), les entreprises peuvent combiner la recherche d’informations pertinentes avec des modèles génératifs, garantissant des réponses contextuelles et précises tout en optimisant les flux de travail internes.