Natacha Triou proposait de découvrir l’algorithme linguistique français CamemBERT dans Le Journal des Sciences du 19 novembre 2019 sur France Culture. L’occasion de revenir sur ce modèle informatique, publié gratuitement en ce mois de novembre, avec Laurent Romary, directeur de recherche au sein de l’équipe ALMAnaCH du centre Inria à Paris, qui a participé à l’élaboration de ce modèle en apprentissage profond.
CamemBERT est un modèle linguistique français basé sur l’architecture RoBERTa pré-entraînée sur le subcorpus francophone d’OSCAR, corpus multilingue disponible depuis peu.
L’équipe à l’origine de CamemBERT indique sur son site:
“Nous évaluons CamemBERT dans quatre tâches différentes en aval pour le français : balisage de partie de la parole (POS), analyse de la dépendance, reconnaissance des entités nommées (NER) et inférence de langage naturel (NLI); améliorer l’état de l’art pour la plupart des tâches par rapport aux précédentes approches monolingues et multilingues, ce qui confirme l’efficacité de grands modèles linguistiques pré-entraînés pour le français”.
Ont collaboré au développement et à l’entraînement de cet algorithme Facebook AI Research, Inria et ALMAnaCH et plus précisément Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah et Benoît Sagot.
La présentation de France Culture
Un nouveau modèle informatique est capable de manier parfaitement la langue française. Cette intelligence artificielle s’appelle CamemBERT et elle peut identifier et caractériser dans un texte les noms propres, les verbes, les adverbes, les adjectifs, de distinguer toute la grammaire et la syntaxe française, avec un taux de réussite à 99%. CamemBERT est l’application déclinée pour la langue française de BERT, le modèle contextuel de langue le plus courant, issu des laboratoires Google en 2018. Il s’agit d’une avancée car la plupart des modèles linguistiques sont créés à partir de données en anglais. L’Institut national de recherche dédié aux sciences du numérique vient de publier gratuitement le programme, et les détails des travaux “CamemBERT : un savoureux modèle de langue française” sont à retrouver sur le site d’ArXiv.