Natacha Triou proposait de découvrir l'algorithme linguistique français CamemBERT dans Le Journal des Sciences du 19 novembre 2019 sur France Culture. L'occasion de revenir sur ce modèle informatique, publié gratuitement en ce mois de novembre, avec Laurent Romary, directeur de recherche au sein de l’équipe ALMAnaCH du centre Inria à Paris, qui a participé à l’élaboration de ce modèle en apprentissage profond.
CamemBERT est un modèle linguistique français basé sur l'architecture RoBERTa pré-entraînée sur le subcorpus francophone d'OSCAR, corpus multilingue disponible depuis peu.
L'équipe à l'origine de CamemBERT indique sur son site:
"Nous évaluons CamemBERT dans quatre tâches différentes en aval pour le français : balisage de partie de la parole (POS), analyse de la dépendance, reconnaissance des entités nommées (NER) et inférence de langage naturel (NLI); améliorer l'état de l'art pour la plupart des tâches par rapport aux précédentes approches monolingues et multilingues, ce qui confirme l'efficacité de grands modèles linguistiques pré-entraînés pour le français".Ont collaboré au développement et à l'entraînement de cet algorithme Facebook AI Research, Inria et ALMAnaCH et plus précisément Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah et Benoît Sagot.