Cette semaine, Facebook a proposé une nouvelle fonctionnalité intitulée Dynaboard. Cette plateforme permet de mener des évaluations complètes et standardisées de modèles de traitement naturel du langage (NLP). Cet outil vient mettre à jour Dynabench, un modèle d’analyse comparative des systèmes d’IA déjà spécialisé dans les modèles NLP.
Dynabench, la plateforme de benchmark des systèmes d’IA
Dynabench est un outil permettant de réaliser une analyse comparative (un benchmark) des modèles d’IA et en particulier, des modèles NLP. Elle crée des ensembles de tests complexes qu’elle soumet aux différents systèmes en tirant parti d’une technologie intitulée “dynamic adversarial data collection”. Grâce à cette plateforme, l’utilisateur peut mesurer la qualité d’un modèle d’IA progressivement.
Selon Facebook, Dynabench permet de fournir de meilleurs indicateurs sur la fiabilité d’un algorithme que celui qui peut être fourni par d’autres techniques de benchmark. À l’heure actuelle, la plateforme est disponible pour les experts de l’IA et les chercheurs afin qu’ils puissent tester leurs systèmes en laboratoire par exemple.
C’est en voulant proposer une solution adéquate à cette demande que Facebook a développé l’outil Dynaboard, un tableau de bord venant enrichir Dynabench.
L’apport principal du Dynaboard : le Dynascore
Dynaboard introduit un tout nouvel indicateur intitulé Dynascore : il prend en compte plusieurs axes d’évaluation afin de proposer un résultat qui précisera la qualité du modèle NLP.
Voici les axes d’évaluations pris en compte par Dynascore :
- La précision du modèle : Dynaboard analyse comment le modèle réussit à résoudre la tâche qu’on lui demande de réaliser
- L’efficacité de calcul du modèle : Dynascore prend en compte le nombre d’exemples que le modèle peut traiter en une seconde dans le cloud.
- L’utilisation de la mémoire : la quantité de mémoire requise par un modèle est mesurée en giga-octets d’utilisation totale. Elle est déduite en moyenne dans le temps, sur une période définie de plusieurs secondes.
- La robustesse : elle prend en compte les erreurs typographiques que peuvent générer le modèle ou les paraphrases utilisés par le modèle lors d’une analyse comparative par exemple.
- L’équité : un test permet de remplacer le genre dans une phrase, donc de passer du féminin au masculin et vice versa, ou bien de remplacer le nom d’une personne par celui qui provient d’une autre culture. Le modèle est considéré comme “équitable” si ses prédictions restent stables après ces changements.
L’ensemble de ces axes peuvent être ajustés grâce au Dynaboard qui fournit un tableau complet de l’ensemble des données recueillies lors de l’évaluation d’un modèle, comme on peut le voir sur l’image ci-dessous :
Comment Dynaboard fut-il testé ?
Dynaboard permet d’améliorer les conditions d’évaluation d’un modèle NLP. À son tour, la fonctionnalité a subi des expérimentations afin de savoir s’il était réellement capable de réaliser cette tâche. Pour se faire, Facebook a utilisé la plateforme pour classer des modèles NLP connus et considérés comme les plus efficaces comme BERT, RoBERTa, ALBERT, T5 et DeBERTa. Ces systèmes sont généralement les cinq meilleurs modèles d’un autre outil de Benchmark nommé GLUE.
Après avoir calculé le Dynascore pour chaque modèle grâce au Dynaboard, les chercheurs ont remarqué que le classement de GLUE a été conservé à quelques différences près. Ces tests n’ont été réalisés qu’avec quatre des cinq axes d’évaluation permettant d’obtenir le Dynascore, mais même si l’on rajoute le cinquième, DeBERTa reste le modèle le mieux classé.
À l’avenir, Facebook souhaite proposer Dynabench à tous les programmeurs, professionnels ou amateurs, afin que tout le monde puisse exécuter ses propres modèles pour évaluation. La firme espère ainsi contribuer à une amélioration générale des modèles de traitement automatique du langage.