(De)Toxigen et AdaTest, les nouveaux outils de Microsoft pour des modèles de langage plus fiables

Les grands modèles linguistiques (LLM ou large language model), outre être très énergivores, peuvent reproduire les biais et les stéréotypes acquis lors de leur formation. Les chercheurs de Microsoft ont conçu des outils et des ensembles de données open source afin de tester les systèmes de modération de contenu : (De)ToxiGen et AdaTest. Ceux-ci pourraient conduire à des LLM plus fiables ou à des modèles similaires au GPT-3 d’OpenAI, capables d’analyser et de générer du texte avec une sophistication humaine. Leurs travaux ont été présentés lors de la 60ème réunion annuelle de l'Association for Computational Linguistics (ACL 2022).

Les grands modèles de langage (LLM), s'ils peuvent s'adapter à une large variété d'applications, comportent cependant des risques du fait que leur formation a été faite sur une masse de textes, rédigés par des humains, provenant d'Internet. De ce fait, ils peuvent générer un langage inapproprié et nuisible reproduisant les stéréotypes véhiculés par les auteurs de ces textes. Des outils de modération de contenu ont été conçus pour signaler ou filtrer ce langage dans certains contextes, mais les ensembles de données disponibles pour former ces outils ne parviennent souvent pas à saisir les complexités d'un langage potentiellement inapproprié et toxique, en particulier le discours de haine.

(De)ToxiGen : Tirer parti de grands modèles de langage pour créer des outils de détection des discours de haine plus robustes

Dans le but de résoudre ce problème de toxicité, une équipe composée de chercheurs de Microsoft, du MIT, d'Allen Institute for AI, de Carnegie Mellon University et de l'University of Washington a développé ToxiGen, un ensemble de données pour former des outils de modération de contenu qui peuvent être utilisés pour signaler un langage malveillant et ont publié leur étude intitulée « ToxiGen : un ensemble de données à grande échelle généré par une machine pour la détection des discours de haine contradictoires et implicites. » sur Arxiv.

Les systèmes de détection de langage toxique désignent souvent à tort les textes mentionnant des groupes minoritaires comme toxiques, ces groupes étant souvent la cible de haine en ligne. « Une telle dépendance excessive à l'égard de fausses corrélations amène également les systèmes à lutter pour détecter un langage implicitement toxique. », selon les chercheurs, qui pour permettre d'atténuer ces problèmes, ont créé ToxiGen, un nouvel ensemble de données à grande échelle et généré par machine de 274 000 déclarations toxiques et bénignes sur 13 groupes minoritaires.

ToxiGen serait l’un des plus grands ensembles de données accessibles au public sur les discours de haine, selon Microsoft.

Ece Kamar, Partner Research Area Manager chez Microsoft Research et chef de projet pour AdaTest et (De)ToxiGen, a déclaré à Techcrunch :

« Nous reconnaissons que tout système de modération de contenu aura des lacunes, et ces modèles doivent être constamment améliorés. L’objectif de (De)ToxiGen est de permettre aux développeurs de systèmes d’IA de trouver plus efficacement les risques ou les problèmes dans toute technologie de modération de contenu existante. Nos expériences montrent que l’outil peut être utilisé pour tester de nombreux systèmes existants, et nous sommes impatients d’apprendre de la communauté les nouveaux environnements qui bénéficieraient de cet outil. »

Pour générer les échantillons, les chercheurs ont alimenté un LLM avec des exemples de discours neutres et de discours de haine ciblant 13 groupes minoritaires, parmi lesquels les Noirs, les Musulmans, les Asiatiques, les « Latinos », les Amérindiens, les personnes souffrant de handicaps physiques et cognitifs ainsi que les LGBTQ . Les déclarations ont été tirées d’ensembles de données existants mais aussi d’articles de presse, d’opinion, de transcriptions de podcasts et d’autres sources textuelles publiques similaires.

L'équipe a démontré les limites de l’IA pour détecter la toxicité : elle a trompé un certain nombre d’outils de modération de contenu alimentés par l’IA en utilisant des déclarations de (De)ToxiGen, le filtre de contenu utilisé par OpenAI dans l’API ouverte (qui donne accès à GPT-3).

L'équipe a déclaré :

« Le processus de création des déclarations pour ToxiGen, appelé (De)ToxiGen, a été conçu pour découvrir les faiblesses de certains outils de modération en guidant un LLM pour créer des déclarations susceptibles de mal identifier les outils. Grâce à une étude de trois ensembles de données de toxicité écrites par l’homme, l’équipe a découvert que commencer avec un outil et le peaufiner avec ToxiGen pouvait “considérablement” améliorer les performances de l’outil. »

AdaTest : un processus de test et de débogage adaptatif des modèles NLP inspiré du cycle de débogage des tests dans le génie logiciel traditionnel

L'article « Associer des personnes avec de grands modèles de langage pour trouver et corriger les bogues dans les systèmes NLP » a été publié par Scott Lundberg et Marco Tulio Ribeiro, tous deux chercheurs principaux. Processus de test adaptatif et de débogage de modèles NLP inspiré du cycle test-débogage du génie logiciel traditionnel, AdaTest favorise un partenariat entre l'utilisateur et un grand modèle de langage (LM) : le LM propose des tests validés et organisés par l'utilisateur, qui à son tour donne son avis et oriente le LM vers de meilleurs tests.

AdaTest, abréviation de Human-AI Team Approach Adaptive Testing and Debugging, débogue un modèle en le chargeant de générer un grand nombre de tests, tandis qu’un humain contrôle le modèle en exécutant des tests valides, sélectionne et organise les sujets sémantiquement liés. L’objectif est de cibler le modèle sur des domaines d’intérêt spécifiques et d’utiliser les tests pour dépanner et retester le modèle. Cette dernière étape de la boucle de débogage est primordiale car une fois les tests utilisés pour réparer le modèle, ce ne sont plus des données de test mais des données d'apprentissage.

Ece Kamar explique :

« AdaTest est un outil qui exploite les capacités existantes des grands modèles de langage pour apporter de la diversité aux tests de semences créés par les humains. En particulier, AdaTest place les personnes au centre pour initier et guider la génération de cas de test. Nous utilisons les tests unitaires comme langage pour exprimer le comportement approprié ou souhaité pour diverses entrées. De cette façon, une personne peut créer des tests unitaires pour exprimer le comportement souhaité, en utilisant différentes entrées et pronoms… Comme la capacité des modèles actuels à grande échelle à ajouter de la diversité à tous les tests unitaires est diverse, il peut y avoir des cas car les tests unitaires générés automatiquement peuvent devoir être révisés ou corrigés par des personnes. C’est là que nous bénéficions du fait qu’AdaTest n’est pas un outil d’automatisation, mais un outil qui aide les gens à enquêter et à identifier les problèmes. »

L’équipe de recherche a mené une expérience pour voir si AdaTest permettait aux experts, qui ont suivi une formation en ML et en TNL, et aux non-experts de mieux écrire des tests et des bogues dans les modèles à trouver. Les résultats ont démontré que les experts utilisant AdaTest ont découvert en moyenne cinq fois plus d’erreurs de modèle par minute, tandis que les non-experts – qui n’avaient aucune formation en programmation – ont dix fois plus de succès à trouver des erreurs dans un modèle donné (perspective API) pour modération du contenu.

ToxiGen et AdaTest, leurs dépendances et leur code source, sont disponibles sur GithHub.

Sources de l'article :
TOXIGEN: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection Thomas Hartvigsen, Saadia Gabriel, Hamid Palangi, Maarten Sap, Dipankar Ray, Ece Kamar.

ADATEST : Adaptive Testing and Debugging of NLP Models Scott Lundberg , Marco Tulio Ribeiro, Ece Kamar.

Comprendre l'IA

Applications de l'IA

(De)Toxigen et AdaTest, les nouveaux outils de Microsoft pour des modèles de langage plus fiables

Sommaire

(De)ToxiGen : Tirer parti de grands modèles de langage pour créer des outils de détection des discours de haine plus robustes

AdaTest : un processus de test et de débogage adaptatif des modèles NLP inspiré du cycle de débogage des tests dans le génie logiciel traditionnel