Angela Fan, chercheuse chez META AI, veut générer des biographies des groupes marginalisés grâce à l’IA

Environ 20 % seulement des biographies sur le site en anglais de Wikipédia, l’un des sites web les plus consultés au monde, concernent des femmes, selon la Fondation Wikimedia. Dans le cadre de son projet de doctorat en informatique à l’Université de Lorraine, au sein de l’Institut national de recherche en sciences et technologies du numérique (INRIA), Angela Fan a travaillé aux côtés de Claire Gardent, sa directrice de thèse, au développement d’une nouvelle solution qui permettrait de remédier à ce déséquilibre grâce à l’intelligence artificielle.

Le genre est l’une des formes d’inégalité les plus répandues et les plus insidieuses. Par exemple, Wikipédia en anglais contient plus de 1,5 million de biographies d’écrivains, d’inventeurs et d’universitaires notables, mais moins de 19 % de ces biographies concernent des femmes. Malgré ce faible pourcentage, un quart des biographies proposées pour suppression chaque mois concernent des femmes. Malgré l’impact considérable qu’elles ont pu avoir au cours de l’histoire dans les sciences, les affaires, la politique et tous les autres domaines de notre société, les femmes sont soit oubliées, soit sous-représentées.

Angela Fan, chercheuse chez META AI, a mis en open source un modèle d’IA de bout en bout qui crée automatiquement des articles biographiques d’excellente qualité sur des personnalités publiques de premier plan.

Le modèle d’IA générateur de biographies

Angela Fan et Claire Gardent ont débuté le processus de génération d’une biographie en utilisant une matrice de génération augmentée par la recherche, qui repose sur un pré-entraînement à grande échelle, et qui apprend au modèle à identifier uniquement les informations utiles, telles que le lieu de naissance ou le lieu où la personne a fait ses études, à mesure qu’il élabore la biographie.

Le modèle récupère d’abord les informations pertinentes sur Internet pour introduire le sujet. Ensuite, le module de génération crée le texte, tandis que la troisième étape, le module de citation, construit la bibliographie renvoyant aux sources qui ont été utilisées. Le processus se répète ensuite, chaque section prédisant la suivante, couvrant tous les éléments qui composent une biographie Wikipédia robuste, y compris la jeunesse, l’éducation et la carrière du sujet.

La génération d’informations se fait section par section, à l’aide d’un mécanisme de mise en cache semblable à celui de Transformer-XL, afin de renvoyer aux sections existantes et d’atteindre un degré de contextualisation plus élevé au niveau du document. La mise en cache est essentielle, car elle permet au modèle de mieux retracer ce qu’il a déjà produit.

Des équipes d’évaluation ont révélé que 68 % du texte généré dans les biographies ne se trouvait pas dans le corpus de référence et n’était vérifiable qu’en partie. Le manque de données pour entraîner le moteur ou d’articles biographiques existants sur les femmes a été un problème majeur. D’autre part, les articles concernant les femmes, en particulier celles issues de groupes marginalisés, sont nettement plus courts que la moyenne des articles sur les hommes, moins détaillés et utilisent un langage différent. Ainsi, on y évoque une « femme scientifique » au lieu de simplement dire « scientifique ». Ce biais dans les données d’entraînement a été intériorisé par les modèles. De plus, les articles de Wikipédia sont rédigés à partir de sources factuelles, souvent issues du web, et non de sources vérifiées.

Diversifier la représentation sur Wikipedia

Selon Angela Fan, ce modèle ne résout que partiellement un problème multidimensionnel et il reste d’autres domaines où de nouvelles technologies devraient être étudiées.

Par ailleurs, certaines sources ont un biais qui doit être pris en compte. Dans les biographies concernant les femmes, on trouve des détails sur leur vie personnelle, comme le fait d’être divorcée, qui n’ont aucun intérêt et détourne l’attention des réalisations qui devraient être  mises en avant.

Meta souligne :

« Il y a encore du travail à faire pour d’autres groupes marginalisés et intersectionnels dans le monde entier et dans toutes les langues. Notre évaluation et notre ensemble de données se concentrent sur les femmes, ce qui exclut de nombreux autres groupes, y compris les personnes non binaires. »

Angela Fan conclut :

« Nous sommes animés par le désir de faire partager ce domaine de recherche important à l’ensemble de la communauté des chercheurs et chercheuses dans le domaine de la génération par l’IA. Nous espérons que nos techniques pourront être utilisées comme point de départ pour les personnes qui enrichissent le contenu Wikipédia de leurs articles, et qu’elles permettront d’améliorer l’équité des informations en ligne accessibles aux étudiants qui rédigent des biographies, et à bien d’autres. »

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.
Partager l'article
1 an d'abonnement au magazine de référence sur l'IA pour 27,60€ Boutique ActuIA Recherche, Business, Impact : Restez à la page en matière d'intelligence artificielle.
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.