Ces dernières années, l’intelligence artificielle a fait des progrès considérables dans le traitement du langage naturel. Depuis l’arrivée de ChatGPT, on a vu les entreprises rivaliser pour proposer le modèle de langage le plus puissant. Ces LLM sont entraînés sur de larges corpus de données souvent mal documentés, soulevant des préoccupations juridiques et éthiques. Pour faire face à ce qu’ils appellent “la crise de la transparence des données”, des scientifiques du MIT, de Cohere for AI et de 11 autres institutions ont lancé une plateforme interactive : le Data Provenance Explorer.
Les LLMs reposent sur la diversité et la richesse croissante des ensembles de données sur lesquels ils sont entraînés, englobant des corpus de préformation et des ensembles de données de réglage fin compilés par des universitaires, générés de manière synthétique par des modèles ou agrégés par des plateformes comme Hugging Face ou Papers with Code. Cependant, il semble qu’il y ait de moins en moins d’efforts pour attribuer, documenter les sources de ces données, ce qui donne lieu à une diminution de la compréhension des données de formation.
Pour les acteurs de l’initiative Data Provenance, “les collections d’ensembles de données largement utilisées sont traitées comme monolithiques, plutôt que comme une lignée de sources de données, rassemblées (ou générées par des modèles), organisées et annotées“. Ils déclarent dans l’article où ils partagent leurs travaux :
“Ce manque de compréhension peut entraîner des fuites de données entre les données de formation et les données de test, exposer des informations personnellement identifiables, présenter des biais ou comportements non intentionnels, et entraîner en général la création de modèles de moindre qualité que prévu. Au-delà de ces défis pratiques, les lacunes d’information et la dette documentaire entraînent des risques éthiques et légaux importants”.
Un audit à grande échelle des ensembles de données d’IA
Pour permettre aux développeurs de modèles, chercheurs et praticiens d’attribuer la provenance des données, ils ont développé un ensemble d’outils et de normes pour retracer la lignée des données de 44 des collections de données textuelles les plus largement utilisées et adoptées, couvrant plus de 1800 ensembles de données de réglage fin. Collectivement, ces ensembles de données ont été téléchargés des dizaines de millions de fois et constituent l’épine dorsale de nombreuses percées publiées en NLP.
Avec l’aide d’experts juridiques, ils ont conçu un pipeline pour retracer la provenance des ensembles de données, y compris la source originale de l’ensemble de données, les licences associées, les créateurs et leur utilisation ultérieure.
Leur travail a révélé une division nette entre les ensembles de données ouverts à des fins commerciales et ceux fermés, ces derniers monopolisant des sources plus diversifiées et créatives.
Ils ont également constaté des problèmes systémiques dans les pratiques de provenance des données, notamment l’utilisation d’une documentation de licence clairsemée, ambiguë ou incorrecte. Plus de 70 % des licences des ensembles de données populaires sur GitHub et Hugging Face sont en effet “non spécifiées”, ce qui expose à des risques en termes de responsabilité légale.
De plus, les licences attachées aux ensembles de données téléchargés sur les plateformes de partage d’ensembles de données sont souvent incohérentes avec la licence attribuée par l’auteur original de l’ensemble de données : leur annotation rigoureuse des licences révèle que 66 % des licences de Hugging Face analysées étaient dans une catégorie d’utilisation différente, souvent étiquetée comme plus permissive que la licence initialement prévue par l’auteur.
Leur initiative réduit le nombre de licences “non spécifiées” de plus de 72 % à 30 % et ajoute des URL de licence pour les développeurs de modèles dont les ressources sont limitées afin qu’ils puissent choisir plus en toute confiance les données appropriées pour leurs besoins.
Shayne Longpre et Sara Hooker, deux des auteurs de l’article, déclarent :
“Le résultat de cette initiative multidisciplinaire est le plus grand audit à ce jour des ensembles de données d’IA. Pour la première fois, ces jeux de données incluent des balises vers les sources de données d’origine, de nombreuses relicences, des créateurs et d’autres propriétés de données”.
La plateforme Data Provenance Explorer
Pour améliorer la transparence, la documentation et permettre une utilisation éclairée des ensembles de données dans l’IA, l’équipe a publié le Data Provenance Explorer, un référentiel open source permettant de télécharger, de filtrer et d’explorer la provenance ainsi que les caractéristiques des données.
Références de l’article :
“The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI”
Auteurs et affiliations :
Shayne Longpre 1,2 †, Robert Mahari 1,3, Anthony Chen4, Naana Obeng-Marnu1,2, Damien Sileo 5, William Brannon1,2, Niklas Muennighoff6, Nathan Khazam7, Jad Kabbara 1,2, Kartik Perisetla 8, Xinyi (Alexis) Wu9, Enrico Shippole, Kurt Bollacker 7, Tongshuang Wu10, Luis Villa 11, Sandy Pentland1, Deb Roy 1,2, Sara Hooker 12.
1, MIT, 2 Center for Constructive Communication, 3 Harvard Law School, 4 UC Irvine, 5 Inria, Univ. Lille Center, 6 Contextual AI, 7 ML Commons, 8 Apple, 9 Olin College, 10 Carnegie Mellon University, 11 Tidelift, 12 Cohere For AI.