Trois chercheurs du MIT ont découvert que des bases de données comportaient certaines erreurs d'appréciation

Dans le cadre de recherche sur les intelligences artificielles, une équipe de trois chercheurs du Massachussetts Institute of Technology (MIT) a publié un article fin mars, montrant que les bases de données utilisées par les algorithmes afin d'analyser une requête n'étaient pas vraiment fiables.

C'est en réalisant des tests sur des algorithmes de reconnaissances d'objets et d'animaux que Curtis Northcutt, Jonas Mueller et Anish Athalye, tous trois chercheurs au MIT, ont remarqué que ces bases de données comportaient beaucoup d'erreurs. Ces algorithmes, en fonctionnant correctement, doivent à partir de n'importe quelle image envoyée, reconnaitre l'objet ou l'animal et en donner sa nature à l'utilisateur. Mais durant les tests, certains résultats semblaient être hors sujet : c'est ainsi qu'une image de crabe fut décrite comme un homard, qu'une grenouille fut reconnue par l'algorithme comme un chat et qu'un ouvre-boîte après analyse, est devenu un casse-noix.

Les chercheurs ont donc décidé d'examiner une dizaine de bases de données en concevant justement un algorithme basé sur leurs propres bases de données et de la comparer avec les bases de données testées. Le résultat fut sans appel, les taux d'erreur peuvent osciller entre 0,54% d'erreur pour la base de données CIFAR-10 jusqu'à plus de 10% pour Quick!Draw! avec un taux d'erreur moyen de 3,4%. Ce qui est sûr, c'est que le zéro absolu dans l'erreur n'existe pas. Or, faire perdurer le mauvais étiquetage de données visuelles, audio, vidéo ou textuelles pourrait potentiellement faire ralentir les recherches dans le domaine de la reconnaissance automatique.

Comprendre l'IA

Applications de l'IA

Trois chercheurs du MIT ont découvert que des bases de données comportaient certaines erreurs d'appréciation