Formules magiques pour certains ou formules mathématiques pleines d’avenir pour d’autres, les algorithmes sont loin d’être infaillibles. Pourtant aujourd’hui, la plupart d’entre eux mènent à des prises de décision influençant de nombreuses entreprises voire des vies humaines. Un exemple récent et préoccupant concerne un algorithme basé sur la couleur de peau qui a privé des patients noirs d’une transplantation rénale. La ségrégation dans l’interprétation a été constatée, toutefois cet exemple démontre bien une des nombreuses façons dont les algorithmes peuvent manquer d’égalité.
Cathy O’Neil a été l’une des premières à alerter sur ces dangers dans son livre Algorithmes, la bombe à retardement paru en 2016. Enfouis à l’intérieur des algorithmes, des biais intentionnels ou non peuvent mener à de mauvaises interprétations des données et in fine à de mauvaises décisions. D’autant que ces algorithmes sont bien plus importants qu’il n’y parait puisque l’intelligence artificielle repose sur ces algorithmes auto-apprenants évoluant au fil du temps, en fonction des données qui leur sont fournies.
Dès lors, comment se sortir de l’ornière des biais dans les modèles et construire une relation de confiance avec l’Intelligence Artificielle ?
Les données, la source du problème ?
L’automatisation de processus actuellement gérés par l’humain comme les processus de recrutement ou d’estimation de risque de défaut de crédit est rendue possible par l’IA. Supportées par des modèles prédictifs auto-apprenants, ce type d’applications repose principalement sur des procédures de calcul issues du champ des mathématiques, et plus particulièrement des statistiques. Dès lors, une impartialité des résultats est à la fois voulue et attendue. Or, depuis plusieurs années, des cas de discrimination ont été relayés par les médias, notamment en matière de racisme et d’égalité homme-femme au travail. À titre d’exemple, il peut arriver qu’un modèle assurant la justesse d’une augmentation de salaire, favorise les hommes.
Si les algorithmes mathématiques employés sont fondamentalement impartiaux, ils s’ajustent aux données qui leur sont présentées. En effet, le processus d’apprentissage de ces modèles requière de nombreux exemples passés. Faisant écho à l’adage : « l’Histoire est un éternel recommencement », les biais du passé peuvent donc être reproduits voire amplifiés, et avec une redoutable efficacité, par les algorithmes auto-apprenants. L’Intelligence Artificielle apparait alors comme un révélateur de biais existants.
Le fait que les biais soient déjà présents dans les données n’exempte pas les développeurs ou concepteurs de modèles de leurs responsabilités. En effet, ce sont eux qui choisissent quelles données utiliser pour construire leur modèle, parmi celles sont mises à leur disposition au sein de l’entreprise ou de la communauté. Ces choix peuvent amener à travailler sur des échantillons pas toujours représentatifs (et donc source de nouveaux biais) et parfois tronqués dans leurs dimensions (voir Paradoxe de Simpson).
Il serait facile et injuste d’expliquer ces choix inopportuns par du laxisme ou de mauvaises intentions cachées. En réalité, les raisons de ces choix sont diverses, et peuvent souvent s’expliquer par une connaissance imparfaite des phénomènes modélisés, par des contraintes de temps, de capacité de stockage de la donnée ou de capacités de traitements insuffisantes pour analyser les données dans leur ensemble.
Éliminer les biais, une utopie ?
La performance des prédictions est l’objectif que cherchent à atteindre les entreprises afin de générer un ROI, au moins à court terme. La correction des biais permet, elle, de le maintenir sur un plus long terme. Aujourd’hui, si éliminer totalement les biais apparait difficile, il est heureusement possible de les contenir, et de les maitriser en les mesurant constamment.
La détection des biais les « plus simples », tels que celui du genre, peut être automatisée en étudiant par exemple l’impact de la variable genre sur le résultat de la prédiction. En revanche, les biais plus complexes, mettant par exemple en jeu des corrélations fortuites dans les données connues ou inconnues, sont eux plus difficiles à débusquer, et nécessitent une attention particulière, pas nécessairement généralisable et automatisable aujourd’hui.
Dans ce cas, des analyses ad-hoc telles que la simulation peuvent être mises en place pour estimer les biais des modèles utilisés. Cela peut être un vrai défi, car ces traitements supplémentaires, et les coûts s’y afférant, ne sont pas forcément prévus à l’origine des projets d’Intelligence Artificielle.
Néanmoins, un modèle prédictif reste un modèle vivant et évolutif et un fossé temporel entre le jeu de données qui a servi à construire le modèle et celui utilisé pour la prise de décision peut se créer avec le temps. De la même manière, il est plus que probable que les biais évoluent et nécessitent une surveillance de tous les instants.
Enfin, il est important de noter que la constitution d’équipes pluridisciplinaires, mixant des profils techniques, métiers, sociétal et spécialistes de la donnée et de l’Intelligence Artificielle, permet d’anticiper les problèmes de biais dans la conception même de ces modèles.
Cette prise de conscience est d’autant plus importante qu’elle ne touche pas uniquement aux biais. La réflexion est bien plus profonde puisqu’elle touche la confiance, l’éthique et la performance de l’IA. Il y a encore beaucoup d’inconnus dans l’équation et les entreprises sont encore loin d’avoir trouvé la formule magique. Un véritable travail de recherche, d’analyse, et d’investissements permettront, à terme, d’établir une relation de confiance avec les algorithmes. Cet enjeu, l’Union européenne l’a bien compris, comme le démontrent les différentes initiatives autour de l’IA et de l’éthique, et gagne peu à peu le reste du monde, à l’image des prévisions du cabinet Forrester pour l’année 2021, selon lesquelles cette question d’éthique doit être saisie par les dirigeants, qui se trouvent sous la contrainte des régulateurs et des groupes d’intérêt des consommateurs.