1. Introduction : une parabole enchantée
Il était une fois, au pays de BigData, une sombre prophétie que chaque habitant redoutait. L’Histoire ne nous a pas transmis ce dont il s’agissait en particulier, mais on peut supposer qu’il devait être plus ou moins question d’un événement rare, censément néfaste, contre lequel il était légitime de vouloir se prémunir. Afin de se préparer au pire, en espérant pouvoir ainsi l’éviter, les savants et les fées de ce pays s’étaient penchés au-dessus d’un berceau bien particulier et avaient doté le rejeton de facultés supérieures en mathématiques, statistiques et informatique – car ce n’est pas parce que cet article débute comme un conte de fée qu’il faut nécessairement imaginer que le pays de BigData fût arriéré !
En grandissant, malgré certains hivers plus rigoureux que d’autres, le bébé devint un prodige de clairvoyance que l’on venait consulter des confins les plus reculés du pays. L’Intelligence Artificielle – c’était là le nom du prodige – organisa un jour une grande consultation, sous la forme d’un symposium multilatéral, où se rendirent hâtivement les éminences des principales corporations. On comptait là des représentants des castes les plus diverses : constructeurs automobiles, sociétés de Tech, banquiers, industrie secondaire lourde (il y en avait encore) et même quelques marketeux qui s’étaient regroupés afin de se sentir moins seuls. Enfin, c’était une cohue sans nom en la grande salle du palais de la Forêt Aléatoire que l’IA s’était acheté rapidement dès ses premiers succès dans le monde.
Un clerc faisait défiler chaque invité devant l’IA afin qu’il lui posât une question et recueillît, dans un silence sentencieux, sa réponse : « J’aimerais que mon véhicule se conduise tout seul car on m’a retiré tous les points de mon permis. Sera-ce un jour possible, IA ? » ; « On m’a dit que je pouvais améliorer mon chiffre d’affaires grâce à la publicité en ligne et ainsi faire baisser mon churn, mais je n’ai pas la traître idée de comment procéder ! Pouvez-vous m’aider, IA ? » ; « Mon suzerain m’a donné dix millions de photos à classer pour dans trois jours faute de quoi il me jettera dans ses fosses infestées d’alligators. On m’a dit que vous seule pouviez me sauver, IA ! ». Pour chacune des questions posées, l’IA répondait par l’affirmative avec un sourire bienveillant et les quémandeurs venaient ensuite lui baiser les pieds en répandant force deniers devant elle.
Tout à coup un murmure parcourut l’immense voûte de la salle d’audience, aussitôt ponctué d’un silence inquiétant. Un individu, tout de noir habillé, s’avança, fendant la foule des gens qui s’écartaient à son passage. Le nomenclateur parcourut la liste des invités mais ne le trouva pas dedans : il s’agissait donc d’un « non invité », c’est-à-dire d’un intrus. Il y avait une faille de sécurité au palais ! Bientôt, il fut devant l’IA, la toisa d’un air moqueur et fit résonner sa voix lugubre : « IA, comme chacun d’entre nous, tu connais la triste prophétie qui menace BigData. J’ai fait des recherches… La chose approche ! Elle vient et pourtant je ne peux la nommer… »
On entendit un grand « Ah ! » suivi d’un bruit de chute. C’était un marketeux qui s’était évanoui. Le sinistre envoyé reprit de plus bel : « Puisque tu es capable de résoudre tant de problèmes, je te mets au défi, devant cette assemblée, de créer un algorithme permettant de prévoir, de sentir, de prédire, l’arrivée de ce fléau. Il ne devrait pas s’agir d’une tâche impossible : dans la vie, certains événements avant- coureurs se présentent comme autant de signaux faibles qu’il te faudra apprendre à détecter. Auras-tu le courage de relever mon défi, IA ? »
Il s’ensuivit un rire machiavélique. L’IA, forte, se dressa depuis son trône, drapée dans une étole Hive&Kafka, et dévisagea l’envoyé qui sortit alors une fiole de sa houppelande Paco Rabane et la brisa contre le sol. Un épais cloud de fumée en monta et, lorsqu’il se fut entièrement dissipé, le misérable avait disparu ! Un mouvement de panique gagna la foule assemblée, mais fut promptement maîtrisé par l’hôte de ces lieux : « Mes amis, nous savions que ce jour arriverait où il nous faudrait affronter la fraude, les faillites, la terreur, et peut-être pire encore ! Oui, nous ne savons pas quand ils frappent, ni d’où viennent les coups, mais rassurez-vous : quelque part dans mes nombreuses formules empiriques et corrélationnelles, j’ai trouvé le moyen de détecter le Signal Faible qui accompagne les événements indésirables. »
Un grand soupir de soulagement se fit entendre ; un publicitaire bien connu poussa un « J’achète ! » tonitruant et un bouchon sauta même inopinément du buffet. L’IA rajouta seulement : « Au travail ! », et là tout le monde détala, chacun prétextant quelque obligation familiale impérieuse ou souhaitant éviter les bouchons aléatoires qui avaient tendance à naître spontanément dans les bois entourant le palais…
2. Le signal faible ou l’invitation au paradoxe
2.1 Dégrossissons la notion
S’il est une locution porteuse à la fois de promesses et de bien des mystères, c’est bien celle de « signaux faibles ». Le big data et l’IA viennent avec, dans leur besace, et vous disent : « Vous redoutez certains événements, par exemple des cas de fraude, des actes criminels ou terroristes, heureusement fort rares mais fort dommageables lorsqu’ils se présentent… ? Vous avez raison. Vous aimeriez les anticiper ? Cela se comprend. Vous avez des données. Beaucoup de données ? Voilà qui est intéressant… Nous, nous faisons des modèles avec et, dans la masse des données que vous nous confierez, nous nous faisons fort de détecter les signaux faibles qui trahissent la présence de ce que vous redoutez. »
La formule mathématique (si nous étions resté dans notre parabole introductive, nous aurions dit « magique ») qui représente le modèle permettrait de capter les infimes traces, au sein des données, qui entourent le cas rare que l’on aimerait prévoir.
Le signal faible, ce serait un peu cette aiguille dans une botte de foin – une image connue depuis la plus petite enfance qui semble renvoyer à une situation contre laquelle il faut être prévenu : il est très difficile, voire impossible, de retrouver un élément fin perdu dans un grand ensemble qui le contient et s’entremêle avec lui. Et en même temps, cette aiguille dure et argentée diffère bien de la paille souple et dorée au sein de laquelle elle est perdue. C’est une singularité, mais comment la retrouver ?
Prenons un cas d’application : supposons que nous souhaitions détecter les tweets de terroristes noyés dans la masse des tweets « normaux » échangés. On se dit que, dans la marée des textes publiés sur Twitter, la présence absconse d’un texte terroriste devrait dénoter. Autrement dit : le signal faible porte en lui-même les caractéristiques qui permettent de le reconnaître (dans notre exemple : propos haineux, apologie de la guerre, vocabulaire religieux, …). D’un autre côté, on peut se sentir devant cette problématique de détection aussi démuni que devant la botte de foin représentant l’expérience commune que chercher une chose rare est difficile et peu de fois couronné de succès. Premier paradoxe : tout en pouvant se démarquer fortement, les caractéristiques d’un événement rare ne sautent pas aux yeux.
Pour aller plus loin, il nous faut affiner notre vision, ce qui nous conduira à donner une définition du signal faible.
2.2 Distinguons les signaux faibles des cas rares
L’exemple qui précède fournit une intuition importante. Jusqu’à présent, il a été plus ou moins supposé, non sans une certaine ingénuité, que le signal faible est rare. Il y a une aiguille mais une multitude de fétus de paille autour. En vérité, il faut zoomer pour faire la différence entre le cas que l’on cherche à anticiper (la fraude, la faillite d’une entreprise, un message terroriste, une pandémie mondiale, …), heureusement rare, et les signes qui l’entourent systématiquement, mais qui sont diffus. Ce sont eux, les signaux faibles. Ils sont en fait potentiellement très nombreux à entourer un cas qui, lui, est rare.
Prenons l’exemple des fraudes sur transactions monétaires : il y a des millions de transactions normales mais seulement quelques-unes de frauduleuses. Les banques sont, bien entendu, intéressées à savoir les anticiper (car une seule fraude peut être porteuse d’une perte importante). Et, un peu comme sur l’exemple précédent, l’on s’attendrait à ce qu’il y ait des patterns, certes ténus, mais présents, qui permettraient de détecter en amont une transaction frauduleuse ou, mieux encore, un fraudeur. La fraude n’est pas le signal faible et il faut la distinguer de ce dernier : la fraude est rare, mais le signal faible ne l’est pas. Simplement, on ne le perçoit pas souvent puisqu’il est associé à un cas de survenance rare.
Et au passage, on voit qu’en réalité parler de signal faible au singulier est impropre : par défaut, c’est plutôt une nuée de signaux faibles qui entourent un phénomène.
2.3 Le double problème de la détection des signaux faibles
Pourquoi, dans notre conte introductif, le défi lancé à l’IA l’est-il par un être qui semble aussi mal venu ? (Il est vêtu de noir, il n’a pas été invité, les gens s’en écartent, ses paroles sèment le trouble…). Saurait- il quelque chose sur la nature de cette recherche de signaux faibles qu’il n’a pas voulu dire ? A moins que cela lui semble si évident qu’il n’ait pas jugé séant d’en informer l’auditoire ?
C’est qu’il pense sûrement que toute l’assistance a déjà lu ce livre sur l’IA qui défraya la chronique, quoique paru chez nous récemment : Au cœur de l’intelligence artificielle (A. Cypel, éd. De Boeck Supérieur) dans lequel on peut trouver la phrase suivante :
« Une remarque, enfin, que nous soumettons à la sagacité de notre lecteur, sur le statut paradoxal du big data : d’un côté, des algorithmes capables de traiter des masses torrentielles de données réparties au sein d’architectures distribuées pour chercher des corrélations ; mais de l’autre, une promesse de détection de phénomènes fins bafoués par une réalité sans appel : le problème n’est pas de traiter toute l’information, mais de faire ressortir la bonne. Or la bonne, comme la vraie, est une notion sémantique […] »
On pressentait déjà que la recherche de ces signaux évanescents qui entourent un événement intéressant n’allait pas être de tout repos, mais là semble se dessiner un terrible avertissement : une fois que vous les avez captés, comment justifiez-vous que vous tenez les bons ? Autrement dit : quel est le sens des signaux faibles que vous avez captés ?
3. « Au travail ! »
L’IA Forte existant peut-être dans notre conte, mais pas encore dans notre réalité, nous nous contenterons de l’IA actuelle et ce sera déjà bien. Nous avons deux grandes classes d’algorithmes pour répondre à la question de détection des signaux faibles : la démarche supervisée et la non supervisée.
3.1 Algorithmes, assistez-nous !
La création d’un modèle par approche supervisée semble a priori une bonne idée pour commencer. Supposons un événement rare dont nous aimerions connaître la survenance (ex. : une fraude au paiement) et que l’on nous ait fourni une base d’apprentissage. En prenant pour cible l’événement de fraude, nos algorithmes de machine learning nous fournissent un modèle. On n’est pas très inquiet sur la question du sens : c’était tout l’intérêt de procéder par apprentissage supervisé. Puisque la cible était la fraude, le modèle se prononce sur la présence de fraude à partir des signaux corrélés dans les variables. Le problème c’est qu’on ne peut guère avoir confiance dans ses performances. En effet, il y avait, par nature, peu de cas de fraude dans la base d’apprentissage. Le modèle généralise-t-il bien ? A-t-il vraiment saisi, avec le peu de données à disposition, toutes les caractéristiques des signaux faibles, présents dans la base d’apprentissage, qui permettent de reconnaître un nouveau cas de fraude quand il se présente ? La réponse est évidente : non.
Allons donc voir du côté des approches non supervisées. Elles mettent en œuvre des méthodes statistiques de séparation et c’est le job de ces approches que de créer des clusters, des regroupements d’individus qui partagent les mêmes caractéristiques. Dans l’un des îlots que cette cartographie vous présente se trouve probablement vos cas de fraude. Mais lequel est-ce ? Quel sens leur attribuer ?
En définitive, on se retrouve devant un chiasme : le supervisé a pour lui le sens mais la performance lui fait défaut, tandis que le non supervisé est performant mais garde le sens pour lui.
3.2 Prenons du recul
Aucune des grandes méthodes à disposition n’est donc satisfaisante. Il s’ensuivit un rire machiavélique… Est-ce vraiment étonnant ? Après tout, on le sentait depuis le début, cette histoire de « capter les signaux faibles » pour gagner au loto ressemblait furieusement à une fable marketing. Et comme par hasard, le sujet est introduit par la thématique du conte de fée… Pourtant nous avons perçu quelques grands principes qui permettent d’aller plus loin :
- Si l’on repense à notre aiguille, on se dit que pour certaines situations, il existe des caractéristiques connues a priori que l’on devrait rechercher et qui définiraient ces signaux faibles. Les regrouper en un feature mathématique permettrait de dégager un invariant robuste et de repérer l’événement qu’ils accompagnent. Dans cette vision, la difficulté serait de les retrouver dans un océan de données.
- Pour aggraver le problème, il n’y a pas un signal faible, mais des signaux faibles, censément en grand nombre autour des événements. Avec les bases de données géantes des enregistrements du tout numérique, le big data travaille sur des ordres de grandeurs très supérieurs aux anciens tableaux statistiques : on peut donc supposer qu’on enregistre une myriade de signaux de faibles. Mais quels sont les bons ? Il est encore plus difficile de le savoir que l’on en a maintenant des tonnes. Finalement, les signaux faibles ne sont pas comparables à l’aiguille perdue dans sa botte de foin : ils sont le foin ! Par exemple vous faites de la veille concurrentielle : vous avez crawlé le web, participé à des conférences, lu les journaux… L’information est nécessairement là, devant vous, mais elle vous échappe : comment savoir que ce signe-ci trahit la percée d’un concurrent alors que ce signe-là ne traduit que du bruit ?
- La détection des signaux faibles se ferait plutôt grâce à des approches non supervisées. Même si elles ne vous indiquent pas si vous détenez les bons, au moins les clusters trouvés sont-ils fiables : tel groupe de variables se singularise par rapport au reste. Il « suffit » (c’est là toute la difficulté) de les nommer justement ensuite ; en tous cas, c’est toujours mieux qu’une approche supervisée où vous êtes sûr que le modèle vous indique l’événement que vous recherchez… en se trompant à chaque fois !
- Un nouveau paradoxe se dessine, ou plutôt se révèle : s’ils se détectaient aussi aisément – comme par apprentissage supervisé ! –, c’est que ces signaux n’étaient pas si faibles que cela et qu’il était donc facile de prédire l’événement rare avec lequel ils sont liés dans une relation somme toute grossière, peut- être même bijective, ou de causalité évidente. Bref, le problème ne se poserait même pas.
- Les signaux faibles ne sont pas une équivalence, à peine une implication, seulement un indice. On le voyait déjà sur notre exemple Twitter plus haut : tous ceux qui parlent de religion ne sont pas des terroristes !… Seule une conjonction de nombreux signaux faibles pourrait ressembler à une piste sérieuse. Pensons aussi au médical : un point qui sort d’une courbe de gabarits-types, c’est un signal faible. Mais que signifie-t-il ? Sans compter qu’on ignore alors tout de ses caractéristiques intrinsèques. Il est une résultante, un indice que quelque chose est étrange… ou pas ! S’agit-il d’un signal parasite ? Quel sens lui donner ? Comment le confirmer ? Ainsi, se posent toujours les questions : comment sait- on que l’on détient les bons, qu’ils ne vont pas changer au cours du temps, qu’ils sont vraiment caractéristiques de l’événement recherché, qu’ils valent en toute généralité ?
Si l’on veut dépasser ce questionnement, il faut abandonner quelque chose en route : la certitude.
4. Remplacer les signaux faibles par des alertes pertinentes
Le signal faible serait ce signe secret et rare qui trahit l’événement à venir, qui en est l’annonciateur. Il serait caché usuellement, mais captable. On pense à ce léger clignement de l’œil incontrôlé du (mauvais) joueur de poker s’apprêtant à bluffer…
4.1 Ce que sont les signaux faibles
En fait, le vocable de signaux faibles est intelligemment marketé. En effet, celui qui sait véritablement les isoler, c’est-à-dire ne pas passer à côté des choses, peut se prévaloir d’être intelligent (au sens usuel du terme, on ne parle pas d’IA là !). Le problème, c’est que, signes avant-coureurs ou précoces, les signaux faibles n’ont pas beaucoup d’intensité et ne portent pas une étiquette les désignant en tant que tels. Puis on a compris qu’on n’allait pas en trouver un seul, mais des millions. Ce ne sont pas de simples bijections, ils sont très difficiles à interpréter. Et pourtant nous avons tant de données…
C’est peut-être de là que vient le salut : si l’on abandonnait la recherche d’une caractérisation biunivoque pour s’adonner aux joies du croisement des données consistant à trouver des relations cachées – ce serait cela, par définition, « détecter des signaux faibles » – pour produire des alertes. Non plus une certitude qui engloberait un sens en vérité défaillant, mais une probabilité suffisamment élevée permettant d’envoyer une alerte à faire analyser.
Le marketing sur les signaux faibles est, osons nous l’avouer, mensonger : il tend à présenter la complexité de la vie comme se réduisant à la tranquille certitude que procurerait un modèle détecteur de signaux faibles qui ne se tromperait jamais (ex. : ce prospect est-il un futur client ? Mon détecteur de signaux faibles vous répond « oui » ou « non »).
4.2 Comment exploiter les signaux faibles
Une chose importante à comprendre nous paraît être que la révolution des signaux faibles soit à chercher dans les données non structurées (les images, les textes) plutôt que dans les colonnes de chiffres (données structurées) qui formaient les anciennes bases statistiques. En effet, le tableau de chiffres est trop pauvre : il perd trop d’information. Il faut l’enrichir en données qui possèdent du sens afin de fiabiliser la probabilité que notre alerte soit pertinente.
Pour illustrer cette thèse, prenons l’exemple d’un boursicoteur qui regarde les cours de bourse (des tableaux de chiffres, donc) des laboratoires pharmaceutiques. Ah, qu’il aimerait que ces séquences temporelles lui révèlent quelles actions acheter ! D’ailleurs, dehors, il y a une course au vaccin contre la Covid-19. C’est simple : celui qui arrive premier verra son cours de bourse multiplié par 2. « Quelle aubaine pour gagner de l’argent facile ! », se dit notre boursicoteur. Mais qui sera le futur vainqueur de cette course n’est pas écrit dans le cours de l’action des différents laboratoires pharmaceutiques… En revanche, la connaissance du palmarès des chercheurs employés par les firmes, des bruits qui se chuchotent aux oreilles lors des premiers essais cliniques, des associations étonnantes avec d’autres laboratoires révélées par la Presse spécialisée, etc. : voici des informations diffuses, difficiles à capter, non structurées et qui permettraient sans doute de miser sur le bon cheval.
5. Conclusion : un dialogue entre A et F
« A : Avec toi, mon cher F, le signal faible n’est plus outlier mais se révèle être d’abord une philosophie !
— F : Cela ne devrait pas te surprendre, mon cher A, tu l’as toi-même écrit ! Le problème étant qu’on ne peut pas savoir si l’on tient le bon, il faut bien se résoudre à tirer parti de ce que l’on a sous la main : des données, des signaux au pluriel…
— A : Et passer du structuré/supervisé au non structuré/non supervisé.
— F : Oui, pour rajouter de l’information !
— A : Ok, mais même avec tes données enrichies en information se pose toujours la même question : comment sais-tu que les signaux que tu vas capter sont les bons ?
— F : Je ne le sais pas !, enfin disons plutôt qu’on ne peut pas se prononcer automatiquement. On ne peut que remonter des alertes, mais de meilleure qualité car bénéficiant, d’une part, de plus d’information pertinente (captée dans les données non structurées) et, d’autre part, des croisements de vrai big data : des millions de documents analysés et pas les quelques milliers de lignes d’un tableau Excel…
— A : Adieu donc la certitude, vive les probas ! Et tant qu’il y a besoin de définir le sens d’une information, il y a besoin d’une interprétation humaine. J’en connais plein qui vont encore être déçus…
— F : Tant pis pour eux.
— A : C’est pour cela que les GAFA sont toujours gênés aux entournures quand on leur demande de surveiller leurs contenus : c’est très difficile.
— F : Cela demanderait une armée de contrôleurs humains devant des millions d’alertes. Tout le jeu consiste à améliorer la pertinence des alertes pour en diminuer le nombre.
— A : Tiens, j’y pense, avec notre définition du signal faible, on pourrait chercher à détecter des cas communs et non pas rares, comme la prochaine fois qu’il pleut (on ne peut pas dire que ce soit un événement rare). Les signaux faibles sont en fait les variables subtiles qui ne s’interprètent pas toutes seules mais qui sont révélatrices d’un événement à venir, qu’il soit rare ou fréquent (même si l’on admettra que les événements intéressants sont souvent les plus rares).
— F : En effet, les signaux faibles sont partout ! Imagine que tu puisses vraiment capter des informations fines en leur donnant plus de poids. Tu pourrais prédire les prochaines tendances, les prochains départs, les problèmes à venir, etc.
— A : J’ai une idée. Et si on utilisait des algorithmes de NLP pour… »