L’IARPA (Intelligence Advanced Research Projects Activity), organisation du Bureau du directeur du renseignement national chargée d’orienter la recherche vers les défis posés à la communauté du renseignement americain, a pour mission « de repousser les limites de la science pour développer des solutions qui permettent à l’IC (communauté du renseignement) de faire son travail mieux et plus efficacement pour la sécurité nationale. » HIATUS est l’un de ses programmes de recherche qui vise à authentifier l’auteur d’un texte et à assurer sa vie privée grâce à des algorithmes explicables par l’homme.
L’IARPA met en place des programmes de recherche et en transmet les résultats à ses clients IC qui déploient eux-mêmes les technologies innovantes qui en résultent. Les quatre principaux domaines de recherche dans lesquels elle investit sont l’intelligence artificielle, l’informatique quantique, l’apprentissage automatique et la biologie synthétique.
Le programme HIATUS, attribution interprétable par l’homme du texte à l’aide de la structure sous-jacente
Que ce soit à l’oral ou à l’écrit, les composantes linguistiques diffèrent d’une personne à l’autre, l’organisation des mots, des phrases, leur contenu peuvent révéler qui les a prononcées ou écrites.
Timothy McKinnon, le gestionnaire du programme Hiatus, a déclaré à Nextgov lors d’une interview :
« Pour un peu de contexte, c’est comme si vous aviez 100 personnes différentes, et que vous leur demandiez de décrire quelque chose de simple – comme comment ouvrir une porte – en deux phrases ou une phrase, vous obtiendriez probablement environ 100 différentes réponses. Chaque personne a en quelque sorte ses propres idiosyncrasies en tant qu’auteur qui sont potentiellement utilisées par les systèmes d’attribution de la paternité. »
Quotidiennement, une masse de textes est écrite par des auteurs anonymes, humains ou machines. Timothy McKinnon souligne que ces documents contiennent pour la plupart des composants linguistiques qui peuvent être utilisés pour identifier qui a rédigé l’information, ou pour protéger l’identité des auteurs si l’attribution pouvait les mettre en danger.
Il explique :
« Avec l’attribution, nous identifions des caractéristiques stylistiques. Donc, ce sont des choses comme le placement des mots et la syntaxe qui peuvent identifier qui a écrit un texte donné. Pensez-y comme à votre empreinte digitale écrite. Quelles sont les caractéristiques qui rendent votre écriture unique ? Ainsi, la technologie serait capable d’identifier cette empreinte digitale par rapport à un corpus d’autres documents et de comparer s’ils proviennent du même auteur. Du côté de la confidentialité, la technologie trouverait des moyens de modifier le texte afin qu’il ne ressemble plus à l’écriture d’une personne. »
Actuellement, il y a trois façons d’authentifier l’auteur d’un texte : des experts en linguistique peuvent le faire en analysant le texte, on peut aussi avoir recours au machine learning, notamment à la régression logistique ou utiliser un modèle bayésien, mais selon Timothy McKinnon, ces méthodes ne seraient pas valables pour tous les textes. La troisième alternative est d’utiliser un modèle de langage neuronal mais pour lui, ils ne sont pas suffisamment explicables.
Il déclare :
« Le problème avec ces modèles, c’est que même s’ils sont très, très rapides et qu’ils fonctionnent très bien, nous ne comprenons pas vraiment ce qui se passe à l’intérieur. Ils sont très complexes.
Et donc, ce que HIATUS cherche à faire, entre autres, c’est de découvrir certaines des raisons qui sous-tendent le comportement de ces modèles, afin que lorsque nous effectuons l’attribution ou la confidentialité de la paternité, nous sommes capables de vraiment comprendre pourquoi le système se comporte comme il le fait, et être en mesure de vérifier qu’il ne détecte pas de fausses informations et qu’il fait ce qu’il faut. »
Le programme HIATUS vise donc à développer de nouveaux systèmes utilisables par l’homme pour attribuer la paternité et protéger la vie privée des auteurs grâce à l’identification et à l’exploitation d’empreintes linguistiques explicable et exploitable dans différentes langues. Il devrait durer 42 mois, du 30 septembre 2022 au 29 mars 2026 environ, le BAA (appel à propositions a été publié le 25 février dernier.