L’Administration des archives des Etats-Unis (ou National Archives and Records Administration – NARA) qui détient tous les documents gouvernementaux du pays, gère des millions de fichiers numériques. Afin de faciliter la recherche dans ces précieuses données tout en limitant le marquage manuel des dossiers, l’intelligence artificielle va être utilisée. L’objectif premier sera d’automatiser les processus de gestions de documents pour obtenir ces résultats.
L’intelligence artificielle pour gérer des millions de documents numériques
Le catalogue des archives nationales américaines contient actuellement plus de 120 millions de documents numériques ainsi que des métadonnées d’archives et d’autres types de documents. Paradoxalement à cela, la fonction de recherche permettant de trouver un document spécifique n’est pas du tout sophistiquée tout comme le marquage des métadonnées qui doit se faire manuellement.
De ce constat se sont dégagés trois questionnements clés : Comment la NARA peut-elle faciliter sa recherche de documents ? Comment peut-elle rendre les enregistrements de métadonnées plus efficaces et rapides ? Comment la NARA pourrait garantir l’intégrité de ses données ?
A l’aide d’une requête d’information (RFI), la NARA a pu obtenir des informations concrètes sur de nombreux points : sur l’identification et la résolution des problèmes liées aux données, sur la création de solutions d’IA pour la création de fonctions de recherche et de balisages de métadonnées, sur les potentiels coûts de licence qu’engendrerait la création de ces solutions ou encore sur le stockage des documents numériques.
Le marquage des métadonnées et la fonction de recherche
L’administration des archives américaines a donc organisé une journée où elle a explicité ses objectifs afin d’intégrer l’IA et le machine learning dans deux de ses projets : la personnalisation de la fonction de recherche dans le catalogue et l’automatisation du marquage des métadonnées.
Cette journée consistait à décrire aussi toutes les difficultés qu’il pourrait exister quant à la mise en place de ces deux projets. Parmi les faits retenus : la présence de résultats provenant de la même source rendant difficile la recherche de documents pluri-sources, l’absence de résultats précis si le mot-clé utilisé n’est pas celui précisément utilisé dans le document ou encore l’enregistrement de mots-clés homonymes, l’exemple évoqué est celui du président Truman et du porte-avions Truman.
La NARA souhaite également automatiser le processus de marquage des métadonnées pour éviter de compter sur les employés et les possibles erreurs humaines du marquage manuel. Les technologies de machine learning sont donc envisagées pour mettre en place cette automatisation. La solution développée identifierait les métadonnées utiles au moment de l’acquisition de celles-ci et appliquerait des balises au fur et à mesure de l’enregistrement des métadonnées.