Une équipe de l'Université de Columbia a développé un algorithme d'IA pour lutter contre les microphones indiscrets

Il arrive que nous recevions des publicités sur un produit ou un service alors que nous en avons discuté peu de temps avant avec des amis ou en famille tranquillement à la maison. On peut s’interroger sur cette étrange coïncidence : serions-nous espionnés par l’assistant vocal que nous possédons, par certaines applications de notre smartphone, notre ordinateur, notre montre connectée ? Si cet espionnage n’est pas prouvé, il est techniquement possible. Une équipe de trois experts en deep learning de l’Université Columbia a mis au point un algorithme qui génère des sons, quasiment inaudibles pour l’humain, qui viennent brouiller les fréquences et ainsi empêcher nos propres appareils de nous espionner. Ils ont présenté leur recherche intitulée « Real-Time Neural Voice Camouflage » lors de la dernière ICLR, (Conférence Internationale sur les Représentations de l’Apprentissage, dédiée au deep learning).

Le natural language processing (NLP), ou traitement automatique des langues (TALN), est une branche de l’intelligence artificielle qui permet aux machines d’analyser la voix humaine pour la transcrire en texte, la comprendre, de formuler une demande ou répondre à un interlocuteur, comme Siri ou Alexa. Les algorithmes d’IA sont principalement divisés en deux groupes : la reconnaissance et la génération. Dans le cas du NLP, la reconnaissance consiste à analyser et comprendre le son tandis que la génération effectue la synthèse. Les travaux de Mia Chiquier, Chengzhi Mao et Carl Vondrick, informaticiens à l’Université Columbia, portent sur ces deux domaines. Leur approche est innovante car ils y ont introduit les attaques prédictives.

La méthode Neural Voice Camouflage

Les modèles de reconnaissance vocale automatique intégrés dans presque tous les appareils intelligents ont le potentiel d’écouter les conversations. Au cours de la dernière décennie, des travaux ont démontré que les modèles de réseaux de neurones sont vulnérables aux petites perturbations additives, au bruit ambiant… Cependant, le streaming audio est un domaine particulièrement difficile à perturber car le calcul doit être effectué en temps réel et les logiciels développés jusque là pour contrecarrer l’espionnage n’étaient pas suffisamment efficaces.

Les altérations du signal sonore rendent presque impossible pour une machine de suivre le rythme du discours d’une personne. Les enjeux majeurs pour l’équipe ont été l’optimisation et la rapidité : leur algorithme pour être efficient devait pouvoir prédire un changement de ton ou de vitesse de la parole et s’y adapter.

Les attaques prédictives pour empêcher les écoutes intrusives

L’équipe a introduit des attaques prédictives capables de perturber n’importe quel mot que les modèles de reconnaissance automatique de la parole sont entraîner à transcrire.

Il s’agit en fait d’un signal diffusé à l’aide d’un ordinateur, dont les fréquences hertziennes varient en fonction des caractéristiques vocales de l’orateur, à une fréquence d’environ 16 kHz, qui ressemble au bruit d’un climatiseur silencieux en arrière-plan selon les chercheurs.

L’algorithme de deep learning, entraîné à partir d’un ensemble de données de parole étiquetées à grande échelle, prédit ce qui va suivre. Ensuite, il va générer un modèle de bruit adapté à la prédiction, qui va rendre le discours à venir incompréhensible pour un outil de reconnaissance automatique de la parole.

Mia Chiquier, professeure adjoint d’informatique, première autrice de cette étude, déclare :

« Notre algorithme parvient à empêcher un microphone malveillant de saisir correctement vos paroles dans 80 % des cas. Il fonctionne même lorsque nous ne savons rien du microphone malveillant, comme son emplacement ou même le logiciel qui l’utilise. »

L’algorithme n’en est qu’au stade de prototype, l’équipe qui poursuit ses travaux, aimerait le proposer sous forme d’une application à télécharger dans diverses langues.

Sources de l’article :
Real-Time Neural Voice Camouflage
Mia Chiquier, Chengzhi Mao, Carl Vondrick
Columbia University
ICLR 2022 (Oral)