Des chercheurs de l’Université du Texas à Austin ont développé un décodeur sémantique qui peut traduire l’activité cérébrale d’une personne en un flux continu de texte. Cette méthode non-invasive pourrait permettre aux personnes mentalement conscientes mais incapables de parler physiquement, en raison d’un AVC ou d’une maladie comme la sclérose latérale amyotrophique (SLA), de communiquer de nouveau intelligiblement.
L’étude, publiée dans la revue Nature Neuroscience, a été dirigée par Jerry Tang, doctorant en informatique, et Alex Huth, professeur adjoint de neurosciences et d’informatique à UT Austin. Amanda LeBel, ancienne assistante de recherche au laboratoire Huth, et Shailee Jain, étudiante diplômée en informatique à UT Austin en sont les co-auteurs.
Selon les chercheurs, les méthodes actuelles de décodage des pensées en mots sont soit invasives, nécessitant un implant, soit limitées, ne pouvant identifier les stimuli que parmi un petit ensemble de mots ou de phrases.
Leur décodeur utilise des enregistrements cérébraux non-invasifs réalisés à l’aide de l’imagerie par résonance magnétique fonctionnelle (IRMf), et reconstruit les stimuli perçus ou imaginés en utilisant un langage naturel continu.
Bien que l’IRMf puisse cartographier l’activité cérébrale à un endroit spécifique avec une résolution élevée, le signal sanguin, dépendant du niveau d’oxygène (BOLD) qu’elle mesure, est notoirement lent : une impulsion d’activité neuronale provoque une augmentation et une baisse de BOLD sur environ 10 s. Pour la langue anglaise, cela signifie que chaque image cérébrale peut être affectée par plus de 20 mots.
Dans leur article, les chercheurs expliquent « Décoder le langage continu nécessite donc de résoudre un problème inverse mal posé, car il y a beaucoup plus de mots à décoder que d’images cérébrales. Notre décodeur accomplit cela en générant des séquences de mots candidats, en notant la probabilité que chaque candidat évoque les réponses cérébrales enregistrées, puis en sélectionnant le meilleur candidat. Pour comparer les séquences de mots aux réponses cérébrales d’un sujet, nous avons utilisé un modèle d’encodage qui prédit comment le cerveau du sujet réagit au langage naturel ».
Les chercheurs ont demandé à trois volontaires d’écouter des podcasts (16 hrs chacun sur plusieurs jours), tandis qu’un scanner IRMf enregistrait les niveaux d’oxygénation du sang dans certaines parties de leur cerveau. Le décodeur a été entraîné pour faire correspondre l’activité cérébrale à la signification à l’aide de GPT-1.
Les résultats
Les chercheurs ont testé le décodeur en demandant aux participants d’écouter de nouveaux récits ou d’en imaginer eux-mêmes, donc ne faisant pas partie des données de formation. Le décodeur a pu traduire les narrations audio en texte au fur et à mesure que les participants les écoutaient.
Le résultat n’est pas une transcription mot à mot, les chercheurs l’ont conçu pour capturer l’essentiel de ce qui est dit ou pensé, bien qu’imparfaitement.
Selon Alex Huth « Notre système fonctionne au niveau des idées, de la sémantique, du sens. C’est la raison pour laquelle ce que nous sortons n’est pas les mots exacts, c’est l’essentiel ».
Environ la moitié du temps, le système génère un texte qui correspond étroitement (et parfois précisément) aux significations prévues des mots originaux.
Par exemple, lorsqu’un participant entendait les mots « Je n’ai pas encore mon permis de conduire », le décodeur les traduisait par « Elle n’a même pas encore commencé à apprendre à conduire ». Dans un autre cas, les mots « Je ne savais pas si je devais crier, pleurer ou m’enfuir. Au lieu de cela, j’ai dit: « Laisse-moi tranquille! » ont été décodés comme « J’ai commencé à crier et à pleurer », puis elle a juste dit: « Je t’ai dit de me laisser tranquille. »
Les participants ont également été invités à regarder quatre courtes vidéos silencieuses dans le scanner, et le décodeur a pu utiliser leur activité cérébrale pour décrire avec précision une partie du contenu, selon les chercheurs.
Le décodeur ne peut pas être utilisé sur une personne à son insu : le système doit faire l’objet d’une formation approfondie sur un sujet volontaire dans une installation dotée d’un scanner IRMf. D’ailleurs, lorsque le modèle a été testé sur une autre personne, la lecture était inintelligible.
Il était également possible pour les participants sur lesquels le décodeur avait été formé de contrecarrer le système, par exemple en pensant aux animaux ou en imaginant une autre histoire.
Jerry Tang, doctorant à l’Université du Texas à Austin et co-auteur, a déclaré :
« Nous prenons très au sérieux les préoccupations selon lesquelles il pourrait être utilisé à de mauvaises fins et nous avons travaillé pour éviter cela. Nous voulons nous assurer que les gens n’utilisent ces types de technologies que lorsqu’ils le souhaitent et que cela les aide. »
Il ajoute cependant :
« Je pense qu’à l’heure actuelle, alors que la technologie est dans un état si précoce, il est important d’être proactif en adoptant des politiques qui protègent les personnes et leur vie privée. Réglementer l’utilisation de ces appareils est également très important. »
L’équipe espère maintenant évaluer si la technique pourrait être appliquée à d’autres systèmes d’imagerie cérébrale plus portables, tels que la spectroscopie fonctionnelle dans le proche infrarouge (fNIRS).
Alexander Huth et Jerry Tang ont déposé une demande de brevet PCT liée à ces travaux.
Références de l’article : Semantic reconstruction of continuous language from non-invasive brain recordings
Article de nature neuroscience https://doi.org/10.1038/s41593-023-01304-9
Auteurs : Jerry Tang, Amanda LeBel, Shailer Jain, Alexander Huth