Vision par ordinateur : Reconnaître les objets plus rapidement et plus précisément grâce aux CNN

Malgré des mouvements incessants du corps, de la tête ou des yeux, la perception visuelle que nous avons des objets nous entourant reste stable même si les informations physiques qui frappent nos rétines changent constamment. Des scientifiques de l’Institut RIKEN, au Japon, se sont penchés sur tous les mouvements oculaires inaperçus que nous faisons et ont démontré qu’ils nous permettent de reconnaître les objets de manière stable. Ces résultats peuvent être appliqués à la vision par ordinateur et être particulièrement utiles aux systèmes de conduite autonome. Ils ont publié leur étude intitulée « Motor-related signals support localization invariance for stable visual perception » dans la revue scientifique PLOS Computational Biology.

RIKEN, la plus grande institution de recherche globale au Japon, est mondialement reconnue pour ses travaux de recherche de haute qualité dans un large éventail de disciplines scientifiques. Pour celui des sciences du cerveau, Andrea Benucci est le directeur du Laboratoire des circuits neuronaux et du comportement et l’auteur de l’article.

Il explique :

« Notre laboratoire étudie la base neurale du traitement sensoriel avec un accent particulier sur la vision. Nous nous intéressons particulièrement à comprendre les règles de calcul utilisées par les populations de neurones du cortex visuel pour traiter l’information visuelle : comment l’activité coordonnée de groupes de neurones, “parlant” entre eux via des potentiels d’action, produit-elle un percept visuel ? Quelles sont les échelles spatiales et temporelles pertinEntes utilisées pour traiter l’information visuelle ? Pour répondre à ces questions, nous utilisons comme système modèle le cortex visuel primaire de souris entraînées à des tâches comportementales. Les outils expérimentaux que nous utilisons sont basés sur des méthodes de pointe en optogénétique, en imagerie optique et en enregistrement d’électrodes. »

La recherche

Notre capacité à percevoir un monde visuel stable en présence de mouvements continus du corps, de la tête et des yeux a longtemps intrigué les chercheurs dans le domaine des neurosciences. Les différentes recherches sur la stabilité perceptuelle ont mis en évidence une multiplicité de phénomènes computationnels et physiologiques qui opèrent sur plusieurs échelles spatio-temporelles et régions du cerveau. Les copies neurales des commandes de mouvement, envoyées dans tout le cerveau chaque fois que nous bougeons, pourraient permettre à ce dernier de rendre compte de nos propres mouvements et de maintenir notre perception stable.

Outre cette perception stable, les mouvements oculaires et leurs copies motrices pourraient également nous aider à reconnaître de manière stable les objets dans le monde, mais la façon dont cela se produit reste un mystère.

Le réseau neuronal convolutif

Andrea Benucci et son équipe ont conçu un CNN dont les architectures ont été inspirées par le traitement hiérarchique du signal du système visuel des mammifères, pour optimiser la classification des objets dans une scène visuelle lors de mouvements.

Pour commencer, le CNN a été entraîné pour classer 60 000 images en noir et blanc dans 10 catégories, ce qu’il a réussi. Mais lorsqu’il a été testé avec des images décalées qui imitent l’entrée visuelle naturellement altérée lors de mouvements oculaires, les performances ont chuté considérablement au niveau du hasard. Les chercheurs ont pu résoudre ce problème en l’entraînant avec des images décalées, en incluant la direction et la taille des mouvements oculaires ayant entraîné le décalage. Ainsi, l’ajout des mouvements oculaires et de leurs copies motrices au modèle de réseau a permis au système de mieux gérer le bruit visuel dans les images.

Andrea Benucci déclare :

« Cette avancée aidera à éviter les erreurs dangereuses dans la vision artificielle. Avec une vision artificielle plus efficace et plus robuste, il est moins probable que les altérations de pixels, également appelées “attaques contradictoires”, amènent, par exemple, les voitures autonomes à étiqueter un panneau d’arrêt comme un lampadaire, ou les drones militaires à mal classer un bâtiment hospitalier comme cible ennemie. »

Apporter ces résultats à la vision par ordinateur dans le monde réel serait possible selon Andrea Benucci qui explique :

« les avantages d’imiter les mouvements oculaires et leurs copies efférentes impliquent de ‘forcer’ un capteur de vision artificielle à avoir des types de mouvements contrôlés, tout en informant le réseau de vision en charge du traitement des images associées des mouvements auto-générés , rendrait la vision artificielle plus robuste et s’apparenterait à ce que l’on ressent dans la vision humaine. »

Cette recherche va se poursuivre en collaboration avec des collègues d’Andrea Bonucci travaillant au moyen de technologies neuromorphiques. L’idée est de mettre en œuvre de véritables circuits à base de silicium basés sur les principes mis en évidence dans cette étude et de tester s’ils améliorent les capacités de vision artificielle dans les applications du monde réel.

Sources de l’article :

Benucci A (2022) Les signaux liés au moteur prennent en charge l’invariance de localisation pour une perception visuelle stable.

PLoS Comput Biol . doi : 10.1371/journal.pcbi.1009928