Geoffrey Hinton est l’un des chercheurs les plus réputés dans le domaine de l’intelligence artificielle. Ce spécialiste des réseaux de neurones est en effet devenu l’une des figures emblématiques du deep learning. Professeur à l’Université de Toronto, il a également rejoint Google Brain et vient de publier deux travaux de recherche qui marqueraient un tournant dans l’utilisation des réseaux de neurones.
Les réseaux de neurones, du perceptron au deep learning
Les réseaux de neurones sont l’un des champs centraux en intelligence artificielle. De nombreux chercheurs s’y sont intéressés assez tôt dans l’histoire de l’IA. Le perceptron crée en 1957 est souvent présenté comme le premier réseau de neurones. Suite aux critiques qu’il rencontre et à ses échecs, la recherche en la matière s’arrête durant quelques années avant de reprendre dans les années 80 sous l’impulsion de Geoffrey Hinton.
Ajouter entre la perception et la décision, une couche de neurones intermédiaire semble alors être l’une des clés pour une plus grande efficacité du réseau. Les résultats ne sont cependant pas suffisants pour permettre de réelles avancées. C’est finalement en 2006 que l’histoire de l’intelligence artificielle va connaître un développement inattendu. Geoffrey Hinton propose en effet le deep learning, une extension des réseaux de neurones implémentant de nombreuses couches de neurones entre les neurones d’entrée et les neurones de sortie.
Ses travaux se basent sur un apprentissage hiérarchique. Les différentes couches de neurones vont catégoriser les informations des plus simples aux plus complexes. Dans un texte par exemple, la machine va d’abord s’intéresser aux lettres avant de passer aux mots. De même, dans un système de vision artificielle, les premières couches vont se focaliser sur les pixels, les suivantes vont tenter de discerner des vecteurs et les suivantes vont reconnaître des formes, afin d’arriver à une vision de plus en plus conceptuelle et finir par reconnaître les objets. Cette découverte va permettre de relancer l’engouement général pour l’intelligence artificielle. L’intelligence artificielle que l’on voit apparaître depuis quelques années dans tous les domaines: véhicules autonomes, santé, finances, énergie, etc..repose essentiellement sur le Deep Learning.
Une nouvelle approche: les “capsule networks”
Cependant, la semaine dernière, Geoffrey Hinton a publié deux travaux de recherche invitant à repenser la manière dont les chercheurs travaillent sur l’intelligence artificielle:
“Je pense que la manière dont nous travaillons sur la vision par ordinateur est mauvaise. Cela fonctionne mieux que tout le reste pour l’instant mais cela ne signifie pas que ce soit bon”.
Cette nouvelle approche, baptisée “capsule networks” se présente comme un tournant dans le domaine des réseaux de neurones. Son objectif est de permettre aux machines de mieux comprendre la monde grâce aux images et/ou aux vidéos. D’après les deux publications des équipes de recherche, les capsules networks donnent d’excellents résultats, similaires aux meilleures techniques actuelles et avec un taux d’erreurs bien plus faible.
Geoff Hinton on current problems in image classification (motivation for capsules). @reworkdl pic.twitter.com/Q1JqZFGhbG
— lisha li (@lishali88) 10 octobre 2017
“Dynamic Routing Between Capsules” de Sara Sabour, Nicholas Frosst, Geoffrey E Hinton
Une capsule est un groupe de neurones dont le vecteur d’activité représente les paramètres d’instanciation d’un type spécifique d’entité tel qu’un objet ou une partie d’objet. Nous utilisons la longueur du vecteur d’activité pour représenter la probabilité que l’entité existe et son orientation pour représenter les paramètres d’instanciation.
Les capsules actives à un niveau font des prédictions, via des matrices de transformation, pour les paramètres d’instanciation des capsules des niveaux supérieurs. Lorsque plusieurs prédictions concordent, cela active une capsule de niveau supérieur. Un système de capsules multicouche entraîné de manière discriminante atteindrait des performances digne de l’état de l’art sur MNIST et serait considérablement meilleur qu’un réseau convolutif pour ce qui est de reconnaître des chiffres se chevauchant.
Pour obtenir de tels résultats, le système repose sur un mécanisme itératif de routage par accord : une capsule de niveau inférieur préfère envoyer ses données de sortie à des capsules de niveau supérieur dont les vecteurs d’activité ont un haut produit scalaire avec la prédiction provenant de la capsule de niveau inférieur.
“Matrix capsules with EM routing”
Une capsule est un groupe de neurones dont les données de sorties représentent différentes propriétés de la même entité. Nous décrivons une version de capsules dans laquelle chaque capsule a une unité logistique pour représenter la présence d’une entité et une matrice de position 4×4 qui pourrait apprendre à représenter la relation entre cette entité et le spectateur.
Une capsule dans une couche vote pour les matrices de position de nombreuses capsules différentes dans la couche supérieure, en multipliant sa propre matrice de position par des matrices de transformation invariantes au niveau de leur perspective qui pourraient apprendre à représenter des relations partitives (partie-tout). Chacun de ces votes est pondéré par un coefficient d’affectation.
Ces coefficients sont mis à jour itérativement en utilisant l’algorithme EM de sorte que les données de sortie de chaque capsule soient dirigées vers une capsule de la couche supérieure qui reçoit un groupe de votes similaires. L’ensemble du système est entraîné de manière discriminatoire en mettant en place 3 itérations d’EM entre chaque paire de couches adjacentes. Sur le jeu de données smallNORB, les capsules réduisent le nombre d’erreurs lors de tests de 45% par rapport à l’état de l’art. Les capsules sont plus résistantes aux attaques de type “White Box” que les réseaux convolutifs classiques. ( Une attaque White Box consiste à corrompre un modèle IA en y transférant un apprentissage volontairement faussé par de faux jeux d’entraînement)
Pour le moment, l’intelligence artificielle est en effet démunie face à une manipulation des données d’apprentissage destinée à l’induire en erreur. Toute initiative permettant de réduire la perméabilité des réseaux de neurones à de telles attaques permettra de favoriser une large diffusion de l’intelligence artificielle.
S’il est trop tôt pour tirer des conclusions sur les performances obtenues par l’approche des réseaux de capsule, il se pourrait que celles-ci présentent un nouveau tournant dans la course à l’intelligence artificielle.