Charles Darwin, dans sa théorie de l’évolution, avançait que toutes les espèces vivantes ont évolué au cours du temps à partir d’un seul ou quelques ancêtres communs. Ainsi, les animaux ont une intelligence incarnée : l’adaptation de leur morphologie à leur environnement leur a permis d’accomplir des tâches complexes. Des chercheurs de l’Université de Standford se sont posés la question de savoir si une IA pourrait évoluer de la même façon qu’un être vivant et leur recherche leur a permis d’en créer une qui se transforme en fonction de la complexité de leur environnement. Les résultats de leur étude intitulée : « Intelligence incarnée via l’apprentissage et l’évolution » ont été publiés dans la revue Nature Communications.
L’objectif de cette étude est « d’élucider certains principes régissant les relations entre la complexité environnementale, la morphologie évoluée et l’apprenabilité du contrôle intelligent ». Fei-Fei Li, membre de l’équipe de recherche et co-directeur du Standford Institute for Human-Centered AI (HAI) déclare :
« Nous sommes souvent si concentrés sur le fait que l’intelligence est une fonction du cerveau humain et des neurones en particulier. Considérer l’intelligence comme quelque chose qui est physiquement incarné est un paradigme différent. »
Un terrain de jeu in silico
Pour cette étude, les chercheurs ont créé un terrain de jeu simulé par ordinateur où des agents ressemblant à des arthropodes appelés « unimaux » (pour animaux universels) vont apprendre et être soumis à des mutations et à la sélection naturelle. ont ensuite étudié comment le fait d’avoir des corps virtuels affectait l’évolution de l’intelligence des unimaux.
Pour réussir à mettre à l’échelle simultanément la création d’agents incarnés sur 3 axes de complexité : environnemental, morphologique et contrôle, les chercheurs ont conçu un algorithme d’apprentissage par renforcement évolutif profond (DERL).
Pour comprendre l’évolution de l’intelligence incarnée, l’équipe a varié non seulement les formes corporelles des unimaux, mais aussi leurs environnements d’entraînement et les tâches qu’ils effectuaient. Surya Ganguli, co-auteur de l’étude, professeur agrégé de physique appliquée à la School of Humanities and Sciences et directeur associé à HAI, a déclaré :
« Et toutes ces variables étaient beaucoup plus complexes que dans les travaux antérieurs, cela nous a permis d’examiner beaucoup plus de questions scientifiques qu’auparavant. »
Pour conserver la diversité des unimaux et réduire le coût de calcul de ces simulations, les chercheurs ont opté pour un schéma évolutif darwinien de style tournoi qui leur a permis de s’assurer que chaque morphologie unimale avait la chance de réussir et d’être transmise à la génération suivante.
Chaque simulation a commencé avec 576 unimales uniques et avec les mêmes architectures neuronales et algorithmes d’apprentissage. Lors de l’apprentissage, chacun d’entre eux s’est déplacé soit sur un terrain plat, soit sur un terrain plus ardu avec des marches d’escalier, des collines lisses ou des crêtes en bloc. Il est ensuite entré dans un tournoi contre trois autres unimaux entraînés dans les mêmes conditions que lui.
Le vainqueur a été choisi pour produire une seule progéniture qui a subi une seule mutation impliquant des modifications des membres ou des articulations avant de faire face aux mêmes tâches que ses parents. Tous les unimaux (y compris les gagnants) ont participé à plusieurs tournois, ne vieillissant qu’au fur et à mesure que de nouveaux descendants émergeaient. Les chercheurs ont arrêté la simulation lorsqu’ils ont obtenu 4 000 morphologies différentes. Les unimaux survivants avaient alors traversé, en moyenne, 10 générations d’évolution, et les morphologies réussies étaient étonnamment diverses, y compris les bipèdes, les tripèdes et les quadrupèdes avec et sans bras.
Résultats de l’étude
Les chercheurs ont sélectionné les 10 unimaux les plus performants de chaque environnement et les ont entraînés sur huit nouvelles tâches : naviguer autour d’obstacles, manipuler une balle, pousser. une boîte sur une pente… Ils ont ainsi constaté que les unimaux qui s’étaient déplacés en terrain variable obtenaient de meilleurs résultats que ceux qui évoluaient en terrain plat mais qu’ils étaient surpassés par ceux qui avaient manipulé une boîte en terrain variable. D’autre part, à ce stade, ils apprenaient deux fois plus vite que leur premier ancêtre.
Ces résultats pourraient intéresser l’industrie robotique pour la création de robots multi-tâches.
Sources de l’article : https://doi.org/10.1038/s41467-021-25874-z.