NVIDIA Research dévoile EUREKA, un algorithme innovant de conception de récompenses propulsé par les LLMs. L’article de recherche publié ce 20 octobre illustre la capacité d’EUREKA à former des robots à l’exécution de compétences complexes. Parmi ces compétences, on compte la manipulation agile d’un stylo, l’ouverture de portes et la capacité à lancer et attraper des balles avec une habileté comparable à celle des humains. Cette avancée a été réalisée grâce à GPT-4.
Les auteurs de l’article de recherche “Eureka : Human-level reward via coding large language models” avaient auparavant développé l’agent d’IA Voyager, un système autonome présenté récemment qui utilise lui aussi GPT-4 pour apprendre à jouer à Minecraft.
L’un deux, Linxi Jim Fam expliquait que “ les agents d’IA sont des modèles qui peuvent prendre des mesures de manière proactive, puis percevoir le monde, voir les conséquences de ses actions, puis s’améliorer” et déclarait :
“Voyager tire parti de la puissance de Chat GPT-4 pour écrire du code en Javascript à exécuter dans le jeu .GPT-4 examine ensuite la sortie, et s’il y a une erreur de JavaScript ou un retour de l’environnement, GPT-4 fait une auto-réflexion et essaie de déboguer le code”.
Eureka
L’équipe de NVIDIA Research a étendu ses travaux à la robotique et présente EUREKA, un agent d’IA qui exploite les capacités de génération sans apprentissage, d’écriture de code et d’amélioration en contexte de GPT-4 pour effectuer une optimisation évolutive des codes de récompense. Les récompenses résultantes peuvent ensuite être utilisées pour acquérir des compétences complexes par apprentissage par renforcement.
Eureka a ainsi enseigné à une main robotique comment faire tourner un stylo à grande vitesse, aussi bien qu’un être humain, comme on peut le voir dans la vidéo ci-dessus. Il a également appris à différents types de robots, quadrupèdes, bipèdes, quadricoptères, mains habiles à bras cobots, à accomplir toutes sortes de tâches (près de 30) comme ouvrir des tiroirs et des armoires, lancer et attraper des balles, manipuler des ciseaux…
Dans une série diversifiée de 29 environnements RL open source, comprenant 10 morphologies de robots distinctes, EUREKA a surpassé les experts humains sur 83 % des tâches, les performances des robots ont été améliorées en moyenne de 52%. La généralité d’EUREKA permet une nouvelle approche d’apprentissage par renforcement à partir des commentaires humains sans gradients (RLHF), intégrant facilement les entrées humaines pour améliorer la qualité et la sécurité des récompenses générées sans mise à jour du modèle.
En utilisant la simulation accélérée par GPU dans Isaac Gym (une application de simulation physique de référence pour la recherche en apprentissage par renforcement), Eureka peut rapidement évaluer la qualité de grands lots de candidats à la récompense pour un entraînement plus efficace.
Anima Anandkumar, Directrice principale de la recherche en IA chez NVIDIA et auteure de l’article sur Eureka, commente :
“L’apprentissage par renforcement a permis des avancées impressionnantes au cours de la dernière décennie, mais de nombreux défis subsistent, tels que la conception de récompenses, qui demeure un processus d’essai et d’erreur. Eureka constitue une première étape vers le développement de nouveaux algorithmes qui intègrent des méthodes génératives et d’apprentissage par renforcement pour résoudre des tâches difficiles”.
Conclusion
Pour les auteurs de l’article, “La polyvalence et les gains de performance substantiels d’EUREKA suggèrent que le principe simple de combiner des modèles de langage de grande taille avec des algorithmes évolutifs est une approche générale et évolutive de la conception de récompenses, une idée qui pourrait s’appliquer de manière générale à des problèmes de recherche difficiles et ouverts”.
Linxi Jim Fan conclut :
“Eureka est une combinaison unique de grands modèles de langage et de technologies de simulation accélérées par GPU NVIDIA. Nous pensons qu’Eureka permettra un contrôle habile des robots et offrira une nouvelle manière de produire des animations physiquement réalistes pour les artistes”.
NVIDIA Research a publié aujourd’hui la bibliothèque d’algorithmes dIA Eureka.
Références de l’article : “Eureka : Human-level reward via coding large language models”
Auteurs : Yecheng Jason Ma (1,2), William Liang (2), Guanzhi Wang (1,3), De-An Huang (1), Osbert Bastani (2), Dinesh Jayaraman (2), Yuke Zhu (1,4), Linxi Fan (1) et Anima Anandkumar (1,3).
1 NVIDIA, 2 UPenn, 3 Caltech, 4 UT Austin