Les grands modèles de langage (LLM) jouent un rôle de plus en plus important dans les domaines de la programmation et de la robotique. Cependant, lorsqu’il s’agit de problèmes de raisonnement complexes, ils peinent encore à égaler les performances humaines. Une des raisons principales est leur difficulté à apprendre de nouveaux concepts et à former des abstractions efficaces. Des chercheurs du laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) ont développé trois cadres qui soulignent l’importance des mots du quotidien pour améliorer les performances des LLM pour le codage, la planification de l’IA et la robotique.
Les trois cadres présentés par les chercheurs du MIT sont LILO (library induction from language observations), Ada (acquisition de domaine d’action) et LGA (abstraction guidée par langage). Chacun de ces systèmes utilise des méthodes neurosymboliques, qui combinent des réseaux neuronaux et des composants logiques pour construire des abstractions à partir du langage naturel. Ces abstractions facilitent la réalisation de tâches complexes en permettant aux modèles de langage de raisonner plus efficacement.
LILO : un cadre neurosymbolique pour le codage
LILO se concentre sur l’amélioration des capacités de codage des modèles de langage. Bien que les LLM puissent générer rapidement du code pour des tâches simples, ils ont du mal à créer des bibliothèques logicielles entières comme le font les ingénieurs humains. LILO associe un modèle de langage à un algorithme de refactorisation, Stitch, pour synthétiser, compresser et documenter du code en bibliothèques de programmes réutilisables. En utilisant le langage naturel pour nommer et documenter ces abstractions, LILO permet aux modèles de langage de mieux comprendre les invites et de produire un code plus lisible et interprétable.
Dans des tests, LILO a surpassé les LLM autonomes et les algorithmes de refactorisation antérieurs, montrant des performances améliorées dans des tâches comme l’identification et la suppression de voyelles dans une chaîne de code et le dessin de flocons de neige. Ces résultats prometteurs suggèrent que LILO pourrait être utilisé pour des applications variées, telles que la manipulation de documents et la génération de graphiques.
Ada : le langage naturel pour la planification des tâches de l’IA
Le cadre Ada utilise le langage naturel pour améliorer la planification des tâches dans des environnements virtuels, comme des simulateurs de cuisine et des jeux vidéo. En entraînant les modèles de langage sur des descriptions de tâches, Ada construit des bibliothèques de plans qui peuvent être utilisées pour guider les agents d’IA. Le système propose des abstractions d’actions basées sur ces descriptions, qui sont ensuite validées par des opérateurs humains.
En intégrant le modèle de langage GPT-4, Ada a montré une performance supérieure dans des simulateurs par rapport à des bases de décision existantes. Par exemple, dans des tâches de cuisine virtuelle et de construction dans Mini Minecraft, Ada a réalisé un plus grand nombre de tâches avec une précision accrue. Ces résultats indiquent que le langage naturel peut fournir un contexte précieux pour la prise de décision séquentielle dans des environnements complexes.
LGA : l’abstraction guidée par langage pour la robotique
LGA se concentre sur l’amélioration de la compréhension des robots de leur environnement en utilisant des descriptions en langage naturel. Ce cadre permet aux robots de générer des abstractions nécessaires pour effectuer des tâches dans des environnements non structurés. En utilisant un modèle de langage pré-entraîné, LGA traduit des descriptions de tâches en abstractions exploitables, qui sont ensuite mises en œuvre par des politiques d’imitation.
Des tests avec le robot quadrupède Spot de Boston Dynamics ont montré que LGA pouvait guider efficacement les robots pour accomplir des tâches telles que ramasser des fruits et déposer des boissons dans un bac de recyclage. Cette approche permet de réduire le besoin de notes détaillées et coûteuses pour pré-entraîner les robots, rendant les processus d’entraînement plus rapides et moins coûteuses.
En construisant des bibliothèques d’abstractions de haute qualité, les cadres LILO, Ada et LGA permettent aux modèles de langage de raisonner plus efficacement et de s’attaquer à des problèmes plus élaborés. Ces travaux ouvrent la voie à des applications pratiques dans des domaines variés, allant de la programmation avancée à la robotique domestique et industrielle.
Auteurs et crédits
Les auteurs principaux de chaque article sont des membres du MIT CSAIL :
Joshua Tenenbaum, professeur de sciences cérébrales et cognitives, pour LILO et Ada,
Julie Shah, chef du département d’aéronautique et d’astronautique, pour LGA,
Jacob Andreas, professeur agrégé de génie électrique et d’informatique, pour les trois.
Les autres auteurs incluent des doctorants du MIT et des collaborateurs de plusieurs institutions :
Maddy Bowers et Theo X. Olausson pour LILO,
Jiayuan Mao et Pratyusha Sharma pour Ada,
Belinda Z. Li pour LGA,
Muxin Liu du Harvey Mudd College pour LILO,
Zachary Siegel de l’Université de Princeton, Jaihai Feng de l’Université de Californie à Berkeley, et Noa Korneev de Microsoft pour Ada,
Ilia Sucholutsky, Theodore R. Sumers, et Thomas L. Griffiths de l’Université de Princeton pour LGA.
Sources de l’article : MIT News, Alex Shipps.