AgentLab, un framework open source pour le développement et l’évaluation des agents Web

Lancé par ServiceNow, AgentLab est un framework open source visant à faciliter le développement et l’évaluation d’agents Web. Son objectif principal est de soutenir les expériences d’automatisation des tâches sur les plateformes Web, en permettant aux chercheurs et développeurs de simuler des interactions complexes à travers divers benchmarks de BrowserGym.

AgentLab a été développé pour gérer des défis dynamiques et variés liés au Web. Il permet de tester et évaluer un agent Web dans des environnements simulés complexes afin d’affiner ses capacités et garantir sa fiabilité dans des applications réelles.

Le framework exploite l’outil de parallélisation Ray, spécifiquement conçu pour les applications de machine learning et les programmes écrits en Python, pour mener des expériences à grande échelle, ce qui permet d’évaluer les performances des agents dans plusieurs scénarios et configurations.

Le framework fournit des blocs de construction pour BrowserGym, un environnement Gym conçu pour l’automatisation des tâches web. Il permet de concevoir, tester et évaluer des agents web sur divers benchmarks établis tels que :

  • WebArena : teste les agents sur des interactions web complexes, comme la navigation et l’extraction de données ;
  • WorkArena : simule des tâches spécifiques liées à des flux de travail professionnels, tels que commander des produits ou gérer des tableaux de bord ;
  • AssistantBench : évalue les capacités conversationnelles des agents intégrés à des modèles linguistiques.

AgentLab propose une API unifiée pour intégrer des modèles avancés, tels que les LLMs d’OpenAI, Azure, OpenRouteur et des modèles auto-hébergés. Cette flexibilité permet aux développeurs de tester des technologies de pointe dans des simulations réalistes. Il inclut des mécanismes intégrés pour suivre les configurations, les versions logicielles et les benchmarks utilisés dans les expériences. Ces fonctionnalités garantissent que les résultats peuvent être reproduits de manière fiable.

Comment fonctionne AgentLab ?

L’utilisation d’AgentLab implique généralement les étapes suivantes :

  1. Configuration initiale : Installation des packages et benchmarks nécessaires via l’outil Python pip. Par exemple, les chercheurs peuvent utiliser browsergym-core pour les fonctionnalités de base ou browsergym-webarena pour des tâches spécifiques à WebArena.
  2. Définir l’environnement : Les utilisateurs spécifient l’environnement de la tâche, tel qu’une URL de départ ou un scénario de benchmark prédéfini.
  3. Implémentation de l’agent : Les développeurs conçoivent des agents en mettant en œuvre les API et actions requises. Par exemple, un agent pourrait être programmé pour naviguer dans un formulaire web ou récupérer des données spécifiques d’une page web.
  4. Boucle d’évaluation : Les agents interagissent avec l’environnement dans une boucle, recevant des observations et effectuant des actions jusqu’à ce que la tâche soit terminée ou interrompue.
  5. Analyse des résultats : Les résultats sont enregistrés et visualisés pour évaluer les performances des agents. Les fonctionnalités de reproductibilité permettent aux chercheurs de répéter les expériences avec les mêmes paramètres pour valider les conclusions.

AgentLab continue d’évoluer, ses développeurs travaillent à étendre ses benchmarks et ses fonctionnalités pour prendre en charge un éventail encore plus large de cas d’utilisation.

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.
Partager l'article
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.