Meta a récemment présenté CICERO, une IA qui atteint des performances de niveau humain dans la version en ligne de Diplomacy, un jeu de stratégie dans lequel il a communiqué et négocié en langage naturel avec des joueurs humains sans que ceux-ci ne sachent qu’ils avaient affaire à un bot. Cicero s’est classé dans les 10% des meilleurs joueurs ayant joué plus d’un match et a même remporté un tournoi de huit matchs impliquant 21 joueurs.
Des IA comme AlphaZero de DeepMind, basé sur l’apprentissage par renforcement, ont démontré des compétences égalant ou surpassant celles des humains pour les jeux d’échecs, de shogi ou de go. Cicero intègre un modèle de traitement de langage naturel avec des algorithmes de planification et d’apprentissage par renforcement et est le premier système d’IA à atteindre des performances de niveau humain dans le jeu de stratégie Diplomacy.
Dans ce jeu, sept grandes puissances en 1901 : France, Angleterre, Allemagne, Autriche-Hongrie, Russie, Turquie, Italie, cherchent chacune à dominer l’Europe. Sept joueurs, contrôlant chacun un pays, s’affrontent pour posséder au moins la moitié des centres d’approvisionnement du plateau de jeu. Pour réussir ce défi, les joueurs doivent coopérer, négocier, nouer des alliances. Chaque tour est précédé par des négociations deux à deux, les joueurs y forment des alliances, se liguent contre leurs adversaires. Au moment de jouer et déplacer leurs pièces, libre à eux de tenir ou non leurs engagements.
À chaque étape du jeu, Cicéron modélise les mouvements probables des autres joueurs en fonction de l’état actuel du plateau et des précédentes conversations.
Pour qu’une IA puisse jouer à ce jeu, il ne lui suffit pas d’utiliser le langage naturel, elle doit communiquer de manière persuasive. Selon un article paru dans Science, Ciceron a été formé sur un ensemble de données de 125 261 parties jouées en ligne sur webDiplomacy.net. Parmi celles-ci, 40 408 jeux contenaient des dialogues, avec un total de 12 901 662 messages échangés entre joueurs.
Cicero a été inscrit, sans toutefois révéler qu’il s’agissait d’un bot, dans 40 jeux se déroulant entre les 19 août et 13 octobre 2022 : il a doublé le score moyen des joueurs. Durant ces 72 heures de jeu impliquant l’envoi de 5 277 messages, les autres joueurs n’ont pas soupçonné qu’il n’était pas humain. Selon Meta AI, ils privilégiaient même les échanges avec CICERO plutôt qu’avec les autres joueurs humains.
S’il s’est montré performant, Cicero a encore des progrès à faire, il a envoyé des messages contenant des erreurs ou contredisant ses propres plans. Son dialogue se focalisait uniquement sur les actions des joueurs du tour actuel, il n’a pas modélisé comment son dialogue pourrait affecter sa relation avec les autres joueurs à plus long terme dans le jeu.
Meta AI déclare dans son blog :
« CICERO marque le début d’une nouvelle ère pour l’IA qui peut collaborer avec des personnes dans le jeu en utilisant le raisonnement stratégique et le traitement du langage naturel, et les apprentissages de la technologie comme celle-ci pourraient un jour conduire à des assistants intelligents qui peuvent collaborer avec les gens. »