Pluribus, un bot IA développé par des chercheurs de l’Université Carnegie Mellon et de Facebook, est parvenu à battre des joueurs professionnels de haut niveau dans le format de poker le plus populaire et le plus joué au monde: le poker Texas Hold’em sans limite à six joueurs.
C’est la première fois qu’un algorithme d’intelligence artificielle est capable de vaincre les meilleurs professionnels dans ce jeu de référence majeur réunissant plus de deux joueurs (ou deux équipes) comme l’a indiqué Noam Brown dans son article sur Facebook.
« Pluribus a accompli une performance surhumaine au poker multi-joueurs, ce qui constitue une étape majeure pour l’intelligence artificielle et pour la théorie des jeux », a indiqué Tuomas Sandholm, professeur de sciences informatiques à Carnegie Mellon, et Co-développeur de Pluribus avec le doctorant Noah Brown, actuellement dans l’unité d’intelligence artificielle de Facebook, dans un article récemment publié dans Science.
Pluribus a ainsi été testé face à des joueurs de poker professionnels, dont deux des vainqueurs des World Series of Poker Main Event. Le bot a été capable de gérer à la fois les informations cachées et le fait qu’il y avait plus de deux joueurs face à lui. Il a battu Darren Elias et Chris Ferguson qui ont chacun joué plus de 5.000 parties contre lui. Puis l’algorithme a été opposé à treize autres joueurs professionnels, cinq à la fois, sur 10.000 parties de poker. Pluribus a gagné à chaque fois.
Afin de développer Pluribus et d’obtenir cette victoire, les chercheurs se sont basés sur Libratus, l’IA qui avait battu des humains au Hold’em no-limit à deux joueurs en 2017, ainsi que sur d’autres algorithmes et codes développés dans le laboratoire de recherche Tuomas Sandholm de l’Université Carnegie Mellon.
Comme l’a indiqué Noah Brown, Pluribus intègre notamment un nouvel algorithme de recherche en ligne qui permet d’évaluer efficacement ses options en effectuant une simple recherche de quelques déplacements à venir plutôt qu’uniquement jusqu’à la fin de la partie. Pluribus utilise également de nouveaux, et plus rapides, algorithmes self-play pour les jeux contenant des informations cachées. Ces avancées combinées ont permis de développer Pluribus avec une très petite puissance de traitement et de mémoire. Cela représente l’équivalent de moins de 150 $ de ressources de cloud computing.
Pluribus s’était d’abord entraîné à jouer contre lui-même et a appris les règles et subtilités du jeu au fil de décisions aléatoires. Le bot a ainsi développé ses propres tactiques, avec des surprises et coups surprenants à la clé.
Cette innovation a, selon les chercheurs, des implications importantes au-delà du poker. En effet les interactions à somme nulle de deux joueurs (dans lesquelles un joueur gagne et un joueur perd) sont finalement très rares dans la vie réelle. Les scénarios dans notre monde réel portent par exemple sur les mesures à prendre concernant les contenus préjudiciables, la cybersécurité, gérer une enchère en ligne ou le trafic. Ils impliquent généralement de multiples acteurs et / ou des informations cachées.
Les interactions multi-joueurs posent donc de sérieux problèmes théoriques et pratiques aux techniques antérieures de l’IA. Avec Pluribus, les chercheurs souhaitent aussi démontrer qu’un algorithme d’intelligence artificielle soigneusement construit peut atteindre des performances surhumaines en dehors des jeux à somme nulle à deux joueurs.