DeepMind, filiale du groupe Alphabet spécialisée en Intelligence Artificielle, a annoncé en décembre dernier avoir conçu un nouveau modèle de langage basé sur Transformer : GOPHER, qui, avec plus de 280 milliards de paramètres, va lui permettre de tester les limites des grands modèles de traitement naturel.
La modélisation du langage permet de concevoir des systèmes de communication intelligents grâce à de grands référentiels de connaissances humaines écrites. Les chercheurs de DeepMind ont réalisé une analyse des performances du modèle de langage basé sur Transformer à travers une large gamme d’échelles de modèle – des modèles avec des dizaines de millions de paramètres jusqu’à un modèle de 280 milliards de paramètres appelé Gopher. Les transformeurs ont été créés pour faire de la traduction, de la classification ou de la génération de textes mais ont pu très vite être exploités dans de nombreuses tâches de NLP (Natural Language Processing). Ils sont capables d’adapter les mots en fonction du contexte.
GOPHER, modèle de plus de 280 milliards de paramètres
Pour démontrer qu’un modèle de langage plus puissant est plus efficace du fait de sa taille, DeepMind a développé ce nouveau modèle baptisé GOPHER qui contient 280 milliards de paramètres, dépassant les 175 milliards du GPT-3 d’Open AI mais bien en deçà des 530 milliards du MT-NLG de Microsoft et Nvidia.
Gopher s’appuie sur un transformeur, un modèle de deep learning utilisé par les générateurs de texte comme le GPT-3 d’OpenAI. Les transformeurs sont formés par d’énormes réseaux pré-entraînés sur des quantités massives de texte non structuré, capturant des propriétés linguistiques utiles. Les modèles sont ensuite affinés et utilisés dans de multiples cas : la traduction automatique, la synthèse de texte, saisie de texte… Le mécanisme d’attention leur permet, contrairement aux réseaux de neurones récurrents utilisés auparavant, de traiter les mots indépendamment de l’ordre où ils ont été écrits, de traiter les informations de manière différente et de les adapter en fonction du contexte.
Les chercheurs de DeepMind ont donc évalué des modèles de taille différente sur 152 tâches diverses, atteignant des performances de pointe dans la majorité des cas. Les gains d’échelle sont les plus importants dans des domaines tels que la compréhension de la lecture, la vérification des faits et l’identification d’un langage toxique, mais le raisonnement logique et mathématique ne sont pas probants.
Problèmes environnementaux et éthiques
Les très grands modèles de langage sont d’une part très énergivores : ils consomment des quantités massives de calcul et génèrent des quantités croissantes de dioxyde de carbone. D’autre part, la reproduction de biais dans la génération des chaînes de texte produites par les modèles pose un réel problème d’éthique. Pour DeepMind, “d’autres défis de la génération de texte par l’IA requièrent, selon eux, une solution qui va au-delà des données et des calculs. Cela inclut la production de résultats stéréotypés ou la génération de faux contenus”. Dans ces cas de figure, DeepMind suggère l’adoption de routines de formations supplémentaires, notamment le retour d’informations des utilisateurs humains.