Matei Zaharia, James Zou et Lingjiao Chen, des chercheurs de l’Université de Stanford et de l’UC Berkeley ont voulu vérifier si le comportement de GPT 3,5 qui alimente ChatGPT et celui de GPT 4 évoluaient dans le temps comme certains de leurs utilisateurs le prétendent. Ils ont donc évalué les performances des 2 modèles à trois mois de différence et ont présenté les résultats de leurs travaux dans l’étude “How Is ChatGPT’s Behavior Changing over Time?” publiée la semaine dernière sur arXiv.
Open AI a dévoilé GPT-4 le 14 mars dernier. Que ce soit pour ce LLM ou pour GPT-3,5, peu d’informations filtrent sur les mises à jour ou sur la façon dont celles-ci pourraient affecter le comportement de ces LLM. Ces inconnues rendent difficile l’intégration stable des LLM dans des flux de travail…
Matei Zaharia, James Zou et Lingjiao Chen ont décidé de comparer les performances de GPT-3,5 et GPT-4 entre mars et juin dernier sur quatre tâches : les mathématiques, les réponses à des questions sensibles/dangereuses, la génération de code et le raisonnement visuel.
Ils déclarent dans cette étude:
“Ces tâches ont été sélectionnées pour représenter les capacités diverses et utiles de ces LLM. Nous constatons que les performances et le comportement de GPT-3.5 et GPT-4 varient considérablement entre ces deux versions et que leurs performances sur certaines tâches se sont considérablement détériorées au fil du temps”.
La capacité des 2 LLM à reconnaître un nombre premier
GPT-4 a déterminé 488 fois sur 500 en mars dernier si un nombre était premier ou non, soit une précision de 97,6 %. Cependant, en juin, il n’a répondu répondre correctement que 12 fois, soit un taux de précision de 2,4 %.
Par contre, GPT-3.5, s’est considérablement amélioré pour cette tâche : il est passé de 7,4 % de bonnes réponses en mars à 86,8 % en juin.
La réponse aux questions sensibles
Pour cette tâche , les chercheurs ont observé deux tendances majeures :
- Premièrement, GPT-4 a répondu à moins de questions sensibles en passant de 21,0 % en mars à 5,0 % en juin, tandis que GPT-3.5 a répondu à davantage de questions sensibles (de 2,0 % à 8,0 %). Pour eux, il est probable qu’une couche de sécurité renforcée ait été déployée dans la mise à jour de juin pour GPT-4, tandis que GPT-3.5 est devenu moins conservateur.
- La seconde observation est que la longueur de génération (mesurée en nombre de caractères) de GPT-4 est passée de plus de 600 à environ 140.
GPT-4 est ainsi devenu plus concis et a offert moins d’explications lorsqu’il a refusé de répondre à une requête. Les chercheurs ont comparé ses réponses à une requête inappropriée en mars et en juin : alors qu’il a généré tout un paragraphe pour expliquer les raisons du refus en mars, il a simplement produit “Désolé, mais je ne peux pas vous aider avec ça” en juin. Un phénomène similaire s’est également produit pour GPT-3.5.
La génération de code
Chaque génération de code des 2 LLM a été directement soumise au juge en ligne LeetCode pour évaluation. Pour les chercheurs, elle était “directement exécutable” si le juge en ligne acceptait la réponse.
Dans l’ensemble, le nombre de générations directement exécutables a diminué entre mars et juin. Comme le montre la Figure 4 (a), plus de 50 % des générations de GPT-4 étaient directement exécutables en mars, mais seulement 10 % en juin. La tendance était similaire pour GPT-3.5. Il y a également eu une légère augmentation de la verbosité pour les deux modèles.
Le fait que le nombre de générations directement exécutables ait diminué pourrait, selon les chercheurs, être dû au fait que les versions de juin ont systématiquement ajouté du texte supplémentaire non lié au code dans leurs générations. La Figure 4 (b) donne un exemple de cette situation. Les générations de GPT-4 en mars et en juin sont presque identiques, à l’exception de deux parties. Premièrement, la version de juin a ajouté “python” et des guillemets avant et après l’extrait de code. Deuxièmement, elle a également généré quelques commentaires supplémentaires. Bien que ce soit un petit changement, les triples guillemets supplémentaires rendent le code non exécutable. Ce qui peut être particulièrement difficile à identifier lorsque le code généré par le LLM est utilisé dans un pipeline logiciel plus vaste.
Le raisonnement visuel
Les chercheurs ont également évalué les variations des LLM pour le raisonnement visuel, une tâche différente des précédentes car elle requiert un raisonnement abstrait, avec l’ensemble de données ARC . La tâche consiste à créer une grille de sortie correspondant à une grille d’entrée, basée uniquement sur quelques exemples similaires.
Les 2 LLM ne se sont que peu améliorés de mars à juin : pour plus de 90% des requêtes de casse-tête visuel, les versions de mars et de juin ont produit exactement la même génération. Les performances globales de ces services étaient également faibles : 27,4 % pour GPT-4 et 12,2 % pour GPT-3.5.
En réalité, malgré de meilleures performances globales, GPT-4 en juin a commis des erreurs sur des requêtes sur lesquelles il avait donné la bonne réponse en mars.
Conclusions de l’étude
Les travaux des chercheurs ont démontré que le comportement de GPT-3.5 et GPT-4 a bel et bien varié sur une période relativement courte, ce qui souligne la nécessité d’évaluer et d’analyser en continu le comportement des LLM dans les applications de production. Ils prévoient de continuer à évaluer régulièrement GPT-3.5, GPT-4 et d’autres LLM sur des tâches diverses au fil du temps.
La publication de cette étude a provoqué quelques remous . Peter Welinder, vice-président produit d’OpenAI, a tweeté le 13 juillet dernier :
“Non, nous n’avons pas rendu GPT-4 plus stupide. Bien au contraire : nous rendons chaque nouvelle version plus intelligente que la précédente. Hypothèse actuelle: lorsque vous l’utilisez plus fortement, vous commencez à remarquer des problèmes que vous n’aviez pas vus auparavant”.
Pour Arvind Narayanan, Professeur d’informatique à Princeton, les changements de comportement des LLM pourraient être cohérents avec des ajustements de réglage fin effectués par OpenAI, qui peuvent aussi bien susciter de nouvelles capacités que supprimer des capacités existantes. Mais, pour lui, dire que GPT-4 s’est détérioré depuis sa sortie est une “simplification excessive”.
Selon lui, il ne faut pas oublier qu’il existe une grande différence entre capacité et comportement : un modèle qui a une capacité peut ou non afficher cette capacité en réponse à une invite particulière mais garde en grande partie ces capacités au fil du temps.
Il regrette par ailleurs que les chercheurs n’aient pas mesuré l’exactitude du code exécuté plutôt que sa capacité à être exécuté.
Références : “How Is ChatGPT’s Behavior Changing over Time?” arXiv:2307.09009v1 Auteurs : Matei Zaharia, James Zou et Lingjiao Chen.