Les limites de ChatGPT en programmation logicielle : plus de la moitié des réponses générées sont incorrectes

Des chercheurs de l’université américaine de Purdue ont analysé les réponses de ChatGPT à des questions de programmation logicielle de la plateforme Stack Overflow à travers une méthodologie de recherche mixte comprenant une analyse manuelle, une analyse linguistique et une étude utilisateur. Bien que l’analyse manuelle montre que plus de la moitié des réponses de ChatGPT sont incorrectes, l’étude révèle que les utilisateurs préfèrent 4 fois sur 10 les réponses générées par l’IA à celles des programmeurs.

Stack Overflow, plateforme de questions-réponses axée sur la programmation informatique est l’une des ressources les plus populaires et influentes pour les développeurs et les programmeurs du monde entier. Peu après l’arrivée de ChatGPT, elle a interdit l’utilisation de texte généré par ChatGPT sur sa plateforme arguant que la publication de réponses créées par ChatGPT est “considérablement préjudiciable au site et aux utilisateurs qui demandent ou recherchent des réponses correctes”.

Elle a démenti les affirmations comme quoi le trafic sur sa plateforme aurait diminué de 35% à 50% à la suite de cette décision, il n’aurait connu qu’une baisse d’environ 5%.

Pour Stack Overflow, l’arrivée de l’IA générative entraînera des fluctuations dans le trafic et l’engagement traditionnels : les débutants en codage pourraient se tourner vers des solutions d’IA, notamment la sienne, OverflowAI, pour ensuite venir agrandir sa communauté.

Son adoption est toutefois freinée par le manque de confiance dans l’exactitude du contenu généré. Une enquête récente auprès de 90 000 développeurs de Stack Overflow a montré que si 77% sont favorables aux outils d’IA, seulement 42% ont confiance dans leur précision, ce que confirme cette étude.

L’analyse des réponses de ChatGPT

L’étude de Samia Kabir, David Udo-Imeh, Bonan Kou et Tianyi Zhang intitulée “Who Answers It Better ? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions”, souligne la nécessité pour les programmeurs de redoubler de prudence lorsqu’ils utilisent les réponses de ChatGPT dans les tâches de génie logiciel.

Ils ont analysé manuellement les réponses de ChatGPT et les ont comparées à 517 réponses rédigées par des programmeurs humains qui avaient été validées sur la plateforme Stack Overflow. Ils ont évalué la justesse des réponses, mais également leur cohérence, leur exhaustivité et leur concision. Les résultats montrent que 52 % des réponses générées par ChatGPT sont incorrectes et que 77% des réponses sont plus verbeuses que les réponses humaines. De plus, près de 78 % des réponses souffrent de différents degrés d’incohérence par rapport aux réponses humaines.

Pourquoi les utilisateurs accordent-ils autant de confiance aux réponses de ChatGPT?

Une analyse linguistique approfondie et une analyse de sentiment sur les réponses de ChatGPT et les réponses humaines à partir de 2000 questions Stack Overflow échantillonnées au hasard, montrent que ChatGPT utilise un langage plus formel et analytique, et exprime moins de sentiments négatifs.

L’équipe a également réalisé une étude utilisateur avec 12 programmeurs de niveau différent. Les participants ont préféré les réponses générées par ChatGPT à celles de Stack Overflow dans 39 % des cas. Lorsqu’on leur a demandé pourquoi ils préféraient les réponses de ChatGPT même lorsqu’elles étaient incorrectes, les participants ont expliqué que c’était en raison de l’exhaustivité et les structures de langage articulées des réponses.

L’équipe espère que son étude encouragera davantage de recherches sur la transparence et la communication de l’inexactitude dans les réponses générées par des machines, en particulier dans le contexte du génie logiciel.

Etude :“Who Answers It Better ? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions” arXiv arXiv https://doi.org/10.48550/arXiv.2308.02312

Auteurs :Samia Kabir, David N. Udo-Imeh, Bonan Kou, Tianyi Zhang