ChatGPT a peine lancé, des outils de détection ont été développés pour déterminer si un texte avait été généré ou non par l’IA. Classifier, le détecteur d’OpenAI, la start-up qui a développé ChatGPT, a d’ailleurs été fermé il y a 2 mois en raison de son faible taux de précision. Un expert linguiste pourrait-il faire mieux ? Oui, d’après une étude de 2 chercheurs américains, cependant les linguistes qui se sont prêtés à l’expérience ont eu aussi du mal à faire cette distinction, et leurs performances globales étaient médiocres avec seulement 38,9% de bonnes réponses.
Publiée dans la revue “Research Methods in Applied Linguistics”, l’étude a été menée par deux professeurs en linguistique : J.E. Casal du Département d’anglais (Institute for Intelligent Systems Affiliate), Université de Memphis, et M. Kessler du Département des langues du monde, Université de Floride du Sud.
Leur objectif n’était pas seulement de déterminer si les linguistes ou les évaluateurs des meilleures revues peuvent distinguer ou non un texte généré par l’IA, elle visait également à appréhender les critères sur lesquels ils basent leurs décisions et dans quelle mesure les éditeurs de ces mêmes revues considèrent que l’utilisation des outils d’IA est éthique dans le cadre de la recherche.
Les chercheurs ont utilisé quatre articles publiés par des chercheurs en 2021 ou 2022 dans deux revues à comité de lecture de linguistique appliquée. Quatre extraits en ont été tirés et quatre autres ont été générés par ChatGPT à partir des articles complets.
Chacun des 72 évaluateurs devait se prononcer sur quatre de ces extraits qu’on lui avait attribués de façon à ce qu’il évalue et des textes générés par l’IA et d’autres écrits par l’humain.
L’étude montre que les évaluateurs, malgré leur compétence en linguistique, n’ont pas réussi à distinguer l’IA de l’écriture humaine dans la plupart des cas : leur taux de réussite global n’était que de 38,9%. Sur les quatre extraits à juger, ils se sont trompé deux ou trois fois pour la majorité d’entre eux : 34,7% ont eu deux bonnes réponses et 18,1% seulement en ont eu trois. De plus, 12,5% d’entre eux ont échoué pour les quatre extraits.
Ils ont en moyenne mieux réussi à identifier les textes écrits par un humain (44,1% de bonnes réponses contre 33,7%). D’ailleurs, c’est un extrait d’article écrit par un humain a obtenu le meilleur taux de réponses exactes : 55,6%.
Les critères d’évaluation
Les deux chercheurs ont demandé à sept des 72 évaluateurs de leur expliquer sur quoi ils s’étaient basés pour prendre leurs décisions. Pour eux, l’IA génère des textes plus vagues, moins fluides et moins faciles à lire que ceux écrits par un humain. Ces critères se sont révélés inefficaces dans le cadre de cette étude, ce qui souligne la capacité croissante des modèles de langage comme ChatGPT à produire des textes quasi-similaires à ceux écrits par des humains.
Les chercheurs ont également consulté 27 rédacteurs de revues académiques de linguistique appliquée pour recueillir leur opinion sur l’éthique de l’utilisation des outils d’IA à des fins de recherche. Leurs réponses ont révélé une diversité d’opinions : si certains étaient favorables à une utilisation éthique de ces outils pour faciliter les processus de recherche, d’autres avaient des préoccupations et des réserves quant à leur utilisation.
Conclusion
Cette étude remet en question la capacité des experts linguistiques à distinguer les textes générés par l’IA de ceux écrits par des humains et interroge sur l’éthique de l’utilisation de l’IA dans la recherche.
L’avenir de la recherche académique sera sans aucun doute influencé par l’IA, mais il est essentiel que la communauté académique aborde ces questions avec prudence.
Références de l’article : “Can linguists distinguish between ChatGPT/AI and human writing?: A study of research ethics and academic publishing”, Research Methods in Applied Linguistics,
https://www.sciencedirect.com/science/article/pii/S2772766123000289
Auteurs :
J.Elliott Casal, Département d’anglais (Institute for Intelligent Systems Affiliate), Université de Memphis, Memphis, TN, États-Unis;
Matt Kessler, Département des langues du monde, Université de Floride du Sud, Tampa, FL, États-Unis.