L’IA peut-elle améliorer la précision des diagnostics médicaux ? Des chercheurs d’UVA Health, un réseau de soins de santé affilié à l’Université de Virginie, ont tenté de répondre à cette question. Le résultat de leur étude est surprenant : si l’IA peut effectivement surpasser les performances des médecins dans certaines tâches de diagnostic, son intégration dans leur flux de travail n’a pas significativement amélioré leurs performances globales.
Les grands modèles de langage (LLM) ont montré des résultats prometteurs dans la réussite aux examens de raisonnement médical, qu’il s’agisse de questions à choix multiples ou de questions ouvertes. Cependant, leur impact sur l’amélioration du raisonnement diagnostique des médecins en situation réelle reste à déterminer.
Andrew S. Parsons, qui supervise l’enseignement des compétences cliniques aux étudiants en médecine de la faculté de médecine de l’Université de Virginie et codirige le Clinical Reasoning Research Collaborative, et ses collègues de l’UVA Health ont voulu mettre ChatGPT Plus (GPT-4) à l’épreuve. Leur étude, a été publiée dans la revue scientifique JAMA Network Open et acceptée ce mois-ci par le symposium 2024 de l’American Medical Informatics Association.
Méthodologie de l’étude
Les chercheurs ont recruté 50 médecins exerçant en médecine familiale, en médecine interne et en médecine d’urgence pour lancer un essai clinique randomisé et contrôlé dans trois hôpitaux de pointe : UVA Health, Stanford et le Beth Israel Deaconess Medical Center de Harvard. La moitié d’entre eux ont été assignés aléatoirement à l’utilisation de ChatGPT en plus de méthodes conventionnelles telles que Google ou des sites de référence médicaux comme UpToDate, tandis que l’autre moitié s’est appuyée uniquement sur ces méthodes conventionnelles.
Les participants ont eu 60 minutes pour examiner jusqu’à 6 vignettes cliniques, des outils pédagogiques utilisés dans le domaine médical pour évaluer et améliorer les compétences cliniques des professionnels de santé. Ces vignettes, basées sur des cas réels, comprenaient des détails sur les antécédents des patients, des examens physiques et des résultats d’analyses de laboratoire.
Résultats
L’étude a révélé que les médecins utilisant ChatGPT Plus obtenaient une précision diagnostique médiane de 76,3 %, légèrement supérieure aux 73,7 % des médecins s’appuyant uniquement sur des outils traditionnels. Si l’écart reste modeste, en revanche, Chat GPT Plus, utilisé indépendamment, a atteint une précision impressionnante de 92 %.
Si les participants à l’essai utilisant ChatGPT Plus ont atteint un diagnostic un peu plus rapidement dans l’ensemble (519 secondes contre 565 secondes par cas), paradoxalement, ils ont réduit la précision diagnostique de l’IA.
Pour les chercheurs, cette baisse de la précision pourrait être due aux invites utilisées. Ils soulignent la nécessité de former les cliniciens à l’utilisation optimale de l’IA, notamment en exploitant les prompts de manière plus efficace. Sinon, les organisations de soins de santé pourraient acheter des invites prédéfinies à mettre en œuvre dans le flux de travail et la documentation clinique.
Selon eux, ChatGPT Plus se comporterait probablement moins bien dans la vie réelle, où de nombreux autres aspects du raisonnement clinique entrent en jeu, en particulier pour déterminer les effets en aval des diagnostics et des décisions de traitement. Ils demandent des études supplémentaires pour évaluer les capacités des grands modèles de langage dans ces domaines et mènent une étude similaire sur la prise de décision de gestion.
Conclusions
Les résultats révèlent une nuance essentielle : bien que les LLM soient capables de performances autonomes impressionnantes, leur utilisation en complément des méthodes traditionnelles n’a pas significativement amélioré la précision diagnostique des médecins.
Les chercheurs avertissent que “les résultats de cette étude ne doivent pas être interprétés comme indiquant que les LLM devraient être utilisés pour le diagnostic de manière autonome sans la surveillance d’un médecin” ajoutant que “des développements supplémentaires dans les interactions homme-machine sont nécessaires pour réaliser le potentiel de l’IA dans les systèmes d’aide à la décision clinique”.
Ils ont d’ailleurs lancé un réseau bicôtier d’évaluation de l’IA appelé ARiSE (AI Research and Science Evaluation) afin d’évaluer davantage les résultats de la GenAI dans les soins de santé.
Références de l’article
“Influence d’un grand modèle de langage sur le raisonnement diagnostique. Un essai clinique randomisé” doi :10.1001/jamanetworkopen.2024.40969
Equipe de recherche : Ethan Goh, Robert Gallo, Jason Hom, Eric Strong, Yingjie Weng, Hannah Kerman, Joséphine A. Cool, Zahir Kanjee, Andrew S. Parsons, Neera Ahuja, Eric Horvitz, Daniel Yang, Arnold Milstein, Andrew P.J. Olson, Adam Rodman et Jonathan H. Chen.