Le 13 avril dernier, Google a annoncé qu’un groupe restreint de clients Google Cloud aura accès à son LLM médical Med-PaLM 2 dans les semaines à venir pour des tests limités, afin d’explorer des cas d’utilisation pour étudier des moyens sûrs, responsables et significatifs d’utiliser cette technologie.
C’est lors de son événement annuel sur la santé, The Check Up, où Google a partagé des mises à jour sur l’IA en santé, notamment ses progrès dans la recherche sur le modèle médical du grand langage (LLM) qu’a été présenté Med-PaLM 2.
Le LLM Med-PaLM
Med-PaLM est une version adaptée au domaine médical de PaLM (Pathways Language Model), le LLM de 540 milliards de paramètres, entraîné avec le système Pathways par Google Research, introduit dans l’article intitulé « PaLM: Scaling Language Modeling with Pathways », publié le lundi 4 avril 2022.
Présenté en décembre 2022 par Google Research et DeepMind, Med-PaLM a été entraîné en utilisant MultiMedQA, qui combine six ensembles de données existantes sur les réponses aux questions ouvertes couvrant les examens médicaux professionnels, la recherche et les demandes des consommateurs et HealthSearchQA, un nouvel ensemble de données à réponse libre des questions médicales recherchées en ligne.
Le modèle a été le premier à obtenir une « note de passage » (avec 67,5% de bonnes réponses alors que l’on en exige 60%) aux questions-réponses à choix multiples basées sur les examens de licence médicale des États-Unis (USMLE).
Pour le tester, les chercheurs l’ont soumis, ainsi que des professionnels de santé, à une même série de questions-réponses que d’autres professionnels ont ensuite évalués. Le résultat était très proche : 92,6 % des réponses correctes pour Med-PaLM, contre 92,9 % pour les professionnels humains.
Med-PaLM 2
Med-PaLM 2 a été le premier LLM à effectuer une performance de niveau « expert » sur l’ensemble de données MedQA des questions USMLE atteignant une précision de 85%, soit une amélioration de 18% par rapport aux performances précédentes de Med-PaLM et dépassant de loin les modèles d’IA similaires. Il a été d’autre part le premier système d’IA à atteindre une note de passage sur l’ensemble de données MedMCQA comprenant des questions d’examen médical indien AIIMS et NEET, avec un score de 72,3 %.
Selon Google, bien qu’il s’agisse d’un progrès passionnant, il reste encore beaucoup de travail à faire pour s’assurer que cette technologie peut fonctionner dans des contextes réels.
Med-PaM 2 a été testé en fonction de 14 critères, notamment la factualité scientifique, la précision, le consensus médical, le raisonnement, les biais et les préjudices et évalué par des cliniciens et des non-cliniciens de divers horizons et pays. L’équipe a constaté des lacunes importantes dans les réponses aux questions médicales et se dit impatiente de travailler avec les chercheurs et la communauté médicale mondiale pour combler ces lacunes, et comprendre comment cette technologie peut aider à améliorer la prestation des soins de santé.