Le 6 juillet dernier, l’Université de Toronto publiait un article concernant les travaux du professeur Shahrokh Valaee et du doctorat Hojjat Salehinejad. Comme l’indique le communiqué de l’établissement, l’intelligence artificielle permettra d’améliorer à la fois la rapidité et la précision des diagnostics médicaux. Mais avant que les cliniciens puissent exploiter la puissance de l’IA pour identifier les pathologies à partir de radios par exemple, ils doivent “enseigner” aux algorithmes ce qu’ils doivent rechercher.
L’identification des pathologies rares dans les images médicales est un véritable défi pour les chercheurs, du fait de la rareté des images pouvant être utilisées pour l’entraînement des systèmes IA dans le cadre d’un apprentissage supervisé.
Le professeur Shahrokh Valae, du département de génie électrique et informatique (ECE) d’Edward S. Rogers, et son équipe ont développé une nouvelle approche : utiliser le machine learning pour créer des images de rayon X générées par ordinateur afin d’augmenter les ensembles de données IA.
“Dans un sens, nous utilisons le machine learning pour faire du machine learning“, explique Shahrokh Valaee. “Nous créons des radios simulées qui reflètent certaines pathologies rares afin que de pouvoir les combiner avec de vrais radios et avoir une base de données suffisamment importante pour entraîner les réseaux de neurones à identifier ces conditions dans d’autres radio.”
Shahrokh Valaee est membre du Laboratoire d’intelligence artificielle en médecine (MIMLab) de l’Université de Toronto qui regroupe des médecins, scientifiques et chercheurs en ingénierie combinant leur expertise en traitement d’images, en intelligence artificielle et en médecine pour résoudre des problèmes médicaux.
“L’IA a le potentiel d’aider de nombreuses façons dans le domaine de la médecine”, explique Shahrokh Valaee. “Mais pour ce faire, nous avons besoin de beaucoup de données – les milliers d’images étiquetées dont nous avons besoin pour faire fonctionner ces systèmes n’existent tout simplement pas pour certaines pathologies rares.”
Pour créer ces radios artificielles, l’équipe utilise une technique AI appelée un deep convolutional generative adversarial network (DCGAN) pour générer et améliorer continuellement les images simulées. Les GAN sont un type d’algorithme composé de deux réseaux :
- l’un qui génère les images,
- et l’autre qui tente de discriminer les images synthétiques des images réelles.
Les deux réseaux sont entraînés jusqu’au point où le discriminateur ne peut pas différencier les images réelles des images synthétisées. Une fois qu’un nombre suffisant de radios artificielles sont créées, elles sont combinées avec des radios réelles pour former un réseau neuronal convolutionnel profond, qui classe ensuite les images comme normales ou identifie un certain nombre de pathologies.
“Nous avons été en mesure de montrer que des données artificielles générées par un GAN convolutionnel profond peuvent être utilisées pour enrichir de véritables ensembles de données”, explique Shahrokh Valaee. “Cela fournit une plus grande quantité de données pour l’entraînement et améliore la performance de ces systèmes dans l’identification des pathologies rares.”
Le MIMLab a comparé la précision de l’ensemble de données augmenté à l’ensemble de données original lorsqu’il a été alimenté par son système d’IA et a constaté que la précision de la classification s’améliorait de 20% pour les conditions courantes. Pour certaines pathologies rares, la précision s’est vue améliorée jusqu’à environ 40% – et étant donné que les radios synthétisées ne proviennent pas de personnes réelles, l’ensemble de données peut être facilement accessible aux chercheurs en dehors des hôpitaux sans porter atteinte aux renseignements personnels.
“C’est excitant parce que nous avons pu surmonter un obstacle dans l’application de l’intelligence artificielle à la médecine en montrant que ces ensembles de données améliorés aident à améliorer la précision de la classification”, explique Shahrokh Valaee. “Le deep learning ne fonctionne que si le volume de données d’entraînement est suffisamment important et c’est une façon de nous assurer que nous avons des réseaux de neurones qui peuvent classer les images avec une grande précision.”