Plusieurs chercheurs de l’Université de Plymouth et de l’Université de Portsmouth, spécialisés dans la sécurité informatique, se sont penchés sur les modèles de machine learning qui reconnaissent la représentation visuelle du code d’un site web afin de les rendre plus rapides et plus précis. Grâce à cette faculté, ces outils peuvent aider à améliorer la prévision et la vitesse de détection des sites de phishing (ou hameçonnage, en français).
L’arnaque de type phishing est régulièrement pratiquée sur internet et consiste à faire croire à l’internaute qu’il est sur un site réel (comme celui d’un opérateur de téléphone, de fournisseur d’énergie, d’e-commerce, ou du gouvernement, etc.) afin de lui soutirer des données personnelles et/ou bancaires.
Machine learning et visualisation binaire : un duo efficace pour lutter contre le phishing
Afin de lutter contre le phishing, quatre chercheurs en sécurité informatique, Luke Barlow, Gueltoum Bendiab, Stavros Shiaeles et Nick Savage, ont cherché à combler les lacunes des méthodes de détections déjà existantes qui reposent habituellement sur une démarche réactive : lorsqu’un utilisateur tombe dans une arnaque au phishing, le site est ajouté à une base de données de sites malicieux. Le principal inconvénient de cette démarche est qu’elle offre toujours un coup d’avance aux pirates.
L’équipe de recherche a développé une technique qui repose sur la création d’une image RGB sous forme de matrice correspondant à la visualisation binaire du code source d’une page. Lorsqu’un site est visité, la visualisation binaire du site peut être comparée à celles du jeu de données préalablement constitué grâce à un réseau convolutif basé sur TensorFlow, afin de comparer le degré de similarité entre un site connu et un nouveau site.
La publication scientifique détaillant le fonctionnement est consultable sur arXiv.
Des résultats encourageants pour essayer de déposer une demande de brevet
Lors des différentes expérimentations menées par les chercheurs, il a été prouvé que le modèle peut atteindre une précision de 94 % dans la détection de site web de phishing. Utilisable avec les appareils de n’importe quel utilisateur, il fournit des résultats en temps quasi réel et les chercheurs affirment que la technique a été utilisée avec tout type de site.
Après avoir exploité la visualisation binaire et le machine learning pour détecter les logiciels malveillants avec des résultats prometteurs durant l’année 2019, les chercheurs ont réussi à concevoir une solution pour lutter contre l’hameçonnage. Désormais, l’équipe de recherche souhaite travailler sur une nouvelle méthode et essaiera à l’avenir de déposer une demande de brevet.
Avec les résultats d’ores et déjà obtenus, Luke Barlow, Gueltoum Bendiab, Stavros Shiaeles et Nick Savage sont plutôt confiants quant à la suite des évènements.