Depuis le début de la crise sanitaire, les entreprises, organisations publiques et associations ont dû s’adapter rapidement et déployer massivement des outils digitaux leur permettant d’assurer la continuité de leurs activités.
Dans le même temps, ces organisations ont dû faire face à une véritable explosion du nombre de cyberattaques. D’après l’Autorité Nationale de la Sécurité des Systèmes d’Information (ANSSI), le nombre de cyberattaques en France a été multiplié par quatre en 2020 et leur sophistication est de plus en plus élevée [1].
Ce chiffre s’explique en grande partie par le manque de sensibilisation aux risques cyber, l’absence de maîtrise des systèmes d’information, le non-respect des mesures d’hygiène informatique, la pénurie d’experts en cybersécurité et, dans une certaine mesure, l’augmentation de la surface d’attaque du fait de la généralisation du télétravail qui sont autant de faiblesses exploitées par les cybercriminels [2].
Parmi ces cyberattaques, les rançongiciels, ou ransomware connaissent une véritable explosion. Il s’agit de logiciels malveillants qui bloquent l’accès à un ordinateur ou à des fichiers en les chiffrant et qui réclament à la victime le paiement d’une rançon pour en obtenir de nouveau l’accès [3].
Les entreprises et organisations publiques françaises sont de plus en plus souvent victimes de ce type d’attaques. Selon l’ANSSI, ce type d’attaques a augmenté de 255% en seulement un an et représente désormais la première menace pour les entreprises et organisations publiques en France. De nombreux secteurs d’activités ont été touchés par les rançongiciels en France en 2020 [4]:
Secteurs d’activités touchés par les rançongiciels en France en 2020 – ANSSI
Les attaques sur les centres hospitaliers de Dax [5] et de Villefranche-sur-Saône [6], nous ont clairement montré la criticité de cette menace avec des conséquences importantes sur les soins ainsi que sur le suivi des patients.
Ces cyberattaques frappent également le monde de l’entreprise allant même jusqu’à générer des pertes importantes de chiffre d’affaires et des perturbations dans le système de production de certaines entreprises industrielles.
À titre d’exemple, les pertes subies par Sopra Steria, victime de Ryuk [7] en octobre 2020, ont été estimées à environ 50 millions d’euros [8]. Ce phénomène touche toutes les entreprises, quelle que soit leur taille et leur secteur d’activité, puisque selon la sixième édition du baromètre du Club des Experts de la Sécurité de l’Information et du Numérique (CESIN), 20% des grandes entreprises françaises ont été victimes en 2020 de rançongiciels et 30% d’entre elles emploient au moins 5000 salariés [9]. Sachant que ces chiffres sont certainement sous évalués, cela nous permet toutefois de mesurer l’ampleur de ce phénomène.
En 2020, un grand groupe industriel français s’est tourné vers l’équipe de DataScientists d’OpenStudio pour comprendre comment des cybercriminels ont réussi à s’introduire dans le réseau informatique du groupe et propager Sodinokibi sur un grand nombre de serveurs et postes de travail.
Le rançongiciel Sodinokibi (appelé également REvil et Sodin) a été détecté pour la première fois en avril 2019, lors d’une attaque ZETA [10] exploitant une vulnérabilité dans Oracle WebLogic. Il a été développé et est commercialisé par d’anciens affiliés de GandCrab (rançongiciel apparu pour la première fois en janvier 2018) ayant acheté le code source.
L’infection passe généralement par le téléchargement d’un logiciel malveillant parfois dissimulé dans la pièce jointe d’un e-mail piégé (phishing) ou par le biais d’un lien vers un site Web compromis. Une caractéristique principale de Sodinokibi est sa grande capacité à échapper à la détection des systèmes antivirus.
Sachant que plusieurs éléments indiquent que Sodinokibi est d’origine russe, il est vendu en tant que RaaS (Ransomware as a Service) sur certains forums cybercriminels russophones, offrant ainsi la possibilité à des affiliés de créer et de distribuer leur propre rançongiciel [11].
Dans le cadre d’un hackathon d’une durée de 3 jours, l’équipe de Data Scientists d’OpenStudio s’est alors mobilisée pour traiter et analyser des millions de logs (journaux d’événements) provenant de l’antivirus et du pare-feu de ce grand groupe industriel. L’objectif de ce hackathon était d’analyser les logs afin de retracer l’attaque et d’identifier les points de vulnérabilité.
Etant confrontés à de gros volumes de données et n’ayant aucune idée précise sur la forme que pouvait prendre cette attaque, l’équipe de Data Scientists d’OpenStudio a estimé que le recours à l’intelligence artificielle pouvait être une solution adaptée pour détecter des événements anormaux et inhabituels.
Par le biais de modèles d’apprentissage non supervisés, des structures sous jacentes ont été découvertes à partir des données non étiquetées, permettant ainsi de sélectionner des logs suspects qui devront être analysés par des experts en systèmes et réseaux ainsi qu’en cybersécurité.
Au regard de la littérature scientifique, il est clairement apparu à l’équipe de Data Scientists d’OpenStudio, que l’algorithme des K-means (ou K-moyennes en français) était relativement bien adapté afin de détecter des anomalies dans des données de réseau [12]. Cette approche peut également être automatisée afin de détecter, en temps réel, des activités intrusives sur des systèmes et réseaux informatiques [13] [14].
Il est important de rappeler que l’algorithmes des K-means permet d’analyser un jeu de données caractérisées par un ensemble de descripteurs, afin de regrouper les données « similaires » en groupes (ou clusters). La similarité entre deux données étant inférée grâce à la « distance » séparant leurs descripteurs [15].
L’algorithme des K-means a permis de créer deux clusters, l’un correspondant à des structures de données (ou patterns) que l’on retrouve majoritairement dans les logs et l’autre à des structures de données minoritaires pouvant être considérés comme inhabituelles et anormales.
Visualisation des clusters créés par l’algorithme des K-means
Les structures de données considérées comme anormales ont été analysées par des experts en systèmes et réseaux ainsi qu’en cybersécurité afin de statuer sur leur niveau de dangerosité.
Dans l’optique de caractériser les clusters créés par l’algorithme des K-means, l’équipe de Data Scientists d’OpenStudio a ensuite utilisé l’algorithme Random Forest (ou forêt d’arbres décisionnels, appelé aussi forêt aléatoire en français). Cet algorithme [16] a permis d’identifier les variables qui discriminent les clusters par le biais d’un nouveau jeu de données étiquetées et d’un apprentissage supervisé.
Représentation de l’importance des variables dans le clustering
L’utilisation de modèles de partitionnement de données à base d’apprentissage non supervisé, comme c’est le cas avec l’algorithme de clustering des K-means, a permis d’identifier des structures de données inhabituelles et anormales. L’ensemble de ces structures étant ensuite étiquetées par des experts en systèmes et réseaux ainsi qu’en cybersécurité, il a alors été possible de constituer un jeu de données étiquetées afin d’identifier les variables qui discriminent ces structures via l’utilisation de modèles d’apprentissage supervisés, comme c’est le cas avec l’algorithme Random Forest.
La constitution d’un jeu de données étiquetées intégrant des structures de données relatives à des attaques avérées ou simulées, ainsi que l’automatisation d’outils d’intelligence artificielle pourraient permettre une véritable surveillance des systèmes en quasi temps réel et alerter des acteurs internes en charge de la cybersécurité de potentielles attaques.
Compte tenu des revenus générés par les attaques par rançongiciel et de l’augmentation du nombre d’attaquants, facilités par le modèle du RaaS, il est clair que le phénomène rançongiciel continuera à croître dans les années à venir.
Face à l’ampleur et à la sophistication de ce type de cyberattaques, le recours à l’intelligence artificielle apparaît de plus en plus nécessaire afin d’aider les experts en cybersécurité à détecter des attaques dont les conséquences peuvent s’avérer extrêmement préjudiciables dans le monde réel.
Kévin Cortial, Data Scientist chez OpenStudio.
Jean-Luc Marini, Directeur du Lab IA et de l’agence de Lyon OpenStudio
- Les cyberattaques ont été multipliés par quatre en 2020”, Zoom Sectoriel – Le chiffre, Bpifrance , 21 mai 2021, https://www.bpifrance.fr/A-la-une/Actualites/Les-cyberattaques-ont-ete-multipliees-par-4-en-2020-52306
- “L’ANSSI et le BSI alertent sur le niveau de la menace cyber en France et en Allemagne dans le contexte de la crise sanitaire”, ANSSI, 17 décembre 2020, https://www.ssi.gouv.fr/actualites/
- “Les rançongiciels (ransomwares)”, Cybermalveillance.gouv.fr, 20 novembre 2019, https://www.cybermalveillance.gouv.fr/tous-nos-contenus/fiches-reflexes/rancongiciels-ransomwares
- “Cybersécurité, faire face à la menace : La stratégie française”, ANSSI, 18 février 2021, https://www.ssi.gouv.fr/actualites/
- “L’hôpital de Dax en partie paralysé par une attaque informatique”, Le Monde, 10 février 2021, https://www.lemonde.fr/pixels/article/2021/02/10/l-hopital-de-dax-en-partie-paralyse-par-une-attaque-informatique_6069430_4408996.html
- “Après celui de Dax, l’hôpital de Villefranche paralysé par un rançongiciel”, Le Monde, 15 février 2021, https://www.lemonde.fr/pixels/article/2021/02/15/apres-celui-de-dax-l-hopital-de-villefranche-paralyse-par-un-rancongiciel_6070049_4408996.html
- Logiciel malveillant de type rançongiciel observé pour la première fois en août 2018.
- “Ransomware : Ryuk aurait empoché plus de 150 millions de dollars”, ZDNet, 08 janvier 2021, https://www.zdnet.fr/actualites/ransomware-ryuk-aurait-empoche-plus-de-150-millions-de-dollars-39915797.htm
- “Au moins 20% des entreprises françaises ont subi une attaque par rançongiciel l’an passé”, BFM Business, 10 février 2021, https://www.bfmtv.com/economie/au-moins-20-des-entreprises-francaises-ont-subi-une-attaque-par-rancongiciel-l-an-passe_AN-202102100290.html
- Une attaque ZETA (Zero Day Exploit Attack) est une cyberattaque ciblée basée sur une vulnérabilité zero-day, qui survient le jour même où une faiblesse est détectée dans un logiciel. Ce point faible est exploité avant la mise à disposition d’un correctif par le créateur du logiciel.
- “Etat de la menace rançongiciel à l’encontre des entreprises et des institutions”, 4.2, CERT ANSSI, 1er mars 2021, https://www.cert.ssi.gouv.fr/uploads/CERTFR-2021-CTI-001.pdf
- Münz, G., Li, S., & Carle, G. (2007). Traffic Anomaly Detection Using K-Means Clustering https://www.semanticscholar.org/paper/Traffic-Anomaly-Detection-Using-K-Means-Clustering-Münz-Li/634e2f1a20755e7ab18e8e8094f48e140a32dacd
- Gu, Y., Li, K., Guo, Z., & Wang, Y. (2019). Semi-Supervised K-Means DDoS Detection Method Using Hybrid Feature Selection Algorithm. IEEE Access, 7, 64351-64365 https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8717648
- Kumari, R., Sheetanshu, Singh, M. K., Jha, R., & Singh, N. K. (2016). Anomaly detection in network traffic using K-means clustering. 2016 3rd International Conférence on Recent Advances in Information Technology (RAIT), 387-393. https://ieeexplore.ieee.org/document/7507933
- “K-means (ou K-moyennes)”, DAP (Data Analytics Post), https://dataanalyticspost.com/Lexique/k-means-ou-k-moyennes/
- “Random Forest”, DAP (Data Analytics Post), https://dataanalyticspost.com/Lexique/random-forest/