Une récente étude menée par des chercheurs de l’École Polytechnique fédérale de Lausanne (EPFL), présentée lors de l’atelier sur la sécurité de l’IA à la conférence internationale sur l’apprentissage automatique 2024, met en évidence les vulnérabilités des LLMs les plus récents, malgré leur alignement sur des critères de sécurité avancés.
L’étude “Jailbreaking leading safety-aligned LLMs with simple adaptive attacks” s’appuie sur la thèse de doctorat de son auteur principal, Maksym Andriushchenko. Il y explore les moyens d’évaluer la résilience des réseaux neuronaux face à de petites perturbations d’entrée, ainsi que l’impact de ces changements sur les résultats générés par les modèles.
Les garde-fous mis à l’épreuve
Les chercheurs Maksym Andriushchenko, Francesco Croce et Nicolas Flammarion du Laboratoire de théorie en apprentissage machinent (TML) de l’EPFL ont démontré que de simples manipulations des prompts permettent de contourner les mécanismes de sécurité des LLMs, ce qui pourrait les amener à se comporter de manière involontaire ou préjudiciable.
En ajustant les prompts en fonction des particularités de chaque modèle, ils ont réussi à provoquer des réponses contraires aux consignes de sécurité. Avec un ensemble de données de 50 requêtes nuisibles, ils ont obtenu un score de jailbreak parfait (100 %) sur Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, Claude-3/3.5 et le R2D2 entraîné de façon adverse.
Nicolas Flammarion, responsable du TML et coauteur de l’article, explique :
“Nous montrons qu’il est possible d’exploiter les informations disponibles sur chaque modèle pour créer des attaques adaptatives simples, que nous définissons comme des attaques spécifiquement conçues pour cibler une défense donnée. Nous espérons que nos travaux constitueront une précieuse source d’informations sur la robustesse des LLM frontières”.
L’importance de l’adaptabilité pour évaluer la robustesse
Le point commun derrière ces attaques est l’adaptabilité : elles exploitent les spécificités de chaque modèle pour contourner leurs mécanismes de sécurité. Les résultats de l’EPFL soulignent ainsi l’importance d’étendre les tests au-delà des scénarios prédéterminés, afin de mieux comprendre les limites et les failles des LLMs.
Maksym Andriushchenko souligne :
“Nos travaux montrent que l’application directe des attaques existantes est insuffisante pour évaluer avec précision la robustesse adverse des LLM et conduit généralement à une surestimation significative de la robustesse. Dans notre étude de cas, aucune approche n’a fonctionné suffisamment bien. Il est donc essentiel de tester à la fois les techniques statiques et adaptatives”.
Vers des modèles plus sûrs et responsables
Alors que les principaux acteurs de l’IA se dirigent vers l’ère agentique, où les agents autonomes exploitent les capacités des LLMs, les résultats de cette recherche mettent en évidence la nécessité de renforcer la sécurité de ces modèles pour garantir leur utilisation sûre et éthique.
Maksym Andriushchenko souligne :
“Si nous voulons déployer ces modèles en tant qu’agents autonomes, il est important de s’assurer qu’ils sont correctement entraînés pour se comporter de manière responsable et réduire au minimum le risque de causer des dommages graves”.
Concluant :
“Nos résultats mettent en évidence une lacune critique dans les approches actuelles de la sécurité des LLM. Nous devons trouver des moyens de rendre ces modèles plus robustes, afin qu’ils puissent être intégrés en toute confiance dans notre vie quotidienne, en veillant à ce que leurs capacités de pointe soient utilisées de manière sûre et responsable”.
Les vulnérabilités identifiées par les chercheurs témoignent de l’importance de poursuivre les recherches sur la sécurité des modèles.
Source de l’article : Tanya Petersen, EPFL