Sécurité et éthique de l'IA : Face à la montée en puissance des modèles de frontière, Anthropic alerte sur l’urgence d’une réglementation ciblée

Alors que les modèles d’IA deviennent de plus en plus sophistiqués, des craintes ont surgi sur leurs risques potentiels pour la société, notamment dans des domaines sensibles comme la cybersécurité, la chimie ou la biologie. Anthropic, qui a mis à jour récemment sa politique de mise à l’échelle responsable (RSP), exhorte les gouvernements à adopter rapidement des mesures réglementaires efficaces, alertant : “La fenêtre de la prévention proactive des risques se referme rapidement”.

Cofondée en 2021 par les frère et sœur Daniela et Dario Amodei, qui avaient travaillé auparavant chez OpenAI, rejoints par la suite par d’anciens collaborateurs de la start-up, Anthropic est aujourd’hui l’un des leaders de l’IA générative.

Son objectif est de rendre les systèmes plus fiables, orientables et interprétables. Elle a pour cela développé l’IA constitutionnelle, une approche d’entraînement des modèles de langage visant à inculquer des valeurs et des principes spécifiques dans les systèmes d’IA. Sa famille de modèles Claude est ainsi guidée par un ensemble de principes comme ceux de la Déclaration des droits de l’Homme pour générer des réponses plus honnêtes et alignées sur des valeurs éthiques.

En juillet 2023, Anthropic faisait partie des sept grandes entreprises s’engageant officiellement devant le gouvernement Biden à mettre en place de nouvelles normes de sûreté, de sécurité et de confiance et, avec trois d’entre elles, Microsoft, Anthropic et Google, lançait le Frontier Model Forum, un organisme industriel dédié au développement sûr et responsable des modèles d’IA de pointe.

Au mois de septembre suivant, la start-up, soulignant les risques réels que pourraient représenter les modèles de frontière pour les domaines cybernétique et CBRN (chimiques, biologiques, radiologiques et nucléaires) d’ici 2 à 3 ans, présentait sa politique de mise à l’échelle responsable.

Pour elle :

“Une réglementation judicieuse et étroitement ciblée peut nous permettre d’obtenir le meilleur des deux mondes : profiter des avantages de l’IA tout en atténuant les risques. Traîner les pieds pourrait conduire au pire des deux mondes : une réglementation mal conçue et impulsive qui entrave le progrès tout en ne parvenant pas à prévenir les risques.”

Vers un cadre réglementaire inspiré du RSP d’Anthropic ?

Certains acteurs de l’IA ont anticipé ces défis liés à l’IA en adoptant une RSP, plus ou moins similaire à celle d’Anthropic, qui ajuste les mesures de sécurité en fonction des capacités atteintes par les modèles : des seuils de performance sont définis pour chaque nouvelle génération de systèmes, et des mécanismes de sécurité sont déployés lorsque ces seuils sont franchis.

Les RSP permettent aux entreprises de gérer proactivement les risques liés aux IA de pointe, tout en optimisant leurs performances sur le marché. Elles offrent également des avantages en termes de transparence et de responsabilité : les entreprises qui adoptent ce modèle s’engagent à documenter leurs pratiques de sécurité, à identifier et évaluer les risques de manière continue, et à investir dans des équipes dédiées à la sécurité. Chez Anthropic, des équipes spécialisées en sécurité informatique, en interprétabilité, et en évaluations d’équipes adverses (équipe rouge) sont intégrées dans la feuille de route de chaque nouveau modèle.

Dario Amodei soulignait, il y a un an, au Sommet de sécurité de l’IA de Bletchley :

“Les RSP ne sont pas destinés à se substituer à la réglementation, mais plutôt à en être un prototype. Je ne veux pas dire que nous voulons que le RSP d’Anthropic soit littéralement inscrit dans les lois – notre RSP n’est qu’une première tentative de résoudre un problème difficile, et est presque certainement imparfait à bien des égards”.

Les trois piliers d’une réglementation ciblée efficace

Selon l’entreprise, “ce cadre réglementaire ne sera pas parfait“, mais “Quelle que soit la réglementation à laquelle nous parvenons, elle doit être aussi chirurgicale que possible”.

Elle identifie trois piliers essentiels :

Transparence : Actuellement, il n’existe pas de mécanisme permettant de vérifier l’adhésion des entreprises à leurs politiques de sécurité. Exiger la publication de ces politiques et de leurs évaluations pourrait permettre de construire un registre public des risques associés aux systèmes d’IA ;
Promotion de pratiques de sécurité robustes : Les entreprises devraient être encouragées, voire obligées, à renforcer leurs mesures de sécurité et à maintenir des standards élevés en matière de gestion des risques. Des organismes de réglementation pourraient ainsi établir les normes minimales en matière de sûreté que chaque système doit respecter ;
Simplicité et ciblage : Toute réglementation devrait rester aussi claire et ciblée que possible pour éviter d’entraver l’innovation. Une loi simple et bien définie réduit la complexité pour les entreprises et facilite le respect des règles sans générer des obligations excessives.

Des approches autres que celles d’Anthropic réunissent ces trois conditions, ce qu’elle reconnaît volontiers, concluant :

“Il est essentiel au cours de l’année prochaine que les décideurs politiques, l’industrie de l’IA, les défenseurs de la sécurité, la société civile et les législateurs travaillent ensemble pour élaborer un cadre réglementaire efficace qui réponde aux conditions ci-dessus et qui soit acceptable pour un large éventail de parties prenantes”.