L’IAG (intelligence artificielle générale) est considérée comme le "graal" technologique par des entreprises comme OpenAI ou DeepSeek. Présentée comme une opportunité pour l'humanité, elle soulève également des inquiétudes quant à ses risques potentiels pour la société, notamment celui de perte de contrôle. Dans un document de 145 pages publié récemment, Google DeepMind propose une approche visant à atténuer ces risques, rappelant que pour y parvenir, une planification, une préparation et une collaboration proactives sont indispensables.

Les avis des experts quant aux dégâts que pourrait provoquer pour l'humanité l'IAG sont très divergents. Les positions de Yoshua Bengio, Geoffrey Hinton et Yann LeCun, récipiendaires du prix Turing 2018, illustrent bien cette fracture. Geoffrey Hinton, après des années passées au sein de Google, a choisi en 2023 de quitter son poste pour s'exprimer librement sur les dangers de l'IA. Il redoute notamment la capacité des modèles avancés à désinformer, manipuler ou échapper au contrôle humain. Dans le même esprit, Yoshua Bengio a pris position pour une pause temporaire du développement de l'IAG, cosignant la lettre du Future of Life Institute. Tous deux militent pour une gouvernance forte, une surveillance publique et des protocoles de sécurité avant de franchir des seuils critiques.

Yann LeCun, aujourd'hui Chief AI Scientist chez Meta, adopte une position plus optimiste et technique. Selon lui, l'IAG reste un objectif lointain : les modèles actuels, bien que puissants, n'ont ni compréhension du monde ni capacité d'agentivité véritable. Prônant une poursuite de la recherche ouverte tout en insistant sur le caractère exploratoire de l'IA actuelle, il considère que les craintes autour de l'extinction de l'humanité ou de la perte de contrôle sont prématurées, voire infondées.

Par contre, pour Shane Legg, co-fondateur et scientifique en chef de l’IAG chez Google DeepMind, faute de contrôle, l'IAG pourrait entraîner des risques existentiels pour l’humanité. Comme ses co-auteurs de l'article "An Approach to Technical AGI Safety and Security", il estime que l'IAG devrait être atteinte avant la fin de cette décennie.
Dans ce document, ils explorent quatre principaux domaines de risque :
  • L'utilisation abusive : Lorsque des acteurs malveillants exploitent l' IAG à des fins destructrices ;
  • Le désalignement : Lorsque l'IAG agit de manière contraire aux intentions de ses créateurs ;
  • Les erreurs : Lorsque l'IAG prend des décisions involontairement nuisibles ;
  • Les risques structurels : Les dynamiques multi-agents pouvant provoquer des conséquences imprévues.
Ils se concentrent principalement sur la gestion des risques d'utilisation abusive et de désalignement qui constituent les menaces les plus directes et urgentes.

Stratégies de prévention des risques

Pour prévenir l'utilisation abusive, DeepMind propose une série de mesures de sécurité et de contrôle d'accès, visant à empêcher l'accès aux capacités dangereuses. Parmi ces mesures, on trouve :
  • L’identification proactive des capacités à haut risque ;
  • La mise en place de restrictions strictes pour limiter l'accès à ces capacités ;
  • La surveillance continue et des stratégies de sûreté renforcées des modèles.

Concernant le désalignement, l'approche repose sur deux niveaux de défense :
  • Sécurisation au niveau du modèle : Amplification de la supervision et entraînement avancé pour garantir que l'IAG reste alignée sur les intentions humaines ;
  • Sécurisation au niveau du système : Mise en place de mécanismes de contrôle et de surveillance pour détecter et corriger toute dérive potentiellement dangereuse.

Des outils comme l’interprétabilité des modèles et l’estimation des incertitudes sont également préconisés pour améliorer l'efficacité des mesures de sécurité.
L'équipe de DeepMind espère que la communauté scientifique se joindra à elle pour poursuivre ses travaux afin de garantir un accès sécurisé et maîtrisé aux bénéfices potentiels de l’IAG.