Sakana AI, start-up basée à Tokyo fondée il y a tout juste un an par deux anciens chercheurs de Google, , a récemment dévoilé “The AI Scientist”, un système entièrement automatisé qui, à partir d’une base de code, est capable de mener des recherches scientifiques de bout en bout, sans intervention humaine.
Développé en collaboration avec le Foerster Lab for AI Research de l’Université d’Oxford et deux chercheurs de l’Université de la Colombie-Britannique, Jeff Clune et Cong Lu, ce système a été présenté dans l’article “The AI Scientist : Towards Fully Automated Open-Ended Scientific Discovery“.
Une nouvelle approche de la recherche
The AI Scientist repose sur des LLM qui ont déjà prouvé leur utilité dans l’assistance à la rédaction et au codage. Cependant, The AI Scientist va bien au-delà de l’assistance : il est capable d’exécuter l’intégralité du cycle de recherche scientifique : la génération d’idées novatrices, l’écriture du code nécessaire pour tester ces idées, la réalisation d’expériences, l’analyse des résultats, la rédaction d’articles scientifiques suffisamment solides pour être acceptés lors de conférences académiques de haut niveau en apprentissage automatique.
Fonctionnement de The AI Scientist
Le processus commence par une étape de génération d’idées. En utilisant une base de code existante GitHub comme point de départ, The AI Scientist propose diverses directions de recherche. Ces idées sont ensuite comparées à la littérature scientifique existante pour garantir leur originalité, le système utilisant de manière autonome Semantic Scholar pour explorer les publications scientifiques dans le domaine de recherche en cours.
En accédant cette vaste base de données de l’Allen Institute for AI, il peut également identifier les articles les plus pertinents à citer dans ses propres articles, garantissant ainsi que ses publications sont bien contextualisées dans le cadre de la recherche actuelle.
Une fois une idée sélectionnée, l’AI Scientist modifie le code et passe à l’étape de l’itération expérimentale. Il exécute les expériences nécessaires et génère des résultats, qu’il compile sous forme de graphiques et de tableaux. Ces résultats sont ensuite intégrés dans un manuscrit scientifique, rédigé au format LaTeX, dans un style conforme aux normes des conférences de recherche en intelligence artificielle.
Enfin, en utilisant un modèle d’évaluation inspiré des critères des grandes conférences scientifiques, il évalue la qualité des articles générés, avec une précision proche de celle de l’homme, fournissant des retours et améliorant continuellement ses propres idées.
Selon les chercheurs, chaque article généré revient à environ 15 par article.
Premiers résultats et défis actuels
Les premiers articles produits par The AI Scientist sur l’apprentissage automatique ont montré des résultats prometteurs dans des domaines comme la modélisation par diffusion, la modélisation du langage et le grokking. Par exemple, l’article intitulé “Adaptive Dual-Scale Denoising” propose une nouvelle méthode pour équilibrer les caractéristiques dans les modèles génératifs de faible dimension, les pages ci-dessous sont tirées de cet article.
Bien que ces travaux soient encore perfectibles, notamment en termes d’interprétation des résultats et de présentation visuelle, ils montrent déjà un potentiel significatif pour accélérer la recherche scientifique.
Limitations du système
Le système présente plusieurs limites : tout d’abord, il nécessite une base de code préexistante pour fonctionner. Son absence de capacités visuelles signifie qu’il peut produire des graphiques ou des mises en page sous-optimales. De plus, il peut commettre des erreurs critiques, comme une mauvaise implémentation d’idées ou des comparaisons inexactes entre les résultats expérimentaux. Ces deux dernières limitations, bien qu’importantes, sont en cours de résolution avec le développement de versions futures plus robustes.
Implications éthiques et avenir de la recherche
L’introduction de The AI Scientist soulève des questions éthiques majeures. Si l’automatisation de la recherche peut démocratiser l’accès à la production scientifique, elle pourrait aussi entraîner une surcharge des systèmes de révision par les pairs et une baisse de la qualité des publications.
D’autre part, l’évaluateur automatisé, s’il est déployé en ligne par les examinateurs, peut réduire considérablement la qualité des évaluations et imposer des biais indésirables aux articles. Pour les chercheurs, les articles essentiellement générés par l’IA doivent être marqués comme tels pour une transparence totale.
De plus, le système d’IA peut être détourné à des fins malveillantes. Les chercheurs écrivent :
“Par exemple, si on l’encourageait à trouver des matériaux biologiques nouveaux et intéressants et qu’on lui donnait accès à des « laboratoires en nuage » où des robots effectuent des expériences de biologie en laboratoire humide, il pourrait (sans l’intention de son superviseur) créer de nouveaux virus ou poisons dangereux qui nuisent aux gens avant que nous ne réalisions ce qui s’est passé. Même dans les ordinateurs, s’il est chargé de créer de nouveaux logiciels intéressants et fonctionnels, il peut créer des virus informatiques dangereux”.