Ce jeudi 12 septembre, OpenAI a lancé OpenAI o1, une nouvelle série de modèles d’IA dotés de capacités de raisonnement avancées pour résoudre des problèmes complexes. OpenAI o1, appelé en interne Strawberry, peut, selon la start-up, résoudre des problèmes plus difficiles que les modèles précédents en sciences, en codage et en mathématiques.
Dans son blog, OpenAI annonce: “Nous avons développé une nouvelle série de modèles d’IA conçus pour passer plus de temps à réfléchir avant de répondre”.
Les capacités de raisonnement avancées d’OpenAI o1 reposent sur la chaîne de pensée (chain of thought) et l’apprentissage par renforcement. La chaîne de pensée est le processus par lequel l’IA décompose un problème complexe en étapes logiques plus simples avant de fournir une réponse. Grâce à l’apprentissage par renforcement, o1 perfectionne cette chaîne de pensée et affine ses stratégies. Il apprend à identifier et corriger ses erreurs, à décomposer les étapes complexes en étapes plus simples, et à essayer une approche différente lorsque l’approche utilisée ne fonctionne pas.
Les modèles précédents, comme GPT-4o, répondent rapidement à des questions en se basant sur des patterns appris à partir de données massives. Toutefois, pour résoudre des tâches complexes, telles que des problèmes scientifiques, mathématiques ou logiques, un simple accès à une grande base de connaissances ne suffit pas toujours.
Cette nouvelle capacité à décomposer un problème en étapes et à tenter d’élaborer un jugement critique sur les réponses fournies afin de simuler une réflexion humaine est particulièrement utile dans les domaines nécessitant un raisonnement long et nuancé :
- Mathématiques complexes : Résolution de problèmes en plusieurs étapes, où une simple erreur de calcul ou de logique dans une étape peut compromettre le résultat final ;
- Programmation : Analyse des erreurs dans un code et élaboration d’une solution optimale après avoir envisagé plusieurs options ;
- Sciences : Compréhension et application de théories scientifiques complexes pour résoudre des questions à plusieurs facettes.
La famille OpenAI o1
La famille o1 se compose pour l’instant de deux modèles : o1-preview et o1-mini, plus rapide, 80 % moins cher, excellant, selon OpenAI dans les STEM, en particulier les mathématiques et le codage, d’ores et déjà disponibles pour ChatGPT Plus et les développeurs de niveau 5 de l’API.
La start-up a évalué les performances de o1-preview, o1, la prochaine mise à jour du modèle, par rapport à celles de GPT-4o.
Sur le diamant GPQA, qui teste l’expertise en chimie, en physique et en biologie, o1 a surpassé les performances des experts titulaires d’un doctorat qu’elle avait recruté, devenant ainsi le premier modèle à le faire sur ce benchmark. Il s’est classé dans le 89e centile sur les questions de programmation compétitives de Codeforces et figure parmi les 500 meilleurs étudiants américains lors des qualifications pour les Olympiades de Mathématiques des États-Unis (AIME).
Crédit image : OpenAI. o1 s’améliore considérablement par rapport à GPT-4o sur les benchmarks de raisonnement difficiles. Les barres pleines montrent la précision pass@1 et la région ombrée montre la performance du vote majoritaire (consensus) avec 64 échantillons.
OpenAI o-1 a également surpassé GPT-4o sur 54 des 57 sous-catégories MMLU.
Crédit image : OpenAI. o1 s’améliore par rapport à GPT-4o sur un large éventail de benchmarks, y compris les sous-catégories MMLU 54/57. Sept sont illustrés.
OpenAI prévoit des mises à jour et des améliorations régulières. Ces modèles sont en phase préliminaire, les fonctionnalités telles que la navigation sur le web pour obtenir des informations ou le téléchargement de fichiers et d’images ne sont pas encore disponibles.
La start-up conclut sa présentation ainsi :
“Ces capacités de raisonnement améliorées peuvent être particulièrement utiles si vous vous attaquez à des problèmes complexes en sciences, en codage, en mathématiques et dans des domaines similaires. Par exemple, o1 peut être utilisé par les chercheurs du secteur de la santé pour annoter les données de séquençage cellulaire, par les physiciens pour générer des formules mathématiques complexes nécessaires à l’optique quantique et par les développeurs de tous les domaines pour créer et exécuter des flux de travail en plusieurs étapes.”