Mené par Leandro von Werra, directeur de la recherche chez Hugging Face, Elie Bakouch et Lewis Tunstall, le projet Open-R1 se veut un exemple de transparence et de partage des connaissances, permettant à chacun de contribuer et d'améliorer le modèle pour des applications variées, allant de la médecine à l'éducation, en passant par la recherche fondamentale.
Ils expliquent le but de leur démarche dans un blog :
"Le projet Open-R1 est une initiative visant à reconstruire systématiquement le pipeline de données et de formation de DeepSeek-R1, à valider ses affirmations et à repousser les limites des modèles de raisonnement ouvert. En créant Open-R1, nous visons à fournir de la transparence sur la façon dont l’apprentissage par renforcement peut améliorer le raisonnement, partager des informations reproductibles avec la communauté open source et créer une base pour de futurs modèles permettant d’exploiter ces techniques."
Un plan en trois étapes
Pour les trois hommes, "la sortie de DeepSeek-R1 est une aubaine incroyable pour la communauté".DeepSeek-R1 est un modèle de raisonnement construit sur la base de DeepSeek-V3, présenté par la start-up chinoise fin décembre dernier, dont les performances sont comparables, à celles de principaux modèles à source fermée, comme GPT-4o ou Claude 3.5 Sonnet, et ce, malgré un coût d’entraînement nettement inférieur.
Le modèle compte 2 versions : DeepSeek-R1-Zero, entraîné par apprentissage par renforcement (RL) sans réglage fin supervisé (SFT), a montré de solides performances. Cependant, il présente des défis tels que la répétition sans fin et la mauvaise lisibilité. Pour résoudre ces problèmes, DeepSeek-R1 intègre des données de démarrage à froid avant l’application du RL et de plusieurs étapes de raffinement qui rejettent les résultats de mauvaise qualité et produisent des réponses polies et cohérentes.
DeepSeek a mis ces 2 versions et six modèles denses distillés à partir de DeepSeek-R1 basés sur Llama et Qwen à la disposition de la communauté.
Les chercheurs de Hugging Face proposent à ceux qui voudront contribuer au projet de les aider à :
- Étape 1 : Répliquer les modèles R1-Distill en distillant un ensemble de données de raisonnement de haute qualité à partir de DeepSeek-R1.
- Étape 2 : Répliquer le pipeline RL pur que DeepSeek a utilisé pour créer R1-Zero. Cela impliquera la conservation de nouveaux ensembles de données à grande échelle pour les mathématiques, le raisonnement et le code.
- Étape 3 : Montrer qu'il est possible de passer du modèle de base → SFT (Supervised Fine-Tuning)→ RL via une formation en plusieurs étapes.
"Cette initiative ne consiste pas seulement à reproduire les résultats, mais aussi à partager des idées avec la communauté. En documentant ce qui fonctionne, ce qui ne fonctionne pas et pourquoi, nous espérons éviter à d’autres de perdre du temps et de calculer sur des chemins improductifs."
Le projet, hébergé sur GitHub, compte plus de 12 000 étoiles, ce qui démontre l'intérêt qu'il suscite.