C’est sous la licence MIT, l’une des licences open source les plus permissives, que DeepSeek, acteur chinois de la GenAI, a publié ce jeudi 26 décembre la dernière version de son modèle éponyme. L’annonce de DeepSeek-V3 a d’autant plus suscité l’attention que les performances du modèle seraient comparables, voire supérieures à celles de principaux modèles à source fermée, comme GPT-4o ou Claude 3.5 Sonnet, et ce, malgré un coût d’entraînement drastiquement réduit.
Alors que la guerre technologique autour de l’IA entre les Etats-Unis et la Chine continue de s’intensifier avec l’annonce il y a moins d’un mois de nouvelles restrictions, DeepSeek démontre qu’il est néanmoins possible de développer des LLMs capables de rivaliser avec les meilleurs modèles américains.
Créée en mai 2023 à Hangzhou, la start-up, dirigée par Liang Wenfeng, est une filiale du fonds spéculatif High-Flyer. Son ambition est la même que celle affichée par OpenAI : développer une IA au service de l’humanité et atteindre l’IAG, des systèmes d’IA qui dépassent les capacités cognitives des êtres humains dans de nombreux domaines.
Tout juste un an plus tard, l’entreprise lançait DeepSeek-V2, un modèle de langage performant proposé à un coût compétitif, déclenchant une guerre des prix sur le marché chinois de l’IA et amenant ses principaux concurrents notamment Zhipu AI, ByteDance, Alibaba, Baidu, Tencent à revoir leurs prix à la baisse.
La semaine dernière, elle a présenté son successeur, DeepSeek-V3, comptant 671 milliards de paramètres, entraîné durant un peu moins de deux mois grâce aux GPU H 800 que les USA autorisaient NVIDIA à lui vendre jusqu’à l’an passé. Un total de 2 788 000 heures estimé à un coût de 5 576 000 par million de tokens en entrée, 1,10 $ par million de tokens en sortie.
Le modèle est téléchargeable sur Hugging Face. Le code complet ainsi qu’une documentation technique détaillée sont quant à eux disponibles sur GitHub.