La start-up chinoise DeepSeek a lancé discrètement DeepSeek-V3-0324, une mise à jour de son modèle open source éponyme DeepSeek-V3. Cette nouvelle version, dont les capacités en mathématiques et programmation ont été optimisées, pourrait préfigurer DeepSeek R2, dont la sortie est attendue prochainement. Le modèle, publié sous licence MIT, l'une des plus permissives, est disponible sur Hugging Face.
Ce lancement n'a été accompagné d'aucun communiqué de la start-up créée en mai 2023 à Hangzhou, dirigée par Liang Wenfeng et filiale du fonds spéculatif High-Flyer.
Alors que DeepSeek-V3, compte 671 milliards de paramètres, DeepSeek-V3-0324 en affiche 685 milliards et est alimenté par un cluster de 32 000 GPUs, ce qui en fait l'un des modèles open source les plus puissants de sa catégorie. Il s'appuie sur une architecture Mixture-of-Experts développée pour ses prédécesseurs, DeepSeekMoE, composée comme son nom l'indique, de divers experts spécialisés. Ces derniers sont activés selon les besoins spécifiques des requêtes grâce à un mécanisme de routage intelligent, ce qui permet au modèle de gérer efficacement une variété de tâches tout en réduisant la charge computationnelle.
Il devrait adopter également leur architecture innovante Multi-head Latent Attention (Attention Latente Multi-têtes ou MLA), une approche qui permet de compresser de manière conjointe les clés et les valeurs d'attention, diminuant ainsi la taille du cache Key-Value (KV) pendant l'inférence, réduisant l’utilisation de la mémoire tout en améliorant l'efficacité du traitement.
Si DeepSeek présente cette version comme une mise à jour mineure de DeepSeek V3 sur X, les premiers commentaires, quelques heures à peine après le lancement, soulignent de réelles avancées, notamment en mathématiques et programmation.
Les performances de DeepSeek continuent d'alimenter les spéculations. Le modèle DeepSeek R1, le premier modèle de raisonnement de la startup, basé sur V3, et dont les capacités de raisonnement avancées avaient surpris les experts avec des coûts d'entraînement et d'utilisation, nettement inférieurs à ceux de ses concurrents américains, avaient réussi à perturber Wall Street.
Les performances de DeepSeek continuent d'alimenter les spéculations. Le modèle DeepSeek R1, le premier modèle de raisonnement de la startup, basé sur V3, et dont les capacités de raisonnement avancées avaient surpris les experts avec des coûts d'entraînement et d'utilisation, nettement inférieurs à ceux de ses concurrents américains, avaient réussi à perturber Wall Street.
Selon un article publié par La Tribune hier, les Etats-Unis veulent trouver une explication au "mystère DeepSeek" dans une possible contrebande de puces Nvidia. Aucune hypothèse technique n'est à écarter, mais ce serait une erreur de ne pas voir en DeepSeek un nouvel acteur de référence en IA Open Source, comme en atteste ce dépôt github extrêmement intéressant.