L’avancement des LLMs repose souvent sur leur capacité à traiter des volumes croissants de données dans des contextes plus longs et plus complexes. Avec le lancement des modèles open source Qwen2.5-7B-Instruct-1M et Qwen2.5-14B-Instruct-1M, l'équipe Qwen d'Alibaba Cloud place la barre très haut.

Pour permettre aux développeurs de déployer plus efficacement les modèles de la série Qwen2.5-1M, ceux-ci sont accompagnés d'un cadre d'inférence innovant, intégrant une méthode d'extrapolation de longueur et une méthode d'attention clairsemée, visant à réduire les coûts d'inférence et à améliorer la précision.

Les avancées techniques de Qwen2.5-1M

L’entraînement avec des séquences aussi longues représente un défi monumental en termes de calcul. L’équipe Qwen a adopté une approche progressive :
  • Augmentation graduelle : les modèles passent de 4K à 256K jetons au pré-entraînement, grâce à l’ajustement de la fréquence de base RoPE ;
  • Fine-tuning supervisé : une stratégie en deux étapes combine des instructions courtes (32K jetons) et longues (jusqu’à 256K jetons), garantissant une performance équilibrée ;
  • Extrapolation à 1 M : l’intégration de l’attention à double bloc (DCA) permet de gérer des distances de position relative invisibles pendant l’entraînement classique, tout en évitant une dégradation des performances.

Optimisations de l’inférence

Les besoins matériels pour traiter des contextes longs sont élevés, mais l’attention clairsemée et d’autres améliorations ont permis de réduire ces contraintes :
  • Chunked Prefill : cette méthode divise les séquences en blocs pour diminuer l’utilisation de la mémoire vive (VRAM) d’activation jusqu’à 96,7 % ;
  • Optimisation du parallélisme : une meilleure gestion des ressources GPU assure une exécution fluide même sur des dispositifs limités ;
  • Efficacité accrue : ces optimisations aboutissent à une augmentation de la vitesse de traitement, qui peut être jusqu’à 6,7 fois supérieures à celle des modèles classiques.

Performances de la famille de modèles Qwen2.5-1M

Tâches à contexte long

La série Qwen2.5-1M comprend actuellement les modèles open source Qwen2.5-7B-Instruct-1M et Qwen2.5-14B-Instruct-1M, ainsi que le modèle accessible via API Qwen2.5-Turbo, qui alimente désormais Qwen Chat.

Les modèles Qwen2.5-1M excellent sur des benchmarks complexes comme RULER, LV-Eval et LongBenchChat, souvent utilisés pour tester la compréhension de longs contextes, où ils surpassent leurs homologues 128K dans la plupart des tâches à contexte long, en particulier pour les séquences de plus de 64 Ko.

Le modèle 14B-Instruct-1M surpasse non seulement Qwen2.5-Turbo, mais aussi des modèles concurrents comme GPT-4o-mini, offrant une alternative open-source robuste pour les tâches à contexte long.

Évalués sur la tâche Passkey Retrieval, leurs résultats démontrent qu'ils peuvent récupérer avec précision des informations cachées dans des documents contenant jusqu’à 1 million de jetons, avec seulement des erreurs mineures observées dans le modèle 7B.

Tâches à contexte court

L'équipe a comparé les performances des modèles Qwen2.5-1M sur des séquences courtes par rapport à celles de leurs versions 128K et de GPT-4o-mini. Ils ont constaté que les versions 1M sont aussi précises que leurs homologues 128K sur des tâches classiques et qu'avec une longueur de contexte huit fois supérieure à celle de GPT-4o-mini, les modèles Qwen2.5-14B-Instruct-1M et Qwen2.5-Turbo atteignent des performances similaires au modèle d'OpenAI.

Le lancement de Qwen2.5-1M marque un tournant pour les modèles à contexte long, repoussant les limites techniques tout en élargissant le champ des possibles pour les applications qui nécessitent un traitement contextuel étendu telles que l’analyse juridique ou la gestion documentaire.

Pour plus d'informations sur les modèles, cliquer ici.