Anthropic annonce le lancement de Claude 3.5 Sonnet, un sérieux concurrent à GPT-4o

En mars dernier, Anthropic annonçait la dernière itération de sa famille de modèles d’IA générative Claude, se déclinant sous trois versions : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus, par ordre de performances. Elle lance à présent Claude 3.5 Sonnet, “sa première version de la prochaine famille de modèles Claude 3.5”. Claude 3.5 Sonnet surpasse les modèles concurrents, dont le modèle phare d’OpenAI, GPT-4o, et Claude 3 Opus sur un large éventail d’évaluations.

Claude 3.5 Sonnet est désormais disponible gratuitement sur Claude.ai et via l’application iOS Claude, il est également accessible via l’API Anthropic, Amazon Bedrock, et Google Cloud’s Vertex AI. Les abonnés aux offres Claude Pro et Team bénéficient de limites de débit plus élevées. La tarification est fixée à 3 $ par million de jetons d’entrée et 15 $ par million de jetons de sortie, avec une capacité de fenêtre contextuelle de 200 000 jetons.

Performances et intelligence avancées

Selon Anthropic:

“Claude 3.5 Sonnet montre une nette amélioration de la compréhension des nuances, de l’humour et des instructions complexes, et est exceptionnel pour écrire un contenu de haute qualité avec un ton naturel et pertinent”.

Anthropic a comparé ses performances à celles de Claude 3 Opus, jusqu’alors son modèle le plus puissant, ainsi qu’à GPT-4o, Gemini 1.5 Pro de Google et à Llama-400b de Meta. Comme on peut le voir dans le tableau ci-dessous, Claude 3.5 Sonnet établit de nouvelles références pour le raisonnement de niveau supérieur (GPQA), les connaissances universitaires (MMLU) et la maîtrise du codage (HumanEval).

De plus, il fonctionne deux fois plus vite que Claude 3 Opus, ce qui le rend idéal pour des tâches complexes comme le support client contextuel et l’orchestration de flux de travail en plusieurs étapes.

Codage et résolution de problèmes

Lors d’une évaluation interne de codage, Claude 3.5 Sonnet a résolu 64 % des problèmes, surpassant Claude 3 Opus qui en a résolu 38 %. Cette évaluation teste la capacité du modèle à corriger des bogues ou à ajouter des fonctionnalités à une base de code open source à partir d’une description en langage naturel. Claude 3.5 Sonnet peut écrire, éditer et exécuter du code de manière indépendante avec des capacités de raisonnement sophistiquées, gérant aisément les traductions de code, ce qui le rend particulièrement efficace pour la mise à jour des applications existantes et la migration des bases de code.

Vision avancée

Claude 3.5 Sonnet a également surpassé Claude 3 Opus sur les benchmarks de vision standard. Les améliorations sont particulièrement visibles dans les tâches nécessitant un raisonnement visuel, comme l’interprétation de tableaux et de graphiques. Il peut également transcrire avec précision du texte à partir d’images imparfaites, une capacité essentielle pour des secteurs comme le commerce de détail, la logistique et les services financiers.

Introduction des Artefacts

En marge du lancement de Claude 3.5 Sonnet, Anthropic annonce les Artefacts sur Claude.ai, une nouvelle fonctionnalité qui transforme l’interaction des utilisateurs avec Claude. Désormais, lorsque les utilisateurs sollicitent Claude pour la création de contenus tels que des morceaux de code, des fichiers texte ou des maquettes de sites web, ces éléments sont générés dans un volet spécial, juste à côté de leur dialogue en cours. Cet ajout offre un environnement de travail interactif où les utilisateurs peuvent non seulement visualiser mais aussi éditer et enrichir les productions de Claude en direct, ce qui leur permet d’intégrer de manière fluide le contenu généré par l’IA dans leurs projets.

Nouvelles fonctionnalités et perspectives

Anthropic déclare vouloir “améliorer la courbe de compromis entre intelligence, vitesse et coût tous les quelques mois”, Claude 3.5 Haiku et Claude 3.5 Opus qui seront lancés plus tard cette année devraient afficher eux aussi des performances nettement améliorées par rapport à leurs prédécesseurs. La start-up travaille parallèlement au développement de nouvelles fonctionnalités, notamment à celui de “Memory”, qui permettra à Claude de se souvenir des préférences des utilisateurs et de l’historique des interactions, rendant l’expérience encore plus personnalisée et efficace.

Performances et intelligence avancées

Codage et résolution de problèmes

Vision avancée

Introduction des Artefacts

Nouvelles fonctionnalités et perspectives

Recommandé pour vous :