En juin dernier, Anthropic lançait Claude 3.5 Sonnet, la première version de sa famille de modèles Claude 3.5. Mardi dernier, l’entreprise a présenté les améliorations apportées à ce modèle, notamment en matière de codage, et son dernier ajout à la famille : Claude 3.5 Haiku, un modèle qui égale les performances de Claude 3 Opus, son modèle le plus puissant. Elle a également introduit Computer Use, une fonctionnalité expérimentale d’interaction avec les ordinateurs qui fait, selon elle, de Claude 3.5 Sonnet “le premier modèle d’IA de pointe à offrir une utilisation informatique en version bêta publique”.
Cette fonctionnalité d’utilisation de l’ordinateur, disponible en version bêta, permet aux développeurs de demander au modèle d’interagir avec des interfaces graphiques en simulant les actions humaines, telles que déplacer le curseur ou cliquer sur un bouton.
Claude traduit ainsi les instructions comme “utiliser les données de mon ordinateur et les données en ligne pour remplir ce formulaire” en commandes informatiques : “vérifier une feuille de calcul, déplacer le curseur pour ouvrir un navigateur Web, naviguer vers les pages Web pertinentes, remplir un formulaire avec les données de ces pages…”.
Anthropic explique :
“Lorsqu’un développeur charge Claude d’utiliser un logiciel informatique et lui donne l’accès nécessaire, Claude regarde des captures d’écran de ce qui est visible par l’utilisateur, puis compte le nombre de pixels verticalement ou horizontalement dont il a besoin pour déplacer un curseur afin de cliquer au bon endroit. Il était essentiel d’apprendre à Claude à compter les pixels avec précision. Sans cette compétence, le modèle a du mal à donner des commandes à la souris, de la même manière que les modèles ont souvent du mal à répondre à des questions simples telles que « combien de A dans le mot « banane » ?”
Des entreprises comme Asana, Canva, Cognition, DoorDash, Replit et The Browser Company, exploitent déjà cette capacité pour automatiser des processus complexes qui peuvent nécessiter des dizaines, voire des centaines d’étapes.
Sur OSWorld, qui évalue la capacité des modèles d’IA à utiliser les ordinateurs comme le font les humains, Claude 3.5 Sonnet a obtenu un score de 14,9 % dans la catégorie des captures d’écran uniquement, ce qui est nettement mieux que le score de 7,8 % du meilleur système d’IA. Lorsqu’on lui a donné plus d’étapes pour accomplir la tâche, Claude a obtenu un score de 22,0 %.
Les développeurs peuvent l’essayer via l’API d’Anthropic, Amazon Bedrock et la plateforme Vertex AI de Google Cloud. Anthropic avertit toutefois qu’à ce stade expérimental, le modèle peut être sujet aux erreurs et recommande de ne pas lui donner accès à des données sensibles. L’entreprise a fait le choix de le publier pour recueillir leurs commentaires.
Claude 3.5 Sonnet : des gains en codage et en usage d’outils
Le modèle Claude 3.5 Sonnet montre des améliorations notables par rapport à ses versions précédentes, notamment dans des domaines critiques tels que le codage et l’utilisation d’outils. Selon les benchmarks de l’industrie, Sonnet a amélioré son score sur SWE-bench Verified, un test évaluant les capacités de codage agentique, passant de 33,4 % à 49 %. Cette progression est également visible sur TAU-bench, un benchmark évaluant l’utilisation d’outils en situation réelle, où Sonnet a amélioré ses performances dans les secteurs de la vente au détail et de l’aviation.
Des entreprises comme GitLab et The Browser Company, qui ont testé Sonnet pour des tâches complexes de développement logiciel et d’automatisation de processus web, ont signalé une meilleure capacité à suivre des instructions et à résoudre des problèmes sans augmenter les délais d’exécution.
Claude 3.5 Haiku : rapidité et performance
Claude 3.5 Haiku, de son côté, se positionne comme un modèle plus rapide, tout en offrant des performances similaires à celles de Claude 3 Opus, un modèle plus volumineux de la génération précédente. Il est particulièrement efficace pour les tâches nécessitant une génération rapide de texte, ainsi que pour l’analyse et l’exploitation de grandes bases de données. Haiku se distingue par sa faible latence et son coût maîtrisé, en faisant un choix adapté pour des produits interactifs ou des tâches spécialisées à grande échelle.