En mars dernier, Anthropic ouvrait l’accès à son assistant d’IA qu’elle proposait en deux versions : Claude, un modèle haute performance à la pointe de la technologie, et Claude Instant, une option plus légère, moins chère et beaucoup plus rapide. Après avoir dévoilé Claude 2, elle présente Claude Instant 1,2, disponible pour les entreprises via son API.
Conçu pour gérer une gamme de tâches telles que le dialogue informel, l’analyse de texte, le résumé et la compréhension de documents, Claude Instant 1,2 hérite des points forts de Claude 2, annoncé le 11 juillet dernier, accessible lui aussi via une API mais également sur un nouveau site Web bêta public, claude.ai. Actuellement il n’est disponible qu’aux États-Unis et au Royaume-Uni, mais Anthropic travaille à son déploiement mondial dans les mois à venir.
Alors que la société avait apporté des améliorations à sa famille de modèles Claude dans des domaines clés comme le codage, les mathématiques et le raisonnement, celle de Claude Instinct 1,2 montre également des gains significatifs dans le domaine de la sécurité.
Il génère lui aussi des réponses plus longues et plus structurées et suit mieux les instructions de formatage. Claude Instant 1.2 montre également des améliorations dans l’extraction de devis, les capacités multilingues et la réponse aux questions.
Claude Instant 1,1 vs Claude Instant 1,2
Anthropic a comparé les 2 versions : Claude Instant 1.2 surpasse Claude Instant 1.1 en mathématiques et en codage, atteignant 58,7% à l’évaluation du Codex contre 52,8% pour le modèle précédent. Il a également obtenu un score de 86,7% sur le benchmark GSM8K, contre 80,9% pour Claude Instant 1.1.
Sur les autres tests de référence menés, il enregistre des pertes minimes sauf sur ARC-Challenge où il obtient un petit gain de 0,6%.
Instant 1,2 le modèle le plus performant d’Anthropic en matière de sécurité
L’Automated Red-Teaming Evaluation couvre non seulement l’exploration des vulnérabilités de sécurité, mais comprend également la recherche d’autres défaillances du système, telles que la génération de contenu potentiellement dangereux.
Instant 1,2 améliore la sécurité : il est le modèle Claude qui hallucine le moins et le plus résistant aux jailbreaks. Anthropic démontre une fois encore qu’il est un sérieux concurrent à OpenAI.
Références : blog Anthropic