Gemini 2.0 Flash, le modèle qui ouvre la voie aux agents d’IA de Google

Google a annoncé ce mercredi 11 décembre le lancement de Gemini 2.0 Flash, le premier modèle de la famille Gemini 2, conçue selon lui pour l’ère agentique. Ce modèle est d’ores et déjà disponible en tant que modèle expérimental pour les développeurs et les testeurs de confiance via l’API Gemini dans Google AI Studio et Vertex AI. Sa disponibilité générale est prévue pour janvier 2025.

Google a présenté Gemini il y a tout juste un an, Gemini 1.5 Flash a, quant à lui été dévoilé en mai dernier lors de la conférence Google I/O 2024. Optimisé pour la vitesse et l’efficacité, il a été entraîné par 1.5 Pro grâce à un processus appelé “distillation”, où les connaissances et les compétences les plus essentielles d’un modèle plus grand sont transférées vers un modèle plus petit et plus efficace.

Les performances du modèle ont été améliorées en matière de multimodalité, de texte, de code, de vidéo, de compréhension spatiale et de raisonnement tandis que la latence a été réduite. Flash 2.0 prend en charge les entrées multimodales comme les images, la vidéo et l’audio ainsi que les sorties multimodales, telles que la génération d’images combinées avec du texte et de l’audio multilingue TTS (Text-to-Speech). Il permet également l’intégration native d’outils tels que Google Search, l’exécution de code et des fonctions tierces définies par l’utilisateur.

L’équipe de recherche Gemini a comparé les performances du nouveau modèle avec celles de Gemini 1.5 Flash et Pro. Il surpasse même 1.5 Pro sur les principaux benchmarks, tout en étant deux fois plus rapide.

Projets de recherche

Google a également partagé plusieurs projets illustrant sa vision d’assistants d’IA universels, utiles au quotidien. Ces prototypes cherchent à transformer l’IA en des agents polyvalents, capables de comprendre le contexte d’une situation, de planifier des actions et d’effectuer des tâches à la place des utilisateurs, tout en interagissant de manière transparente avec d’autres systèmes.

Project Astra, présenté en mai dernier, a ainsi été mis à jour grâce aux capacités multimodales de Gemini 2.0. Ce prototype montre comment un assistant IA peut interagir dans des conversations multilingues, se souvenir de sessions passées et utiliser des outils comme Google Maps ou Lens.

Project Mariner, de son côté, explore la possibilité pour des agents IA d’assister l’utilisateur dans la navigation sur le web en analysant des éléments de page et en effectuant des actions spécifiques dans le navigateur.

Enfin, Jules, un agent de code alimenté par l’IA, assiste les développeurs. Il s’intègre dans leurs flux de travail GitHub pour gérer les corrections de bogues et autres tâches chronophages.

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.
Partager l'article
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.