Démentant les rumeurs sur le report du lancement de son modèle, Google a présenté hier le fruit des travaux des équipes de DeepMind et Google Research : Gemini, que Sundar Pichai présente comme “le modèle le plus performant et le plus général que nous ayons jamais construit”. La 1ère version de la réponse de Google à GPT-4 se décline sous 3 tailles : Gemini Ultra, Gemini Pro et Gemini Nano.
Gemini 1.0 a été entraîné à l’aide des TPU v4 et v5e conçus en interne par Google, son développement sera accéléré par Cloud TPU v5p, conçu pour l’entraînement de modèles d’IA de pointe, présenté ce 7 décembre.
Gemini, doté de capacités de raisonnement multimodal, a été dévoilé sur le blog de Google mais également présenté à la presse. Eli Collins, vice-président de Google DeepMind, a alors affirmé :
“C’est notre modèle d’IA le plus conséquent, le plus doué et aussi le plus général”.
Il a ensuite diffusé la vidéo ci-dessous où on a un aperçu des prouesses du modèle.
Gemini Nano
Gemini Nano, est d’ores et déjà disponible pour Pixel 8 Pro où il alimente de nouvelles fonctionnalités dans l’application Recorder, notamment la transcription écrite de propos enregistrés ou leur résumé, ainsi que le déploiement de Smart Reply dans Gboard, à commencer par WhatsApp.
Une mise à niveau de Bard avec Gemini Pro
Une version affinée de Gemini Pro augmente les capacités de Bard notamment pour le raisonnement, la compréhension, la planification, le résumé et le code. Google dit avoir constaté d’excellents résultats : dans les évaluations à l’aveugle avec des évaluateurs tiers, Bard est désormais le chatbot gratuit préféré par rapport aux principales alternatives.
Il est disponible en anglais dans plus de 170 pays et territoires. Google prévoit de l’étendre à différentes modalités et de prendre en charge de nouvelles langues et de nouveaux lieux, notamment l’Europe, dans un avenir proche. Tester Bard
Google s’est associé au YouTuber Mark Rober “pour mettre Bard avec Gemini Pro à l’épreuve ultime : fabriquer l’avion en papier le plus précis”. .
Gemini Ultra disponible début 2024
Pour ce modèle plus sophistiqué, Google et une équipe rouge effectuent actuellement des contrôles approfondis de confiance et de sécurité. Google affine encore le modèle à l’aide d’un réglage fin et d’un apprentissage par renforcement à partir des commentaires humains (RLHF) avant de le rendre largement disponible, notamment dans Bard.
Les performances de Gemini
Gemini est nativement multimodal, pré-entraîné dès le départ sur différentes modalités et affiné avec des données multimodales supplémentaires pour augmenter encore ses performances.
Google a testé les modèles Gemini et évalué leurs performances sur une grande variété de tâches : “De la compréhension de l’image naturelle, de l’audio et de la vidéo au raisonnement mathématique, les performances de Gemini Ultra dépassent les résultats actuels de l’état de l’art sur 30 des 32 références académiques largement utilisées dans la recherche et le développement de grands modèles de langage (LLM)”.
Avec un score de 90,0 %, Gemini Ultra est ainsi le premier modèle à surpasser les experts humains en MMLU (Massive Multitask Language Understanding), qui utilise une combinaison de 57 matières telles que les mathématiques, la physique, l’histoire, le droit, la médecine et l’éthique pour tester à la fois les connaissances du monde et les capacités de résolution de problèmes.
Google l’a également comparé à GPT-4 sur différents benchmarks, Gemini le surpasse sauf pour l’inférence de sens commun dans HellaSwag.
Il a également surpassé GPT-4V sur une gamme de benchmarks multimodaux.
Le meilleur collaborateur d’IA
Avec Gemini Pro qui surpasse GPT-3,5, Bard se présente déjà comme un sérieux concurrent à ChatGPT, avec les nouvelles capacités que lui apporteront Gemini Ultra, Google pourrait bien faire de lui, comme il le vise, le meilleur collaborateur d’IA.
A partir du 13 décembre, les développeurs et les entreprises clientes pourront accéder à Gemini Pro via l’API Gemini dans Google AI Studio ou Google Cloud Vertex AI.
Dans les mois à venir, Gemini sera disponible dans Chrome et Duet AI.