La semaine dernière, Google dévoilait son modèle multimodal GEMINI. Sur son blog, il révélait les performances de Gemini pro et Gemini Ultra, tandis que lors de la présentation à la presse le même jour, il illustrait les prouesses du modèle via une vidéo, qui a suscité l’enthousiasme quant à ses capacités. Google avait précisé que pour les besoins de la démo, la latence avait été réduite et les réponses du modèle raccourcies, mais a omis de dire que les invites n’étaient pas vocales mais en fait textuelles…
Alors que Google DeepMind doit présenter Gemini lors de la 37ème conférence annuelle sur les systèmes de traitement de l’information neuronale (NeurIPS), la plus grande conférence mondiale sur l’IA qui se tient cette semaine à la Nouvelle-Orléans, la société fait front à de nombreuses critiques, certains l’accusant tout simplement d’avoir menti sur les performances de son modèle.
Gemini est nativement multimodal, pré-entraîné dès le départ sur différentes modalités et affiné avec des données multimodales supplémentaires pour augmenter encore ses performances.
Google a testé Gemini Ultra, le version la plus puissante du modèle et évalué ses performances sur une grande variété de tâches : “De la compréhension de l’image naturelle, de l’audio et de la vidéo au raisonnement mathématique, les performances de Gemini Ultra dépassent les résultats actuels de l’état de l’art sur 30 des 32 références académiques largement utilisées dans la recherche et le développement de grands modèles de langage (LLM)”.
La vidéo de présentation utilise Gemini Ultra, toujours en cours de tests, alors que Bard pour l’instant n’est alimenté que par la version Pro. Elle a été faite à partir d’invites textuelles et d’images fixes comme l’explique Google sur son blog pour les développeurs, où il montre comment il a entraîné son modèle pour le jeu pierre-papier-ciseaux.
Oriol Vinyals, Vice-président de la recherche et responsable Deep Learning chez Google DeepMind se contente de préciser sur X que “toutes les invites et sorties de l’utilisateur dans la vidéo sont réelles, raccourcies pour plus de concision. La vidéo illustre à quoi pourraient ressembler les expériences utilisateur multimodales créées avec Gemini. Nous l’avons conçu pour inspirer les développeurs”.
La vidéo incluse montre toutefois que les interactions avec Gemini Pro sont textuelles.
Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. https://t.co/50gjMkaVc0
We gave Gemini sequences of different modalities — image and text in this case — and had it respond… pic.twitter.com/Beba5M5dHP
— Oriol Vinyals (@OriolVinyalsML) December 7, 2023
La vidéo a été vue des millions de fois en quelques jours, Google aurait mieux fait d’y préciser que les invites étaient en réalité textuelles et non vocales, c’est un fait certain. En voulant faire sensation, elle a suscité des interrogations sur la transparence de la communication autour de ses avancées technologiques.
Malgré ces controverses, Gemini reste un modèle multimodal impressionnant.