Alors que les spéculations allaient bon train sur l’arrivée prochaine de GPT-5, OpenAI crée une fois de plus la surprise en présentant ce 13 mai GPT-4o (“o” pour omni) qu’il présente comme son “nouveau modèle phare qui peut raisonner sur l’audio, la vision et le texte en temps réel”.
GPT-4o, qui fait de ChatGPT un assistant vocal, représente une avancée vers des interactions plus naturelles et fluides entre les humains et les machines. Avec une capacité de traitement des commandes audio en seulement 232 millisecondes et de 320 millisecondes en moyenne, il se rapproche de la vitesse de réaction humaine dans les échanges verbaux.
Il offre des performances comparables à celles de GPT-4 Turbo pour le traitement du texte en anglais et du code, mais des performances nettement améliorées pour les autres langues, le tout à une vitesse accrue. En termes de reconnaissance visuelle et de compréhension audio, GPT-4o dépasse, selon les tests réalisés par OpenAI, les modèles existants.
Les fonctionnalités de traitement de texte et d’image de GPT-4o intégrées dans ChatGPT sont accessibles aux utilisateurs de la version gratuite et, avec des limites de messages jusqu’à cinq fois plus élevées, à ceux de ChatGPT Plus. Les utilisateurs gratuits pourront par exemple lui demander de créer des graphiques, d’analyser les données ou des photos. Il leur sera également possible de télécharger des fichiers et obtenir de l’aide pour les résumer, rédiger ou les analyser et d’accéder aux GPT et au GPT Store.
OpenAI prévoit de déployer le mode vocal de GPT-4o en version alpha dans ChatGPT Plus dans les prochaines semaines.
Les développeurs peuvent désormais accéder à GPT-4o via l’API pour le traitement de texte et d’image. Comparé à GPT-4 Turbo, GPT-4o est deux fois plus rapide, deux fois moins cher et propose des limites de débit cinq fois plus élevées. La prise en charge des nouvelles capacités audio et vidéo de GPT-4o dans l’API sera déployée par la start-up à un petit groupe de partenaires de confiance dans les semaines à venir.
La start-up a présenté le nouveau modèle sur son blog et lors d’une vidéo en direct dont elle a partagé des extraits sur X.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
Live demo of coding assistance and desktop app pic.twitter.com/GlSPDLJYsZ
— OpenAI (@OpenAI) May 13, 2024