Structured Outputs, la réponse d'OpenAI aux défis des schémas JSON

La génération de données structurées à partir d’entrée non structurée est l’un des principaux cas d’utilisation de l’IA dans les applications. Cependant, garantir que les modèles d'IA génèrent des sorties conformes à des formats stricts, comme les schémas JSON, a toujours été un défi. Pour répondre à cette problématique, OpenAI a récemment introduit "Structured Outputs" dans son API, une nouvelle fonctionnalité conçue pour que les réponses générées par le modèle respectent exactement les schémas JSON fournis par les développeurs.

Les développeurs ont longtemps été confrontés à la difficulté de s'assurer que les LLMs produisent des sorties JSON conformes aux attentes. Bien que des améliorations comme le mode JSON, introduit l'an passé par OpenAI, aient permis de produire des sorties plus fiables, ces modèles ne pouvaient pas toujours garantir une correspondance exacte avec des schémas complexes. Une incertitude qui obligeait les développeurs à recourir à des solutions de contournement, comme l’utilisation d’outils open source ou la répétition de requêtes, pour ajuster manuellement les sorties du modèle.

La solution : Structured Outputs

Les sorties structurées introduites par OpenAI changent la donne en offrant une solution claire à ce problème. L'une de leurs principales forces est leur capacité à améliorer la fiabilité des modèles d'IA dans des cas d'utilisation critiques, tels que l'extraction de données structurées, la saisie de données ou encore la gestion de flux de travail complexes. En éliminant le besoin d’interventions manuelles, les sorties structurées permettent aux développeurs de se concentrer sur la création d’applications plus sophistiquées et plus robustes.

Lors d'évaluations internes de schémas JSON complexes réalisées par OpenAI, le modèle gpt-4o-2024-08-06 utilisant cette nouvelle fonctionnalité a atteint une fiabilité de 100%, surpassant largement les versions précédentes, notamment gpt-4-0613, qui avait obtenu un score inférieur à 40 %.

Deux approches pour une flexibilité maximale

OpenAI a introduit les sorties structurées sous deux formes dans son API, offrant ainsi une flexibilité optimale pour les développeurs :

Via l'appel de fonction : les développeurs peuvent activer les sorties structurées en les définissant dans la définition de fonction utilisée, par exemple en utilisant strict: true dans les paramètres de l'outil. Cette méthode est compatible avec tous les modèles prenant en charge les outils, et garantit que les résultats générés par le modèle sont conformes aux spécifications de l'outil défini. Cette approche est idéale pour les scénarios où le modèle doit interagir avec des systèmes complexes via des appels d'API ;
Via le paramètre "response_format" : pour les cas où le modèle répond directement à l'utilisateur sans appel d'outil, OpenAI a introduit le paramètre response_format. Cette nouvelle option permet de fournir un schéma JSON que le modèle doit suivre pour générer sa réponse. Disponible avec les nouveaux modèles GPT-4o, cette approche assure que la sortie du modèle est strictement conforme au schéma fourni, même sans utilisation d’un outil externe.

Respect des politiques de sécurité

Les sorties structurées respectent les politiques de sécurité existantes d'OpenAI : même avec cette nouvelle fonctionnalité, le modèle conserve la capacité de refuser de répondre à une demande qu'il considère comme non sécurisée.

Pour faciliter le travail des développeurs, OpenAI a introduit une nouvelle valeur de chaîne dans les réponses de l'API qui permet de détecter par programmation si le modèle a refusé de répondre à une demande plutôt que de produire une sortie conforme au schéma fourni.

OpenAI a également mis à jour ses SDK Python et Node pour qu'ils prennent en charge nativement les sorties structurées, afin de faciliter l'intégration de cette nouvelle fonctionnalité dans leurs applications.

Tendances

Comprendre l'IA

Applications de l'IA

Structured Outputs, la réponse d'OpenAI aux défis des schémas JSON

Sommaire

La solution : Structured Outputs

Deux approches pour une flexibilité maximale

Respect des politiques de sécurité