Depuis 2015, le programme start-up d’OVHcloud accompagne les jeunes structures (start-up et scale-up depuis 2020) de la même manière qu’un accélérateur de start-up. Accompagnements spécifiques, financiers, au niveau des infrastructures, de la visibilité, et grâce à l’écosystème de partenaires de l’entreprise d’hébergement, les jeunes pousses bénéficient d’un suivi tout particulier dans le cadre de cette initiative. Customs Bridge est l’une des start-up qui ont pu bénéficier de ce programme. Focus sur cette deeptech qui entraîne ses modèles d’IA avec l’aide d’OVHcloud.
Customs Bridge, une deeptech spécialisée dans les outils d’IA pour aider les importateurs européens
Fondée en octobre 2020, Customs Bridge est une “deeptech”, à savoir une start-up dont le cœur de la technologie s’appuie sur des algorithmes d’IA afin de créer un moteur de classification de produits automatique. La start-up destine ce service aux importateurs européens, car chaque produit importé dans l’Union européenne doit être précisément catégorisé selon une nomenclature qui compte plus de 24 000 entrées. Le Dr. Hamza Saouli, directeur de l’innovation de Customs Bridge évoque le partenariat avec OVHcloud :
“Nous avons pu bénéficier du programme “Start-Up” d’OVHcloud, ce qui nous a permis de commencer à utiliser leurs services cloud dédiés à l’IA très rapidement. Le service OVHcloud AI Training nous a permis ainsi de réaliser l’apprentissage de nos modèles de machine learning qu’il nous était impossible de mener sur nos propres machines on-premise.”
Néanmoins, le défi pour eux est de taille. L’objectif de Customs Bridge est de créer un moteur de classification de produits le plus fiable possible afin d’affecter le bon code douanier à un produit dont le descriptif n’est absolument pas formalisé. Cette classification peut s’avérer problématique, car ce code doit être uniforme dans l’ensemble des pays de l’Union européenne, mais à l’international les catégories peuvent varier d’un pays à l’autre, selon que le fabricant exporte ses produits en Europe, aux États-Unis ou en Chine. Des subtilités dans le descriptif d’un produit peuvent aussi le faire basculer d’une catégorie à une autre, un bracelet-montre n’étant pas classifié de la même façon qu’une chaîne de montre.
Comment surmonter la difficulté de la classification et de la capacité de traitement pour l’entraînement des modèles ?
Dans les phases initiales du projet, le directeur de l’innovation de Customs Bridge a principalement utilisé les algorithmes IA les plus connues pour leur efficacité et leur rapidité telles que le SVM et les arbres de décision, mais avec l’augmentation de la taille du jeu de données d’entraînement, l’utilisation de ces derniers s’est avéré ne plus être une bonne solution, ce qui a poussé l’équipe IA de Customs Bridge à adopter des modèles plus avancés tels que les réseaux de neurones (via l’API de Deep Learning Keras) et les Transformers, des algorithmes qui sont aujourd’hui à l’état de l’art dans la classification sémantique.
Hamza Saouli évoque comment ses équipes ont réussi à concevoir des modèles performants :
“Pour réaliser l’apprentissage de nos modèles d’intelligence artificielle, nous avons commencé par utiliser des données accessibles en Open Data, notamment la base de données communautaire EBTI (European Binding Tariff Information). Cette base de données compte 250 000 lignes, mais elle ne couvre que 10% à 15% de la nomenclature complète.”
Pour entraîner ses premiers modèles de Transformers, les équipes de la start-up se sont appuyées sur environ 2,5 To de données. Pour les modèles de Machine Learning, les volumes de données sont plus faibles, de l’ordre de 30 à 40 Go de données d’entraînement.
Toutefois, un second problème est apparu : la capacité de traitement disponible pour entraîner ses modèles d’IA. Si les 3 PC équipés de GPU étaient suffisants pour entraîner les modèles les plus simples, cette infrastructure va rapidement arriver à ses limites et pousser l’équipe de Customs Bridge à opter pour une solution Cloud, idéale pour faire face à un besoin d’une forte puissance de calcul et de mémoire RAM de manière intermittente. C’est la raison qui a poussé Customs Bridge à s’intéresser aux offres IA & Machine Learning d’OVHcloud, c’est ce qu’explique Hamza Saouli :
“Initialement, nous avions pensé pouvoir réaliser l’entraînement de nos modèles sur nos propres machines dotées de GPU. Cette approche est rapidement arrivée dans une impasse lorsque nous avons souhaité monter en puissance. Nous étions bloqués par le manque de RAM, par l’espace de stockage disponible, ce qui limitait fortement l’apprentissage de nos modèles. Le Cloud était pour nous la meilleure solution possible tant techniquement qu’économiquement.”
Quel(s) apport(s) du cloud pour Custom Bridge ?
Parmi l’ensemble des briques fonctionnelles proposées par OVHcloud dans son offre AI, Customs Bridge met en œuvre la solution OVHcloud dédiée à l’entraînement des modèles, AI Training. En parallèle, la start-up exploite des instances OVH afin de déployer ses modèles en production et supporter le pipeline d’alimentation en données. Le directeur de l’innovation de Customs Bridge ajoute :
“Basculer l’apprentissage des modèles d’IA d’une approche On-Premise à OVHcloud AI Training nous a apporté une flexibilité et une puissance que nous ne pouvions pas avoir en interne. La solution est très simple à utiliser : nous pouvons fixer à l’avance le nombre de GPU et la taille de la RAM dont nous allons avoir besoin à l’instant t pour mener un apprentissage. C’est très utile dès lors que l’on connaît à l’avance le nombre de ressources dont on va avoir besoin.”
Dans un avenir proche, ce pipeline est appelé à devenir plus complexe. L’équipe est en train de travailler sur un «augmentateur de texte», un algorithme qui part d’un jeu de données existant et qui va l’enrichir afin d’optimiser l’apprentissage des modèles. L’algorithme va ainsi faire passer la base de données initiale de 200 000 / 300 000 lignes pour la faire monter à 3 à 4 millions de lignes via des techniques de génération de texte automatique. Le cloud devrait encore être utilisé pour réaliser cette tâche.