LightOn, l'un des leaders européens de l’IA générative, a récemment intégré "Visual RAG" dans sa plateforme Paradigm, apportant à ses clients une solution clé en main, leur permettant d'interagir avec des documents combinant textes, images, graphiques et diagrammes. Une avancée qui ouvre de nouvelles perspectives pour les entreprises et les institutions publiques.
La génération augmentée par récupération (RAG) est une technique efficace qui permet aux grands modèles de langage (LLMs) d’utiliser des sources de connaissances externes pour la génération. Les récents développements de modèles vision-langage (VLM) capables de capturer des informations multimodales présentes dans les images, telles que le texte, les graphiques et diagrammes, ont permis une nouvelle approche : la Visual RAG, qui combine en synergie les capacités d'un VLM avec un mécanisme de récupération, permettant ainsi l’extraction et la mise en relation d’informations issues de sources textuelles et visuelles.
Des recherches académiques récentes, comme celles présentées dans l'étude Visual RAG: Multi-modal Retrieval-Augmented Generation (arXiv:2501.10834), ont déjà exploré les principes fondamentaux de cette technologie. Ces travaux démontrent que la combinaison de modèles vision-langage avec des mécanismes de récupération améliore significativement la compréhension et l’exploitation des documents multimodaux.
Une percée technologique
En novembre dernier, LightOn a présenté MonoQwen2-VL-v0.1, un reranker visuel de documents. La start-up s’appuie sur cette avancée pour proposer une solution adaptée aux besoins industriels.
Contrairement aux systèmes traditionnels qui se concentrent sur l’analyse isolée d’images ou de textes, "Visual RAG" permet de naviguer dynamiquement à travers des bases documentaires vastes et complexes. Igor Carron, co-fondateur et PDG de LightOn, commente:
"En proposant une solution complète de RAG multimodal, nous franchissons une nouvelle étape dans l'exploitation des données d'une organisation. Paradigm est la première solution d’IA générative permettant le traitement et l’analyse d’images à une telle échelle. Il n’est pas seulement question pour notre IA de comprendre une image, mais d’en retrouver et traiter des millions, au milieu d’une base documentaire protéiforme. Vous pouvez aujourd’hui dialoguer avec des photos ou des infographies comme vous le faites avec du texte depuis le début de l’IA générative."
Un levier stratégique pour les entreprises et le secteur public
L’intégration de "Visual RAG" répond à une demande croissante des organisations pour des outils capables de traiter efficacement des documents riches en visuels. Cette innovation offre plusieurs bénéfices majeurs :
Recherche documentaire avancée : Accès optimisé à des documents techniques, rapports financiers, brevets et archives multimédias ;
Amélioration de la prise de décision : Mise en contexte rapide et précise des informations critiques ;
Sécurité et souveraineté des données : Déploiement intégré garantissant la confidentialité et l’indépendance des infrastructures informatiques.
Ces fonctionnalités positionnent LightOn comme un acteur stratégique dans un contexte où la maîtrise des flux d’information devient un avantage concurrentiel décisif.