NVIDIA lance Chat with RTX, une application qui permet de configurer un chatbot d’IA et de l’exécuter sur un PC local sous Windows 11. Connecté au contenu de l’utilisateur (documents, notes, vidéos ou autres données), celui-ci génère rapidement des réponses fiables et totalement sécurisées puisque connexion internet ou serveur cloud ne sont pas requis.
Pour générer ses réponses, le chatbot est basé sur un LLM : il est possible de choisir entre les modèles open source Mistral 7B de Mistral AI et LLama 2 13B de Meta.
Chat With RTX prend en charge une grande variété de formats de fichiers (incluant .txt, .PDF, .doc/docx et .XML). Pour charger automatiquement ces fichiers dans la bibliothèque de l’application, il suffit de pointer le dossier contenant les fichiers.
Les utilisateurs peuvent également inclure des informations provenant de vidéos et de listes de lecture YouTube. Lorsqu’ils fournissent l’URL d’une playlist YouTube, l’application charge automatiquement les transcriptions associées aux vidéos correspondantes. Ils peuvent par exemple demander des recommandations de voyage basées sur le contenu de vidéos ou obtenir des tutoriels éducatifs.
La génération augmentée de récupération (RAG) améliore la qualité et la pertinence des réponses du LLM choisi. Cette approche combine les capacités de génération de texte d’un modèle de langage pré-entraîné avec la récupération d’informations pertinentes à partir des données fournies. Cela permet au chatbot d’offrir des réponses contextuellement adaptées et précises.
Chat with RTX est conçu pour fonctionner sur un PC sous Windows 11, équipé d’un GPU NVIDIA GeForce RTX 30 ou 40 ou d’un GPU NVIDIA RTX Ampere ou Ada avec au moins 8 Go de mémoire vidéo (VRAM). Il tire parti de TensorRT-LLM, un logiciel open source qui augmente les performances d’inférence de l’IA.
Un minimum de mémoire vive (RAM) de 16 Go est nécessaire ainsi que la version 535.11 ou supérieure des pilotes de la carte graphique.
Chat with RTX est présenté comme une application de démonstration, NVIDIA attend les premiers retours pour améliorer cette première version.
L’application a été créée à partir du projet de référence pour les développeurs TensorRT-LLM RAG, disponible sur GitHub. Les développeurs peuvent utiliser le projet de référence pour développer et déployer leurs propres applications basées sur RAG pour RTX, accélérées par TensorRT-LLM.
La démo de Chat with RTX peut être téléchargée ici.