Seulement quelques jours après la publication de LLaMA, la collection de grands modèles de langage fondamentaux de Meta, allant de 7 à 65 milliards de paramètres, Nebuly présentait la première implémentation open-source de LLaMA basée sur l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) : ChatLLaMA.
Meta se disait impatiente de voir ce que la communauté pouvait apprendre et construire, en utilisant LLaMA, son grand modèle de langage, elle n'aura pas eu longtemps à attendre... Elle a publié le code de LLaMA en open source pour aider les chercheurs grâce à des modèles plus petits que GPT-3 mais performants : l’architecture 13B de LLaMA surpasse GPT-3 bien qu’elle soit 10 fois plus petite, donc ChatLLaMA devrait être plus performant que ChatGPT.
Cette nouvelle collection de modèles fondamentaux ouvre la porte à des performances d’inférence plus rapides et à des assistants en temps réel de type chatGPT, tout en étant rentables et fonctionnant sur un seul GPU.
Cependant, LLaMA n’a pas été affiné pour la tâche d’instruction avec un processus de formation Reinforcement Learning from Human Feedback (RLHF).
Nebuly, qui se donne pour mission l'optimisation de l'IA, présente ChatLLaMA : la première implémentation open source basée sur le RLHF qui tire parti de LLaMA, pour créer un service de type ChatGPT basé sur des modèles LLaMA pré-entraînés :
- Par rapport au ChatGPT original, le processus de formation et l’inférence à GPU unique sont beaucoup plus rapides et moins chers en tirant parti de la taille plus petite des architectures LLaMA.
- ChatLLaMA dispose d’un support intégré pour DeepSpeed ZERO afin d’accélérer le processus de réglage fin.
- La bibliothèque prend en charge toutes les architectures de modèles LLaMA (7B, 13B, 33B, 65B), afin d'affiner le modèle en fonction des préférences en matière de temps d’entraînement et de performances d’inférence.
La bibliothèque, encore ses débuts, peut être étendue avec les fonctionnalités suivantes :
- Points de contrôle avec des poids affinés;
- Techniques d’optimisation pour une inférence plus rapide;
- Prise en charge de cadres de déploiement efficaces.
Ils peuvent participer des manières suivantes :
- Soumettre un problème ou un PR sur GitHub : https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama
- Rejoindre le groupe Discord pour discuter.