Segment Anything Model 2 : le dernier modèle de vision par ordinateur de Meta étend les capacités de segmentation de SAM aux vidéos

L'an passé, Meta dévoilait Segment Anything (SAM), un modèle de vision par ordinateur conçu pour la segmentation d’objets dans les images. SAM 2, qui étend les capacités de son prédécesseur aux vidéos, est lui aussi publié sous une licence Apache 2.0, permettant à chacun de l'utiliser pour créer ses propres expériences. Meta partage également le dataset SA-V sous une licence CC BY 4.0 et publie une démo en ligne permettant de tester le modèle en action.

La segmentation d'objets, une tâche fondamentale en vision par ordinateur consistant à identifier les pixels d'une image correspondant à un objet d'intérêt, est utilisée dans de nombreuses applications, de la retouche de photos à l’analyse de l’imagerie scientifique. SAM, publié l'année dernière, a établi un modèle de référence pour les images, SAM 2 permet désormais des expériences de segmentation en temps réel et une utilisation fluide dans les applications d'image et de vidéo.

Capacités et applications de SAM 2

SAM 2 dépasse les capacités des modèles précédents en termes de précision et de rapidité, tout en permettant la généralisation zero-shot, c'est-à-dire qu'il peut segmenter des objets dans des contenus visuels inédits sans adaptation personnalisée. Avant SAM, la création de modèles de segmentation précis pour des tâches spécifiques nécessitait généralement un travail hautement spécialisé de la part d’experts techniques ayant accès à une infrastructure d’entraînement à l’IA et à de grands volumes de données soigneusement annotées dans le domaine. Le modèle, en réduisant ces besoins, a transformé ce domaine, et SAM 2 promet d'ouvrir encore plus de possibilités.

Depuis son lancement, SAM a eu un impact significatif dans diverses disciplines, de l'application dans les sciences marines à l'analyse d'images satellites pour les secours en cas de catastrophe, en passant par la segmentation d'images médicales pour aider à détecter le cancer de la peau. SAM 2 peut être immédiatement appliqué à une large gamme de cas d'utilisation, tels que le suivi d'objets pour créer des effets vidéo ou la segmentation de cellules en mouvement dans des vidéos scientifiques.

Conformément à la vision de Mark Zuckerberg sur l'IA open source, SAM 2 pourrait considérablement augmenter la productivité, la créativité et la qualité de vie, tout en accélérant la croissance économique et les avancées scientifiques.

Développement et architecture de SAM 2

Méthodologie

Pour réussir la segmentation d'objets dans les vidéos, il est nécessaire de comprendre où se trouvent les entités dans l'espace et dans le temps. Les vidéos présentent des défis tels que le mouvement, la déformation, l'occlusion et les changements d'éclairage. SAM 2 relève ces défis en utilisant une architecture unifiée pour les images et les vidéos, ce qui introduit un mécanisme de mémoire pour rappeler les informations traitées précédemment et générer des prédictions de masques précises.

Tâche de segmentation visuelle incitative

SAM 2 prend en charge la sélection et l'affinage d'objets dans n'importe quelle image vidéo. Il est entraîné à utiliser des invites d'entrée pour définir le masque spatio-temporel (ou "masquelet") à prédire. SAM 2 fait une prédiction immédiate du masque et le propage temporellement sur toutes les images vidéo. Ce processus peut être affiné itérativement avec des invites supplémentaires jusqu'à obtention du masquelet souhaité.

L'architecture de SAM 2 est une généralisation de SAM du domaine de l'image au domaine vidéo. Un mécanisme de mémoire composé d'un encodeur de mémoire, d'une banque de mémoire et d'un module d'attention de mémoire permet à SAM 2 de stocker des informations sur les objets segmentés et de générer des prédictions de masques tout au long de la vidéo.

Dataset SA-V

Collecte et annotations

Pour surmonter la disponibilité limitée des données annotées pour la segmentation vidéo, Meta a construit un moteur de données exploitant une configuration interactive de modèle en boucle avec des annotateurs humains. Ces derniers ont utilisé SAM 2 pour annoter des masques dans les vidéos, améliorant ainsi itérativement le modèle et l'ensemble de données.

Points forts de l'ensemble de données SA-V

Plus de 600 000 annotations de masques sur environ 51 000 vidéos ;
Vidéos couvrant des scénarios réels et géographiquement divers, collectées dans 47 pays ;
Annotations incluant des objets entiers, des parties d'objets et des cas d'occlusion.

Résultats et performances

SAM 2 surpasse les approches précédentes en matière de segmentation vidéo interactive, nécessitant environ trois fois moins d'interactions humaines et offrant une précision de segmentation supérieure. Il excelle également dans les tests de segmentation d'objets vidéo existants et permet une annotation de segmentation vidéo 8,4 fois plus rapide que l'annotation manuelle par image.

Limites et perspectives

Bien que SAM 2 démontre des performances solides, des améliorations peuvent encore être apportées, il lui arrive parfois de perdre la trace d'objets ou de les confondre avec des objets similaires. Même s'il est capable de segmenter plusieurs objets individuels simultanément, son efficacité dans ce cas de figure diminue alors considérablement. Le modèle est conçu pour être interactif, permettant des interventions manuelles pour récupérer des objets cibles en cas de perte de suivi.

Pour tester le modèle, retrouver la démonstration en ligne ici.

Comprendre l'IA

Applications de l'IA