Meta AI a récemment présenté DINOv2, une méthode innovante pour entraîner des modèles performants de vision par ordinateur reposant sur l’apprentissage auto-supervisé. Cette nouvelle approche surpasse les méthodes classiques et offre une puissance et une flexibilité inégalées pour diverses tâches de vision par ordinateur.
L’apprentissage auto-supervisé au cœur de DINOv2
DINOv2 utilise l’apprentissage auto-supervisé, comme le font les modèles linguistiques à grande échelle pour les applications textuelles. Cette méthode d’apprentissage automatique permet aux modèles d’IA d’apprendre à partir des données brutes sans nécessiter de labels ou d’annotations fournies par des humains. Cette approche tire parti de la structure intrinsèque des données pour extraire des caractéristiques pertinentes et construire des représentations utiles pour diverses tâches. Ainsi, les modèles utilisant la méthode DINOv2 peuvent être entraînés sur n’importe quelle collection d’images sans nécessiter de métadonnées associées, ce qui a permis à Meta de réaliser un pré-entrainement sur un jeu de données de 142 millions d’images.
Contrairement aux méthodes récentes basées sur la reconstruction auto-supervisée, DINOv2 ne nécessite pas de fine tuning. Il offre des caractéristiques performantes qui peuvent être utilisées directement en entrée pour des classificateurs linéaires simples. Cette flexibilité permet à DINOv2 de créer des structures polyvalentes pour diverses tâches de vision par ordinateur.
Surpasser les limites du préapprentissage basé sur des images annotées
Les méthodes basées sur le préapprentissage image-texte ont été la norme pour de nombreuses tâches en vision par ordinateur ces dernières années. Cependant, cette approche rencontre des limites en raison de sa dépendance aux légendes écrites. DINOv2 contourne ce problème en se basant sur l’apprentissage auto-supervisé sans dépendre des descriptions textuelles, offrant ainsi des résultats de pointe pour des tâches telles que l’estimation de la profondeur monoculaire.
Une collaboration fructueuse avec le World Resources Institute
DINOv2 a été utilisé dans une collaboration entre Meta et le World Resources Institute pour cartographier les forêts arbre par arbre à l’échelle de continents. Les évaluations montrent que le modèle auto-supervisé, entraîné sur des données forestières d’Amérique du Nord, généralise bien et produit des cartes précises dans d’autres régions du monde.
Mise à disposition de modèles pré-entraînés performants
Meta met à disposition une gamme de modèles DINOv2 pré-entraînés pour la communauté, offrant des performances compétitives ou supérieures aux modèles texte-image tels que CLIP et OpenCLIP sur un large éventail de tâches. Les caractéristiques de DINOv2 peuvent être utilisées directement pour la classification par méthode des plus proches voisins ou couplées avec une classification linéaire, offrant des performances solides sans nécessiter de fine tuning.
Pour découvrir DINOv2, rendez-vous sur : https://dinov2.metademolab.com/