FAIR, une décennie d’innovations et de nouvelles avancées : Ego-Exo4D, Audiobox et Seamless Communication

FAIR (Facebook AI Research) a pour mission de faire progresser les connaissances et les capacités de l’IA de manière ouverte, collaborative et responsable. A l’occasion du 10ème anniversaire de sa création, Meta revient sur les réalisations notables de son équipe de recherche fondamentale sur l’IA et partage ses dernières avancées : Ego-Exo4D, Audiobox et Seamless Communication.

Les chercheurs de FAIR travaillent sur un large éventail de sujets liés à l’IA, allant de la vision par ordinateur et de la reconnaissance vocale à la traduction automatique et à la génération de langage naturel. L’équipe publie régulièrement des articles scientifiques, partage des codes sources, et contribue ainsi activement à la communauté de recherche en IA.

Meta rappelle les dernières avancées de FAIR dans la détection d’objets avec le modèle d’IA SAM ou Segment Anything. La segmentation, c’est-à-dire l’identification des pixels d’une image qui appartiennent à un objet, est en effet une tâche importante de la vision par ordinateur, utilisée dans de nombreuses d’applications, de l’analyse de l’imagerie scientifique à la retouche de photos.

FAIR a été l’un des premiers à mettre au point des techniques de traduction automatique non supervisées ce qui lui a permis d’éliminer les barrières du langage avec des modèles comme No Language Left Behind, qui a récemment étendu la technologie de synthèse vocale et de synthèse vocale à plus de 1 000 langues.

Plus tôt cette année, elle a publié Llama, un LLM ouvert et pré-entraîné, suivi de Llama 2, en juillet dernier, gratuit pour la recherche et l’utilisation commerciale.

Les dernières avancées de FAIR

Ego-Exo4D : permettre aux modèles d’IA de percevoir le monde à travers des perspectives égocentriques et exocentriques.

Ego-Exo4D capture simultanément des vues “égocentriques” à partir de la caméra portable d’un participant, ainsi que plusieurs vues “exocentriques”, à partir de caméras l’entourant.

Selon Meta, une personne portant des lunettes intelligentes pourra à l’avenir acquérir rapidement de nouvelles compétences grâce à un coach virtuel en IA qui la guidera à travers une vidéo explicative. Il pourrait ainsi lui apprendre à changer la roue d’un vélo à partir des vidéos ci-dessous.

Audiobox, pour la génération d’effets sonores et de voix

En juin dernier, Meta avait lancé Voicebox, un modèle text-to-speech capable d’effectuer des tâches de génération de parole, telles que l’édition, l’échantillonnage et la stylisation. La société présente son successeur, Audiobox, qui permet de générer des sons ou différents types de discours à partir de descriptions textuelles ou d’invites vocales. La société donne un exemple d’invite de génération : “une jeune femme parle d’un ton aigu et d’un rythme rapide”.

Seamless Communication, une suite de modèles de traduction IA préservant le style vocal et la prosodie.

Pour cette suite de modèles, Meta s’est appuyé sur SeamlessM4T, le premier modèle linguistique de traduction tout-en-un multimodal, qu’elle a dévoilé en août dernier. Le modèle amélioré qui en découle, SeamlessM4T v2 serte de base pour SeamlessExpressive et SeamlessStreaming.

SeamlessExpressive préserve l’émotion et le style de l’orateur, le débit et le rythme de la parole. Le modèle fonctionne actuellement pour l’anglais, l’espagnol, l’allemand, le français, l’italien et le chinois. Meta propose d’essayer la démo ici.

Contrairement aux systèmes conventionnels qui traduisent lorsque l’orateur a terminé sa phrase, SeamlessStreaming offre une traduction quasi-simultanée, avec une latence de 2 secondes, pour près de 100 langues.

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.
Partager l'article
1 an d'abonnement au magazine de référence sur l'IA pour 27,60€ Boutique ActuIA Recherche, Business, Impact : Restez à la page en matière d'intelligence artificielle.
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.