Meta dévoile SeamlessM4T, un modèle de fondation multilingue et multimodal open source

C'est lundi dernier que Meta a annoncé SeamlessM4T, le premier modèle linguistique de traduction tout-en-un multimodal. La société a publié ce modèle (sauf pour des fins commerciales) qui prend en charge près de 100 langues ainsi que les métadonnées de SeamlessAlign, la plus grande base de données de traduction multimodale ouverte à ce jour, contenant 270 000 heures de correspondances entre la parole et le texte extraites, sur laquelle il a été entraîné.

Des milliers de langues ne sont pas prises en compte par les systèmes IA de traduction automatique : plus de 20% de la population mondiale ne peut y recourir à partir de sa langue natale. La rareté des données pour ces langues est le principal obstacle, pour la traduction directe orale, le défi est encore plus ardu.

Ce nouveau modèle est une avancée dans l'engagement de Meta à éliminer les barrières linguistiques et à favoriser une communication plus fluide et inclusive à l’échelle mondiale.

https://twitter.com/MetaAI/status/1694020619070017657?s=20

SeamlessM4T représente une percée significative dans le domaine de la conversion de la parole en parole et de la parole au texte en abordant les défis de la couverture linguistique limitée et de la dépendance à des systèmes distincts, qui divisent la tâche de la traduction de la parole en plusieurs étapes au sein de sous-systèmes. Ces systèmes peuvent tirer parti de grandes quantités de données et fonctionnent généralement bien pour une seule modalité. Le défi pour Meta a été de créer un modèle multilingue unifié capable de tout faire.

Les fonctionnalités de ce modèle innovant sont les suivantes :

Reconnaissance automatique de la parole pour près de 100 langues ;
Traduction de la parole en texte pour près de 100 langues d'entrée et de sortie ;
Traduction de la parole en parole, avec prise en charge de près de 100 langues d'entrée et de 35 langues de sortie ;
Traduction de texte en texte pour près de 100 langues ;
Traduction de texte en parole, avec prise en charge de près de 100 langues d'entrée et de 35 langues de sortie.

Eliminer les barrières du langage

SeamlessM4T (Massively Multilingual & Multimodal Machine Translation) repose sur des projets antérieurs de Meta visant à éliminer les barrières linguistiques que la société a pu réaliser grâce à son supercalculateur AI Research SuperCluster (RSC) : No Language Left Behind et Universal Speech Translator.

Dans le cadre du premier projet, le modèle de traduction NLLB-200 de FAIR, qui traduit dans 200 langues, a pu être développé et a depuis été intégré à Wikipédia comme l'un de ses fournisseurs de traduction. Dans celui de Universal Speech Translator, les chercheurs de Meta ont construit le tout premier système de traduction alimenté par l’IA pour une langue principalement orale, Hokkien, qui, bien que largement parlé au sein de la diaspora chinoise, ne possède pas de forme écrite standardisée. Cette avancée a donné naissance à SpeechMatrix, la première base de données de traduction de discours à grande échelle.

En mai dernier, Meta a également partagé Massively Multilingual Speech, qui propose des technologies de reconnaissance automatique de la parole, d'identification de la langue et de synthèse de la parole pour plus de 1 100 langues.

La construction d'un modèle unifié nécessite une boîte à outils de modélisation de séquences légère et facilement composable avec d'autres bibliothèques modernes de l'écosystème PyTorch. Meta a donc repensé fairseq, sa boîte à outils de modélisation de séquences d'origine. Grâce à des API de modélisation et de chargement de données plus efficaces, fairseq2, alimente la modélisation derrière SeamlessM4T.

Meta qui a récemment publié MusicGen, la famille de modèles Audiocraft, et LLama 2 en open source poursuit sa démarche avec SeamlessM4T, bien qu'avec une restriction pour l'usage commercial. La société met également à disposition de la communauté SONAR, un ensemble complet d'encodeurs de phrases de parole et de texte, ainsi que stopes, une bibliothèque pour le traitement de données multimodales et l'extraction de données parallèles, des avancées reposant sur fairseq2.

Elle envisage d'intégrer SteamlessM4T par la suite à Facebook, Instagram, WhatsApp, Messenger et Threads.

Retrouver l'article de recherche et la démo

Télécharger le code et les données

Comprendre l'IA

Applications de l'IA

Meta dévoile SeamlessM4T, un modèle de fondation multilingue et multimodal open source

Eliminer les barrières du langage