Alors qu’elle a été créée il y a tout juste un an, la start-up Elevenlabs se taille déjà une place de 1er choix dans le domaine de l’IA générative vocale. Preuve en est le succès remporté par sa plateforme de synthèse vocale et de clonage lancée en version bêta en janvier dernier : celle-ci compte plus d’un million d’utilisateurs enregistrés qui ont généré plus de 10 ans de contenu audio. La start-up a déjà développé de nouveaux produits dont elle pourra accélérer le déploiement grâce à cette levée de fonds.
Créée en avril 2022 par deux amis d’enfance Mati Staniszewski, qui travaillait auparavant chez Palantir, et Piotr Dabkowski, ex ingénieur logiciel chez Google, ElevenLabs est une société de recherche en technologie vocale. Après avoir passé l’année 2022 à développer des modèles d’IA audio capables, selon elle, de créer les voix d’IA les plus polyvalentes et les plus adaptées au contexte, elle a dévoilé sa plateforme qui a été rapidement adoptée par les créateurs et les développeurs des secteurs des médias, des jeux et de la création de contenu.
Les outils ElevenLabs peuvent transformer n’importe quel texte en parole en utilisant des voix synthétiques, des voix clonées ou en créant des voix artificielles entièrement nouvelles qui peuvent être adaptées en fonction du sexe, de l’âge et des préférences d’accent. Grâce à VoiceLab, il est d’ailleurs possible de créer un clone de sa propre voix à partir d’un clip de 30 secondes.
Les voix générées sont incroyablement humaines, avec notamment une pause et une intonation appropriées.
Une levée de fonds de 19 millions de dollars
Après avoir levé 2 millions de dollars lors d’un cycle de financement de pré-amorçage en janvier dernier, ElevenLabs annonce un tour de table en série A de 19 millions de dollars codirigé par Andreessen Horowitz (fonds de capital risque a16z), Nat Friedman (l’ancien PDG de Github) et Daniel Gross (qui a travaillé dans l’IA et la recherche chez Apple) avec la participation de Credo Ventures, Concept Ventures et d’un éventail d’investisseurs stratégiques, parmi lesquels le cofondateur d’Instagram, Mike Krieger, le cofondateur d’Oculus VR, Brendan Iribe, le cofondateur d’Oculus VR.
À la suite de cet investissement, Andreessen Horowitz siègera au conseil d’administration de la start-up.
Il permettra à cette dernière de poursuivre la construction de son centre de recherche d’IA vocale et de lancer une gamme de produits supplémentaires pour soutenir des marchés verticaux spécifiques tels que l’édition, les jeux, le divertissement et les applications conversationnelles.
Elle annonce d’ores et déjà un ensemble de nouveaux produits permettant “à quiconque de créer un livre audio entier sur la plate-forme en quelques minutes”, ainsi qu’un modèle de détection vocale IA.
Mati Staniszewski, PDG et co-fondateur d’ElevenLabs, assure :
“Au cours des cinq derniers mois, nous avons vu notre technologie adoptée par des millions de créateurs, d’entreprises et d’esprits curieux. Nous n’en sommes qu’au début de ce voyage et maintenant que Nat, Daniel et Andreessen Horowitz nous rejoignent, nous avons les meilleurs partenaires alors que nous continuons sur la voie ambitieuse de l’avenir”.
Le développement d’un outil de doublage vidéo en ligne de mire
ElevenLabs a donc annoncé Projects, qui sera lancé le mois prochain et qui est disponible dès maintenant en accès anticipé. Il vise à simplifier le flux de production lors de la création de contenu vocal de longue durée, tel que des livres audio.
Projects offrira aux créateurs de contenus, tels que les éditeurs et les auteurs indépendants, un niveau de contrôle inédit sur leur contenu audio généré par l’IA. Basé sur les recherches de l’entreprise en matière de synthèse vocale de longue durée et de “remplissage” audio, il permettra aux utilisateurs de générer de manière transparente des segments entiers de dialogue, des articles de presse, et même des livres audio sans quitter la plateforme. Selon ElevenLabs, “Projects vise à offrir une simplicité et une convivialité de type “Google Docs” pour la création audio”.
Ce nouvel outil rejoint la suite de produits ElevenLabs, qui comprend Speech Synthesis, une plateforme de synthèse vocale qui exploite des voix synthétiques préexistantes et VoiceLab, un flux de travail permettant de créer une version vocale ou numérique unique d’une voix existante. ElevenLabs a également récemment publié l’accès à Eleven Multilingual, un modèle de synthèse vocale, qui prend en charge les principales langues européennes (Français, Allemand, Italien, Polonais, Portugais et Espagnol). La plateforme est disponible pour tous à : elevenlabs.io.
Ces récents développements de produits sont des tremplins vers le développement d’un outil de doublage IA, dont la sortie est prévue plus tard cette année. Cela permettra à n’importe quelle vidéo d’être doublée dans n’importe quelle langue de manière engageante, efficace et évolutive, tout en conservant la voix du locuteur d’origine. La société effectue déjà un certain nombre de tests avec des partenaires de l’industrie pour permettre le doublage d’IA à grande échelle.
Ces récents développements de produits sont des étapes vers la création d’un outil de doublage IA qui devrait être lancé plus tard cette année. Il permettra à toute vidéo d’être doublée dans n’importe quelle langue de manière engageante, efficace et évolutive, tout en conservant la voix originale du locuteur. La société effectue déjà des tests avec des partenaires de l’industrie pour permettre le doublage IA à grande échelle.
AI Speech Classifier pour plus de transparence
ElevenLabs a également dévoilé son classificateur vocal AI. Cet outil permet à quiconque de télécharger un échantillon audio, et de déterminer si le clip contient de l’audio généré par l’IA d’ElevenLabs.
Selon la start-up, ce produit est le premier du genre dans le domaine de l’audio génératif. Il est maintenant disponible pour le public et pour des partenaires sélectionnés sous forme d’API.
Le lancement du classificateur vocal AI est la dernière étape de la volonté de transparence de l’entreprise et constitue la pierre angulaire de son engagement à créer un paysage médiatique génératif sûr. Elle propose d’ailleurs sur son site un “guide de clonage vocal” pour les utilisateurs de sa plateforme.