Des chercheurs du MIT ont développé un système qui apprend à identifier les objets sur une image en se basant sur une description sonore de l’image. Afin de démontrer l’association faite, lorsqu’une image et une description audio sont fournies au modèle, le système met en évidence en temps réel les régions de l’image décrites.
Une technique plus proche de l’apprentissage humain
Le projet part de la volonté de ses créateurs de développer une nouvelle façon, inspirée du comportement humain, de faire de la reconnaissance vocale. Les systèmes actuels, tels que ceux embarqués dans Google Home ou Alexa reposent sur des transcriptions et annotations manuelles de la langue.
Des bases de données comportant les mots sous forme textuelle et sonore sont constituées. Cela nécessite des milliers d’heures d’enregistrements sonores. Le problème est que lorsque la langue évolue, par exemple si de nouveaux mots ou expressions font leur entrée dans une langue, il est nécessaire de réaliser de compléter la base avec de nouveaux enregistrements et de réentrainer le modèle.
L’approche du modèle présenté par David Harwarth et al est beaucoup plus naturelle et s’inspire du monde réel : il s’agit de montrer au modèle quelque chose et de prononcer son nom, afin qu’il fasse l’association et la mémorise, de la même façon qu’on le ferait pour nos jeunes enfants.
Selon Florian Metze, professeur associé à l’institut des technologies du langage de l’université Carnegie Mellon : ” Il est excitant de voir que les méthodes reposant sur les neurones artificiels peuvent maintenant associer des éléments de l’image avec des segments audio, sans nécessiter de passer par une forme écrite”.
Il met cependant en garde sur l’analogie avec l’apprentissage humain :
“Ce n’est pas comme l’apprentissage humain, le système est basé uniquement sur des corrélations”.
Le modèle ne peut actuellement reconnaître que quelques centaines de mots et types d’objets. Cependant, les chercheurs espèrent que la technique mise au point
pourra leur épargner des heures de travail manuel et ouvrir de nouvelles portes à la reconnaissance de parole et d’image.
Notons que ce n’est pas la première tentative d’associer des images avec une description audio, mais ce qui différencie celle-ci des précédentes est que jusqu’à présent, l’ensemble des modèles étaient pré-entraînés avec des images labellisées qui provenaient de bases telles qu’ImageNet.
Le système repose sur deux réseaux de neurones convolutifs : l’un analyse les images, l’autre analyse les spectrogrammes. Leurs sorties sont ensuite combinées dans la couche la plus haute du modèle afin de réaliser l’association.
“Nous voulions faire de la reconnaissance vocale d’une façon qui puisse être plus naturelle, en exploitant des informations auxquels les humains ont habituellement accès mais auxquelles le machine learning n’a pas accès.”
explique David Harwath, chercheur au laboratoire de sciences informatiques et intelligence artificielle (CSAIL). et au groupe des systèmes de langage parlé.
Harwath a co-écrit un papier décrivant le modèle et l’a récemment présenté à la conférence européenne Computer vision.
L’image comme interlangue pour la traduction automatisée
L’une des applications prometteuses est l’apprentissage de traductions entre différentes langues sans annotation bilingue. Des 7000 langues parlées dans le monde, seulement 100 ont suffisamment de données transcrites pour la reconnaissance vocale. Si nous envisageons une situation dans laquelle des personnes parlant différentes langues décrivent la même image, le système pourra de lui même apprendre que ces descriptions sont des traductions respectives. La vision jouera alors le rôle d’interlangue.
Il serait certainement également possible d’exploiter les films en audio-description afin d’aller plus loin. Pour le moment ce n’est pas encore possible car il est nécessaire que la description soit exactement synchronisée avec les images affichées, mais il serait tout à fait envisageable d’ajouter une tolérance temporelle.
Retrouvez les travaux de Harwath et Al ici.