Les chercheurs de DeepMind, la filiale de Google rachetée en 2014, conjointement avec les scientifiques de l’université d’Oxford ont mis au point LipNet, une intelligence artificielle permettant de lire les mouvements de vos lèvres pour les convertir en texte. Les applications scientifiques et commerciales possibles de ce programme sont nombreuses et il a déjà suscité de nombreux intérêts.
Les chercheurs et les scientifiques ayant participé au développement de ce programme se montrent quant à eux évidemment très optimistes quant à ses applications:
Une machine capable de lire sur les lèvres ouvre la voie à de multiples applications comme la dictée d’instructions, la dictée de message à un téléphone dans un environnement bruyant, la transcription et le doublage de films sans son, la compréhension de discours où plusieurs personnes s’expriment et, plus largement, l’amélioration de la performance de la reconnaissance vocale.
Le programme LipNet se veut la référence absolue dans son domaine et a déjà supplanté les spécialistes humains. Les tests réalisés par les chercheurs de DeepMind et de l’université d’Oxford montrent en effet que le professionnel en lecture des lèvres humain qui a servi de témoin a obtenu un taux de réussite de 23,8%, alors que le programme a atteint 46,9% de réussite en reconnaissance des phrases prononcées.
Pour obtenir de tels résultats, LipNet est passé par une phase d’apprentissage intense au cours de laquelle il a du écouter près de 5000 heures d’émissions de la BBC. L’intelligence artificielle dépasse même la simple reconnaissance labiale puisqu’elle peut prédire des phrases entières, à l’inverse des logiciels existants qui ne travaillaient que sur des mots isolés.