Lanfrica, le TAL appliqué aux langues africaines - Entretien avec Bonaventure Dossou et Chris Emezue

Faire tomber la barrière des langues grâce aux données et à l'IA et renforcer l'accès à l'information dans les langues aux ressources limitées, deux enjeux centraux pour nos sociétés. À l'occasion de Vivatech en juin dernier, l'Unesco a organisé un concours de startups sur l'IA pour les droits de l'homme dont l'un des défis portait précisément sur ces enjeux. La start-up Lanfrica, créée par Bonaventure Dossou et Chris Emezue, tous deux étudiants en Allemagne et stagiaires de recherche notamment au sein de Mila, s'est imposée.

Plateforme en ligne renseignant sur les recherches, les résultats, les repères et les projets existants (achevés et en cours) sur les langues africaines et les présentant de manière conviviale, Lanfrica fonctionne pour toutes les langues africaines en créant un système de base de données en ligne à code source ouvert, permettant d'accéder facilement et rapidement aux recherches existantes sur le traitement du langage naturel et la traduction automatique, ainsi qu'aux résultats concernant les langues africaines. Lanfrica met en œuvre une approche participative, dirigée par la communauté pour alimenter la base de données avec les recherches existantes sur les langues africaines.

Comment vous êtes-vous rencontrés ? Quel est votre parcours commun avant d’avoir lancé le projet Lanfrica ?

Nous nous sommes rencontrés lors de notre premier cycle universitaire en Russie où nous avons tous deux obtenu notre Bac+4 en mathématiques. Assez tôt, nous avons découvert une passion commune pour les nouvelles technologies, notamment l’intelligence artificielle.

Notre objectif était d’ores et déjà ancré dans nos esprits: contribuer activement au développement de l’Afrique. Tandis que nous étions encore étudiants, nous avons commencé à publier des articles, principalement sur le NLP et les langues africaines, mais aussi à participer à des conférences internationales dans le domaine de l’IA. L’idée du projet Lanfrica est venue initialement de Chris qui pendant une soirée, alors que nous étions dans notre chambre en train de réfléchir aux problématiques liées au « AfricaNLP », le NLP pour les langues et dialectes africains.

Qu'est-ce qui vous a donné envie de lancer le projet Lanfrica et quel est son objectif ?

C’est assez simple: nous souhaitons unifier, connecter l’ensemble des ressources de toutes les langues africaines. Pourquoi ? Tout simplement parce que lorsque nous sommes rentrés dans le bain de la recherche en NLP et que nous avons commencé notre travail et nos efforts pour faire exister l’Afrique sur la carte mondiale du NLP, nous avons découvert que le premier problème majeur à la mise en place de cet objectif est l’accès aux données et aux ressources. C’est simple : on ne peut rien faire sans cet accès. Le second problème majeur concerne le manque de documentation et d’œuvres existantes. Cela est particulièrement important, car c’est ce qui fait progresser la recherche scientifique: être capable de construire des théories meilleures que les précédentes, d’obtenir de meilleurs résultats sur la base de résultats expérimentaux antérieurs. Par exemple, dans le cadre du moteur de traducteur Fon-French que nous avons conçu, nous n’avons malheureusement trouvé aucun ouvrage antérieur qui a permis de consolider notre travail.

Lanfrica se veut être une solution qui rassemble tous les progrès de la recherche impliquant les langues africaines afin de permettre un accès facile aux datasets et aux articles du plus grand nombre de langues africaines, si ce n’est toutes. Nous avons proposé une procédure claire et simple dans la section 2 de notre papier sur Lanfrica.

Comment le projet Lanfrica est-il structuré ? Quelles techniques avez-vous utilisé pour récupérer l’ensemble des données nécessaires à sa réalisation?

Nous avons commencé par organiser, structurer et utiliser la grande quantité d’informations disponibles sur internet, et ce, de manière automatique. De cette manière, nous avons pu obtenir une base sur laquelle nous avons pu inclure plus de données. Une des techniques que nous avons utilisé pour inclure plus de données consiste à utiliser un système où des utilisateurs peuvent recommander des experts (chercheurs, scientifiques, etc.) ayant rédigé une publication ou ayant travaillé sur un projet impliquant une ou plusieurs langues africaines. Nous pensons que ce processus, qui est unique à Lanfrica, reliera à la fois les chercheurs et les utilisateurs dans le catalogage, et permettra à la plateforme de rester autonome.

Hormis Lanfrica, nous avons beaucoup d’autres projets: le moteur de traduction Fon-French, les systèmes automatiques de reconnaissance de la parole Fon et Igbo, le traducteur automatique multilingue pour les langues africaines, etc. Ces projets sont bien sûr complémentaires, mais ont des niveaux de complexité différents.

Est-ce les autres chercheurs pourront utiliser ces jeux de données dans le cadre de leurs projets ?

Tous les jeux de données que nous utilisons dans nos projets sont open source (hormis si des contraintes de licence nous interdisent de les rendre accessibles au plus grand nombre). Ainsi, en ce qui concerne Lanfrica, tout chercheur pourrait utiliser ces datasets ou toute autre ressource liée à ce projet. La seule chose que nous demandons, et qui est à nos yeux, très importante dans les disciplines scientifiques, c’est de citer nos publications dans le cadre d’une exploitation de Lanfrica.

Avez-vous prévu de mener d’autres projets liés à la linguistique ou plus généralement autour de l’IA ?

Oui, et les projets sont nombreux. En ce moment, comme nous l’avons mentionné plus tôt, nous travaillons sur le moteur de traduction Fon-French, les systèmes automatiques de reconnaissance de la parole Fon et Igbo pour lesquels nous avons récemment lancé la bibliothèque python « Okwugbé » qui permettra à qui le souhaite de former son système ASR sur la langue qu’il veut.

Nous travaillons également sur Named Entity Recognition (NER) pour les langues africaines avec une incroyable communauté de chercheurs et la famille Masakhane, et sur le traducteur automatique multilingue pour les langues africaines, en nous focalisons sur six langues africaines (Fon, Igbo, Yoruba, Swahaili, Xhosa et Kinyarwanda). Nous pensons à beaucoup d’autres projets, mais rien de concret pour l’instant.

Quels sont vos ambitions, vos objectifs de recherche à court, moyen et long terme ?

Bonaventure Dossou : Je souhaite construire à l’avenir plus d’outils pour les langues africaines et pour l’Afrique plus généralement, et ce, dans le plus grand nombre de domaines possibles. Je suis de plus en plus intéressé par le machine learning, le deep learning et l’apprentissage par renforcement. Je souhaite mieux comprendre les concepts mathématiques qui peuvent exister derrière des méthodes d’apprentissages, dans l’objectif, pourquoi pas, de les améliorer et à mon tour, d’inventer une méthode d’apprentissage innovante.

Plus généralement, j’ai l’ambition d’être au sommet, d’être un pionnier du développement de la technologique et de l’IA en Afrique et cela passe par la poursuite d’un doctorat dans le domaine. Je suis conscient que le chemin à parcourir est encore long, mais je suis sûr qu’avec la volonté, combiné au désir d’apprendre, ce chemin est tout tracé.
Sur un plan plus personnel, un objectif qui me tient à cœur serait de pouvoir construire un assistant numérique pour ma famille et mes enfants afin qu’ils puissent continuer à apprendre et à dialoguer dans la langue maternelle, le fon. Et quant aux générations futures, je souhaite être un exemple incontournable, une référence solide qui puisse les transcender, les motiver, les inspirer à poursuivre leurs rêves.

Chris Emezue : Pour ce qui est de mes objectifs à court terme, je souhaite améliorer mes capacités dans le domaine du machine learning et plus généralement en IA. Je veux comprendre les concepts mathématiques derrière tout cela. Je crois qu’une bonne compréhension des bases du machine learning, de la NLP et de la programmation me sera grandement utile dans la suite de ma carrière.

Pour ce qui est de mes objectifs à moyen terme, je prévois d’obtenir mon doctorat après mon master et d’acquérir une expérience « industrielle » en termes de machine learning. J’aimerais aussi travailler dans le machine learning et ses applications en santé.
Dans le long terme, j'ai la volonté, en plus d’être chercheur en machine learning, d'être entrepreneur dans le domaine. J’aimerais construire des outils, des produits utiles pour l’Afrique, mais aussi pour le reste du monde.

Est-ce que récemment, un projet de recherche, un projet de start-up, une avancée en IA, ont particulièrement retenu votre attention ?

Bonaventure Dossou : Pour moi, les soins de santé couplés au machine learning, c’est tout simplement l’avenir. Je ne sais pas comment vous le dire, mais le machine learning associé à la biologie, ça semble tellement beau (rires). Cela dit, il y a beaucoup de start-up qui se créent jour après jour dans le domaine de l’IA. Indéniablement, chacune est unique et semble bien se porter, même si je pense qu’une collaboration ou une sorte de coalition plus importante pourrait aider à améliorer le secteur et faire en sorte qu’elles se développent plus rapidement.

La découverte de nouveaux médicaments et plus largement la santé sont des domaines qui m’intéressent particulièrement. Nombreuses sont les start-ups et les entreprises qui sont spécialisées dans ce secteur et qui tirent parti des capacités de l’IA pour améliorer les méthodes et les processus. Certains exemples qui me viennent en tête sont Mila, Roche, Modelis ou Speeqo.

Chris Emezue : En ce qui concerne les domaines et les projets de recherche, je suis particulièrement intéressé par les travaux mêlant intelligence artificielle et soins de santé. Je crois que les soins de santé ont besoin de trouver les moyens permettant d’améliorer la santé des patients, car c’est une problématique très importante.

En parallèle, je m’intéresse beaucoup aux recherches liées à l’apprentissage par renforcement et les situations de causalité que ça peut engendrer. Je crois dur comme fer que mieux comprendre ces situations de causalité et trouver les moyens de les modéliser pourraient permettre de résoudre certains des problèmes auxquels la configuration actuelle du machine learning est confrontée, je pense par exemple à la généralisation hors distribution en ML.

Comprendre l'IA

Applications de l'IA

Lanfrica, le TAL appliqué aux langues africaines - Entretien avec Bonaventure Dossou et Chris Emezue