Saint George on a Bike : Quand l'Intelligence Artificielle améliore la compréhension des œuvres d'art

L’objectif du projet Saint George on a Bike (SGoaB) est d’améliorer la qualité et la quantité des métadonnées ouvertes associées aux images du patrimoine culturel européen (CH). Le Barcelona Supercomputing Center s’appuie sur le deep learning pour former des modèles de détection d’objets et de reconnaissance d’images, complétés par le traitement du langage naturel (NLP) pour produire des légendes d’images nouvelles ou enrichies des collections Europeana.

Le projet Saint George on a Bike a débuté le 1er septembre 2019 et prendra fin le 31 août prochain. Des chercheurs du Barcelona Supercomputing Center et de la Fondation Europeana collaborent pour aider les institutions du patrimoine culturel à décrire et classer automatiquement leurs œuvres d’art.

La Fondation Europeana est une organisation chargée par la Commission européenne de développer une plateforme numérique du patrimoine culturel pour l’Europe. Sur celle-ci, des millions d’éléments du patrimoine culturel d’environ 4 000 institutions à travers l’Europe sont disponibles en ligne.

Pour atteindre l’objectif du projet, les chercheurs devaient :

transcrire des informations sur la culture, les symboles et des siècles de traditions iconographiques en évolution dans une représentation des connaissances accessible à l’apprentissage automatique et à l’intelligence artificielle,
étendre les approches conventionnelles du deep learning, centrées sur la reconnaissance d’images, avec la capacité de déchiffrer le langage pictural complexe qui caractérise les symboles iconographiques et l’imagerie sacrée.

Intelligence artificielle

SGoaB s’appuie sur le deep learning pour former des modèles de détection d’objets et de reconnaissance d’images, complétés par le traitement du langage naturel (NLP) et ainsi aligner le contenu de l’image sur le texte descriptif, en s’appuyant à la fois sur la détection classique d’objets et sur l’analyse de la sémantique picturale de l’image.

Les étapes de l’approche

Détection d’objet :

Les chercheurs ont tout d’abord défini les classes d’objets pertinentes pour l’iconographie. Puis, ils ont formé des CNN (Convolutional Neural Network) en combinant la fréquence de marquage d’objets d’ensembles de données ouverts avec des bases de connaissances (DBpedia, Wikidata, Wikimedia Commons).

Puis, ils envisagent la segmentation des images grâce à des modèles Mask-RCNN (Mask-Region Convolutional Neural Network) améliorés (prise en compte du style de peinture, de l’action ou des motifs représentés).

Génération de sous-titres :

Les chercheurs génèrent les images grâce à un modèle d’extracteur d’images préformé, à un processeur de séquence complété par une couche de réseau de neurones récurrents à mémoire longue et à court terme (LSTM) complétée par un modèle de langage pour déduire les objets représentés. Pour finir, ils ont utilisé un décodeur.

Architecture HPC

Le calcul haute performance est essentiel pour des projets comme celui de SGoaB où le sous-titrage automatique des images nécessite le traitement de gros volumes de données. Augmenter le traitement de reconnaissance d’images avec de nouvelles images trouvées dans l’iconographie européenne et le traitement NLP rend la tâche encore plus complexe.

Le Barcelona Supercomputing Center a l’infrastructure HPC nécessaire à la prise en charge des services de données et de calcul intensifs, ainsi que des capacités d’accès en lecture-écriture pour les ensembles de données et les métadonnées d’image nouvellement générées.

Joindre une description de bonne qualité à chaque image numérisée devrait permettre à tous les utilisateurs, y compris les personnes malvoyantes, de mieux saisir la portée, la nature et la pertinence du contenu d’un site Web du patrimoine culturel.
Maria-Cristina Marinescu, coordinatrice du projet, déclare :

« Notre projet permettra d’accéder rapidement à une information culturelle enrichie, qui pourra servir aussi bien à des fins culturelles et sociales, d’éducation, de tourisme, et éventuellement d’historiens ou d’anthropologues. Indirectement, les citoyens peuvent bénéficier de meilleurs services publics, lorsque ceux-ci sont basés sur l’idée que les métadonnées plus riches que nous produisons offrent – telles que l’accessibilité du Web pour les malvoyants ou les récits qui peuvent exposer l’injustice sociale ou les problèmes d’intégration et de genre à travers des corpus d’héritage culturel et aider à créer une identité européenne plus tolérante. »