DeepMind présente Ithaca, Deep Neural Network pour la restauration et l’attribution de textes anciens

L’épigraphie étudie les inscriptions sur matière durable, comme la pierre et le métal, et est très utile aux historiens pour l’étude des civilisations antiques, dont la plupart des documents périssables ont disparu. Cependant, ces inscriptions sur matériaux imputrescibles ont subi les dommages du temps et nombreuses sont endommagées, illisibles, parfois des morceaux de leur support sont manquants… L’équipe de Deepmind a développé Ithaca pour venir en aide aux scientifiques dans la restauration de ces textes. Elle a publié ses travaux dans la revue Nature sous le titre “Restaurer et attribuer des textes anciens à l’aide de réseaux de neurones profonds” début mars.

Deepmind travaille pour trouver les “meilleures techniques de l’apprentissage automatique et des neurosciences des systèmes pour de puissants algorithmes d’apprentissage généraliste”. Cette société d’Alphabet s’investit particulièrement sur les raisonnements rationnel et prédictif, ainsi que sur les méthodes d’apprentissage de type deep learning et deep reinforcement learning. En 2019, Deepmind avait développé avec l’Université d’Oxford, Pythia, un outil d’IA dédié à l’épigraphie. Ce dernier visait à retrouver les lettres ou le texte disparu. Ithaca va beaucoup plus loin que Pythia puisqu’il permet de déduire l’origine géographique et la datation des inscriptions alors que la datation au carbone 14 ne peut leur être appliquée.

Cette étude a été menée en collaboration avec les départements de sciences humaines des universités Ca’Foscari de Venise, de l’Université d’Oxford ainsi que celui d’Informatique de l’Université Economique d’Athènes .

L’étude

Les épigraphistes doivent souvent reconstruire le texte manquant, un processus connu sous le nom de restauration de texte, et établir le lieu et la date d’origine de l’écriture, tâches appelées respectivement attribution géographique et attribution chronologique. Ces trois tâches sont des étapes cruciales pour situer une inscription dans l’histoire mais très complexes, chronophages et spécialisées.

L’équipe de Deepmind s’est servie de ses recherches de pointe en ML pour créer Ithaca. Inspirés des réseaux de neurones biologiques, les CNN peuvent découvrir et exploiter des modèles statistiques complexes dans de vastes quantités de données. Les augmentations récentes de la puissance de calcul ont permis à ces modèles de relever des défis de sophistication croissante dans de nombreux domaines, y compris l’étude des langues anciennes

Ithaca est une architecture de CNN  profonds formée pour effectuer simultanément les tâches de restauration textuelle, d’attribution géographique et d’attribution chronologique, effectuées jusqu’ici par les épigraphistes.

Ithaca (de Ithaque, l’île ionienne dont Ulysse, le héros légendaire, était roi) a été formée sur des inscriptions écrites dans la langue grecque antique et à travers le monde méditerranéen antique entre le VIIe siècle avant JC et le Ve siècle après JC. Ce choix est dû à deux raisons :

  •  la variabilité du contenu et du contexte de la notice épigraphique grecque, qui en fait un excellent défi pour le traitement du langage ;
  •  la disponibilité de corpus numérisés pour le grec ancien, une ressource essentielle pour la formation de modèles d’apprentissage automatique.

Former Ithaca aux inscriptions grecques

Pour former leur modèle, les chercheurs ont créé un pipeline pour récupérer l’ensemble de données non traité du Packard Humanities Institute (PHI), qui se compose des textes transcrits de 178 551 inscriptions et répertorie 84 régions anciennes.
L’ensemble de données résultant I.PHI est, selon l’équipe ,le plus grand ensemble de données multitâches de texte épigraphique actionnable par machine, contenant 78 608 inscriptions.

Les résultats

Alors qu’Ithaca atteint à lui seul 62% de précision lors de la restauration de textes endommagés, dès que les historiens utilisent Ithaca leurs performances bondissent de 25% à 72%, confirmant l’impact de cette aide synergique à la recherche.
Ithaca peut relier les inscriptions à leur lieu de découverte d’origine avec une précision de 71 % et les dater avec un écart d’environ 27 ans par rapport à la datation “inférieure” proposée par les réévaluations modernes. Les prédictions d’Ithaca ne sont en moyenne qu’à 5 ans des vérités de terrain nouvellement proposées.

Collaborer avec les historiens

Ithaca peut aider à la restauration et à l’attribution d’inscriptions nouvellement découvertes ou incertaines. L’équipe a créé une interface open-source accessible au public : https://ithaca.deepmind.com, permettant aux historiens d’utiliser Ithaca pour leurs recherches personnelles, tout en facilitant son développement pour d’autres applications? Les méthodes introduites dans cette recherche peuvent être appliquées à toute discipline traitant du texte ancien (papyrologie, numismatique, codicologie), à ​​toute langue (ancienne ou moderne), intégrant également des métadonnées supplémentaires (images d’inscription, stylométrie). L’équipe conclut :

« De plus, la nature essentiellement interactive d’Ithaca en tant qu’aide à la recherche coopérative se prête à une configuration efficace pour les futures recherches sur l’apprentissage automatique en ajoutant des humains dans la boucle de formation. »

Sources de l’article :
Ithaca a été conçu et étudié par Yannis Assael*, Thea Sommerschield*, Brendan Shillingford, Mahyar Bordbar, John Pavlopoulos, Marita Chatzipanagiotou, Ion Androutsopoulos, Jonathan Prag et Nando de Freitas. Assael, Y., Sommerschield, T., Shillingford, B. et al. Restoring and attributing ancient texts using deep neural networks. Nature 603, 280–283 (2022). https://doi.org/10.1038/s41586-022-04448-z.

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.
Partager l'article
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.