Le service interministériel des Archives de France (SIAF), en partenariat avec l’Ecole d’économie de Paris, lance le projet de recherche Socface, mené par l’Institut national d’études démographiques (INED) et la société Teklia. L’évolution de la société française de 1836 à 1936 sera étudiée à partir des vingt recensements de la population effectués durant cette période, conservés et numérisés par les services d’Archives Départementales.
Le service interministériel des Archives de France est un des services composant la direction générale des patrimoines et de l’architecture. Avec l’inspection générale des patrimoines, il exerce, entre autres, un contrôle scientifique et technique sur les archives publiques encore aux mains des services et établissements publics de l’Etat. Avec l’Ecole d’économie de Paris, il vient de lancer le projet de recherche innovant Socface, retenu l’an dernier par l’Agence Nationale de la Recherche (ANR), agence de financement de la recherche sur projets en France.
Le projet SOCFACE
Le projet Socface, financé par l’ANR, a pour objectif l’analyse des listes nominatives du recensement de 1836 à 1936 pour produire une base de données des individus ayant vécu en France durant cette période. Ces listes renseignent sur le nom d’un individu, sur son âge, son sexe, parfois sa profession. Des enquêteurs en démographie historique de l’INED, le groupe “Histoire économique et sociale” de l’Ecole d’économie de Paris, Teklia, spécialiste de l’IA et du traitement automatique des documents, et le SIAF vont collaborer à ce projet. Celui-ci est coordonné par Lionel Kesztenbaum, historien et démographe, directeur de recherche à l’INED.
Méthodologie
Socface va utiliser le machine learning pour analyser 15 millions d’images collectées auprès d’une centaine d’archives départementales et construire des modèles de traitement automatique. Les résultats seront validés par les historiens, les démographes ou les archivistes de l’équipe. Plus de 700 millions d’enregistrements vont être traités grâce à Arkindex, solution de reconnaissance automatique des manuscrits et de leur indexation de Teklia.
Des données publiques
Le projet a débuté en septembre 2021 et devrait aboutir en mars 2025, la base de données sera alors disponible sur le portail FranceArchives. Les services d’archives départementales pourront publier leurs propres archives. Les recherches généalogiques vont être simplifiées, celles en histoire économique et sociale ou en histoire de la démocratie également. Celles concernant l’évolution du marché du travail, les inégalités, les migrations profiteront elles aussi des connaissances acquises grâce à Socface.