L’intelligence artificielle va entrer dans les archives départementales

archive

La généalogie est l’une des grandes passions des Français. Quelque 10 millions d’entre eux effectuent des recherches pour retrouver leurs ancêtres et un Français sur deux aurait déjà fait des recherches sur sa famille. Mais construire son arbre généalogique devient parfois très compliqué au fur et à mesure qu’on remonte le temps. Certains font appel au projet FamilySearch, piloté par les Mormons américains et qui contient plusieurs millions de données d’état civil du monde entier.

Les choses pourraient toutefois bientôt changer en France avec l’annonce que vient de faire le ministère de la Culture concernant les archives départementales. Le service interministériel des Archives de France, en partenariat avec l’Ecole d’économie de Paris, a lancé un projet de recherche baptisé Socface, mené par l’Institut national d’études démographiques (INED) et la société Teklia. Cette dernière développe pour des institutions publiques (CNRS, Archives Nationales…) et des entreprises privées (banques, assurances) des solutions basées sur des technologies d’apprentissage automatique (machine learning), d’apprentissage profond (deep learning) et de traitement automatique de la langue naturelle (NLP). Un des secteurs d’expertise de Teklia est la reconnaissance automatique d’écriture manuscrite et imprimée. Le projet Socface avait été retenu à l’été 2021 par l’agence nationale de la recherche (ANR), explique le ministère.

« Le projet mobilise la reconnaissance automatique d’écriture manuscrite pour analyser l’ensemble des listes nominatives du recensement de 1836 à 1936 (soit 20 recensements) », précise l’équipe de Socface, qui réunit archivistes, démographes, économistes, historiens et informaticiens. Le projet produira ainsi une base de données de tous les individus ayant vécu en France entre 1836 et 1936 « et l’utilisera pour analyser le changement social dans la longue durée, améliorant ainsi considérablement notre compréhension des structures économiques et sociales françaises. »

Une base de données ouverte au grand public en 2025

Mais l’autre aspect du projet intéressera directement le grand public, qui pourra accéder aux listes nominatives, diffusées en Open Access. Chacun pourra alors parcourir librement des centaines de millions d’enregistrements.

« Cette base de données sera accessible en 2025 sur le portail FranceArchives. Chaque service d’archives départementales pourra diffuser sur son propre site internet les retranscriptions de ses archives », précise le ministère de la Culture. « Cet outil sans équivalent en France permettra aux internautes d’effectuer des recherches généalogiques d’une ampleur inédite et aux chercheurs et universitaires de mener des études exceptionnelles en histoire économique et sociale ou encore en démographie historique. Les recherches sur les transformations du marché du travail, les causes et les conséquences des migrations ou l’évolution des inégalités bénéficieront également de ces précieuses nouvelles informations. »