Un drôle d’outillage (épisode 9)
Au mois de décembre, j'avais procédé à une refonte technique de mon processus de production de gedcom, cette fois c'est à ma base de données que j'ai été contraint de m'attaquer. Historiquement, et sans doute par facilité, j'ai non seulement géré les feuilles de l'arbre, de diverses catégories, sous Excel mais j'avais aussi créé des tables. Pour les communes référencées, de façon à harmoniser et à ne pas ressaisir sans cesse les références, mais aussi pour les registres du Nord, en utilisant pour cela les tables fournies sur leur site par les AD du Nord.
Seulement voilà, avec leur fournisseur de logiciel Naoned, les AD59 ont tout changé. Et surtout ont introduit un système de liens :ark à grain fin, celui de la page qui oblige donc à conserver "en dur" le dit lien pour chaque acte que l'on note.
D'autres systèmes proposent un lien de type :ark comportant une partie variable pour la page à l'intérieur du registre. Naoned, qui ne doit pas savoir, ni chercher à savoir, ce que font les utilisateurs des données proposées par leurs clients, les AD de divers départements, a préféré l'option "boite noire". Il est tout à fait regrettable que rien n'ait été proposé pour faire le lien entre l'ancien système et le nouveau. Du coup, chacun se débrouille.
L'indexation des registres, proposée par le site Geneachtimi était complètement à refaire. Un gros travail, avec un existant qui était le résultat d'années d'effort collaboratif. Heureusement, grâce à la bonne volonté de tous, et au travail des administratrices du site qui ont su exploiter une fonction qu'un utilisateur du forum des AD avait remontée, tout ce qui existait n'est pas perdu: il suffit d'entrer l'adresse de la première page d'un registre et les liens mémorisés se mettent à jour, comme par miracle (mais c'est juste un peu de programmation).
J'ai utilisé la même astuce technique qui permet à partir d'une seule interrogation de récupérer un fichier de type json et de l'exploiter ensuite pour obtenir les adresses (URL) de chaque page d'un registre.
Il me restait à stocker cela de façon à conserver les liens, au moins pour les registres qui sont les plus courants dans mon arbre, mais aussi ceux qui sont référencés par mes pages 14-18 recensant pour les communes de l'arrondissement de Douai les poilus Morts pour le France durant la Grande Guerre.
Mon ancienne table comporte environ 7000 entrées, soit grosso-modo le nombre de registres d'état civil proposés par les AD du Nord. Mais cette fois, il faudrait aller au grain page, et même en prenant une moyenne de nombre de pages de 500, on arrive à plusieurs millions d'entrées, ce qui n'est plus gérable dans une table Excel, voire plus gérable du tout à mon niveau.
Du coup, exit le tableur (enfin si, il reste là pour l'instant même s'il change un peu de rôle) et place à la base de données. Pour faire simple, j'utilise une base Access. Bien sûr, j'aurais pu opter pour une base open source, mais à partir du moment où le fichier maître de ma généalogie reste sous Excel, autant être cohérent.
Cependant, je n'ai pas du tout l'intention de mettre l'ensemble des registres des AD59, page par page, dans ma table.
Pour beaucoup de registres, je n'ai que quelques références, et bien souvent une seule. Par exemple, les registres de naissance de Lille au XIXè siècle ne couvrant que des parties d'années, il est très rare que j'y ai plus d'une référence, et ce sont des collatéraux. A l'inverse, à Marchiennes, Flines-lez-Raches et quelques autres communes comme Nivelle, qui n'est pour l'instant que très partiellement remis en ligne, un seul registre peut concerner des dizaines, voire des centaines d'entrées de mon arbre.
J'ai donc opté pour un système double: je saisis manuellement les nouvelles URL de type :ark lorsque je n'ai que quelques liens à mettre à jour dans un registre. En revanche, pour ceux qui concernent plus de monde, dans mon arbre ou dans mes tables de poilus, je crée ce qu'il faut dans ma base Access et j'y accède avec la même fonction sous Excel qu'auparavant.
A ce jour, j'ai introduit dans ma base un peu moins de 200 registres, et il y en aura d'autres lorsque les AD mettront en ligne ceux qui sont actuellement manquant, en particulier des séries 3 E. La taille de la base reste raisonnable à environ 100000 entrées, elle a une indexation simple (registre + page) qui permet un accès rapide aux données.
Je serai amené à ajouter les fiches matricule, lorsque les AD se décideront enfin à remettre en ligne celles des poilus, ce qui finira bien par arriver et je l'espère avant le centenaire de la seconde guerre mondiale. A ce moment là, je pourrai mettre à jour les pages concernant les poilus des communes de l'arrondissement de Douai, même si j'aurai perdu dans la refonte des AD l'accès aux registres qui contiennent aussi des naissances. C'est bien dommage mais les AD se plient à une règle, par ailleurs assez arbitraire, établie par la CNIL. Je ne peux pas le leur reprocher.
A terme, ma base de données contiendra une sélection de registres d'état civil du Nord, ceux qui sont assez fréquents dans ma généalogie et aussi ceux qui concernent les poilus de l'arrondissement de Douai, tant pour leur naissance que pour la transcription de leur décès sous réserve que celui-ci soit remis en ligne bien sûr. Elle contiendra aussi une référence des registres matricule, et peut-être la ferais-je complète, au moins pour les centres de Cambrai, Valenciennes-Douai et Valenciennes car finalement le volume n'est pas si énorme et j'ai déjà à peu près mis au point une méthode visant à récupérer l'élément fixe par registre de l'URL et l'adresse de la page 1.
Mais on en reparlera, peut-être, à l'épisode 10.