Accueil>Partager et préserver ses données : un chercheur raconte son expérience avec la Banque de données du CDSP

19.11.2025

Partager et préserver ses données : un chercheur raconte son expérience avec la Banque de données du CDSP

Florent Gougou, Enseignant-chercheur en science politique et Vice-président transformation écologique associé au Laboratoire Pacte, revient sur son expérience de dépôt de données dans Banque de données du CDSP

Il souligne l’importance de l’accompagnement de notre service de documentation pour la préservation de ses travaux. 

Pouvez-vous présenter vos données en quelques mots ? Comment les avez-vous produites, quelles sont leurs spécificités ?  

Cette nouvelle collection de données porte sur les élections françaises au suffrage universel direct : ce sont des données électorales. Je les ai constituées dans le cadre d’un projet que j’ai intitulé FERD, pour French Election Results Database. Le plus souvent, quand on parle de données électorales, on pense à des données d’enquête par questionnaire sur des échantillons représentatifs. Ce n’est pas le cas de ces données : ce sont des données relatives aux candidatures et aux résultats des élections.

La France est une vieille démocratie électorale : des élections libres et concurrentielles ont lieu depuis plus de 150 ans. L’intégrité des opérations de vote repose sur le rôle central du Ministère de l’Intérieur, qui met en œuvre les dispositions du code électoral et diffuse l’information associée avec transparence. Pour cela, le Ministère s’appuie à la fois sur son administration centrale et sur les services déconcentrés de l’État. Au niveau central, le Bureau des élections et des études politiques (BEEP) assure l’organisation générale de l’ensemble du processus électoral ; au niveau local, les préfectures assurent l’organisation concrète des scrutins en recueillant les déclarations de candidature et en coordonnant les opérations réalisées dans chaque bureau de vote.

Depuis les années 1990, l’accès à l’information électorale s’est accéléré et démocratisé. Les volumineux livres blancs que le Ministère de l’Intérieur publiait dans l’année suivant les scrutins ont été remplacés par des fichiers informatisés. Ces fichiers sont constitués grâce à un système informatique que le Bureau des élections et des études politiques a développé pour centraliser les résultats décomptés dans chaque bureau de vote du territoire ; la série débute avec les élections cantonales de 1992 et elle est disponible à tous les niveaux d’agrégation territoriaux. 

Depuis 2002, le Ministère permet de visualiser ces résultats en ligne, via un site dédié. Depuis 2014, les fichiers complets sont mis à disposition dès le lendemain de chaque scrutin sur data.gouv, la plateforme de diffusion de données publiques open data de l’État.  Depuis 2015, le Ministère diffuse sur un portail en ligne les versions numérisées des professions de foi des candidats.

Ces données collectées et diffusées par le Ministère de l’Intérieur sont évidemment très précieuses pour la recherche scientifique sur les élections. Leur clé de voûte est la grille des nuances politiques que les services du Ministère établissent avant chaque scrutin et diffusent aux préfectures pour leur permettre de classer les candidatures. Or ce nuancier répond à des logiques administratives liées aux contraintes de lisibilité des résultats pour la communication de totaux nationaux et aux règles de rattachement des candidats à des groupes pour l’organisation de la vie politique. 

De fait, elles ne prennent pas en compte les enjeux de la recherche scientifique. La manière de construire l’identification politique des candidats, en particulier, n’est pas toujours adaptée aux questions que les sciences sociales peuvent éclairer sur la base des résultats des élections. L’objectif du projet French Election Results Database est précisément de combler ce vide en enrichissant les données du Ministère de l’Intérieur par l’usage systématique d’un nuancier politique original, applicable à toutes les élections au suffrage universel direct : présidentielle, législatives, régionales, cantonales/départementales, municipales, européennes.

Pourriez-vous préciser ce que vous entendez par “nuancier politique” ? 

Au-delà des stratégies déployées par chaque candidat pour revendiquer (ou non) telle ou telle étiquette, les nuanciers des candidatures posent deux enjeux scientifiques distincts. Le premier enjeu concerne la caractérisation de l’offre électorale pour chaque scrutin : un nuancier doit aussi bien prendre en compte les affiliations partisanes des candidats que les alliances pré-électorales qui se nouent entre les partis. Le second enjeu concerne la comparabilité de l’offre électorale entre types de scrutin et dans le temps : un nuancier doit permettre de rapprocher les résultats de plusieurs élections.

Pour relever ce double défi, le projet FERD déploie un dictionnaire des nuances incluant trois niveaux de codage pour chaque élection. Le codage de niveau 1 correspond à l’ensemble des nuances attribuées pour le scrutin couvert. Le codage de niveau 2 correspond à des codes simplifiés qui facilitent la lecture des résultats du scrutin considéré tout en conservant les spécificités dans la construction de l’offre. Le niveau 3 correspond à des codes agrégés qui permettent de comparer les résultats entre les différents types d’élection et dans le temps. Pour chaque scrutin, une arborescence décrit systématiquement les logiques d’articulation entre ces trois niveaux de codage.

Qui vous a accompagné dans ce travail d’ouverture et de diffusion des données, et en quoi cet appui a-t-il été déterminant ?

Pour parvenir à ouvrir cette collection de données, j’ai bénéficié d’un accompagnement efficace de la part d’ingénieures de mon laboratoire de recherche, Pacte, et du Centre de données socio-politiques de Sciences Po. Sans cet accompagnement précieux, je ne peux pas garantir que j’aurais fait tous les efforts nécessaires pour diffuser les données avec des standards aussi élevés – et si j’étais parvenu à le faire, le résultat ne serait pas le même.

Du côté de Pacte, Sandrine Astor (de l’équipe d’appui méthodologique Ariane) m’a éclairé et guidé dans les méandres des déclarations préalables, notamment au regard de la protection des données. Par cette aventure, j’ai découvert l’existence du délégué à la protection des données du CNRS et je suis assez fier de pouvoir exhiber le certificat d’enregistrement de mon projet (numéro 2-24212), qui confirme que mon projet répond aux règles éthiques et déontologiques de la recherche.

Du côté du CDSP, Alina Danciu a accueilli ma proposition initiale avec intérêt et cela m’a donné la part d’énergie nécessaire pour ne pas abandonner le projet, même quand les choses n’avançaient pas aussi vite que prévu. Elle a ensuite été de bon conseil pour la mise en forme des données et a pris en charge la documentation des données. Je pense que j’étais d’emblée un bon élève et que mes données étaient déjà très propres, mais son exigence a permis d’aller encore plus loin.

Quels bénéfices tirez-vous de la mise à disposition de ces données électorales pour votre travail de recherche ?

L’ouverture de la collection French Election Results est un formidable outil de visibilité pour mon travail. J’ai commencé cette entreprise de recodage et d’adaptation des données électorales à mes questions de recherche lors des municipales de 2008, j’ai beaucoup tâtonné dans ma manière de faire avant de parvenir aux normes de standardisation que j’ai déployées pour le dépôt. L’ouverture de la collection m’a également poussé à écrire un data paper qui a été publié dans le journal Demc et qui décrit toutes les procédures que je mets en œuvre ; c’est un second outil de visibilité.

La collection est aussi un gain de temps pour mes propres recherches. Je me suis doté d’un cahier des charges clair pour l’intégration des prochaines élections dans la collection, et je sais que dès que je me pose une question qui engage une approche de long terme, j’ai les données longitudinales appropriées.

Un dernier bénéfice possible serait d’ouvrir la voie à de nouvelles collaborations. Même si cela ne se réalise pas, je suis heureux de savoir que mon travail est accessible à toutes et tous dans un entrepôt de données pour la recherche.

(crédits : Pawel Michalowski for Shutterstock)