Accueil>Big data, quand le mieux devient l’ennemi du bien ?

14.10.2022

Big data, quand le mieux devient l’ennemi du bien ?

Le paradoxe big data
Le paradoxe de la Big Data et les limites des sondages contemporains par Dr. Michael Bailey (crédits : Michael A. Bailey/Shutterstock)

Mercredi 5 octobre, les étudiants de l’École d’affaires publiques de Sciences Po, plus précisément du Master politiques publiques, spécialité Digital, nouvelles technologies et politiques publiques, ont été invités à une masterclass donnée par le Dr. Michael Bailey et modérée par Dominique Cardon, directeur du médialab. Ce diplômé de Stanford et professeur à l’Université de Georgetown (USA), travaille sur le futur des techniques de sondages et publiera d’ailleurs prochainement un livre sur ce sujet d’importance. Il s’est révélé ravi de pouvoir rencontrer des étudiants qui devront sans doute dans leur futur parcours professionnel s’appuyer sur la big data (recueil massif de données) et les nouvelles méthodes sophistiquées de sondage pour prédire des élections ou prendre des décisions de politique publique. Son opinion sur le sujet n’est pas partagée par tous ses collègues universitaires mais il n’a pas peur de l’exprimer publiquement : “plus de data, ce n’est pas toujours mieux”.

La quantité n’est pas toujours meilleure que la qualité

Dr. Michael Bailey a lancé sa leçon avec un exemple significatif. Sur trois sondages réalisés afin d’estimer combien de citoyens américains se faisaient vacciner contre le Covid, le plus conforme à la “réalité” (soit en l'occurrence les résultats des autorités sanitaires) était celui qui avait pourtant le moins de participants (Axios-Ipsos), soit moins de 1 000 personnes contre les 250 000 personnes qui répondaient au sondage hebdomadaire en ligne de Facebook.

Un autre exemple ? Les nombreux résultats de sondages postérieurs à la campagne présidentielle américaine de 2020. Tous les sondages donnaient une large avance à Joe Biden, alors qu’il a finalement vaincu Donald Trump de peu. Le conférencier a ajouté : “nous devons consulter les sondages avec prudence” et “cela ne veut pas dire qu’ils se trompent toujours, mais quand ils se trompent, ils se trompent bien.”

Le professeur a poursuivi avec une courte histoire des méthodes de sondage ayant tenté de prédire les résultats des élections présidentielles, qui ont toutes fini par montrer leurs failles : la méthode de sondage de masse du Literary Digest (des personnes possédant un téléphone ou une voiture), le sondage par quotas du Time Magazine, les sondages téléphoniques puis enfin le succès des sondages en ligne permettant de contrecarrer la part croissante de non-répondants des autres méthodes. Les méthodes contemporaines les plus utilisées sont la méthode de sondage probabiliste – avec une pondération a posteriori pour compenser les non-répondants – et les sondages en ligne – avec un recours aux quotas et à la pondération.

Une des découvertes majeures du Dr. Michael Bailey, qui dérange quelque peu dans son milieu de recherche, est que “la taille de la population et celle de l’échantillon ont leur importance”. Le concept très répandu selon lequel une même taille d’échantillon peut donner de bons résultats pour n’importe quelle taille de population n’est pas toujours vrai. Dr. Bailey a pris le temps de tester son hypothèse et prouver que son intuition était la bonne. La qualité des données recueillies est plus importante que la quantité et la taille de la population impacte sur la qualité des données recueillies, “le problème de qualité d’un vaste ensemble de données est un vaste problème”. Il a donné aux étudiants de Sciences Po l’exemple d’un sondage avec 20 participants dans une grande ville : les personnes ayant répondu pourraient être tout à fait atypiques et non représentatives. Mais si l’on considère un sondage avec 20 participants dans un petit village, même si les participants sont atypiques, ils risquent d’être tout de même plus représentatifs de leur petite population.

Ne pas ignorer les non-répondants non-ignorables

L’un des points les plus saillants de la conférence était l’importance du facteur que sont les non-répondants. Que la proportion de ces non-répondants soit devenue immense dans les sondages actuels peut être un vrai problème, ou non. Il y a deux catégories de non-répondants : les ignorables et les non-ignorables. Le danger se pose quand “la décision de répondre est liée au contenu de la réponse”. Quand elle ne l’est pas, le souci “peut se régler en pondérant certaines des données”. Dr. Michael Bailey a présenté le graphique qui représente les résultats d’un sondage avec l’ajout de la part des non-répondants, si le graphique reste en forme de “poisson au repos”, le résultat global du sondage n’est pas impacté.

La difficulté se présente quand les non-répondants sont non-ignorables, quand leurs réponses (manquantes) auraient changé le résultat du sondage. Ce type de non-répondants explique les erreurs constatées pour les sondages précédant les élections présidentielles américaines de 2016 et de 2020. Le graphique correspondant qui a été présenté par le Dr. Michael Bailey est alors un “poisson incliné”, dont la queue représentant le résultat des réponses des non-répondants change drastiquement la dynamique globale des résultats.

Le conférencier a proposé une piste afin de gérer ce problème : “aller chercher les non-répondants non-ignorables”, en relançant une vague de sondage au format différent, plus extensive, plus attrayante, afin de voir si les résultats sont alors différents ou non. La métaphore choisie par Michael Bailey afin d’expliciter son propos a été celle d’un professeur qui demanderait à ses étudiants de poser des questions en précisant qu’il ne répondrait qu’à deux d’entre elles. Les étudiants qui lèvent la main seront les plus motivés à l’idée d’exprimer leur opinion et sans doute les plus assidus. Le jour suivant, ce même professeur propose à ses étudiants de poser toutes leurs questions en précisant qu’il a plusieurs heures à leur consacrer : davantage d’étudiants posent alors des questions. Si les questions du premier jour sont du même type que celles du deuxième jour, alors il était possible d’ignorer les non-répondants du premier jour. Mais si les questions du deuxième jour sont de nature différente, alors les non-répondants étaient non-ignorables et il était important d’entendre leurs questions.

L’invité américain termine alors son intervention sur un constat : “même dans notre ère de la big data, la méthode de recueil des données est plus importante que la taille de la masse de données”. Pour conclure, il a invité les étudiants de l’École d’affaires publiques à se pencher sur ce sujet passionnant et les défis importants qu’il pose, surtout dans les contextes délicats des élections ou de l’élaboration des politiques publiques.

En savoir plus :