David Madore's WebLog: Encore des considérations sur les statistiques électorales

Pour ceux qui auraient la flemme de lire les deux entrées précédentes (ici et là), la question qui m'intéresse est la suivante : peut-on, à partir des données électorales détaillées des deux tours d'une élection présidentielle, estimer statistiquement la matrice de report des voix d'un tour sur l'autre, c'est-à-dire, la proportion de chacun des types d'électeurs du premier tour (électeurs de chacun des candidats + nuls + abstentionnistes) qui a eu tel ou tel vote au second tour (l'un des deux candidats, ou le nul, ou l'abstention) ? Je voudrais faire cette analyse pour les élections présidentielle de 2007 et de 2012[#].

Des commentaires éclairants sur les deux dernières entrées font que j'y vois plus clair : d'abord concernant la terminologie, on parle d'inférence écologique parce qu'il s'agit de reconstituer des comportements individuels à partir d'agrégats (on sait simplement le nombre total de votes de chaque type au premier et au second tour dans chacune des ∼37000 communes de France). Ce type d'inférence est hasardeux en général, et l'idée naïve d'appliquer une simple régression linéaire peut donner des résultats aberrants ou faux quoique apparemment plausibles. Un exemple célèbre du paradoxe écologique est celui souligné en 1950 par W. Robinson, qui observe qu'en faisant une régression entre (état par état) le nombre de personnes nées à l'étranger et le nombre de personnes sachant lire et écrire sur les données du recensement de 1930 aux États-Unis, il observe une corrélation positive, i.e., plus un état compte de personnes nées à l'étranger, plus il compte de personnes sachant lire et écrire : peut-on en conclure que les personnes nées à l'étranger savent plus lire et écrire (dans la population des États-Unis de 1930) ? non, l'explication est simplement que les personnes nées à l'étranger et ayant immigré aux États-Unis ont eu tendance à s'installer dans des états où la population (native) savait plus lire et écrire, par exemple parce que ces états étaient plus riches. Ce texte résume un peu le problème ainsi que différents éléments de réponse.

Les deux problèmes que je répertoriais dans l'entrée précédente sont : primo, que le nombre de coefficients que je cherche à estimer est important et que les données ne sont pas assez nombreuses, ou surtout pas assez dispersées pour permettre une estimation raisonnable (un commentateur me signale que la taille de l'échantillon pour avoir des coefficients peu bruités croît exponentiellement avec le nombre de coefficients à déterminer) ; secundo, qu'on a des effets que j'appelle non-linéaires et qui sont en vérité la même chose que le paradoxe écologique décrit ci-dessus : les abstentionnistes du premier tour, pour ceux qui se mobilisent au second tour, par exemple, n'ont pas le même profil dans les communes qui votent globalement à gauche que dans celles qui votent globalement à droite (si on y réfléchit, il s'agit du même phénomène que dans l'exemple de Robinson mentionné ci-dessus : une hétérogénéité des populations concernées).

Différentes méthodes ont été proposées pour essayer de faire quand même cette fameuse inférence écologique. La méthode consistant à faire une simple régression linéaire a été analysée par L. Goodman dans les années '50, qui montre (si je comprends bien, parce que je n'ai pas pu avoir accès aux articles) qu'elle fonctionne bien sous des hypothèses qui, dans mon cas, doivent dire grosso modo que la répartition des reports de chaque type d'électeurs du premier tour n'est pas corrélé à la configuration des votes dans la commune (comme je le signale ci-dessus, c'est sans doute assez faux, par exemple dans le cas de l'abstention ou dans une moindre mesure du vote pour Le Pen ; ça me semble plus plausible pour le vote Bayrou). Divers statisticiens ont eu, comme moi, l'idée de borner les coefficients et de faire une régression linéaire contrainte (je n'ai regardé que très sommairement, mais ce papier et celui-là ont l'air de faire des choses de ce genre : le second, d'ailleurs, semble extrêmement proche de ce que j'ai fait).

Des méthodes plus sophistiquées existent : on me signale que Gary King en a écrit tout un livre, où il propose une « solution » au problème ; comme je n'ai pas accès à ce livre, je dois me contenter d'en lire des recensions et commentaires, et des résumés de la méthode de King, et je note que cette dernière ne fait pas l'unanimité. Voir par exemple ce texte, écrit par un critique. Le principal problème que j'ai, moi, est d'ordre pratique : l'implémentation de la méthode pour [le programme de statistiques] R, écrite par King lui-même, est limitée à des matrices 2×2 (or celle qui m'intéresse est 4×14 pour 2007 et 4×12 pour 2012) ; de même, ce package, qui implémente une autre méthode « sophistiquée » d'inférence écologique, est limité de la même façon ; et toutes ces méthodes sont algorithmiquement bien trop pénibles pour être implémentées de novo en un temps raisonnable. Donc il faut bien que je me contente de quelque chose de plus simple.

D'un autre côté, je pense qu'il est raisonnable, pour le problème considéré, de se contenter de quelque chose de plus simple : notamment parce que les populations des différents votes au premier tour sont relativement homogènes quand il s'agit de prévoir le vote au second tour (contrairement aux exemples classiques de « paradoxe écologique » où on relie des variables très différentes et mal corrélées). Un exemple extrême est évidemment la population d'électeurs au premier tour d'un des candidats qui passent au second tour : il est évident qu'une énorme majorité d'entre eux votent encore pour le même candidat au second tour — ici, la prédiction est presque parfaite.

Je défends donc finalement mon idée de rester sur une régression linéaire, avec trois principales idées que j'ai déjà exposées pour améliorer la qualité des chiffres :

Contraindre les coefficients de la régression à être entre 0 et 1 et de somme 1 pour chaque colonne. (Comme je l'ai signalé, je ne suis pas le premier à faire ça.) Autrement dit, j'effectue une régression linéaire contrainte (je minimiser la somme des erreurs quadratiques parmi les matrices vérifiant les contraintes ci-dessus). L'idée sous-jacente est que certains coefficients sont connus trop grossièrement, leur valeur calculée naïvement peut être délirante, cette contrainte assure qu'ils seront tronqués à quelque chose de raisonnable (ce qui, du coup, assure de répercuter une erreur déraisonnable sur d'autres coefficients).
Regrouper les candidats du premier tour trop petits et ayant un profil sociologique proche (ça ne sert à rien d'essayer de déterminer séparément les reports du vote pour Poutou et du vote pour Arthaud, ou du vote pour Cheminade et du vote blanc/nul).
À l'inverse, scinder les populations du premier tour qui risquent d'être sociologiquement trop inhomogènes (abstentionnistes et vote Le Pen) en sous-populations artificielles dans les mêmes proportions qu'une proportion gauche-droite approximative sur la commune. Ceci permet (au prix de nouveaux coefficients à déterminer !) d'introduire un effet non-linéaire relativement raisonnable et donc de diminuer l'effet d'inhomogénéité de ces populations (et le « paradoxe écologique » qui va avec).

Je donnerai les chiffres que j'obtiens dans la prochaine entrée (qui sera, j'espère, la dernière sur ce sujet !), parce que je suis fatigué d'avoir écrit tout ça. Mais disons qu'ils sont assez plausibles (évidemment, il faut imaginer qu'ils ne sont que des ordres de grandeur !) et qu'ils prédisent, par exemple, que les électeurs de François Bayrou du premier tour se sont plus reportés sur Sarkozy que sur Hollande en 2012, alors qu'en 2007 ils s'étaient plus reportés sur Royal que sur Sarkozy — or ceci est conforme aux sondages directs sur la question ainsi qu'aux analyses des politologues.

[#] J'ai fini par obtenir les données du second tour de 2012, qui étaient effectivement sur RegardsCitoyens.org comme on me l'avait soufflé, mais bien cachées et pas à l'endroit où on les attendait. Elles sont par ailleurs un peu incomplètes puisqu'il y manque la Corse, mais peu importe.