David Madore's WebLog: Différentes hypothèses relatives à l'entrée précédente

Je posais hier le mystère suivant : comment expliquer qu'une régression linéaire entre les nombres de voix (commune par commune) aux deux tours de l'élection présidentielle de 2007 ne donne pas, comme on pourrait naïvement s'y attendre, une matrice de report des voix raisonnable ?

Différentes explications m'ont été proposées (soit dans les commentaires de l'entrée précédente, soit par d'autres canaux), et je voudrais y apporter quelques commentaires.

Voici une première hypothèse : mes calculs sont tout simplement dénués de sens, on ne peut pas espérer bêtement qu'une simple formule linéaire donne des résultats raisonnables, du coup les coefficients de la formule linéaire (fût-elle la meilleure possible) n'ont aucune espèce de signification. C'était aussi ma première idée. Mais elle ne tient pas pour la raison suivante, c'est que la formule linéaire en question est en fait étonnamment précise. Voici quelques données pour illustrer ce fait : si je prévois les résultats du second tour de 2007 à partir de ceux du premier avec la formule linéaire dont les coefficients sont donnés par le premier tableau de l'entrée précédente, j'obtiens une erreur médiane de 7 voix sur la prévision du nombre de voix de Nicolas Sarkozy au second tour (les erreurs sur les autres valeurs sont plus faibles), une erreur moyenne de 15 voix sur toutes les communes de France, une erreur moyenne sur la proportion de 1.3 points (en pondérant évidemment cette dernière moyenne par le nombre d'inscrits de la commune ; pour référence, le nombre moyen d'inscrits est de 1180), et les erreurs moyennes quadratiques sont également assez basses : 40 voix ou 2 points. Bref, l'idée que la formule est aberrante ne tient pas. Remarquer que la formule linéaire donnée par mon second tableau est à peine moins bonne (et même meilleure sur certaines métriques), ce qui donne l'idée que si la formule linéaire est bonne, tous ses coefficients ne sont pas pour autant bien déterminés (cf. ci-dessous).

Variante de la même hypothèse : mes données seraient trop bruitées, par exemple à cause des petites communes. J'ai essayé de refaire les calculs en me limitant aux communes ayant au moins 500 inscrits, cela ne change essentiellement rien (ce qui est normal, parce que je travaille sur des nombres de voix, ce qui fait intrinsèquement que les toutes petites communes ont peu de poids).

Autre idée proposée : la matrice des reports serait très inégale à travers le territoire. Cela dépend de ce qu'on entend par à travers le territoire, mais j'ai fait un test en me limitant aux communes d'Île-de-France : la matrice de corrélation n'est pas exactement la même, mais elle n'est pas fondamentalement différente, et en tout cas les coefficients négatifs ou supérieurs à 1 persistent (ce sont essentiellement les mêmes).

Maintenant, à la réflexion, voici les deux principaux effets que je crois être responsables de l'effet que je signalais :

Premièrement, les coefficients sont diversement bruités. L'idée est qu'un coefficient est d'autant plus facile à mesurer, dans une régression linéaire, qu'on a des variables ayant des valeurs très différentes sur sa valeur d'entrée. Mesurer les reports de voix, par exemple, des électeurs de Laguiller au premier tour, ne peut se faire fiablement qu'en comparant des endroits où elle fait un score relativement élevé et d'autres où elles fait un score particulièrement mauvais : l'ennui, c'est que quand elle fait un score élevé, d'autres candidats (de gauche) font également un score élevé, et noient le signal ; autrement dit, les variables d'entrées ne sont pas du tout décorrélées, et du coup il est très difficile de mesurer fiablement les coefficients depuis chacune d'entre elles. Pour pallier ce problème-là, on pourrait éventuellement réunir des candidats sociologiquement trop proches (par exemple, pour l'analyse des résultats 2012, il sera sans doute pertinent d'agréger les votes pour Poutou et Arthaud ensemble, voire aussi à ceux pour Mélenchon, car il est essentiellement impossible de trouver des endroits où le rapport entre ces scores s'écarte énormément de la moyenne nationale ; de même, le score de Cheminade étant essentiellement une variable aléatoire toute petite, on ne peut rien en dire d'utile, autant l'agréger aux votes nuls).

Deuxièmement, il y a des effets non-linéaires qui ont une trace linéaire non nulle. J'insiste sur le qualificatif : le fait qu'il y ait des effets non-linéaires est évident, mais on peut être tenté de dire ils ne doivent pas être bien importants puisque l'approximation linéaire donne de bons résultats (cf. ci-dessus). Seulement ce n'est pas une analyse complète. Je donne un exemple :

Prenons l'abstention. Elle a été sensiblement au même niveau entre les deux tours en 2007, mais on peut penser qu'elle ne concerne pas les mêmes personnes : beaucoup de gens s'abstiennent au second tour parce que leur candidat de prédilection a disparu du premier, et a contrario, beaucoup de gens s'abstiennent au premier tour parce que leur candidat de prédilection leur semble assuré d'accéder au second tour. Considérons ces derniers : ils ne forment pas une population homogène — certains sont de gauche et voteront plutôt pour la candidate de gauche au second tour, et certains sont de droite et voteront plutôt pour le candidat de droite ; le rapport entre ces deux populations doit être grossièrement de l'ordre du rapport entre électeurs de gauche et de droite au premier tour. On a donc affaire à un effet non-linéaire : il y a apport vers les deux candidats du second tour d'une partie des abstentionnistes dans des proportions déterminées pour parti par le rapport gauche/droite au premier tour. Ça c'est assez évident. Maintenant, comment cet effet non-linéaire se fait-il approximer par une régression linéaire ? Il y a évidemment un effet qui se manifeste dans la colonne des reports de l'abstention, vers les deux principaux candidats, mais il y a aussi une partie qui se manifeste dans la colonne des reports de chacun de ces candidats, car leurs électeurs semblent se multiplier au second tour (si l'abstention varie peu d'une commune à l'autre, c'est surtout cet effet-là qu'on va voir) : on va donc voir apparaître une proportion de report supérieure à 1 entre un candidat et lui-même, et c'est exactement ce qui se manifeste sur mon tableau. (Et comme la somme des coefficients par colonne vaut 1, s'il y a une entrée supérieure à 1, il y en a une qui est négative, ce qui correspond au fait que la présence d'électeurs de gauche au premier tour se manifeste par un défaut de report d'abstention vers le candidat de droite du second tour puisque ces électeurs indiquent qu'on est dans une région de gauche.)

Comment modéliser cet effet non-linéaire ? Je peux imaginer faire la chose suivante : déterminer pour chaque commune une mesure approximative entre 0 et 1 de « proportion de votes à gauche » (parmi les suffrages exprimés), et complémentairement une proportion de droite. Cela peut se faire en classant a priori les candidats comme à gauche ou à droite, ou en utilisant la première régression linéaire pour le faire automatiquement : peu importe, c'est un indice grossier. On divise ensuite artificiellement la population d'abstentionnistes du premier tour entre abstentionnistes « de gauche » et « de droite » suivant cette proportion. Le nombre d'abstentionnistes de chaque catégorie est donc une fonction non-linéaire (quadratique, précisément), et c'est ces deux fonctions (dont la somme est le vrai nombre d'abstentionnistes) qu'on utilise dans une régression linéaire, ou une régression linéaire contrainte. On peut faire la même chose pour les votes pour Le Pen au premier tour, qui représentent un vote protestataire pas forcément de droite : les séparer artificiellement en deux populations dans les mêmes proportions que la séparation gauche/droite sur l'ensemble des exprimés, et utiliser ces deux populations séparément dans la régression. (Ensuite, bien sûr, si on veut calculer une matrice de report des voix, on réunira ces deux populations qui ont été séparées fictivement pour introduire un effet non-linéaire.)

Toute cette procédure est un petit peu ad hoc, mais ça me semble néanmoins assez raisonnable. Sur les données de 2007, introduire de cette manière une division gauche/droite dans les populations d'abstentionnistes et d'électeurs de Le Pen au premier tour me permet d'améliorer d'environ 15% la précision sur les scores de Sarkozy et Royal au second tour. Et en réagrégeant les populations, j'obtiens un vecteur de reports des voix des électeurs de Le Pen un peu plus crédible que du tout-Sarkozy : 87% de report vers Sarkozy, 1% vers Royal, 7% vers l'abstention et 5% vers le nul (je n'y crois toujours pas, mais c'est quand même moins délirant).

Je tenterai d'appliquer ces différentes idées sur les chiffres de 2012 quand je les aurai. En attendant, pour m'amuser, j'ai fait une régression linéaire avec contrainte entre les chiffres du premier tour de 2012 et ceux du premier tour de 2007, pour tenter de répondre à la question les électeurs de tel candidat de 2012, pour qui avaient-ils voté en 2007 ? (en faisant comme si la population était constante, ce qui n'est pas le cas). Ces chiffres ne sont pas sérieux du tout, donc, mais ils sont amusants (je les donne en proportion du score de 2012, i.e., la proportion pour chacun des candidats de 2012 de la fraction de leur électorat qui viendrait de chaque candidat en 2007) :

Éva Joly : 79% depuis Bayrou, 21% depuis Royal.
Marine Le Pen : 23% depuis l'abstention, 5% depuis Besancenot, 4% depuis Buffet, 2% depuis De Villiers, 1% depuis Nihous, 56% depuis Le Pen (père), 2% depuis Laguiller et 7% depuis Sarkozy.
Nicolas Sarkozy : 5% depuis Bayrou, 95% depuis lui-même.
Jean-Luc Mélenchon : 8% depuis Besancenot, 10% depuis Buffet, 16% depuis Bayrou, 5% depuis Bové, 6% depuis Voynet, 1% depuis De Villiers, 30% depuis Royal, 6% depuis Le Pen, 16% depuis Sarkozy.
Philippe Poutou, comme Nathalie Arthaud : depuis Besancenot.
François Bayrou (comme Jacques Cheminade ?!) : depuis Bayrou.
Nicolas Dupont-Aignan : 68% depuis Bayrou, 32% depuis De Villiers.
François Hollande : 15% depuis Bayrou, 85% depuis Royal.

Je répète que ce n'est pas à prendre trop au sérieux, mais il est amusant de voir que ce n'est pas totalement délirant non plus (pour commencer, on peut dire que le calcul a identifié le fait que Bayrou ou Sarkozy étaient bien les mêmes candidats en 2007 et 2012).