Comments on Encore des considérations sur les statistiques électorales

Roux (2012-05-12T14:39:37Z)

Concernant les résultats sur le site de Regards Citoyens et sur NosDonnees.fr, ce travail bénévole avait été réalisé sur le vif en direct à partir des publications du Ministère de l'Intérieur.
Le rush étant désormais passé, nous avons tout republié tout cela plus proprement, notamment ici : http://www.nosdonnees.fr/package/resultats-et-participation-l-election-presidentielle-2012

Walter S. (2012-05-11T11:08:07Z)

Ce que tu essayes de faire est amusant et intéressant ; en ce qui me concerne, j'ai fait beaucoup plus simple en effectuant une régression linéaire simple entre les scores obtenus par les candidats au premier tour et leurs temps de parole cumulés du 1er Janvier au 19 Mars 2012 (uniquement sur les chaînes de TV) : on obtient alors un R² de 0.94 (pour 10 points, donc), 0.979 sans compter Marine Le Pen, et 0.99 si on ne prend pas non plus en compte Mélenchon. Après, y a-t-il causalité… A titre personnel, j'ai hélas tendance à penser que oui (même si, dans la mesure où les temps de parole sont probablement en partie octroyés en fonction des résultats des sondages, de tels résultats ne sont pas très surprenants).

Si cela intéresse quelqu'un, mes comptes (approximatifs, et concernant uniquement les chaînes de TV (toutes, tous types de programmes compris)) sont (en heures) : Sarkozy 253, Hollande 245, Le Pen 99, Bayrou 89, Mélenchon 65, Joly 36, NDA 13, Poutou 13, Arthaud 11, et Cheminade 2.
Les comptes exacts sont disponibles sur le site du CSA (http://www.csa.fr/Television/Le-suivi-des-programmes/Le-pluralisme-politique-et-les-campagnes-electorales/Election-presidentielle-temps-de-parole), mais nécessitent quelques calculs pour obtenir des totaux.

jö (2012-05-10T09:56:20Z)

matrice 2012 vu dans 20 minutes d'hier, réalisée sur un échantillon de 2612 personnes : <URL: http://speedy.sh/aJGTR/stats.pdf >
(j'ai repassé Sarko au stylo pour une meilleure lisibilité)

Est-ce cohérent avec tes comptes ?

DM (2012-05-10T03:01:52Z)

Ta remarque « Mesurer les reports de voix, par exemple, des électeurs de Laguiller au premier tour, ne peut se faire fiablement qu'en comparant des endroits où elle fait un score relativement élevé et d'autres où elles fait un score particulièrement mauvais : l'ennui, c'est que quand elle fait un score élevé, d'autres candidats (de gauche) font également un score élevé, et noient le signal » m'inspire la réflexion suivante :

Dans certaines approches de machine learning ou de statistiques, on suppose que le signal que l'on observe est une combinaison linéaire de variables aléatoires indépendantes, que l'on aimerait découvrir. Par exemple, au vu d'un tableau fournissant pour chaque élève ses notes dans diverses matières, on aimerait trouver automatiquement disons 2 caractéristiques principales et orthogonales (par exemple « aptitudes mathématiques » et « sensibilité littéraire ») qui fixent l'essentiel du vecteur de notes (p.ex. on trouvera que la note de maths c'est essentiellement la composante aptitudes mathématiques, celle de bio une combinaison linéaire 50/50, etc. ; bien entendu mon exemple n'a absolument aucune prétention au réalisme). Je ne connais pas trop bien ce domaine en dehors de la technique consistant à diagonaliser une matrice de covariances, mais tu trouveras plus en cherchant "factor analysis" et "principal component analysis".

Ce que cela voudrait dire pour ton modèle par communes, c'est qu'il existerait pour chaque vote V une matrice A_V tel qu'à chaque commune on pourrait associer un vecteur C d'assez basse dimension tel que les pourcentages des candidats dans une commune (disons dans une commune suffisamment grande pour que ça ait un sens statistique) soient sensiblement égaux à A_V C. On peut imaginer que les composantes de C représentent des gradations type riche vs pauvre.

Tu as deux votes donc deux matrices A_1 et A_2. Intuitivement, ce que tu essayes de faire, c'est de passer de A_1 C à A_2 C, mais que tu n'as pas suffisamment d'information dans A_1 C pour déterminer C avec une bonne précision.

Le problème de ce genre d'analyses, c'est que si tu peux souvent avoir quelques composantes principales significatives, après ça devient assez n'importe quoi. Au fond, ton problème sur les petits candidats, c'est par exemple qu'il n'y a pas de variable qui fasse la différence entre Arthaud et Poutou (et effectivement, je pense que pour 99% de la population, c'est bonnet-blanc et blanc-bonnet ; d'ailleurs quelqu'un peut-il m'expliquer pourquoi on n'a pas de lambertiste, ou alors c'est Mélenchon qui joue le rôle ?).

Si tu as encore la patience et le temps de te pencher sur le sujet, il pourrait être intéressant d'appliquer des méthodes d'extraction de composantes principales sur la table commune→votes (probablement en virant les petites communes), et voir s'il y a des corrélations avec la richesse ou je ne sais quoi.

Je suppose que, bien entendu, tout ce genre de choses a déjà été étudié par des économétristes et statisticiens…

cobarde anónimo (2012-05-10T02:47:54Z)

Le bruit n'est probablement pas un problème substantiel. Tu peux en première approche introduire un bruit de Poisson dans les données : à part quelques candidats qui ne font que quelques voix par bureau de vote rural, cela n'affecte pas considérablement la conclusion. Ou, plus réaliste, tu peux créer des partitions aléatoires du corps électoral et recalculer la matrice sur les sous-parties ainsi générées (pas testé).

Je suis impressionné qu'un mathématicien de ta trempe se fasse avoir par un problème de statistique assez simple dans ses concepts. Comme quoi, il reste toujours des choses à découvrir dans ce monde, et pas toujours dans les endroits les plus escarpés ou éloignés.