Comments on De la difficulté de faire une régression linéaire contrainte en politique

frankie (2013-04-28T13:20:35Z)

Merci sur cette rectification qui remet les pendules à l'heure. J'en reviendrais même pour ma part à notre bon vieux monde celtique où l'on ne se posait pas tant de problèmes de religion.
Il en reste mon coefficient de cohérence. Qui revient à mettre du flou sur un système à vision déterministe, celle-ci étant obtenue grâce à tout un tas de coefficients obtenus par des procédures diverses et variées de moyennisation. Peut-on l'introduire, mon coefficient, sans rendre le modèle incohérent ou sans redondance, et comment ?
Sachant qu'on peut le normaliser en 0° approximation à 1, et en 1° approximation à 15% sur 5 votes (racine 5° de 0.15).
…Où peut-être deux coefficients, et ça semble mieux, l'un d'abstention d'un tour à l'autre, et l'autre de stricte cohérence de vote.

Ruxor (2013-04-27T21:06:19Z)

Il y a surtout une invasion et occupation chrétienne de la France : depuis une quinzaine ou une vingtaine de siècles, ils construisent partout leurs lieux de culte, il y a même eu pendant ce temps pas mal de dirigeants du pays qui étaient secrètement ou ouvertement chrétiens, et récemment ils ont essayé de pousser leur vision du mariage à l'ensemble du pays. Je pense qu'il serait temps que la France revienne à ses bonnes racines gallo-romaines.

PS : Blague à part, je n'ai pas envie que mon système de commentaires devienne un bac à sable pour trolls, donc je n'approuverai pas plus de messages sur cette ligne d'idées (ou sur cette entrée à moins qu'ils concernent de façon très étroite les statistiques).

simple-touriste (2013-04-27T20:19:47Z)

Je veux dire que :
- il y a bel et bien une invasion et une occupation islamique qui se manifeste à de nombreux niveaux (tellement évidente qu'il n'est nul besoin d'entrer dans les détails pour toute personne ayant vécu en France ne serait-ce que ces 10 dernières années);
- elle est d'autant plus dangereuse que les bons esprits-qui-ne-sont-pas-d'extrême-droite vont nier avec vigueur cette réalité malgré l'accumulation de faits;
- elle est intégrée comme "normale";
- la combattre est qualifié par des associations intéressées de "racisme".

[De même qu'au delà du "sentiment d'insécurité" dont on nous rabat les oreilles pour critiquer la droite et l'extrême droite (moins depuis que la gauche est au pouvoir, il faut croire que la réalité change selon le camp qui a pouvoir), l'insécurité est une réalité, que de beaux esprits nient dans des réunions de beaux esprits (avec à l'appui le "travail scientifique" de "sociologues").]

Certaines personnes DIRECTEMENT confrontées à ces réalités ne peuvent la nier.

Il me parait donc très vraisemblable que le vote FN se compose d'une dose plus ou moins grande de rejet de l'islamiste, des inepties sur le "sentiment" d'insécurité et autre débilités gauchistes, à coté d'autres éléments comme le coté identitaire, le rejet du libéralisme économique, et coté catho, etc.

Donc il faudrait segmenter les communes selon le niveau d'islamisation pour faire ce calcul de reports.

frankie (2013-04-27T14:02:45Z)

Je ne vois pas trop où veut en venir "simple touriste"… Quelques smileys simplifieraient ma tache… Il a passé les mailles du modérateur, mais j'admets sans barguigner que ce dernier comprend plus vite que moi.
Je ne suis pas sûr que Ruxor ait pensé à introduire un coefficient de cohérence de vote. Sachant qu'environ 15% des électeurs ont maintenu leur orientation politique lors des cinq dernières élections (information prise au vol, mais qui à vue de nez ne me surprend pas)… A noter que s'abstenir de voter est considéré comme un changement d'orientation.

simple-touriste (2013-04-27T10:40:32Z)

Il faudrait peut être segmenter en fonction des signes d'invasion islamique dans la commune.

Ruxor (2012-05-25T16:00:23Z)

@Mathieu: Mais ça ne suffit pas : les contraintes linéaires sur la somme des colonnes et sur les lignes sont automatiques sans la contrainte de positivité des coefficients, mais si on met celle-ci, il faut ajouter ces contraintes linéaires en plus, et c'est un vrai problème de programmation quadratique.

Mathieu (2012-05-25T15:27:00Z)

En Python, avec Scipy, on peut utiliser la fonction nnls (non-negative least-squares): http://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.nnls.html.

Ruxor (2012-05-10T00:04:50Z)

@cobarde anónimo: Ben ce que tu dis suggère plutôt que c'est moi qui aurait merdoyé. :-) Parce que normalement j'ai fait exactement ce que tu décris…

cobarde anónimo (2012-05-09T23:30:01Z)

J'ai voulu refaire le calcul moi-même avec ces données. Je trouve une matrice sensiblement différente à la tienne, donc je voudrais savoir où j'ai merdoyé. Ma méthode : si P est la matrice 36698 x 14 des nombres de votes au premier tour et S celle 36698 x 4 du second, je minimise |S - PX| au sens des moindres carrés. J'obtiens bien que X a des colonnes de somme 1 à moins du pourcent (sauf un candidat anecdotique) et des choses relativement sensées donc je me pose des questions…

Vicnent (2012-05-09T09:59:44Z)

<URL: http://www.slate.fr/france/54761/presidentielle-hollande-sarkozy-ecart-voix-report >

Un article de Slate.fr qui traite (non scientifiquement) spécifiquement du report de voix pour cette élection.

anonymous (2012-05-08T15:04:52Z)

Ca y est j'ai compris. Voici un petit exemple pour comprendre pourquoi cette procedure peut donner des resultats biaises.
Supposons qu'il y a 3 candidats, Royal, Sarkozy, LePen. Les electeurs Royal et sarkozy se reportent parfaitement au 2nd tour. Les electeurs le pen se reportent en proportion alpha et 1-alpha. Mais alpha n'est pas le meme pour tous les departements (comme vous le supposez) mais est correle avec le niveau du vote le pen. i.e. dans les depts ou le vote Le Pen est eleve, le report sur sarkozy est meilleur. cela va biaiser votre estimation de la moyenne du report vers le haut.
en maths, vous regressez par ex

Sarko_2nd_tour_ds departement i = a* Sarko_1er__ds departement i + b*Royal_1er tour_ds departement i + c*LePen_1er tour__ds departement i + eps(i),

et vous trouverez c = mean(alpha) + cov(alpha,LePen1er tour)/var(Sarko_2nd tour) qui n'est pas mean(alpha).

avs (2012-05-08T13:37:05Z)

D'apres ce post de blog, les coefficients négatifs difficiles à interpréter proviennent du fait que vous supposez que vos résultats sur des groupes sont applicables à ceux sur les individus, alors que ce n'est pas le cas du tout:

http://freakonometrics.blog.free.fr/index.php?post/2012/04/28/Open-data%2C-and-ecological-fallacy

cobarde anónimo (2012-05-08T12:40:37Z)

As-tu essayé cette régression linéaire sous contraintes sur un zone sociologiquement homogène (par ex. communes rurales d'Alsace ; quartiers Nord de Marseille) ? Il est probable qu'un vote Le Pen de banlieue ne se reporte pas pareil qu'un vote FN rural…

Vicnent (2012-05-08T12:20:58Z)

A mon avis, le résultat renvoie tout simplement à la forme trop simplifiée de ton modèle. Il faudrait prendre en compte par exemple le taux d'immigrés (on ne vote pas FN pour les mêmes raisons à Dunkerque, à Issoires et à Cannes), mais aussi les CSP etc…

Bref, ton résultat, c'est un peu comme construire la moyenne de conso d'essence des voitures à Paris, ce qui, en soit, est un nombre, (6,7 l/100 km) mais dont tout le monde se fout car il n'apporte pour chacun aucune information décisionnelle.

Merci d'avoir persévéré.

DM (2012-05-08T11:05:51Z)

Ah tiens comme Shadoko… pour voir si ton hypothèse d'uniformité de la matrice de report à travers le territoire français tient la route, tu devrais peut-être calculer ces matrices par département et voir si elles diffèrent sensiblement. Si c'est le cas, c'est que la méthode est mauvaise…

Shadoko (2012-05-08T09:53:19Z)

Et est-ce qu’on ne peut pas faire ce calcul mais par département plutôt que nationalement ? (il doit y avoir suffisamment de communes par département pour faire la régression linéaire, non ?) le résultat serait peut-être intéressant.

Sinon l’idéal serait probablement de partir des données brutes par bureau et non par commune, mais je ne sais pas comment les obtenir…

Ruxor (2012-05-08T09:33:43Z)

@DM: Initialement je pensais utiliser des points de données qui soient les *proportions* des différents votes sur le nombre d'inscrits, et les pondérer par le nombre d'inscrits. Puis je me suis dit que, tant que je faisais des régressions sans terme constant, ça revenait au même et ce serait plus simple d'utiliser directement comme points de données le *nombre* des différents votes, sans pondérer (et de fait, expérimentalement, ça donne sensiblement la même chose). Du coup, une ville comme Paris pèse beaucoup simplement parce que les nombres sont énormes.

DM (2012-05-08T08:59:56Z)

@Baptiste, Ruxor: Vous semble-t-il possible d'affiner cette analyse, par exemple en segmentant les communes par revenu moyen par foyer ou personne ? Il paraît raisonnable de penser que les motivations d'un électeur FN à Corenc (banlieue chic de Grenoble) ne sont pas celles d'un électeur FN à Hénin-Beaumont…

(@Ruxor : comment as-tu pondéré la distance euclidienne utilisée dans la régression ? Par les populations des communes ?)

Name or nick (mandatory) (2012-05-08T08:26:21Z)

@Baptiste : « Les électeurs de Schivardi ne constituent même pas une marge d'erreur à eux tous. »
Il est pourtant difficile d'imaginer ce qu'ils constituent d'autre :-)

Sinon, il me semble tout de même très déraisonnable de supposer que la matrice des reports est la même partout. Il me semble clair que, par exemple, dans le Sud-Est, le vote FN est surtout un vote réactionnaire et xénophobe dans une région très ancrée à droite, et que les voix se reportent quasi-unanimement sur Sarkozy alors que cela doit être beaucoup moins le cas dans des régions traditionnellement ouvrières et de gauche (typiquement, le Nord-Pas-de-Calais) où le vote FN est un vote de contestation et de rejet (plus récent) des partis républicains (et sans doute de xénophobie aussi, hein).

Ne peut-on pas imaginer chercher plusieurs matrices pour des zones bien définies (par exemple en 44 zones, l'union des paires {villes de R, campagnes de R} pour R décrivant {Alsace, Aquitaine, …, Rhône-Alpes}) ?

Ruxor (2012-05-08T08:15:18Z)

Je n'ai pas l'impression que les données soient encore accessibles où que ce soit : regardscitoyens.org mène par un jeu de piste à <URL: http://www.nosdonnees.fr/package/rsultats-et-participation-llection-prsidentielle-2012 > où il n'y a que le premier tour au moment où j'écris, et sur cdsp.sciences-po.fr je ne sais pas s'ils les ont mais en tout cas il n'y a pas de lien pour télécharger des données en bloc.

anonymous (2012-05-08T06:32:17Z)

Amusant: j'ai fait la meme chose que vous, mais au niveau des departements, avec des resultats similaires. J'ai aussi impose les contraintes de positivite (d'une facon un peu differerente).

Les donnees 2012 par departement sont disponible sur le site
http://cdsp.sciences-po.fr/page.php?lang=FR&idRubrique=votesFrance

En estimant les matrices de transition en 2012, on trouve des resultats differents en particulier pour le vote lepen qui se reporte beaucoup moins sur sarkozy (report parfait en 2007 d'apres cette methode).

Comme vous je trouve que la plupart des resultat sont raisonnables, mais certains sont bizarres, par ex Schivardi (extreme gauche) dans votre cas.
Les resultats sont un peu trop extremes: ils donnent souvent du report a 100% ce qui n'est certainement pas le cas en realite. En tout cas, ce sont des resultats differents de ceux qui sont fournis par les sondeurs.

Sous quelles conditions peut-on interpreter ces coefficients? En fait, une des hypotheses implicites est que la matrice de report est la meme pour toutes les communes. Si c'est bien le cas, je pense que cette methode doit bien marcher et les coefficients sont interpretables. Mais si la matrice de transition depend par ex de caracteristiques socio-demographiques, il est possible qu'on n'estime pas la moyenne des matrices de transition, et qu'il y ait un biais. Grosso modo, il faudrait plus d'information sur les caracteristiques sous-jacentes de la population qui determinent leur vote… bref, c'est ce qu'on appelle en sciences sociales un probleme d'identification.

Une facon d'y voir plus clair est d'ecrire un modele politique ou les gens decident de leur vote selon leurs preferences, et de voir ce que cette regression capturerait en theorie…

Baptiste (2012-05-08T05:49:26Z)

Mener la même analyse pour 2012 sera très intéressant.
Je pense que les données sont déjà sur regardscitoyens.org (avant même d'être sur data.gouv)
Et enfin… si ton seul problème c'est le report de voix des électeurs de Schivardi, alors tu n'as vraiment plus aucun problème ! Les électeurs de Schivardi ne constituent même pas une marge d'erreur à eux tous.


You can post a comment using the following fields:
Name or nick (mandatory):
Web site URL (optional):
Email address (optional, will not appear):
Identifier phrase (optional, see below):
Attempt to remember the values above?
The comment itself (mandatory):

Optional message for moderator (hidden to others):

Spam protection: please enter below the following signs in reverse order: eafe9d


Recent comments