Comments on Différentes hypothèses relatives à l'entrée précédente

Gilles (2012-05-09T20:18:48Z)

Il s'agit effectivement des difficultés liées à l'"inférence écologique". Dans le cas du vote, le comportement électoral est individuel, mais on ne dispose que des données agrégées (au mieux au niveau du bureau de vote). Pour un exposé de ce problème connu depuis fort longtemps, voir Robinson, W. S. (1950), "Ecological Correlation and the Behaviour of Individuals," American Sociology Review, 15, 351-357.

Voir aussi le bouquin de Gary King (A Solution to the Ecological Inference Problem: Reconstructing Individual Behavior from Aggregate Data. Princeton University Press, 1997) qui, comme le titre l'indique, explique comment tirer le meilleur parti de données agrégées.

Sur la question spécifique des reports de vote, voir par exemple:
Philip J. Brown and Clive D. Payne (1986). Aggregate Data, Ecological Regression, and Voting Transitions, Journal of the American Statistical Association, Vol. 81, No. 394, pp. 452-460.

Laurent (2012-05-09T19:07:06Z)

Si on était dans le modèle linéaire gaussien simple que j'évoquais, on pourrait donner les variances des coefficients que tu estimes, et donc placer des barres d'erreur et décider quels sont les dix meilleures estimations. Evidemment, le problème que tu poses est un peu plus compliqué… mais bon, je dirais qu'on s'attend quand même à ce que l'erreur commise sur chaque colonne j soit par exemple inversement proportionnelle à la racine du nombre de gens qui ont voté au premier tour pour le candidat j (et pareil en ligne).

Pour info, une possibilité pour faire en sorte que la procédure choisisse automatiquement les coefficients les plus "importants" ou "fiables" et ignore les autres consiste à choisir comme critère à optimiser la somme de tes erreurs en norme Lp (p=1 ou 2) plus une pénalité qui est fonction de la "taille" de ton estimation. Dans le modèle gaussien, on prendrait une pénalité proportionnelle à la norme L1 du vecteur estimé (c'est ce qu'on appelle la procédure Lasso en stat). Avec cette méthode l'optimum est atteint pour un vecteur estimé "sparse", c'est à dire qui comporte bcp de composantes nulles. (On peut même envisager de prendre comme pénalité le nombre de composantes non nulles au lieu de la norme L1, mais là c'est souvent pas gérable au niveau des calculs.)

L'analogue pour ton problème consisterait sans doute à introduire une pénalité égale à un paramètre k que multiplie la somme des distances L1 de chacun de tes vecteurs colonnes aux des sommets du simplexe de R^4, et faire varier k jusqu'à ce que les résultats semblent satisfaisants. Mais bon, au final je m'attendrais à trouver exactement les mêmes résultats qu'avec la méthode plus simple qui consiste à contraindre directement toutes les colonnes des petits candidats à être sur un sommet du simplexe.

PS : Si passes à Ulm, Gilles Stoltz en particulier est très calé sur ces questions, et il saura sûrement dire des choses bien plus intelligentes que moi !

DM (2012-05-09T16:42:07Z)

@Ruxor: As-tu essayé de faire cette régression dans différents départements, histoire de voir si tu obtiens en gros la même matrice, ou des matrices sensiblement différentes, ce qui remettrait en cause ton hypothèse d'uniformité?

Ruxor (2012-05-09T13:42:15Z)

@Vicnent: Je crois que tu n'as pas compris ce que je veux dire. Il y a un phénomène à expliquer, c'est que les résultats électoraux du second tour sont très bien corrélés avec une fonction linéaire des résultats électoraux du premier tour. Ce phénomène admet une explication évidente, c'est que les électeurs du premier tour vont avoir tendance à avoir certains comportements au premier tour. Tu rejettes cette explication : OK, mais alors je te demande si tu as quelque chose de mieux à proposer pour expliquer la très bonne corrélation linéaire entre premier et second tour. Moi quand je vois que des points de données sont très bien alignés sur une droite, je préfère avoir une explication simpliste que pas d'explication du tout (oh, c'est du hasard…). Ton analogie avec la consommation moyenne des Français est complètement bidon : elle n'a aucun pouvoir prédictif et ne donne lieu à aucun phénomène à expliquer (oui, tout ensemble de données admet une moyenne, ce n'est pas nouveau).

@Ni: Oui, les chiffres que je donne ne sont pas une métrique convaincante, j'en conviens. Je ne sais pas bien quelle métrique utiliser: R m'en propose plein, par exemple des analyses de variance, mais je ne sais pas bien les rapporter.

@Laurent: De fait, je ne m'attends pas à ce que les résultats soient tous bons. Mais je m'attends à ce que les meilleurs le soient : on ne peut certainement pas espérer que ces 60 nombres soient corrects, mais on devrait pouvoir espérer que les 10 meilleurs le soient. La question est alors, comment savoir quels sont les 10 meilleurs nombres de ce tableau ?

@avs: La "Ecological fallacy" est tellement vague que je ne sais pas comment y répondre à part la prendre comme signifiant « toutes les statistiques sont intrinsèquement inutilisables » mais là on ne sait pas quoi répondre. Pour que l'objection soit valable, il faut qu'elle explique le phénomène exposé : je veux bien croire qu'un comportement individuel ne soit pas toujours la bonne explication d'un comportement de groupe, mais si on me dit ici que c'est le cas, encore faut-il expliquer pourquoi ce comportement de groupe a lieu qui donne une bonne corrélation linéaire (cf. ma réponse à Vicnent trois paragraphes plus haut) d'une façon plus convaincante qu'une explication individuelle. Juste dire « ce n'est pas vrai » ne fournit aucune explciation au phénomène observé.

Ni (2012-05-09T10:39:53Z)

Je ne suis pas convaincu que tes données aient du sens, même si les prédictions sont relativement bonnes. Il faudrait au moins vérifier si ton modèle donne vraiment des meilleures prédictions qu'un modèle beaucoup plus stupide.

Par exemple, si je prévois que Sarkozy reçoit 53% des votes dans chaque commune, ça donne une erreur médiane de 19 voix, une erreur moyenne de 71 voix, et une erreur moyenne pondérée de 7.3%. C'est moins bon que ta régression linéaire, évidemment, mais la différence n'est pas si flagrante, et mon modèle ignore complètement les résultats du premier tour…

Vicnent (2012-05-09T09:12:23Z)

je ne pense pas qu'une méthode fausse qui donnerait un bon résultat valide pour autant la méthode puisque par hypothèse, elle est fausse : quand on fait deux erreurs de calculs qui se corrigent, ce n'est pas pour autant qu'il faille souligner que dans ce cas précis, ça marche quand même. Aussi, je réfute à nouveau ta première justification et m'étonne que tu valides une démarches sur le seul fait qu'elle serait simplement logique ou donne un résultat correct.

Je persiste à croire que la matrice que tu dois calculer doit être fonction de beaucoup plus de critères interdépendants et qu'il n'est pas étonnant que ta matrice n'ait pas finalement beaucoup de sens. Si je te dis qu'en moyenne, un parisien consomme par an 45 litres d'essence, c'est peut être vrai (comme ta matrice résultante), mais ça n'a aucun sens car de nombreux parisiens n'ont pas de voiture, d'autres des électriques et d'autres encore de gros 4x4. Aussi, il ne sera pas étonnant de constater qu'en moyenne, pour un échantillon donné, aucune des personnes ne consomme effectivement 45 litres par an.

avs (2012-05-09T07:26:21Z)

Vous ignorez superbement mon commentaire sur l'ecological phallacy?
D’après moi ça explique que les prévision soit bonnes /et/ que des coefficients soit négatifs.

Cela voudrait dire que la régression est bonne, mais que l’interprétation est erronée.

Les coefficients (en particulier négatifs) s'appliquent je crois à des groupes de gens, et pas à des individus. Quand ils sont négatifs ça veut dire que les membres du groupe on voté beaucoup moins que la moyenne pour tel candidat, sans vouloir dire qu'ils ont mis des bulletins négatifs dans l'urne?

<URL: http://en.wikipedia.org/wiki/Ecological_fallacy />

Tout ça est basé sur ce que j'ai compris du problème: le modèle a très bon pouvoir prédictif mais nous informe que les gens votent parfois négativement.
La deuxième partie de la phrase serait fallacieuse, donc.

Laurent (2012-05-09T06:06:26Z)

Par ailleurs, tu essayes d'estimer 60 valeurs à partir d'un jeu de données de taille environ 30,000 je pense. Quelle que soit la technique que tu utilises, tu ne peux pas t'attendre à ce que chacune des valeurs que tu estimes tombe "juste".

Tu peux regarder le problème analogue le plus simple : tu disposes de n = 30,000 observations a_1*x_{i,1} + … + a_60*x_{i,60} + epsilon_i, pour i de 1 à n, où les a_j sont les paramètres à estimer, les x_{i,j} sont connus, et les epsilon_i sont un bruit blanc. Alors la précision dont tu disposes pour estimer le vecteur a est si je ne dis pas de bêtises en n^{-1/60}. Ca restera vérifié que tu travailles en norme quadratique ou Lp pour tout p. Il faut donc n exagérément grand pour espérer avoir une bonne estimation d'un vecteur de 60 coordonnées.

Laurent (2012-05-08T22:12:19Z)

Je sais pas si j'ai bien compris quel critère tu optimises dans tes régressions ou interpolations. J'ai l'impression que tu prends un critère QUADRATIQUE qui n'est pas très approprié.

Si je ne me trompe pas tu sommes pour chaque bureau de vote i, et pour chaque candidat c du deuxième tour, l'écart (c_i - \hat c_i)^2, où \hat c_i est ce que tu prédis comme vote au bureau i pour le candidat c. Et tu pondères ton critère d'une certaine manière (par exemple sur la population de chaque bureau de vote i, c'est ca ?)

Si c'est qqch de la sorte, ton critère accorde beaucoup plus d'importance aux grands candidats qu'aux petits. Ca me semble pas étonnant que tu trouves des résultats bizarres pour les petits candidats, tu ne regardes en gros que Royal ou Sarko.

Joël (2012-05-08T21:34:49Z)

J'ai une suggestion d'explication pour les coefficients négatifs : cela pourrait être lié au prosélytisme des électeurs d'un candidat du premier tour qui arriveraient à convaincre des gens autour d'eux de (ne pas) voter pour untel. Ça ferait un correction linéaire à ajouter à la matrice de report des voix (qui du coup reste inconnue).