Voici un paradoxe célèbre des probabilités :
Je tire cinq cartes au hasard d'un jeu de cartes (ordinaire, de 52 cartes). Deux questions séparées :
- Supposant que j'aie un as dans mon jeu, quelle est la probabilité que j'aie un second as ?
- Supposant que j'aie l'as de pique dans mon jeu, quelle est la probabilité que j'aie un second as ?
On s'attend à ce que la réponse à ces deux questions soit la même,
selon un raisonnement intuitif du genre : la probabilité que j'aie
un second as ne dépend pas du fait que le premier (celui supposé
exister) soit l'as de pique, cœur, carreau ou trèfle ; et si la
probabilité est la même que l'on suppose avoir l'as de pique,
cœur, carreau ou trèfle, cela devrait aussi être la même si on
suppose juste avoir un as, sans préciser lequel
.
Pourtant, ce n'est pas le cas : la réponse à la première est 12.2%
(exactement 2257/18472), tandis que la réponse à la seconde est 22.1%
(exactement 922/4165). En revanche, c'est (évidemment) vrai que la
seconde question admettrait la même réponse si on
remplaçait pique
par l'un de cœur
, carreau
ou trèfle
.
Et ce n'est pas une question de probabilité. Parmi les 2598960 mains de cinq cartes, il y en a 886656 (34.1%) qui contiennent au moins un as, 249900 (9.6%) qui contiennent au moins l'as de pique, 108336 (4.2% du total, donc 12.2% de celles contenant au moins un as) qui contiennent au moins deux as, et 55320 (2.1% du total, donc 22.1% de celles contenant au moins l'as de pique) qui contiennent au moins deux as dont l'as de pique. La vérification de ces nombres devrait être du niveau du programme de maths des terminales scientifiques (à savoir : 2598960=C(52,5) ; 886656=C(52,5)−C(48,5)=4×C(48,4)+6×C(48,3)+4×C(48,2)+48 ; 249900=C(51,4)=C(48,4)+3×C(48,3)+3×C(48,2)+48 ; 108336=C(52,5)−C(48,5)−4×C(48,4)=6×C(48,3)+4×C(48,2)+48 ; 55320=C(51,4)−C(48,4)=3×C(48,3)+3×C(48,2)+48). Mais je voudrais expliquer comment on pouvait arriver sans aucun calcul à la conclusion que la réponse à la seconde question était nécessairement plus élevée que celle à la première ; et ensuite, essayer d'expliquer pourquoi ces nombres nous paraissent surprenants (et pourquoi, en fait, notre intuition avait peut-être raison).
On peut diviser l'ensemble de toutes les mains possibles en cinq ensembles exclusifs et recouvrant tous les possibles, selon que le nombre d'as dans la main vaut exactement 0 (la main n'a pas d'as du tout), exactement 1 (la main contient un unique as), exactement 2, exactement 3, ou enfin 4 (la main contient tous les as) : appelons N0 (qui ne nous intéresse pas), N1, N2, N3 et N4 les nombres de main correspondantes. (Il se trouve que ces nombres valent respectivement 1712304=C(48,5), 778320=4×C(48,4), 103776=6×C(48,3), 4512=4×C(48,2) et 48, mais peu importe. Je veux justement éviter ce genre de calculs.) La réponse à la première question, i.e., la proportion des mains ayant au moins deux as parmi celles en ayant au moins un, est donc le rapport de N2+N3+N4 sur N1+N2+N3+N4 ; ou si on préfère, le complémentaire, i.e. la proportion des mains n'ayant qu'un seul as parmi celles qui en ont au moins un, est le rapport de N1 sur N1+N2+N3+N4. Maintenant, on peut de même diviser les mains ayant l'as de pique en quatre ensembles selon que le nombre total d'as vaut 1 (il n'y a que l'as de pique), 2 (il y a l'as de pique et un seul autre), 3 ou enfin 4 (la main contient tous les as). Si on appelle P1, P2, P3 et P4 les quatre nombres de mains correspondantes, il n'est pas difficile de les relier à N1, N2, N3 et N4 : on a évidemment P4=N4 (dans les deux cas, il s'agit de l'ensemble des mains contenant tous les as) et on a P1=¼×N1 (car parmi les mains contenant exactement un as, il y en a autant pour lesquelles il s'agit de l'as de pique, de cœur, de carreau et de trèfle ; et en réfléchissant un peu on se rend compte que P2=½×N2 (parmi les six chois possibles de deux as, il y en a trois qui contiennent pique et trois qui ne le contiennent pas) et que P3=¾×N3 (si on a trois as sur quatre, il y en a un seul qui manque, donc trois chances sur quatre d'avoir le pique). La réponse à la seconde question, i.e., la proportion des mains ayant au moins deux as parmi celles ayant l'as de pique, est le rapport de P2+P3+P4 sur P1+P2+P3+P4, soit de ½×N2+¾×N3+N4 sur ¼×N1+½×N2+¾×N3+N4 ; pour y voir plus clair, son complémentaire (la proportion des mains ayant uniquement l'as de pique parmi celles ayant au moins l'as de pique) est donc le rapport de P1 sur P1+P2+P3+P4, soit ¼×N1 sur ¼×N1+½×N2+¾×N3+N4. En multipliant par 4 le numérateur et le dénominateur de cette expression, on trouve donc que c'est le rapport de N1 sur N1+2×N2+3×N3+4×N4. Or sous cette forme il est clair (puisque le dénominateur est strictement plus grand) que c'est strictement moins que le rapport de N1 sur N1+N2+N3+N4 qui était le complémentaire de la réponse à la première question. On a donc montré qu'il y a strictement moins de chances d'avoir un unique as si on a au moins l'as de pique que d'avoir un unique as si on a au moins un as.
Essayons de dire ça de façon plus simple : quand on dit ma main
contient l'as de pique
, on restreint d'un facteur 4 les
possibilités pour les mains contenant un unique as
(P1 comparé à N1), mais on
restreint d'un facteur plus petit celles contenant exactement
deux as, trois as, et s'agissant de celles en contenant quatre, on ne
les restreint pas du tout
(P4=N4, car si on a les
quatre as, on a certainement l'as de pique). Par conséquent, ces
possibilités deviennent relativement plus probables quand on
dispose de l'hypothèse ma main contient l'as de pique
que quand
on dispose simplement de l'hypothèse ma main contient un as
.
C'est ce qui est explicité dans le calcul ci-dessus.
Toujours pas éclairé ? Alors simplifions à l'extrême : le jeu ne contient plus que trois cartes, à savoir l'as de pique, l'as de scoubidou, et le valet de patate, et j'en tire deux au hasard. Alors il y a trois mains possibles : ma main contient forcément un as, et la probabilité d'en avoir deux est de 1/3 ; en revanche, si je sais que j'ai l'as de pique, ceci exclut une des trois mains possibles (as de scoubidou et valet de patate) et il y a maintenant une probabilité de 1/2 d'avoir les deux as.
♠
Très bien, mais quelle est la morale de l'histoire, au juste ?
Se donner une hypothèse, en probas ou en stats, et mesurer des
probas ou des proportions relativement à cette hypothèse, cela
s'appelle conditionner.
Conditionner par l'hypothèse j'ai un as dans ma main
signifie
qu'on se restreint aux mains ayant au moins un as, et qu'on calcule
des proportions relatives à celle-ci (avec les notations ci-dessus,
ceci signifie qu'on écarte N0) ; tandis que
conditionner par j'ai l'as de pique
signifie qu'on se restreint
aux mains contenant l'as de pique et qu'on calcule de même
relativement à cette hypothèse (avec les notations ci-dessus, ceci
signifie qu'on remplace les N par des P).
Conditionner est une opération fondamentale en probabilités et
statistiques, mais pour lui donner un sens dans la vraie vie, il faut
souvent se demander pourquoi on conditionne et quelle est au juste
l'hypothèse.
L'idée qu'on ait la seule information j'ai un as dans
mon jeu
ou j'ai l'as de pique dans mon jeu
est
inhabituelle. Cela correspondrait au protocole expérimental suivant :
Alice pioche cinq cartes, Bob lui demande
explicitement dis-moi
,
respectivement oui
si tu as au moins un as dans ton
jeu (et ne fais aucun autre commentaire)dis-moi
, Bob entend Alice faire
la réponse oui
si tu as l'as de pique dans ton
jeu (et ne fais aucun autre commentaire)oui
, et Bob en tire les conclusions expliquées
ci-dessus quant à la probabilité qu'Alice ait un second as dans son
jeu. Elles sont alors correctes, et finalement peu surprenante :
c'est plutôt le protocole expérimental qui est bizarre, et le fait,
absolument essentiel, que Bob ait demandé à Alice d'énoncer uniquement
et exactement la réponse à la question as-tu au moins un as dans
ton jeu
, respectivement as-tu l'as de pique dans ton jeu
.
En revanche, si Alice pioche cinq cartes et énonce j'ai un as dans
mon jeu
ou j'ai l'as de pique dans mon jeu
, on ne sait pas
trop quoi conclure : si Alice avait au moins deux as, elle l'aurait
sans doute dit, non ? Donc peut-être doit-on conclure simplement que
la probabilité qu'elle ait au moins deux as est nulle (ou du moins,
très faible), car Alice n'est pas du genre à faire une affirmation de
logicien.
Pour revenir à quelque chose de plus mathématique, voici le plus
important : si Bob demande à Alice si tu as au moins un as dans ton
jeu, dis-moi la couleur d'un des as de ton jeu (choisi aléatoirement
parmi ceux qui y sont)
et qu'Alice répond j'ai l'as de
pique
, la probabilité qu'elle ait un second as est de 12.2%
et pas de 22.1% : cette fois, on ne conditionne plus par
l'information il y a l'as de pique dans le jeu d'Alice
mais
par Alice a énoncé
, ce qui apporte l'information qu'il y a au moins un as, plus
l'information totalement sans intérêt que c'est l'as de pique qui a
été choisi au hasard parmi les as d'Alice. Bref, ce qui
importe pour bien conditionner n'est pas seulement de savoir la
réponse, mais aussi de savoir la question à laquelle on
répond. Et la raison pour laquelle les probabilités annoncées
plus haut nous semblent paradoxales est justement que nous avons
plutôt en tête le protocole beaucoup plus naturel que je viens de
décrire : quand j'ai l'information pique
en réponse à la question de
Bobl'as de pique est dans la
main
, ce n'est pas qu'on cherchait spécifiquement l'as de pique
avec un détecteur à as-de-pique, mais plutôt qu'on
cherchait un as, et qu'il s'est trouvé que c'était l'as de
pique. Dans ce cas, le raisonnement que j'ai qualifié d'intuitif plus
haut est correct, et la probabilité d'avoir un second as est bien de
12.2%.
La moralité, quand on fait des stats en sciences expérimentales, en
sciences sociales, ou dans n'importe quel domaine, c'est donc : qu'il
faut toujours se demander non seulement quelle est l'information
connue (qui conduit à un conditionnement), mais aussi par quel
dispositif expérimental on aboutit à cette information. Par exemple,
si je fais un sondage en demandant aux gens quel(s) as avez-vous
dans votre main (réponses multiples possibles)
, ce n'est pas du
tout pareil de me restreindre à ceux qui ont déclaré avoir l'as de
pique que si je demande avez-vous un des as suivant
(aucun/pique/cœur/carreau/trèfle)
. Dans les deux cas je
saurai peut-être qu'Alice a l'as de pique, mais c'est très différent
de savoir qu'elle est dans la population des gens ayant l'as de pique
ou dans la population des gens ayant au moins un as et ayant déclaré
l'as de pique au hasard parmi tous les as de leur main.
Ajout () : cf. ce fil Twitter.