David Madore's WebLog: Le paradoxe du second as, et le sens du conditionnement

Voici un paradoxe célèbre des probabilités :

Je tire cinq cartes au hasard d'un jeu de cartes (ordinaire, de 52 cartes). Deux questions séparées :

Supposant que j'aie un as dans mon jeu, quelle est la probabilité que j'aie un second as ?

Supposant que j'aie l'as de pique dans mon jeu, quelle est la probabilité que j'aie un second as ?

On s'attend à ce que la réponse à ces deux questions soit la même, selon un raisonnement intuitif du genre : la probabilité que j'aie un second as ne dépend pas du fait que le premier (celui supposé exister) soit l'as de pique, cœur, carreau ou trèfle ; et si la probabilité est la même que l'on suppose avoir l'as de pique, cœur, carreau ou trèfle, cela devrait aussi être la même si on suppose juste avoir un as, sans préciser lequel. Pourtant, ce n'est pas le cas : la réponse à la première est 12.2% (exactement 2257/18472), tandis que la réponse à la seconde est 22.1% (exactement 922/4165). En revanche, c'est (évidemment) vrai que la seconde question admettrait la même réponse si on remplaçait pique par l'un de cœur, carreau ou trèfle.

Et ce n'est pas une question de probabilité. Parmi les 2598960 mains de cinq cartes, il y en a 886656 (34.1%) qui contiennent au moins un as, 249900 (9.6%) qui contiennent au moins l'as de pique, 108336 (4.2% du total, donc 12.2% de celles contenant au moins un as) qui contiennent au moins deux as, et 55320 (2.1% du total, donc 22.1% de celles contenant au moins l'as de pique) qui contiennent au moins deux as dont l'as de pique. La vérification de ces nombres devrait être du niveau du programme de maths des terminales scientifiques (à savoir : 2598960=C(52,5) ; 886656=C(52,5)−C(48,5)=4×C(48,4)+6×C(48,3)+4×C(48,2)+48 ; 249900=C(51,4)=C(48,4)+3×C(48,3)+3×C(48,2)+48 ; 108336=C(52,5)−C(48,5)−4×C(48,4)=6×C(48,3)+4×C(48,2)+48 ; 55320=C(51,4)−C(48,4)=3×C(48,3)+3×C(48,2)+48). Mais je voudrais expliquer comment on pouvait arriver sans aucun calcul à la conclusion que la réponse à la seconde question était nécessairement plus élevée que celle à la première ; et ensuite, essayer d'expliquer pourquoi ces nombres nous paraissent surprenants (et pourquoi, en fait, notre intuition avait peut-être raison).

On peut diviser l'ensemble de toutes les mains possibles en cinq ensembles exclusifs et recouvrant tous les possibles, selon que le nombre d'as dans la main vaut exactement 0 (la main n'a pas d'as du tout), exactement 1 (la main contient un unique as), exactement 2, exactement 3, ou enfin 4 (la main contient tous les as) : appelons N₀ (qui ne nous intéresse pas), N₁, N₂, N₃ et N₄ les nombres de main correspondantes. (Il se trouve que ces nombres valent respectivement 1712304=C(48,5), 778320=4×C(48,4), 103776=6×C(48,3), 4512=4×C(48,2) et 48, mais peu importe. Je veux justement éviter ce genre de calculs.) La réponse à la première question, i.e., la proportion des mains ayant au moins deux as parmi celles en ayant au moins un, est donc le rapport de N₂+N₃+N₄ sur N₁+N₂+N₃+N₄ ; ou si on préfère, le complémentaire, i.e. la proportion des mains n'ayant qu'un seul as parmi celles qui en ont au moins un, est le rapport de N₁ sur N₁+N₂+N₃+N₄. Maintenant, on peut de même diviser les mains ayant l'as de pique en quatre ensembles selon que le nombre total d'as vaut 1 (il n'y a que l'as de pique), 2 (il y a l'as de pique et un seul autre), 3 ou enfin 4 (la main contient tous les as). Si on appelle P₁, P₂, P₃ et P₄ les quatre nombres de mains correspondantes, il n'est pas difficile de les relier à N₁, N₂, N₃ et N₄ : on a évidemment P₄=N₄ (dans les deux cas, il s'agit de l'ensemble des mains contenant tous les as) et on a P₁=¼×N₁ (car parmi les mains contenant exactement un as, il y en a autant pour lesquelles il s'agit de l'as de pique, de cœur, de carreau et de trèfle ; et en réfléchissant un peu on se rend compte que P₂=½×N₂ (parmi les six chois possibles de deux as, il y en a trois qui contiennent pique et trois qui ne le contiennent pas) et que P₃=¾×N₃ (si on a trois as sur quatre, il y en a un seul qui manque, donc trois chances sur quatre d'avoir le pique). La réponse à la seconde question, i.e., la proportion des mains ayant au moins deux as parmi celles ayant l'as de pique, est le rapport de P₂+P₃+P₄ sur P₁+P₂+P₃+P₄, soit de ½×N₂+¾×N₃+N₄ sur ¼×N₁+½×N₂+¾×N₃+N₄ ; pour y voir plus clair, son complémentaire (la proportion des mains ayant uniquement l'as de pique parmi celles ayant au moins l'as de pique) est donc le rapport de P₁ sur P₁+P₂+P₃+P₄, soit ¼×N₁ sur ¼×N₁+½×N₂+¾×N₃+N₄. En multipliant par 4 le numérateur et le dénominateur de cette expression, on trouve donc que c'est le rapport de N₁ sur N₁+2×N₂+3×N₃+4×N₄. Or sous cette forme il est clair (puisque le dénominateur est strictement plus grand) que c'est strictement moins que le rapport de N₁ sur N₁+N₂+N₃+N₄ qui était le complémentaire de la réponse à la première question. On a donc montré qu'il y a strictement moins de chances d'avoir un unique as si on a au moins l'as de pique que d'avoir un unique as si on a au moins un as.

Essayons de dire ça de façon plus simple : quand on dit ma main contient l'as de pique, on restreint d'un facteur 4 les possibilités pour les mains contenant un unique as (P₁ comparé à N₁), mais on restreint d'un facteur plus petit celles contenant exactement deux as, trois as, et s'agissant de celles en contenant quatre, on ne les restreint pas du tout (P₄=N₄, car si on a les quatre as, on a certainement l'as de pique). Par conséquent, ces possibilités deviennent relativement plus probables quand on dispose de l'hypothèse ma main contient l'as de pique que quand on dispose simplement de l'hypothèse ma main contient un as. C'est ce qui est explicité dans le calcul ci-dessus.

Toujours pas éclairé ? Alors simplifions à l'extrême : le jeu ne contient plus que trois cartes, à savoir l'as de pique, l'as de scoubidou, et le valet de patate, et j'en tire deux au hasard. Alors il y a trois mains possibles : ma main contient forcément un as, et la probabilité d'en avoir deux est de 1/3 ; en revanche, si je sais que j'ai l'as de pique, ceci exclut une des trois mains possibles (as de scoubidou et valet de patate) et il y a maintenant une probabilité de 1/2 d'avoir les deux as.

♠

Très bien, mais quelle est la morale de l'histoire, au juste ?

Se donner une hypothèse, en probas ou en stats, et mesurer des probas ou des proportions relativement à cette hypothèse, cela s'appelle conditionner. Conditionner par l'hypothèse j'ai un as dans ma main signifie qu'on se restreint aux mains ayant au moins un as, et qu'on calcule des proportions relatives à celle-ci (avec les notations ci-dessus, ceci signifie qu'on écarte N₀) ; tandis que conditionner par j'ai l'as de pique signifie qu'on se restreint aux mains contenant l'as de pique et qu'on calcule de même relativement à cette hypothèse (avec les notations ci-dessus, ceci signifie qu'on remplace les N par des P). Conditionner est une opération fondamentale en probabilités et statistiques, mais pour lui donner un sens dans la vraie vie, il faut souvent se demander pourquoi on conditionne et quelle est au juste l'hypothèse.

L'idée qu'on ait la seule information j'ai un as dans mon jeu ou j'ai l'as de pique dans mon jeu est inhabituelle. Cela correspondrait au protocole expérimental suivant : Alice pioche cinq cartes, Bob lui demande explicitement dis-moi oui si tu as au moins un as dans ton jeu (et ne fais aucun autre commentaire), respectivement dis-moi oui si tu as l'as de pique dans ton jeu (et ne fais aucun autre commentaire), Bob entend Alice faire la réponse oui, et Bob en tire les conclusions expliquées ci-dessus quant à la probabilité qu'Alice ait un second as dans son jeu. Elles sont alors correctes, et finalement peu surprenante : c'est plutôt le protocole expérimental qui est bizarre, et le fait, absolument essentiel, que Bob ait demandé à Alice d'énoncer uniquement et exactement la réponse à la question as-tu au moins un as dans ton jeu, respectivement as-tu l'as de pique dans ton jeu. En revanche, si Alice pioche cinq cartes et énonce j'ai un as dans mon jeu ou j'ai l'as de pique dans mon jeu, on ne sait pas trop quoi conclure : si Alice avait au moins deux as, elle l'aurait sans doute dit, non ? Donc peut-être doit-on conclure simplement que la probabilité qu'elle ait au moins deux as est nulle (ou du moins, très faible), car Alice n'est pas du genre à faire une affirmation de logicien.

Pour revenir à quelque chose de plus mathématique, voici le plus important : si Bob demande à Alice si tu as au moins un as dans ton jeu, dis-moi la couleur d'un des as de ton jeu (choisi aléatoirement parmi ceux qui y sont) et qu'Alice répond j'ai l'as de pique, la probabilité qu'elle ait un second as est de 12.2% et pas de 22.1% : cette fois, on ne conditionne plus par l'information il y a l'as de pique dans le jeu d'Alice mais par Alice a énoncé pique en réponse à la question de Bob, ce qui apporte l'information qu'il y a au moins un as, plus l'information totalement sans intérêt que c'est l'as de pique qui a été choisi au hasard parmi les as d'Alice. Bref, ce qui importe pour bien conditionner n'est pas seulement de savoir la réponse, mais aussi de savoir la question à laquelle on répond. Et la raison pour laquelle les probabilités annoncées plus haut nous semblent paradoxales est justement que nous avons plutôt en tête le protocole beaucoup plus naturel que je viens de décrire : quand j'ai l'information l'as de pique est dans la main, ce n'est pas qu'on cherchait spécifiquement l'as de pique avec un détecteur à as-de-pique, mais plutôt qu'on cherchait un as, et qu'il s'est trouvé que c'était l'as de pique. Dans ce cas, le raisonnement que j'ai qualifié d'intuitif plus haut est correct, et la probabilité d'avoir un second as est bien de 12.2%.

La moralité, quand on fait des stats en sciences expérimentales, en sciences sociales, ou dans n'importe quel domaine, c'est donc : qu'il faut toujours se demander non seulement quelle est l'information connue (qui conduit à un conditionnement), mais aussi par quel dispositif expérimental on aboutit à cette information. Par exemple, si je fais un sondage en demandant aux gens quel(s) as avez-vous dans votre main (réponses multiples possibles), ce n'est pas du tout pareil de me restreindre à ceux qui ont déclaré avoir l'as de pique que si je demande avez-vous un des as suivant (aucun/pique/cœur/carreau/trèfle). Dans les deux cas je saurai peut-être qu'Alice a l'as de pique, mais c'est très différent de savoir qu'elle est dans la population des gens ayant l'as de pique ou dans la population des gens ayant au moins un as et ayant déclaré l'as de pique au hasard parmi tous les as de leur main.

Ajout (2021-06-25) : cf. ce fil Twitter.