David Madore's WebLog: Comment comparer les niveaux de joueurs à un jeu ? (et : le classement Elo aux échecs)

Considérons la question suivante :

Alice, Barbara et Carole aiment jouer à un certain jeu (qui se joue à deux joueurs, et qui détermine un gagnant et un perdant). Quand Alice joue contre Barbara, elle gagne 80% des parties. Quand Barbara joue contre Carole, elle gagne 80% des parties. Avec quelle fréquence doit-on s'attendre à ce qu'Alice gagne quand elle joue contre Carole ?

Formulé comme ça, le problème est en quelque sorte un de ces pièges où, même si on a superficiellement l'impression d'avoir assez d'informations pour pouvoir faire des calculs intéressants, en fait on n'a pas les données permettant de répondre à la question posée (qui pourrait aussi bien être quel est l'âge du capitaine ?) : la réponse formellement correcte est donc on ne peut rien dire. Après tout, et même si c'est un peu paradoxal, le jeu pourrait très bien être tel que le style de jeu d'Alice la fasse gagner 80% du temps contre Barbara, qui gagnera elle-même 80% du temps contre Carole, qui gagnera à son tour 80% du temps contre Alice ; cela pourrait même être 100% du temps dans les trois cas, par exemple si le jeu est pierre-papier-ciseaux, qu'Alice joue toujours papier, Barbara toujours pierre et Carole toujours ciseaux. (Voir aussi ce fil Reddit.)

Néanmoins, ce genre de cercles paradoxaux de joueurs sont assez inhabituels. Dans un vrai jeu entre vrais joueurs, qu'il s'agisse des échecs ou du tennis ou du bras de fer ou un combat entre personnages à Donjons & Dragons, ou je ne sais quoi encore, on aura quand même tendance à se dire qu'Alice est plus forte que Barbara qui est elle-même plus forte que Carole, donc certainement Alice devrait gagner facilement contre Carole — et même, largement plus que 80% du temps — oui mais combien au juste ?

Encore une fois, il n'y a pas de « bonne » réponse. La réponse 80% est possible — quoique surprenante. Mais on peut quand même se demander quelle est la réponse la « moins surprenante », la réponse typiquement attendue, sans information supplémentaire sur le jeu. J'ai posé la question sur Twitter, mais les gens ont couardement refusé d'essayer d'y répondre. C'est dommage, parce que je pense que c'est intéressant, et j'encourage à y réfléchir avant de lire la suite : quel modèle mathématique raisonnablement simple utiliseriez-vous pour essayer de quantifier la différence de niveau des joueurs, et quelle réponse ce modèle apporte-t-il à la question ci-dessus ? (Plus généralement, bien sûr, il s'agit de se demander : si Alice gagne contre Barbara avec probabilité p et que Barbara gagne contre Carole avec probabilité q, avec quelle probabilité S(p,q) ce modèle prédit-il qu'Alice gagnera contre Carole ?)

On peut vraiment proposer des réponses sérieuses à cette question, qu'il serait amusant d'essayer de confronter à des jeux réels, même si je doute fortement qu'on puisse arriver à une situation assez « pure » et précisément reproductible pour faire une mesure utile. (Pour commencer, dans la réalité, un joueur fort ne joue pas de la même manière contre un joueur connu comme faible que contre un joueur intermédiaire.) Les deux modèles qui me semblent les plus naturels ou évidents, et que je vais décrire ci-dessous donnent l'un 95.38% et l'autre 94.12% (lorsque p=q=80%). Évidemment un tel niveau de précision est complètement illusoire, et je les donne juste pour permettre à une personne qui ferait le même calcul sans lire la suite de vérifier si elle a obtenu la même chose : je serais vraiment curieux de savoir si d'autres gens tombent aussi, sans lire ce qui suit, sur une de ces valeurs (malheureusement sans doute trop proches pour pouvoir être sérieusement départagées par l'expérience).

Cela faisait un moment que je m'étais dit que je parlerais du sujet au sujet du classement Elo aux échecs (j'y viens ci-dessous) : ce qui me motive à écrire ça maintenant, c'est d'une part que mon poussinet s'est soudainement découvert un intérêt pour les échecs (bien qu'il y soit assez nul), et d'autre part que je me suis rendu compte qu'il y avait un lien avec cette entrée récente.

Le cadre simplificateur général qui me semble assez naturel si on imagine un jeu dans lequel on peut parler de niveau d'un joueur, c'est le suivant (★) :

Chaque joueur a un niveau, qu'on peut quantifier par un nombre réel. Lorsque deux joueurs X et y de niveaux respectifs x et y jouent l'un contre l'autre, la probabilité que X gagne est donné par une certaine fonction h(x−y) (avec h continue, croissante) de la différence entre ces niveaux.

Il y a deux hypothèses qui sont faites là-dedans : la première est que le niveau est quantifié par un unique nombre réel, et la seconde est que la seule chose qui importe lorsque deux joueurs jouent l'un contre l'autre est la différence arithmétique entre leurs niveaux, et notamment un joueur de niveau 1 000 001 a autant de chances de gagner contre un joueur de niveau 1 000 000 qu'un joueur de niveau 1 contre un joueur de niveau 0. Enfin, plus exactement, la première partie est un postulat (elle signifie par exemple que si Alice et Zoé ont les mêmes probabilités de gagner contre Barbara, alors elles ont le même niveau, donc auront aussi les mêmes probabilités de gagner contre Carole). La seconde partie, elle, est la définition de l'échelle de niveaux plus qu'elle n'est un postulat : on peut imaginer qu'on définit arbitrairement les joueurs de niveaux 0 et 1, puis on définit les joueurs de niveau 2 comme ceux qui ont autant de chances de gagner contre un joueur de niveau 1 qu'un joueur de niveau 1 contre un joueur de niveau 0, puis les joueurs de niveau 3 comme ceux qui ont cette même probabilité de gagner contre les joueurs de niveau 2, etc. (Bien sûr, ensuite il faut aussi interpoler : par exemple, les joueurs de niveau 0.5 sont ceux qui ont autant de chances de gagner contre un joueur de niveau 0 que ceux de niveau 1 ont de gagner contre eux, etc.) En revanche, la question qui est vraiment matière de modélisation — ou de postulat simplificateur — plutôt que de définition, c'est celle de savoir la forme de h, par exemple ce que vaut h(u+v) connaissant p := h(u) et q := h(v) (et spécifiquement, la question tout en haut de cette entrée est de savoir ce que vaut vaut h(2t) si h(t)=0.8).

Clairement, on veut que la fonction h soit croissante et continue, voire arbitrairement lisse. Pour des raisons de symétrie, on a h(−t) = 1 − h(t), et notamment h(0)=½ (deux joueurs de même niveau ont chacun une chance sur deux de gagner). On veut sans doute demander que h(t) → 0 quand t → −∞ et h(t) → 1 quand t → +∞, c'est-à-dire qu'un joueur infiniment plus faible qu'un autre n'a aucune chance de gagner tandis qu'un joueur infiniment plus fort qu'un autre est certain de gagner ; mais déjà il s'agit là d'hypothèses faites sur le jeu, parce que, après, tout, il peut très bien comporter une part de hasard suffisante pour que la probabilité de gagner ne dépasse jamais, disons, 80% pour le joueur le plus fort. L'échelle des valeurs est normalisée de façon arbitraire, donc quitte à toutes les multiplier par une constante positive, on peut aussi assurer que la dérivée h′(0) de h en 0 vaut 1 (par exemple), c'est-à-dire en gros qu'un joueur de niveau ε de plus qu'un autre, avec ε extrêmement petit, a une probabilité essentiellement ½+ε de gagner ; mais cette normalisation n'aura évidemment aucun impact sur la réponse à la question posée initialement.

Voici un modèle très simple qui me semble assez naturel[#] : chaque joueur est modélisé par les paramètres (i.e., la distribution) d'une variable aléatoire gaussienne ; lorsque deux joueurs jouent l'un contre l'autre, on tire deux réels selon leurs deux distributions, et celui qui a la plus haute valeur gagne. Néanmoins, ce modèle modélise chaque joueur par deux paramètres (la moyenne=espérance de la variable, et son écart-type) ; pour entrer dans le cadre (★) ci-dessus, il faut que je restreigne encore les choses en demandant que chaque variable ait le même écart-type (disons 1/(2√π) pour me conformer à la normalisation arbitraire h′(0)=1 proposée ci-dessus ; du coup, la différence entre deux variables gaussiennes d'espérance x et y respectivement et d'écart-type 1/(2√π) chacune est une variable gaussienne d'espérance x−y et d'écart-type 1/√(2π), ce qui justifie la formule suivante). On a alors h(t) = ½(1+erf(t·√π)) où erf est la fonction d'erreur. Avec ce modèle, on peut répondre à la question initiale : si h(t)=0.8 c'est que t≈0.3358 (différence de niveau entre Alice et Barbara ou entre Barbara et Carole), et alors h(2t)≈0.9538. Autrement dit (indépendamment de la normalisation arbitraire de t), le modèle « tirage de variables aléatoires gaussiennes de même écart-type » prédit la réponse 95.38% à la question initiale.

[#] Disons au moins, c'est le premier qui m'est venu à l'esprit, avant d'avoir lu que le classement Elo fait autre chose, mais que, en fait, c'était peut-être bien le modèle initial proposé par Elo (cf. ci-dessous).

Oui mais pourquoi des variables gaussiennes ? Simplement parce que c'est la réponse la plus simple ou évidente quand on a besoin d'une variable aléatoire sur les réels, mais il n'y a pas de vraie justification ici (sauf qu'on peut peut-être se dire que chaque un coup d'un jeu est un tirage aléatoire et qu'à force d'en accumuler assez le théorème de la limite centrale va finir par donner quelque chose de gaussien, mais c'est plus de l'agitage de mains qu'une justification sérieuse). Les variables gaussiennes ont aussi ceci de bien que la différence entre deux variables gaussiennes est une variable gaussienne (d'espérance la différence et de variance la somme). Mais si au lieu de tirer la différence selon une variable gaussienne (d'espérance x−y et d'écart-type 1/√(2π)) je prenais une variable, disons, logistique[#2] (de nouveau avec espérance x−y et écart-type cette fois π/(4√3) si j'ai bien fait mon calcul), on trouve, ou plutôt on postule, h(t) = 1/(1+exp(−4t)) (le 4 est juste là pour la normalisation arbitraire que j'ai faite, mais l'idée importante est qu'on remplace la fonction d'erreur une fonction logistique). J'ai tracé ci-contre les graphes des deux fonctions h résultantes, en vert ½(1+erf(t·√π)) et en bleu 1/(1+exp(−4t)) (normalisées par h′(0)=1, donc ; voir aussi ce graphe sur Wikipédia pour d'autres fonctions du même genre). Avec ce modèle « logistique », on peut aussi répondre, différemment, à la question initiale : si h(t)=0.8 c'est que t≈0.3466 (différence de niveau entre Alice et Barbara ou entre Barbara et Carole), et alors h(2t)≈0.9412. Autrement dit (indépendamment de la normalisation arbitraire de t), le modèle « logistique » prédit la réponse 94.12% à la question initiale.

La fonction logistique apparaît ici comme un cheveu sur la soupe (pourquoi la fonction logistique ? enfin, on pouvait aussi demander pourquoi une gaussienne, mais la fonction logistique semble peut-être encore plus ad hoc), mais une raison pour laquelle je l'illustre est qu'elle correspond au modèle choisi par le classement Elo des échecs. Ceci dit, on peut sans doute aussi la motiver de façon un peu plus intrinsèque. Déjà, contrairement au modèle gaussien, la valeur calculée pour la question généralisée si Alice gagne contre Barbara avec probabilité p et que Barbara gagne contre Carole avec probabilité q, avec quelle probabilité ce modèle prédit-il qu'Alice gagnera contre Carole ? est une fonction rationnelle exacte[#3] de p et q, à savoir p·q/(1−p−q+2p·q) (pour l'exemple de p=q=4/5 cela donne 16/17) : je soupçonne fortement qu'il doit y avoir un modèle différent, probabiliste plus simple, qui conclut à cette formule. Et le comportement asymptotique est peut-être plus intuitif : si Barbara a une probabilité ε très faible de gagner contre Alice et Carole la même probabilité ε de gagner contre Barbara, peut-être bien qu'on a envie de croire que Carole a une probabilité ε² de gagner contre Alice ? C'est, comme on le voit sur cette formule, ce que prédit le modèle logistique (le modèle gaussien prédit quelque chose de beaucoup plus petit, mais je n'ai pas la patience de faire le développement asymptotique, c'est toujours pénible).

Ajout (2022-08-02) : je ne m'étais pas rendu compte en écrivant ce billet, et j'en prends conscience suite à une remarque sur Twitter (mais je n'ai pas envie de tout réécrire maintenant, donc je me contente de cet ajout), que ce modèle « logistique » admet la description plus simple suivante (la même que pour le modèle gaussien, mais en remplaçant la distribution gaussienne par une distribution exponentielle) : chaque joueur est modélisé par le paramètre (i.e., l'espérance, ou, mieux, le log de l'espérance) d'une variable aléatoire exponentielle ; lorsque deux joueurs jouent l'un contre l'autre, on tire deux réels selon leurs deux distributions, et celui qui a la plus haute valeur gagne. (Ceci se relie à la mise à jour de la note #2 ci-dessous par le fait que le log d'un variable distribuée exponentiellement suit une distribution de Gumbel de paramètre β=1.) Il devrait être possible de se servir de cette description pour prouver assez facilement la formule S(p,q) = p·q/(1−p−q+2p·q) : j'éditerai de nouveau ce paragraphe si je trouve quelque chose qui me plaît.

Évidemment, le code de couleur que j'ai choisi pour le graphe ci-dessus évoque celui utilisé dans cette entrée : ce n'est pas un hasard : si S(p,q) est la réponse à la question si Alice gagne contre Barbara avec probabilité p et que Barbara gagne contre Carole avec probabilité q, avec quelle probabilité le modèle prédit-il qu'Alice gagnera contre Carole ?, alors S(p,q) est, à q fixé, une fonction d'harmonisation de notes comme j'évoquais dans l'entrée en question, donc à q variable une fonction comme je l'évoquais, et précisément p ↦ S(p,q) est celle de la famille qui envoie ½ sur q. Donc les graphes de familles de fonctions d'harmonisation de notes dans cette entrée sur le sujet peuvent se comprendre comme des graphes de la probabilité qu'Alice gagne contre Carole en fonction de la probabilité que Barbara gagne contre Carole en abscisse, la probabilité qu'Alice gagne contre Barbara étant lue comme l'ordonnée du point ½ dans la famille, avec en vert le modèle gaussien et en bleu le modèle logistique. Je ne reviens pas sur le modèle violet qui est sans doute assez artificiel ici (et surtout parce que j'ai la flemme de refaire encore un tas de graphes et de calculs).

[#2] Pour que X−Y soit distribuée selon une loi logistique d'espérance x−y et d'écart-type π/(4√3), il s'agit que X et Y soient distribuées selon une loi « demi-logistique » d'espérance x et y respectivement et de même écart-type π/(4√6). La loi « demi-logistique », ici, fait référence à la racine carrée convolutionnelle de la loi logistique, et j'ai la flemme d'essayer de la calculer ni même de chercher si elle apparaît dans la littérature, mais n'hésitez pas à me le dire si vous savez. L'avantage de la gaussienne, c'est justement que cette différence ne se pose pas : la racine carrée convolutionnelle d'une gaussienne est une gaussienne. (Et j'avoue avoir commencé à rédiger les choses en écrivant à tort pareil pour la loi logistique, ce qui explique ma présentation un peu alambiquée.) • Mise à jour : la loi de Gumbel répond à ma question (ce n'est pas exactement ce dont je parlais parce que je pensais à une variable symétrique donc centrée, mais ce n'est pas grave : la différence de deux variables indépendantes de même loi de Gumbel a une loi logistique, donc on peut dire que le modèle logistique correspond à supposer qu'à chaque joueur est associé une loi de Gumbel, toujours de même paramètre β=1/(2√2) je crois, et dont le paramètre μ correspond au niveau, on tire deux réels selon les distributions des deux joueurs, et celui qui a le plus grand gagne).

[#3] Formule reliée à la formule d'addition pour les tangentes hyperboliques (parce que l'arctangente hyperbolique est essentiellement la fonction logistique).

Le modèle logistique, donc, est celui utilisé par le classement Elo aux échecs (tel qu'il est pratiqué maintenant, et peut-être pas tel que décrit initialement par Arpad Elo, cf. ci-dessous). La fonction h est normalisée différemment de ce que j'ai fait ci-dessus : si D est la différence x−y de points Elo des deux joueurs, la probabilité que X gagne contre Y, ou plus exactement l'espérance de score (parce qu'aux échecs il y a des nuls, donc on convient de les compter comme ½) est supposée être 1/(1+10↑(−D/400)) (c'est-à-dire que c'est la même fonction 1/(1+exp(−4t)) que ci-dessus sauf que D = (1600/log(10))×t ≈ 695×t ; dans mon exemple avec 80%, Alice aurait 240.8 points Elo de plus que Barbara, qui aurait elle-même 240.8 points Elo de plus que Carole).

Insistons là-dessus : autant la normalisation précise est une définition arbitraire du « point Elo », autant ce modèle logistique est un postulat, une hypothèse faite sur un phénomène réel par le classement Elo : le classement Elo (pratiqué) suppose que si Alice gagne 80% des parties d'échec contre Barbara (enfin, a un score moyen de 0.8000) et que Barbara gagne 80% des parties contre Carole (idem), alors Alice gagne 94.12% des parties contre Carole (enfin, a un score moyen de 0.9412). Ce n'est que si cette hypothèse est vérifiée que le classement Elo se stabilisera vraiment (au sens où les trois joueuses auront des scores stables à long terme quel que soit les parties qu'elles jouent) ; si ce n'est pas le cas, elles peuvent utiliser la violation de l'hypothèse pour modifier leurs scores dans un certain intervalle.

Ce qui n'est pas clair (pour moi) est l'origine de cette hypothèse dans le classement Elo : est-ce que c'est une hypothèse simplificatrice (peut-être pas du tout vraie mais, après tout, tout n'étant que très approximatif, ce n'est pas très grave), ou y a-t-il des raisons soit théoriques (comme une justification de la formule p·q/(1−p−q+2p·q) qui caractérise l'hypothèse logistique) soit expérimentales pour croire à ce modèle ? La page Wikipédia contient des affirmations bizarres et confuses, presque contradictoires, qui semblent dire qu'Arpad Elo avait initialement proposé un modèle gaussien et que cela a été changé en modèle logistique (sans changer le nom, ce qui est super confusant) pour des raisons peut-être expérimentales ou peut-être juste pratiques :

Elo's central assumption was that the chess performance of each player in each game is a normally distributed random variable.

[…]

Subsequent statistical tests have suggested that chess performance is almost certainly not distributed as a normal distribution, as weaker players have greater winning chances than Elo's model predicts. In practice, there is little difference between the shape of the logistic and normal curve. So it does not matter whether the logistic or normal distribution is used to calculate the expected scores. Mathematically, however, the logistics function is more convenient to work with.

[…]

The normal and logistic distributions are, in a way, arbitrary points in a spectrum of distributions which would work well. In practice, both of these distributions work very well for a number of different games.

[…]

The first mathematical concern addressed by the USCF was the use of the normal distribution. They found that this did not accurately represent the actual results achieved, particularly by the lower rated players. Instead they switched to a logistic distribution model, which the USCF found provided a better fit for the actual results achieved.

Maintenant qu'on a des ordinateurs qui jouent aux échecs, on pourrait tester un peu cette hypothèse : pour un moteur d'échecs donné, paramétrer le temps de calcul laissé à trois instances A, B et C pour que A gagne 80% du temps contre B et que B gagne 80% du temps contre C, et voir quelle proportion du temps A gagne contre C. Il faut voir si on peut faire assez de jeux pour que la différence entre 94.12% et 95.38% puisse être révélée, mais il est bien sûr possible, même plausible, que la réalité soit bien différente de ces deux chiffres. On pourrait ensuite chercher à changer le moteur ou les temps impartis, ou confronter deux moteurs différents, et aussi tester sur plein d'autres jeux où on peut faire jouer deux ordinateurs (y compris, par exemple, des simulations de combats à Donjons & Dragons ou je ne sais quoi d'autre). Ça ne donnerait pas forcément une idée très fiable sur ce qui se passe entre joueurs humains, mais ce serait au moins une indication, et une information intéressante en soi.

Il y a bien sûr une autre question qu'on doit évoquer : une fois la fonction h postulée, comment attribuer les scores ? Et notamment, comment les mettre à jour après des parties jouées ? L'idée est la suivante (voir l'article Wikipédia pour des explications plus longues et moins mathématiques) : si deux joueurs ont des scores x et y avant la partie, le score espéré attendu de X est p := h(x−y) tandis que celui de Y est h(y−x) = 1 − p. Si le score réel de X est s (aux échecs c'est 1 pour un gain, 0 pour une perte et ½ pour un jeu nul), on va transférer k·(s−p) points du joueur Y au joueur X (c'est-à-dire ajouter cette valeur à x en la soustrayant à y ; bon, probablement on ne fait cette mise à jour des scores qu'après une série de parties, en sommant les valeurs correspondantes de toute la série) où k est une certaine constante : l'intérêt de cette formule est que si la valeur espérée de s est effectivement celle p prédite par la formule, le transfert est nul en moyenne, i.e., les scores n'évoluent plus quand ils sont correctement prédits par le modèle ; en revanche, si X gagne plus que prédit, on a en moyenne s>p donc X va gagner des points, ce qui va augmenter le p prédit la prochaine fois, jusqu'à ce que le modèle prédise correctement la valeur. (Il y a certainement moyen d'interpréter ça comme une forme ou une sorte de descente de gradient discret.) Le paramètre k, qui règle essentiellement le maximum de points échangeables par partie jouée, ajuste la vitesse à laquelle on réévalue les scores : un paramètre k trop petit fera évoluer les scores trop lentement (il faudra énormément de parties avant que le joueur fort prenne au joueur faible les points qui reflètent la différence de niveau), tandis qu'un paramètre k trop grand rendra le système trop instable aux aléas. (Le classement Elo utilise, selon le niveau des joueurs, des valeurs de k de 10 à 40 points Elo échangeables par partie, sachant qu'un point Elo est, comme je l'ai dit ci-dessus, environ 1/695 fois l'unité du paramètre t normalisé pour avoir h′(0)=1, c'est-à-dire que les probabilités p sont réévaluées par incréments de 1.5% à 6% au plus, selon le niveau.) Il y a bien sûr toutes sortes d'autres crottes de ragondin à évacuer, comme savoir ce qu'on fait avec les nouveaux joueurs ou les joueurs sortants (le modèle que je viens de dire suppose un ensemble de joueurs fixé, et la somme de tous leurs scores n'évolue pas du tout ; on devrait sans doute commencer par donner le score 0 à tout le monde) : Elo semble donner le score 100 aux débutants (pourquoi pas 0 ?), mais c'est un peu arbitraire parce que les débutants n'ont pas un score maintenu de façon constante, bref, je ne détaille pas plus ces histoires de comptabilité un peu sordides.

En tout cas, j'insiste sur le fait que cette méthode de mise à jour des scores est une question complètement différente, et indépendante, de l'hypothèse faite sur la fonction h définissant le modèle. Dans le classement Elo, il faut bien distinguer :

une hypothèse faite (au moins approximativement) sur un phénomène réel, à savoir la question initiale de cette entrée, pour laquelle le modèle logistique prédit la valeur 94.12% ou plus généralement p·q/(1−p−q+2p·q) (mais il semble qu'Elo avait initialement proposé le modèle gaussien),
une convention de normalisation du point, qui consiste juste à fixer l'échelle de façon arbitraire (moi j'ai proposé h′(0)=1 pour simplifier les formules, mais le classement Elo prend log(10)/1600 ici),
une méthode de mise à jour des scores pour les faire évoluer de façon à se conformer aux probabilités observées (du moins si l'hypothèse de cohérence des probabilités entre elles est vérifiée), ce qui revient ici à choisir la constante k, et bien sûr, en plus, des choix faits sur les joueurs entrants et sortants, qui correspondent plus ou moins à une convention sur le niveau 0 de l'échelle (qui est encore plus arbitraire que l'échelle), tout ça n'ayant de sens que dans le cadre d'un pool de joueurs (je ne sais pas comment fonctionne le monde des échecs pour savoir qui reçoit un score, et ça ne m'intéresse pas des masses).

Ce qui m'intéresse le plus dans l'histoire est l'hypothèse, et je trouve qu'elle n'est pas assez bien mise en lumière par les textes qui parlent de scores Elo. Évidemment c'est un peu du coupage de cheveux en quatre de mathématicien (on n'arrivera sans doute pas sérieusement à distinguer 94.12% et 95.38%, et peut-être que les deux sont assez faux), mais en principe, avant même de commencer à chercher à donner des scores Elo-like à des joueurs d'un jeu, il faudrait tester expérimentalement l'hypothèse sur le jeu dont on parle, déterminer si un modèle gaussien ou logistique ou complètement différent convient, bref, mesurer S(p,q) la réponse à la question si Alice gagne contre Barbara avec probabilité p et que Barbara gagne contre Carole avec probabilité q, avec quelle probabilité Alice gagne-t-elle contre Carole ? (qui selon le modèle logistique vaut p·q/(1−p−q+2p·q)).