David Madore's WebLog: Mathematics

This WebLog is bilingual, some entries are in English and others are in French. A few of them have a version in either language. Other than that, the French entries are not translations of the English ones or vice versa. Of course, if you understand only English, the English entries ought to be quite understandable without reading the French ones.

Ce WebLog est bilingue, certaines entrées sont en anglais et d'autres sont en français. Quelques-unes ont une version dans chaque langue. À part ça, les entrées en français ne sont pas des traductions de celles en anglais ou vice versa. Bien sûr, si vous ne comprenez que le français, les entrées en français devraient être assez compréhensibles sans lire celles en anglais.

Note that the first entry comes last! / Notez que la première entrée vient en dernier !

Index of all entries / Index de toutes les entréesXML (RSS 1.0) • Recent comments / Commentaires récents

Entries with category math / Entrées de la catégorie math:

(lundi)

Sons et graphes de caractères de groupes de Lie

Il y a quelque temps, je me désolais de ne jamais avoir réussi à trouver un objet mathématique dont je pourrais faire une représentation sous forme auditive — plutôt que visuelle — et qui serait mélodieux à entendre.

Or ces derniers temps, je réfléchissais à des problèmes — et globalement, à essayer de comprendre plus précisément des choses — autour de caractères de groupes de Lie, et j'ai été amené à tracer des fonctions qui ressemblent à ceci (cliquez pour agrandir) :

[Caractères fondamentaux du groupe de Lie F₄ restreintes au tore du SU₂ principal de Kostant]

Là, je devrais essayer de dire de quoi il s'agit. L'ennui, c'est que ce n'est pas facile. Je peux donner une explication pour les experts, mais elle n'éclairera pas du tout le grand public (ni même le public moyennement averti) ; je l'écris surtout pour m'en souvenir moi-même :

(Pour les experts, donc.)

Il s'agit des caractères fondamentaux d'un groupe de Lie (réel compact) simple (dans la figure ci-dessus, il s'agit de F₄), restreints au tore du SU₂ principal de Kostant, c'est-à-dire, plus concrètement, le groupe à un paramètre engendré par la demi-somme des coracines positives. Autrement dit, si ρ# est la demi-somme des coracines positives (ou somme des copoids fondamentaux), donnée une représentation définie par son système de poids, on applique ρ# aux poids en question, ce qui donne des demi-entiers (les multiplicités étant sommées), à interpréter comme les poids d'une représentation de SU₂, ou comme définissant un polynôme trigonométrique. Une façon de calculer en pratique consiste à appliquer la formule de caractère de Weyl avec une petite astuce (cf. §3.1 de cet article) : si ρ est la demi-somme des racines positives et λ un poids dominant, on calcule le produit des tλ+ρ,α#⟩−1 où t est une indéterminée et α# parcourt les coracines positives, et on divise ce polynôme par le produit des tρ,α#⟩−1 ; ceci donne un polynôme en t (dont la valeur en 1 est précisément la dimension de la représentation de poids dominant λ, c'est la formule de dimension de Weyl ; quant au degré, il vaut 2⟨λ,ρ#⟩, c'est-à-dire la somme des coefficients de λ sur la base des racines simples) : les coefficients de ce polynôme sont ceux recherchés : si on les décale (i.e. on divise encore par tλ,ρ#⟩) et qu'on lit comme un polynôme trigonométrique, c'est la fonction recherchée. Voici par exemple le calcul en Sage dans le cas de F₄ :

sage: WCR = WeylCharacterRing("F4", style="coroots")
sage: weylvec = sum([rt for rt in WCR.positive_roots()])/2
sage: R.<t> = PolynomialRing(QQ,1)
sage: weyldenom = prod([t^weylvec.scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer1 = prod([t^(weylvec+WCR.fundamental_weights()[1]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer2 = prod([t^(weylvec+WCR.fundamental_weights()[2]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer3 = prod([t^(weylvec+WCR.fundamental_weights()[3]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer4 = prod([t^(weylvec+WCR.fundamental_weights()[4]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer1/weyldenom
t^22 + t^21 + t^20 + t^19 + 2*t^18 + 2*t^17 + 3*t^16 + 3*t^15 + 3*t^14 + 3*t^13 + 4*t^12 + 4*t^11 + 4*t^10 + 3*t^9 + 3*t^8 + 3*t^7 + 3*t^6 + 2*t^5 + 2*t^4 + t^3 + t^2 + t + 1
sage: weylnumer2/weyldenom
t^42 + t^41 + 2*t^40 + 3*t^39 + 5*t^38 + 7*t^37 + 10*t^36 + 12*t^35 + 16*t^34 + 20*t^33 + 25*t^32 + 29*t^31 + 35*t^30 + 39*t^29 + 45*t^28 + 50*t^27 + 55*t^26 + 58*t^25 + 62*t^24 + 63*t^23 + 66*t^22 + 66*t^21 + 66*t^20 + 63*t^19 + 62*t^18 + 58*t^17 + 55*t^16 + 50*t^15 + 45*t^14 + 39*t^13 + 35*t^12 + 29*t^11 + 25*t^10 + 20*t^9 + 16*t^8 + 12*t^7 + 10*t^6 + 7*t^5 + 5*t^4 + 3*t^3 + 2*t^2 + t + 1
sage: weylnumer3/weyldenom
t^30 + t^29 + 2*t^28 + 3*t^27 + 4*t^26 + 5*t^25 + 7*t^24 + 8*t^23 + 10*t^22 + 11*t^21 + 13*t^20 + 14*t^19 + 16*t^18 + 16*t^17 + 17*t^16 + 17*t^15 + 17*t^14 + 16*t^13 + 16*t^12 + 14*t^11 + 13*t^10 + 11*t^9 + 10*t^8 + 8*t^7 + 7*t^6 + 5*t^5 + 4*t^4 + 3*t^3 + 2*t^2 + t + 1
sage: weylnumer4/weyldenom
t^16 + t^15 + t^14 + t^13 + 2*t^12 + 2*t^11 + 2*t^10 + 2*t^9 + 2*t^8 + 2*t^7 + 2*t^6 + 2*t^5 + 2*t^4 + t^3 + t^2 + t + 1

Le polynôme en question doit d'ailleurs avoir un rapport très fort avec les crystal graphs de Kashiwara et Littelmann (les coefficients énumèrent le nombre de nœuds à chaque hauteur du graphe) ; et sans doute avec les groupes quantiques : je n'y connais rien, mais dans le cas de Ar, on obtient exactement le coefficient binomial gaussien (r+1,i) pour la i-ième représentation fondamentale. • Par ailleurs, il y a une grande similarité avec un autre polynôme important, à savoir le produit des tα,ρ#⟩+1−1 où t est une indéterminée et α parcourt les racines positives, divisé par le produit des tα,ρ#⟩−1 : ce polynôme-là énumère les éléments du groupe de Weyl par leur longueur (Carter, Simple Groups of Lie Type (1972/1989), théorème 10.2.2 page 153), par exemple pour F₄ on trouve t^24 + 4*t^23 + 9*t^22 + 16*t^21 + 25*t^20 + 36*t^19 + 48*t^18 + 60*t^17 + 71*t^16 + 80*t^15 + 87*t^14 + 92*t^13 + 94*t^12 + 92*t^11 + 87*t^10 + 80*t^9 + 71*t^8 + 60*t^7 + 48*t^6 + 36*t^5 + 25*t^4 + 16*t^3 + 9*t^2 + 4*t + 1, il est en lien avec les exposants du groupe de Weyl (id, théorème 10.2.3 page 155), et à très peu de choses près donne la fonction zêta du groupe algébrique, c'est-à-dire compte ses points sur les corps fini (id, proposition 8.6.1 page 122), ou de façon sans doute plus pertinente, les points de la variété de drapeau associée. Je ne comprends pas bien le rapport précis entre tous ces polynômes (notons que j'ai écrit le dernier pour coller avec ce que je trouve dans Carter, mais si je ne m'abuse, c'est aussi le produit des tρ,α#⟩+1−1 où t est une indéterminée et α parcourt les racines positives, divisé par le produit des tρ,α#⟩−1, ce qui le fait ressembler encore plus à ce que j'ai écrit ci-dessus). [Ajout : ce dernier polynôme est appelé q-polynomial ici. Je devrais ajouter, pour reproduire ce qui est mentionné sur cette page, que pour obtenir le polynôme donnant nombre de points de la variété de drapeau partielle définie par un ensemble S de nœuds du diagramme de Dynkin, on fait le produit des tα,ρ#⟩+1−1 divisé par le produit des tα,ρ#⟩−1, où cette fois α parcourt seulement les racines ayant au moins un coefficient strictement positif devant une racine simple omise de S.]

Il faudrait essayer de vulgariser tout ça, mais ce n'est pas évident : pas tellement parce que les objets en question sont compliqués (fondamentalement, le calcul final est un petit calcul combinatoire, assez facile, même si évidemment le présenter comme tel ne fournit aucune motivation), mais surtout parce que, comme c'est souvent le cas dans ce domaine entre la théorie des groupes algébriques, la théorie de la représentation, et la combinatoire algébrique, chaque objet peut se voir d'une multitude de manières différentes (ce qui est d'ailleurs la source d'incompréhensions diverses et variées). J'avais commencé à essayer d'écrire quelque chose, non pas vraiment pour expliquer mais juste pour donner une idée de ce dont il est question (en agitant énormément les mains), mais même comme ça, ça partait tellement dans tous les sens que c'est incompréhensible : je le recopie quand même ici (comme un gros bloc de texte), mais je ne recommande de le lire que pour rigoler :

J'ai un peu expliqué ici ce qu'était un groupe de Lie, mais pour résumer le roman, disons très rapidement (et très grossièrement) qu'il s'agit de groupes de symétries continues ; et que les blocs qui servent à les fabriquer, les groupes simples, ont été classifiés à la fin du 19e siècle par Killing et Cartan (père), la classification se faisant maintenant au moyen de petits dessins très commodes appelés diagrammes de Dynkin. • Mais pour décrire précisément la manière dont ces groupes (de Lie réels compacts simples) se réalisent comme des groupes de symétries, il faut décrire ce qu'on appelle leurs représentations (qui sont essentiellement les manière de voir le groupe considéré comme un groupe de matrices) : grâce aux travaux entre autres de Cartan, Weyl et Chevalley, la situation est très bien comprise, et on peut décrire ces représentations grâce à des annotations sur le diagramme de Dynkin, elles sont toutes obtenues à partir de représentations dites fondamentales, une pour chaque nœud du diagramme de Dynkin (le nombre étant appelé le rang du groupe). • Une représentation est une donnée algébrique (c'est un morphisme du groupe considéré vers un groupe de matrices inversibles), mais en fait, elle se reconstruit complètement à partir d'une simple fonction sur le groupe, qu'on appelle le caractère de la représentation (on peut presque considérer le caractère et la représentation dont il provient comme synonymes) : si on sait ce que c'est qu'une matrice, le caractère est simplement la trace sur le groupe lorsque le groupe est vu comme un groupe de matrices (« vu comme » étant justement le boulot de la représentation) ; et la trace usuelle des matrices disons spéciales orthogonales, ou spéciales unitaires, est un exemple de caractère de représentation fondamentale (dans le cas du groupe spécial unitaire, les autres caractères fondamentaux sont en fait les coefficients du polynôme caractéristique de la matrice, et peuvent aussi s'obtenir comme des traces de ce qu'on appelle les puissances extérieures de la matrice, et c'est essentiellement ça la représentation). Dans le cas des matrices de rotation (=spéciales orthogonales), les caractères vont être différentes fonctions des angles de la rotation (en dimension paire 2n, disons, la trace usuelle est 2 fois la somme des cosinus des n angles de la rotation, le k-ième caractère fondamental va ressembler à la sommes de cosinus de toutes les sommes ou différences possibles de k angles, sauf les derniers, dits caractères de demi-spin, qui font intervenir des demi-angles). • Les représentations et leurs caractères s'analysent d'abord comme des sommes de représentations dites irréductibles, et celles-ci s'analysent à leur tour comme une « sorte de produit » des représentations et caractères dits fondamentaux, en nombre égal au rang du groupe, ce qui explique que ces caractères soient particulièrement importants. (Il y en a aussi un autre qui a beaucoup d'importance, c'est le caractère de la représentation dite adjointe, qui est toujours irréductible mais pas toujours fondamentale : elle se fabrique de manière « automatique » à partir du groupe — en considérant une sorte d'action par conjugaison — et c'est en fait la clé de la classification de Killing-Cartan.) • Le caractère est défini sur le groupe tout entier, qui peut être très gros (par exemple, E₈ est de dimension 248), mais en fait, toute la partie intéressante se passe sur ce qu'on appelle un tore maximal, dont la dimension est seulement égale au rang du groupe (c'est la définition du rang ; par exemple, pour E₈, c'est 8, ce qui est déjà beaucoup moins que 248) : l'idée est la même que dans le fait que pour comprendre une rotation, ce qu'il faut comprendre ce sont ses angles, peu importe les directions dans lesquelles la rotation se fait ; et le tore maximal, ici, correspondrait à toutes les rotations selon des directions données. • Cette fonction — la restriction du caractère au tore maximal — est déjà quelque chose de beaucoup plus concret, et en fait c'est sans doute à ce niveau-là que je devrais partir si je devais essayer de vulgariser correctement cette notion (au lieu de l'espèce de cascade de remarques décousues qui précèdent), parce que je crois qu'on peut laisser complètement la notion de groupe de Lie et partir de la notion de kaléidoscope euclidien (un arrangement d'hyperplans dans l'espace euclidien, qu'il faut imaginer comme un arrangement de miroirs, de sorte que la réflexion d'un hyperplan quelconque de l'arrangement par rapport à un autre hyperplan quelconque de l'arrangement soit encore un hyperplan de l'arrangement ; les réflexions en question définissent ce qu'on appelle le « groupe de Weyl affine » : dans mes exemples ci-dessus, cela correspond aux opérations qui remplacent l'angle d'une rotation par son opposé, ou en permutent deux, ou ajoutent deux tours à un des angles, ce genre de choses, tout ça n'a finalement pas d'importance pour la rotation, et notamment ne change pas les valeurs des caractères) ; on doit donc pouvoir approcher la notion de caractère comme une fonction (harmonique) sur la cellule élémentaire — dite alcôve — qui sert à construire le kaléidoscope. • Mais on peut restreindre encore plus les choses, car beaucoup des propriétés intéressantes du caractère peuvent se lire sur sa restriction à essentiellement une seule droite (dans le kaléidoscope, c'est un rayon de lumière qui, en rebondissant sur les murs-miroirs de l'alcôve, passe par un centre particulier de l'alcôve). Et c'est ce dont il est question ici.

Ce qui préciède est illisible pour plusieurs raisons. La première est que je ne décide pas clairement à qui je m'adresse, et je fais sans arrêt des remarques compréhensibles à des niveaux de connaissance différents. Je devrais peut-être adopter l'approche utilisée dans une vidéo comme celle-ci (où la même personne explique le même concept cinq fois, à des niveaux de technicité croissants), mais c'est évidemment plus compliqué. Un autre problème est que je n'arrive pas à me fixer une approche d'explication (je commence par parler des groupes de Lie, puis je me suis dit qu'on aurait pu en fait ne pas en parler du tout et tout décrire par la notion de kaléidoscope / groupe cristallographique). Encore un autre problème est qu'il n'est pas toujours évident, quand on vulgarise, de savoir ce qu'on va passer sous silence, et notamment quelles notions on va tacitement identifier (faut-il ignorer la différence entre représentation et caractère, si je ne dois proprement définir aucun des deux ? entre groupe de Lie et algèbre de Lie ? quelle approche choisir dans chaque cas ?).

Bref, j'essaierai peut-être un autre jour. En attendant, essayons de faire un résumé moins indigeste :

Je vais donc me contenter de dire que je m'intéressais à des questions, d'ailleurs en bonne partie expérimentales (car les maths peuvent aussi être une science expérimentale), autour de certaines fonctions qu'on appelle les caractères fondamentaux (c'est-à-dire caractères des représentations fondamentales) et le caractère adjoint (caractère de la représentation adjointe) de groupes de Lie réels compacts simples. Peu importe ce que tout cela signifie, mais ce sont des fonctions très jolies ayant plein de propriétés algébriques et combinatoires remarquables. A priori ce sont des fonctions définies sur des objets de grande dimension (le groupe de Lie F₄, par exemple, et pour changer un peu de E₈, est de dimension 52, ça va être difficile à représenter), mais on peut faire deux réductions : une étape tout à fait classique consiste à dire que tout ce qui est intéressant se passe sur un petit bout du groupe (appelé tore maximal), dont la dimension est beaucoup plus petite (pour F₄, ça devient 4, c'est ce que signifie l'indice sous la lettre, et on appelle ça le rang du groupe). Et en fait, beaucoup de ce qui est intéressant se passe au sein de ce qu'on appelle le tore maximal du SU₂ principal de Kostant (c'est très long à dire, je me demande s'il n'y a pas une terminologie moins lourde, d'ailleurs), et là, on tombe en dimension 1. Beaucoup des choses intéressantes sur les caractères (ou sur le groupe en général) se passent au sein de ce SU₂ principal (Jean-Pierre Serre, qui m'a fait l'honneur de discuter longuement avec moi sur des problèmes apparentés, et qui a aussi fait des expérimentations graphiques et numériques du genre de ce que je raconte ici, a résumé la chose ainsi : il passe par tous les points intéressants). Même si les raisons pour ça ne sont pas claires (ça fait partie de l'expérimentation), c'est en tout cas un endroit intéressant à regarder.

Ce que j'ai tracé ci-dessus, ce sont donc les (quatre) caractères fondamentaux d'un groupe de Lie (celui qui s'appelle F₄) sur ce lieu de dimension 1, tore maximal du SU₂ principal de Kostant.

Ce sont des polynômes trigonométriques, c'est-à-dire des sommes de sinus ou de cosinus (en l'occurrence, il n'y a que des cosinus), et cela suggère qu'on puisse avoir envie de les écouter comme des sons : pour les non matheux, disons qu'un polynôme trigonométrique, c'est essentiellement (la fonction d'onde d')un som ne comportant qu'un nombre fini d'harmoniques entiers.

C'est ce que j'ai fait dans cette vidéo que j'ai mise sur YouTube (le passage précis où on entend les quatre ondes représentées ci-dessus est entre 49.5s et 55.5s dans la vidéo), en jouant ces ondes[#] sur une fréquence fondamentale de 110Hz (la note A2 en musique, qui n'a rien à voir avec le groupe de Lie A₂) ; on y entend donc, pour 26 groupes de Lie réels simples, le son de chacune de leurs caractères fondamentaux et aussi du caractère adjoint (lorsqu'il n'est pas déjà inclus dans les fondamentaux). Mais je vous préviens d'avance : contrairement à ce que j'espérais, et contrairement à ce que mes courbes joliment tracées peuvent laisser penser, ce n'est pas franchement mélodieux. C'est loin d'être inaudible, certes (même si ça devient assez strident quand on progresse en rang, et je n'ai pas voulu faire E₈ pour ne pas écorner sa réputation), mais en tout cas, il n'y a pas de magie particulière qui s'entendrait à l'oreille. Du moins, pas à la mienne.

[#] Bon, alors, techniquement, j'ai quand même triché sur le point suivant : j'ai transformé tous les cosinus en des sinus dans le polynôme trigonométrique, c'est-à-dire que j'ai déphasé tous les harmoniques d'un quart de tour (et supprimé le terme constant). La raison initiale était qu'avec les cosinus ça aurait saturé avec la normalisation que j'avais commencé par prendre ; finalement, j'ai changé de normalisation, mais j'ai laissé les sinus. Une autre raison est qu'avec des sinus, on passe sans coupure d'un son à un autre, puisque la fonction prend de toute façon la valeur 0 en 0. Ça ne devrait rien changer à l'oreille vu qu'elle est inensible à la phase, du moins en mono. (Quant au terme constant, il est encore plus inaudible, si j'ose dire.) Mais peut-être que c'est justement pour ça qu'on n'entend rien de remarquable, en fait.

Bref, j'ai été plutôt déçu : je pensais avoir enfin un truc intéressant à mettre sous forme de son, et en fait, ça n'a pas grand intérêt. Je me console avec les graphes qui, eux, sont quand même bien jolis. Voici D₆ (1′30s dans la vidéo ; j'ai gardé la couleur rouge pour le caractère adjoint), qui est intéressant parce qu'il y a un caractère (le numéro 5, en vert, ou caractère de demi-spin) qui n'a que les harmoniques impaires d'une fréquence fondamentale deux fois plus grave, ça s'entend très bien sur le son et ça se voit sur le graphique au fait qu'il n'a pas la même symétrie autour de ½ que les autres courbes (ou si on veut, pas la même valeur en 0 et en 1) :

[Caractères fondamentaux du groupe de Lie D₆ restreintes au tore du SU₂ principal de Kostant]

Voici E₆ (1′57s dans la vidéo ; intéressant parce que le minimum du caractère adjoint n'est pas atteint en ½ et n'est pas l'opposé du rang) :

[Caractères fondamentaux du groupe de Lie E₆ restreintes au tore du SU₂ principal de Kostant]

Et enfin E₈ (que je n'ai pas inclus dans ma vidéo ; je n'ai tracé que quatre caractères fondamentaux parce que c'était déjà assez confus comme ça), on imagine assez bien que le son doit être strident :

[Caractères fondamentaux du groupe de Lie E₈ restreintes au tore du SU₂ principal de Kostant]

Il y a beaucoup de choses à lire sur ces courbes. La valeur en 0 (le 0 correspondant à l'identité du groupe de Lie) est égale à la dimension de la représentation tracée (pour le caractère adjoint, c'est la dimension du groupe de Lie lui-même), ce qui explique un énorme pic en 0 (le seul qui ne dépasse pas complètement des limites de mon graphique est le caractère de la représentation ordinaire de D₆ — la numéro 1, en bleu — qui prend la valeur 12 parce que D₆=Spin(12) est le groupe des rotations, enfin le groupe spin mais peu importe, en 12 dimensions). La valeur en ½ ou tout autre point est déjà quelque chose de bien plus mystérieux.

Mais il y a quelque chose qui m'a particulièrement frappé quand j'en ai pris conscience et à quoi je n'ai aucune explication : sur chacune des courbes ci-dessus, on voit que beaucoup de valeurs tournent autour de 0 (je veux dire, si vous deviez tracer un axe horizontal intéressant sur ces graphes, ce serait à l'ordonnée 0) ; c'est particulièrement frappant sur les graphe pour E₈, les courbes sont beaucoup plus « denses » autour de l'axe des abscisses. L'explication à laquelle on pense naturellement serait : c'est sans doute juste que 0 est la valeur moyenne de toutes ces fonctions. Seulement, ce n'est pas le cas : la valeur moyenne (= le terme constant du polynôme trigonométrique) est égal à la multiplicité du poids nul sur le SU₂ principal, et ce nombre est toujours positif et rarement nul (le seul cas où ça se produit dans les courbes ci-dessus est la courbe verte/nº5/demi-spin pour D₆). Je n'ai donc pas d'explication à cette « concentration en 0 » alors que 0 n'est pas la moyenne, il y a peut-être un résultat qui dit que la valeur d'un caractère fondamental (irréductible ?) d'un groupe de Lie prend souvent des valeurs proches de 0, mais je ne le connais pas (la valeur moyenne sur le groupe tout entier est la multiplicité du poids nul de la représentation, elle est toujours positive et n'est nulle que pour une représentation dite minuscule est strictement positive dans les cas G₂, F₄ et E₈ par exemple).

(dimanche)

Sections du diagramme de Voronoï du réseau E₈

Je ne savais pas bien à quoi m'attendre quand j'ai calculé cette image, mais probablement pas à ça :

[Section plane aléatoire du diagramme de Voronoï de E₈]

(Cliquez pour une vue plus large.)

De quoi s'agit-il ? C'est une section plane aléatoire du diagramme de Voronoï du réseau E₈ : il faut que j'explique ces termes (mais is ça ne vous intéresse pas, il y a d'autres images, et des liens vers des vidéos, plus bas).

Le réseau E₈ est un arrangement régulier de points en dimension 8, qui a toutes sortes de propriétés remarquables. En fait, il n'est pas difficile de le définir concrètement : il s'agit des octuplets (x₀,x₁,…,x₇) de nombres réels tels que :

À titre d'exemple, (0, 0, 0, −1, 2, −1, 1, −1) et (−1.5, 2.5, −0.5, 1.5, −1.5, −0.5, −2.5, 0.5) sont dans le réseau E₈ ; en revanche, (0, 0, 0, −1, 2, −1, 1.5, −1.5) n'y sont pas (les coordonnées ne sont ni toutes entières ni toutes entières-et-demi), et (−1.5, 2.5, −0.5, 1.5, −1.5, −0.5, −2.5, 0.5) non plus (la somme n'est pas paire).

La somme ou différence de deux points du réseau E₈ est encore dedans : c'est là la propriété essentielle d'être un réseau (et ce qu'un non-mathématicien qualifierait de points régulièrement espacés). Les points du réseau E₈ les plus proches de l'origine (0,0,0,0,0,0,0,0) sont d'une part ceux de la forme (±1,±1,0,0,0,0,0,0) (où exactement deux coordonnées, quelconques, valent soit 1 soit −1 : ceci fait 28×4=112 possibilités — 28 choix de deux coordonnées et 4 choix de leurs signes), et d'autre part ceux de la forme (±½,±½,±½,±½,±½,±½,±½,±½) (où chaque coordonnée vaut ½ ou −½, et où il y a un nombre pair de valeurs −½ : ceci fait 2⁸/2=128 possibilités) : au total, 112+128=240 points tous à distance √2 de l'origine ; ces 240 points sont ce qu'on appelle les racines du système E₈ et ils engendrent le réseau, mais ici c'est le réseau plus que ses racines qui m'intéresse. Entre autres propriétés remarquables, c'est le réseau E₈ qui réalise l'empilement optimal de boules identiques en dimension 8 (mettre une boule de rayon (√2)/2 autour de chaque point du réseau : elles se touchent sans se chevaucher et remplissent 25.367% de l'espace, ce qui ne paraît peut-être pas impressionnant, mais en dimension 8 on ne peut pas faire mieux).

Donné un ensemble (discret) de points dans l'espace euclidien, le diagramme de Voronoï associé est la division de l'espace en cellules de Voronoï, la cellule de Voronoï d'un point étant la région des points de l'espace qui sont plus proches de ce point-là que de tout autre point de l'ensemble. En général, un diagramme de Voronoï ressemble à ce que Google images vous montrera (il est formé de cellules qui sont des polytopes convexes dont les facettes sont hyperplans médiateurs entre le point définissant la cellule et un autre point). Lorsque l'ensemble des points est un réseau, toutes les cellules ont la même forme : la cellule de Voronoï de l'origine est l'ensemble des points plus proches de l'origine que de tout autre point du réseau, elle est d'ailleurs symétrique, et toutes les autres cellules sont identiques autour d'un autre point, elles sont translatées les unes des autres. S'agissant du réseau E₈ précisément, la cellule de Voronoï de l'origine est un polytope convexe ayant 240 facettes[#], une par racine du système de racines, chaque facette étant un morceau de l'hyperplan médiateur entre l'origine et la racine en question. (Il n'est pas vrai dans un réseau en général que les facettes de la cellule de Voronoï de l'origine soient ainsi définies uniquement par les points les plus proches de l'origine. Mais c'est vrai pour ce qu'on appelle un réseau de racines, et notamment E₈.)

[#] Il a aussi 19440 sommets : 2160 sont les points à distance 1 de l'origine ainsi que de quinze autres points du réseau, on les appelle les trous profonds du réseau E₈ (un exemple d'un tel point est (1,0,0,0,0,0,0,0)), et 17280 sont les points à distance (2√2)/3≈0.943 de l'origine ainsi que de sept autres et ce sont les trous superficiels (un exemple d'un tel point est (−5/6, 1/6, 1/6, 1/6, 1/6, 1/6, 1/6, 1/6)).

Bref, le diagramme de Voronoï du réseau E₈ est un pavage de l'espace de dimension 8 par des copies (translatées) de ce polytope à 240 facettes, chacune étant centrée sur un point du réseau. Il y a un algorithme assez simple[#2] pour décider, quand on se donne un point de l'espace, à quelle cellule de Voronoï il appartient, c'est-à-dire, trouver le point du réseau le plus proche (on parle aussi d'algorithme de décodage pour ce réseau).

[#2] En voici une description. Commençons par expliquer comment trouver le point du réseau D₈ le plus proche d'un point donné, où le réseau D₈ est le réseau formé des points de coordonnées toutes entières de somme paire (c'est-à-dire les points du réseau E₈ dont toutes les coordonnées sont entièrs). Donné (z₀,z₁,…,z₇) un point à approcher, on appelle x₀ l'entier le plus proche de z₀ et de même pour les autres : ceci fournit le point (x₀,x₁,…,x₇) à coordonnées entières le plus proche de (z₀,z₁,…,z₇). Si la somme x₀+x₁+⋯+x₇ des coordonnées est paire, c'est le point de D₈ recherché. Sinon, l'astuce suivante permet de le trouver : parmi les coordonnées x, prendre celle qui est le plus loin du z correspondant, et la remplacer par l'arrondi de ce z dans l'autre sens. À titre d'exemple, si on part du point (0.3, −0.1, 0.1, −1.0, 2.0, −0.4, 0.9, −0.7), l'arrondi des coordonnées à l'entier le plus proche donne (0, 0, 0, −1, 2, 0, 1, −1), la somme est impaire, donc on corrige le plus mauvais arrondi, à savoir −0.4 transformé en 0, en prenant l'entier de l'autre côté, donc −1, ce qui donne le point (0, 0, 0, −1, 2, −1, 1, −1) qui est le point du réseau D₈ le plus proche du point initial. S'agissant du réseau E₈, maintenant, on peut faire ce calcul une fois pour trouver le point de D₈ le plus proche, puis soustraire ½ toutes les coordonnées, refaire le calcul pour trouver le point de D₈ le plus proche du point ainsi modifié et rajouter ½ à toutes les coordonnées : on obtient ainsi deux points de E₈ (l'un dans D₈ et l'autre dans D₈+(½,½,½,½,½,½,½,½)) ; il n'y a plus qu'à comparer la distance de ces deux points au point d'origine et choisir le plus proche (soit en comparant les distances soit en calculant l'équation de l'hyperplan médiateur, ce qui revient essentiellement au même). Il existe des algorithmes légèrement plus efficaces que ce que je viens de décrire, mais en contrepartie ils sont plus fastidieux à implémenter et je pense que ça n'en vaut pas la peine.

Maintenant, ce que j'ai fait pour calculer l'image ci-dessus est de prendre un plan aléatoire dans l'espace euclidien de dimension 8 (plus exactement, la direction du plan est définie par deux vecteurs unitaires orthogonaux, tirés uniformément pour cette propriété, et l'origine est tirée uniformément modulo le réseau), et tracer l'intersection de ce plan avec les cellules de Voronoï du réseau E₈. Bien que le diagramme de Voronoï de E₈ soit complètement régulier, le fait de l'intersecter avec un plan aléatoire fournit quelque chose d'assez irrégulier comme on le voit, mais où on peut discerner, si on regarde bien (et surtout sur la vue plus complète), une forme de quasipériodicité. Je ne suis pas sûr d'avoir une description ni une explication complète de tout ce qu'il y a à remarquer sur l'image.

Pour information, l'échelle de l'image est de 10 pixels pour 1 unité (l'« unité » en question étant celle des coordonnées que j'ai exposées ci-dessus, c'est-à-dire que la distance entre deux points les plus proches du réseau vaut √2, ou encore que l'unité est le rayon de la sphère circonscrite à une cellule de Voronoï, ou encore que la cellule a un volume de 1 unité⁸), ce qui veut dire que l'image fait 136.6 unités en largeur et 76.8 en hauteur pour les images larges (la moitié pour les images plus étroites reproduites ci-dessus).

Pour ce qui est du coloriage des cellules de Voronoï, j'ai tiré aléatoirement trois directions orthogonales au plan et orthogonales entre elles, et les composantes rouge, verte et bleue donnent la distance au point du réseau (le centre de la cellule de Voronoï) selon ces trois directions, le gris étant le zéro.

J'ai aussi calculé des images selon des plans ayant des directions particulières : on appelle plan de Coxeter du réseau E₈ un plan tel que la projection (orthogonale) du système de racines sur ce plan présente une symétrie d'ordre maximal, en l'occurrence 30. (Le dessin le plus courant du système de racines de E₈ est généralement choisi projeté selon un tel plan : par exemple, cette image Wikimédia Commons est une projection sur un plan de Coxeter, aussi appelé dans ce contexte plan de Petrie.) Le résultat est le suivant :

[Section plane de Coxeter du diagramme de Voronoï de E₈]

(Cliquez pour une vue plus large.)

De nouveau, l'origine de projection est aléatoire modulo le réseau, et les directions choisies pour définir les couleurs des cellules sont aléatoires sujettes à la contrainte d'être perpendiculaires au plan de projection. Ce qui est intéressant est qu'on voit apparaître des symétries d'ordre 30 approximatives autour de différents points : ce sont ceux qui sont les plus proches d'un point du réseau. Si ça ne vous frappe pas, regardez attentivement la vue plus large, éventuellement depuis une certaine distance : on voit apparaître toutes sortes de figures en cercles concentriques, un peu comme des ondes de gravité circulaires à la surface de l'eau quand on y fait tomber quelque chose (des encyclies si on veut faire chic, des ronds dans l'eau si on veut faire moins chic) ; je suppose que le cortex visuel détecte quelque chose de cette symétrie localte approximative d'ordre 30, mais je ne sais pas exactement ce qu'il détecte.

J'ai aussi fait le calcul pour un plan la projection sur lequel présente une symétrie d'ordre 24 du système de racines :

[Section plane symétrique d'ordre 24 du diagramme de Voronoï de E₈]

L'effet est à peu près le même, peut-être encore plus fort.

J'ai aussi calculé et mis sur YouTube des vidéos de sections tridimensionnelles (ou (2+1)-dimensionnelles) du même diagramme de Voronoï : tridimensionnelles, c'est-à-dire que le temps est la troisième dimension, ou plus exactement, qu'il s'agit de sections planes se déplaçant dans une direction aléatoire orthogonale au plan (et orthogonale aux trois directions servant à définir les couleurs comme expliqué ci-dessus) : celle-ci montre une section aléatoire et celle-ci une section dont le plan 2D est un plan de Coxeter. Les deux sont assez envoutantes à regarder, mais la seconde l'est particulièrement à cause de la manière dont apparaissent puis disparaissent des symétries approximatives d'ordre 30. Les vidéos sont cadrées plus serré que les images fixes : l'image est large de 16 unités et haute de 9, et dans le temps le plan parcourt 40 unités en 48 secondes.

J'hésite à refaire des calculs analogues pour le réseau de Leech, qui est un réseau peut-être encore plus remarquable en dimension 24. Mais l'algorithme pour retrouver « décoder » le réseau de Leech (c'est-à-dire en trouver le point le plus proche d'un point donné, autrement dit, pour calculer les cellules de Voronoï) est un peu pénible à écrire, et j'ai peur que le résultat soit décevant parce que autant 2 dimensions (voire 2+3 en comptant les couleurs, voire 2+1+3 pour les vidéos) sur 8, ce n'est pas complètement négligeable, autant 2 dimensions, ou même 2+3 ou 2+1+3, sur 24, ça ne fait vraiment pas beaucoup, et j'ai peur qu'il ne subsiste absolument rien de la très extraordinaire symétrie du réseau de Leech.

A contrario, je pourrais peut-être baisser la dimension et regarder ce qui se passe dans des réseaux comme A₄ à A₆, D₄ à D₆ et E₆. S'agissant de A₄, par exemple, si on le regarde selon un plan de Coxeter, cela fera apparaître une symétrie d'ordre 5 qui ne manque sans doute pas d'intérêt (je crois qu'il y a des liens avec les quasi-cristaux et les pavages de Penrose à symétrie pentagonale, mais je ne connais pas les détails). D'un autre côté, j'ai une certaine flemme, parce que calculer les plans de Coxeter est assez fastidieux, et je ne sais plus bien comment il faut faire (dans le cas de E₈ j'avais les résultats sous la main, mais je me souviens m'être battu contre Sage et Gap pour les obtenir). Quant au réseau An, il est pénible parce que son système de coordonnées le plus naturel utilise n+1 coordonnées entières à somme nulle, certes il rend le plan de Coxeter évident, mais il est plus délicat à manier (sinon, pour A₄, exactement la même définition que j'ai donnée de E₈ doit marcher avec 4 coordonnées, mais alors de nouveau le plan de Coxeter n'est pas évident).

Ajout () : Finalement, j'ai fait les calculs pour A₈ et D₈ (ainsi que ℤ⁸, qui n'est pas très intéressant). L'algorithme pour trouver le point de D₈ le plus proche d'un point de ℝ⁸ est expliqué au passage quand j'explique celui de E₈ ci-dessus ; s'agissant de A₈ (qui est l'ensemble des 9-uples d'entiers de somme nulle), l'algorithme pour décoder (z₀,z₁,…,z₈) consiste à considérer (x₀,x₁,…,x₈) les entiers les plus proches, puis, si la somme x₀+x₁+⋯+x₈ est strictement positive, soustraire 1 aux x qui tels que l'erreur xz correspondante est la plus grande pour l'amener à 0, tandis que si elle est strictement négative, ajouter 1 aux x qui tels que l'erreur xz correspondante est la plus négative. Le plan de Coxeter de D₈ présente une symétrie d'ordre 14 (correspondant à une rotation cyclique des 7 premières coordonnées en même temps qu'on change le signe des deux dernières), tandis que pour A₈ elle est d'ordre 9 (correspondant à une rotation cyclique des 9 coordonnées). Voici les images : section plane aléatoire de D₈, section plane de Coxeter de D₈, section plane aléatoire de A₈, section plane de Coxeter de A₈, section plane aléatoire de ℤ⁸. J'ai aussi calculé une section de E₈ selon le plan de Coxeter de D₈, pour mieux comparer les deux. (J'ai aussi rassemblé ces images ici sur imgur.) Je vais peut-être produire aussi quelques vidéos.

Ajout 2 () : Comme on m'y a incité en commentaire, j'ai aussi calculé des images où ce qui est représenté est la distance (au carré) au point du réseau le plus proche (avec 0=noir et 1=blanc). C'est effectivement beaucoup plus joli à voir, et peut-être encore plus parlant visuellement (même s'il y a, techniquement, plutôt moins d'information) ; et je dois dire qu'artistiquement je trouve ça absolument époustouflant (quoique légèrement déconseillé aux trypophobes), ça fait penser à quelque chose en train de bouillonner ou aux cellules de convexion dans le soleil. Bref, merci à Fab pour la suggestion. Voici donc une vidéo noir et blanc selon un plan aléatoire et selon un plan de Coxeter, et en bonus selon un plan présentant une symétrie d'ordre 24.

Code source : Il est ici pour la version originale, et ici pour la version mentionnée dans le deuxième ajout ci-dessus. Quelques explications (et les instructions sur comment compiler) sont en commentaire au début du code lui-même.

(mercredi)

Exposé pour Math en Jeans : les slides

J'ai mis en ligne ici le support que je compte utiliser pour mon exposé devant des lycéens samedi après-midi à Math en Jeans, intitulé Le jeu de nim : thème et variations.

Soit dit en passant, je ne suis pas spécialement hostile aux anglicismes, mais celui-là m'agace — en fait, le terme anglais n'est pas terrible pour commencer : qu'est-ce qu'on peut dire en français, plutôt que slide, pour parler d'une image projetée, de nos jours, par vidéoprojecteur, et servant à illustrer un exposé ?

Il manque, évidemment, l'accompagnement audio (si je suis très motivé, je ferai une vidéo sur YouTube), mais je me dis que si je n'ai pas trop mal réussi mon coup, on doit pouvoir à peu près comprendre même sans les explications orales. (Évidemment, il y a des endroits où elles sont quand même utiles à la clarté des choses ! Je pense par exemple au calcul des valeurs de Grundy dans l'exemple slide 18, qui est très facile à expliquer de vive voix avec un pointeur laser mais franchement laborieux si on veut l'écrire.)

Je précise que je n'ai pas l'intention de tout présenter : il y en a sans toute trop, peut-être même beaucoup trop (combien n'est pas clair). J'essaierai de m'adapter en fonction de la manière dont mon auditoire réagit. Disons que le minimum est le contenu des slides 3 à 14, ce qui suit contient plusieurs sujets de difficulté inégale, donc j'en traiterai un sous-ensemble, quelque part entre « rien » et « tout », selon le temps disponible et la manière dont j'ai l'impression qu'ils comprennent. (Exemple de parcours possible : 1–16,20–22,29.)

Les commentaires sont bienvenus ; mais ce n'est pas la peine de me dire que j'aurais dû m'y prendre complètement autrement, ou traiter un autre sujet : il est trop tard pour ça ; et ce n'est pas non plus la peine de me suggérer d'ajouter une figure, j'ai suffisamment souffert avec TikZ comme ça. Les suggestions locales d'amélioration/reformulation (surtout en nombre de mots constant !) seront appréciées. Mais ce qui est particulièrement bienvenu est un avis sur la difficulté relative des différentes slides pour des lycéens (motivés), ainsi que leur attrait, ou le temps qu'il faudrait y passer pour les expliquer : relatif, parce que si ça ne sert pas à grand-chose de dire que tout est trop dur, ça a un intérêt de se demander si la slide 30 est plus ou moins difficile à comprendre que la 23 (par exemple), dans la mesure où je devrai certainement faire des choix sur quoi présenter (modulo un hypothétique director's cut sur YouTube).

(dimanche)

Hidden Figures

Mon poussinet et moi sommes allés voir le film Hidden Figures (le titre français — Les Figures de l'ombre — ne rend pas vraiment le jeu de mot le jeu de mot entre une personne et un chiffre dans un calcul), et je voudrais vraiment le recommander.

Il s'agit de l'histoire, vraie mais bien sûr partiellement romancée, de trois femmes noires « calculatrices » à la NASA au début des années 1960 (plus exactement, au centre de recherches Langley en Virginie, entre le premier vol dans l'espace de Ûrij [=Yuri] Gagarin en 1961 et celui de John Glenn en 1962). La manière dont elles sont confrontées à la fois à la discrimination raciale et au sexisme, et leurs différentes façons d'y faire face, sont montrées avec une certaine subtilité, de même que l'atmosphère côté américain de la « course à l'espace ». L'histoire suit une trame hollywoodienne bien formatée et qu'on peut trouver un peu trop schématique, mais les actrices jouent très bien (Taraji Henson, qui interprète Katherine Goble, Janelle Monáe qui joue Mary Jackson, et surtout Octavia Spencer — que je connaissais par un autre film remarquable, The Help — dans le rôle de Dorothy Vaughan), et pour une fois qu'on voit un film dont les personnages principaux sont des femmes noires, et mathématiciennes qui plus est, ne boudons pas notre plaisir. (Et puis j'ai un faible pour l'ambiance course à l'espace, l'ambiance « atompunk », ici illustrée avec une certaine sympathie sans excès.)

Scientifiquement, le film ne commet pas de bourde majeure, en tout cas pas que j'en aie repérée : le moment le plus faux sur ce plan-là est celui où l'héroïne principale, Katherine Goble, effectue au tableau, devant une salle de généraux un peu médusés, un calcul de paramètres de réentrée orbitale avec une précision dont il devrait être à peu près évident pour n'importe qui ayant un chouïa de culture scientifique, qu'il n'est pas atteignable de tête, en tout cas pas un temps tel que présenté ; je suis prêt à ne pas faire mon grincheux pour quelque chose du genre. Il y a aussi un certain nombre de modifications du tempo par rapport à la réalité, imposées pour s'adapter au rythme cinématographique, que je suis également prêt à pardonner.

Il est vrai que j'aurais aimé voir un peu de considération pour la différence entre la notion de calcul symbolique et celle de calcul numérique, choses que le grand public ne doit pas vraiment apprécier, mais qui n'est certainement pas impossible à faire passer. Les équations qu'on entr'aperçoit dans différents plans ont l'air superficiellement sensées, mais mélangent inexplicablement des valeurs numériques à virgules dans des expressions par ailleurs symboliques ; et de façon plus profonde, je n'ai pas vraiment idée de quel genre de calculs on faisait faire à ces « calculatrices », soit en général, soit précisément celles qui sont les héroïnes de ce film.

Et on ne peut pas dire que les répliques m'aident à deviner. À un moment, le chef d'équipe joué par Kevin Costner demande à Katherine Goble si elle sait calculer un repère de Frénet — et elle complète : par le procédé d'orthogonalisation de Schmidt. C'est vraiment amusant comme effet Zahir, parce que je discutais du repère de Frénet avec mon poussinet un quart d'heure avant d'aller voir le film (à propos du tome 5, particulièrement poussiéreux, du Cours de Mathématiques spéciales de MM. Ramis-Deschamps-Odoux), et je mentionnais justement qu'il s'agissait précisément du résultat d'un Gram-Schmidt sur les dérivées successives du mouvement : j'ai eu du mal à ne pas éclater de rire à la coïncidence. Mais même si vois le lien avec des trajectoires dans l'espace, je ne sais vraiment pas précisément dans quel genre de calcul, symbolique ou numérique, on utilise le repère de Frénet.

En vérité, même si je connais ma mécanique orbitale et lagrangienne, je n'ai aucune idée précise du genre de calculs qu'il faut réellement mener pour envoyer un homme dans l'espace. (Bon, je dois dire, je n'ai même pas d'idée précise sur le genre de calculs qu'il faut mener pour construire un pont ou un moteur à explosion. Je suis un peu comme le matheux d'une blague générique sur les ingénieurs, physiciens et mathématiciens, qui démontrerait que le pont, le moteur à explosion ou le vol orbital sont possibles — par une démonstration non-constructibe qui ferait appel à l'axiome du choix.)

Sur la précision scientifique des films hollywoodiens de façon plus générale, j'étais tombé il y a un certain temps sur cette vidéo qui explique que des gens ont mis en place une hotline permettant à l'industrie du cinéma d'être mis en contact avec des scientifiques de tel ou tel domaine quand ils veulent des conseils ou des éléments (phrases, équations à mettre sur un tableau, etc.) pour rendre leurs films scientiquement plus crédibles. Ça expliquerait un certain progrès que j'ai cru constater dans le domaine depuis les années '90 (même si ce progrès est souvent bien superficiel, il faut l'admettre : le fait de prononcer une phrase techniquement sensée à tel ou tel moment ne va pas compenser une absurdité fondamentale de principe ; il y a toujours très peu de films qui, comme The Martian, se donnent pour mission d'être véritablement réalistes scientifiquement, d'un bout à l'autre, ce qui implique d'aller plus loin qu'appeler une hotline de temps à autre).

À part ça, je me rends compte que je ne remplis pas vraiment consciencieusement la catégorie cinema de ce blog : ces derniers temps, j'ai vu en salles, entre autres, Manchester by the Sea et 君の名は (traduit en « français »(?!) par Your Name), et j'ai trouvé que les deux étaient vraiment des chefs d'œuvre. Je n'ai pas le temps d'en faire une critique maintenant (et ce serait un peu du réchauffé), mais je les recommande tous les deux très vivement, ce sont des films d'une très grande subtilité humaine et psychologique.

(mercredi)

Sujet d'exposé pour Math en Jeans

Je me suis engagé à donner un exposé (quelque part entre le 24 et le 27 mars) dans le cadre de l'événement Math en Jeans : c'est-à-dire qu'il s'agit de vulgarisation adressée à des lycéens motivés (a priori de seconde).

J'ai toute latitude pour choisir le sujet, donc je vais sans doute choisir un des trucs sur lesquels j'ai déjà fait de la vulgarisation, soit sur ce blog soit ailleurs : la contrainte est que je dois pouvoir raconter ça en une heure (en prévoyant des probables interruptions par des questions) et que ça soit accessible à des lycéens. Et, bien sûr, que ce soit susceptible de les intéresser.

Je n'ai pas une idée très précise de ce qu'un lycéen (motivé !) connaît en maths ni de ce qui l'intéressera : peut-être que certains lecteurs (par exemple s'il y en a qui enseignent en lycée ou qui sont ou out été lycéens il n'y a pas trop longtemps) peuvent m'éclairer un peu.

Globalement, j'ai plutôt trop d'idées que pas assez, donc je me demande si vous avez des conseils sur ce qui passerait plus ou moins bien parmi les thèmes suivants (j'essaie de mettre à chaque fois un lien vers une entrée de ce blog qui raconte de quoi il s'agit, mais il ne s'agit pas forcément de raconter exactement la même chose, notamment quand il s'agit de choses un peu techniques : c'est plus pour donner une idée) :

[Ajout : quelques arguments pour/contre ces différents sujets.]

(Sujets triés par ordre approximatif d'intérêt/faisabilité a priori.)

PS : Je dois fournir un titre rapidement, donc c'est plutôt pressé !

PPS : Idéalement, j'aimerais arriver à faire au moins une « vraie » démonstration pendant mon exposé, mais je me rends compte que c'est mal parti. Certains sujets le permettent quand même mieux que d'autres.

Fin : Finalement, j'ai choisi de faire un exposé sur la théorie des jeux, dont le titre sera Jeu de nim : thème et variations. (Comme je l'explique en commentaires, les géométries sphérique et hyperbolique m'ont paru trop difficiles à présenter à des élèves qui connaissent a priori très peu de trigonométrie et pas la fonction exponentielle — ni à plus forte raison les lignes trigonométriques hyperboliques. Quant aux grands nombres et ordinaux, c'est sans doute plus facile de trouver en ligne de la vulgarisation à ce sujet, et j'avais peur par ailleurs que ça puisse en perdre rapidement plus d'un, et/ou que ça donne l'impression d'être peu rigoureux, foire fumeux. Les jeux dont je vais parler, au contraire, sont quelque chose de bien concret et sur quoi on peut « mettre les mains ».) • Je parlerai au moins du jeu de nim, de ses différentes variations et déguisements, et de jeux de retournement de pièces (ce que Berlekamp, Conway et Guy appellent, avec leur terminologie inimitablement baroque, Moebius, Mogul et Gold Moidores, et peut-être leurs liens avec les codes correcteurs ; ou de façon générale, de certaines choses qu'on trouve au tout début du volume ♣ de Winning Ways).

(mercredi)

La magie du nombre six redessinée sous forme pentagonale

L'avant-dernière entrée était consacrée au commentaire mathématique d'un dessin illustrant une propriété magique du nombre six : l'existence de six « pentades » (c'est-à-dire six façons de regrouper trois par trois les doublets sur six objets de manière que deux doublets regroupés ne partagent jamais un objet) ; ce dessin était présenté sous forme « hexagonale », c'est-à-dire que chacune des pentades montrait les six objets sous la forme des six sommets d'un hexagone régulier, ce qui à son tour suggérait une certaine disposition des pentades elles-mêmes (comme la permutation cyclique de l'hexagone fixe une pentade, en échange deux, et permute cycliquement les trois dernières, j'avais choisi une disposition et un coloriage qui mettait en évidence ces transformations). On m'a convaincu de refaire le même dessin sous forme « pentagonale », c'est-à-dire en disposant les six objets sous la forme des cinq sommets d'un pentagone régulier plus son centre. Voici le résultat (il s'agit donc, conceptuellement, du même dessin, mais où les objets ont été disposés différemment, les pentades aussi, et les couleurs sont différentes) :

Cette fois, la disposition pentagonale suggère de s'intéresser à la permutation cyclique des cinq objets disposés selon les sommets du pentagone : ce 5-cycle permute aussi les pentades selon un 5-cycle, ce qui suggère de les disposer elles aussi de façon pentagonale, avec au centre celle qui est fixée par le cycle, et en pentagone autour celles qui sont permutées cycliquement. J'ai donc choisi comme couleurs le noir et cinq couleurs maximalement saturées disposées régulièrement sur le cercle chromatique (bon, c'est plutôt un hexagone chromatique, mais peu importe). Du coup, tout le dessin est laissé invariant si on effectue une rotation de 2π/5 (=un cinquième de tour) en permutant aussi cycliquement les couleurs.

En plus de cela, le choix de la disposition définit ce que j'aime appeler une polarité symétrique sur l'ensemble à six objets : cela signifie que si on met en correspondance chaque objet avec la pentade qui occupe « la même place » dans la disposition graphique, alors l'automorphisme qui en résulte est involutif, au sens où une pentade de pentades va reprendre la place de l'objet qui lui correspond naturellement (on pourrait, du coup, se figurer ce dessin comme une structure fractale où le petit disque représentant chaque objet est remplacé par le dessin de la pentade correspondante, et ainsi de suite à l'infini). J'ai essayé de donner aux objets les mêmes couleur que les pentades, mais j'ai trouvé que ça embrouillait plutôt qu'autre chose.

Je n'arrive pas vraiment à décider, mais je crois quand même que je préfère la forme hexagonale du dessin. La forme pentagonale est peut-être un chouïa plus symétrique, mais c'est une symétrie moins bonne, parce qu'elle donne un rôle particulier à un des objets (en le plaçant au centre du pentagone) ; et, de façon plus grave, elle donne l'impression que la correspondance objets↔pentades que j'appelle polarité symétrique ci-dessus est naturelle alors qu'elle résulte de la disposition pentagonale (or tout l'intérêt de l'automorphisme extérieur de 𝔖₆ est justement que les pentades ne sont pas en correspondance naturelle avec les objets). Mais ça a certainement un intérêt de voir ces deux dessins (et d'essayer de se convaincre que c'est bien la même chose).

(Pour aller un cran plus loin, ça peut être intéressant de se convaincre que quelle que soit la manière dont on décide d'identifier les objets du dessin « pentagonal » avec les objets du dessin « hexagonal », il en découle une identification des pentades, et inversement, quelle que soit la manière dont on décide d'identifier les pentades, il en découle une identification des objets.)

Ajout () :

On me fait la remarque suivante : plutôt que disposer mes six objets selon un pentagone régulier plus son centre, ce qui en distingue un, j'aurais pu les disposer selon les sommets d'un icosaèdre régulier modulo antipodie (c'est-à-dire, en identifiant deux sommets opposés ; ou si on préfère, selon les six diagonales centrales d'un icosaèdre régulier). Je ne vais pas faire la représentation graphique parce que ce serait trop pénible, mais en fait c'est très intéressant : cette disposition icosaédrale évite de distinguer un objet, mais elle distingue toujours une pentade privilégiée, et c'est presque exactement ce qu'elle fait.

Plus exactement : le groupe des isométries directes de l'icosaèdre est isomorphe au groupe alterné (=groupe des permutations paires) 𝔄₅ sur cinq objets, et l'automorphisme extérieur de 𝔖₆ est justement une façon de se représenter les choses. Placer les six objets aux sommets d'un icosaèdre modulo antipodie définit une pentade privilégiée (à savoir, l'unique pentade laissée fixée par la rotation d'angle 2π/5 autour d'un sommet quelconque de l'icosaèdre) ; et les isométries directes de l'icosaèdre sont précisément les permutations paires sur les 5 pentades restantes (i.e., fixant cette pentade privilégiée). Les 5 synthèmes de la pentade privilégiée peuvent se voir comme 5 sextuplets d'arêtes de l'icosaèdre (sextuplets parce que ce sont des triplets d'arêtes opposées) dont les milieux forment un octaèdre, ce qui permet de retrouver une description classique du groupe des isométries de l'icosaèdre comme les permutations paires sur cinq octaèdres inscrits dans l'icosaèdre. (Il est pertinent de remarquer au passage qu'un permutation sur six objets est paire si et seulement si la permutation correspondante sur les pentades l'est.)

On doit aussi pouvoir faire le lien avec des structures de droite projective sur le corps à cinq éléments : comme les pentades sur six objets sont aussi en bijection avec toutes les façons de voir les six objets comme la droite projective sur 𝔽₅, ça veut dire qu'il y a une structure de droite projective sur 𝔽₅ « naturelle » (privilégiée) sur les sommets d'un icosaèdre modulo antipodie. Je soupçonne qu'il y a une jolie façon de la voir en réduisant modulo 5 les birapports des sommets de l'icosaèdre dans quelque chose, mais les détails m'échappent.

(lundi)

Sur la magie du nombre six (l'automorphisme exceptionnel de 𝔖₆)

J'ai posté dans une entrée récente le dessin suivant, avec la devinette d'essayer de trouver ce qu'il représente et ce qu'il nous apprend :

Les réponses dans les commentaires ont été intéressantes (et j'ai bien fait de proposer cette devinette), parce que plusieurs personnes ont remarqué des aspects différents du dessin, et ont fait des observations justes et pertinentes. La réponse mathématique que je vais tenter d'expliquer tourne autour du fait que les matheux énoncent classiquement en disant que le groupe des permutations sur six objets (et uniquement sur six objets) possède un « automorphisme extérieur non-trivial » ; mais cette formulation n'a aucun sens pour les non matheux, et même pour les matheux je trouve qu'elle ne fait pas vraiment ressortir pourquoi ce fait est remarquable et exceptionnel. Donc le mieux est peut-être de formuler le fait remarquable sous la forme suivante (qui est certes un peu de l'agitage de mains, mais qu'on peut rendre rigoureux, et que je trouve en tout cas plus parlant), et c'est ça que je vais essayer d'expliquer :

À partir de six objets, il est possible de construire, de façon systématique, de nouvelles « choses », également au nombre de six, tout aussi interchangeables que les objets de départ, mais qui ne peuvent pas être mis en correspondance systématique avec eux.

De plus, ceci n'est possible pour aucun autre nombre que six.

Pour les mathématiciens qui aiment la théorie des catégories, ce qui précède est censé signifier la chose suivante : le groupoïde formé des ensembles de cardinal 6 avec les bijections pour morphismes admet un endofoncteur fidèle (donc automatiquement une autoéquivalence) mais qui n'est pas naturellement isomorphe à l'identité ; et ce n'est vrai pour aucun autre entier naturel que 6.

C'est un exemple d'un de ces phénomènes exceptionnels en mathématiques, comme on nomme des structures intéressantes qui apparaissent uniquement dans un petit nombre de cas : en l'occurrence, cet « automorphisme exceptionnel de 𝔖₆ » fait partie d'une sorte de chemin magique d'objets exceptionnels, qui le relie aussi aux groupes de Mathieu ou au système de racines de E₆ et aux vingt-sept droites sur la surface cubique. Mais celui-ci a l'intérêt d'être raisonnablement facile à expliquer, surtout avec mon (j'espère) zouli dessin (censé représenter ces six « choses » qui, plus bas, s'appellent des pentades).

Au passage : la notation 𝔖₆ (vous devriez voir une S gothique avec un 6 en indice) désigne le groupe des permutations sur 6 objets, c'est-à-dire l'ensemble des façons de leur faire changer de place (ou pas) ; voir aussi cette entrée antérieure et cette vidéo YouTube pour une description animée des différents sous-groupes transitifs de 𝔖₆ (c'est-à-dire, toutes les façons de permuter six objets qui sont capables de placer n'importe quel objet à n'importe quel endroit).

Après, je dois avertir que, si je suis parti pour expliquer ça, mon enthousiasme s'est un peu atténué en chemin, et la fin de cette entrée est sans doute un peu bâclée (j'avoue que j'ai passé tellement de temps à trouver le bon chemin pour expliquer proprement la combinatoire des synthèmes et pentades ci-dessous qu'à la fin j'en avais marre, et j'ai plutôt traîné des pieds pour la finir). Je la publie telle quelle en espérant qu'elle ait un certain intérêt, même si je me rends compte qu'elle est bancale et un peu décousue. (Par ailleurs, si on n'est pas intéressé par les détails, ne pas hésiter à sauter les démonstrations, qui ne sont pas franchement indispensables pour la compréhension de l'ensemble.)

Partons, donc de six objets. On pourra imaginer si on veut qu'ils sont placés aux six sommets d'un hexagone, comme dans chacun des hexagrammes ci-dessus ; ou bien qu'ils sont numérotés 0,1,2,3,4,5 : ça n'a aucune importance (et je vais tâcher de préciser cette absence d'importance plus loin). Je vais introduire quatre termes désignant des structures de complexité croissante fabriqués sur ces six objets : outre les 6 objets eux-mêmes, je vais définir les 15 doublets, les 15 synthèmes et les 6 pentades (ces dernières étant, essentiellement, ce que j'ai représenté ci-dessus). Précisément :

Pour résumer tout ce qui précède, les 6 objets définissent 15 doublets (chacun formé de 2 objets distincts) ; on a aussi défini 15 synthèmes (chacun formé de 3 doublets distincts mutuellement non enlacés), et enfin des pentades (au nombre de 6 mais on ne le sait pas encore, chacune formée de 5 synthèmes distincts mutuellement enlacés). Mon but est d'expliquer qu'il y a une forme de « symétrie » qui échange objets et pentades en même temps qu'elle échange doublets et synthèmes.

(dimanche)

Sur les adjectifs qui élargissent le nom qu'ils qualifient

Le point de grammaire(?) que je veux évoquer ici concerne surtout la terminologie scientifique, notamment mathématique, même s'il est a priori complètement général.

Normalement, quand on accole une épithète à un nom, ou en fait n'importe quelle sorte de complément, le sens devrait être de préciser, c'est-à-dire de restreindre, l'ensemble des entités possiblement désignées. Par exemple, même si vous ne savez pas ce que c'est qu'un foobar (c'est normal !), ni ce que signifie l'adjectif cromulent (idem), si je parle d'un foobar cromulent, vous pouvez conclure qu'il s'agit d'une sorte particulière de foobar, qui a une propriété additionnelle (être cromulent) par rapport à celle d'être un foobar. De même, un bazqux roncible frobnicable devrait être un type spécial de bazqux roncible, qui est lui-même une sorte de bazqux ; et le groupe des ptérodoncles mouffetés de Linné devrait être un ensemble (d'animaux ?) plus restreint que celui des ptérodoncles.

Je suis sûr que les grammairiens ou les linguistes ont un terme précis pour ce phénomène, mais je ne le connais pas ; ou peut-être, au contraire, un terme pour les exceptions. Car il y a bien sûr des exceptions. Dans le langage courant, elles abondent. Un secrétaire général n'est pas vraiment un secrétaire (et pas du tout un général, mais ça c'est plutôt une blague). Un procureur adjoint n'est pas un procureur, puisqu'il n'est qu'adjoint (et il en va de même d'adjectifs comme délégué). Un faux bourdon n'est évidemment pas un bourdon, comme un faux acacia n'est pas un acacia : on peut s'attendre à ce qu'un faux foobar ne soit pas un foobar, d'un autre côté, une fausse bonne idée est quand même une idée, même si elle n'est pas une bonne idée. Il y a aussi tout ce qui est nommé par métonymie ou par métaphore : un blouson noir n'est pas une sorte de blouson et un visage pâle n'est pas une sorte de visage ; une peau de chagrin était bien ce que ça dit jusqu'à ce qu'un roman de Balzac donne un sens très particulier à cette expression. Et ainsi de suite. Évidemment, les frontières des mots dans le langage non-technique ne sont pas rigoureusement définies, donc il n'est pas toujours possible de décider avec certitude si un adjectif est ou n'est pas restrictif au sens du paragraphe précédent : un tableau noir est-il un type particulier de tableau, par exemple ? certainement si on prend tableau au sens le plus large, mais ce n'est pas ce qu'on entend normalement par ce mot. Un hôtel de ville est un hôtel pour une certaine définition d'hôtel, mais ce n'est plus vraiment le sens courant de ce mot. Et je ne saurais pas vraiment dire si un coup de soleil est une sorte de coup, ou si le clair de lune est une sorte de clair (whatever that may be).

Dans le vocabulaire technique, on pourrait espérer que les mots aient un sens suffisamment précis pour pouvoir éviter ces gags, mais ce n'est pas le cas. En mathématiques, un faisceau pervers n'est pas un faisceau et en physique, un champ quantique n'est pas un type particulier de champ [classique] mais un concept parallèle dans un cadre adjacent (la théorie quantique des champs), et il est discutable qu'une étoile à neutrons soit une étoile. Sans compter, bien sûr, les cas où le terme technique est une locution indivisible : un trou noir (terme technique) n'est pas une sorte particulière de trou (terme non technique). La situation reste beaucoup plus rare que dans le langage courant.

Il y a cependant une situation importante où un foobar cromulent n'est pas une sorte particulière de foobar, et dont les matheux ont assez souvent besoin, et peut-être aussi d'autres sciences (les exemples ne me viennent pas trop à l'esprit, mais je suppose qu'ils doivent exister), ce sont les cas où on veut au contraire élargir le sens d'un mot. Autant la situation normale est que l'adjectif restreint le sens d'un mot, et les diverses situations évoquées jusqu'ici sont des cas où il déplace (comme faux, adjoint, etc.) ou bien le transforme de façon complètement imprévisible et figée par l'usage (blouson noir), la situation d'élargissement est encore un peu autre chose.

Le cas d'usage typique pour les maths est qu'un foobar est défini par différentes propriétés, et on veut désigner un objet qui vérifie toutes les propriétés du foobar sauf une. On peut bien sûr appeler ça un quasi-foobar ou un pseudo-foobar ou un presque foobar (near foobar en anglais ; certains grammairiens grincheux pourraient râler de voir un adverbe — presque — qualifier un nom), ou ce genre de choses, mais on aura peut-être envie de parler de foobar généralisé, et là, l'adjectif généralisé élargit le sens du mot.

Mais je pense que la situation la plus fréquente est celle, très proche, où on fait tout un traité sur les foobars bleutés, alors par flemme d'écrire bleuté à chaque fois, on convient dans l'en-tête du traité : le terme foobar désignera ci-après, sauf précision du contraire, un foobar bleuté. Une fois cette convention faite, pour parler d'un foobar en général, on doit écrire foobar non nécessairement bleuté, et non nécessairement bleuté est une locution adjectivale qui a cette propriété d'élargir le sens du mot foobar (en retirant la restriction bleuté). Et comme le mot nécessairement est lui-même long à dire, on écrit le plus souvent foobar non bleuté, ce qui est un abus de langage ou de logique parce qu'on veut, en fait, dire non nécessairement bleuté (i.e., foobar dans le sens où on retire la convention faite initialement qu'il est sous-entendu bleuté, mais il se pourrait qu'il soit quand même bleuté quand même). Il faut admettre que cela cause une certaine confusion, mais je ne connais aucune façon agréable de se sortir de ce problème de rédaction.

Le cas d'école est celui de la commutativité (et éventuellement de l'unitarité ou de l'associativité) des anneaux : en algèbre, un anneau est défini comme un ensemble muni d'opérations (l'addition et la multiplication) vérifiant un certain nombre de propriétés (l'associativité de l'addition, la commutativité de celle-ci, l'existence d'un neutre et de symétriques pour l'addition, la distributivité de la multiplication sur l'addition, l'associativité de la multiplication et l'existence d'un neutre pour la multiplication ; la dernière, voire les deux dernières n'étant pas systématiquement incluses dans la définition) ; et les gens qui font de l'algèbre commutative vont avoir envie d'ajouter une propriété supplémentaire, la commutativité de la multiplication, ce qui donne la notion d'anneau commutatif (commutatif étant ici un adjectif régulier, c'est-à-dire restrictif). C'est pénible d'écrire anneau commutatif trente-six fois par page, alors on fait souvent la convention que anneau signifiera désormais anneau commutatif (typiquement sous la forme : tous les anneaux considérés ici seront, sauf précision du contraire, supposés commutatifs, et peut-être, pour qu'il n'y ait aucun doute sur la définition utilisée, unitaires [i.e., possédant un élément neutre pour la multiplication] et associatifs). Mais on a quand même envie de temps en temps de dire quelque chose sur les anneaux plus généraux, alors on devrait écrire anneau non nécessairement commutatif en utilisant un adjectif qui élargit le sens du mot. Sauf qu'en fait, il n'est quasiment jamais intéressant de parler spécifiquement d'anneaux non nécessairement commutatifs qui ne sont effectivement pas commutatifs (au sens où il existe vraiment x et y tels que x·yy·x), donc on dit simplement non commutatif pour non nécessairement commutatif ; ce qui conduit à la situation absurde qu'un anneau commutatif est un cas particulier d'un anneau non commutatif (puisque ce dernier terme signifie en fait non nécessairement commutatif). C'est agaçant, j'en conviens, mais je ne connais pas de façon agréable de s'en sortir.

En fait, c'est très souvent le cas avec les adjectifs en non en mathématiques : de la même manière, un automate fini déterministe est un cas particulier d'un automate fini non déterministe (puisque ce dernier terme signifie en fait non nécessairement déterministe).

Le terme d'algèbre est particulièrement merdique parce qu'il signifie plein de choses selon le contexte : la multiplication peut être commutative et associative, ou seulement associative, ou même pas ; si on la suppose associative par défaut (ce qui est quand même le plus courant), ça n'empêchera pas d'écrire algèbre de Lie alors que le crochet de Lie n'est pas associatif (on a une autre hypothèse à la place, l'identité de Jacobi) ; de même, si on écrit algèbre alternative, il faut comprendre que l'hypothèse d'associativité a été remplacée par quelque chose de plus faible (l'hypothèse d'alternativité / de Moufang) ; et c'est pareil pour les algèbres de Jordan. Donc une algèbre de Lie, une algèbre alternative et une algèbre de Jordan ne sont (en général) pas des algèbres [associatives], ce sont des algèbres non [nécessairement] associatives, en revanche toute algèbre [associative] est une algèbre alternative. Et c'est sans compter la notion très générale d'algèbre sur une monade ! Pour le mathématicien habitué, tout ça ne pose pas trop de problème, à part un énervement certain quand on tient à la logique, mais quand il s'agit d'enseigner, c'est vraiment embêtant.

Certains proposent parfois des adjectifs différents pour rendre la terminologie moins incohérente : par exemple, si on convient qu'un corps est nécessairement commutatif (ce qui, n'en déplaise à Bourbaki, est quasiment universellement admis), lorsqu'on veut parler de corps non nécessairement commutatif, plutôt que d'écrire la longue expression corps non nécessairement commutatif ou l'abus de langage corps non commutatif, certains aiment écrire algèbre à division (avantage : c'est bien une algèbre ; inconvénient : personne ne sait au juste ce que c'est qu'une algèbre), ou corps gauche (avantage : c'est relativement court et agréable à écrire ; mais il reste que ce n'est pas un corps, et le terme n'est pas ultra standard), voire corps-gauche (le trait d'union permet de faire comme si ce n'était pas un adjectif et de prétendre qu'il est complètement normal qu'un corps-gauche ne soit pas un corps). Ça peut marcher pour des cas précis, mais ce n'est pas une solution universelle.

On pourrait aussi se demander ce qu'un adverbe est censé avoir comme effet général sur un adjectif (qui lui-même qualifie un nom) : si les foobars orgnesquement cromulents sont censés être des foobars, comment se situent-ils par rapport aux foobars cromulents ? Je ne crois pas vraiment qu'il y ait de convention absolue en mathématiques : parfois localement cromulent implique cromulent, parfois c'est la réciproque qui vaut, parfois ni l'un ni l'autre.

(mardi)

Une version de Gödel sur l'inséparabilité des théorèmes et antithéorèmes

(Le mot antithéorème, dans le titre et dans ce qui suit, désigne un énoncé P dont la négation logique, que je note ¬P, est un théorème, i.e., un énoncé réfutable alors qu'un théorème désigne un énoncé démontrable. Si vous avez du mal à distinguer vrai/faux de théorème/antithéorème, vous pouvez réviser ici.)

Je fais de temps en temps des remarques sur le théorème de Gödel (par exemple ici), il semble que ce soit un sujet dont on n'arrête pas d'extraire du jus. J'ai fait une remarque à ce sujet récemment sur MathOverflow, je me dis qu'elle pourrait intéresser mes lecteurs, donc je vais tenter de l'expliquer. Je vais essayer de reléguer les détails ou les complément un peu plus techniques à plein de notes : ceux qui veulent juste the big picture peuvent ignorer ces notes (et, dans tous les cas, il vaut peut-être mieux les garder pour une seconde lecture). Pour ceux qui veulent vraiment juste the bottom line, j'explique ici, en utilisant un tout petit peu de calculabilité, pourquoi il existe non seulement des énoncés indémontrables et irréfutables (i.e., « logiquement indécidables »), mais même de tels énoncés dont l'indémontrabilité et l'irréfutabilité sont elles-mêmes indémontrables (i.e., « logiquement indécidablement indécidables »). J'avoue qu'il y a un peu plus de subtilités dans tous les sens que ce que je pensais (i.e., beaucoup de notes), mais j'espère qu'on peut quand même en retenir quelque chose sans comprendre tous les détails.

La clé de tout ça, c'est de méditer sur la manière dont un algorithme (i.e., une machine de Turing) peut séparer les théorèmes et les antithéorèmes, ou le vrai et le faux — en gros, montrer qu'il ne peut pas, même pas en un sens assez faible.

Voici un premier fait : il est possible de produire un algorithme (i.e., une machine de Turing) qui, quand on lui donne un énoncé mathématique P, termine en répondant oui lorsque P est un théorème, et termine en répondant non lorsque P est un antithéorème (i.e., ¬P est un théorème). Il suffit, pour cela, d'énumérer toutes les démonstrations mathématiques possibles (par exemple en énumérant toutes les suites de symboles possibles, en vérifiant pour chacune s'il s'agit d'une démonstration conforme aux règles de la logique, tout ceci étant faisable algorithmiquement), et si on tombe sur une démonstration de P, on s'arrête et on répond oui, tandis que si on tombe sur une démonstration de ¬P, on s'arrête et on répond non. Je n'ai pas précisé dans quel système axiomatique je me place, cela pourrait être, par exemple, l'arithmétique de Peano [du premier ordre] PA ou la théorie des ensembles ZFC (mais dans ce cas, il faudra la supposer cohérente, ce que ZFC lui-même ne peut pas prouver, sans quoi tout énoncé serait à la fois théorème et antithéorème ce qui n'est pas bien intéressant). Bien sûr, tout cela est complètement théorique (dans la vraie vie, la démonstration automatisée ne sert que dans des théories extrêmement étroites, pas pour des énoncés mathématiques « généraux »). Mais le point théorique à souligner, c'est que l'algorithme que je viens de décrire ne termine pas si P n'est ni un théorème ni un antithéorème (i.e., s'il est logiquement indécidable dans la théorie considérée) : la contrainte est seulement que si P est un théorème, l'algorithme termine en répondant oui, et si ¬P est un théorème, l'algorithme termine en répondant non.

Voici un deuxième fait : il n'est pas possible de faire un algorithme (i.e., une machine de Turing) qui, quand on lui donne un énoncé mathématique P, termine en répondant oui lorsque P est vrai, et termine en répondant non lorsque P est faux (i.e., ¬P est vrai). En fait, ce n'est même pas possible si on se limite[#] à ce que P soit un énoncé arithmétique (c'est-à-dire, qui ne parle que d'entiers : voir ici pour une petite discussion) ; ni même si on se limite encore plus à ce que P soit un énoncé arithmétique Π₁ (c'est-à-dire un énoncé de la forme pour tout entier naturel n, on a Q(n), où Q, lui, est arithmétique et algorithmiquement testable en temps fini pour chaque n donné ; voir ici pour une discussion). La démonstration de ce deuxième fait est facile si on connaît un tout petit peu de calculabilité, plus exactement, l'indécidabilité algorithmique du problème de l'arrêt : si un algorithme comme je décrit ci-dessus (i.e., capable de dire si un énoncé est vrai ou faux) existait, il serait notamment capable de dire si l'énoncé <tel algorithme> ne termine pas quand on le lance sur <telle entrée> est vrai ou faux (ceci est bien un énoncé arithmétique, et il est même arithmétique Π₁), et du coup, de résoudre algorithmiquement le problème de l'arrêt.

[#] À vrai dire, si je ne mets pas une restriction de ce genre, c'est encore pire : on ne peut même pas énoncer formellement ce que ça voudrait dire d'avoir un algorithme qui répond oui ou non selon que l'énoncé est vrai ou faux.

Quand on met ensemble les deux faits que je viens de dire, on obtient le théorème de Gödel : en effet, s'il est possible de faire un algorithme qui répond oui sur les théorèmes et non sur les antithéorème, et impossible de faire un algorithme qui répond oui sur les énoncés vrais et non sur les énoncés faux, c'est forcément que les deux concepts ne sont pas identiques !, et donc, si tant est que tous les théorèmes de la théorie sont bien vrais (ou au moins les théorèmes arithmétiques, ou au moins[#2] les théorèmes arithmétiques Σ₁), il y a forcément des énoncés vrais, et même forcément des énoncés arithmétiques Π₁ vrais[#3], mais qui ne sont pas des théorèmes. C'est le théorème de Gödel, et c'est d'ailleurs peut-être la manière la plus simple de le voir. La construction peut être rendue explicite (car l'indécidabilité du problème de l'arrêt l'est). Je crois que cette façon de démontrer le théorème de Gödel était une motivation importante pour Turing dans l'étude du problème de l'arrêt.

(dimanche)

La forme élégante du plan projectif complexe

Je ressors ici de mes cartons une vieille entrée commencée il y a très longtemps, et plusieurs fois reprises, abandonnée, re-reprise, re-abandonnée, etc. Il s'agit d'essayer d'expliquer ce que c'est, et dans une certaine mesure comment visualiser, le plan projectif complexe[#] et sa géométrie. (Sauf qu'à cause de l'histoire compliquée de la rédaction de ce texte, qui s'étale sur des années, j'ai changé plusieurs fois d'avis sur ce que je voulais raconter, et il ne faut pas s'attendre à une grande cohérence. Mais j'espère au moins que les différents bouts seront intéressants.)

Le plan projectif complexe est intéressant parce qu'il appartient à la liste des espaces homogènes et isotropes (ou : deux points homogènes), ce que j'avais évoqué dans mon entrée sur les octonions (plus précisément, ici ; je voulais en parler depuis longtemps), et il est le plus simple/petit parmi eux qui ne soit pas maximalement symétrique, c'est-à-dire, qui ne soit pas un espace euclidien, une sphère (ou espace projectif réel) ou un espace hyperbolique : si on veut essayer d'imaginer ce que la notion d'espace homogène et isotrope signifie, et pourquoi ce n'est pas pareil que maximalement symétrique, il est donc bon de commencer par là ; d'autant plus qu'il n'est que de dimension (réelle) 4, ce qui n'est pas totalement hors de portée de l'imagination, et de toute façon tous ceux qui sont plus compliqués vont le contenir (ou bien contenir son dual, le plan hyperbolique complexe).

Mais il y a une raison supplémentaire d'en parler, c'est que le plan projectif complexe est une sorte d'amalgame entre le plan projectif réel (qui n'est autre que la sphère ordinaire, après identification des points antipodaux) et la droite projective complexe (a.k.a., sphère de Riemann, qui est elle aussi la sphère ordinaire, cette fois sans identification des antipodes, mais qu'il sera pertinent d'imaginer de rayon deux fois plus petit) : ces deux espaces-là sont faciles à comprendre, et sont aussi l'occasion de parler de deux projections particulières de la sphère, à savoir la projection gnomonique et la projection stéréographique. Car le plan projectif réel est fortement lié à la projection gnomonique de la sphère, et la droite projective complexe à la projection stéréographique. • Toutes les deux fonctionnent en projetant la sphère sur un plan tangent à elle et en projetant depuis un point appelé centre de projection (c'est-à-dire que pour projeter un point de la sphère, on trace la droite ou demi-droite partant de ce centre de projetant et reliant le point à projeter, et son intersection avec le plan choisi définit la projection) : la différence est que dans le cas de la projection gnomonique on projette depuis le centre de la sphère tandis que dans le cas de la stéréographique on projette depuis le point antipodal du point de tangence du plan choisi. La projection gnomonique préserve l'alignement (i.e., envoie les grands cercles sur des droites) et c'est d'ailleurs la seule à le faire, tandis que la stéréographique préserve les angles. (Voir aussi mes explications sur les projections de la sphère et l'application au cas de la Terre, ou encore le texte que j'avais écrit il y a bien longtemps sur le sujet de la cartographie.)

[#] Plus exactement : le plan projectif complexe muni de sa métrique/distance de Fubini-Study, qui est alors une variété riemannienne de dimension 4 ; peut-être que je devrais dire plan elliptique complexe (ou plan projectif hermitien ?) — la terminologie n'est pas totalement claire.

Table des matières

Définition rapide et résumé pour les gens pressés

Pour les lecteurs qui veulent tout de suite une définition, le plan projectif complexe est l'ensemble des triplets (u,v,w) de nombres complexes non tous les trois nuls, dans lesquels on identifie (u′,v′,w′) avec (u,v,w) lorsqu'il existe λ complexe non nul tel que (u′,v′,w′) = λ·(u,v,w) (et pour marquer cette identification, on note (u:v:w) la classe de (u,v,w), c'est-à-dire l'ensemble {(λu,λv,λw) | λ∈ℂ×}). Autrement dit, on identifie (u,v,w) et (u′,v′,w′) lorsque les trois rapports u/u′, v/v′ et w/w′ sont tous les trois égaux (plus exactement, les coordonnées nulles doivent être les mêmes d'un côté et de l'autre, et les rapports entre coordonnées non nulles de part et d'autres doivent être les mêmes). On dit que u, v, w sont les coordonnées homogènes du point (définies à un facteur multiplicatif λ commun, donc). Souvent on les prendra normalisées, c'est-à-dire que |u|²+|v|²+|w|²=1 (mais ceci ne définit toujours pas les coordonnées uniquement, car on peut encore multiplier par un complexe λ de module 1).

Pour définir le plan projectif réel, on imposera bien sûr à u,v,w d'être réels (non tous nuls) ; et pour la droite projective réelle, on imposera à w d'être nul (i.e., on n'utilise que deux coordonnées). On pourrait bien sûr définir l'espace projectif de dimension n quelconque en utilisant n+1 coordonnées homogènes. Et on peut faire la même définition avec les quaternions qu'avec les réels ou les complexes (il faut juste faire attention dans ce cas à bien fixer le sens de la multiplication : disons qu'on identifie (u,v,w) avec (λu,λv,λw) pour λ un quaternion non nul : cela revient à identifier (u,v,w) et (u′,v′,w′) lorsque u·u−1, v·v−1 et w·w−1 sont égaux ou, ce qui revient au même, que u−1·v=u−1·v′ et v−1·w=v−1·w′ et w−1·u=w−1·u′, avec les conventions évidentes lorsque des coordonnées sont nulles). Pour les octonions, en revanche, on ne peut fabriquer que la droite et le plan projectifs, et les définitions sont plus délicates.

Mais ce dont je veux surtout parler, ce n'est pas juste le plan projectif complexe, c'est aussi la distance qu'on met dessus (et que je vais motiver en commençant par le cas du plan projectif réel et de la droite projective complexe), qu'on appelle la métrique de Fubini-Study, et qui vaut dist((u:v:w), (u′:v′:w′)) = Arccos(|u·u*+v·v*+w·w*| / √((|u|²+|v|²+|w|²)·(|u′|²+|v′|²+|w′|²))) où z* désigne le conjugué complexe de z ; donc, pour des coordonnées normalisées, c'est dist((u:v:w), (u′:v′:w′)) = Arccos(|u·u*+v·v*+w·w*|), autrement dit l'arc-cosinus du module du produit scalaire hermitien entre les coordonnées normalisées. Il est facile de vérifier que cette distance ne dépend pas des coordonnées homogènes choisies.

Cette distance fait du plan projectif réel une sphère de dimension 2 et rayon 1 où les points antipodaux sont identifiés (l'identification étant par la projection gnomonique), et de la droite projective complexe une sphère de dimension 2 et rayon ½ (l'identification étant par la projection stéréographique) dite « sphère de Riemann ». Quant au plan projectif complexe, de dimension 4, il a une forme où ces deux sortes de sphères jouent un rôle important, et que j'ai tendance à décrire intuitivement comme un « tissu de sphères » (les sphères en question sont les droites projectives complexes du plan projectif complexe : il en passe exactement une par deux points distincts quelconques, et deux d'entre elles se coupent toujours en un point unique). Ce plan projectif complexe, par ailleurs, possède énormément de symétrie, puisqu'elle est homogène et isotrope (« tous les points sont interchangeables, ainsi que toutes les directions à partir d'un point »).

Je dirai encore un mot sur les plans projectifs réels contenus dans le plan projectif complexe, sur les symétries de ce dernier, et sur différentes sortes d'angles qu'on peut définir (car si tous les points se valent et que toutes les distances égales se valent, en revanche, la situation des angles est plus compliquée).

(mercredi)

Hadwiger-Nelson et autres malheurs

Les oulipiens ont inventé le concept du plagiat par anticipation, il faut peut-être que j'explore la manière dont il s'applique aux mathématiques. Pour une fois je vais raconter mes malheurs à ce sujet. Mais il faut d'abord que je donne le contexte.

J'ai déjà parlé du problème de Hadwiger-Nelson, cette question ouverte célèbre qui consiste à déterminer le nombre minimum de couleurs qu'il faut pour colorier le plan de façon que deux points situés à distance 1 (unité fixée quelconque) n'aient jamais la même couleur : on sait seulement que la réponse (i.e., le nombre chromatique du plan pour la relation être-à-distance-un) est entre 4 et 7 ; et je qualifie volontiers ça de problème ouvert le plus embarrassant des mathématiques, parce que vraiment tout le monde peut comprendre l'énoncé, un lycéen peut retrouver les bornes que je viens de donner et on n'a pas fait de progrès par rapport à ça. On peut, en revanche, essayer de changer un peu la question pour faire du progrès sur un terrain adjacent.

Vers avril 2012, j'ai réfléchi avec quelques collègues à de telles questions adjacentes (par exemple, savoir si on peut calculer d'autres invariants intéressants du graphe des points du plan avec la relation être-à-distance-un, comme sa capacité de Shannon — enfin, celle de son complémentaire, parce qu'un des collègues en question a des conventions opposées à tout le monde, et des bons arguments pour les défendre), mais nous n'avons pas trouvé grand-chose d'intéressant. • Comme je parlais du problème en question à mon poussinet, il m'a demandé ce qu'on savait du nombre chromatique pour des points à coordonnées rationnelles (i.e., le nombre minimum de couleurs qu'il faut pour colorier l'ensemble ℚ² des points à coordonnées rationnelles du plan, de façon que deux points situés à distance 1 n'aient jamais la même couleur). J'ai trouvé la solution à cette question-là (2 couleurs sont suffisantes — et évidemment nécessaires), et je l'ai exposée à mes collègues ; l'un d'eux a rapidement repéré que ce fait était déjà bien connu (le résultat est dû à un Douglas Woodall, en 1973). J'ai fait remarquer que les mêmes techniques permettaient de montrer des choses sur d'autres corps, par exemple ℚ(√3) (le corps des nombres de la forme a+b√3, où a et b sont rationnels) pour lesquel le nombre chromatique du plan vaut exactement 3, et cela a suscité un intérêt modéré.

Je suis alors tombé sur le livre d'Alexander Soifer, The Mathematical Coloring Book (publié en 2009), presque entièrement consacré au problème de Hadwiger-Nelson. Ce livre signale le résultat de Woodall (le nombre chromatique du plan à coordonnées dans ℚ vaut 2) et quelques unes de ses variations, et mentionne explicitement comme problème ouvert de trouver des nombres chromatiques d'autres corps, par exemple ℚ(√2). Je me suis rendu compte que je savais aussi calculer la réponse pour ℚ(√2) (c'est un peu plus compliqué que pour ℚ(√3)), et du coup que ça valait peut-être la peine de rédiger tout ça.

Les choses ont un peu traîné, mais j'ai mis sur l'arXiv une petite note contenant ces résultats et quelques faits liés que j'ai trouvé à dire sur le problème. Je pense qu'elle est facile à lire.

Je pense que les trois angoisses majeures du mathématicien quand il a obtenu son résultat sont : (1) de trouver une erreur dans sa démonstration, voire un contre-exemple à l'énoncé, (2) de trouver que le résultat est, en fait, quasiment trivial (i.e., au contraire du (1), trouver une démonstration « trop simple » de l'énoncé), et (3) d'apprendre que tout a déjà été fait avant. S'agissant du (1), j'ai passé (je passe toujours) un temps fou à relire, re-relire, et re-re-relire mes démonstrations, et j'ai atteint un niveau raisonnable de certitude qu'elles étaient correctes, même si je n'ai pas pu persuader qui que ce soit d'y jeter un coup d'œil. S'agissant du (2), l'angoisse est largement neutralisée quand il s'agit d'un problème ouvert répertorié (c'est notamment à ça qu'il sert de répertorier les problèmes ouverts). Restait l'angoisse numéro (3). J'ai écrit à Soifer (l'auteur du bouquin sur le sujet) pour lui demander si la question était toujours ouverte depuis 2009, mais il ne m'a pas répondu (je ne peux pas lui en tenir rigueur, je suis le premier à ne pas répondre à mes mails). J'ai cherché comme j'ai pu dans les bases de données de publications mathématiques et dans Google tout ce qui pouvait tourner autour de Hadwiger-Nelson ou tout ce qui citait le livre de Soifer ou quelques publications-clés, et je n'ai rien trouvé. En fait, presque personne ne semble faire quoi que ce soit au sujet du problème de Hadwiger-Nelson, donc je me suis dit que c'était certainement bon.

Finalement, j'ai soumis ma note à un journal en octobre dernier. Ils l'ont gardé plutôt longtemps (octobre à juillet), et je me suis dit que c'était sans doute un bon signe : si on rejette un article par manque d'intérêt, d'habitude, on le fait rapidement, alors que si on prend le temps de rentrer dans les détails mathématiques, c'est certainement que l'article est jugé assez intéressant, or je ne craignais pas trop qu'on y trouvât des fautes.

J'ai reçu hier le rapport : il commence plutôt bien, mais in cauda venenum : il m'apprend à la fin que l'immense majorité des résultats que je croyais avoir obtenus figurent déjà dans une note non publiée (et pas non plus mise sur l'arXiv, seulement sur la page personnelle de son auteur) d'un certain Eric Moorhouse de l'Université du Wyoming. Et ce Moorhouse a une très nette antériorité, puisque la version actuelle de sa note est datée de 2010 et qu'on trouve même des traces d'une version de 1999 qui contient aussi les résultats essentiels. Cette note m'avait échappé sans doute parce qu'elle n'utilise nulle part le terme Hadwiger-Nelson, et apparemment elle (ou en tout cas, sa version de 1999) avait aussi échappé à Soifer quand il a écrit son livre.

Et il n'y a pas que les résultats qui sont proches : les techniques que j'ai mises en œuvre sont quasiment identiques à celles de Moorhouse (je ne peux même pas espérer parler de démonstrations alternatives). Même la question que je soulève de savoir si le nombre chromatique de ℂ² pour la relation (xx′)² + (yy′)² = 1 est finie, est déjà dans l'article antérieur. J'ai bel et bien été « plagié par anticipation » ! Plus sérieusement, je suis dans une situation vraiment embarrassante, parce qu'on pourrait m'accuser de plagiat ; le rapporteur qui a lu ma note a eu l'intelligence de deviner que ce n'était pas le cas (et il l'écrit clairement à l'éditeur), mais je me méfierai à l'avenir avant d'accuser qui que ce soit de plagiat, parce que je me rends compte à quel point ça peut arriver facilement.

Il y a bien quelques bouts restants dans ma note qui ne sont pas contenus dans ce qu'a fait Moorhouse (pour ceux qui veulent regarder, les §2–4 sont essentiellement incluses dans son travail, sauf peut-être la borne inférieure de la proposition 4.6, mais ce n'est pas franchement passionnant, et les §5–7 partent un peu dans une autre direction), mais je vois mal comment ils pourraient être publiés, ne serait-ce que par manque de cohérence : ce sont des petites remarques éparses qui n'ont plus aucun fil conducteur. (La réponse de l'éditeur du journal auquel j'avais soumis l'article ne ferme pas complètement la porte à cette possibilité, mais il demande des révisions substantielles qui ont l'air difficiles à mener.) À vrai dire, j'espérais beaucoup pouvoir profiter de la publication de cette note pour attirer l'attention sur le problème de Hadwiger-Nelson minkowskien (=lorentzien), i.e., pour la métrique de Minkowski (ℝ² pour la relation (tt′)² − (zz′)² = 1), et sur le fait que je ne sais même pas si le nombre chromatique est fini. Mais ça ne se fait pas de publier un article avec des questions, il faut qu'il y ait des résultats nouveaux pour servir de prétexte à poser des questions. C'est vraiment triste.

En fait, je suis même assez effondré, parce que j'avais investi pas mal de temps, pas tant dans les résultats eux-mêmes mais dans la rédaction de cette note, que j'espérais rendre aussi jolie que possible.

J'ai écrit à Moorhouse pour lui faire part de mon embarras, lui présenter mes excuses d'avoir mis sur l'arXiv comme mien des résultats qu'il avait obtenus avant, et demander s'il accepterait de faire une publication jointe, mais je ne vois pas vraiment pourquoi il accepterait (par ailleurs, je ne sais pas s'il est encore actif, ou s'il lit son mail, ou s'il y répond).

Ce n'est pas la première fois que ça m'arrive de retomber sur des résultats déjà connus, en fait, ou quelque mésaventure du genre — même si c'est la première fois que c'est aussi flagrant. Deux fois pendant ma thèse, d'autres mathématiciens ont obtenu des résultats beaucoup plus forts que les miens et quasiment simultanément (là, j'avais techniquement l'antériorité, mais quand elle se joue à très très peu, ce n'est pas forcément évident pour les journaux et relecteurs, et ça a quelque chose d'un peu absurde de se retrouver à citer un article postérieur qui fait que l'article qu'on écrit n'a déjà plus aucun intérêt). Et je ne compte pas le nombre de concepts que j'ai « découverts » pour apprendre que j'étais né trop tard dans un monde déjà trop vieux : par exemple, en 2001, j'ai « découvert » les séries de Hahn, j'étais tout excité de comprendre qu'elles formaient un corps algébriquement clos, et on m'a fait savoir que j'arrivais à peu près un siècle trop tard. J'ai aussi trouvé plein de choses sur la multiplication de nim avant de découvrir que Lenstra était passé avant, etc. Ce genre de choses arrive à tout mathématicien, mais la multiplicité des cas qui m'ont touché commence à me rendre parano. Pourtant, je cherche à m'écarter des sentiers battus.

(mardi)

Le lemme de Higman expliqué aux enfants

Ceci est un peu une expérience de vulgarisation scientifique : je voudrais essayer d'expliquer et de démontrer un résultat mathématique non-trivial en m'adressant aux gens n'ayant aucune connaissance mathématique particulière (même pas, en principe, ce qu'est un nombre), mais seulement un peu de patience pour lire des explications plutôt verbeuses (bon, OK, si je demande de la patience, ce n'est pas vraiment pour les enfants, mais je ne sais pas quoi dire d'autre). Je pense que cela peut servir d'exemple pour illustrer ce à quoi peut ressembler le travail d'un mathématicien et les raisonnements qu'il fait, et surtout, pourquoi il peut s'agir de tout autre chose que de formules et de calculs. (Ceci étant, la vulgarisation mathématique est quelque chose de difficile parce qu'en plus de chercher à expliquer les concepts ou les outils eux-mêmes, il faut trouver quelque chose à répondre aux gens qui demanderont des choses comme à quoi ça sert de se poser ce genre de question ? de façon plus ou moins agressive.) Ai-je réussi à rendre les choses compréhensibles ? À vous de me le dire — enfin, à ceux d'entre vous qui ne sont pas déjà mathématiciens.

C'est aussi un petit exercice un peu oulipien : expliquer une démonstration mathématique sans utiliser de « variables » (je veux dire des choses comme le nombre n, le mot w, le langage L, l'ensemble S, etc., ou a fortiori la suite (vi)) pour désigner les objets, puisque je ne suppose pas mon lecteur familier avec cette façon de désigner les choses. (Ce petit exercice est peut-être complètement stupide, d'ailleurs, parce qu'il n'est pas clair que m'obliger à utiliser des périphrases comme le mot qu'on considérait ou le langage dont on était parti aide vraiment à comprendre, et je pense même le contraire : mais cet exercice à l'intérêt de m'obliger à limiter le nombre d'objets manipulés dans une phrase donnée, à donner des exemples, etc., donc je pense qu'il a du bon.) J'ai quand même réécrit la démonstration une deuxième fois avec ce genre de langage, pour comparer (là aussi, aux non-mathématiciens de me dire si c'est plus ou moins clair).

J'ai choisi pour l'exercice un théorème de combinatoire : le lemme de Higman. Pourquoi précisément le lemme de Higman ? Parce que c'est un résultat important, relativement récent (1952), que je trouve très joli, et dont la démonstration, simple, élégante et pas trop longue, ne fait appel à aucun concept sophistiqué, mais est un bon exemple de raisonnement pas du tout trivial aboutissant à une conclusion peut-être surprenante. Mais aussi parce que cette démonstration contient des idées mathématiques importantes (un raisonnement par l'absurde qui est une forme de descente infinie), et parce que le résultat lui-même admet des myriades d'applications et de généralisations dans toutes sortes de directions, dont certaines sont des sujets de recherche actifs, et dont certaines utilisent une démonstration relativement proche de celle que je vais présenter.

Alors, de quoi s'agit-il ?

Je commence par présenter le contexte.

On va d'abord parler de mots, et je vais expliquer exactement ce que j'entends par là. Un mot est une succession (finie) de lettres de l'alphabet. Par exemple : abracadabra est un mot (d'une longueur de 11 lettres, mais peu importe, j'ai dit qu'il n'était pas nécessaire de savoir compter). Un mot n'est pas obligé d'avoir un sens en français ou dans une quelconque autre langue : kvtyeohegwnfth est un mot valable. Un mot peut être arbitrairement long : anticonstitutionnellementologiepouettruc est un mot valable. Il peut aussi être arbitrairement court : a est un mot. On va même autoriser le mot, appelé mot vide, qui n'a aucune lettre dedans (de longueur zéro) : il y a juste un petit problème pour l'écrire parce qu'il ne se voit pas, d'où l'intérêt de mettre des guillemets autour pour qu'on le voie quand même : (est le mot vide). Une lettre peut être répétée autant de fois qu'on veut : aaaaaaaaaaaaaa est un mot parfaitement valable (et différent de aaaaaaaaaaaaa).

En revanche, on n'a pas le droit à autre chose que des lettres : pouet42truc n'est pas autorisé. Ou du moins il ne l'est pas si on est convenu à l'avance que l'alphabet est formé des lettres ‘a’, ‘b’, ‘c’, ‘d’, ‘e’, ‘f’, ‘g’, ‘h’, ‘i’, ‘j’, ‘k’, ‘l’, ‘m’, ‘n’, ‘o’, ‘p’, ‘q’, ‘r’, ‘s’, ‘t’, ‘u’, ‘v’, ‘w’, ‘x’, ‘y’ et ‘z’ à l'exclusion de toute autre : en fait, le lemme de Higman marchera tout aussi bien si je veux ajouter les chiffres dans l'alphabet, ou les caractères accentués, ou les majuscules ; ou si je prends l'alphabet grec, ou russe, ou sanskrit, ou tous les caractères chinois : la seule chose qui importe est que l'alphabet soit fini et décidé à l'avance et qu'on n'y touche plus (et on pourra toujours appeler lettres les choses qu'on a mises dans l'alphabet) ; mais pour fixer les idées dans cette explication, on va dire qu'il s'agit de l'alphabet latin minuscule, c'est-à-dire exactement des — 26 mais peu importe — caractères que je viens d'énumérer.

Ce concept étant (j'espère) clair, on va jouer à un petit jeu (à seul ou à plusieurs) consistant à écrire des mots les uns à la suite des autres.

La seule règle du jeu est la suivante : une fois qu'un mot a été écrit, il n'est plus autorisé d'écrire un mot qui s'obtient en ajoutant des lettres dans le mot en question (au début, à la fin, n'importe où au milieu, ou tout ça à la fois). Par exemple, si le mot truc a été joué, on ne peut plus jouer trucage, mais pas non plus trouc ni structure ni autruche ni tirebouchon (eh oui, dans tirebouchon il y a truc, voyez : tirebouchon) ni introductif (idem : introductif), ni cturtutrcu (cherchez bien, il y a moyen de retrouver truc dans cet ordre en retirant les bonnes lettres : cturtutrcu). Et, bien sûr, on ne peut pas rejouer truc lui-même. Si le mot a a été joué, on ne peut plus jouer aucun mot comportant un ‘a’ n'importe où. (Et si le mot vide a été joué, plus aucun mot n'est jouable et le jeu doit s'arrêter.) • Pour parler de façon plus concise, un mot qui s'obtient à partir d'un autre en ajoutant des lettres s'appellera un sur-mot, et inversement, l'autre (qui s'obtient en retirant des lettres n'importe où) s'appellera un sous-mot : donc truc est un sous-mot de tirebouchon et tirebouchon est un sur-mot de truc (et tout mot contenant la lettre ‘a’ est un sur-mot de a, et tout mot est un sur-mot du mot vide). On convient que tout mot est un sur-mot et un sous-mot de lui-même. La règle du jeu est donc : on ne peut pas jouer un mot dont un sous-mot a déjà été joué, ou encore, jouer un mot « grille » (consomme, interdit, bannit) définitivement tous ses sur-mots. C'est là la seule règle.

Évidemment, si on veut vraiment faire un jeu intéressant à partir de l'histoire, il faudra ajouter des règles décidant qui gagne (par exemple, en disant que celui qui joue le mot vide perd — si on décide qu'il gagne, le jeu n'est vraiment pas bien palpitant ; en fait, même si on décide qu'il perd, il y a une stratégie gagnante très facile). Mais ce n'est pas tellement ça qui va m'intéresser.

(mardi)

Une question d'Analyse (moyenner une fonction), et de pourquoi elle m'intéresse

Commençons tout de suite par la question qui m'intéresse (je précise que je n'en connais pas la réponse), que je vais faire suivre de commentaires mathématiques, puis métamathématico-psychologiques :

Soit f une fonction réelle 1-périodique, et L¹ sur une période (ou, si ça ne suffit pas : mesurable et bornée). Est-il vrai que pour presque tout x, la moyenne arithmétique de f(x), f(x+1/n), f(x+2/n), f(x+3/n), …, f(x−1/n), converge vers l'intégrale de f (sur une période) ?

Cette question peut se voir comme la suite d'une question que j'avais proposée en exercice : si j'appelle (n(f))(x) la moyenne dont il est question ci-dessus, je sais montrer un certain nombre de choses, par exemple que n(f) tend dans Lp vers (la fonction constante égale à) l'intégrale de f si f est Lp et p<∞, ou qu'il y a convergence uniforme si f est Riemann-intégrable. Je signale quelques autres faits apparentés (ainsi qu'une esquisse de démonstration de ce que je viens de dire) dans cette question sur math.stackexchange, où je pose la question recopiée ci-dessus et je demande aussi s'il y a convergence dans L (lorsque f est L). Au moment où j'écris, je n'ai pas eu de réponse (et la question n'a suscité que très peu d'intérêt, ouin ☹).

Mise à jour () : Comme on me le signale en commentaire, la réponse est non : même pour f mesurable et bornée (en fait, même pour la fonction indicatrice d'une partie de ℝ/ℤ), il n'y a pas forcément convergence presque partout, ni même « quelque part », de n(f) vers f. C'est l'objet de l'article de Walter Rudin, An Arithmetic Property of Riemann Sums, Proc. Amer. Math. Soc. 15 (1964), 321–324. La démonstration de Rudin est courte et a l'air assez jolie et arithmétique. • Par ailleurs, auparavant, Marcinkiewicz et Zygmund, dans Mean values of trigonometrical polynomials, Fund. Math. 28 (1937), chapitre II, théorème 3 p. 157, avaient déjà montré que pour la fonction précise −log(|x|)/√|x| sur [−½,½], prolongée par périodicité, qui est L¹ sur une période mais non bornée, on n'a convergence nulle part. • Par ailleurs, ces articles montrent que d'autres que moi ont pensé que la question était naturelle, et d'autre part, qu'elle n'était pas triviale. (Le terme qui me manquait pour chercher était somme de Riemann : je pensais qu'une somme de Riemann était le cas associé à une subdivision quelconque, pas spécialement régulière, et qu'on n'allait donc pas trouver grand-chose de plus en cherchant ce terme que la construction de l'intégrale de Riemann.)

Mais une méta-question que je trouve aussi intéressante, c'est : pourquoi est-ce que je trouve la question ci-dessus extrêmement intéressante, importante et naturelle ? (Peut-être que je ne serai plus de cet avis si j'obtiens la réponse, mais au minimum je la trouve intéressante au sens où j'ai vraiment envie d'avoir la réponse.) Ce n'est pas juste que moyenner une fonction comme ça est une opération qui me semble très naturelle (et assez élégante) et qu'on a envie de savoir si ça converge vers l'intégrale voire, si ça donnerait une « définition » de l'intégrale de Lebesgue. L'Analyse n'est pas un sujet dont je suis un grand fan, mais à partir du moment où on me présente une « situation » mathématique (ici, le fait de moyenner une fonction 1-périodique par ses n translatés par 1/n, et de considérer la limite quand n→+∞) sur laquelle j'arrive à dire des choses, j'ai naturellement envie de me poser toutes les questions « adjacentes » à la situation : si j'ai un résultat de convergence dans Lp pour p<∞, j'ai naturellement envie de poser la question de la convergence L et de la convergence presque partout. (D'ailleurs, le mystère c'est pourquoi j'ai mis plus d'un an à me rendre compte que ces questions étaient naturelles et que je ne savais pas les résoudre !) En plus de cela, il y a toujours un degré de frustration à penser : bon sang, mais une question aussi simple et naturelle que ça, je devrais savoir y répondre !, ou au moins, trouver la réponse dans un livre/article.

J'ai souligné le mot naturel dans le paragraphe précédent, parce que c'est un aspect psychologique fondamental dans la manière dont je conçois les mathématiques : il n'y a pas que le fait que les objets soient élégamment symétriques et beaux par leur grandeur qui me motive, il y aussi le caractère naturel des questions qu'on se pose. Je me considère comme un mathématicien pur non pas parce que je ferais des choses qui ne servent à rien, mais parce que ce qui me motive quand je me pose une question de maths n'est pas qu'elle serve à quelque chose (même à l'intérieur des mathématiques), mais qu'elle soit naturelle dans le contexte. Et c'est une qualité que je ne sais pas définir (même si cela a certainement un rapport avec la simplicité) et dont je me demande à quel point elle est personnelle, voire complètement illusoire. Un autre mathématicien sera-t-il convaincu que la question ci-dessus est intéressante ? Je ne sais pas. (Pas plus que pour les questions de l'entrée précédente. En revanche, une question telle que est-il vraie que pour toute fonction réelle f il existe une partie dense à laquelle la restriction de f est continue ? est probablement « naturelle » si j'en crois les réactions que j'ai eues.)

Toujours est-il que je n'ai pas le temps d'y réfléchir sérieusement (et je ne suis pas sûr d'y connaître assez en Analyse pour avoir une chance sérieuse de savoir résoudre le problème), donc j'essaie insidieusement de convaincre d'autres gens d'y faire attention et d'y réfléchir à ma place. Wir müssen wissen — wir werden wissen! 😉

(dimanche)

Quelques théorèmes de points fixes

Je suis un peu débordé en ce moment par la préparation de deux cours[#] qui commencent dans deux semaines et dont je n'ai pour l'instant que des notes très éparses et inachevées, d'autant plus que j'enseigne autre chose en ce moment. Mais pendant la préparation d'un de ces cours, je suis tombé sur une difficulté mathématique au sujet de laquelle j'aimerais l'avis de mes lecteurs mathématiciens (il doit bien y en avoir) ou amateurs de mathématiques : ce n'est pas que je ne sache pas démontrer quelque chose, mais que je m'étonne de la façon dont je le démontre, et je trouve qu'il y a quelque chose de surprenant dans toute l'histoire. Bref, je vais commenter les ressemblances et différences entre quelques énoncés apparemment très semblables et surtout différentes démonstrations des énoncés en question.

[#] L'un de ces cours concerne la théorie des jeux ; ou plutôt les théories des jeux, parce qu'il y a plusieurs domaines que leurs spécialistes appellent théorie des jeux, selon le type de jeux étudiés, et dont l'intersection est relativement faible : pensez à celle (que je ne sais pas nommer plus précisément) qui cherche des équilibres de Nash et celle (en gros, la théorie combinatoire des jeux) qui cherche à calculer des valeurs de Sprague-Grundy, par exemple, chacune a tendance à se définir comme « la » théorie des jeux, et d'ailleurs ça m'énerve, en tout cas je voudrais parler des deux et de quelques autres encore. Mes notes en cours d'écriture sont ici. L'autre cours concerne les courbes algébriques, pour lequel il va s'agir de remanier profondément un cours de géométrie algébrique (anciennes notes ici) que je donnais déjà.

Voici quatre énoncés mathématiques très simples, en théorie élémentaire des ensembles, que je pourrais regrouper sous le label général de théorèmes de points fixes, et que je vais appeler successivement (P), (P$), (F) et (F$) :

(P) Soit X un ensemble : on note 𝒫(X) son ensemble des parties. Soit Ψ:𝒫(X)→𝒫(X) une application vérifiant les deux propriétés suivantes : (i) Ψ est progressive, c'est-à-dire que Ψ(A)⊇A pour tout A∈𝒫(X), et (ii) Ψ est croissante, c'est-à-dire que si AB alors Ψ(A)⊇Ψ(B). Alors il existe un plus petit A∈𝒫(X) tel que Ψ(A)=A (c'est-à-dire un A tel que Ψ(A)=A et que si A′ vérifie aussi Ψ(A′)=A′ alors AA′).

(P$) [Exactement le même énoncé que (P) sans supposer (i).] Soit X un ensemble : on note 𝒫(X) son ensemble des parties. Soit Ψ:𝒫(X)→𝒫(X) une application vérifiant la propriété suivante : Ψ est croissante, c'est-à-dire que si AB alors Ψ(A)⊇Ψ(B). Alors il existe un plus petit A∈𝒫(X) tel que Ψ(A)=A. [Un peu mieux : il existe un plus petit A tel que Ψ(A)⊆A, et ce A vérifie Ψ(A)=A.]

Pour les deux énoncés suivants, j'ai besoin de rappeler la notion de fonction partielle : si X et Z sont deux ensembles, une fonction partielle XZ est une fonction définie sur une partie de X et à valeurs dans Z ; on peut aussi la voir comme une partie de X×Z (à savoir, le graphe de la fonction) qui soit fonctionnelle au sens où si elle contient à la fois (x,z₁) et (x,z₂) pour le même xX alors forcément z₁=z₂. La relation fg entre fonctions partielles signifie alors que la fonction f prolonge la fonction g (i.e., que f est définie partout où g l'est, et qu'alors leurs valeurs coïncident).

(F) [Exactement le même énoncé que (P) avec des fonctions partielles XZ au lieu de parties de X.] Soient X et Z deux ensembles : on note 𝒟 l'ensemble des fonctions partielles XZ. Soit Ψ:𝒟→𝒟 une application vérifiant les deux propriétés suivantes : (i) Ψ est progressive, c'est-à-dire que Ψ(f)⊇f pour tout f∈𝒟, et (ii) Ψ est croissante, c'est-à-dire que si fg alors Ψ(f)⊇Ψ(g). Alors il existe une plus petite f∈𝒟 telle que Ψ(f)=f (c'est-à-dire un f tel que Ψ(f)=f et que si f′ vérifie aussi Ψ(f′)=f′ alors ff′). [Précision : on me fait remarquer à juste titre que cet énoncé est en fait totalement creux (cf. la mise à jour ci-dessous).]

(F$) [Exactement le même énoncé que (F) sans supposer (i), donc exactement le même que (P$) avec des fonctions partielles au lieu de parties.] Soient X et Z deux ensembles : on note 𝒟 l'ensemble des fonctions partielles XZ. Soit Ψ:𝒟→𝒟 une application vérifiant la propriété suivante : Ψ est croissante, c'est-à-dire que si fg alors Ψ(f)⊇Ψ(g). Alors il existe une plus petite f∈𝒟 telle que Ψ(f)=f. [Un peu mieux : il existe un plus petit f tel que Ψ(f)⊆f, et ce f vérifie Ψ(f)=f.]

(Nomenclature : j'appelle (P) et (P$) les énoncés sur les Parties, (F) et (F$) ceux sur les Fonctions partielles, et (P$) et (F$) les énoncés qui vous en donnent plus pour votre argent.) J'espère que j'ai écrit ces énoncés de façon à ce qu'il n'y ait pas le moindre doute sur leur signification formelle. L'objet dont chacun de ces énoncés affirme l'existence peut être qualifié de plus petit point fixe de Ψ.

Commentaires : Le sens intuitif de ces résultats est quelque chose comme le suivant : on a une opération Ψ qui, pour prendre l'exemple de l'énoncé (F), prend une fonction f et l'étend en une fonction peut-être définie sur un peu plus de points, et par ailleurs, Ψ possède une propriété de cohérence, à savoir que si on étend f, on étend aussi le résultat de l'opération Ψ(f) ; alors il existe une « clôture du vide » pour l'opération Ψ, c'est-à-dire qu'en partant de rien, l'opération Ψ vous permet d'arriver à une certaine fonction f à partir de laquelle l'opération Ψ ne la fait plus grandir. Pour donner un exemple d'application de (P$), considérer l'ensemble X=ℕ des entiers naturels, et l'opération Ψ qui à un ensemble A de naturels associe l'ensemble formé des entiers 2, 3 et tous les produits de deux éléments de A : le plus petit point fixe sera alors l'ensemble de tous les entiers qu'on peut fabriquer en multipliant 2 et 3 autant qu'on veut ensemble (à savoir l'ensemble des 2i·3j avec au moins un de i et j non-nul, mais peu importe) ; plus généralement, (P) ou (P$) peut servir à montrer l'existence de toutes sortes de « clôtures » sous des opérations variées. Généralement parlant, le concept de plus petit point fixe (ou de point fixe en général) apparaît très souvent en mathématiques, et il existe tout un labyrinthe — mais je crois vraiment que les énoncés que j'ai cités ci-dessus sont parmi les plus naturels.

(samedi)

Petites notes sur la calculabilité, et quelques remarques à ce sujet

Je donnais jeudi matin une très courte[#] introduction à la calculabilité, dans le cadre d'un cours intitulé Théorie des Langages (donc un sujet plutôt connexe que contenant) dont j'enseigne à un groupe ; des circonstances anecdotiques (des feutres manquants[#2] au début de la séance, les élèves qui filent pour aller à un partiel à la fin) ont fait que je n'ai pas pu la finir correctement. J'ai donc envoyé des notes écrites[#3] aux élèves, auxquelles je n'ai pas résisté à la tentation d'ajouter quelques compléments en petits caractères. Comme ces notes (qui sont très basiques et passablement informelles même par rapport à ce que j'ai pu raconter sur le sujet sur ce blog) peuvent peut-être intéresser d'autres gens, je les mets en ligne ici. L'approche choisie consiste à ne pas chercher à définir formellement ce qu'est un algorithme (que ce soit par une machine de Turing ou autrement), vu que de toute façon on ne demandera à personne de programmer une machine de Turing, et pédagogiquement il semble que si on formalise un modèle de calcul, cela paralyse les étudiants au point qu'ils ne comprennent plus la notion d'algorithme alors qu'en entrant ils savaient.

[#] Et je trouve véritablement triste que dans une grande école dont l'informatique est une des spécialités, le seul contact que tous les élèves auront avec des notions aussi fondamentales que le problème de l'arrêt ou la notion de problèmes décidable et semi-décidable, c'est une séance d'une heure et demie dans le cadre d'un cours plutôt consacré à autre chose (et sur laquelle il est donc difficile de les interroger à l'examen).

[#2] Obtenir des feutres qui marchent au début de chaque cours peut être une véritable quête du graal.

[#3] Ils ont aussi un poly de cours (il n'a pas l'air d'être disponible publiquement), mais j'ai suivi une présentation différente dans mon exposé, suivant le principe qu'on comprend parfois mieux quand les choses sont expliquées deux fois de façon différente, et du coup j'ai repris mes notations dans ces notes.

Mais même en racontant des choses très basiques, on peut apprendre des choses ou s'éclaircir les idées. Notamment sur deux points, tous deux plus ou moins liés à l'énumération φ0,φ1,φ2,… des fonctions calculables partielles ℕ⇢ℕ. Il faut comprendre qu'on numéroté les programmes, par exemple par taille puis par ordre lexicographique, et que φe(n1,…,nk) est le résultat de l'exécution du e-ième programme auquel on fournit les arguments n1,…,nk, la valeur étant indéfinie si le programme ne (s'exécute pas correctement ou) ne termine pas. Un point important est qu'il existe un programme universel, c'est-à-dire que la fonction (e,n) ↦ φe(n) est elle-même calculable (informatiquement, cela signifie qu'on peut écrire un « interpréteur », qui prend un programme e et un paramètre n et exécute le programme sur cette entrée ; philosophiquement, cela signifie que le fait d'exécuter un algorithme est lui-même algorithmique). Les deux points qui m'avaient un peu échappés sont les suivants :

✱ Le premier point concerne le théorème s-m-n de Kleene. Si h(m,n)=φe(m,n) est une fonction calculable des deux variables m,n, alors pour chaque valeur de m elle est calculable dans la variable n : ça c'est plus ou moins une évidence ; mais ce qui l'est moins, c'est qu'on peut algorithmiquement fabriquer un indice s(e,m) pour cette fonction, au sens où φs(e,m)(n) = φe(m,n) avec s une fonction calculable — c'est ça que dit le théorème s-m-n. Informatiquement, cela signifie qu'il y a une transformation algorithmique (le s en question) qui prend un programme e prenant deux arguments m et n (ou en fait, deux jeux d'arguments), et une valeur à donner au premier, et qui renvoie un nouveau programme s(e,m) où ces arguments ont été fixés à cette valeur. Dans toute formalisme de calcul précis (que ce soit les machines de Turing, ou un langage de programmation réel), c'est plus ou moins évident — dans un langage de programmation fonctionnel, par exemple, cela signifie curryfier la fonction et appliquer à une constante — et la fonction s sera mieux que calculable (elle sera primitive récursive, et certainement beaucoup mieux que ça, parce que ce n'est pas un problème algorithmiquement difficile de substituer une valeur dans un programme !). Mais comme je n'introduisais pas de modèle de calcul précis, je me suis demandé si ça pouvait se démontrer in abstracto, à partir de la simple existence de l'énumération des fonctions calculables partielles et l'existence d'un programme universel.

La réponse est non, il existe des numérotations des fonctions calculables partielles qui vérifient le théorème d'universalité mais pas le théorème s-m-n. Un contre-exemple est fourni en définissant à partir d'une numérotation standard φe une nouvelle numérotation ψv+1,e(0)=v (et ψv,e(0) non définie), et sinon, ψv,e(n)=φe(n) (dans tout ça, ‹x,y› désigne un codage quelconque des couples d'entiers naturels par des entiers naturels) : autrement dit, dans la numérotation ψ, on précise séparément la valeur en 0 de la fonction (y compris « non définie ») et ses autres valeurs via une numérotation standard. Sur cet exemple, toute fonction calculable partielle apparaît bien dans les ψ, mais on ne peut pas calculer, à partir de d'un indice e d'une fonction calculable partielle h parmi les ψ, un tel indice pour la fonction constante de valeur h(1), car il faudrait pour cela déterminer si h(1) est défini (i.e., termine), donc résoudre le problème de l'arrêt. Donc on ne peut pas faire de substitution dans les ψ de façon algorithmique.

Pour raconter ce contre-exemple dans des termes informatiques, imaginons un langage de programmation permettant de coder des fonctions ℕ⇢ℕ (ou ℕk⇢ℕ, enfin peu importe) et qui est un langage tout à fait banal à une particularité près : la valeur en 0 de la fonction (qu'il s'agisse d'un entier ou du fait de partir en boucle infinie) doit être précisée par une instruction spéciale au début du programme, la seule instruction qui sera lue pour calculer cette valeur en 0, les autres valeurs étant calculées par un programme « normal » (par ailleurs, cette bizarrerie ne s'applique qu'à la fonction main, si j'ose dire, du programme). Interpréter ce langage, ou le compiler vers un autre, ne pose pas de problème particulier, et ce langage permet de représenter toutes les fonctions calculables partielles, ou d'ailleurs d'écrire un interpréteur pour un langage standard (une machine de Turing, disons) ou quelque chose comme ça. Mais il ne vérifie pas le théorème s-m-n, et ceci cause des bizarreries : on ne peut pas, par exemple, compiler un programme vers ce langage sauf à calculer à la compilation la valeur de la fonction en 0, ce qui risque de provoquer une boucle infinie ; et on ne peut pas algorithmiquement remplacer un programme dans ce langage par le programme qui calcule la (fonction constante égale à la) valeur en 1 de cette fonction. Ceci suggère que le terme Turing-complet est défini de façon un peu trop vague : à mon avis, ce qui importe est que l'énumération des fonctions partielles calculées par le langage considéré soit non seulement l'ensemble de toutes les fonctions calculables partielles, mais aussi que la numérotation soit acceptable au sens où on peut de façon calculable convertir une machine de Turing en le langage en question, et on peut montrer que cela revient exactement à vérifier le théorème s-m-n (avec une fonction s calculable).

(Référence pour tout ça : Soare, Recursively Enumerable Sets and Degrees, 1987, chapitre I, exercices 5.9 à 5.11. C'est de là que je tire le contre-exemple au théorème s-m-n.)

✱ Le second point concerne la fonction « castor affairé », qui à n associe le plus long temps d'exécution possible d'une machine de Turing à ≤n états et qui termine effectivement (en partant d'un ruban vide). Il est facile de voir que fonction, appelons-la h, dépasse infiniment souvent n'importe quelle fonction calculable [totale] f, au sens où, quelle que soit f calculable, il existe une infinité de n tels que h(n)≥f(n). (En effet si ce n'est pas le cas pour une certaine fonction f, quitte à modifier un nombre fini de valeurs de celle-ci, on a h(n)≤f(n) pour tout n, et on peut alors résoudre le problème de l'arrêt pour une machine de Turing — partant d'un ruban vide — en attendant f(n) étapes où n est son nombre d'états : si la machine ne s'est pas arrêtée au bout de ce temps-là, elle ne s'arrêtera jamais.) Mais le résultat classique dû à Tibor Radó est plus fort : la fonction h du « castor affairé » finit par dominer n'importe quelle fonction calculable f, au sens où, quelle que soit f calculable, l'inégalité h(n)≥f(n) est toujours vraie à partir d'un certain point, et je n'avais pas vraiment fait attention au fait que ce n'est pas trivial de passer de l'un à l'autre.

La démonstration d'origine de ce résultat (trouvable ici) est d'une part assez peu lisible (j'arrive à la suivre pas à pas, mais l'idée générale m'échappait) et d'autre part très spécifique au cas de la fonction « castor affairé » sur les machines de Turing en comptant leurs états. Par exemple, si on définit la fonction h en appelant h(n) la plus grande des valeurs φe(0) (ou φe(e), peu importe) qui soient définies pour 0≤en (l'argument montrant qu'elle dépasse infiniment souvent toute fonction calculable marche essentiellement pareil), alors est-il encore vrai que h finit par dominer n'importe quelle fonction calculable ? La réponse est oui, comme il résulte d'un échange sur math.stackexchange (je n'ai pas osé aller sur MathOverflow pour cette question), où on a pu m'expliquer beaucoup plus clairement l'argument de Radó, ce qui m'a permis de le généraliser facilement.

(J'en ai profité pour apprendre ce qu'est un degré de Turing hyperimmune, à savoir qu'il calcule une fonction qui dépasse infiniment souvent n'importe quelle fonction calculable, ce qui n'implique pas automatiquement qu'il calcule une fonction qui finit par dominer n'importe quelle fonction calculable.)

✱ Sinon, de fil en aiguille, je suis tombé par accident sur la relation suivante : pour A et B deux ensembles d'entiers naturels, notons AB lorsqu'il existe deux fonctions calculables partielles ℕ⇢ℕ qui se restreignent en des bijections réciproques entre ces deux ensembles. C'est une notion qui me semble extrêmement naturelle, mais qui n'est pas ce qu'on appelle de façon standard un isomorphisme calculable entre les deux ensembles. Mais ce qui me frappe, c'est que je n'ai réussi à en trouver aucune mention dans la littérature. [Mise à jour : il s'agit de la relation d'équivalence calculable (ou équivalence récursive), dont les types ont été, en fait, largement étudiés, notamment ceux qui s'appellent les isols ; voir pour commencer le livre de Dekker et Myhill de 1960, Recursive Equivalence Types, ainsi que le survey par Dekker et Ellentuck, Myhill's work in recursion theory, Ann. Pure Appl. Logic 56 (1992), 43–71, et les références qu'il contient.]

(mercredi)

Quelques clarifications sur l'intuitionnisme et l'ultrafinitisme

En relisant l'entrée précédente que j'ai écrite et un ou deux commentaires qui ont été postés dessus, j'ai peur d'avoir pu laisser imaginer que je considérais les mathématiques intuitionnistes/constructives comme aussi farfelues que l'existence d'un entier strictement compris entre 3 et 4, ou même, qu'un nombre non-négligeable de mathématiciens pourraient le considérer. Ce n'est certainement pas le cas : la seule chose que je compare, c'est la frustration que peut ressentir (superficiellement) un mathématicien classique devant ces mondes étranges (comment ça, il n'est pas toujours vrai que tout nombre réel x vérifie x≥0 ou x≤0 ???). Mais il vaut la peine de se demander pourquoi, au juste, parmi les trois « abandons » suivants,

la première donne indiscutablement lieu à des mathématiques sérieuses, la seconde peut-être mais peut-être pas, et la troisième certainement pas.

Ce que veut avant tout le mathématicien, c'est que les règles du jeu soient claires. Même si on ne prend pas la position formaliste extrême qui considère les maths comme un jeu typographique formel consistant à manipuler des successions de symboles dénués de sens selon des règles arbitraires mais relativement simples[#], les mathématiciens seront sans doute unanimes pour dire qu'il est essentiel dans la pratique des mathématiques qu'il existe des règles objectives et inambiguës sur les manipulations autorisées dans l'écriture d'une démonstration, suffisamment claires pour qu'on puisse toujours, avec assez de patience, trancher un différend sur la validité d'une démonstration en détaillant n'importe quel passage incriminé jusqu'à l'application mécanique de ces règles.

Or les mathématiques intuitionnistes/constructives ont des règles claires : ce ne sont pas les mêmes que les mathématiques classiques (plus exactement ce sont un sous-ensemble, ou une restriction, selon la présentation exacte choisie ; mais du coup, on peut ajouter des axiomes supplémentaires pour compenser qui contrediraient les mathématiques classiques), mais au moins — dans leur formulation moderne[#2] — ce sont des règles indiscutablement bien formulées et objectives. Plus exactement, le mathématicien classique peut comprendre les règles des mathématiques intuitionnistes/constructives par plusieurs mécanismes :

(Ces deux approches sont elles-mêmes reliées par des théorèmes de validité et de complétude : je ne rentre pas dans les détails.) On peut par ailleurs relier la logique intuitionniste à d'autres logiques alternatives mais classiques et bien comprises (par des procédés comme ci-dessus), par exemple la logique modale S4.

[Ajout ] Je peux au moins donner une idée de ce dont je parle sous la forme suivante. En mathématiques classiques, si on décide d'interpréter les connecteurs logiques PQ, PQ et ¬P comme décrivant l'intersection, la réunion, et le complémentaire de parties P et Q d'un ensemble T fixé, alors certainement on a ¬¬P=P (le complémentaire du complémentaire d'une partie est la partie elle-même, justement parce qu'on travaille en logique classique) et ¬(PQ)=(¬P)∨(¬Q) ; maintenant, changeons un peu le contexte, et considérons T un espace topologique, imaginons que P et Q sont des ouverts de T, que PQ et PQ désignent l'intersection et la réunion de deux ouverts, mais maintenant ¬P désigne l'intérieur du complémentaire de P (=le plus grand ouvert disjoint de P ; et plus généralement, on peut noter PQ pour l'intérieur de la réunion de Q avec le complémentaire de P, c'est-à-dire l'ouvert des points au voisinage desquels P est inclus dans Q) : alors ¬¬P ne coïncide plus forcément avec P, c'est le « régularisé » de P (=l'intérieur de son adhérence), et de même ¬(PQ) ne coïncide plus forcément avec (¬P)∨(¬Q) (alors que ¬(PQ), lui, coïncide toujours avec (¬P)∧(¬Q)) ; en fait, les règles valables en général dans cette interprétation sont précisément celles du calcul propositionnel intuitionniste, et sont une manière dont le mathématicien classique peut les comprendre (sémantiquement) : comme des affirmations sur les ouverts d'un espace topologique (classique).

D'autre part, les mêmes choses sont valables dans l'autre sens, c'est-à-dire que si on peut « expliquer » les mathématiques intuitionnistes aux mathématiciens classiques comme ci-dessus, on peut aussi « expliquer » les mathématiques classiques aux mathématiciens intuitionnistes (par exemple par l'insertion de doubles négations à des endroits stratégiques). Du coup, les mathématiciens classiques et intuitionnistes ne seront peut-être pas d'accord sur l'intérêt ou la signification des énoncés qu'ils démontrent, mais au moins chacun peut-il expliquer son travail aux autres. (Dans la pratique, bien entendu, les « mathématiciens classiques » et à plus forte raison les « mathématiciens intuitionnistes » ne sont que des archétypes idéalisés : tout le monde est capable de faire sa traduction mentale dans un sens ou dans l'autre, quelle que soit sa représentation préférée de l'Univers.)

Pour dire les choses de façon plus concise : les mathématiques classiques et intuitionnistes sont peut-être différentes, mais leur métamathématique est compatible.

Il en va tout autrement de l'idée qu'il existerait un entier strictement entre 3 et 4 : cette idée fictionnelle est présentée sans être accompagnée de règles permettant de travailler avec et de lui donner un sens. Il n'est pas exclu que de telles règles puissent exister (par exemple : en fait, ce qu'on appelle entier ici est un élément de ℕ[√13] = {u+v·√13 : u,v∈ℕ} (approche sémantique), et il faudrait remplacer les axiomes de Peano par une axiomatisation des faits les plus évidents de la théorie du premier ordre de ℕ[√13] (approche syntaxique)), et qui du coup ferait disparaître le mystère de cette idée (à défaut de lui donner un intérêt…). Mais telle quelle, l'idée est dépourvue de sens aux yeux des mathématiciens parce qu'elle est dépourvue de règles précises.

L'idée intermédiaire (l'ultrafinitisme, j'en ai déjà parlé) occupe une position intermédiaire : on peut peut-être donner un sens à l'ultrafinitisme, mais l'idée est radicale en ce sens qu'elle nécessite de changer non seulement les mathématiques mais aussi les métamathématiques. Notamment, pour refuser l'existence du nombre 10↑(10↑100), il faut refuser l'idée qu'une démonstration puisse occuper un tel nombre de symboles — or les métamathématiques classiques l'admettent (certes, on ne va pas l'écrire explicitement, mais les métamathématiques classiques admettent de considérer comme démonstrations valables des objets qui ne pourraient pas être écrits en pratique, au moins si on en a une description raisonnablement (méta)manipulable) ; pire, il faut probablement refuser l'idée qu'une démonstration puisse occuper seulement 10↑100 symboles (parce qu'en environ ce nombre là de symboles, je peux démontrer l'existence de 10↑(10↑100) à quelqu'un qui admet que la multiplication sur les entiers est totale, ce que de nombreux ultrafinitistes admettent, ce qui permet d'écrire des choses comme 10×10×10×⋯×10), et il faut donc probablement refuser l'idée même d'utiliser « librement » l'arithmétique pour faire des métamathématiques. Je ne suis moi-même pas à l'aise avec l'ultrafinitisme (j'ai vraiment du mal à ne pas considérer la position comme simplement ridicule), mais voici ce qu'écrivent Cherubin & Mannucci dans A very short history of ultrafinitism (in : Kennedy & Kossak (eds.), Set Theory, Arithmetic, and Foundations of Mathematics (Cambridge 2011)) :

First, the rejection of infinitary methods, even the ones based on the so-called potential infinite, must be applied at all levels, including that of the meta-mathematics and that of the logical rules. Both syntax and semantics must fit the ultrafinitistic paradigm. Approaches such as Finite Model Theory are simply not radical enough for the task at hand, as they are still grounded in a semantics and syntax that are saturated with infinite concepts.

Second, barring one term in the dichotomy finite-infinite, is, paradoxically, an admission of guilt: the denier implicitly agrees that the dichotomy itself is valid. But is it? Perhaps what is here black and white should be replaced with various shades of grey.

Bref, même si le programme ultrafinitiste peut sembler à quelqu'un comme moi aussi fantaisiste que l'idée qu'il y aurait peut-être un entier à découvrir strictement entre 3 et 4, il faut avoir la modestie d'admettre que peut-être des règles du jeu précises peuvent en être données, fussent-elles des règles qui imposent de réévaluer aussi les métamathématiques : peut-être le programme peut-il être éclairci comme l'intuitionnisme l'a été, et peut-être sera-t-il possible aux mathématiciens « idéalistes » de comprendre précisément les ultrafinitistes (à défaut d'être d'accord avec eux).

[#] Je ne vais pas faire l'exercice ici et maintenant, mais il est parfaitement possible de présenter un ensemble des « règles du jeu » qui soit compréhensible par à peu près n'importe qui (disons, pas plus compliqué que les règles des échecs ou du tarot) et qui, appliquées mécaniquement, permette de démontrer tous les théorèmes des mathématiques « standard » (ZFC) et uniquement ceux-ci. En ce sens, donc, n'importe qui peut faire des maths formelles : la difficulté du travail du mathématicien est de se faire une idée d'où on va dans ce jeu et comment on peut atteindre un but, et communiquer à d'autres le fait qu'on l'a atteint, sans écrire toutes les étapes intermédiaires.

[#2] Dans leur formulation moderne, c'est-à-dire, je crois, depuis les travaux de Gödel, Heyting, Kolmogorov et d'autres. Lorsque Brouwer a initialement introduit ses idées, il n'était probablement pas clair qu'elles pouvaient être rigoureusement formalisées, d'autant qu'il était lui-même profondément hostile à l'idée de formaliser les mathématiques, de les priver de leur aspect créatif/intuitif ou de les réduire à un jeu typographique ; et c'est peut-être pour ça que ces idées ont d'abord suscité une telle hostilité (non seulement elles étaient radicales, mais en outre elles n'étaient sans doute pas bien définies aux yeux de mathématiciens comme Hilbert).

(lundi)

Comment utiliser les points comme parenthèses ?

Dans une expression mathématique comme

(2+2+2)×(3+4)

les parenthèses servent à indiquer quelles sous-expressions doivent être calculées en premier (la convention, en leur absence, étant qu'on évalue les multiplications avant les additions, si bien que 2+2+2×3+4 sans parenthèses se comprend comme 2+2+(2×3)+4). Mais il existe d'autres manières possibles d'indiquer l'ordre des opérations sans utiliser de parenthèses — ou en tout cas pas sous cette forme. Une possibilité consisterait à utiliser la notation préfixe (où le symbole d'une opération binaire précède les deux quantités sur lesquelles elles s'applique, ce qui donne dans ce cas : × + + 2 2 2 + 3 4) ou bien postfixe (où l'opération binaire suit les deux quantités sur lesquelles elle s'applique, donc 2 2 + 2 + 3 4 + × comme on le taperait sur une calculatrice à notation polonaise inversée), mais ces conventions sont extrêmement peu lisibles pour un humain.

Une autre façon de noter les choses, qui me semble assez intéressante ou en tout cas instructive, même si elle n'a jamais vraiment été utilisée en-dehors de la logique, consiste à utiliser les points comme parenthèses, que je veux présenter et discuter un peu. Sur mon exemple, cette notation donnerait :

2+2+2.×.3+4

avec des points autour du symbole de multiplication pour marquer qu'il doit être effectué après les additions. (On va supposer que le point n'est pas utilisé comme séparateur décimal, ou qu'il y a quelque magie typographique qui évite l'ambiguïté : ni ici ni ailleurs dans cette entrée il n'y a de nombres fractionnaires.)

La manière dont on lit une telle expression est la suivante : on commence par la séparer aux endroits où se trouve des points, on évalue tous les morceaux qui ont un sens en tant qu'expression (en l'occurrence, 2+2+2 et 3+4), puis on réattache les morceaux remplacés par leur valeur (ce qui donne 6×7).

Lorsqu'il y a plusieurs niveaux d'imbrications, on utilise des groupes formés d'un nombre de points croissant pour séparer les niveaux : la règle est alors qu'on commence par regrouper les morceaux séparés par un seul point, puis par un groupe de deux, puis de trois, et ainsi de suite. (Ainsi, un groupe d'un plus grand nombre de points correspond à un niveau de parenthésage plus « extérieur ».) Par exemple,

(14/(1+1))×(6+7)×(30−(6+5))

peut se réécrire dans la notation « ponctuée » comme

14/.1+1:×.6+7.×:30−.6+5

et pour l'évaluer, on commence par calculer les morceaux séparés par des points qui ont un sens tout seuls (1+1, 6+7 et 6+5), puis on regroupe les morceaux séparés par de simples points (14/.1+1 soit 14/2, et 30−.6+5 soit 30−11), et enfin on regroupe les morceaux séparés par deux points. Pour plus de symétrie quant au niveau d'opération × dans le facteur central, on peut préférer écrire

14/.1+1:×:6+7:×:30−.6+5

ce qui est peut-être plus lisible, surtout si on reflète le nombre de points dans l'espacement de la formule :

14/.1+1 :×: 6+7 :×: 30−.6+5

On peut bien sûr utiliser des symboles pour les groupes de deux, trois, quatre points et ainsi de suite : si je récupère des symboles Unicode pas vraiment fait pour, l'expression 6−(5−(4−(3−(2−1)))) peut se ponctuer en 6−∷5−∴4−:3−.2−1, mais généralement on se contente de mettre plusieurs caractères ‘.’ ou ‘:’ d'affilée pour représenter un groupe, comme 6−::5−:.4−:3−.2−1 (il faut traiter ces deux écritures comme parfaitement synonymes).

Les points servent donc à la fois de parenthèses ouvrantes et fermantes : il n'y a en fait pas d'ambiguïté car la directionalité est indiquée par la position par rapport aux symboles d'opérations (si je vois 20−.1+1, cela ne peut signifier que 20−(1+1) car (20−)1+1 n'a pas de sens) ; plus exactement, chaque groupe de points doit être adjacent à un symbole d'opération (sauf si on omet la multiplication, cf. ci-dessous), et correspond à une parenthèse soit ouvrante soit fermante selon qu'il est immédiatement après ou avant l'opération. Et la parenthèse court jusqu'au prochain groupe de points (vers la droite ou vers la gauche, selon le cas évoqué) dont le nombre de points est supérieur ou égal à celui considéré, ou à l'extrémité de l'expression (où se sous-entend un nombre infini de points, si on veut ; ainsi, sur mon premier exemple, on écrit 2+2+2.×.3+4 et non .2+2+2.×.3+4.).

Pour ceux qui veulent des règles plus formelles, je propose les suivantes. En écriture, si on a un arbre d'analyse formé d'opérations possiblement associatives, disons x1x2⋆…⋆xk (pour une certaine opération ici notée ⋆, et avec k=2 si l'opération ⋆ n'est pas supposée avoir d'association par défaut), pour la transformer en « expression ponctuée », on écrit de façon récursive chacun des sous-arbres x1,x2,…,xk comme expression ponctuée, et on concatène ces écritures en plaçant à gauche de chaque symbole ⋆ un groupe de points dont le nombre est strictement supérieur au nombre de points de n'importe quel groupe apparaissant dans l'écriture de la sous-expression gauche (si celle-ci est un atome = une feuille de l'arbre, c'est-à-dire un nombre ou une variable, on peut ne mettre aucun point) ; et de même à droite. Il est admissible de mettre plus de points que nécessaire, par exemple si on veut mettre le même nombre à gauche et à droite de chaque ⋆ intervenant à un niveau donné. On peut, bien sûr, avoir des règles supplémentaires lorsqu'on suppose une certaine priorité des opérations (par exemple, (3×2)+1 peut être noté 3×2+1 si on admet que la multiplication est prioritaire sur l'addition ; toutefois, ceci ne s'applique essentiellement qu'au niveau le plus bas : (3×(1+1))+1 devra certainement être noté 3×.1+1:+1, parce qu'on ne gagnerait rien que de la confusion à le noter 3×.1+1.+1). • Inversement, pour décoder une telle expression, on va, pour n allant de 0 au nombre maximum de points dans un groupe, remplacer chaque expression maximale de la forme x1x2⋆…⋆xk avec les xi des sous-arbres déjà constitués (ou des atomes), en ignorant les groupes de ≤n points pouvant intervenir à gauche ou à droite de l'opération ⋆, par un sous-arbre (ou un bloc parenthésé, si on préfère).

Ce système de notations ne recouvre pas tous les cas possibles d'usage des parenthèses. Disons qu'il nécessite plus ou moins qu'il y ait des symboles d'opérations dans l'histoire : si on a affaire à un contexte mathématique dans lequel on donne un sens différent aux notations u(v) et (u)v (ce qui, honnêtement, ressemble à une très mauvaise idée), ou à u et (u) (même remarque), alors on ne peut pas utiliser des points à la place des parenthèses.

Néanmoins, il marche dans des situations un peu plus générales que ce que j'ai présenté ci-dessus. Par exemple, il continue de fonctionner même si on décide de ne pas écrire le symbole × de multiplication : notamment, si dans la version parenthésée, au lieu de (14/(1+1))×(6+7)×(30−(6+5)) je décide d'écrire (14/(1+1))(6+7)(30−(6+5)), alors de même dans la version ponctuée, au lieu de 14/.1+1:×.6+7.×:30−.6+5 j'écris 14/.1+1:6+7:30−.6+5 et il n'y a pas d'ambiguïté dans le fait que quand un groupe de points apparaît directement entre deux atomes (nombres ou variables), il représente une multiplication (et comme 6.7 représente 6×7, de même 2+2+2.3+4 représente (2+2+2)×(3+4) ; tandis que 2+2+(2×3)+4 s'écrira 2+2+:2.3:+4 ou même, un peu audacieusement, 2.+.2.+.2.3.+.4 si on décide que la multiplication est prioritaire sur l'addition). Ceci fonctionne encore même si on suppose que la multiplication omise n'est pas associative : on distingue bien u(vw) de (uv)w comme u.vw et uv.w respectivement.

Par rapport aux règles formelles que j'ai proposées ci-dessus, l'omission du symbole de multiplication se traite ainsi lors de l'écriture : (a) on écrit toujours au moins un point pour la multiplication quand elle est entre deux chiffres, et (b) au lieu de mettre un groupe de points à gauche et à droite du symbole ⋆ (qui doit être omis), on en met un seul, avec un nombre de points commun, supérieur à celui de tout groupe intervenant dans n'importe quelle sous-expression parmi les x1,x2,…,xk (avec cette règle, 2(x+y)(t⋆(u+v)) s'écrit 2:x+y:t⋆.u+v plutôt que 2.x+y:t⋆.u+v si on veut vraiment placer les trois facteurs 2, x+y et t⋆(u+v) au même niveau).

Il n'y a pas non plus de problème avec les opérations unaires, qu'elles soient écrites de façon préfixe ou postfixe. Il y a, cependant, un problème si on a une opération qui peut être aussi bien unaire que binaire et que le symbole de multiplication est omis : c'est le cas avec le signe moins si on veut pouvoir écrire (2/3)(−3) (qui vaudrait −2 par multiplication implicite) et le distinguer de (2/3)−3 (qui vaut −7/3), les deux étant a priori ponctués comme 2/3.−3 ; on peut résoudre ce problème de différentes façons, par exemple en imposant que pour les opérations binaires qui peuvent aussi être unaires, le nombre de points à gauche et à droite soit égal quand elles fonctionnent comme opérations binaires (donc (2/3)−3 se ponctuerait comme 2/3.−.3, qui se lit sans ambiguïté), et/ou que le signe de multiplication ne peut pas être omis devant une opération unaire (donc (2/3)(−3) devrait s'écrire 2/3.×.−3).

Il me semble par ailleurs qu'il n'y a pas de problème particulier avec une opération ternaire (par exemple si je décide que t?u!v signifie si t=0 alors v et sinon u — je change légèrement la notation du C parce que les deux points sont pris par le sujet de cette entrée — alors il n'y a pas de problème à écrire de façon ponctuée des expressions contenant cette expression imbriquée en elle-même de façon arbitraire). Ceci étant, je n'ai pas forcément pensé à toutes les bizarreries des notations mathématiques, peut-être qu'il y a des cas où le système de points ne fonctionnera pas alors que les parenthèses fonctionnent (outre ceux que j'ai déjà mentionnés).

Il faut que j'en profite pour signaler qu'il y a toutes sortes de petites variations possibles dans le système, j'en ai déjà implicitement signalé quelques unes. Je mentionne notamment la suivante, qui est plus économique dans le nombre de points utilisés, au détriment de la lisibilité de l'ensemble, et qui me semble plutôt une mauvaise idée. Plus haut j'ai signalé que 6−(5−(4−(3−(2−1)))) s'écrit 6−::5−:.4−:3−.2−1 (et c'est ce qui résulte des règles formelles que j'ai proposées), mais on peut aussi imaginer l'écrire simplement come 6−.5−.4−.3−.2−1 ce qui est après tout inambigu vu que chaque ‘.’ suivant immédiatement un symbole d'opération doit représenter une parenthèse ouvrante. (La modification des règles formelles que j'ai proposées doit être quelque chose comme ceci. En écriture, on place à gauche de chaque symbole ⋆ un groupe de points dont le nombre est immédiatement strictement supérieur au plus grand nombre de points de n'importe quel groupe qui apparaît, dans l'écriture de la sous-expression gauche, immédiatement à droite d'un symbole d'opération — ou comme symbole de multiplication omis — en ignorant donc les groupes de points qui apparaissent immédiatement à gauche d'un symbole d'opération ; et symétriquement pour la droite. Et en lecture, pour chaque niveau n de points, on doit grosso modo répéter tant que possible la recherche d'une expression x1x2⋆…⋆xk avec les xi des sous-arbres déjà constitués, la remplacer par un sous-arbre, et retirer les éventuels groupes de n points — mais pas plus — qui seraient adjacents à l'expression.)

Comme je l'ai dit plus haut, je crois que les points comme parenthèses n'ont été véritablement employés que dans des textes de logique (et uniquement entre les connecteurs logiques, pas dans les expressions arithmétiques comme sur les exemples que j'ai pris), même s'il n'y a pas de raison de la lier à ce contexte précis. Je ne sais pas exactement qui a inventé cette notation : peut-être Peano dans ses Arithmetices principia: nova methodo ; mais je sais surtout qu'elle est utilisée dans les Principia Mathematica de Russell et Whitehead dont elle contribue à la réputation d'illisibilité même si je crois que c'est loin d'être ce qui les rend le plus difficile (on pourra jeter un coup d'œil à la page des Principia que j'ai déjà évoquée sur ce blog, et utiliser cette page pour quelques indications sur comment décoder tout ça). J'ai d'ailleurs l'impression que les philosophes qui s'intéressent à la logique mathématique ont, plus que les logiciens vraiment matheux, tendance à utiliser des notations vieillotes (il y a peut-être une raison sociologique à creuser), et en particulier ces points-comme-parenthèses. Il y a aussi l'épouvantable symbole ‘⊃’ utilisé à la place de ‘⇒’ pour l'implication, que la grande majorité des matheux ont abandonné il y a belle lurette, et que des philosophes s'obstinent, Apollon sait pourquoi, à utiliser.

Mais l'autre question à se poser, bien sûr, c'est : ce système de notation avec des points à la place des parenthèses a-t-il des avantages ? Je sais qu'a priori il semble plus compliqué que les parenthèses. Peut-être l'est-il intrinsèquement, mais je crois que c'est essentiellement une question d'habitude (c'est difficile d'être sûr vu que je n'en ai moi-même guère la pratique). Je vois trois principaux arguments qu'on peut avancer pour défendre le système de points : (1) il est légèrement plus compact (quand on discute une opération non associative, il est plus léger d'écrire uv.w que (uv)w, par exemple), (2) on repère plus rapidement le niveau d'imbrication des choses (qui n'a jamais peiné, dans une expression parenthésée, à retrouver où chaque parenthèse se ferme ?), et (3) il est, finalement, relativement analogue à la ponctuation d'un texte en langage naturel (où, grossièrement parlant, on regroupe d'abord les mots non séparés par une ponctuation, puis les groupes séparés par des virgules, puis ceux séparés par des points-virgules, et enfin ceux séparés par des points), rendu plus logique. Le principal inconvénient que je lui vois, c'est que si on veut remplacer, dans une expression, une valeur par une autre expression, on va possiblement devoir incrémenter le nombre de points partout dans l'expression, alors que les parenthèses assurent que tout se passe forcément bien.

Bien entendu, je ne propose pas de changer une notation mathématique bien établie (les parenthèses sont quand même pratiques, finalement), mais il peut être intéressant de se rappeler qu'il y a, ou qu'il y avait a priori, d'autres notations possibles et pas forcément idiotes. Se le rappeler peut aider à mieux comprendre l'analyse syntaxique, à la fois des expressions mathématiques et des phrases ponctuées en langage naturel (cf. mon point (3) ci-dessus) ; et cela peut aussi suggérer comment faciliter la lecture d'une expression mathématique par des enrichissements typographiques (typiquement : mettre à chaque endroit possible un espacement proportionnel au nombre de points qu'on aurait dans la notation avec les points comme parenthèses).

(mardi)

Deux remarques sur l'intuition du théorème de Gödel

C'est un théorème bien connu, et que j'ai expliqué il y a quelques années dans cette longue entrée, que ZFC (:= le système d'axiomes standard de la théorie des ensembles), s'il est consistant, ne peut pas démontrer que ZFC est consistant. C'est là le « second » théorème d'incomplétude de Gödel dans le cas particulier de ZFC. De même, PA (:= l'arithmétique de Peano du premier ordre) ne peut pas démontrer que PA est consistant. (Dans les deux cas, l'affirmation que le système est consistant signifie qu'il n'existe pas de suite finie de symboles partant des axiomes et suivant les règles de la logique pour arriver à la conclusion absurde 0=1 : et on a le droit de parler de suites finies de symboles parce qu'elles peuvent se remplacer par des entiers grâce à ce qu'on appelle le codage de Gödel. Je ne rentre pas dans les détails puisque j'ai déjà expliqué ça et qu'il y a déjà quantité de bonne vulgarisation sur le sujet.)

Du coup, on peut être tenté d'ajouter à ZFC un nouvel axiome Consis(ZFC), qui affirme ZFC est consistant, formant un nouveau système ZFC₁ ; puis, comme le théorème de Gödel s'applique aussi à lui, on peut encore ajouter un nouvel axiome Consis(ZFC₁) qui affirme que celui-là est consistant, formant un nouveau système ZFC₂ ; « et ainsi de suite ». (En réalité, il y a beaucoup de subtilités ici dans le ainsi de suite, et de toute façon ce n'est pas une bonne façon d'enrichir ZFC, ces axiomes étant à la fois beaucoup moins forts, moins maniables et moins intéressants, que les axiomes de grands cardinaux par lesquels on l'étend usuellement. S'agissant de PA, on peut aussi faire cette construction, en gardant à l'esprit que PA, PA₁, PA₂, etc., et leurs consistance, sont de toute façon des conséquences (théorèmes) de ZFC.)

Ce point est bien connu, donc, et peut-être même trop connu, à tel point qu'on fait dire à ce théorème de Gödel un peu n'importe quoi. Les deux faits suivants, en revanche, sont bien moins connus, et mériteraient pourtant de l'être autant, parce qu'ils invitent à reconsidérer la manière dont on interprète (au moins sur le plan intuitif ou philosophique) ce théorème d'incomplétude. J'ai mentionné ces faits en passant lors de l'entrée passée vers laquelle je viens de faire un lien, mais je pense que je n'ai pas assez attiré l'attention dessus, ce qui est dommage.

(Les deux points suivants sont indépendants l'un de l'autre.)

✱ Le premier fait, c'est qu'on peut tout à fait fabriquer une théorie ZFC† dont les axiomes sont ceux de ZFC plus un axiome supplémentaire qui dit ZFC† est consistant. Oui, c'est circulaire (la théorie affirme sa propre consistance), mais ce n'est pas très difficile d'arriver à formaliser ça en utilisant les astuces de points fixes habituelles. Et de même, on peut former PA† dont les axiomes sont ceux de PA (Peano) plus un axiome supplémentaire qui dit que PA† est consistant. Il s'agit d'une façon assez naturelle d'essayer de contourner le théorème d'incomplétude (au moins quand on a mal compris celui-ci), en se disant puisque je ne peux pas démontrer que mon système formel est consistant, je vais l'ajouter comme axiome (et affirmer directement que l'ensemble est consistant plutôt qu'ajouter un axiome qui dit que la théorie de départ est consistante, puis un autre qui dit que cette nouvelle théorie est encore consistante, et encore un autre qui dit que celle-ci est consistante « et ainsi de suite »).

Bref, on peut fabriquer cette théorie ZFC† ou PA†, mais le problème c'est elle est inconsistante (elle démontre 0=1). Parce que le théorème de Gödel s'applique à elle aussi, et comme il affirme que si la théorie est consistante elle ne peut pas démontrer sa consistance, et qu'elle démontre effectivement sa consistance (puisque c'est un axiome, et qu'un axiome compte bien comme une démonstration), du coup, elle n'est pas consistante.

Alors voilà, ce n'est pas bien passionnant, certes : j'ai construit une théorie et j'ai expliqué qu'elle ne marchait pas — mais je pense que c'est quand même instructif, au moins sur le plan de l'intuition. Quand on présente le théorème d'incomplétude de Gödel, que ce soit au grand public, à des mathématiciens non-spécialistes, ou à des débutants en logique, l'idée qui en résulte typiquement — et je ne prétends pas qu'elle soit fausse — est qu'un système formel consistant T (récursivement axiomatisable, et contenant un fragment suffisant de l'arithmétique) n'est jamais assez « puissant » pour démontrer sa propre consistance, mais que (a) il s'agit d'une notion un peu constructive de démonstration, et (b) la raison pour laquelle on est conduit à ajouter des axiomes qui disent T est consistant et cette théorie-là est consistance et cette théorie- est consistante, « et ainsi de suite », est qu'on ne peut jamais tout faire d'un coup. Or l'exemple de la construction que je viens de donner montre qu'il faut se méfier de cette intuition : (b) on peut tout à fait écrire une théorie qui affirme sa propre consistance, et (a) cette théorie est forcément inconsistante parce que le théorème de Gödel interdit à une théorie consistante (récursivement axiomatisable, et contenant un fragment suffisant de l'arithmétique) non seulement démontre sa propre consistance, mais même simplement qu'il l'affirme (un axiome compte bien comme une démonstration). Je vais citer la présentation de Torkel Franzén (Inexhaustibility, 2004, chap. 12) parce que je trouve qu'il est particulièrement clair :

It is often emphasized that the resources of a theory T do not themselves suffice to enable a proof of the consistency of T. Again it is only by “going outside the system” than one can prove that T is consistent.

A weakness of this emphasis is that it doesn't take into account that the relevant concept of proof is a very liberal one. The consistency of T is provable in the theory T+Consis(T). This is not because any new fundamental principle has been introduced or because the theory T+Consis(T) incorporates any new insight that goes beyond those expressed in T, but simply because the consistency of T has been postulated. We don't require any more of a proof, as the term is used in logic. Accordingly, the second incompleteness theorem makes a stronger statement than one might naturally suppose. The consistency of T not only cannot be derived from the basic principles embodied in T, it cannot even be consistently asserted in T. A theory cannot consistently postulate its own consistency. By the diagonal lemma, we can produce a formula φ formalizing This sentence is consistent with T, but since T+φ then proves its own consistency, we know that in fact it is inconsistent.

Why is it impossible for T to consistently postulate Consis(T)? Because a paradox results from such a postulate, or so Gödel's proof of the second theorem suggests. If T asserts its own consistency, it must both assert and deny the provability of the sentence formalizing This sentence is not provable in T. It's not just a matter of T lacking the resources to establish a particular truth (that T is consistent) but of it being impossible to consistently sneak in this truth as an assertion or postulate in the theory itself. Saying that one must go outside the system to prove the consistency of T conveys the suggestion that T metaphorically speaking has a kind of “blind spot”, that it cannot reflect on or understand or inspect itself sufficiently to establish its own consistency—and indeed in extrapolations from the incompleteness theorem to other fields (religion, physics, psychology) this suggestion is frequently made explicit. The fact that T cannot even consistently assert its own consistency, without attempting any inspection or justification whatever, would seem to indicate that this suggestion is a bit of a red herring.

Je trouve que cela illustre très bien la manière dont on a tendance à mal se représenter le théorème d'incomplétude comme traduisant un problème profond de « manque de force » — alors qu'il s'agit de quelque chose d'à la fois plus trivial et plus profond. (Bien sûr, tout ceci est juste une question d'interprétation intuitive : il n'y a aucune difficulté ou subtilité mathématique dans tout ce que j'ai écrit.)

Mais si ce point est un peu trivial et en quelque sorte négatif, le suivant est beaucoup plus intéressant mathématiquement, et il est plutôt positif. Par ailleurs, il concerne spécifiquement ZFC et PA (pas que ce soient les seules théories auxquelles il s'applique, mais il ne s'applique pas à « à peu près n'importe quoi » comme le point que je viens de faire).

✱ J'en viens donc au second fait que je voulais signaler. Il faut d'abord que je rappelle que ZFC et PA ont un nombre infini d'axiomes : ils comportent en effet des schémas d'axiomes (le principe de récurrence dans le cas de PA, et pour ce qui est de ZFC, les schémas de séparation (=compréhension, =sélection) et ceux de remplacement). Ces axiomes veulent affirmer certains faits pour toute propriété P (des entiers naturels dans le cas de PA, ou des ensembles dans le cas de ZFC) : comme la logique du premier ordre ne permet pas de quantifier sur les propriétés, on s'en tire en postulant tous les énoncés dans lesquels P est remplacé par n'importe quelle formule explicitement écrite dans le langage où on se place — ce qui fait donc une infinité d'axiomes.

(Digression : Il y a d'autres façons de faire, consistant plus ou moins à faire de la logique du second ordre, et qui permettent de ramener cette infinité d'axiomes à un nombre fini au prix d'une complication de la logique, et parfois un renforcement du système : ce sont par exemple la théorie des ensembles de Gödel-Bernays, essentiellement aussi forte que ZFC, ou celle, strictement plus forte, de Morse-Kelley, les deux permettant de parler de classes, ce qui revient à permettre de quantifier sur les propriétés, et, s'agissant de l'arithmétique, le système ACA qui est exactement parallèle de Gödel-Bernays et l'arithmétique du second ordre Z₂=PA² qui est exactement parallèle de Morse-Kelley. Mais je vais m'abstenir de plus parler de toutes ces théories, d'autant que ça devient vite technique quand il s'agit de distinguer la vraie logique du second ordre de la logique du second ordre « réifiée » au premier ordre au sens où on a une logique du premier ordre à deux types d'objets qui fait semblant d'être une logique du second ordre en décrétant que l'un de ces types est le type des « classes » ou « propriétés » de l'autre type, ce qui revient finalement au même sauf que la notion de modèle et toute la sémantique qui va avec est différente.)

Un point qui me semble très important, et qui est rarement suffisamment souligné dans les cours élémentaires de logique, est le suivant :

Chacun de ZFC et de PA prouve la consistance de tous ses sous-ensembles finis d'axiomes.

Autrement dit, ZFC ne prouve pas la consistance de ZFC (c'est ce par quoi j'ai commencé : le second théorème d'incomplétude), mais ZFC prouve la consistance de n'importe quel ensemble fini d'axiomes de ZFC. Et la même chose vaut pour PA. On dit que ce sont des théories réflexives. En fait, il y a mieux : n'importe quelle extension de l'une ou l'autre de ces théories, écrite dans le même langage, est elle-même réflexive (on dit que ZFC et PA sont essentiellement réflexives : dans le cas de PA, c'est un théorème de 1952 dû à Andrzej Mostowski, et dans le cas de ZFC, je crois que le résultat est dû à Richard Montague et/ou Azriel Lévy vers 1960).

Une des conséquences de ce théorème est que ni ZFC ni PA, s'ils sont consistants, ne peut pas être axiomatisé par un nombre fini d'axiomes (si un ensemble fini T₀ de théorèmes de ZFC, ou du coup, d'axiomes de ZFC, suffisait à impliquer tous les axiomes de ZFC, alors ZFC prouverait la consistance de T₀, donc T₀ prouverait la consistance de T₀, et en prenant T₀ assez fort pour faire de l'arithmétique basique — je ne rentre pas dans les détails — ceci contredit le théorème de Gödel appliqué à la théorie T₀ ; et exactement le même raisonnement vaut pour PA). Mieux : comme ZFC et PA sont essentiellement réflexifs, aucune théorie consistante contenant ZFC ou PA et écrite dans le même langage ne peut être axiomatisée par un nombre fini d'axiomes. Mais ce n'est pas vraiment de ça que je veux parler.

Le résultat ci-dessus doit surprendre, parce qu'il paraît contredire le théorème de Gödel. L'argument serait le suivant : s'il y avait une contradiction dans ZFC, la démonstration de cette contradiction n'utiliserait qu'un nombre fini d'axiomes de ZFC (si on veut, c'est le théorème de compacité syntaxique, mais c'est une trivialité : une démonstration, étant de longueur finie, ne peut faire appel qu'à un nombre fini d'axiomes !) ; mais d'après ce que j'ai dit, ZFC prouve que ceci ne peut pas se produire (tout ensemble fini d'axiomes de ZFC est consistant) — du coup, ZFC est consistant, et on semble avoir prouvé ce fait dans ZFC ! Quelle est l'arnaque ?

L'arnaque est que le théorème de réflexivité ci-dessus est un métathéorème ; plus exactement, donné un ensemble T₀ quelconque d'axiomes de ZFC, on a une recette tout à fait explicite qui fabrique une démonstration à partir des axiomes de ZFC dont la conclusion est T₀ est consistant, et c'est un théorème (de ZFC, PA ou de systèmes encore plus faibles) que cette recette marche, i.e., l'énoncé encadré ci-dessus est bien un théorème. Mais, s'il est vrai que pour tout T₀ fini ⊆ZFC, T₀ est consistant est un théorème de ZFC, et que ceci est aussi un théorème de ZFC ou PA (i.e., pour tout T₀ fini ⊆ZFC, T₀ est consistant est un théorème de ZFC), en revanche, l'affirmation pour tout T₀ fini ⊆ZFC, T₀ est consistant, elle, n'est pas un théorème de ZFC (si ce dernier est consistant), car elle implique la consistance de ZFC d'après le raisonnement que j'ai fait au paragraphe ci-dessus.

Je répète : pour tout ensemble fini T₀ d'axiomes de ZFC, on sait fabriquer une démonstration dans ZFC que cet ensemble T₀ est consistant, et on sait montrer dans ZFC (ou PA ou moins) que ce procédé marche bien, mais on ne peut pas en conclure dans ZFC que tout ensemble fini T₀ d'axiomes de ZFC est consistant. On peut résumer cette situation ainsi : il est vrai que pour tout ensemble fini T₀ d'axiomes de ZFC, ZFC démontre la consistance de T₀, mais il ne le fait pas uniformément en T₀. C'est un cas du phénomène appelé la ω-incomplétude : pour tout n on démontre P(n) selon une recette générale et explicite, mais on ne peut pas démontrer ∀n.P(n) (ici, s'imaginer que n est un codage de T₀ et P(n) est l'affirmation que ce T₀ est consistant).

Absolument tout ceci vaut en remplaçant ZFC par PA partout (i.e., pour tout sous-système fini T₀ de PA, PA démontre que T₀ est consistant, mais ne le fait pas de façon uniforme). Ce fait est, d'ailleurs, étonnamment difficile à trouver écrit dans des bouquins de logique arithmétique.

Pour autant, pour tout usage philosophique ou épistémologique, je suis tenté de dire que ce qui précède (je veux dire, le résultat encadré ci-dessus) est exactement aussi bien qu'une démonstration de la consistance de ZFC dans ZFC, resp. de PA dans PA. Je ne sais pas au juste ce qu'on espérerait accomplir à avoir une démonstration de la consistance de ZFC dans ZFC ou de celle de PA dans PA (le projet de Hilbert était plutôt d'avoir une démonstration de la consistance d'un système fort dans un système faible, donc disons quelque chose comme celle de ZFC dans PA, or ça c'est vraiment hors de question). Mais je suppose que l'idée serait quelque chose comme je suis prêt à admettre comme mathématiquement vrais et certains les résultats — au moins arithmétiques — dont j'ai une démonstration dans ZFC, et je me sentirais plus rassuré si j'étais certain qu'il n'y a pas de démonstration de résultats absurdes dans ZFC, ce qui n'est pas si idiot que ça même si c'est circulaire (admettre que ZFC est vrai — ne serait-ce qu'arithmétiquement — est beaucoup plus fort qu'admettre qu'il est consistant, donc à partir du moment où on l'admet comme vrai, l'étape épistémologique à l'admettre comme consistant devrait être gratuite). Le principe de réflexion que j'ai encadré ci-dessus rend la réticence à admettre que ZFC est consistant encore plus bizarre dans ce contexte : si je suis prêt à admettre la consistance de tous ses sous-systèmes finis, je devrais bien admettre la consistance de la théorie tout entière ; plus exactement, si on me fournit un modèle simple permettant de construire, pour tout ensemble fini T₀ d'axiomes de ZFC, une preuve du fait que T₀ est consistant (et en outre, une méta-preuve du fait, d'ailleurs plus ou moins évident, que ce procédé fonctionne bien), il serait extrêmement bizarre de ne pas en admettre la conclusion, à savoir que tout ensemble fini T₀ d'axiomes de ZFC est consistant.

(lundi)

Qu'est-ce qu'une machine hyperarithmétique ?

Voici un concept mathématique (voire, informatique ?) dont je suis tout étonné de découvrir que je ne l'ai jamais encore proprement défini sur ce blog, alors même que ça aurait été logique et pertinent de le faire dans différentes entrées que j'ai déjà écrites. (Par exemple, j'y fais explicitement référence dans cette entrée, et il aurait été logique d'en parler dans celle-ci ; et au sujet de cette entrée récente, je pourrais dire qu'il s'agit exactement de la puissance de calcul du niveau ωCK de la « Théorie de la Totalité Transfinie de Turing ».) Je voudrais donc réparer ce manque, d'autant plus que je trouve que le sujet devrait être standard, et connu, notamment, de tous les informaticiens théoriciens vaguement préoccupés de calculabilité ou de complexité (or je suis sûr que ce n'est pas le cas[#]) : une machine hyperarithmétique est un type d'ordinateur théorique strictement plus puissant que les machines de Turing, et il me semble qu'avoir en tête à la fois la notion de fonctions hyperarithmétiques (plus générales que les fonctions calculables au sens de Church-Turing, donc) et la notion de fonctions primitives récursives (plus restreintes) aide à mieux comprendre les contours de la calculabilité (y compris si on ne s'intéresse, in fine, qu'aux machines de Turing). Il me semble par ailleurs qu'il s'agit d'une notion relativement intuitive (je vais donc essayer de la présenter comme telle), qu'il est donc dommage de laisser cachée dans des textes de calculabilité supérieure un peu oubliés et au formalisme souvent obscur.

Je commence par rappeler[#2] ce que c'est que la calculabilité au sens habituel, i.e., de Church-Turing : les lecteurs pour lesquels ce concept est familier peuvent sauter jusqu'au symbole ♠ plus bas.

En bref, [une fonction] calculable (sous-entendu : au sens de Church-Turing) signifie [une fonction] qui pourrait être calculé(e), en principe, par un algorithme tournant sur un ordinateur — sachant que cet ordinateur n'a aucune limite sur la quantité de mémoire qu'il peut utiliser, ni sur le temps qu'il peut prendre, à part que le temps doit être fini (et la mémoire, du coup, automatiquement aussi).

Pour donner une définition plus précise, il y a plein de possibilités : la première qui ait été introduite historiquement, vers 1930, est le lambda-calcul de Church, mais même si elle est utile pour modéliser les langages de programmation fonctionnels, elle n'est pas très parlante intuitivement ; la seconde définition est venue par les fonctions générales récursives (je n'ai pas réussi à comprendre exactement quelle en était l'histoire, mais elles doivent être associées à un ensemble intersectant les noms suivants : Herbrand, Gödel, et Kleene) ; mais la définition de la calculabilité qui a vraiment achevé de convaincre le monde des mathématiciens qu'il s'agissait de la bonne notion est venue en 1936 quand Turing a défini la machine qui porte maintenant son nom. Quantité d'autres définitions ont été données depuis (par exemple avec des machines à registres). J'en donnerai moi-même une (illisible) ci-dessous comme produit dérivé d'une définition rigoureuse du sujet principal de cette entrée (pour les fonctions calculables, retirer la clause (vii) qui me sert à définir les fonctions hyperarithmétiques). Le point important est que toutes ces définitions sont équivalentes au sens où elles conduisent à la même classe de fonctions « calculables » : la fameuse thèse de Church-Turing affirme que n'importe quelle tentative pour définir la notion de « fonction calculable par un algorithme » aboutira, in fine, à cette même classe des fonctions calculables (au sens de Church-Turing, donc), étant bien entendu que l'« algorithme » doit manipuler à tout instant des données finies, et terminer en temps fini (et, par ailleurs, ne peut pas faire appel au hasard, ou en tout cas le résultat final ne doit pas en dépendre).

(lundi)

Comment écrire les nombres en base 5×6

Nous écrivons les nombres en base 10 (c'est-à-dire que pour compter des billes, nous faisons des tas de 10, puis des tas de 10 de ces tas, puis des tas de 10 de ceux-là, etc., et nous indiquons par un chiffre le nombre de chaque type de tas) : heureusement, de la Chine à la Patagonie, tout le monde est d'accord là-dessus, y compris les pays reculés qui continuent à diviser leurs unités de longueur en 1760 et leurs unités de poids en 16. On voit parfois avancée çà ou là l'idée qu'on ferait mieux de compter en une autre base (typiquement 12). Le choix de 10 n'est peut-être pas idéal, mais l'intérêt d'avoir un standard commun à tout le monde est infiniment supérieur à l'avantage d'avoir telle ou telle autre base peut-être préférable dans l'absolu : même si nous utilisions une base franchement merdique, comme 11, il vaudrait mieux rester sur un standard merdique mais commun que de chercher à créer de la confusion en en changeant (c'est d'ailleurs pour le même genre de raison que je ne pense pas qu'il soit une bonne idée d'essayer de changer d'autres choses qui ont été adoptées universellement, comme le calendrier grégorien et ses bizarreries bêtement baroques). Tout ça pour dire que je ne propose certainement pas une seule seconde de changer de système d'écriture des nombres (même si j'avais le pouvoir de motiver des gens à initier un tel changement, je ne voudrais en aucun cas m'en servir). J'espère que j'ai bien enfoncé la porte ouverte, et que je peux maintenant aborder la question purement théorique de ce que pourrait être une bonne base si on devait repartir de zéro.

L'intérêt d'avoir une base b divisible par des petits nombres (premiers) est principalement que les fractions simples vont pouvoir s'écrire en base b de façon simple : le fait que 10=2×5 fait que les rationnels 1/2 et 1/5 s'écrivent respectivement 0.5 et 0.2 en cette base, tandis que le fait que 3 ne divise aucune puissance de 10 est responsable du fait que 1/3 s'écrit 0.333333…, ce qui est un peu agaçant dès qu'on veut manipuler des tiers (notamment à cause des arrondis : si on arrondi 1/3 à 0.333, alors dès qu'on en met trois, on tombe sur 0.999 et il y a un millième qui est tombé à l'eau). L'argument en faveur de la base b=12 est que comme il est divisible par 2, 3 et 4, il simplifie l'écriture des fractions de petit dénominateur (1/2 s'y écrit 0.6, 1/3 s'y écrit 0.4, et 1/4 s'y écrit 0.3), mais évidemment, on perd le 1/5, qui devient 0.24972497…, ce qui n'est pas franchement plaisant. • L'intérêt d'avoir une base b petite est, quant à lui, que les tables d'addition et de multiplication sont d'autant plus courtes à apprendre : la base 2 est bien sûr particulièrement simple de ce point de vue-là, et il est naturel qu'on s'en serve dans circuits électroniques (je veux dire : outre le fait qu'il est naturel de représenter 0 et 1 par l'absence et la présence d'un signal, l'addition et la multiplication se calculent de façon particulièrement simple), même si elle est peu appropriée au calcul humain à cause de la longueur de la représentation des nombres.

D'un autre côté, les choix sont apparemment limités : si la base est trop petite, les nombres sont trop longs à écrire, si elle est trop grande, les tables d'opération sont trop complexes à mémoriser, et si on cherche à avoir autant de divisibilités que possible, il semble que 6 ou 12 soient peut-être les choix les plus sensés, et en tout cas 10 n'est pas du tout mauvais.

(À ce propos, j'espère enfoncer de nouveau des portes grandes ouvertes, mais quand j'écris par exemple la base 12, il va de soi que ce 12 est lui-même écrit de la manière dont nous écrivons habituellement les nombres, c'est-à-dire dans la base dont la valeur est [le nombre de ‘I’ dans ce qui suit] IIIIIIIIII. C'est complètement idiot, mais si on n'éclaircit pas ce point, certains sont capables de s'imaginer que le nombre 10 est magique.)

La discussion ci-dessus, cependant, néglige le fait qu'il y a toutes sortes de variations possibles sur l'écriture en base b, qui peuvent être utiles dans différents sens, ou qui pourraient arriver pour des raisons essentiellement historiques. Les mayas, et les aztèques à leur suite, par exemple, pour autant que je comprenne, écrivaient les nombres en base 20, sauf que le chiffre des vingtaines était exceptionnel et n'allait que jusqu'à 18 : i.e., ils faisaient des paquets de 20 unités, puis des paquets de 18 paquets, puis des paquets de 20 de ces paquets, et de même de 20 à tous les niveaux suivants ; ceci fournissait une correspondance avec leur calendrier de 18 mois de 20 jours. Par ailleurs, même l'écriture des chiffres de 0 à 19 était plus ou moins faite en base 5 (ils utilisaient un bâton pour le nombre 5, un point pour le nombre 1, et donc par exemple trois bâtons et deux points pour le chiffre 17 — je dis bien chiffre, parce que 17 était un chiffre de leur écriture en base à-peu-près-20 ; le zéro était noté spécialement, pour ne pas laisser un vide disgracieux dans l'écriture).

Pour donner un exemple d'écriture qui n'est pas tout à fait une base b entière mais qui s'y rapproche beaucoup, on peut écrire les entiers en « base Fibonacci » : cette représentation n'utilise que les chiffres 0 et 1 et interdit à deux ‘1’ d'être consécutifs, la valeur des positions étant donnée par les termes de la suite de Fibonacci ((1,)1,2,3,5,8,13,21… chacun étant la somme des deux précédents). Ainsi, comme 17=13+3+1, le nombre 17 s'écrira 100101 : et les premiers entiers s'écrivent 0, 1, 10, 100, 101, 1000, 1001, 1010, 10000, 10001, 10010, 10100, 10101, 100000, etc. Ce mécanisme d'écriture (dont il existe d'ailleurs un certain nombre de variations) peut avoir un intérêt dans certaines circonstances, et il est possible d'y mener des calculs, mais évidemment, il est encore plus encombrant que la base 2 (et l'écriture fractionnaire n'est pas du tout claire). Je l'évoque surtout pour montrer qu'il n'y a pas que les écritures en base b qui peuvent avoir un sens ou un intérêt. (D'ailleurs, mon voisin de bureau est spécialiste de ce genre de questions.)

⁂ Bon, alors, si je devais absolument choisir un système d'écriture des nombres de novo, qui soit relativement aisément manipulable à la main si on oublie l'héritage de la base 10, je crois que je choisirais la base 30 écrite sous la forme 5×6, c'est-à-dire une base alternée 5 et 6.

Autrement dit, l'idée est de faire des paquets de 6, puis de faire des paquets de 5 de ces paquets, puis des paquets de 6 de ces paquets-là, puis des paquets de 5 de ceux-là, et ainsi de suite en alternant 6 et 5 : comme les paquets de paquets sont toujours de 30, on peut dire qu'on travaille en base 30, mais on le fait en n'utilisant que des paquets de 6 ou 5, ce qui garde des chiffres petits et manipulables, et des tables d'opérations facilement mémorisables.

Concrètement, on utiliserait deux séries de chiffres, disons 0,1,2,3,4,5 pour les chiffres en base 6, et Z,A,B,C,D pour ceux en base 5 ; ces deux séries alterneraient systématiquement (en terminant par la série 0…5 pour le chiffre des unités). Le fait d'avoir deux séries de chiffres qui alternent peut d'ailleurs avoir un intérêt en lui-même : il évite certaines erreurs de décalage d'une colonne (à la fois à la lecture, et lorsqu'on effectue les opérations). • Les premiers entiers s'écrivent donc 0, 1, 2, 3, 4, 5, A0, A1, A2, A3, A4, A5, B0, B1, B2, B3, B4, B5, C0, C1, C2, C3, C4, C5, D0, D1, D2, D3, D4, D5, 1Z0, 1Z1, 1Z2, 1Z3, 1Z4, 1Z5, 1A0, etc. Le nombre décimal 1760 s'écrirait, par exemple, 1D4C2 dans ce système, parce qu'il vaut 1×30² + 4×6×30 + 4×30 + 3×6 + 2 (le 2 est le chiffre des unités, le C est le chiffre des sixaines, le 4 est le chiffre des groupes de 5×6=30, le D est le chiffre des groupes de 6×5×6 = 6×30 = 180, et le 1 est le chiffre des groupes de 5×6×5×6 = 30² = 900) : cette conversion est, bien sûr, fastidieuse, mais ça ne dit rien sur cette base spécialement parce que la conversion d'une base à une autre est toujours fastidieuse (enfin, sauf entre puissances d'un même nombre).

L'addition en base mixte 5×6 se fait exactement comme en base (pure) quelconque, et notamment comme en base 10 : il faut retenir deux tables d'addition, l'une de taille 6 et l'autre de taille 5, mais leur taille combinée est plus petite qu'une table de taille 10 (très nettement, même, si on compte que la table des zéros est vraiment triviale) :

+012345
0012345
112345A0
22345A0A1
3345A0A1A2
445A0A1A2A3
55A0A1A2A3A4
+ZABCD
ZZABCD
AABCD1Z
BBCD1Z1A
CCD1Z1A1B
DD1Z1A1B1C

Les chiffres (A ou 1) soulignés indiquent qu'il s'agit là de retenues à faire sur la colonne suivante. À titre d'exemple, C3 plus C3 vaut 1B0 : on commence par faire 3+3, ce qui donne A0 d'après la table de gauche, c'est-à-dire 0 avec une retenue de A, puis on effectue C+C dans la table de droite, ce qui donne 1A, auquel il faut encore ajouter la retenue, donc 1B. L'algorithme est donc exactement le même que celui qu'on apprend à l'école primaire, il y a juste deux séries de chiffres, mais on ne peut pas se tromper de table ou de colonne parce que les chiffres d'une série donnée ne peuvent que s'ajouter ensemble. • Il faut quand même que je souligne qu'une écriture comme 1B n'est pas un nombre valable (un nombre entier doit toujours se terminer par un chiffre de la série 0…5) : quand la table de droite donne une écriture comme C+D=1B, il faut en fait comprendre qu'elle signifie C0 + D0 = 1B0, les 0 étant omis (ce n'est pas important pour appliquer l'algorithme d'addition, mais c'est important pour ne pas s'embrouiller sur la signification de ce qu'on fait).

Pour la multiplication, les choses sont un tout petit peu plus compliquées : on a trois tables de multiplication à retenir, dont la taille totale est encore inférieure à l'unique table de la multiplication en base 10, mais dont le mode d'emploi est un chouïa plus délicat. Voici ces trois tables :

×012345
0000000
1012345
2024A0A2A4
303A0A3B0B3
404A2B0B4C2
505A4B3C2D1
×ZABCD
0ZZZZZ
1ZABCD
2ZBD1A1C
3ZC1A1D2B
4ZD1C2B3A
5Z1Z2Z3Z4Z
×ZABCD
Z0Z0Z0Z0Z0Z
A0Z1A2B3C4D
B0Z2B4DA1AA3C
C0Z3CA1AA4DB2B
D0Z4DA3CB2BC1A

La table de gauche ne pose aucune difficulté particulière : on a, par exemple, 4×5=C2, écriture tout à fait normale et qui n'appelle pas à un commentaire particulier ; la table du milieu est utilisée normalement quand on multiplie ensemble un chiffre de la série 0…5 et un chiffre de la série Z…D, et il faut comprendre qu'il y a un 0 implicite après chaque lettre de la table (par exemple, 3×D=2B signifie en fait 3×D0=2B0, parce que 2B n'est pas un nombre valable) ; c'est surtout la troisième table qui est un tout petit peu subtile à utiliser, parce que le décalage des chiffres est un peu modifié : il y a de nouveau un 0 à comprendre implicitement à la fin de chaque entrée, mais il n'y a pas en plus un Z implicite comme on pourrait l'imaginer — par exemple, l'entrée B×D=A3C signifie en fait B0×D0=A3C0 et ce dernier ‘C’ peut surprendre parce qu'on s'attendrait à avoir un ‘Z’ si l'algorithme était exactement le même qu'en base 10 (où le produit de deux nombres se terminant par un chiffre zéro se termine par deux zéros). [Ajout La raison est qu'un nombre finissant par un ‘0’ signifie qu'il est multiple de 6 (i.e., de A0), et quand on multiplie deux tels nombres, on obtient un multiple de 6×6=36 (i.e., de 1A0), et pas forcément de 30 (i.e., 1Z0). Voir aussi le commentaire de JML sur cette entrée.] J'ai donc écrit en italiques le dernier chiffre (de la série Z…D) de chaque entrée de cette troisième table, pour rappeler qu'il est décalé d'un cran par rapport à ce qu'on peut imaginer — on peut par exemple le voir comme une retenue à droite. (Remarquons que sa valeur est complètement prévisible : c'est Z,A,B,C,D selon que le chiffre juste avant vaut 0,1,2,3,4, et il ne peut pas être 5, donc l'effort de mémoire n'est pas considérablement alourdi ! Accessoirement, dans chacune des trois tables ci-dessus on peut faire différents commentaires pour aider à la mémorisation.)

Voici comment faire une multiplication en base 5×6 avec ces tables : comme en base 10, on va multiplier le premier nombre dont on veut faire le produit (appelons-le le multiplicande) par chacun des chiffres de l'autre nombre (appelons-le le multiplicateur). Lorsque le chiffre du multiplicateur par lequel on multiplie est un chiffre de la série 0…5, pas de difficulté, on utilise les deux tables de gauche ci-dessus, et on traite les retenues comme on le fait en base 10, c'est-à-dire en en mémorisant une de chaque colonne à la suivante (on peut aussi, si on trouve fastidieux d'ajouter les retenues à la volée, les écrire explicitement comme une ligne supplémentaire qu'il faudra incorporer dans l'addition finale). En revanche, quand le chiffre du multiplicateur par lequel on multiplie est un chiffre de la série Z…D, on utilise les deux tables de droite, et la table la plus à droite va donner, à chaque fois qu'on l'utilise, un chiffre (de la série Z…D, en italique dans la table) à ajouter sur la colonne un cran à droite de celle qu'on serait normalement en train d'écrire : pour ne pas avoir à s'arracher les cheveux à faire plein d'additions à la volée, il est plus simple d'écrire en fait deux lignes, l'une pour les produits donnés par la table du milieu et l'autre pour ceux donnés par la table de droite (l'addition finale sera plus complexe, du coup, mais en contrepartie, les retenues sont beaucoup plus faciles à faire) ; ou, si on préfère la variante suivante, on se réserve une ligne pour les calculs « normaux » donnés par les deux tables, et une ligne uniquement pour les chiffres de la série Z…D qui sont en italiques dans la troisième table.

À titre d'exemple, si je veux calculer C3×C3, je commence par effectuer le produit du multiplicande par le dernier chiffre, 3, du multiplicateur : comme 3×3=A3, j'écris un 3 et je retiens A, puis C×3=1D, auquel j'ajoute mentalement la retenue de A donne 2Z, et j'écris donc finalement 2Z3 comme première ligne intermédiaire ; puis je dois multiplier C3 par C : une possibilité est d'écrire les deux produits 3×C=1D et C×C=A4D sur deux lignes différentes (les D finaux étant bien sûr alignés avec le Z de la ligne déjà écrite), l'autre variante est de se dire qu'on fait 3×C=1D donc on écrit D et on retient 1, puis C×C=A4D, donc on écrit A5, à cause de la retenue, devant le D déjà écrit, et le D italique de cette dernière multiplication est écrit sur une autre ligne. Dans un cas, on doit finalement ajouter 2Z3 + 1D□ + A4D□ (où j'ai noté □ pour un emplacement laissé vierge : c'est bien sûr la même chose qu'un zéro), dans l'autre on doit ajouter 2Z3 + A5D□ + D□, ce qui ne fait bien sûr aucune différence, seulement de ce qu'on a choisi de mettre dans une ligne ou l'autre, et la somme finale vaut B2C3.

Mes descriptions sont un peu fastidieuses parce que j'ai la flemme de faire des images ou une vidéo montrant clairement le processus (et aussi parce que j'ai décrit ci-dessus deux petites variantes de l'algorithme), mais il n'est vraiment qu'à peine plus compliqué que ce qu'on fait en base 10 : en pratique, j'ai fait quelques essais, et mis à part que je ne connais pas par cœur les tables ci-dessus et que j'ai toujours envie de convertir en base 10 pour vérifier mes calculs, je crois que ça va aussi vite et on pourrait tout à fait apprendre ce système de numération à des enfants à la place de la base 10. (Je répète que je ne propose surtout pas de le faire dans le monde actuel !, je dis juste que si on n'avait pas l'héritage culturel de la base 10, il serait aussi utilisable.) Les tables d'opérations étant plus faciles à apprendre, on y gagne un petit peu : d'un autre côté, les nombres sont 35% plus longs en moyenne (parce que 2×log(10)/log(30) vaut environ 1.35).

Je ne décris pas l'algorithme de division, mais il ne présente pas de difficulté particulière (de toute façon, une division façon école primaire se fait essentiellement par multiplication : on teste juste les chiffres qu'on peut placer au quotient) ; de même, la soustraction se fait sans problème. On peut aussi se dire qu'on fait les opérations en base 30, les chiffres en base 30 étant eux-mêmes écrits en base 6 (avec la convention que le premier chiffre est pris dans la série Z…D, le E étant impossible, et le second dans la série 0…5, pour aider à s'y retrouver) : dans ce cas, il n'y a pas de surprise à ce que les opérations soient faisables. (Ceci s'applique notamment à un algorithme classique de calcul à la main des racines carrées ; mais cet algorithme demande de traiter deux chiffres du radicande d'un coup, et du coup ici il faudra traiter deux chiffres en base 30, c'est-à-dire quatre chiffres en base mixte 5×6.)

Bien sûr, le système que je viens de décrire permet aussi de manipuler des nombres à virgule : immédiatement après la virgule, on a un chiffre de la série Z…D qui représente des cinquièmes, ensuite un chiffre de la série 0…5 qui représente des trentièmes (des sixièmes de cinquièmes), etc. Par exemple, 1/2 s'écrit 0.B3 (calculer B3×2 pour s'en convaincre), 1/3 s'écrit 0.A4, 1/4 s'écrit 0.A1B3, 1/5 s'écrit 0.A0 (qu'on peut noter simplement 0.A si on n'a pas peur de causer une confusion), et 1/6 (enfin, 1/A0) s'écrit 0.Z5. C'était bien tout l'intérêt du choix de la base 5×6 que les fractions de dénominateur ≤6 s'écrivent toutes de façon exacte avec un nombre fini de chiffres. Le nombre 1/7 (i.e., 1/A1), lui, s'écrit 0.Z4A2B5Z4A2B5… ; ensuite, 1/8 (i.e. 1/A2) vaut 0.Z3C4B3 et 1/9 (i.e., 1/A3) vaut 0.Z3A4, et quant à 1/10 (i.e. 1/A4), il vaut 0.Z3. Enfin, je signalerai que 1/11 (i.e., 1/A5) s'écrit 0.Z2C3D0B4A4D3A2Z5B1C1Z2C3D0B4… (Et pour lister un irrationnel, √2 vaut 1.B0B0C5C4D5B4D5Z2D5C0D2D1D0D3Z5D2C5C1B4C5…) Tous les nombres qui s'écrivent en décimal de façon exacte avec un nombre fini de chiffres (i.e., toutes les fractions qui admettent une puissance de 10 comme dénominateur) s'écrivent aussi de façon exacte en base 5×6 (mais il faudra, dans le pire des cas, deux fois plus de chiffres pour les écrire).

Bon, tout ceci était vraiment de la plus haute trivialité mathématique, et d'un intérêt infinitésimal puisque je répète que je ne propose pas une seule seconde d'adopter ce système (sauf peut-être si l'humanité perdait toutes ses connaissances antérieures et devait tout reconstruire de zéro) : j'ai donc consacré à ce sujet beaucoup plus d'espace qu'il ne le méritait. Mais si par hasard vous croisez un jour un de ces huluberlus qui font la pub de la base 12, vous pourrez lui répondre avec la base 5×6.

Et je laisse en exercice au lecteur de trouver les raisons (essentiellement anecdotiques) pour lesquelles la base 5×6 m'a semblé très légèrement préférable à la base 6×5.

(jeudi)

Analysons le mécanisme de vote du Conseil de l'UE

Le Conseil de l'Union européenne, dont le nom officiel est juste le Conseil, et qu'on appelle parfois aussi informellement Conseil des ministres parce qu'il réunit les ministres des 28 états membres sur un sujet donné, est en quelque sorte la chambre haute de la législature de l'Union européenne (dont le Parlement européen serait la chambre basse), représentant les intérêts des États membres tandis que le Parlement européen représente la population de l'Union : il est donc vaguement analogue au Sénat des États-Unis ou au Bundesrat allemand (représentant, dans les deux cas, les entités fédérées). Si je simplifie en passant sous silence un nombre incroyable de cas particuliers, subtilités, astérisques et autres exceptions, une directive européenne (l'équivalent d'une loi) doit, pour être adoptée (selon la procédure législative ordinaire) être proposée par la Commission, et adoptée dans les mêmes termes par le Parlement et le Conseil. Je me propose d'analyser un peu la manière dont ce Conseil vote.

Les gens qui n'aiment pas lire des logorrhées (mais que faites-vous sur mon blog, aussi ?) peuvent sauter plus bas où il y a des jolis graphiques.

La petite minute nécessaire du Club Contexte : il y a aussi un Conseil européen, terminologie épouvantablement idiote parce qu'il n'est pas plus européen que l'autre, qui ressemble beaucoup au Conseil [des ministres] en ce qu'il est formé des représentants des 28 États membres, mais qui diffère en ce qu'il est formé des chefs d'État ou de gouvernement au lieu des ministres, et dont les fonctions ne sont pas tout à fait claires au niveau institutionnel (il « dirige », donne des « impulsions », etc.). Du coup, le Conseil européen a très rarement l'occasion de procéder à des votes, à part pour des cas très précis comme quand il s'agit de nommer le président de la Commission et qu'il n'y a pas de consensus. Les deux conseils (Conseil européen et Conseil [des ministres]) se ressemblent par certains points : dans les rares cas où le Conseil européen effectue un vote, c'est le même mécanisme de vote que pour le Conseil, et les deux Conseils ont, par exemple, le même logo représentant le futur bâtiment qu'ils auront aussi en commun (parfois l'un des deux ajoute au logo le mot latin Consilium, mais je n'ai pas compris lequel, ça a l'air de changer, et c'est peut-être obsolète), et ils ont le même site Web. Il y a aussi des différences : notamment, contrairement au Conseil [des ministres], qui est présidé par un État tournant tous les six mois [subtilité : sauf quand il est en formation affaires étrangères], le Conseil européen est présidé par une personne stable, en l'occurrence l'ancien Premier ministre polonais Donald Tusk. Je pense que l'idée est que si on considère l'UE comme un État fédéral ou confédéral, le Conseil européen en est une sorte de chef d'État collégial : il nomme le chef du gouvernement, c'est-à-dire de la Commission, et il a la main sur les grandes lignes de la politique étrangère. (Il n'est pas rare dans les dispositions constitutionnelles qu'il y ait une certaine porosité ou proximité entre le chef de l'État et la chambre haute du parlement : par exemple, le vice-président des États-Unis est ex officio président du Sénat, tandis que le président du Sénat français devient président par intérim si le président décède, et on peut certainement citer d'autres exemples ; la confusion entre les deux Conseils se comprend donc un peu dans cette logique.) • Par ailleurs, il ne faut pas confondre l'un ou l'autre de ces Conseils, qui sont des institutions de l'Union européenne, avec le Conseil de l'Europe, qui est une autre institution internationale, strictement plus grande que l'Union européenne (et dont, par exemple, la Norvège, la Suisse et la Russie sont membres). Pour tout arranger au niveau confusion, le Conseil de l'Europe a le même drapeau que l'Union européenne (c'est même lui qui l'a utilisé en premier), et aussi le même hymne.

Généralités : La plupart des décisions du Conseil [de l'UE, i.e., Conseil des ministres] se prennent, dans la pratique, sur la base du consensus : un vote a lieu formellement, mais il est précédé de beaucoup de négociations, voire de marchandages, menées informellement (par courrier électronique, par l'intermédiaire des représentants permanents à Bruxelles, ou au cours de réunion officieuses du Conseil), surtout par la présidence tournante du Conseil : lorsque la présidence annonce qu'elle dispose d'une majorité suffisante pour approuver la proposition, les éventuels pays minoritaires préfèrent négocier leur ralliement au vote en échange de quelques concessions plutôt que d'enregistrer une « contestation publique », i.e., de figurer sur le papier final comme votant contre (ce qui peut être embarrassant, diplomatiquement ou politiquement, sauf s'il s'agit d'enregistrer un point vis-à-vis de leur opinion publique nationale). Ce n'est pas pour autant que les détails du mécanisme de vote n'ont pas d'importance ! Car ce sont tout de même eux qui définissent le pouvoir des différents pays dans les négociations informelles, et même si le vote formel apparaît comme unanime — même si on cherche le compromis pour arriver à l'unanimité — l'avis d'un petit pays sera évidemment d'autant plus écouté s'il a le moyen de tout bloquer que si on sait qu'on peut toujours se passer de son accord. (Une analyse précise de la dynamique de vote pour ce qui est de la contestation publique, sur la période 1995–2010, est menée dans ce rapport de Wim van Aken, Voting in the Council of the European Union.)

Le mécanisme de vote dans toute sa subtilité juridique est assez complexe. D'abord, il y a plusieurs mécanismes différents selon le type de motion soumise au vote, et qui exigent des majorités différentes : majorité simple (principalement pour des questions de procédure ou des résolutions sans valeur légale), majorité qualifiée (la procédure ordinaire), ou unanimité (essentiellement pour tout ce qui est conçu comme une coopération intergouvernementale : par exemple, en matière fiscale). Même au sein de la majorité qualifiée, une des conditions demandées est différente selon que le Conseil vote sur une proposition de la Commission ou non (il y a donc, en quelque sorte, deux majorités qualifiées différentes : la normale, pour voter sur une proposition de la Commission, et la renforcée, pour les cas où le Conseil agit de sa propre initiative, essentiellement en matière de politique étrangère). • Pour compliquer encore les choses, pendant une période transitoire qui dure de novembre 2014 à mars 2017, les règles de vote actuelles, entérinées dans le traité de Lisbonne de 2007 (qu'on appellera donc en abrégé règles de Lisbonne, en gros : 55% des états membres représentant 65% de la population), peuvent parfois — à la demande d'un membre du Conseil — être remplacées par les règles antérieures, contenues dans le traité de Nice de 2001 (règles de Nice, en gros : >50% des états membres, et 73.8% des voix pondérées). • Pour compliquer encore un peu plus les choses, une déclaration annexée aux traités (parfois appelée « compromis de Ioannina », ) veut que si un groupe d'états n'est pas suffisant pour constituer une minorité de blocage (c'est-à-dire, une minorité capable d'empêcher un vote de passer, donc, avec les règles de Lisbonne, 45% des états membres ou représentant 35% de la population de l'Union) mais n'est « pas trop loin » d'en constituer une, alors la présidence du Conseil et l'ensemble de ses membres s'engagent à faire des efforts pour trouver une solution tenant compte de leurs objections. • Pour compliquer la complication, la définition de pas trop loin dans la phrase précédente sera abaissée en avril 2017 (pour compenser le fait qu'on ne pourra plus invoquer les règles de Nice ; jusqu'à mars 2017, il suffit de représenter 3/4 du nombre de membres ou de la population nécessaires à constituer une minorité de blocage, tandis qu'à partir d'avril 2017, elle est abaissée à 55% sur ces deux critères). Ouf ! On comprend que les choses ne soient pas aisées à décrire.

Mon but est ici, en oubliant un peu les subtilités de la négociation et de la culture du compromis, de faire quelques points plutôt d'ordre mathématique, mais à un niveau assez simple, sur le mécanisme de vote du Conseil à la majorité qualifiée (« normale »), à la fois dans les règles de Lisbonne et dans les règles de Nice. Et d'en profiter pour faire quelques remarques plus générales sur l'analyse du pouvoir dans un système de vote de ce genre.

[J'avais déjà écrit un billet sur le sujet ici, au moment où le mécanisme de vote était en train d'être débattu (et en écrivant par erreur Conseil européen au lieu de Conseil [de l'Union européenne ou des ministres]). J'y proposais un mécanisme de vote particulier. Ici, je vais plutôt me pencher sur la question de comment analyser un mécanisme de vote existant.]

(mercredi)

Jouons à analyser la forme des continents

[Sommes partielles d'harmoniques sphériques pour la forme des continents] [Niveau 0] [Niveau 1] [Niveau 2] [Niveau 3] [Niveau 4] [Niveau 5] [Niveau 6] [Niveau 7] [Niveau 8] [Niveau 9] [Niveau 10] [Niveau 11] [Niveau 12] [Niveau 13] [Niveau 14] [Niveau 15] [Niveau 16] [Niveau 17] [Niveau 18] [Niveau 19] [Niveau 20] [Niveau 21] [Niveau 22] [Niveau 23] [Niveau 24] [Niveau 25] [Niveau 26] [Niveau 27] [Niveau 28] [Niveau 29] [Niveau 30] [Niveau 31] [Niveau 32] [Niveau 33] [Niveau 34] [Niveau 35] [Niveau 36] [Harmoniques sphériques pour la forme des continents] [Niveau 0] [Niveau 1] [Niveau 2] [Niveau 3] [Niveau 4] [Niveau 5] [Niveau 6] [Niveau 7] [Niveau 8] [Niveau 9] [Niveau 10] [Niveau 11] [Niveau 12] [Niveau 13] [Niveau 14] [Niveau 15] [Niveau 16] [Niveau 17] [Niveau 18] [Niveau 19] [Niveau 20] [Niveau 21] [Niveau 22] [Niveau 23] [Niveau 24] [Niveau 25] [Niveau 26] [Niveau 27] [Niveau 28] [Niveau 29] [Niveau 30] [Niveau 31] [Niveau 32] [Niveau 33] [Niveau 34] [Niveau 35] [Niveau 36]

Je cherchais à me faire une idée intuitive un peu plus claire de la notion mathématique de décomposition en harmoniques sphériques (voir ici pour une explication très sommaire) : or la meilleure façon de comprendre une notion mathématique est probablement de s'amuser avec — je me suis dit que pour avoir une fonction raisonnablement « parlante » sur la sphère avec laquelle faire joujou, un candidat assez naturel est la forme des continents. J'ai donc analysé cette fonction en harmoniques sphériques ; plus exactement, j'ai pris la fonction qui vaut −1 sur la terre et +1 sur la mer, histoire d'être mieux centré vers 0, mais c'est peu important (ça va juste introduire des facteurs ½ pénibles un peu partout dans la suite), et en faisant semblant que la Terre est une sphère. Ce calcul n'a, bien sûr, rien d'original, même si le genre de fonction qu'on analyse pour des applications plus sérieuses seraient plutôt l'altitude, le champ de gravité ou quelque chose de ce goût. Je tire mes données géographiques de cette page (Earth Specular Map 8K). J'ai utilisé la bibliothèque SHTns pour faire les calculs (après une tentative pitoyable pour les faire moi-même, cf. ci-dessous).

L'image à gauche de ce texte montre les sommes partielles de cette décomposition en harmoniques sphériques : en haut, le niveau =0, en-dessous la somme des niveaux =0 et =1, puis la somme des niveaux ≤2, et ainsi de suite (à chaque fois, toutes les valeurs de m, c'est-à-dire −m, sont mises pour chaque , donc si on veut, la première ligne montre 1 terme, le suivant la somme de 4 termes, puis la somme de 9 et ainsi de suite). La Terre est vue en double projection orthographique, c'est-à-dire comme si elle était vue de l'infini : hémisphère nord à gauche, hémisphère sud à droite, le pôle correspondant au centre de chaque disque, le méridien de Greenwich comme le segment horizontal reliant les pôles — tout ceci devrait être assez clair sur les dernières images où on commence vraiment à voir la forme des continents ; mais bien sûr, cette façon de projeter n'a vraiment rien à voir avec le calcul lui-même, qui est porte sur la sphère. L'image de droite montre chaque niveau d'harmoniques séparément (si on veut, chaque ligne de l'image de droite est donc la différence entre la ligne correspondante de l'image de gauche et la précédente : elle montre donc ce qui a changé ; de nouveau, à chaque fois, toutes les valeurs de m, c'est-à-dire −m, sont sommées pour le correspondant). On peut cliquer sur chacune des lignes de l'image pour la voir en plus gros. Sur l'image de gauche (sommes partielles), même si j'ai tronqué la fonction à −1 et +1, on voit assez nettement les artefacts classiques qui résultent d'une troncature de la transformée de Fourier (ici sphérique mais peu importe).

L'intérêt de cette décomposition en harmoniques sphériques est qu'elle est naturelle pour la sphère : ce que je veux dire, c'est qu'elle ne dépend pas du choix des coordonnées — de la position des pôles. Pour dire les choses autrement, si on fait tourner la sphère n'importe comment, chacun des niveaux de la décomposition (et, a fortiori, la somme des niveaux ≤) tourne de la même façon. (Il est essentiel ici de sommer tous les m : si on ne prenait que les termes avec m=0, par exemple, on obtiendrait une moyenne selon les cercles de latitude, et ça, ça dépend du choix des pôles.) Pour dire les choses encore autrement, et de façon un peu plus savante, quand on applique une rotation de la sphère, chaque harmonique sphérique Y[,m] est transformé en une combinaison linéaire des Y[,m′] pour le même (mais pour l'ensemble des −m′≤) : l'espace vectoriel engendré par les Y de niveau (exactement) est stable par rotations (c'est une représentation de SO(3), et c'est même, pour ceux qui savent ce que ça veut dire, la représentation irréductible de plus haut poids ).

En fait, pour un algébriste, la meilleure façon de présenter les choses est certainement la suivante : l'espace vectoriel engendré par les Y de niveau ≤ est tout simplement l'espace vectoriel des polynômes sur la sphère de degré ≤. (Attention cependant, comme x²+y²+z²=1 sur la sphère, le degré d'un polynôme y est mal défini ; je parle ici de l'espace, qui est de dimension (+1)², des restrictions à la sphère de l'espace — lui-même de dimension (+1)(+2)(+3)/6 — des polynômes de degré ≤ en x,y,z. On peut aussi préférer utiliser les polynômes harmoniques, c'est-à-dire dont le laplacien 3D est nul : pour ceux-là, la restriction à la sphère est une bijection, le degré est bien défini et coïncide avec la graduation par .) On peut même dire mieux : si on introduit le produit scalaire défini par l'intégration sur la sphère (normalisée pour avoir surface 1), alors la composante en harmoniques de niveau ≤ d'une fonction f est la projection orthogonale, pour ce produit scalaire, de f sur l'espace vectoriel des polynômes sur la sphère de degré ≤. Quant aux harmoniques sphériques réelles Y elles-mêmes, si je ne m'abuse, on peut dire que Y[0,0], Y[1,0], Y[1,1], Y[1,−1], Y[2,0], Y[2,1], Y[2,2], Y[2,−1], Y[2,−2], Y[3,0], etc. (ordonnées par puis par m en mettant les valeurs négatives après les positives), s'obtiennent par orthonormalisation de Gram-Schmidt à partir des polynômes 1, z, x, y, z², xz, x², yz, xy, z³, xz², x²z, x³, yz², xyz, x²y, etc. (ordonnés par degré total, puis par degré ≤1 en y, puis par degré en x). On obtient ainsi : Y[0,0] = 1 ; Y[1,0] = √3·z ; Y[1,1] = √3·x ; Y[1,−1] = √3·y ; Y[2,0] = √5·(z²−½x²−½y²) ; Y[2,1] = √15·xz ; Y[2,2] = √15·(½x²−½y²) ; Y[2,−1] = √15·yz ; Y[2,−2] = √15·xy ; Y[3,0] = √7·(z³−(3/2)x²z−(3/2)y²z) ; Y[3,1] = √42·(xz²−¼x³−¼xy²) ; etc.

Encore une autre façon de voir le niveau de la décomposition en harmoniques sphériques d'une fonction f est, peut-être à une constante près dont je ne suis pas très sûr, comme la convolée de cette fonction avec Y[,0] (j'insiste : convoler avec Y[,0] donne la projection sur tous les Y[,m] de ce niveau) : en général, la convolution de deux fonctions sur la sphère n'a pas de sens (on ne peut pas ajouter deux points sur la sphère), mais elle en a quand l'une des fonctions convolées est zonale, c'est-à-dire qu'elle ne dépend que de la latitude. En l'occurrence, Y[,0] vaut, à un coefficient de normalisation près, P[](cos(θ)) où P[] est un polynôme de Legendre et θ désigne la colatitude (=π/2 moins la latitude).

Du coup, les niveaux de la décomposition en harmoniques sphériques ont donc une vraie signification par rapport à la fonction sommée.

Le terme =0, ou ce que les physiciens appellent le terme monopôle, est simplement la moyenne de la fonction : dans l'exemple que j'ai pris, il nous renseigne donc sur la proportion de terre et de mer. Je trouve une moyenne de 0.4283, ce qui, compte tenu du fait que j'ai mis la terre à −1 et la mer à +1, signifie qu'il y aurait (1+0.4283)/2 soit 71.41% de mer, et 28.59% de terre ferme, sur la Terre. Je suppose que les mesures peuvent varier selon ce qu'on compte exactement comme terre et mer, notamment dans les régions polaires — je donne ici simplement ce qui résulte de l'image dont je suis partie, et je ne sais pas vraiment quelle est sa source — et peut-être quand on tient compte de l'aplatissement de la Terre, mais cette valeur est au moins réaliste. Pour dire les choses autrement, si on imagine que les terres émergées ont une densité surfacique constante égale à 1 sur la surface de la sphère (et que la mer a une densité nulle), ce qu'on mesure ici est la masse totale (c'est une façon bizarre de formuler les choses, mais la comparaison à la masse va être utile pour comprendre les deux termes suivants comme un terme de barycentre et un terme de moment d'inertie).

Le terme =1, ou terme dipôle, calcule la somme (ou la moyenne) des coordonnées x, y et z contre la fonction, donc donne aussi une information sur la Terre qui a un sens intuitif assez clair : sa direction correspond au barycentre des terres émergées, ce qui se rapporte au genre de problème dont je parlais ici. Mon calcul place ce barycentre à 44.4° de latitude (nord) et 29.0° de longitude (est), du côté de Constanța en Roumanie. Ceci colle au moins grossièrement avec ce qu'on trouve sur Wikipédia, mais celle-ci a l'air surtout de citer des crackpots qui veulent plus ou moins que ce centre ait un rapport avec la Grande Pyramide, et je ne vois pas de raison de penser que mon calcul serait moins bon que le leur (de nouveau, ça dépend sans doute surtout de ce qu'on compte comme terres émergées dans les régions arctiques).

Maintenant, il faut souligner ceci : ce dont je parle ci-dessus est la notion bien définie (en général) de barycentre sphérique, qui est tout simplement la projection sur la sphère (depuis son centre) du barycentre calculé en 3D (j'ai déjà dû citer le joli article de Galperin, A concept of the mass center of a system of material points in the constant curvature spaces, Comm. Math. Phys. 154 (1993) 63–84) ; mais dans le terme dipôle, il a bien trois composantes réelles (puisqu'il y a trois harmoniques sphériques au niveau 1, Y[1,0], Y[1,1] et Y[1,−1]), i.e., ce terme dipôle a une amplitude et pas juste une direction. Il donne donc aussi la profondeur du barycentre 3D. Mon calcul donne un moment dipolaire de la terre émergée de norme 0.0996, c'est-à-dire 34.83% du moment monopolaire (0.2859, la proportion de terre émergée, cf. ci-dessus), c'est-à-dire qu'il place le barycentre des terres émergées à 34.83% du rayon de la Terre à partir de son centre (soit à (x,y,z)=(0.2176,0.1205,0.2439) si z est orienté du centre vers le pôle nord, et x du centre vers le point de longitude 0 sur l'équateur).

(J'espère ne pas avoir mal placé un √3 ou ½ quelque part dans ce calcul : les harmoniques sphériques de niveau 1 avec la convention de normalisation que j'utilise sont Y[1,0]=√3·z, Y[1,1]=√3·x et Y[1,−1]=√3·y, du coup il y a des √3 qui se promènent ; il y a aussi un −2 à cause de ma convention sur les valeurs de la fonction, et il faut encore diviser par la valeur 0.2859 du terme monopôle si on veut obtenir la position du barycentre 3D.)

(mardi)

X+Y (=Le Monde de Nathan =A Brilliant Young Mind)

Je ne sais pas pourquoi ce film a plusieurs noms en anglais, et je ne sais pas non plus pourquoi ils ont décidé de l'appeler Le Monde de Nathan pour sa sortie en France (le 10 juin dernier ; sortie DVD le 21 octobre prochain), alors que X+Y passe très bien dans beaucoup de langues (en contrepartie du fait qu'il est pénible à rechercher sur Internet).

Je racontais il y a quelques mois que j'avais trouvé un peu agaçant que les scénaristes de The Imitation Game fassent passer Alan Turing pour un autiste alors qu'il ne l'était pas, et alimentent ainsi le cliché qui veut que les mathématiciens dans la fiction soient toujours au minimum socialement incompétents quand ils ne sont pas carrément mentalement atteints. Ici, le héros est un jeune autiste anglais doué pour les mathématiques et qui participe aux olympiades internationales de cette discipline. Comme les exercices des olympiades de mathématiques m'agacent[#] autant que le cliché dont je viens de parler, on peut dire que le film ne partait pas avec un a priori très favorable de ma part.

Pourtant, il m'a assez plu pour que je le recommande. D'abord, parce qu'il a réussi à éviter le cliché que je craignais : le héros est autiste et doué pour les mathématiques, et c'est clairement et pas donc ou car, et il y a d'autres personnages qui montrent assez nettement que les scénaristes ne confondent pas les deux. Ils évitent aussi le cliché apparenté (I'm looking at you, Good Will Hunting) du jeune prodige qui est forcément tellement fort en maths qu'il résout tout immédiatement[#2] et fait passer tous les autres pour des nuls — ici, sans vouloir spoiler, le héros est doué, mais il l'est de façon réaliste. C'est sans doute parce que le film est basé sur un documentaire, donc sur des faits réels, qu'il réussit à éviter l'hyperbole, mais c'est assez rare pour être souligné.

(Je ne dis pas que le film évite tous les clichés ou invraisemblances. Par exemple, on laisse beaucoup trop peu de temps à ceux qui préparent les olympiades pour réfléchir sur un problème donné : or absolument personne ne résout ce genre de problème en quelques secondes ; mais on peut justifier ce choix pour des raisons de rythme.)

Ensuite, je trouve assez rare de voir un film qui montre des mathématiques, fussent-elles des mathématiques d'olympiades (voir ma note ci-dessous pour la nuance), sans faire n'importe quoi : on ne nous montre pas seulement des gribouillis ressemblant vaguement à des formules et qui ne veulent rien dire : plusieurs problèmes d'olympiades (ou en tout cas tout à fait dans le genre des problèmes d'olympiades) sont posés, les réflexions sont plausibles, et il y a même une question pour laquelle la démonstration est faite au tableau, de façon correcte et complète (bon, c'est une question à mon avis trop facile pour être d'olympiades, et ce n'est pas très réaliste qu'on applaudisse le héros pour l'avoir trouvée, mais au moins un nombre non négligeable de spectateurs pourra comprendre).

Enfin, l'acteur principal, Asa Butterfield, est remarquable de justesse, dans un rôle pourtant difficile. (On l'avait déjà vu dans Hugo Cabret et Ender's Game, où il était également bon, mais le scénario de ces deux films à gros budget laissait à mon avis moins place à la subtilité des émotions.) L'actrice qui joue sa mère, en revanche, m'a semblé beaucoup moins bonne, mais peut-être que je me laisse influencer par le fait que le personnage m'agaçait.

Sinon, je trouve amusante la coïncidence suivante : j'ai fait référence à l'entrée de blog que j'ai écrite sur le biopic de Turing, qui y est présenté à tort comme autiste, et dans cette même entrée j'évoquais aussi le film, sorti au même moment, sur la vie de Hawking, qui lui a (vraiment) une maladie neurodégénerative. Or le film dont je parle ici met en scène à la fois un personnage autiste et un autre qui a une maladie neurodégénerative (et il est explicitement comparé à Hawking, d'ailleurs). Enfin, peut-être que ce n'est pas une coïncidence mais une sorte de référence.

[#] Pour essentiellement deux raisons. Primo, je trouve que ça a peu de rapport avec les mathématiques : il s'agit de problèmes généralement atrocement astucieux et ne faisant appel à aucune théorie générale, alors que, à mon sens, les mathématiques consistent justement à trouver des théories générales pour éviter les astuces. Bon, pour leur défense, certains problèmes d'olympiades sont au moins assez jolis, ce qui est aussi une caractéristique importante des bonnes mathématiques à mes yeux — mais seulement certains, parce qu'il y en a beaucoup qui sont non seulement difficiles et astucieux mais aussi fondamentalement moches et sans intérêt. (Je précise que je ne suis pas vexé d'y être mauvais : je crois même que je m'en sors honorablement, ou en tout cas que je m'en sortais honorablement quand j'avais l'âge. On m'a d'ailleurs demandé, comme j'avais eu un prix au Concours général de maths, de participer à l'équipe française de la 35e olympiade à Hong Kong — mais comme j'avais aussi un autre prix en physique pour lequel j'étais invité aux États-Unis au même moment, je n'y suis pas allé.) Secundo, et sans doute le plus important : je trouve que l'idée de compétition, que ce soit entre les individus ou les pays, va complètement à l'encontre de l'esprit de la science qui est — ou devrait être — collaboratif et non compétitif.

[#2] Hint : dans la réalité, les maths sont dures pour tout le monde. Si elles ne l'étaient pas, l'hypothèse de Riemann serait décidée à l'heure qu'il est. (En fait, on peut même défendre l'idée que c'est une conséquence d'un théorème et d'un postulat physico-philosophique de Church et Turing que : les mathématiques ne peuvent pas être triviales pour aucun habitant de cet Univers, humain, extra-terrestre ou ordinateur.)

(mercredi)

Petit supplément à ma page d'ondes sur la sphère

J'ai présenté avant-hier une page en JavaScript (enfin, deux : avec WebGL ou sans) qui affiche une animation d'ondes sur une sphère (un peu plus précisément, une solution de l'équation des ondes (∂²/∂t²−c²Δ)φ=0, où Δ est le laplacien sphérique ; ou en fait, trois solutions à la fois, une pour chaque composante de couleur RGB). J'ai ajouté un bouton pause, mais ce n'est pas le plus intéressant : j'ai surtout ajouté toutes sortes de modes spéciaux.

(Si la description qui suit ne vous intéresse pas, sautez directement jusqu'au dernier paragraphe.)

On m'avait demandé si je pouvais permettre un choix de la condition initiale (pour les non-mathématiciens : la configuration à partir de laquelle l'onde évolue) : ce serait assez compliqué de fournir une façon de faire ça en général, mais on peut quand même permettre de choisir une configuration qui a des symétries particulières (qui se conserveront avec l'évolution dans le temps). C'est ce que ma page JavaScript permet maintenant. Un exemple de tel cas est la situation où il y a symétrie par rapport au centre de la sphère : l'état est en permanence le même en deux points antipodaux l'un de l'autre (i.e., φ(−x,−y,−z) = φ(x,y,z)) ; si on veut, on peut considérer qu'il s'agit alors d'une équation des ondes sur le plan projectif réel (qui est la sphère où on a identifié les paires de points antipodaux) ; ceci a l'intérêt qu'on voit alors la totalité de la configuration (puisque le programme n'affiche qu'un hémisphère, mais l'autre s'en déduit par symétrie). On peut imaginer d'autres symétries de ce genre, évidemment : par rapport à un plan (si c'est le plan parallèle au plan de projection — que j'appelle z=0 — alors on voit de nouveau toute la configuration, puisque de nouveau l'autre hémisphère est symétrique, mais cette fois par rapport à un plan, ce qui est donc subtilement différent) ; ou par rapport à un axe, et dans ce cas, à différents niveaux. (Je me suis limité à une symétrie d'ordre 2 ou 3 par rapport à l'axe de vision, parce que je ne calcule pas assez d'harmoniques pour qu'une symétrie d'ordre supérieur puisse être intéressante à voir, déjà 3 est limite. C'est dommage, parce qu'en général on pouvait demander des groupes de symétrie plus intéressants, à savoir les symétries d'un des solides réguliers. Mais bon, même dans le cas de la symétrie cubique/octaédrale, je n'ai pas le courage de calculer l'action sur les harmoniques sphériques.)

Mais j'ai un autre type de configuration particulière à proposer : il s'agit des cas où l'équation des ondes conserve la « masse totale », c'est-à-dire techniquement la norme L² (en l'occurrence, sur chacun des canaux de couleur) : pour parler grossièrement, des creux et des bosses peuvent se déplacer, mais leur quantité totale doit rester inchangée (note : la moyenne reste de toute façon constante — dans mon cas, à 0 que je représente par le gris intermédiaire qui sert aussi de fond — et c'est ici de la moyenne quadratique que je parle). Je ne sais pas quel est le terme standard (il y en a probablement un) pour désigner ce genre de configurations de l'équation des ondes. La situation complètement opposée est celle d'une onde stationnaire : très grossièrement parlant, dans une onde stationnaire, les creux et les bosses apparaissent et disparaissent, mais ne changent pas de place. Comme ce n'est pas terriblement intéressant, j'ai défini les configurations « stationnaires par niveau », qui sont celles où chaque niveau d'harmoniques sphériques (et chaque canal RGB) définit une onde stationnaire. Ces deux conditions se combinent d'ailleurs agréablement avec la condition d'être symétrique par rapport au centre de la sphère (« projectif », cf. ci-dessus), donc j'ai aussi mis les conjonctions en question.

Pour ceux qui connaissent un peu plus de maths, voici une explication plus claire sur ces deux conditions de conserver la masse L² et d'être stationnaire par niveau : en général, on peut écrire φ = ∑u,m(tY[,m] (pour −m, et parcourant les entiers naturels — même si mon JavaScript ne monte que jusqu'à 8), où les Y[,m] sont les harmoniques sphériques (réelles), qui vérifient (ΔY[,m] = −(+1)·Y[,m]) et sont orthogonaux au sens L² et u,m(t) est une sinusoïde de fréquence (c/2π)·√((+1)) (c'est ça qui assure qu'on vérifie l'équation des ondes). Cette dernière condition peut s'écrire u,m(t) = Re(Z,m·exp[i·c·√((+1))·t]) avec Z,m un nombre complexe (dont le module et l'argument déterminent l'amplitude et la phase de cette sinsuoïde). La condition de conserver la masse L² signifie que la somme des carrés de ces parties rélles ne dépend pas de t, ce qui revient en fait à ce que la somme des carrés des complexes Z,m (pour −m) s'annulle pour chaque . La condition d'être stationnaire par niveau, elle, signifie que pour chaque , les Z,m ont tous la même phase à π près (i.e., ils sont proportionnels par des nombres réels).

La première condition m'a d'ailleurs conduit au problème suivant, qui est assez perturbant : comment tirer au hasard de façon « naturelle » des nombres complexes Z1,…,Zk tels que Z1² + ⋯ + Zk² = 0 ? (Il revient au même de chercher des réels A1,…,Ak et B1,…,Bk tels que la somme des Ai² soit égale à la somme des Bi², et que la somme des Ai·Bi soit nulle, i.e., deux vecteurs de même norme et orthogonaux.) En l'absence de condition, je choisis les Zi en tirant leur partie réelle Ai et leur partie imaginaire Bi indépendamment selon une distribution gaussienne (dont l'écart-type décroît avec , mais ce n'est pas la question ici) ; pour une distribution stationnaire par niveau, je choisis un complexe de module 1 une fois pour toutes, et je le multiplie par des réels tirés selon une distribution gaussienne ; mais pour Z1,…,Zk tels que Z1² + ⋯ + Zk² = 0, ce n'est pas clair ce qu'il vaut mieux faire. Je pensais prendre une distribution gaussienne conditionnée par cette condition, mais je suis tombé sur le paradoxe de Borel, et du coup je ne sais pas exactement quoi faire. Au final, je tire Ai et Bi selon des distributions gaussiennes, je projette B sur l'orthogonal à A, et je le renormalise pour avoir la même norme que A (on se convaincra, au moins, que c'est en fait symétrique entre A et B), mais peut-être que la distribution que je donne à la norme carrée de A n'a pas le bon nombre de degrés de liberté (si tant est qu'il y en ait un « bon »).

Toutes ces choses étant dites, je serais curieux de savoir quelle impression font ces différents « modes », même (et surtout) sur ceux qui n'ont pas lu ou compris les explications ci-dessus. Y en a-t-il qui vous semblent plus jolis ? Et pensez-vous pouvoir les reconnaître (à part ceux qui présentent des symétries vraiment évidentes, c'est-à-dire les axialement 2-symétrique et 3-symétrique et les symétriques par rapport aux plans x=0 et y=0) ? Il y a une façon de reconnaître les modes projectifs (même si elle n'est pas évidente quand on laisse tourner l'animation ; je laisse en exercice de deviner de quoi il s'agit). Mais pour ce qui est des modes L²-conservatif et stationnaire par niveau, je n'arrive pas à savoir si j'arrive vraiment à les reconnaître ou si c'est une sorte d'effet placébo (je devrais écrire de quoi faire des tests à l'aveugle) ; et de même pour le mode symétrique par rapport à z=0.

(lundi)

Une envoûtante animation d'ondes sur la sphère

Comme je me suis décidé relativement récemment (j'y ai fait allusion au passage) à apprendre des choses que j'aurais sans doute dû savoir depuis longtemps sur l'analyse harmonique élémentaire sous les groupes compacts, j'ai voulu faire joujou avec les harmoniques sphériques.

Comme il faut bien que je dise au moins approximativement de quoi il est question, voici une petite digression à ce sujet.

Beaucoup de gens, même non-mathématiciens, ont probablement entendu parler des séries de Fourier, qui sont une façon d'analyser un signal périodique en le décomposant en fréquences harmoniques : grossièrement parlant, il s'agit d'écrire une fonction de fréquence f comme comme de sinusoïdes de fréquences n·f (la « n-ième harmonique ») dont l'amplitude et la phase dépendent de n. Par ailleurs, un signal périodique, c'est la même chose qu'une fonction sur le cercle (un temps circulaire, c'est la même chose qu'un temps qui se répète périodiquement : voyez l'article Wikipédia que je viens de lier, il y a plein d'animations très cool dessus) : les séries de Fourier sont donc, si on préfère, une façon d'analyser les fonctions sur le cercle.

Mais il existe aussi une façon très analogue de décomposer un signal sur la sphère (il existe des choses analogues en toute dimension, et même sur des espaces nettement plus généraux, mais limitons-nous à la sphère de dimension 2) : au lieu de développer en sinusoïdes de fréquences multiples de la fondamentale comme on le fait pour les séries de Fourier (séries trigonométriques), on développe en termes de ce qu'on appelle des harmoniques sphériques, et le développement correspondant s'appelle l'expansion multipolaire (note : ces deux articles Wikipédia parlent en gros de la même chose, et il faudrait sans doute les fusionner, ou au moins les harmoniser — mais c'est un bon exemple de la manière dont des gens peuvent faire la même chose sans vraiment se parler). Ce développement a beaucoup de propriétés communes avec le développement de Fourier. Une différence notable est qu'au lieu d'avoir juste le multiple n de la fréquence fondamentale (si on veut, le nombre de bosses sur le cercle), les harmoniques sphériques Y[,m] dépendent de deux entiers, étant en quelque sorte le niveau de fréquence totale et m la fréquence en longitude. (Elles dépendent, du coup, du choix d'un pôle nord : si on effectue une rotation quelconque de la sphère, la fonction Y[,m] se transforme en une combinaison linéaire des Y[,m′] pour ce même et l'ensemble de tous les m′. Une recherche sur Google images donnera au moins une idée de ce à quoi ces fonctions ressemblent, sous différentes représentations graphiques — et on voit vaguement en quoi ce sont des analogues sur la sphère des sinusoïdes sur le cercle.) Du coup, au lieu d'avoir une série simple de coefficients de Fourier, on a une série à deux indices ,m de coefficients harmoniques.

Cette décomposition a des applications dans beaucoup de domaines : elle est très souvent pertinente pour étudier une fonction sur la sphère. Par exemple, une quantité définie sur la Terre tout entière, ça aurait un sens, et souvent un intérêt, d'essayer de la décomposer en harmoniques sphériques (je ne sais pas, moi, la forme du géoïde, la température de surface à un instant donné, la densité de population humaine, ce genre de choses ; les physiciens font ça aussi, entre autres, pour analyser le rayonnement cosmologique fossile et confronter son spectre aux théories).

Mais un intérêt particulier de la décomposition en séries de Fourier (ou de la transformée de Fourier), c'est aussi de résoudre des équations aux dérivées partielles linéaires ; d'ailleurs, Fourier cherchait, historiquement, à résoudre l'équation de la chaleur sur un cercle. C'est aussi le cas pour la décomposition en harmoniques sphériques, essentiellement à cause du fait que les harmoniques sphériques Y[,m] sont des vecteurs propres du laplacien shérique (ΔY[,m] = −(+1)·Y[,m]), ce qui les rend très confortables dans des équations faisant intervenir cet opérateur, comme l'équation de la chaleur ou l'équation des ondes. C'est pour cette raison que les harmoniques sphériques apparaissent dans la résolution de l'équation de Schrödinger pour le calcul des orbitales des électrons dans un atome.

Bref, j'ai fait une petite page en JavaScript qui représente l'évolution — linéaire — d'une onde sur une sphère (ou peut-être plutôt trois ondes, une par composante de couleur). En fait, j'ai fait deux versions de cette page :

ici en WebGL et ici sans

(la version WebGL est généralement beaucoup plus rapide que celle sans — cette dernière pourrait mettre plusieurs secondes, voire dizaines de secondes, à se charger, et affichera certainement moins d'images par seconde — mais la version WebGL a aussi plus de chances de ne pas marcher, ou de marcher bizarrement, ou dans de rares cas de crasher le navigateur ; à part ça, elles sont censées afficher exactement la même chose, aux choix aléatoires initiaux près).

Je trouve ça extrêmement joli et vraiment fascinant à regarder. J'ai passé un temps fou à regarder cette sphère opalescer jusqu'à me laisser hypnotiser par elle. (Mais pourquoi on ne m'a jamais dit ça, quand on m'a parlé de l'équation des ondes, que ça pouvait être aussi joli ?)

Après, je suis un peu déçu par les navigateurs. La version sans WebGL est lente, ce qui est peut-être normal parce qu'elle doit effectuer en gros 81 multiplications+additions par pixel et par rafraîchissement, mais je pensais quand même que les ordinateurs arriveraient à faire un ordre de grandeur plus vite que ça, surtout qu'on m'a tellement vanté que JavaScript était maintenant un langage ultra-rapide. La version avec WebGL est d'une rapidité acceptable, mais j'ai horriblement souffert pour l'écrire, à me cogner contre une limitation après une autre de ce truc (par exemple, j'avais voulu faire ça avec des textures flottantes, mais déjà c'est une extension pas garantie et ensuite de toute façon, on ne peut pas demander 81 textures flottantes, quelle que soit leur taille, c'est trop). Dans tous les cas, je n'ai pas vraiment pu aller au-delà de 9 niveaux d'harmoniques sphériques (c'est-à-dire <9 ; c'est pour ça que la sphère est aussi lisse) : c'est dommage, parce que je pense que ça peut être intéressant avec beaucoup plus, mais je ne vois pas vraiment comment améliorer l'efficacité.

(Les téméraires peuvent reprendre le fichier et modifier la ligne var degree_cut = 9 pour remplacer 9 par le nombre qu'ils voudront, mais déjà pour 12, la version sans WebGL est inacceptablement lente chez moi — bon, il est vrai qu'on peut baisser la résolution pour compenser, en changeant les attributs width="300" height="300" de l'élément canvas — et la version WebGL ne marche tout simplement plus puisque le « fragment shader » devient trop long et bute contre une autre limitation du machin.)

J'essaierai sans doute de calculer une animation en haute résolution et avec beaucoup d'harmoniques (j'aimerais bien arriver à mettre quelque chose comme 30 niveaux), et la mettre sur YouTube. Qui, bien sûr, massacrera impitoyablement la qualité de ce que j'aurai calculé (surtout que les formats vidéo sont très mauvais avec les couleurs qui bougent), mais bon, je ne sais pas bien quoi faire de mieux.

Mise à jour : Voici un lien vers la version sur YouTube, où j'ai calculé 31 niveaux d'harmoniques ce qui donne plus de détails sur la sphère (détails malheureusement en partie obscurcis par la compression vidéo).

(lundi)

Comment faire un jeu de Tribble

Je continue sur les idées développées dans cette entrée (et dans une moindre mesure la suivante) : ma métaphorique petite sœur se plaint qu'un quadrangle généralisé ce n'est pas, nonobstant mes explications fumeuses, une structure très convaincante pour inventer des jeux de cartes, alors que le jeu de Dobble a au moins réussi à convaincre des gens de l'éditer. Si ce dernier est basé sur le principe que deux cartes quelconques ont toujours un symbole en commun, peut-on faire un paquet où trois cartes quelconques auraient toujours un symbole en commun ?

Réponse : oui, on peut, mais je crois qu'il va falloir admettre un nombre de symboles par carte un peu désagréablement élevé (ou un nombre total de cartes bien bas) :

[Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles]

J'ai créé ici 26 cartes portant chacune 30 symboles choisis parmi un répertoire de 130, chaque symbole apparaissant sur 6 cartes différentes, deux cartes distinctes ayant toujours exactement 6 symboles en commun, et trois cartes distinctes ayant toujours exactement 1 symbole en commun. On peut donc imaginer toutes sortes de jeux de rapidité (ou en fait, plutôt de patience) consistant à chercher le symbole en commun à trois cartes, selon des règles inspirées de celles qui servent pour Dobble. Maintenant, à vrai dire, je trouve ça surtout excessivement fastidieux : il m'a fallu plus de deux minutes pour trouver le symbole commun entre les trois premières cartes (notons que l'ordre des cartes affiché ci-dessus n'est pas aléatoire, et ce symbole est en fait commun aux cinq premières cartes et à la dernière, mais ce n'est pas un bug), et je ne trouve pas ça spécialement ludique. Mais bon, il y a plein de choses que je ne trouve pas ludique et que d'autres gens aiment, alors peut-être que ce jeu peut quand même trouver des adeptes (si quelqu'un veut un tirage physique, qu'il me fasse signe).

Ajout : Un jeu qu'on pourrait jouer avec ces cartes consiste à distribuer à chaque joueur le même nombre de cartes (le plus élevé possible) en en laissant deux face retournée sur la table ; quiconque peut montrer du doigt un symbole en commun entre une carte quelconque de sa main et les deux cartes sur la table pose sa carte sur la table et défausse l'une des deux qui y étaient déjà (de façon qu'il y en ait toujours deux) ; le jeu se continue jusqu'à ce que quelqu'un se soit ainsi débarrassé de toutes ses cartes. La particularité de cette procédure est que celui qui arrive à poser une de ses cartes gagne un avantage pour le coup suivant vu qu'il a pu déjà rechercher l'intersection entre les deux cartes sur la table.

Pour répondre à des questions naturelles : l'ordre de disposition des symboles sur une carte donnée est totalement aléatoire (j'ai commencé par essayer de trouver une logique qui me convienne, mais j'ai vite craqué et opté pour un tirage au hasard — enfin, au hasard déterministe —, au prétexte qu'il vaut mieux un chaos garanti qu'un ordre basé sur une logique douteuse) ; et la permutation des symboles à l'intérieur du répertoire l'est aussi. L'ordre des cartes affiché ci-dessus n'est pas aléatoire, mais ça n'a pas d'importance puisqu'un vrai jeu de cartes serait de toute façon mélangé avant usage. Et sinon, je sais que mon choix de symboles est certainement merdique, mais je n'accepterai de critiques que de la part de gens qui peuvent en suggérer un meilleur ; j'ai cherché à avoir une proportion raisonnable de signes d'écriture (lettres ou caractères chinois) et de dessins, j'ai voulu éviter les symboles qui se ressemblent trop (par exemple, je n'ai pas mis le ‘C’ parce qu'il est trop semblable au ‘G’, je n'ai pas mis le ‘Ш’ parce qu'il est trop semblable au ‘Щ’, etc.) même si je sais qu'il en reste, et globalement il n'y a pas trop de logique mais c'est un peu l'idée.

J'explique maintenant comment construire la chose, parce que je trouve ça assez joli : pour résumer très brièvement, on peut dire que si le jeu de Dobble est basé sur l'idée que deux points distincts dans le plan (projectif, mais peu importe) déterminent une unique droite, celui-ci est basé sur l'idée que trois points distincts sur la sphère déterminent un unique cercle (cercle signifiant petit ou grand cercle, i.e., l'intersection de la sphère avec un plan ; en l'occurrence, le plan passant par ces trois points) : on imaginera les cartes du jeu comme les points de la sphère, et les symboles sur une carte comme les cercles passant par ce point. Il ne reste plus qu'à transformer ça en une structure finie en passant sur un corps fini, donc à expliquer ce que sphère et cercle veulent dire dans ce contexte. En gros, je dois parler un peu de géométrie de Möbius.

(mercredi)

Comment faire un jeu de cartes à partir d'un quadrangle généralisé

L'entrée précédente m'a donné envie de concevoir des jeux de cartes avec des structures combinatoires mathématiques remarquables. Je vais déjà en tirer un avec une structure liée à celle des 27 droites sur une surface cubique (à savoir, l'ensemble des 36 double six de telles droites)[#], mais ce serait plutôt pour faire de la cartomancie oulipienne. Je me demandais ce que je pourrais inventer de plus jouable. Et d'un autre côté, parmi les structures combinatoires que j'avais vaguement à l'esprit, il y avait (je les ai mentionnées dans l'entrée précédente, et je vais dire ci-dessous de quoi il s'agit) les quadrangles généralisés.

((Ceux de mes lecteurs qui ne sont pas intéressés par les aspects mathématiques peuvent directement sauter au dessin des cartes ci-dessous, après quoi je pose quelques questions de design, si j'ose dire.))

Pour essayer d'imaginer quelque chose de jouable, j'ai médité sur la structure d'un jeu ordinaire de 52 cartes. Tout le monde sait qu'il s'agit des 13×4 cartes constituant chacune des combinaisons, des couples si on veut, entre un symbole de {A,2,3,4,5,6,7,8,9,X,V,D,R} (la « valeur » de la carte) et un symbole de {♣,♢,♡,♠} (la « couleur » de la carte, le terme français était d'ailleurs épouvantablement ambigu parce qu'il recouvre à la fois ce que les Anglais appellent suit, c'est-à-dire le symbole que je viens de dire, et ce que les Anglais appellent colour, c'est-à-dire noir pour ♣,♠ ou rouge pour ♢,♡ — mais passons). Mathématiquement, on a donc affaire au produit cartésien {A,2,3,4,5,6,7,8,9,X,V,D,R} × {♣,♢,♡,♠}, qui n'est pas une structure combinatoire très intéressante. Si on considère les cartes comme des points et les symboles comme des droites (verticales ou horizontales : voir le dessin ci-dessous), on a affaire à une simple grille. Maintenant, voici quelques propriétés de cette « géométrie », qui peuvent paraître bizarrement compliquées, mais dont on va voir le sens à les énoncer ainsi :

A 2 3 4 5 6 7 8 9 X V D R
  1. Sur chaque carte figurent exactement 2 symboles (distincts) [à savoir, l'indication de sa valeur et l'indication de sa couleur].
  2. Chaque symbole figure sur exactement 4 ou 13 cartes (distinctes) [4 dans le cas d'une valeur, 13 dans le cas d'une couleur].
  3. Deux cartes ayant deux symboles en commun coïncident [il n'y a pas de cartes différentes ayant la même valeur et la même couleur]. Diverses reformulations équivalentes : deux cartes distinctes ont au plus un symbole en commun ; deux symboles distincts figurent sur au plus une carte ; deux symboles figurant tous les deux sur deux cartes distinctes coïncident.
  4. Si C est une carte et σ est un symbole qui ne figure pas sur C, alors il existe exactement une carte D et un symbole τ tels que σ figure sur D et τ figure à la fois sur C et sur D. [Explication ci-dessous.]

La propriété (4) peut sembler bizarre, mais concrètement, elle signifie simplement que si C est une carte et σ est soit une valeur différente soit une couleur différente de celle de C, alors il existe une carte D qui a cette valeur ou couleur et qui pour l'autre symbole (couleur ou valeur respectivement) τ a la même que celle de C.

Cette dernière propriété, d'ailleurs, est en quelque sorte celle utilisée dans un nombre essentiellement infini de jeux de cartes (par exemple le jeu commercial Uno, le « huit américain » ou « maou maou », le « Tschau Sepp » suisse, etc.) qui sont des variantes mineures autour du principe suivant : chaque joueur a des cartes dans sa main dont il doit se débarrasser, ils jouent tour à tour et chacun peut poser une carte ayant un symbole commun avec la carte précédemment jouée (c'est-à-dire concrètement : ayant la même valeur ou la même couleur — le plus souvent la même couleur, bien sûr, puisqu'il y a plus de telles cartes). La propriété signifie alors que si la carte C a été jouée et que je veux passer le jeu à σ qui n'est pas actuellement jouable (i.e., changer la valeur ou la couleur), il y a une unique carte jouable D qui permettra de faire ce changement.

Si j'ai écrit les propriétés sous la forme bizarre ci-dessus, c'est pour pouvoir amener la définition d'un quadrangle généralisé, ou plus exactement, un quadrangle généralisé fini de paramètres (s,t) (deux entiers), définition que je vais formuler ici avec des cartes et des symboles (mais les termes classiques seraient points et droites, sachant que la définition est symétrique entre les deux, à permutation près des paramètres s et t ; je fais ici la convention que les cartes sont les points et les symboles les droites, mais le contraire irait tout aussi bien) :

  1. Sur chaque carte figurent exactement t+1 symboles (distincts).
  2. Chaque symbole figure sur exactement s+1 cartes (distinctes).
  3. Deux cartes ayant deux symboles en commun coïncident. Diverses reformulations équivalentes : une carte est complètement déterminée par la donnée de deux quelconques de ses symboles ; deux cartes distinctes ont au plus un symbole en commun ; deux symboles distincts figurent sur au plus une carte ; deux symboles figurant tous les deux sur deux cartes distinctes coïncident ; un symbole est complètement déterminé par la donnée de deux cartes sur lequel il figure.
  4. C σ D τ Si C est une carte et σ est un symbole qui ne figure pas sur C, alors il existe exactement une carte D et un symbole τ tels que σ figure sur D et τ figure à la fois sur C et sur D. (Cf. dessin ci-contre.)

Les propriétés (3)&(4) sont donc exactement les mêmes que ce que j'ai énoncé pour un jeu de cartes usuelles. La (1) est une généralisation de ce qu'elle était ci-dessus pour autoriser plus que 2 symboles par carte (par contre, on notera bien que la troisième propriété continue à parler de deux symboles : une carte est complètement déterminée par deux quelconques de ses symboles). La propriété (2), en revanche, diffère de ce qu'on avait pour un jeu de cartes ordinaires, en ce sens que chaque symbole figure maintenant sur le même nombre de cartes, au lieu qu'il y ait des types de symboles figurant sur un nombre plus ou moins grand de cartes.

Dans la propriété (4), on dit parfois que τ est le perpendiculaire de σ à travers C : cette terminologie a l'avantage de bien faire ressortir l'unicité, et elle est raisonnable quand on pense à l'exemple d'une grille (par exemple, le perpendiculaire à ♠ passant par 8♡ est 8 : c'est bien le cas sur le dessin de la grille que j'ai fait plus haut). Néanmoins, cette terminologie suggère une notion métrique (des angles), qui n'existent pas ici : on demande simplement une condition d'incidence entre σ et τ (à savoir, qu'ils figurent sur la carte D). D'autre part, comme cartes et symboles jouent des rôles totalement symétriques dans les propriétés (j'ai fait mes dessins avec les cartes pour points et les symboles pour droites, mais je pouvais faire le contraire), on pourrait tout aussi bien dire que D est la perpendiculaire de C à travers σ (et pour le coup, dans le cas d'une grille, c'est beaucoup moins intuitif : la perpendiculaire à 8♡ par ♠ est 8♠). Passons.

(mercredi)

Le jeu de cartes Dobble et la géométrie projective expliquée aux enfants

[Arrangement des cartes de Dobble]J'avais déjà entendu parler du jeu de cartes Dobble (appelé Spot it! aux États-Unis). Il s'agit d'un jeu de 55 cartes circulaires (logiquement il devrait y en avoir 57, mais il en manque deux pour une raison que seul l'éditeur du jeu connaît), chacune portant 8 symboles différents parmi 57 symboles possibles (un peu façon émojis : cœur, clé, cadenas, flocon de neige, sens interdit, coccinelle, vous voyez le genre). La propriété sur laquelle se base le jeu est que deux cartes quelconque du jeu ont toujours un et un seul symbole en commun, et le jeu est un jeu de rapidité consistant à identifier le plus rapidement possible ce symbole (selon les variantes : entre une carte qu'on a en main et une carte au sommet d'une pioche, ou quelque chose comme ça). Le jeu est assez distrayant et intéressant en ce que c'est un jeu auquel des adultes et des très jeunes enfants peuvent jouer ensemble et trouver également rigolo, ce qui n'est pas une contrainte évidente.

Mais son intérêt est également mathématique, car il s'agit d'une structure combinatoire classique et remarquable : pour les mathématiciens qui me lisent, disons brièvement qu'il s'agit du plan projectif sur le corps fini à 7 éléments (les cartes étant, disons, les points, et les symboles les droites — ou le contraire si on préfère — et le fait pour un symbole de figurer sur une carte étant la relation d'incidence). Pour les non-mathématiciens, on peut mentionner une autre propriété, duale de la précédente, qu'ont les cartes : deux symboles quelconques figurent toujours sur une et une seule carte — sauf s'il s'agit d'une des deux cartes « manquantes ». Mais le jeu n'exploite pas cette autre propriété, ce qui est vraiment dommage, parce que c'est la combinaison des deux qui rend la structure mathématiquement vraiment intéressante (voir ici par exemple). Voir aussi cet article de vulgarisation sur le site Images des mathématiques qui tente d'expliquer un peu les choses pour les non-mathématiciens. Comme son auteur (que je salue au passage si par hasard il me lit), je trouve vraiment dommage que les éditeurs n'aient pas eu de meilleure idée pour exploiter la structure combinatoire remarquable qu'ils ont concrétisée que de faire un simple jeu de rapidité (et n'utilisant qu'une seule des deux propriétés duales que j'ai mentionnées), et j'appelle à ce qu'on invente d'autres jeux amusants avec ce jeu de cartes. On pourrait par exemple jouer à choisir deux symboles (i.e. : deux joueurs en choisissent chacun un, le notent sur un papier, et le révèlent simultanément), et essayer de trouver le plus rapidement possible, toutes les cartes étant étalées simultanément, quelle est celle qui contient les deux symboles choisis — mais il y a certainement plus intelligent à faire.

J'avais entendu parler de Dobble, disais-je, parce que plusieurs personnes m'avaient indépendamment proposé, comme une énigme, d'imaginer comment je concevrais un tel jeu (ce qui n'est pas vraiment une énigme, parce que pour un matheux un peu algébriste, un peu géomètre et/ou un peu combinatoricien, la structure d'un plan projectif sur un corps fini est tellement naturelle que j'avais donné la réponse avant d'avoir compris la question). Toujours est-il que je n'avais pas vu les cartes ni retenu le nom. Mais ce week-end, en passant chez des amis à Lyon, j'ai vu le jeu en question. (Il s'agit, d'ailleurs, des mêmes amis qui m'avaient fait découvrir le jeu de Set, un autre jeu de cartes basé sur une géométrie finie — en l'occurrence l'espace affine de dimension 4 sur le corps à 3 éléments.)

Et il y a assurément quelque chose de fascinant pour un matheux (surtout fasciné par les jolies structures combinatoires) d'avoir un plan projectif fini entre les mains. Ceci permet d'expliquer de façon visuelle et interactive comment fonctionne la géométrie projective finie bien mieux que je ne saurais le faire avec un tableau. Avec toutes sortes de questions qui se soulèvent naturellement, par exemple : comment trouver, le plus efficacement possible, quelles sont les deux cartes manquantes ? (imaginons que j'aie un jeu complet de 57 cartes, avec un ensemble de symboles inconnu a priori, et que j'en retire deux au hasard, comment trouver le plus rapidement l'ensemble des symboles de ces deux cartes retirées ?). Et comment disposer efficacement les cartes pour exhiber la structure géométrique ? Sur la photo ci-dessus, même si elle n'est pas terrible, on voit un tel arrangement possible : le carré 7×7 principal (celui où il manque une carte dans le coin en bas à gauche) a la propriété que chaque ligne de cartes a un symbole en commun, chaque colonne en a un, mais aussi chaque diagonale (prolongée cycliquement), chaque antidiagonale, et en fait, les diagonales de pas quelconques (cherchez les cartes ayant un cactus, par exemple) — un matheux dira qu'il s'agit du plan affine sur le corps à 7 éléments, et les cartes restantes (où il en manque aussi une) sont la droite à l'infini. Avec cette disposition, il n'est pas difficile de trouver quels sont les symboles des deux cartes manquantes ; reste que c'est un chouïa fastidieux d'y parvenir. Je me suis aussi amusé à calculer la disposition (duale) des symboles, ce qui permet de faire des petits tours de magie, du genre : choisis une carte, ne me la montre pas, dis-moi deux symboles qu'elle porte, et je te dirai quels sont les autres.

Je me serais précipité pour acheter le jeu s'il n'y avait pas ce gag des deux cartes manquantes, ce qui pour un obsessif-compulsif comme moi est aussi frustrant que l'idée d'avoir un beau rayonnage de livres tous identiques sauf un qui dépasserait les autres de 1cm. (Il existe aussi un Dobble Kids, dont les images laissent suggérer qu'il doit être basé sur un plan projectif d'ordre 5 au lieu de 7, et au lieu d'avoir les 31 cartes qu'il est alors censé avoir, les descriptions que je lis çà et là suggèrent qu'il n'en a que 30 — décidément, cet éditeur cherche à tuer les mathématiciens obsessifs.) Je pourrais aussi concevoir et faire imprimer mes propres cartes. (Je ne sais pas ce que valent les sites Web qui proposent l'impression de cartes personnalisées, mais je tombe par exemple sur celui-ci, qui proposent des tarifs raisonnables, même s'ils le deviendront certainement moins après frais de port depuis les États-Unis — je ne trouve pas grand-chose basé en France ou en Europe, et le problème c'est que les jeux de cartes personnalisés font référence à la personnalisation des dos, pas des faces.) En revanche, si je fais ça, je passerai sans doute une éternité à me torturer sur la manière la plus logique, symétrique et élégante de choisir les symboles et de les disposer sur les cartes (dans le cas de Dobble, c'est visiblement fait au hasard, y compris pour la forme et l'orientation, ce qui participe justement à la difficulté du jeu).

On pourrait aussi chercher à faire des jeux de cartes avec d'autres structures mathématiques (après tout, un plan projectif, c'est un immeuble de Bruhat-Tits classique sphérique de type A₂ : je peux regarder par exemple le type B₂ [ajout : voir l'entrée suivante], et ainsi fabriquer un jeu de 40 cartes avec 4 symboles parmi 40 sur chacune, telles que deux cartes aient toujours au plus un symbole en commun, et que si un symbole ne figure pas sur une carte donnée, alors il existe exactement une autre carte ayant ce symbole et ayant un symbole en commun avec la carte donnée). Mais bon, avant de trouver un jeu à faire avec une structure plus compliquée, il serait déjà intéressant d'en trouver avec les plans projectifs.

(vendredi)

Je passe plusieurs jours à paramétrer une surface cubique

Un des paradoxes de la manière dont je gère (mal !) mon temps est que quand je n'ai pas de choses importantes et urgentes qui m'occupent de façon pressante, toutes sortes de petites choses moins importantes ou moins urgentes que j'ai laissé de côté pendant d'autres périodes percolent alors à la surface, et j'ai l'impression d'être presque plus débordé. D'autant plus que le temps que prennent ces choses n'est pas forcément évident à évaluer. Ainsi l'exemple d'un calcul que j'ai commencé de façon très accessoire suite à une question d'un collègue, que je pensais pouvoir traiter assez rapidement, et qui m'a finalement obsédé pendant à peu près dix jours, à m'énerver de ne pas arriver à faire ce que je voulais et de croire N fois avoir trouvé le bon bout pour tomber en fait dans un cul-de-sac, au point que j'en ai perdu le sommeil pendant une nuit.

D'autant plus que ce n'était pas tellement le résultat du calcul qui m'intéressait, et dont je suis totalement certain qu'il est connu depuis Klein, Cayley, Clebsch ou, au pire, Segre, et qu'il figure dans quantité de livres ou d'articles, mais d'y arriver moi-même, et de façon systématique, sans essayer de « deviner » le résultat (qui, a posteriori, était éminemment devinable), bref, de vérifier que je savais mener ce calcul à bien. Apparemment, la réponse est : oui, j'y arrive, mais très difficilement (et je ne suis pas certain d'avoir été complètement systématique, au final).

Mais je crois qu'il est important pour un mathématicien, en tout cas pour un géomètre algébriste, d'essayer de faire des calculs parfois. Même, ou plutôt surtout, en utilisant un ordinateur : comme l'a écrit Knuth, Science is knowledge which we understand so well that we can teach it to a computer, et l'intérêt d'essayer d'expliquer quelque chose à un ordinateur est de vérifier qu'on le comprend soi-même bien (à défaut d'ordinateur, un étudiant neuneu peut être utile, ou un post de blog 😉). Donc, vérifier qu'on sait passer d'une incantation magique comme une surface cubique est, géométriquement, l'éclaté du plan projectif en six points en position générale (et ces 6 points, les 15 droites passant par deux d'entre eux, et les 6 coniques par cinq d'entre eux, forment les 6+15+6 = 27 droites de la surface cubique) à une suite de calculs qui donnent le paramétrage d'une surface donnée, c'est vérifier qu'on a compris l'incantation.

Bon, j'avoue, je dis ça pour essayer de me convaincre que mon calcul était difficile, or il ne l'était pas, ou du moins, il n'aurait pas dû l'être vu que j'ai passé trois quatre cinq ans à faire une thèse sur les (hyper)surfaces cubiques et que j'en ai même fait un DVD.

Bref.

Le but, si on veut, est de décrire (paramétrer) toutes les solutions rationnelles de l'équation z₁³ + z₂³ + z₃³ = 1, autrement dit, toutes les façons d'écrire 1 comme somme des cubes de trois rationnels (en fait, ce serait plutôt −1, mais ça n'a pas d'importance, il suffit de changer les signes). Pour donner un peu de contexte sur ces sortes d'équations diophantiennes, il faut que j'explique ce qui se passe pour les problèmes analogues s'agissant de la somme de deux carrés, de trois carrés, et de deux cubes.

[Figure géométrique] Je devrais donc commencer par parler des solutions rationnelles de l'équation z₁² + z₂² = 1 (les points rationnels sur le cercle unité si on considère que z₁ représente l'abscisse et z₂ l'ordonnée) et de leur paramétrage. Les solutions rationnelles de z₁² + z₂² = 1 sont données par z₁ = (1−t²)/(1+t²) et z₂ = 2t/(1+t²) pour t parcourant les rationnels (on obtient exactement toutes les solutions comme ça si on convient en outre que t=∞ donne (z₁,z₂)=(−1,0) ; la réciproque est donnée par t = z₂/(1+z₁) = (1−z₁)/z₂). Ces formules peuvent se relier aux formules donnant le cosinus et le sinus d'un angle θ en fonction de la tangente de l'angle moitié (attention !, je ne prétends pas que l'angle θ lui-même soit rationnel, ni même que sa valeur ait un intérêt quelconque dans le problème). La figure ci-contre (si votre navigateur vous la montre et que vous arrivez à la déchiffrer) est censée illustrer ce paramétrage, figure sur laquelle j'ai pris t=1/3, qui donne la solution z₁=4/5 et z₂=3/5 (on a (4/5)² + (3/5)² = 1, c'est-à-dire que le point (4/5,3/5) est sur le cercle unité, ou, si on préfère chasser les dénominateurs, 4² + 3² = 5²). Ces formules (le « paramétrage rationnel d'une conique par une droite de pente variable par un de ses points ») sont une sorte de pons asinorum de la géométrie arithmétique, et avec un tout petit peu de mauvaise foi on peut les attribuer à Pythagore ou à Euclide (dans la recherche des « triplets pythagoriciens », c'est-à-dire des solutions entières de l'équation Z₁² + Z₂² = Z₀² : le fait que le 4² + 3² = 5², c'est-à-dire que le triangle de côtés entiers 4,3,5 est rectangle, est connu depuis très longtemps, et la recherche de solutions analogues intéressait les mathématiciens dès l'antiquité). Il est donc assez naturel de se demander ce qui se passe si on change un petit peu l'équation.

La même technique que ci-dessus marche mutatis mutandis si on cherche les solutions rationnelles de z₁² + z₂² + z₃² = 1 (les points rationnels sur la sphère unité) ou même pour n'importe quel nombre de variables : on s'inspirera de la projection stéréographique de la sphère pour arriver à quelque chose comme z₁ = (1−v²−w²)/(1+v²+w²) avec z₂ = 2v/(1+v²+w²) et avec z₃ = 2w/(1+v²+w²) pour v et w rationnels (je passe sous silence des petites subtilités notamment sur ce qui arrive « à l'infini »).

Si on remplace les carrés par des cubes, en revanche, les choses sont très différentes : l'équation z₁³ + z₂³ = 1 n'a pas de solution rationnelle autre que les deux évidentes (1,0) et (0,1), cela a été démontré par Euler en 1770 (en montrant le cas particulier n=3 du théorème de Fermat, c'est-à-dire que Z₁³ + Z₂³ = Z₀³ n'a pas de solution entière). • Mais en ajoutant une variable, l'équation z₁³ + z₂³ + z₃³ = 1 a de nouveau quantité de solutions rationnelles, et mon calcul consistait essentiellement à en trouver le paramétrage :

z₁ = (9 − 9v + 3v² − 3v³ − 3w − 6v·w − 3v²·w + 3w² − v·w² − w³)/(9 − 9v + 3v² − 3v³ + 3w + 6v·w + 3v²·w + 3w² − v·w² + w³)

z₂ = (−9 − 9v − 3v² − 3v³ + 3w − 6v·w + 3v²·w − 3w² − v·w² + w³)/(9 − 9v + 3v² − 3v³ + 3w + 6v·w + 3v²·w + 3w² − v·w² + w³)

z₃ = (9 + 9v + 3v² + 3v³ + 3w − 6v·w + 3v²·w + 3w² + v·w² + w³)/(9 − 9v + 3v² − 3v³ + 3w + 6v·w + 3v²·w + 3w² − v·w² + w³)

vérifient z₁³ + z₂³ + z₃³ = 1 quels que soient v,w,

avec pour réciproque (« presque partout »)

v = (−1 + z₁² − z₂ − z₂² − z₁·z₃ + z₃²)/(z₁·z₂ + z₃)

w = (1 − 2z₁ + z₁² + z₂ − z₁·z₂ + z₂² + z₃ − z₁·z₃ + 2z₂·z₃ + z₃²)/(z₁·z₂ + z₃)

(Je vais expliquer qu'on peut écrire ces formules de façon un peu plus jolie !) Par exemple, v=2 et w=3 donnent la solution z₁=−5/4, z₂=−3/4 et z₃=3/2, et on a bien (−5/4)³ + (−3/4)³ + (3/2)³ = 1, ou, si on préfère chasser les dénominateurs, (−5)³ + (−3)³ + 6³ = 4³, ou encore, si on est resté un peu en retard sur les derniers progrès mathématiques et qu'on n'aime pas les nombres négatifs, 6³ = 5³ + 3³ + 4³ (au niveau des entiers naturels, les formules ci-dessus produisent donc plein de cubes égaux à la somme de trois autres cubes, ou, selon les signes, de sommes de deux cubes égaux à une autre telle somme). Remarquer que ces formules, comme celles que j'ai données plus haut pour le paramétrage rationnel du cercle ou de la sphère, permettent non seulement de trouver des solutions rationnelles, mais aussi d'approcher une solution réelle par une solution rationnelle (il suffit d'appliquer la « réciproque » sur les réels, d'approcher les paramètres, et d'appliquer la formule directe). Par exemple, si je veux trois entiers « assez proches » dont la somme des cubes est encore un cube, je pars de la solution réelle où z₁, z₂, z₃ valent 3−1/3 ≈ 0.6933612744, pour laquelle les formules réciproques me donnent v ≈ −1.4422495703 et w ≈ 2.0800838231, qui sont proches de −450/312 et 649/312 respectivement, et en appliquant les formules directes avec ces deux rationnels, on trouve, après avoir chassé les dénominateurs, 1403846621³ + 1403905879³ + 1403840755³ = 2024722855³, et ce n'est pas évident de trouver des choses comme ça autrement qu'en utilisant ce genre de techniques.

(Évidemment, c'est plus impressionnant avec le paramétrage rationnel du cercle : si vous cherchez des triangles rectangles à côtés entiers dont les angles non-droits soient proches de 45°, on remplacera t dans les formules donnant le paramétrage rationnel du cercle par les approximants successifs de √2 − 1, et on obtient ainsi successivement 3²+4²=5², 21²+20²=29², 119²+120²=169², 697²+696²=985², 4059²+4060²=5741², etc., où à chaque fois les deux carrés sommés sont non seulement proches mais même consécutifs — je ne sais pas si cette suite était connue des anciens Grecs.)

(jeudi)

Volumes intrinsèques (quermaß) des convexes

Considérons les questions suivantes, dont l'énoncé ne fait pratiquement appel qu'à des notions de niveau collège (quitte à les reformuler ou spécialiser un tout petit peu : par exemple, j'ai écrit convexe dans la seconde, mais si on veut, on peut considérer des cas particuliers comme un triangle, rectangle ou ellipse, pour simplifier) :

Ces questions ont ceci en commun que, selon le niveau de réflexion qu'on leur accorde, elles semblent faciles (leur énoncé est tout à fait élémentaire), puis difficiles (on ne sait pas par quel bout les aborder), puis faciles (quand on les prend bien) : elles ont aussi ceci en commun qu'elles sont toutes résolubles grâce à la même notion mathématique, celle de volume intrinsèque d'un convexe (ou intégrale de quermaß, c'est la même chose à une constante et une renumérotation près) : c'est une notion que je trouve très jolie et naturelle, pas du tout compliquée à expliquer, et qui semble bizarrement peu connue même des mathématiciens en-dehors des spécialistes de la convexité ou de la géométrie intégrale/stochastique, alors qu'on peut en tirer des choses très simples (comme l'illustrent les problèmes ci-dessus). Bon, peut-être qu'en fait tout le monde connaît, et que j'étais le dernier à être mis au courant (il y a environ quatre ans, quand j'ai entendu parler de ces choses-là pour la première fois), mais ma réaction a été pourquoi aucun cours de maths que j'ai suivi ne m'a présenté ce concept vraiment naturel et intéressant ?!. Il y a toutes sortes de façon de l'approcher, je vais me contenter de donner les résultats basiques qui me semblent les plus importants.

Très grossièrement, l'idée est qu'à côté du volume (de dimension n) et de la surface (de dimension n−1, où n est la dimension ambiante — en fait, on prendra plutôt la demi-surface pour une raison de cohérence d'ensemble), on peut définir (pour un convexe compact) une sorte de « mesure » en chaque dimension entre 1 et n ; dans le cas d'un parallélotope (pas forcément rectangle, mais imaginons-le rectangle pour fixer les idées), le i-ième volume intrinsèque est égal, à une constante près (1/2i) à la somme des volumes i-dimensionnels (longueur, surface, volume, etc.) de toutes les faces de dimension i du parallélotope.

Voici une façon d'approcher cette notion. Si K est un convexe compact dans l'espace euclidien de dimension n, on peut considérer K+B(ρ) (où B(ρ) désigne la boule fermée centrée en l'origine et de rayon ρ, c'est-à-dire) l'ensemble des points situés à distance ≤ρ de K, autrement dit l'épaississement de K jusqu'à distance ρ, ou simplement la « boule » (mais j'éviterai ce terme) centrée sur K et de rayon ρ. On s'intéresse au volume [i.e., à la mesure de Lebesgue] V(K+B(ρ)) de cet ensemble de points : on peut montrer que c'est un polynôme en ρ (pour ρ≥0), et ce sont les coefficients de ce polynôme qui vont m'intéresser. Il est évident, en considérant séparément les cas ρ=0 et ρ très grand, que le coefficient constant (donc la valeur pour ρ=0) est simplement le volume V(K) de K, et que le terme dominant est le volume V(B(ρ)) de la n-boule de rayon ρ, que je vais noter 𝒱n·ρn avec 𝒱n le volume de la n-boule unité (qui vaut πn/2/(n/2)!, mais ce ne sera pas très important). On peut aussi se convaincre, en considérant le comportement pour ρ très petit mais non nul (disons, la dérivée en ρ=0), que le coefficient de degré 1 est la surface de K (c'est-à-dire la mesure (n−1)-dimensionnelle de son bord).

(lundi)

Notes sur les réseaux euclidiens, et le réseau de Leech

Je mets ici les transparents d'un exposé que j'ai donné vendredi matin dans le cadre d'une journée Télécom-UPS (Le Numérique pour tous) s'adressant aux professeurs de classes préparatoires : le sujet que j'ai évoqué était celui des réseaux euclidiens[#] et de leurs applications en cryptographie. Comme j'ai moi-même appris plein de choses en préparant cet exposé (entre autres en me plongeant un peu plus que je ne l'avais fait jusqu'alors dans le célèbre livre Sphere Packings, Lattices and Groups des deux mathémagiciens John Conway et Neil Sloane), je n'ai pas résisté à partir un peu dans tous les sens, et forcément j'avais beaucoup plus de choses sur mes planches que je ne pouvais en exposer en une heure : inversement, j'espère que leur lecture peut être intéressante sans l'exposé oral pour les accompagner.

Je n'ai notamment pas pu m'empêcher d'évoquer (le réseau) E₈, même s'il n'a aucun rapport avec la crypto dont j'étais censé parler. Ce qui me fait penser que si j'ai beaucoup parlé de E₈ sur ce blog, soit de l'algèbre ou du groupe de Lie de ce nom, soit du système de racines qui le définit, je n'ai pas vraiment parlé du réseau E₈ (celui engendré par le système de racines), qui est pourtant un objet plus simple (dans sa définition sans doute la plus compacte, c'est l'ensemble {(x₁,…,x₈) ∈ (ℤ⁸∪(ℤ+½)⁸) : x₁+⋯+x₈ ∈ 2ℤ} des octuplets de réels soit tous entiers soit tous ½+entiers, et dont la somme est un entier pair) ; et je n'ai jamais parlé du réseau de Leech de dimension 24 (qui est pourtant presque aussi ubiquiste dans les mathématiques que E₈, et peut-être encore plus exceptionnel). Voici une façon concise (mais peu constructive) de caractériser ces deux objets : si vous vivez dans un espace de dimension 8 (resp. 24) et que vous cherchez à empiler des boules toutes identiques, vous remarquerez qu'il y a une unique façon de mettre le nombre maximum de boules autour d'une boule centrale de façon à ce qu'elle la touchent toutes, à savoir 240 d'entre elles (resp. 196560), et de plus, une fois réalisé ce motif, il se continue de façon périodique (chaque boule ayant toujours ce même nombre maximum de voisines) ; en regardant le centre des boules, vous avez ainsi réalisé le réseau E₈ (resp. le réseau de Leech ou son symétrique). À part en dimension 2 où on obtient facilement le réseau hexagonal par la même construction (en disposant six cercles identiques autour d'un septième qu'ils touchent tous), les dimensions 8 et 24 sont exceptionnelles, au moins parmi celles qu'on connaît (j'ignore si on sait dire quelque chose sur les dimensions telles que l'arrangement maximal de boules identiques autour d'une boule centrale soit unique et engendre de plus un réseau, mais il n'y en a pas d'autre que 2,8,24 en dimension ≤24, et pas d'autre connue : dans les autres dimensions, les boules ne sont pas du tout rigides — par exemple, en dimension 3, on peut placer au maximum 12 boules identiques touchant une autre donnée, mais il y a beaucoup de façons de le faire, et elles peuvent se déplacer tout en gardant le contact avec la boule centrale).

Ceci étant, si les questions d'empilement de sphère sont frappantes, elles ne permettent pas vraiment de travailler avec le réseau de Leech. Sur le modèle de la définition que j'ai donnée ci-dessus du réseau E₈ (les octuplets de réels, soit tous entiers soit tous ½+entiers, dont la somme est un entier pair), voici la façon la plus simple et constructive que je connaisse de définir le réseau de Leech. Comme il vit en 24 dimensions, il y a 24 coordonnées à donner, et je disposerai ces 24 coordonnées sur les sommets d'un icosaèdre régulier (rappelons qu'un icosaèdre régulier a 12 sommets), deux par sommet, que j'appellerai arbitrairement la coordonnéee rouge et la coordonnée bleue (pour ce sommet). Le réseau de Leech est formé des points dont les coordonnées multipliées par √8 sont 24-uplet d'entiers vérifiant les conditions suivantes : (0) les bits 0 (=bits de poids faible) de ces 24 entiers sont tous les mêmes (i.e., ils sont soit tous pairs, soit tous impairs), (1) le bit 1 de l'entier rouge sur chaque sommet de l'icosaèdre est égal au XOR des bits 1 des entiers bleus des sommets qui ne sont pas adjacents à lui [la même chose est alors automatiquement vraie en échangeant bleue et rouge, et cette condition est une façon de dire que les bits 1 forment un mot du code de Golay binaire (24,12,8)], et enfin (2) le XOR des bits 2 de tous les entiers est égal à leur bit 0 commun [on a déjà dit que les bits 0 sont tous les mêmes]. (Note : le facteur √8 est un simple facteur de normalisation. Il a pour but d'assurer que le réseau de Leech a un covolume — c'est-à-dire la valeur absolue du déterminant d'une base — égal à 1, et alors les produits scalaires de deux vecteurs quelconques sont toujours entiers.)

±?/√8±?/√8±?/√8±?/√8±?/√8±?/√8
±?/√8±?/√8±?/√8±?/√8±?/√8±?/√8
±?/√8±?/√8±?/√8±?/√8±?/√8±?/√8
±?/√8±?/√8±?/√8±?/√8±?/√8±?/√8

Le tableau ci-contre, si mon JavaScript est bien fait, est censé afficher des vecteurs aléatoires de la plus petite longueur non nulle (à savoir 2) uniformément choisis parmi les 196560 possibles dans le réseau de Leech (qui est engendré par eux, c'est-à-dire, est l'ensemble de toutes les combinaisons entières de ces vecteurs) ; j'ai laissé non simplifiées des expressions comme 2/√8 (ou 4/√8, qui apparaît très rarement) pour mieux coller avec la présentation que je viens de donner. Ici, les coordonnées ont été disposées en tableau 6×4 parce que c'est plus commode à mettre sur une page Web qu'un icosaèdre avec deux coordonnées par sommet : si on veut faire le lien entre ces deux présentations, on peut reprendre l'étiquetage des cases que j'avais utilisée dans une entrée récente, et qui est rappelée en attributs title (i.e., si on passe la souris au-dessus d'une case), et les disposer sur un icosaèdre de la façon suivante : en appelant un premier sommet, les cinq sommets adjacents s'appelleront cycliquement , et les six sommets opposés aux six que je viens de nommer seront et respectivement (à chaque fois, les deux étiquettes que je donne servent à définir la coordonnée « rouge » et la coordonnée « bleue » au sommet en question de l'icosaèdre).

Mais bon, il y a quantité de manières de décrire ou de construire le réseau de Leech (dans un seul chapitre du livre précédemment mentionné — le chapitre 24, et je soupçonne d'ailleurs que le numéro n'est pas un hasard —, Conway et Sloane donnent d'ailleurs 23 constructions différentes, une pour chacun des types de trous profonds [sic] du réseau). C'est un des signes qu'il s'agit d'un objet mathématique riche et extraordinaire qu'il y ait tellement de façons de le décrire. En voici une autre : on considère d'abord le réseau appelé II25,1 (dans l'espace Minkowskien de dimension 25+1) dont les points sont (exactement comme pour ma description de E₈ ci-dessus) les 26-uplets de réels, soit tous entiers soit tous ½+entiers, dont la somme est un entier pair ; dans ce réseau, on considère le vecteur v = (0,1,2,3,…,24|70), qui, vu que 70² = 0² + 1² + ⋯ + 24², est orthogonal à lui-même pour le produit scalaire Minkowskien ; on considère alors les vecteurs de II25,1 qui sont orthogonaux à v (c'est-à-dire que la somme des 25 premières coordonnées multipliées par 0,1,2,3,…,24 respectivement, est égale à la dernière multipliée par 70), modulo v lui-même : le réseau ainsi formé est isométrique au réseau de Leech. Ou, pour parler en physicien, on se place dans un espace-temps de relativité restreinte avec 25 dimensions d'espace et 1 de temps, on considère un photon qui se déplace à la vitesse (0/70, 1/70, …, 24/70), et le réseau très simple II25,1, vu par ce photon (dans l'espace perpendiculaire à son déplacement) est le réseau de Leech. Le passage entre cette description et la précédente, cependant, n'est pas évident.

[#] La terminologie prête vraiment à confusion, parce que le mot français réseau correspond à la fois à l'anglais network et lattice, et c'est du second qu'il est question. Mais l'anglais n'est pas moins ambigu, puisque lattice correspond à la fois au français réseau et treillis. Il ne reste plus qu'à inventer une quatrième sorte d'objet, qui s'appellerait treillis en français et network en anglais, et on aura un beau graphe bipartite complet K(2,2) dans les traductions.

(jeudi)

Exposé au séminaire Codes sources sur mon labyrinthe hyperbolique

Pour les ~7×10⁹ d'entre vous qui n'ont pas pu assister à mon exposé tout à l'heure au séminaire Codes sources (dont j'ai déjà parlé) consacré à l'explication de mon labyrinthe hyperbolique (toujours le même), les transparents sont ici — ou du moins, les transparents de la première partie de mon exposée, dédiée à l'exposition des idées mathématiques sous-jacentes ; ensuite j'ai commenté le code directement dans un éditeur, donc je ne peux que renvoyer vers les commentaires de celui-ci. Il y a évidemment beaucoup de choses que j'ai dites qui ne sont pas sur les transparents, mais ils donneront au moins une idée de ce dont j'ai parlé.

(samedi)

Déformation continue d'une rotation de 2 tours en rien du tout

Dans l'entrée que j'ai postée hier je mentionnais le groupe Spin(3), revêtement double du groupe SO(3) des rotations de la sphère, c'est-à-dire qu'il distingue une rotation par un tour complet de pas de rotation du tout ; et je mentionnais que le groupe Spin(3), lui, est simplement connexe (on ne peut pas le revêtir à son tour) : tout lacet, i.e., tout chemin qui revient à son point de départ, dans Spin(3), et notamment celui qui fait faire deux tours complets à la sphère, peut être contracté en rien du tout. J'ai essayé d'illustrer ce fait par une vidéo que je viens de mettre sur YouTube :

La sphère en haut à gauche (celle numérotée 0) fait deux tours complets pendant une période (=8 secondes) de la vidéo ; celle en bas à droite (numérotée 27) ne bouge pas. Chacune des sphères intermédiaires effectue un mouvement qui part et arrive à la même position de référence, et chacun de ces mouvements est très proche des mouvements de la sphère précédente et suivante. Ceci illustre le fait qu'on peut passer continûment de deux tours complets à zéro. Chose qui ne serait pas possible pour un seul tour (ou si on avait affaire à un cercle, quel que soit le nombre non-nul de tours).

Ceci étant, je n'y vois toujours pas grand-chose à la manière dont cette déformation se fait ou pourquoi elle n'est pas possible pour un seul tour (mon espoir était d'acquérir une intuition visuelle sur le groupe spin, pour le comprendre autrement que juste intellectuellement, et ce n'est pas franchement un succès). J'ai aussi produit une version séquentielle de la vidéo, où la sphère fait des mouvements successifs au lieu qu'on les voie tous simultanément, je ne sais pas si c'est plus clair :

OK, je vois bien que l'idée très grossière est que l'axe qui sert d'axe de rotation dans le premier mouvement (suivre des yeux le point de rencontre des trois pentagones verts) se met, au cours des différents mouvements, à faire des tours, si bien que la sphère n'a plus vraiment besoin de tourner autour de lui, puis ce tour qu'il décrit est lui-même recontracté à rien du tout, mais cette description est vraiment vague, et ne me fournit pas une explication visuelle intuitive de pourquoi on a besoin de faire deux tours pour contracter.

(vendredi)

Racontons des choses autour de la notion de groupe de Lie

Puisque j'ai publié une première entrée sur les octonions, je me dis qu'il faudrait que je fasse un peu de vulgarisation sur la notion de groupe de Lie et sur leur classification — et pourquoi c'est un résultat mathématique majeur. Voici une tentative pour raconter quelques choses dans cette direction.

Comme d'habitude quand je fais de la vulgarisation mathématique, (1) je ne sais pas bien à quel niveau de public je m'adresse (et ce niveau va d'ailleurs varier de façon incohérente au cours du texte, même pas forcément de façon monotone vu qu'il m'arrive de faire des digressions pour revenir ensuite à des choses plus basiques), et (2) je vais chercher à « raconter » les maths plus qu'énoncer des définitions et des résultats précis (j'essaie très fort de ne rien dire de faux, mais je dois souvent me réfugier dans un certain niveau de flou quand je veux cacher quelques détails techniques) : mon but est de donner un petit aperçu de ce à quoi ressemble cette théorie classique, certainement pas de l'enseigner précisément (pour ça, il y a toutes sortes de livres, d'ailleurs j'en suggère quelques uns). L'idée est que — qu'on me corrige si ce que je pense est en fait assez stupide — ça peut intéresser des gens de lire des choses à ce sujet, et de regarder les petits dessins que sont les diagrammes de Dynkin et de Satake, sans avoir envie d'apprendre (et/ou le temps de comprendre) ce qu'est précisément, par exemple, un système de racines, une involution de Cartan, ou en fait, un groupe de Lie.

Après, je peux aussi en profiter pour parler à un public plus averti pour lui dire, par exemple regardez le groupe SO*(2n) comme il est tout gentil et tout mimine, pourquoi est-ce que personne n'en parle jamais, de ce pauvre petit groupe ?, ou pour partager mon agacement qu'il soit si difficile de trouver des informations fiables et précises sur certaines choses (celui qui veut traverser le pont de la mort doit répondre aux questions suivantes : quel est le sous-groupe compact maximal de la forme déployée algébriquement simplement connexe de E₇ ? combien sa forme déployée adjointe algébriquement connexe a-t-elle de composantes réelles ? quelle est sa couleur préférée ?).

Table des matières

La notion de groupe et de groupe de Lie

Symétries discrètes

Pour commencer, si je devais m'adresser à un public qui n'a aucune connaissances mathématiques particulières, je présenterais un groupe comme les formes de symétries que peut posséder un objet mathématique (en étant délibérément vague sur ce que objet mathématique peut recouvrir, et en recouvrant sous le terme symétrie tout ce qui « ne change pas » cet objet, cf. les exemples et commentaires ci-dessous). Cette définition est assez floue, mais elle a le mérite de permettre de comprendre pourquoi il s'agit d'un concept extrêmement central en mathématiques (alors que si on prend la vraie définition comme un ensemble muni d'une loi de composition binaire vérifiant les axiomes gnagnagna, ça ne saute pas forcément aux yeux pourquoi cette définition est la bonne et pourquoi le concept est essentiel).

Par exemple, si je considère un pentagone régulier (ou de façon équivalente, une étoile à cinq branches comme ceci), cette figure a dix symétries : quatre rotations autour du centre du pentagone (de façon à amener un sommet sur un des quatre autres, ce qui donne des angles de ±72° ou ±144° mais peu importe), cinq symétries axiales (les réflexions par rapport à des axes passant par un des cinq sommets du pentagone), et la « symétrie » consistant à ne rien faire, qu'on appelle symétrie identité, ou élément neutre du groupe, et que les mathématiciens incluent toujours parce que cela rend la notion de groupe bien plus commode. L'ensemble de ces dix symétries s'appelle le groupe diédral du pentagone (et on dit qu'il est d'ordre 10, parce qu'il y a dix éléments dedans). Soit dit en passant, si on considère une étoile à cinq branches entrelacée (c'est-à-dire où on voit dans quel sens une branche passe au-dessus d'une autre, comme sur cette version du drapeau marocain), la figure n'a plus que cinq symétries (les cinq rotations de ±72° et ±144°, ou plus exactement, les quatre rotations et l'élément neutre / identité qui est une rotation de 0°), parce qu'une symétrie axiale changerait le sens d'entrelacement de l'étoile : ce groupe s'appelle alors le groupe cyclique à cinq éléments (et c'est un exemple d'un sous-groupe, en l'occurrence un sous-groupe du groupe diédral du pentagone : en ajoutant une structure à un objet mathématique, on restreint ses symétries). Remarquons que la plupart des figures géométriques (prenez un triangle quelconque, par exemple) n'ont pas du tout de symétrie, ou plutôt, ils n'ont que la symétrie idiote consistant à ne rien faire (l'identité ou élément neutre, comme je l'ai appelée ci-dessus), et leur groupe de symétrie est appelé le groupe trivial, ou groupe à un seul élément.

(mardi)

Les octonions sont-ils intéressants ? (première partie)

J'ai promis depuis une éternité de parler d'octonions, et cette entrée a été commencée à ce moment-là, puis laissée de côté, puis remaniée complètement suite à une réflexion que j'ai entreprise sur la notion de géométrie, puis laissée de nouveau de côté, puis reprise, etc. Le résultat, écrit par bribes, manque donc certainement de cohérence globale, j'espère qu'on ne m'en voudra pas. Je reprends la formulation du titre d'une entrée passée pour m'interroger de nouveau sur l'intérêt d'un concept mathématique parmi ceux qui fascinent beaucoup, notamment les mathématiciens amateurs, et ceux qui aiment se demander voyons jusqu'où on peut généraliser les choses : en l'occurrence, les octonions, dont je vais tâcher d'expliquer de quoi il s'agit. Mais, quitte à spoiler la suite, je peux d'ores et déjà révéler que ma conclusion générale sera plus positive que pour les nombres surréels : je prétends que les octonions sont un objet naturel, même si les raisons de leur existence ont quelque chose d'un peu étonnant et mystérieux ; en revanche, les tentatives pour les généraliser encore sont idiotes parce qu'elles passent complètement à côté de la raison profonde pour laquelle les octonions sont intéressants (en se concentrant sur des phénomènes superficiels).

Introduction

Dans cette première partie d'une série d'entrées consacrées aux octonions (mais qui, comme tout ce que j'entreprends, présente un risque sérieux de ne jamais être finie), je n'arriverai pas encore à répondre à la question du titre, puisque je ne ferai essentiellement que définir et présenter les objets en question. Après une présentation et un petit historique censés être lisibles par absolument tout le monde, je veux commencer par rappeler ce que sont les nombres complexes et les quaternions, pour ensuite aborder les octonions. J'expliquerai pourquoi les quaternions sont intéressants et utiles notamment pour calculer avec les rotations dans l'espace, et j'essaierai de présenter ensuite de façon analogue des liens des octonions avec les rotations en sept ou huit dimensions. Je parlerai ensuite un peu des automorphismes des octonions, qui constituent le groupe de Lie exceptionnel G2 (il faudra donc dire un peu ce que cela signifie), et j'évoquerai enfin quelques pistes pour la suite.

Je prévois de continuer avec encore deux entrées sur le sujet : l'une (déjà essentiellement écrite) contiendra un microscopique aperçu du sujet des octonions entiers et notamment leur lien avec mon E8 préféré, et une autre (largement à écrire ou à réécrire, donc probablement pour jamais) doit expliquer ce qu'est le carré magique de Freudenthal-Tits, qui permet vraiment de répondre (positivement !) à la question du titre — oui, les octonions sont intéressants à cause de leur lien profond avec les groupes de Lie exceptionnels G2, F4, E6, E7 et (de nouveau !) E8.

Table des matières

Présentation sans mathématiques, et petit historique

Disons immédiatement la chose suivante : les octonions (𝕆) sont une sorte de « nombres » qui s'inscrit logiquement après les nombres réels ℝ, les nombres complexes ℂ et les quaternions ℍ. Les nombres complexes sont un objet de dimension réelle 2, c'est-à-dire qu'un nombre complexe renferme essentiellement la donnée de deux nombres réels (sa partie réelle et sa partie imaginaire) ; les quaternions sont de dimension réelle 4, c'est-à-dire qu'ils ont quatre coordonnées réelles, et les octonions sont de dimension réelle 8. Ceci donne naturellement envie de prolonger la suite des puissances de 2 et d'inventer des sortes de nombres qui soient de dimension réelle 16, 32 et ainsi de suite, mais le caractère véritablement exceptionnel des octonions offre toutes sortes de raisons de comprendre, au contraire, qu'elle doit s'arrêter (et que c'est justement le fait qu'elle s'arrête qui rend les octonions intéressants !), c'est-à-dire que tout objet qu'on peut inventer pour la prolonger est soit entièrement dénué d'intérêt soit complètement délirant.

Il m'est impossible de faire l'historique des nombres réels puisque la progression historique, à ce sujet, est trop éloignée de la progression mathématique : la géométrie grecque utilise implicitement une notion de mesure, mais la mesure d'une longueur ou d'une aire ne sont pas véritablement unifiées et le concept de nombre négatif n'existe pas ; a contrario, il serait absurde de dater les nombres réels de leur première construction véritablement rigoureuse (peut-être par Cauchy ou Dedekind) car ce serait suggérer qu'Euler, Lagrange ou Gauß ne comprenaient pas ce concept, ce qui est manifestement faux parce que les questions algébriques qui m'intéressent ici sont assez peu liées aux questions (quasi fondationnelles) sur la complétude des nombres réels. Je passe donc sur les nombres réels.

Les nombres complexes ont commencé à apparaître avec la résolution des équations du troisième degré notamment par Jérôme Cardan (vers 1545) : la raison en est que même si une équation réelle du troisième degré a toujours une solution réelle, il peut être nécessaire d'introduire des racines carrées de nombres négatifs, c'est-à-dire de passer par les nombres complexes, pour exprimer ce qui sera finalement une quantité réelle (on sait maintenant, grâce à la théorie de Galois, que le cas où les trois racines d'une équation cubique réelle sont toutes réelles, le fameux casus irreducibilis, lié au problème de la trissection de l'angle, ne peut se résoudre en radicaux que si on accepte des radicaux non réels). Mais même si Cardan fait intervenir, presque malgré lui, des nombres complexes, c'est Bombelli qui en développe une première théorie un peu sérieuse dans son livre d'algèbre publié en 1572. Curieusement, ce n'est que tardivement, peut-être avec Argand en 1806, et avec la recherche de démonstrations du théorème fondamental de l'algèbre (une équation algébrique de degré n dans les nombres complexes a toujours n solutions comptées avec multiplicités), qu'on a acquis la représentation claire des nombres complexes comme les points d'un plan (donc de dimension 2 sur les nombres réels) dont la partie réelle et la partie imaginaire seraient les deux coordonnées.

Les nombres complexes ayant ainsi deux coordonnées réelles, et étant liés de façon agréable à la géométrie plane, il est naturel de chercher si on peut construire des sortes de nombres avec trois coordonnées, qu'on pourrait lier à la géométrie dans l'espace. William Hamilton a passé des années de sa vie, vers 1830–1840, à chercher de tels nombres (sans avoir, bien sûr, une définition exacte de ce qu'il cherchait). C'est en 1843 qu'il a découvert les quaternions, de dimension 4 réelle, en même temps qu'il a compris la raison pour laquelle la dimension 3 ne pouvait pas répondre à ses attentes, à savoir l'inexistence d'une « identité des trois carrés » analogue à l'« identité des deux carrés » ((a²+b²) · (a′²+b′²) = (a·a′−b·b′)² + (a·b′+b·a′)²) qui exprime la multiplicativité de la norme complexe et celle « des quatre carrés » ((a²+b²+c²+d²) · (a′²+b′²+c′²+d′²) = (a·a′−b·b′−c·c′−d·d′)² + (a·b′+b·a′+c·d′−d·c′)² + (a·c′−b·d′+c·a′+d·b′)² + (a·d′+b·c′−c·b′+d·a′)²) liée à l'existence des quaternions mais qui était déjà connue d'Euler et de Lagrange.

Malgré le fait qu'ils soient de dimension 4, les quaternions ont, comme je l'expliquerai, des applications naturelles à la géométrie euclidienne de dimension 3 (pour le calcul des rotations dans l'espace). C'est sans doute la raison pour laquelle ils ont eu un certain succès, et ont valu une grande renommée à leur inventeur. (En fait, comme souvent en mathématiques, les découvertes avaient été préfigurées par d'autres : en l'occurrence, Gauß avait essentiellement découvert les quaternions dans un texte de 1819 sur les rotations de la sphère, qu'il n'a pas jugé bon de publier.) Toujours est-il que dans la deuxième moitié du XIXe siècle ont fleuri des textes, des chaires et des cours sur la « science des quaternions ». (Une anecdote que je n'ai pas réussi à confirmer veut que quand Charles Dodgson, plus connu sous le pseudonyme de Lewis Carroll, a publié Alice in Wonderland, la reine Victoria lui a fait promettre de lui envoyer une copie du prochain livre qu'il écrirait : le livre en question était un traité sur les quaternions, et l'histoire ne dit pas si Victoria l'a autant apprécié.) Les quaternions continuent d'avoir une certaine utilité pour représenter informatiquement des orientations dans l'espace (de façon compacte et efficace).

Les octonions, en revanche, n'ont pas eu une telle popularité, et n'ont guère d'utilité pratique. Découverts (sous le nom d'octaves), à peine quelques mois après les quaternions, par un ami de Hamilton, John Graves, celui-ci s'est fait voler la vedette par Arthur Cayley qui a publié l'existence des octonions en 1845.

Il existe une façon systématique (la construction de Cayley-Dickson) pour passer des nombres réels aux complexes, des complexes aux quaternions, et des quaternions aux octonions : mais à chaque fois qu'on applique cette construction, on perd quelque chose. Quand on passe des réels aux complexes, on perd la propriété d'être un corps ordonné (ou ordonnable) ; quand on passe des complexes aux quaternions, on perd la commutativité de la multiplication, c'est-à-dire que x·y et y·x ne seront plus égaux en général dans les quaternions ; quand on passe des quaternions aux octonions, on perd l'associativité de la multiplication, c'est-à-dire que x·(y·z) et (x·yz ne seront plus égaux en général dans les octonions (ce qui doit faire frémir d'horreur tout mathématicien qui se respecte, mais heureusement on garde au moins une forme faible de l'associativité appelée alternativité) ; et si on cherche à continuer la construction, on perd la seule raison pour laquelle les choses avaient encore un intérêt, à savoir la multiplicativité des normes ou le fait que x·y=0 ne se produit que pour x=0 ou y=0. Même avec ces propriétés, il n'est pas du tout évident que les octonions aient le moindre intérêt autrement que comme une petite curiosité algébrique : il se trouve qu'ils en ont, mais il me semble que la seule explication convaincante de ce fait passe par la théorie des groupes de Lie exceptionnels, et je reporterai à plus tard ces explications.

Quelques lectures : Une excellente référence (souvent citée) concernant les octonions en général est l'introduction de John Baez à leur sujet [edit : lien cassé (en ce moment ?), mais le même texte est disponible sur l'arXiv] ; une autre est le livre de J. H. Conway et D. Smith, On Quaternions and Octonions (their Geometry, Arithmetic and Symmetry). Beaucoup de ce que je vais dire est contenu dans ces sources, mais je vais essayer de dire certaines choses de façon plus élémentaire, ou au moins d'arriver plus rapidement à ce qui est amusant. Une autre référence est les chapitre 9 et 10 par Koecher et Remmert dans le livre Numbers de Ebbinghaus &al. Pour une présentation élégante de la multiplication sur les octonions sans passer par la construction de Cayley-Dickson, je conseille cet article de Bruno Sévennec. Enfin, pour une description claire et approfondie du « carré magique » de Freudenthal (dont je devrai parler plus tard), je recommande ce survey par Barton et Sudbery, qui est le seul que j'aie trouvé vraiment satisfaisant sur le sujet (on pourra aussi consulter cet article de Freudenthal lui-même, en allemand, qui reprend les choses à zéro, de façon assez claire et efficace). Je tire la plupart des informations de mon aperçu historique du livre Mathematics and its History de John Stillwell (notamment les chapitres 14 et 20).

Définition rapide pour les gens pressés

Pour les lecteurs qui n'auraient pas la patience de lire tout ce qui suit, voici une définition ultra-rapide des algèbres à divisions des complexes, quaternions et octonions (on peut aussi l'ignorer sachant que tout va être redit ci-dessous). Il s'agit respectivement des expressions de la forme x(0) + x(1)·i pour les complexes, x(0) + x(1)·i + x(2)·j + x(3)·k pour les quaternions et x(0) + x(1)·i + x(2)·j + x(3)·k + x(4)· + x(5)·i· + x(6)·j· + x(7)·k· pour les octonions (il faudrait traiter i·, j· et k· comme trois lettres supplémentaires, même si je les ai écrites comme des produits pour économiser les lettres de l'alphabet) ; l'addition se fait terme à terme, et la multiplication se fait en développant complètement l'écriture et en utilisant la table qui suit :

×1ijki·j·k·
11ijki·j·k·
ii−1kji·k·j·
jjk−1ij·k·i·
kkji−1k·j·i·
i·j·k·−1ijk
i·i·k·j·i−1kj
j·j·k·i·jk−1i
k·k·j·i·kji−1

(La ligne de la table donne le symbole de gauche à multiplier et la colonne donne le symbole de droite : ainsi, i·j=k tandis que j·i=−k. Pour les complexes, seules les deux premières lignes et colonnes servent, et pour les quaternions, seules les quatre premières lignes et colonnes. Il y a toutes sortes de conventions différentes pour nommer la base des octonions, mais celle que j'ai choisie a l'avantage que — je pense — tous les mathématiciens seront d'accord sur le contenu de la table de multiplication une fois qu'on a choisi les noms.)

La multiplication des complexes est commutative et associative, celle des quaternions est associative mais non commutative, et celle des octonions n'est même pas associative ((i·j=k· tandis que i·(j·)=−k·) ; elle vérifie cependant des conditions plus faibles, dites d'alternativité, à savoir que x·(x·y)=(x·xy, x·(y·x)=(x·yx et y·(x·x)=(y·xx (ce qui revient à dire que l'associateur {x,y,z} := (x·yzx·(y·z) est complètement antisymétrique en ses trois variables).

Si on préfère, on peut aussi définir les octonions à l'aide des formules suivantes (où q,q′,r,r′ désignent des quaternions) : (1) q·(r′·) = (r′·q, (2) (r·q′ = (r·q* et (3) (r·)·(r′·) = −r*·r, où ici, x* désigne le quaternion conjugué de x (cf. ci-dessous). Les mêmes formules en mettant j à la place de peuvent servir à définir les quaternions à partir des complexes, et avec i à définir les complexes à partir des réels. (On parle du procédé de Cayley-Dickson. Pour aider à retenir ces formules, on peut notamment retenir le fait que si w est un quaternion de module 1 quelconque, alors l'application ℝ-linéaire qui fixe les quaternions et envoie un octonions de la forme q′· sur (w·q′)·, constitue un automorphisme des octonions : ceci contraint énormément les formules.)

On peut aussi retenir que i, j, k s'associent et vérifient i² = j² = k² = i·j·k = −1, que la même chose vaut aussi pour n'importe lequel des trois avec (par exemple, i² = ² = (i·)² = −1), et enfin que si on prend deux distincts de i, j, k, avec , alors cette fois ils s'anti-associent toujours, par exemple i·(j·) = −(i·j = −k·. Ceci suffit à reconstruire la table.

Le conjugué d'un complexe, quaternion ou octonion, s'obtient en changeant le signe de toutes les composantes x(p) sauf la partie réelle x(0) (i.e., les conjugués de 1,i,j,k,,i·,j·,k· valent respectivement 1,−i,−j,−k,−,−i·,−j·,−k·). On a (x·y)* = y*·x*, et par ailleurs N(x) := x·x* est la somme des carrés des composantes de x, donc c'est un nombre réel, qui ne peut être nul que si x l'est. En mettant ces deux propriétés ensemble, on voit que tout complexe, quaternion ou octonion x non nul a un inverse de même type, donné par x*/N(x). (Il est utile de savoir que, dans les octonions, le parenthésage n'a pas d'importance dans tout produit faisant intervenir uniquement deux octonions, x, y, ainsi qu'éventuellement leurs conjugués x* et y*, et bien sûr les nombres réels, ce qui permet de conclure que x·y multiplié à gauche par l'inverse de x ou à droite par l'inverse de y donne bien ce qu'on espérait.) On définit par ailleurs |x| = √N(x) (le module, ou la valeur absolue, de x), et aussi Re(x) = ½(x+x*) = x(0) (la partie réelle de x) : cette dernière vérifie notamment Re(x·y)=Re(y·x) et aussi Re(x·(y·z))=Re((x·yz).

(dimanche)

Un nouveau jeu de labyrinthe(?) hyperbolique

Je viens de produire un nouveau jeu de labyrinthe hyperbolique. Je n'étais pas vraiment satisfait du précédent (introduit ici) parce que je trouvais qu'il y a quelque chose d'insatisfaisant à plaquer un labyrinthe au sens traditionnel (i.e., des murs infranchissables) sur l'espace hyperbolique : l'espace hyperbolique est labyrinthique en lui-même (au sens où, par exemple, si on se trompe de direction quelque part, on doit essentiellement revenir à son point de départ pour aller à l'endroit où on voulait aller), je trouvais qu'il faudrait exploiter ce fait — et c'est ce que j'ai tenté de faire dans cette nouvelle version.

Le monde, « périodisé » du plan hyperbolique, est exactement le même que dans la version précédente (88110 carrés formant une surface de genre 8812, et pavé par des carrés selon mon pavage préféré), de même type que le monde « jouet » dont je bassine régulièrement mes lecteurs depuis quelques jours, si ce n'est que ce dernier n'a que 30 carrés formant une surface de genre 4, ce qui le rend plus facile à analyser. J'ai repris le monde à 88110 carrés (et qui est un déguisement du graphe de Cayley du groupe PSL(2,89)) parce qu'il est facile à construire, et d'une taille suffisamment raisonnable.

Cette fois, donc, il n'y a aucun obstacle : juste 24 orbes de couleur cachés (quoique placés de façon régulière) dans ce monde, et qu'il s'agit de collecter, mais c'est surtout un prétexte pour explorer ce à quoi ce monde peut ressembler. Pour aider à l'exploration, chaque orbe fait apparaître un domaine de couleur proche autour de lui, tous connexes et approximativement de même taille (c'est-à-dire dans les 3700 cases). J'ai donné des noms aux orbes pour décorer et surtout pour éviter qu'on s'arrache les cheveux à savoir quand deux couleurs sont identiques.

Le monde n'est pas très grand en diamètre : on peut aller de n'importe quelle carré à n'importe quel autre en au plus 17 mouvements (consistant à passer à une case adjacente). Ce qui n'empêche que ces 17 mouvements, dans un pavage hyperbolique, permettent d'aller à beaucoup plus d'autres cases que ce que ce serait dans un pavage euclidien. On retombe donc assez difficilement sur ses pas (sauf évidemment à suivre une boucle — par exemple en allant tout droit selon un des axes du quadrillage on boucle en 11 mouvements).

Globalement, ce n'est pas très difficile une fois qu'on a un peu compris comment fonctionnent les choses.

Pour aider à savoir par où on est passé, j'ai mis une fonction « petit poucet » qui est amusante en elle-même.

Bref, dans l'ensemble je trouve que c'est plus réussi que le jeu de labyrinthe précédent. Mais j'aimerais surtout trouver comment motiver des gens plus doués que moi pour écrire des jeux informatiques à explorer plus les possibilités intéressantes offertes par la géométrie hyperbolique.

Petit changement () : Je garantis maintenant l'existence d'au moins un orbe à distance de vue du point de départ (mais ça peut être délicat de le repérer).

Amélioration () : J'ai ajouté un système de balises qu'on peut déposer dans le labyrinthe (et rappeler à tout moment) et qui indiquent la direction dans laquelle elles se trouvent (ou du moins une direction, puisqu'il y a souvent plusieurs chemins menant d'un point à un autre selon la façon dont on tourne dans le monde).

(mercredi)

Je m'amuse avec les groupes de Coxeter et je continue à disséquer la surface de Bring

Puisque j'étais parti pour manipuler des polygones hyperboliques, j'ai glissé, suivant le fil conducteur de simplement chercher à apprendre des maths belles et amusantes, vers la combinatoire des groupes de Coxeter (et des dessins qui auraient plu à Escher).

[Un pavage hyperbolique étiqueté][Un pavage hyperbolique étiqueté]Sans me proposer d'expliquer la situation en général, je peux facilement en parler sur le cas particulier (mais représentatif) illustré par les images ci-contre à gauche et à droite (peu importent pour l'instant les différences, qui ne sautent d'ailleurs probablement pas aux yeux). Si on ignore les étiquettes, il s'agit d'un pavage du plan hyperbolique par des triangles tous identiques, caractérisés de façon unique par le fait qu'ils ont aux sommets les angles π/4, π/2 et π/5 (lus dans le sens des aiguilles d'une montre pour les triangles blancs, et dans le sens trigonométrique pour les triangles noirs). De façon équivalente, on obtient cette figure en partant de mon pavage préféré de l'espace hyperbolique par des « carrés » dont cinq se rejoignent en chaque sommet, et en divisant chaque carré en huit selon ses quatre axes de symétrie (deux diagonales et deux médianes). On peut donc regrouper les triangles huit par huit pour retrouver le pavage hyperbolique par des « carrés » d'angle 2π/5 en chaque sommet (chercher les bords teintés en gris sur ma figure), et c'est bien sûr cette parenté qui me fait utiliser cet exemple particulier ; on peut aussi, au contraire, regrouper les triangles dix par dix (chercher les bords teintés en rouge sur ma figure) pour obtenir le pavage dual par des pentagones à angles droits. Le pavage triangulaire s'obtient en partant d'un triangle quelconque le constituant, et en effectuant de façon répétée des symétries par rapport à ses trois côtés (je les ai, à chaque fois, légèrement teintés en gris, vert et rouge).

L'ensemble des transformations en question, c'est-à-dire l'ensemble des compositions de symétries par rapport aux côtés des triangles, est appellé le groupe de Coxeter Δ(2,4,5), ou groupe de Coxeter engendré par trois réflexions x, y, z vérifiant x²=y²=z²=1 avec (x·y)⁵=1, (y·z)⁴=1 et (x·z)²=1 (l'opération · étant la composition des transformations). De plus, donnés deux triangles, il existe une et une seule transformation dans le groupe de Coxeter qui transforme l'un en l'autre. Une fois fixé un triangle de référence (disons, celui étiqueté ε sur mes figures), tous les triangles peuvent s'identifier aux éléments du groupe de Coxeter (via la transformation qui envoie le triangle de référence dans le triangle considéré) : on peut donc associer à toute suite de x, y et z un triangle, qui est celui obtenu en partant du triangle de référence (ε) et en effectuant les transformations indiquées par ces lettres. Concrètement, soit on lit le mot de droite à gauche, auquel cas x, y et z désignent les symétries par rapport aux trois côtés fixés du triangle de référence, soit on le lit de gauche à droite, auquel cas x, y et z désignent les côtés qu'on doit traverser, z étant le petit côté de l'angle droit (teinté en rouge sur ma figure), y l'hypoténuse (teintée en vert), et x le grand côté de l'angle droit (teinté en gris).

Ceci fournit donc (une fois fixé le triangle de référence) une façon de désigner n'importe quel triangle du pavage par une suite de x, y et z (les triangles blancs, dont l'orientation est la même que le triangle de référence, sont ceux ayant un nombre pair de lettres, correspondant à une transformation qui préserve l'orientation, tandis que les noirs, dont l'orientation est opposée, sont ceux ayant un nombre impair de lettres). Mais il existe plusieurs suites pouvant désigner le même triangle : pour commencer, comme x² (c'est-à-dire x·x) est l'identité, on peut supprimer ou insérer un nombre pair quelconque de x consécutifs dans un mot, et de même pour les y et les z : mais ce ne sont pas là les seules simplifications possibles, puisqu'on a aussi (xz)²=1, c'est-à-dire xzxz=1, ce qui se traduit plus concrètement par zx=xz (cette exemple prouve qu'il n'y a pas unicité de l'écriture, même si on impose à celle-ci d'être de longueur minimale). On appelle mot réduit sur x, y et z une écriture de longueur minimale conduisant à un élément/triangle donné ; et même parmi les mots réduits, on peut par exemple s'intéresser à celui qui est lexicographiquement le plus petit (ce qui conduit à préférer l'écriture xz à zx). Ma figure de gauche ci-dessus montre chaque triangle étiqueté par le mot réduit lexicographiquement le plus petit : ceci fournit bien une étiquette unique pour chaque triangle. D'autres variations sont possibles : le mot réduit lexicographiquement le plus grand, le mot réduit lexicographiquement le plus petit lu à l'envers (remarquons que lire un mot à l'envers revient à prendre son inverse dans le groupe de Coxeter), ou le mot réduit lexicographiquement le plus grand lu à l'envers. (La figure de droite ci-dessus montre les mots réduits lexicographiquement les plus grands lus à l'envers : si la différence avec la figure de gauche ne vous frappe pas, cherchez le mot xyxyx d'un côté, qui est yxyxy de l'autre.)

(samedi)

Où je résous une équation

L'équation[#] a₁·b₁·a−1·b−1 · a₂·b₂·a−1·b−1 · a₃·b₃·a−1·b−1 · a₄·b₄·a−1·b−1 conjugué à u₁·v₂·u−1·v−1 · u₂·v₃·u−1·v−1 · u₃·v₄·u−1·v−1 · u₄·v₁·u−1·v−1 dans le groupe libre a (entre autres) comme solution :

  • a₁ = v₁·u₄·v−1
  • b₁ = v₂·u
  • a₂ = v₂·u₁·v−1
  • b₂ = v₃·u
  • a₃ = v₃·u₂·v−1
  • b₃ = v₄·u
  • a₄ = v₄·u₃·v−1
  • b₄ = v₁·u

ou réciproquement

  • u₁ = b−1·a₁·b
  • v₁ = a−1·b
  • u₂ = b−1·a₂·b
  • v₂ = a−1·b
  • u₃ = b−1·a₃·b
  • v₃ = a−1·b
  • u₄ = b−1·a₄·b
  • v₄ = a−1·b

(Et la conjugaison se fait par v₁·u₄.)

[#] Les inconnues sont a₁,b₂,a₃,b₄,a₁,b₂,a₃,b₄ tandis que u₁,u₂,u₃,u₄,v₁,v₂,v₃,v₄ sont les générateurs du groupe libre — mais ça ne change rien si on fait le contraire : c'est pour ça que je donne à la fois une solution et une réciproque.

Cela pouvait effectivement peut-être se trouver de tête en regardant assez longuement les équations et en ayant foi dans le fait (douteux) qu'une équation aussi symétrique devait pouvoir admettre une solution symétrique. En l'occurrence, j'ai trouvé ces valeurs en appliquant l'algorithme de Whitehead déguisé sous forme d'un problème combinatoire, et finalement en appliquant un Dijkstra sur le graphe des 127072 façons de tracer 8 cordes disjointes entre 16 points cycliquement ordonnées. Je n'ai pas du tout d'idée claire sur la question de savoir si cette solution est vaguement unique[#2] (et si oui, en quel sens).

[#2] Enfin, je sais qu'elle n'est pas unique, puisque la première version que j'ai trouvée (en minimisant le nombre de chiasmes plutôt qu'une certaine forme de longueur) était beaucoup plus désagréable : a₁=v−1·u−1·v₁·u₄·u₁·u₃·v₄, b₁=v−1·u−1·v₂·u−1·v−1·u₃·v₄, a₂=v−1·u−1·v₂·u₁·u₂, b₂=v₃·u−1·v−1·u₃·v₄, a₃=v−1·u−1·u−1·v−1·u₃·v₄, b₃=v−1·u−1·v₁·u₄·u₃·v₄·v−1·u₃·v₄, a₄=v−1·u−1·v₁·u₄·u₃·v₄·u−1·v−1·u−1·u−1·v−1·u₃·v₄, b₄=v−1·u−1·v₁·u₄·u₃·v−1·u−1·u−1·v−1·u₃·v₄, dont la réciproque est donnée par u₁=a₃·a−1·b−1·a₁·a₃·b₄·a₄·a−1, v₁=a₃·a−1·b−1·a−1·b−1·a−1, u₂=a₃·a−1·b−1·a−1·a−1·b−1·a₂, v₂=a₃·a−1·b−1·a−1·b₁·b₄·a₄·a−1, u₃=a₃·a−1·a−1, v₃=b₂·b₁·a₁·a₃·b₄·a₄·a−1, u₄=a₃·b₃·b₄·a₄·a−1, v₄=a₃·b−1·a−1 (et la conjugaison se fait par v−1·u−1·v₁·u₄). Est-ce pourtant, en un certain sens, « la même » solution ?

L'ennui, c'est qu'arrivé à ce stade-là, je ne sais plus très bien ce que je dois faire de cette solution, parce que je ne me rappelle plus vraiment ce que je voulais faire au début : je suis parti de questions sur le revêtement hyperbolique d'une surface de Riemann pour arriver, de fil en aiguille, à quelque chose de sérieusement différent, et maintenant que j'ai la réponse, j'ai oublié quelle était la question. Ça fait penser à une vieille blague avec un père jésuite, ça (quand on a la réponse, on ne comprend plus la question).

Suite : voir ici.

(jeudi)

Où je pose un problème combinatoire

Le problème qui suit vient d'une suite de réflexions sur le thème des deux dernières entrées, mais peu importe : la question est compréhensible et intéressante en elle-même, elle me semble même très jolie, et elle ne dépend pas de la lecture des entrées en question — je ne vais d'ailleurs quasiment pas expliquer comment je suis arrivé à ce problème (seulement en note en bas).

Je suppose que j'ai 2m symboles, pour un certain entier m≥1, que je noterai X1,X2,X3,…,Xm et X1′,X2′,X3′,…,Xm′ ; la correspondance entre Xi et Xi′ est essentielle, et je dirai que Xi′ est le symbole complémentaire de Xi et réciproquement. Je m'intéresse à des cycles de longueur 2m sur ces symboles faisant intervenir chaque symbole une et une seule fois (le terme cycle signifie qu'on identifie deux suites qui s'obtiennent l'un à partir de l'autre par une permutation cyclique, par exemple X1,X2,X1′,X2′ s'identifie à X2,X1′,X2′,X1). Il existe bien sûr (2m)!/(2m) = (2m−1)! tels cycles.

On va définir sur les cycles des opérations qui porteront le nom de chiasme de Whitehead (le terme est de moi). Pour définir un chiasme de Whitehead, on commence par choisir un des symboles Z (qui peut être un Xi ou un Xi′) qu'on appellera la base du chiasme ; puis on considère la suite des symboles strictement comprise entre Z et le symbole complémentaire Z′ (c'est-à-dire Xi′ ou Xi si Z vaut Xi ou Xi′ respectivement) qui le suit dans le cycle ; on découpe ce segment de façon quelconque en deux segments consécutifs (non vides si on veut que le chiasme soit non-trivial) et on échange ceux-ci. Voici un exemple : X1,X2,X3,X4,X1,X2,X3′,X4′ peut devenir X1,X2,X4,X1,X3,X2,X3′,X4′ par un chiasme de Whitehead si on choisit pour base Z=X2 et qu'on découpe le segment X3,X4,X1′ en X3 et X4,X1 ; en prenant pour base Z=X4 (et en se souvenant que tout est cylique !), le même cycle X1,X2,X3,X4,X1′,X2′,X3′,X4 peut devenir X3,X1,X2,X4,X1′,X2′,X3′,X4.

Remarquons que tout symbole Z peut servir à définir un chiasme de Whitehead (fût-il trivial), puisqu'on peut toujours lire cycliquement jusqu'à tomber jusqu'au symbole complémentaire Z′ qui suit ; si ce dernier survient k symboles plus loin, on pourra faire k−2 chiasmes de Whitehead non triviaux ; et comme le Z′ est lui-même suivi d'un Z (le même qu'au départ) 2mk symboles plus loin, on peut faire finalement 2m−4 chiasmes de Whitehead non triviaux partant de Z ou Z′ (du moins si ceux-ci ne sont pas immédiatement adjacents, i.e., k≠1,2m−1). Au final, on peut donc faire exactement m(2m−4) chiasmes de Whitehead non-triviaux sur n'importe quel cycle (n'ayant nulle part deux symboles complémentaire adjacents).

Ma question est la suivante : comment peut-on détecter si deux cycles peuvent se déduire l'un de l'autre par une suite de chiasmes de Whitehead, et le cas échéant, comment les produire ? (Il est évident que le problème est décidable puisqu'il est, après tout, fini, mais je demande quelque chose de plus utilisable que l'énumération exhaustive.) Une variante de cette question autorise aussi d'effectuer une permutation des symboles préservant la complémentarité (cf. ci-dessous).

Un point de vue possible, qui simplifie peut-être le problème, ou au contraire le complique, je ne sais pas, consiste à se limiter aux cycles ayant la propriété suivante. Donné un cycle, je peux considérer la fonction qui à un symbole U associe le complémentaire V′ du symbole V qui suit immédiatement U dans le cycle (autrement dit, la fonction composée du cycle considérée interprétée comme une permutation cyclique, et de la fonction « symbole complémentaire ») ; si cette fonction est elle-même un 2m-cycle (c'est-à-dire, si, en partant d'un symbole quelconque et en appliquant successivement cette fonction, on retombe sur le symbole en 2m étapes et pas avant), je dirai que le cycle de départ est parfait, et que l'autre cycle obtenu par cette construction est son dual de Whitehead. Il est clair que le dual de Whitehead est alors lui-même parfait et que son dual est le cycle de départ. Par exemple, le cycle X1,X2,X1′,X2′ est parfait et son dual est X1,X2′,X1′,X2 (i.e., dans ce cas particulier, le cycle inversé), tandis que X1,X2,X3,X1′,X2′,X3′ n'est pas pas parfaite (on tombe sur deux 3-cycle X1,X2′,X3 et X2,X3′,X1′). En fait, si m est impair, aucun cycle (de longueur 2m) n'est jamais parfait (en effet, un 2m-cycle est une permutation impaire, et la fonction « symbole complémentaire » l'est aussi si m est impair, donc la composée ne peut pas être un 2m-cycle). Notons d'ailleurs qu'un cycle parfait ne peut jamais avoir deux symboles complémentaires adjacents.

Il est facile de se convaincre que l'effet d'un chiasme de Whitehead sur le dual d'un cycle parfait est de déplacer le symbole de base d'un endroit à un autre sans changer aucun autre symbole — et notamment, un cycle parfait demeure parfait après application d'un chiasme de Whitehead (ou de façon plus générale, le nombre de cycles du dual ne changerait pas sous l'effet d'un chiasme de Whitehead si on prenait la peine de définir de façon évidente le dual d'un cycle imparfait). On peut se limiter à regarder l'effet des chiasmes de Whitehead sur les cycles parfaits. Ou, si on préfère, sur leur dual (l'effet du chiasme est alors très simple puisqu'on ne déplace qu'un symbole, mais la difficulté est qu'on ne peut pas le déplacer n'importe où).

Si j'ai bien réussi à dérouler[#] et à reformuler une série de résultats autour de la théorie des surfaces qui débutent par un théorème de Whitehead de 1936 (le neveu, pas l'oncle), on peut toujours passer d'un cycle parfait à un autre par une suite de chiasmes de Whitehead, quitte à effectuer, de plus, une permutation des variables préservant la complémentarité (c'est-à-dire qu'on peut renommer Xi en Xj ou Xj′, mais on doit alors renommer Xi′ en Xj′ ou Xj respectivement). Ce que je ne sais pas, c'est par exemple comment produire concrètement une telle suite d'opérations, ou quelle liberté on a dans le processus, ou comment détecter si on a vraiment besoin d'une permutation des variables. Ou si on a vraiment besoin de ces résultats assez compliqués (dont il s'agit d'un cas extrêmement spécial et particulier). En fait, à peu près tout est obscur pour moi dans cette histoire, à commencer par le meilleur point de vue à adopter (entre un cycle et son cycle dual, savoir s'il faut les voir comme des mots du groupe libre ou des permutations, etc.). Il faut peut-être que je me plonge dans les détails de la démonstration de la classification des surfaces topologiques pour y voir plus clair.

En attendant, ceci ferait peut-être un casse-tête amusant, que je pourrais essayer de programmer en JavaScript : quitte à tracer le cycle comme autant de points sur un cercle, entre lesquels on relierait les symboles complémentaires (c'est la seule donnée qui survit si on s'autorise, comme je le suggère ci-dessus, une permutation des variables préservant la complémentarité), essayer de transformer une configuration donnée en une autre par des chiasmes de Whitehead. Ceux-ci se voient assez bien graphiquement (comme illustré par les figures en SVG ci-contre à gauche : en rouge, la base d'un chiasme, qui échange les segments vert et bleu ; à droite, une cible possible à atteindre).

Bref, si quelqu'un a quelque chose à dire sur le sujet, ça m'intéresse. (Ou même sur les données d'un appariement sur 2m points cycliquement ordonnés, c'est-à-dire d'un 2m-cycle et d'une involution sans point fixe.)

[#] Plutôt pour m'en souvenir moi-même qu'à l'intention de mes lecteurs, je note ici rapidement le raisonnement. Si on note la suite cyclique des symboles donnée par le dual d'un cycle parfait comme je l'ai défini, on obtient un mot cyclique dans le groupe libre sur autant de générateurs ; l'algorithme de Whitehead (voir notamment Lyndon & Schupp, Combinatorial Group Theory (1977), proposition 4.19 et la discussion précédente) assure que deux mots cycliques sont transformables l'un en l'autre par un automorphisme du groupe libre exactement quand ils le sont par des transformations de Whitehead (n'allongeant pas le mot) qui, sur le cycle dual, se voient comme les chiasmes de Whitehead que j'ai définis. Mais d'autre part les cycles parfaits définissent des surfaces orientables (à un trou) de genre m/2, cf. l'article de Marc Culler auquel je faisais référence dans la dernière entrée.

(vendredi)

Où je comprends un peu mieux comment recoller les surfaces

Cette entrée fait logiquement suite à la précédente, même si je vais essayer de redire en partie (pour, j'espère, éclaircir) ce que j'y disais. Sinon, ce n'est pas grave, c'est au moins un nouveau prétexte pour faire des zoulis dessins.

[Un domaine fondamental dans le plan hyperbolique]Je me posais (dans l'entrée précédente) la question de comprendre la forme — et mathématiquement, la réalisation du groupe fondamental — d'une surface obtenue en recollant un polygone par identification de certaines arêtes du bord. (En l'occurrence, un polygone hyperbolique, mais peu importe si on veut juste se poser des questions de topologie.)

J'ai tracé ci-contre à gauche (cliquez pour agrandir) une version beaucoup plus symétrique, quitte à découper à l'intérieur des carrés du pavage, du « domaine fondamental » de mon labyrinthe hyperbolique jouet, ce sera beaucoup plus satisfaisant d'expliquer sur cet exemple-là, même si les explications que je vais donner sont tout à fait générales. J'ai aussi choisi un code de couleurs plus logique (et, j'espère, un peu moins difficile à repérer visuellement), et surtout, j'ai choisi de marquer les identifications par des pastilles au niveau des sommets plutôt que par des languettes au niveau des arêtes. Il faut donc comprendre qu'on a identifié les deux arêtes portant chaque paire de couleurs consécutives possible (par exemple les deux arêtes vert-clair–bleu-foncé sont identifiées, en identifiant bien sûr les extrémités de la même couleur ; ainsi, dans mon jeu de labyrinthe, si on sort du domaine fondamental par une arête vert-clair–bleu-foncé, on y rentre par l'autre arête ayant le même code de couleurs). Le but est de comprendre, de façon aussi explicite que possible, ce qu'on obtient en faisant ces identifications (et pourquoi, sur mon exemple, on obtient un tore à 4 poignées, et comment voir ces poignées).

Pour ceux qui auraient du mal à voir la figure ou qui voudraient plus de détails, la description complète du polygone hyperbolique ci-contre est la suivante : gris [X] bleu-clair [Y] vert-foncé* [X] rouge-clair [Y] jaune-foncé [Y] vert-clair [X] rouge-foncé* [Y] bleu-clair [X] gris [X] rouge-clair [Y] bleu-foncé* [X] jaune-clair [Y] vert-foncé [Y] bleu-clair [X] jaune-foncé* [Y] rouge-clair [X] gris [X] jaune-clair [Y] rouge-foncé* [X] vert-clair [Y] bleu-foncé [Y] rouge-clair [X] vert-foncé* [Y] jaune-clair [X] gris [X] vert-clair [Y] jaune-foncé* [X] bleu-clair [Y] rouge-foncé [Y] jaune-clair [X] bleu-foncé* [Y] vert-clair [X] : ici, les couleurs étiquettent les sommets (c'est la seule chose qui importe topologiquement), les astérisques qui suivent certains d'entre eux signifient qu'à cet endroit le polygone a un angle de 3π/4 (i.e., en suivant le périmètre, on fait un tournant de π/4 vers la gauche) alors que partout ailleurs c'est un angle droit (i.e., on fait un tournant de π/2 vers la gauche), et les lettres X et Y font référence aux longueurs des cotés, à savoir X≈1.4693517444 et Y≈1.5919125929 unités naturelles de longueur du plan hyperbolique. (Mon polygone hyperbolique a donc seulement deux angles différents et deux longueurs différentes de côtés ; par ailleurs, il est symétrique par rapport à quatre axes. Mais je répète que, pour ce qui est de la topologie, les longueurs des côtés et angles aux sommets n'ont pas d'importance.)

Le fait de colorier les sommets et pas les arêtes, pour l'identification, aide à y voir plus clair : on est naturellement amené à tracer le graphe des sommets du polygone en reliant deux sommets lorsqu'il y a une arête qui les joint sur le polygone. Sur mon exemple, bien que le polygone ait prima facie 32 sommets (et donc 32 arêtes), il n'a en fait, compte tenu des identifications, que 9 sommets distincts (i.e., 9 couleurs), et 32/2 = 16 arêtes. Le graphe d'adjacence des sommets est tracé ci-contre pour ceux dont le navigateur supporte le SVG.

(lundi)

J'essaie de recoller une surface de Riemann

[Un domaine fondamental dans le plan hyperbolique]Le hasard a fait que j'ai repensé à mon petit jeu HTML de labyrinthe hyperbolique, mais en fait surtout à sa version jouet (voir ici et pour les de mon blog où j'en discute), en même temps que je me posais des questions sur les surfaces de Riemann. En fait, je ne suis pas terriblement content de mon jeu : l'espace hyperbolique étant en lui-même labyrinthique, il est dommage de plaquer dessus un dédale avec des murs infranchissables — je voudrais refaire un jeu où les mouvements ne sont jamais bloqués, pour montrer qu'il est quand même difficile de trouver son chemin dedans. Mais pour cela, il faut que je comprenne un peu mieux des choses sur lesquelles j'ai encore des idées vagues, même sur la version jouet de mon labyrinthe.

☞ J'invite mon lecteur à essayer d'y jouer, ou plus exactement, à s'y déplacer en essayant de se faire une idée de la géographie du labyrinthe — je ne parle pas de la forme des murs eux-mêmes, mais de la périodicité de l'espace. On peut par exemple jouer à se rendre de la case de départ à la case d'arrivée en utilisant le nombre exact de déplacements optimal (indiqué à droite), et à prévoir le chemin avant de faire le moindre déplacement. On devrait au moins réussir à se convaincre qu'il n'y a en fait, dans ce labyrinthe-jouet, que 30 cellules différentes (les cellules étant des « carrés » de murs possibles, au centre desquels se trouve un cercle de référence). Les carrés blancs dans l'image ci-contre à gauche représentent un choix possible des 30 cellules du labyrinthe (c'est-à-dire que tout carré en-dehors de ceux-ci est, en fait, identique à l'un de ceux-ci) : on dit qu'il s'agit d'un domaine fondamental (pour le groupe fondamental de mon labyrinthe).

Il faut souligner qu'il y a beaucoup d'arbitraire dans le choix d'un tel domaine fondamental : j'aurais très bien pu faire passer tel ou tel carré d'un côté à l'autre en le remplaçant par un autre qui lui est équivalent. Mais bon, cela n'a pas beaucoup d'importance, et on n'aurait pas pu obtenir une figure symétrique — malgré le fait que la surface recollée que je décris ci-dessous soit réellement très symétrique.

La figure ci-contre à gauche peut être considérée comme une sorte de patron géométrique : les arêtes du bord ont été décorées par des petites languettes figurées en couleur ; si on recolle chaque languette sortante sur le bord des cases blanches avec la languette entrante qui lui correspond (par exemple, les deux languettes rouges qui forment une sorte d'entaille un tout petit peu à gauche du bas de la figure sont à recoller avec les deux languettes rouges qui forment une saillie en haut à gauche), on obtient la forme de l'espace de mon labyrinthe-jouet — ou pour dire les choses autrement, dans ce labyrinthe, si on sort du « domaine fondamental » par une des languettes colorées, on y rentre par la languette qui correspond.

(vendredi)

Grothendieck, la propriété intellectuelle, et le testament de Virgile

Bon alors il faut vraiment que je publie quelque chose sur la mort d'Alexander Grothendieck, ne serait-ce que pour faire cesser le flux de gens qui m'envoient un mail — ou postent un commentaire sur une entrée qui n'a rien à voir — pour me demander si j'en avais connaissance (oui, la preuve) ou s'étonner que je n'aie rien à dire à ce sujet (eh, calmez-vous un peu !, il est mort depuis même pas 48h, la presse people n'a pas encore sorti un numéro spécial à son sujet — permettez que je n'écrive pas instantanément des textes au kilomètre).

Je n'essaierai pas, en tout cas pas aujourd'hui, de parler du contenu de ses travaux mathématiques, parce que rien que pour vulgariser — et pas au niveau le plus élémentaire qui soit — le concept très basique de schéma j'avais écrit une des entrées les plus longues de ce blog, alors je ne sais pas ce que ça donnerait si je me lançais dans une explication de ce que sont les champs, les topos (topoï ?) ou les motifs (sur ce dernier concept au moins, ce serait en outre présumer de mes connaissances mathématiques que de tenter d'en parler).

Je n'essaierai certainement pas non plus de parler de la polémique autour de la paternité de telle ou telle idée mathématique, qui l'a conduit à se fâcher avec une partie de la communauté mathématique, notamment nombre de ses anciens élèves, et à publier sa version des faits dans un très long texte, Récoltes et Semailles, où il règle ses comptes avec beaucoup de gens. Je sais que je suis un peu extrémiste quand je pense que les articles scientifiques devraient être anonymes (pas forcément au sens où le nom des auteurs serait tenu secret mais au sens où il ne devrait pas être une donnée importante), et que les objets et théorèmes mathématiques ne devraient pas être nommés d'après des personnes vivantes ou mortes mais d'après des idées (i.e., pas comme la conjecture de Poincaré, le théorème des zéros de Hilbert ou les conjectures de Weil, mais comme l'hypothèse du continu, le théorème de la boule chevelue ou la conjecture de pureté cohomologique absolue) : toujours est-il que les questions de paternité m'intéressent très peu — le monde des idées, et en tout cas des idées mathématiques, n'est la propriété de personne. (Et de toute façon, quand les élèves de Grothendieck étaient mes enseignants ou les enseignants de mes enseignants, je me vois mal me prononcer sur qui à fait quoi.)

Je n'essaierai enfin pas de parler de la vie de Grothendieck ou de ses idées politiques (et plus généralement non-mathématiques), parce que je ne prétends pas en savoir assez, ou comprendre ce personnage complexe et énigmatique, et d'autres s'en chargeront certainement mieux que moi.

Mais il y a un point sur lequel je voudrais dire un mot, c'est sur la question des écrits de Grothendieck et de leur propriété intellectuelle (au sens juridique du droit d'auteur). Parce que la communauté mathématique, du moins, ceux qui s'intéressent à la géométrie algébrique, a un problème pratique : la référence incontournable qui fonde la lecture moderne de cette discipline est une série de textes (écrits en français), les Éléments de Géométrie algébrique (ÉGA), soit environ 1800 pages, plus les Séminaires de Géométrie algébrique [du Bois Marie] (SGA), numérotés de SGA1 à SGA7, soit environ 5700 pages au total (sans compter SGA4½), dont Grothendieck est soit l'auteur soit un coauteur (comme je l'explique ci-dessus, la question de la paternité intellectuelle m'intéresse peu — même si ici il n'y a aucune contestation — mais je parle au sens juridique). Malgré des efforts de divers auteurs pour écrire des introductions plus ou moins complètes à la géométrie algébrique (et dont le plus sérieux est sans doute le monumental Stacks Project que je salue très bas au passage ainsi que son grand coordinateur, A. Johan de Jong), aucun n'a réussi à couvrir tout ce que couvrent les ÉGA et encore moins les SGA (et quand bien même on y arriverait, il resterait encore que toutes les références numériques à ces textes n'ont de sens que si on y a accès).

Or voici le problème pratique : Alexander Grothendieck s'est toujours opposé à ce qu'on réédite ces textes. (Je ne prétends pas comprendre, encore moins expliquer, quelles étaient ses motivations pour le refuser.)

(vendredi)

Un petit exercice d'Analyse (moyenner une fonction)

Un petit exercice d'Analyse pas très difficile (j'en ai traité un bout avec mes élèves à Télécom Paris), mais que je trouve amusant :

Soit f:ℝ/ℤ→ℝ (c'est-à-dire : une fonction réelle de la variable réelle qui soit 1-périodique) ; on note N(f) la fonction définie comme la moyenne arithmétique des N translatées de f par des multiples de 1/N, c'est-à-dire : (N(f))(x) = (1/N) · ∑k∈{0,…,N−1} f(x+k/N) ; et, si f est intégrable (c'est-à-dire, intégrable sur une période), soit (f) la fonction constante égale à l'intégrale ∫ℝ/ℤ f de f (sur une période). On se demande dans quelle mesure N(f) tend vers (f) quand N tend vers +∞ :

(Indication : montrer la convergence uniforme — qui entraîne donc la convergence Lp pour un p quelconque — pour une fonction en escalier ; il suffit pour ça de la montrer pour la fonction indicatrice d'un intervalle [0;c[ de ℝ/ℤ.)

Dans le cas p=2, il y a une jolie démonstration en regardant les séries de Fourier (l'effet de N est de décimer la série de Fourier).

On pourra aussi montrer que N ne tend pas vers en tant qu'opérateur (i.e., pour la norme).

Bref, je sais faire ça, mais j'ai quand même l'impression de manquer de recul sur la question : qu'il doit y avoir une façon plus élégante et plus générale d'inscrire ces résultats dans un contexte plus éclairant. D'ailleurs, la deuxième partie me surprend beaucoup, j'étais tellement persuadé que le résultat aurait dû être l'affirmation plus faible si f est Riemann-intégrable, alors N(f) tend vers (f) ponctuellement, et si f est réglée, alors la convergence est uniforme que j'ai cherché en vain à trouver une erreur dans mon raisonnement (j'ai fini par me convaincre qu'il était bien correct, mais j'ai toujours la sensation déplaisante d'avoir mal compris quelque chose d'important).

Pour mémoire, une fonction f est dite réglée (ou parfois Dieudonné-intégrable) lorsque pour tout ε>0 il existe une fonction en escalier h telle qu'on ait partout |fh|≤ε (i.e., f est uniformément approchable par les fonctions en escalier) ; cela équivaut à dire qu'elle admet en tout point une limite à gauche et une limite à droite (finies). • Une fonction f est dite Riemann-intégrable lorsque pour tout ε>0 il existe des fonctions en escalier h et ψ telles qu'on ait partout |fh|≤ψ, avec ∫ψε (i.e., f est approchable par les fonctions en escalier avec une erreur uniformément contrôlée par une fonction en escalier elle-même de norme 1 arbitrairement petite) ; cela équivaut à dire que f est bornée et que son ensemble de points de discontinuités est Lebesgue-négligeable. • Pour comparaison, si fonction f est Lebesgue-intégrable, pour tout ε>0 il existe une fonction en escalier h telle que ∫|fh|≤ε (i.e., f est approchable au sens L¹ par les fonctions en escalier). • J'aime bien présenter ces trois propriétés côte à côte, cela aide à situer la notion d'intégrabilité au sens de Riemann entre celle de fonction réglée et celle d'intégrabilité au sens de Lebesgue. Cela devrait peut-être expliquer pourquoi j'avais l'intuition qu'on aurait besoin de f réglée pour pouvoir conclure à la convergence uniforme de N(f) vers (f).

Ajout : voir aussi cette question pour une « suite » de cet exercice.

(dimanche)

Les entrées de blog que je n'arrive jamais à écrire

Il y a une éternité j'ai promis d'écrire une entrée de ce blog sur les octonions. Je n'ai jamais réussi à la publier. Ce n'est pas que je n'aie rien à écrire, au contraire, ni même que je n'aie rien écrit : j'ai commencé (au hasard des moments où j'ai du temps pour le faire) à écrire des choses sur le sujet, et de plus en plus, et je me suis rendu compte que ça débordait dans tous les sens, et qu'à la fin non seulement ça devenait trop long et indigeste, mais en plus que ça manquait de structure et de cohérence thématique. Alors j'ai décidé de diviser cette entrée en trois parties : des généralités sur les octonions d'abord, puis une petite partie sur les octonions entiers et les réseaux dans les octonions, et enfin une troisième (indépendante de la seconde) sur la géométrie octonionique et le carré magique de Freudenthal-Tits — qui est à mon avis la principale raison pour laquelle les octonions sont intéressants. Puis j'ai commencé à développer la première partie séparément, et je me suis rendu compte que je devais parler d'automorphismes des octonions, et à me poser plein de questions qui débordaient dans tous les sens, et finalement cette partie-là, même prise seule, devient aussi trop longue, et il faudrait la couper à son tour. [Mise à jour () : cette partie a fini par être publiée.] Pareil pour la troisième partie : là j'ai pensé, je vais changer de point de vue et écrire une petite entrée sur les espaces deux-points-homogènes (dits aussi : homogènes et isotropes), c'est-à-dire, pour parler grossièrement, les espaces (au sens : variétés riemanniennes) qui sont identiques en tous les points et dans toutes les directions. C'est une question très naturelle et intéressante que de classifier ces espaces homogènees et isotropes, la réponse a été apportée par Tits et Wang (très rapidement : outre l'espace euclidien et les sphères, ce sont les espaces projectifs et hyperboliques sur les réels, complexes, quaternions, et octonions, sachant que sur les octonions il n'y a que la droite et le plan projectif, et la droite et le plan hyperbolique, pas de dimension plus élevée) ; ce sont des espaces très beaux par leur pure symétrie, et élégants dans leur description, et ils amènent naturellement à parler des octonions et des groupes de Lie exceptionnels (et cela apporte une réponse possible à la question qui m'avait tracassé, qu'est-ce qu'une géométrie). Et bien sûr, en essayant de parler de ça, j'ai de nouveau eu trop de choses à dire et de nouveau ça débordait dans tous les sens.

Il n'y a pas que les octonions qui m'aient causé ce souci. C'est un peu quelque chose qui m'arrive à chaque fois que je parle de n'importe quoi : je ne sais pas sélectionner ce dont je veux parler, ma logorrhée s'étale sans structure dans toutes les directions, et à la fin tout est trop long et indigeste. Mais bien sûr, c'est pire quand je parle de maths. J'ai par exemple aussi voulu écrire une entrée sur les notations ordinales, essentiellement, pour faire suite à cette entrée déjà très longue, et expliquer comment on peut « fabriquer » (décrire, expliciter, travailler avec, calculer sur) des ordinaux récursifs très grands — essentiellement, vulgariser la notion de fonction d'écrasement pour fabriquer de grands ordinaux à partir de cardinaux de plus en plus sophistiqués (inaccessibles, Mahlo), cette question étant du coup naturellement liée à celle des grands nombres que j'ai abordée à plusieurs reprises. Bref, j'ai travaillé là-dessus au hasard de ma motivation et de mon temps disponible. Et puis je suis rentré dans les explications sur les fonctions d'écrasement forcément d'autant plus compliquées qu'on fabrique des ordinaux plus grands, c'est devenu long, très long, très très très long, et il me reste sur les bras une montagne d'explications que je ne sais pas bien comment structurer ou diviser pour la rendre un peu digeste. (Cela n'arrange pas les choses que j'ai cru comprendre quelque chose, que je me suis trompé, que j'ai compris autrement, que je me suis retrompé, que j'ai compris que j'avais bien compris initialement, et qu'au bout du compte je me suis beaucoup embrouillé sur les différentes variantes qu'on peut construire autour des fonctions d'écrasement — par exemple, il y en a qui sont croissantes, d'autres qui ne le sont pas, et il y a toutes sortes de conventions possibles sur comment organiser et définir les valeurs.) J'ai encore d'autres entrées dans le même genre, commencées parce que je pensais que je n'aurais pas tant de choses que ça à dire, et finalement dans des limbes où les choses sont à moitié écrites et peut-être ne seront jamais achevées.

C'est un peu l'histoire de ma vie, de commencer plein de choses, et de n'en finir que très peu.

Alors qu'est-ce que je devrais faire ? Publier des choses inachevées ? En publier le début, quitte à nuire à la cohérence de la suite ? Laisser tomber ? Attendre un temps potentiellement infini que j'arrive à terminer ce que j'ai commencé ? Je ne sais vraiment pas.

Il faut dire aussi que je ne sais pas bien qui lit mon blog, et notamment qui lit les entrées mathématiques (et quel est son niveau en maths et quels sont ses centres d'intérêt). En vérité, le principal lecteur pour lequel j'écris, c'est mon moi futur : j'écris parce que j'ai compris quelque chose, que j'ai envie de pouvoir le recomprendre à l'avenir quand j'aurai un peu oublié, alors je me l'explique à moi-même pour savoir que je pourrai relire telle ou telle entrée et resavoir ce que j'aurai su. À titre d'exemple, en réfléchissant à des questions de bases de données SQL, je suis récemment retombé sur cette entrée, et il y a un peu plus longtemps, en me posant des questions de physique, sur celle-ci : dans les deux cas, j'avais totalement oublié les subtilités de ce que j'y raconte, et je n'étais pas fâché que la personne qui sait le mieux m'expliquer les choses — c'est-à-dire, moi — me prenne par la main pour me redire comment tout ça fonctionne. Idem concernant les séries de Fourier (que je m'oblige à réapprendre à chaque fois que je dois enseigner le sujet, sachant très bien que j'oublierai dans le mois qui suit). En termes informatiques, on pourrait dire que mon blog est mon espace de swap : c'est là que je consigne les choses quand ma mémoire déborde (ou que je veux changer de contexte). Mais le temps de swap est lui-même long !

(lundi)

La fonction de Fabius

[Graphe de la fonction de Fabius sur [0;24]]

J'ai déjà raconté trente-douze fois sur ce blog, et je continuerai à radoter à ce sujet, qu'une de mes motivations à être mathématicien, c'est de pouvoir visiter le petit musée des objets mathématiques remarquables, admirables, ou simplement curieux. L'objet dont je veux parler ici est plus amusant que fascinant, ce qui ne l'empêche pas d'être élégant. Il s'agit d'une fonction réelle définie par un certain J. Fabius (j'ignore le prénom ou s'il y a un lien de parenté avec l'actuel ministre français des affaires étrangères) dans une publication de 1966.

[Graphe de la fonction de Fabius sur [0;1]]Voici une première définition possible : on appelle Un (pour n≥1 entier) une suite de variables aléatoires indépendantes et uniformément réparties dans [0;1], et on pose Z = ∑n Un/2n (remarquer que Z est aussi une variable aléatoire à valeurs dans [0;1]). Alors la fonction de Fabius f sur [0;1] est la distribution de probabilité de la variable Z (c'est-à-dire que f(t), pour t∈[0;1], est la probabilité que Zt). (Le graphe en est tracé ci-contre à gauche.) Pour souligner que cette loi de probabilité n'est pas complètement bizarre ou surgie de l'espace, on peut remarquer que si au lieu d'une variable Un uniformément répartie dans [0;1] on utilisait des variables Vn (toujours indépendantes et) uniformément réparties dans {0;1} (c'est-à-dire valant 0 avec probabilité ½ et 1 avec probabilité ½), alors ∑n Vn/2n serait uniforément répartie dans [0;1] puisque la construction revient à tirer chaque bit de cette variable à pile ou face indépendamment.

Pour compléter f aux réels positifs, on décrète alors que f(t+1) = 1−f(t) pour t∈[0;1], et que f(t+2k) = −f(t) pour t∈[0;2k] (lorsque k≥1 est entier). Le caractère naturel de ce prolongement va apparaître dans ce qui suit. (Le graphe de la fonction ainsi prolongée est tracé en haut de cette entrée.)

La fonction possède un lien très fort avec la suite de Morse-Thue, qui peut être définie comme la suite dont le n-ième terme vaut 0 ou 1 selon que le nombre de 1 dans l'écriture binaire de n (=le poids de Hamming H(n) de n) est pair ou impair ; si on préfère, la suite de Morse-Thue est celle qui s'obtient en partant d'un 0 et en effectuant un nombre infini de fois le remplacement simultané de 0 par 01 et de 1 par 10 (cf. l'article Wikipédia). Comme on peut le voir sur le graphe ci-dessus (et ce n'est pas difficile avec la définition que j'ai donnée), le signe de f sur l'intervalle [2n;2n+1] vaut + ou − selon que la valeur du n-ième terme de la suite de Morse-Thue est 0 ou 1.

[Construction de la fonction de Fabius]Voici une autre définition possible de la fonction de Fabius, dans cet esprit : on appelle d'abord f0 la fonction qui sur l'intervalle [2n;2(n+1)[ vaut +½ ou −½ selon que la valeur du n-ième terme de la suite de Morse-Thue est 0 ou 1 ; puis par récurrence sur k, on appelle fk+1(x) l'intégrale de fk(t) pour t allant de 0 à 2x. La suite de fonctions en question converge alors uniformément vers f. (Ci-contre, j'ai tracé f0 en vert, f1 en un vert subtilement différent, f2 en caca d'oie et f en bleu.)

[Graphe de la fonction de Fabius sur [0;24] et de sa dérivée]Qu'on utilise l'une ou l'autre construction, il n'est pas très difficile de voir que la fonction de Fabius vérifie l'équation fonctionnelle surprenante suivante : f′(t) = 2f(2t) pour tout t≥0. (Pour l'illustrer, j'ai tracé la fonction de Fabius accompagnée de sa dérivée f′.) Notons qu'il ne s'agit pas d'une équation différentielle, puisque la valeur de la dérivée est reliée à la valeur de la fonction en un autre point ; d'ailleurs, il n'y a pas unicité de la solution de cette équation : la fonction nulle la vérifie aussi (avec, d'ailleurs, la même « condition initiale » f(0)=0) ; néanmoins, l'équation en question et la connaissance de la fonction f sur [0;1] définit de façon unique sa valeur sur tous les réels positifs.

Puisque f(0)=0, l'équation fonctionnelle f′(t) = 2f(2t) implique de façon assez évidente que toutes les dérivées de f en 0 valent 0 : la fonction de Fabius est infiniment plate en 0. En fait, il aussi facile de voir qu'en n'importe quel rationnel dyadique, toutes ses dérivées s'annulent à partir d'un certain rang : par conséquent, f n'est pas égale à la somme de sa série de Taylor développée en un dyadique, et comme les dyadiques sont denses dans les réels, f est une fonction C mais nulle part analytique (c'était la motivation de son introduction). On peut aussi se persuader que, en une valeur comme 1/3, la série de Taylor de f a un rayon de convergence nul (parce que la dérivée r-ième de f est donnée par f(r)(t) = 2r(r+1)/2·f(2r·t)).

Mais il y a quantité de choses que j'ignore. Par exemple, expérimentalement, il semble que f(1/4) = 5/72, et je ne sais pas le prouver (pas que j'aie essayé, du reste). Il serait tentant de penser, pour l'expliquer, qu'il y ait une relation entre f(t) et f(t+½) comme il y en a entre f(t+2s) pour tout s≥0 entier, mais une telle relation ne peut pas, il me semble, être algébrique, donc je ne sais pas ce qu'on est en droit d'espérer. Je ne sais pas non plus si on peut dire quelque chose d'intelligent de la valeur f(1/3) ≈ 0.180165114801 (cette valeur n'évoque rien à Google, mais Google n'est pas très bon pour faire du calcul symbolique inverse ; elle n'évoque rien non plus à ce site ni à Wolfram Alpha). Pourtant, l'écriture binaire du nombre 1/3 est suffisamment remarquable pour qu'on soit en droit de penser que la fonction f devrait en faire quelque chose d'intéressant.

Enfin, je dois signaler que je ne sais pas vraiment calculer les valeurs de f de façon efficace. Le mieux que je connaisse est une expression de fk que j'écris en MathML pour ceux dont le navigateur le supporte :

f k ( x ) = 2 k(k+1)/2 k! 0j2k1x cj ( x j2k1 ) k c0 = 12 et cj = 12 ( (1) H(j) (1) H(j1) ) si j>0

(j'ai noté H(j) pour le poids de Hamming de j). Mais cette équation n'est pas vraiment satisfaisante parce qu'elle ne relie pas fk+1 à fk, par exemple par une sorte de dichotomie. Bref, la fonction de Fabius reste assez mystérieuse à mes yeux.

Ajout : dans un même esprit, voir aussi la fonction ‘?’ [point d'interrogation] de Minkowski dont j'avais déjà parlé autrefois.

Ajout : voir aussi la réponse de François Guéritaud en commentaire () où il explique comment calculer la valeur et les dérivées successives de f aux dyadiques en comparant des intégrales de la fonction et de ses polynômes osculateurs, ce qui répond en partie à mes interrogations (notamment sur le fait que f(1/4)=5/72). • Surajout : voir ce petit texte de Haugland qui explique essentiellement la même chose.

(mercredi)

Quelques horreurs mathématiques (autour du 17e problème de Hilbert)

J'ai passé un certain nombre de jours en ermite à me reposer et à apprendre des maths amusantes. Je ne vais pas faire un compte-rendu (j'exposerai sans doute des bouts un peu au hasard d'entrées à venir), mais je viens de retomber sur les faits suivants, qui sont vraiment trop horribles pour ne pas les raconter.

(Attention, éloignez les enfants, c'est vraiment épouvantable.)

Commençons par ceci :

Il existe une fonction f qui est C sur ℝ, positive, ne s'annulant qu'en 0 où elle est infiniment plate (i.e., sa dérivée s'annule à tout ordre) et dont la racine carrée n'est même pas C2. Ou, comme il est facile de voir qu'il est équivalent : f ne peut pas s'écrire comme le carré d'une fonction C2.

Pourquoi c'est horrible ? Parce que la racine carrée d'une fonction C strictement positive est évidemment C (puisque la racine carrée est C sur les réels strictement positifs), et on se dit qu'une fonction positive présentant un unique point d'annulation devrait être gérable : si la fonction f est simplement supposée positive partout et nulle à l'origine, la dérivée doit y être nulle, donc f a un développement limité à tout ordre en 0 commençant par c·x², et il est possible d'extraire une racine carrée de ce développement, donc on imagine facilement qu'on devrait pouvoir mettre ensemble cette racine carrée du développement avec la racine carrée de la fonction hors de l'origine pour obtenir une racine carrée qui soit C. Et si la fonction est infiniment plate à l'origine, ça devrait être encore plus facile : le développement est nul, il n'y a donc aucune difficulté à prendre sa racine carrée, et on aimerait donc croire que cette fonction √f, qui a un développement limité à tout ordre en 0 et qui est C ailleurs qu'en 0, devrait bien être C partout !

Eh bien non. Non seulement la racine carré n'est pas forcément C, mais elle n'est même pas forcément C2, ce qui est tout de même très vexant. Le contre-exemple figure dans l'article Glaeser, Racine carrée d'une fonction différentiable, Ann. Inst. Fourier Grenoble 13 (1963) 203–210 (partie III ; le début montre que, quand même, la racine carrée est C1), et il n'est même pas difficile (il tient en deux petites pages, et c'est essentiellement des maths de classes préparatoires).

Bon, passons à la suite des horreurs. On se dit que quand même, à défaut de pouvoir écrire une fonction C positive comme carré d'une fonction bien régulière, on devrait au moins pouvoir l'écrire comme somme de carrés de fonctions bien régulières, ou quelque chose du genre. (Ce genre de questions consistant à écrire des choses positives comme somme de carrés s'appelle le 17e problème de Hilbert, sauf que normalement on s'intéresse plutôt à des fonctions rationnelles.)

(mardi)

Pourquoi e et π paraissent-ils plus aléatoires que génériques ?

Je veux discuter ici non d'une question de maths mais d'une question de philosophie des maths (et qui, pour une fois, n'est pas de la logique mais plutôt la théorie des nombres !). Néanmoins, pour l'expliquer, il faut bien que je parle de maths.

Un fait empirique est le suivant : quand on fait des études statistiques sur les décimales, disons, du nombre e ou du nombre π, celles-ci se comportent empiriquement comme une suite aléatoire (comme si elles avaient été tirées au hasard par un grand dé cosmique). Par exemple, les décimales en base 10 semblent équidistribuées (il y a autant de 0 que de 1 que de 2… que de 9) ; mieux, les suites de 2 chiffres semblent équidistribuées (il y a autant de 00 que de 01… que de 99), et pareil pour les suites de 3 chiffres et plus, tant qu'on a assez de données pour faire des statistiques significatives (or, s'agissant des décimales de π, on en a beaucoup). Autrement dit, on conjecture que π est un nombre « normal », ce qui regroupe ces différentes affirmations sur la fréquence des décimales. Et ce n'est pas vrai qu'en base 10, qui n'a aucune raison d'être spéciale : on conjecture que π est normal en toute base (entre autres, écrit en base 2, on conjecture qu'il devrait contenir quelque part le contenu de ce blog jusqu'à sa fin, codé en binaire ; ceci n'a, évidemment, rien de remarquable : il faudrait aller si loin dans les décimales pour le trouver qu'indiquer l'endroit où on le trouve est essentiellement aussi long que donner le contenu lui-même).

Pour motiver cette conjecture on donne typiquement l'explication suivante : « presque tous » les nombres réels sont normaux en toute base. C'est-à-dire que si on tire un nombre réel aléatoirement (uniformément entre 0 et 1), la probabilité qu'il ait les propriétés que j'esquisse ci-dessus vaut exactement 1. Ceci est un énoncé mathématique clair et pas très difficile (pas du tout conjectural) : l'ensemble des nombres réels qui n'ont pas la propriété d'être normaux en toute base est un ensemble dit négligeable (=de mesure de Lebesgue nulle, ce qui signifie techniquement qu'on peut le recouvrir par une suite d'intervalles dont la somme des longueurs converge et a une somme arbitrairement petite, cf. ci-dessous), correspondant à un événement de probabilité 0. On reformule aussi ce fait en disant que presque tous les nombres réels sont normaux en toute base (presque tous veut dire précisément que l'ensemble de ceux qui ne le sont pas est négligeable). Dès lors (dit-on), il n'est pas surprenant, si presque tous les nombres réels ont la propriété d'être normaux en toute base, de conjecturer que π en particulier l'est. Je ne prétends pas que cette justification soit insensée, mais elle glisse de la poussière sous le tapis, à savoir la raison pour laquelle presque tous est une bonne notion.

(vendredi)

Petit tour de magie 2-adique

Je me demande régulièrement s'il serait possible de trouver une application des nombres p-adiques ailleurs qu'en mathématiques ; par exemple, une application des 2-adiques en informatique (ce qui semble le plus plausible, parce que les ordinateurs, manipulant des nombres binaires, manipulent en fait des entiers 2-adiques approchés). Je n'ai pour l'instant rien trouvé de bien convaincant. Voici cependant un exemple qui pourrait servir avec un peu d'imagination, et qui en tout cas fait un « tour de magie » rigolo :

Soit a un entier impair écrit en binaire, disons, sur 64 bits, dont on suppose qu'il est le carré d'un entier : on cherche à retrouver cette racine carrée (exacte). Voici une façon de s'y prendre : (1) itérer, en partant de y=1, la fonction y ↦ 2ya·y², jusqu'à tomber sur un point fixe qu'on notera b (note : tous les calculs sont faits en binaire sur la même largeur, disons 64 bits ; comme il est habituel en informatique, on jette les bits supérieurs) ; (2) itérer, en partant de x=1, la fonction xx·(3−b·x²)/2. Autrement dit, en C :

unsigned long
exact_odd_square_root (unsigned long a) {
  unsigned long y = 1;
  for ( unsigned long yn = 0 ; y != (yn = 2*y - a*y*y) ; y = yn );
  unsigned long x = 1;
  for ( unsigned long xn = 0 ; x != (xn = x*((3-y*x*x)>>1)) ; x = xn );
  if ( x & ((((unsigned long)(-1))>>2)+1) )
    x = -x;
  return x & ((unsigned long)(-1))>>1;
}

(Les dernières lignes servent à corriger le nombre : il y a quatre valeurs de x sur vérifiant x²=a, différant par le bit de poids fort et/ou par un changement de signe global — la fonction renvoie donc celui dont les deux bits de poids fort valent 0. L'écriture ((((unsigned long)(-1))>>2)+1) sert à représenter le nombre ayant 1 juste au-dessous du poids fort sans avoir à faire d'hypothèse sur la taille des unsigned long.)

La fonction est évidemment limitée (on pourrait calculer une fonction exact_square_root() en décalant le nombre du nombre de bits adéquat — forcément pair — jusqu'à trouver un nombre impair, en appliquant la fonction exact_odd_square_root() ci-dessus, puis en refaisant le décalage vers la gauche de la moitié du nombre de bits, mais la gestion des bits de poids fort serait encore un peu plus pénible). Il y a cependant un truc rigolo, c'est qu'elle retrouve la racine carrée même si le calcul du carré a débordé (par exemple, sur 64 bits, si on fait 1000000000001*1000000000001, on trouve 2003766205206896641 et pas 1000000000002000000000001, mais la fonction ci-dessus retrouve bien 1000000000001 comme racine carrée pour cette valeur), du moins si les deux bits de poids fort valent 1 (on ne peut pas faire mieux). Par ailleurs, le nombre d'itérations est très petit (quelque chose comme 6 au pire dans chaque boucle pour un nombre de 64 bits), donc on pourrait dérouler les boucles.

L'explication 2-adique est vraiment facile : la première itération calcule l'inverse 2-adique b de a par une méthode de Newton, la seconde calcule la racine carrée par une méthode du même genre (on peut peut-être la présenter comme une méthode de Newton, en tout cas j'ai cherché un polynôme ayant un point fixe superattractif où on veut). J'imagine que je ne suis pas le premier à écrire un truc de ce genre, je n'ai pas cherché. Par contre, ce que j'aimerais bien, c'est trouver des exemples plus frappants ou plus utiles.

(jeudi)

Quelques petits jeux avec l'algèbre commutative

Alice et Bob jouent au jeu suivant : dans l'anneau k[t1,…,tn] des polynômes en n indéterminées sur un corps k, chacun choisit à tour de rôle un polynôme f, la règle étant qu'on n'a pas le droit de choisir un polynôme de la forme g1·f1 + ⋯ + gr·frf1,…,fr sont les polynômes qui ont déjà été joués (et notamment, le polynôme nul) ; ou, si on préfère, l'idéal (f1,…,fr) = {g1·f1 + ⋯ + gr·fr} doit grandir strictement à chaque étape ; lorsque le polynôme 1 (donc, n'importe quel polynôme) peut s'écrire sous la forme g1·f1 + ⋯ + gr·fr, le joueur qui vient de jouer a perdu (autrement dit, on joue à la variante « misère » du jeu : celui qui ne peut pas jouer a gagné ; l'autre variante n'est pas intéressante, parce que qu'on gagne immédiatement en jouant le polynôme 1). Question : qui a une stratégie gagnante ? (En fonction de n et, éventuellement, du corps k.)

J'avoue ne pas savoir dire grand-chose d'intelligent sur ce problème. Si n=1, dans k[x], Alice (le premier joueur) a une stratégie gagnante évidente, consistant à jouer x (l'unique indéterminée). Si n=2, dans k[x,y], il me semble que le premier joueur gagne encore en jouant y² (si Bob réplique par y, Alice gagne parce qu'on est ramené au cas n=1 ; dans tout autre cas, l'intersection entre la droite y=0 comptée avec multiplicité 2 et la courbe algébrique d'équation définie par ce que Bob aura joué sera un nombre fini de points avec des multiplicités paires, et Alice peut alors sans difficulté au coup suivant tuer tous ces points sauf un qu'elle garde avec multiplicité 1, ce qui gagne le jeu), mais je suis loin d'avoir vérifié les détails et il n'est pas du tout improbable que je me sois trompé. Ce papier montre cependant qu'Alice a bien une stratégie gagnante, soit avec des arguments du même genre en jouant y²−x³ (§6.2), soit avec un argument différent et peut-être plus rigolo en jouant y²−x³+x−1 (corollaires 6.4–6.5). J'ai vaguement tendance à croire qu'Alice gagne toujours quand on part d'un anneau de polynômes, mais je ne sais vraiment pas le prouver. (Ce qui ne veut pas dire que ce soit très dur : je n'ai pas réfléchi très fort.)

Géométriquement, le jeu consiste à partir de l'espace affine de dimension n et à intersecter avec des hypersurfaces f=0 de façon à fabriquer des « sous-schémas fermés » de plus en plus petits, celui qui aboutit sur le vide ayant perdu (dans la variante « misère »).

Le jeu sous une forme un peu plus générale s'écrit ainsi : si R est un anneau [commutatif] nœthérien (on prend R=k[t1,…,tn] dans l'exemple ci-dessus), chacun des deux joueurs à son tour remplace R par le quotient de celui-ci par un de ses éléments non nuls (i.e., par un idéal principal non nul), et le premier qui tombe sur l'anneau nul a perdu (dans la variante « misère »). Le jeu termine nécessairement en temps fini car on construit une suite strictement croissante d'idéaux de l'anneau nœthérien R de départ (ceux par quoi on a quotienté jusqu'à présent). Bien sûr, je ne suis pas le premier à y penser, c'est vraiment tout naturel une fois qu'on se rappelle que tout processus terminant conduit à un jeu impartial. On peut bien sûr jouer avec toutes sortes d'autres structures algébriques nœthériennes (je suppose mes anneaux commutatifs parce que je suis géomètre algébriste, mais on peut évidemment faire des choses avec les non commutatifs et des idéaux à gauche — ou bilatères). Par exemple, Alice et Bob pourraient jouer alternativement des éléments de ℤm définissant des sous-ℤ-modules (=sous-groupes abéliens) de celui-ci, avec une inclusion stricte à chaque fois, et cette fois-ci on peut jouer à la variante normale du jeu (i.e., celui qui ne peut plus jouer a perdu) : il n'est pas extrêmement difficile — mais pas trivial non plus — de trouver montrer que Bob (le second joueur) a une stratégie gagnante si et seulement si m est pair.

On pourrait imaginer d'autres variations : par exemple, en revenant aux polynômes dans k[t0,…,tn], changer un peu la règle en imposant de jouer des polynômes homogènes et sans doute en terminant quand il y a une puissance de chaque indéterminée dans l'idéal qu'on a engendré, ce qui a aussi un contenu géométrique naturel : cette fois on joue avec des sous-schémas fermés de l'espace projectif de dimension n. On pourrait aussi jouer avec des monômes, auquel cas les coefficients n'existent plus et on est simplement en train de jouer au jeu de chomp multidimensionnel. Je trouverais satisfaisant d'arriver à plonger le jeu de chomp dans le jeu d'un anneau nœthérien sans restriction, mais j'avoue ne pas voir de façon de faire ça. (Je trouverais aussi satisfaisant d'arriver à résoudre le jeu de départ sur les polynômes en le ramenant au jeu de chomp par une utilisation astucieuse de bases de Gröbner qui feraient qu'on peut toujours supposer qu'on joue avec des monômes, c'est sans doute une idée naïve.)

Toujours est-il que ce jeu conduit à un invariant rigolo (quoique pas très sérieux) d'un anneau nœthérien, c'est ce que j'ai envie d'appeler sa fonction de Grundy-Gulliksen (je vais expliquer pourquoi Gulliksen, mais pour Grundy, voir mon entrée sur les jeux combinatoires que j'ai déjà liée, spécialement sa deuxième partie). La définition est très simple et très jolie :

Si R est un anneau [commutatif] noethérien, la fonction de Grundy-Gulliksen de R est le plus petit ordinal qui n'est pas égal à la fonction de Grundy-Gulliksen d'un R/(f) pour un élément f≠0 dans R.

La définition est récursive (définir la fonction de Grundy-Gulliksen de R demande de connaître celle de tous les quotients R/(f) de R par un idéal principal non nul), mais elle a quand même un sens par nœthérianité : c'est toute la beauté de l'induction nœthérienne.

Noter qu'il s'agit là de la fonction de Grundy pour la variante normale du jeu, qui (sur tout anneau non nul) vaut 1 plus la fonction de Grundy pour la variante misère. Donc la stratégie gagnante pour au jeu (variante misère) consiste à toujours jouer vers un anneau dont la fonction de Grundy-Gulliksen vaut 1.

Bon, je ne sais essentiellement rien dire d'intelligent sur ce nombre. En revanche, si au lieu de considérer R comme un jeu je le considère comme un processus terminant dont il faut évaluer la longueur (voir la première partie de mon entrée sur les jeux), on obtient une quantité très intéressante :

Si R est un anneau [commutatif] noethérien, la longueur de Gulliksen de R est le plus petit ordinal strictement supérieur à la longueur de Gulliksen de tout R/(f) pour un élément f≠0 dans R. (De façon équivalente, c'est le plus petit ordinal strictement supérieur à la longueur de Gulliksen de tout R/I pour un idéal I≠(0) de R.)

(L'équivalence dans la parenthèse finale n'a évidemment pas d'analogue pour la fonction de Grundy-Gulliksen : cela reviendrait à donner aux joueurs la possibilité de quotienter l'anneau autant de fois qu'ils veulent, auquel cas le jeu perd évidemment tout intérêt.)

On peut évidemment généraliser ça à d'autres choses : notamment, la longueur de Gulliksen d'un module nœthérien M sur un anneau R est le plus petit ordinal strictement supérieur à la longueur de Gulliksen de tout quotient M/N de M par un sous-R-module N (et en fait, on n'a pas besoin de supposer R commutatif, et d'ailleurs Gulliksen ne le fait pas) ; la longueur de Gulliksen d'un schéma nœthérien est le plus petit ordinal strictement supérieur à la longueur de Gulliksen de n'importe quel sous-schéma fermé strict. Toutes ces définitions ont un sens bien que récursives, grâce à la magie de l'induction nœthérienne.

Par exemple, l'anneau nul, comme il n'a aucun quotient non-trivial, a une longueur nulle (0 est le plus petit ordinal strictement supérieur à tout élément de l'ensemble vide), et c'est manifestement le seul ; un corps a une longueur 1, et réciproquement tout anneau de longueur 1 est un corps. Un espace vectoriel de dimension finie sur un corps a une longueur (en tant que module sur ce corps) égale à sa dimension. L'anneau k[t]/(t²) a une longueur 2, tandis que k[t] a longueur ω (parce que k[t]/(f) a une longueur égale au degré de f pour tout f non nul).

J'appelle cette notion longueur de Gulliksen parce qu'elle a été étudiée dans un très bel article par Tor Gulliksen en 1973. Elle généralise la notion classique de longueur (définie pour les modules à la fois nœthériens et artiniens, et en particulier pour les anneaux artiniens), mais avec une définition bien plus agréable, et des propriétés presque aussi sympathiques dans le cas infini (notamment, si 0 → M′ → MM″ → 0 est une suite exacte courte de modules nœthériens, la longueur de Gulliksen ℓ(M) de M est encadrée par la valeur de deux additions entre celles de M′ et M″, à savoir ℓ(M′) + ℓ(M″) ≤ ℓ(M) ≤ ℓ(M′) ⊞ ℓ(M″) où + désigne la somme usuelle des ordinaux, et ⊞ la somme naturelle ou somme de Hessenberg). Mais en même temps, la longueur de Gulliksen permet de retrouver la dimension (de Krull) d'un anneau, généralisée aux ordinaux non nécessairement finis : si on écrit la longueur de Gulliksen de M en forme normale de Cantor (c'est-à-dire en « base ω », voir par exemple cette entrée sur les ordinaux), alors le plus grand exposant de ω qui intervient définit la dimension de M — par exemple, la longueur de Gulliksen de k[t1,…,tn] vaut ωn. Entre autres propriétés dignes d'intérêt (elle n'est pas écrite noir sur blanc dans l'article de Gulliksen, mais elle s'en déduit assez facilement en considérant la dimension de Krull), un anneau [commutatif] nœthérien est intègre si et seulement si sa longueur de Gulliksen est une puissance de ω, ce qui est fort sympathique. Mieux, l'écriture en forme normale de Cantor de la longueur de Gulliksen d'un anneau [commutatif] R se relie à la décomposition primaire de R.

Je trouve la longueur de Gulliksen — et son écriture en forme normale de Cantor — beaucoup plus naturelle et élégante que la fonction de Hilbert-Samuel, et que la définition classique de la dimension de Krull : à mon avis, il serait profitable de s'en servir dans toute introduction ou tout livre sur l'algèbre commutative. Le fait que le concept ait été peu développé est sans doute le signe que les algébristes n'aiment pas les ordinaux (ou l'infini qu'ils ne contrôlent pas bien), ce qui est vraiment dommage.

Une chose qui me chagrine, cependant, c'est qu'on manque d'exemples d'anneaux nœthériens de dimension de Krull arbitraire (infinie) : essentiellement, je connais une construction, due à Nagata, qui a été raffinée par le même Gulliksen pour fabriquer des anneaux de dimension de Krull un ordinal quelconque (et du coup, de façon facile, de longueur de Gulliksen un ordinal quelconque) — cette construction n'est sans doute pas aussi simple qu'on voudrait, et, en tout cas, on manque (ou du moins, je manque) de variété dans les exemples.

(mardi)

De la force de Coq et d'autres systèmes, et de l'utilité de mettre les résultats mathématiques en contexte

À cause de la combinaison entre l'écriture de l'entrée précédente et de mon interaction avec des (enfin, surtout un) mathématicien constructiviste à la Bishop/Richman, j'ai tenté de me faire une idée sur la force logique des systèmes admis par les constructivistes. (L'idée est que — pour une raison qu'on ne comprend pas vraiment, mais que je suis tenté de prendre pour un indice empirique de l'existence platonique des entiers — toutes les théories logiques introduites « naturellement » en mathématiques semblent s'arranger selon une échelle totalement ordonnée de « force » convenablement définie. Je voulais savoir où, sur cette échelle, se situent les différents cadres des mathématiques constructives. On m'a recommandé de lire le texte introductif de Martin-Löf The Hilbert-Brouwer controversy resolved? — mais au final il me suggère plus de questions qu'il n'en clôt.) Mauvaise idée : je me suis retrouvé dans un labyrinthe de petits énoncés tordus, tous semblables — et surtout, de gens qui ne communiquent pas assez entre eux, et qui ne présentent pas leurs résultats dans le contexte des autres résultats du même genre.

Certes, le problème n'est pas évident, pour plusieurs raisons :

Une des choses que j'aimerais comprendre, par exemple, c'est quelle est la force logique du calcul des constructions inductives (une extension du calcul des constructions qui se situe au coin le plus complexe du cube de Barendregt mentionné ci-dessus) et du système Coq qui se base dessus. Et aussi de savoir si on doit le considérer comme « constructif ». (La réponse à ces deux questions dépendra sans doute, et de façon subtile, de ce qu'on met dedans : il est certain que l'ajout du tiers exclu augmente énormément la force logique, par exemple, mais j'ai les idées beaucoup moins claires sur l'introduction du type Prop « imprédicatif » ou de l'irrelevance des preuves.) J'ai toutes sortes de réponses partielles à ces questions, mais surtout un grand mal à les relier les unes aux autres, de nouveau, parce que les gens qui ont écrit ces réponses ne se citent pas les uns les autres pour expliquer le lien entre ce qu'ils disent. Pour commencer, j'apprends dans un vieil article de B. Werner intitulé Sets in Types, Types in Sets que Coq avec ω univers est (co-interprétable, donc) équiconsistant avec ZFC avec ω univers (de Grothendieck, i.e., cardinaux inaccessibles) — sauf qu'en fait, en lisant bien, on voit que c'est après ajout de l'axiome du tiers exclu (et peut-être un autre axiome bizarre), donc ça ne m'apprend qu'une borne supérieure (très faible) sur la force de Coq sans le tiers exclu. Un article de Rathjen intitulé Constructive Zermelo-Fraenkel Set Theory, Power Set, and the Calculus of Constructions (publié dans un volume en l'honneur de Martin-Löf) m'apprend, si je lis bien !, qu'une certaine théorie basée sur le calcul des constructions (et/ou la théorie des types de Martin-Löf — comme je l'ai dit, je ne comprends pas bien le rapport entre elles), comportant une règle d'« irrelevance des preuves », a une force logique équivalente à la fois (1) à CZF + l'axiome d'existence de l'ensemble des parties [d'un singleton, cela suffit], (2) à la théorie classique Power-KP (essentiellement, Kripke-Platek si on ajoute la fonction « ensemble des parties » au langage), ou encore (3) à la théorie des ensembles classique de Zermelo à laquelle on ajoute un nombre d'univers égal à l'ordinal de Bachmann-Howard. La thèse d'Alexandre Miquel émet (conjecture 9.7.6) une supposition qui pourrait sembler contradictoire avec ça, mais peut-être pas parce qu'il y a toutes sortes de subtilités techniques qui diffèrent entre les théories comparées (en tout cas, les deux sont d'accord sur le fait que la force logique dépasse celle de la théorie des ensembles de Zermelo) — en revanche, je ne comprends pas si l'axiome d'irrelevance des preuves a dû être postulé pour obtenir la borne inférieure. En tout cas, il s'agit de théories assez « fortes » car elles dépassent l'arithmétique du second ordre (qualifiée de fossé infranchissable dans le texte de Martin-Löf cité tout au début). A contrario, j'ai trouvé un texte d'Aczel, On Relating Type Theories and Set Theories ainsi qu'un plus vieux texte de Rathjen, The strength of Some Martin-Löf Type Theories, qui arrivent à la conclusion que diverses théories des types entre lesquelles je m'embrouille complètement sont, pour leur part, d'une force logique très modeste (en-deçà du fossé infranchissable évoqué par Martin-Löf). La différence doit donc bien être dans l'existence de l'ensemble des parties [d'un singleton], dans le type Prop de Coq que différents auteurs qualifient d'« imprédicatif » même si j'avoue ne jamais avoir compris ce que ce mot veut dire, et/ou dans l'irrelevance des preuves.

Mais bon, trève de détails techniques (que j'avoue avoir écrits surtout pour m'en souvenir plus tard) : ce dont je veux surtout me plaindre et de la façon dont les gens ne communiquent pas assez. Par exemple, j'ai trouvé extrêmement peu d'arêtes pour la relation être cité par entre les équipes d'informaticiens qui gravitent autour de Coq (du genre, B. Werner) et les équipes de matheux qui font de la théorie ordinale de la démonstration (comme le M. Rathjen que j'ai cité plusieurs fois ci-dessus, et dont les articles répondent très souvent aux questions que je me pose en théorie de la démonstration) : pourtant, ces deux groupes de gens font de la logique parfois intuitionniste et notamment de la théorie de la démonstration ; et pourtant, il est essentiel pour bien faire comprendre ses résultats de les mettre en perspective par rapport à d'autres résultats du même genre. Ceci me rappelle cette citation de Giancarlo Rota :

A leader in the theory of pseudo-parabolic partial differential equations in quasi-convex domains will not stoop to being understood by specialists in quasi-parabolic partial differential equations in pseudo-convex domains.

— Indiscrete Thoughts (XXI. Book reviews: Professor Neanderthal's World)

Résultat, moi qui ne suis spécialiste ni des équations différentielles pseudo-paraboliques dans les domaines quasi-convexes ni des équations différentielles quasi-paraboliques dans les domaines pseudo-convexes, je dois m'arracher les cheveux à me demander quel est le rapport entre tel résultat de la première théorie et tel résultat apparemment très semblable de la seconde, sachant qu'aucun ne mentionne l'autre pour m'éclairer sur le sujet.

[Ajout : il y a différents compléments dans les commentaires, grâce aux explications gentiment fournies par Arnaud Spiwack ; la moralité est qu'en tant que mathématicien classique non habitué aux maths constructives et/ou précatives, je m'embrouille complètement sur les nuances entre ce que ces différentes théories intuitionnistes prouvent ou interprètent (quelle est la force supplémentaire apportée par l'axiome du tiers exclu, par celle de l'axiome 0≠1, auquel je n'avais pas du tout pensé, la force de leur fragment de double négation, la difficulté à montrer leur cohérence versus leur normalisation : tout ça est très confus pour moi). Mais je retiens quand même que la comparaison entre Coq et ZFC n'est pas claire en l'état actuel des choses.]

(dimanche)

Comment calculer un grand nombre

J'ai déjà exploré assez en détail le sujet des (très très) grands nombres. Je ne vais pas revenir sur tout ce que j'ai dit (et comme d'habitude, je tenterai de ne garder mes posts indépendants les uns des autres), mais je veux me servir de cette question pour illustrer quelques faits de logique rigolo.

Imaginons qu'un génie pervers nous mette devant un ordinateur et nous donne la tâche d'écrire — dans un langage de programmation idéalisé de notre choix — un programme qui calcule le nombre le plus grand possible avant de s'arrêter. (Le programme en question tournera sur l'Infinitiplex du génie, équivalent à une machine de Turing qui dispose de ressources de calcul illimitées : donc ni le temps de calcul ni la mémoire consommée ne sont à prendre en compte, seul importe le nombre renvoyé ; en revanche, évidemment, la taille du programme doit rester humainement gérable ; par ailleurs, le programme doit effectuer un calcul déterministe et s'arrêter de lui-même, sans intervention extérieure.)

(lundi)

Faut-il communiquer sur l'intuition en mathématiques ? — ici : le corps de classes

Une question qui fait régulièrement débat en ce qui concerne la rédaction mathématique est de savoir si l'auteur d'un livre ou article mathématique doit se contenter de définir des concepts et démontrer leur propriété ou si (ou plutôt, dans quelle mesure) il doit tenter de proposer une façon de les visualiser intuitivement et guider le lecteur sur la manière d'y penser.

Il va de soi qu'avec une formulation aussi générale, la réponse est difficile à donner. Tout le monde sera sans doute d'accord sur le fait qu'une définition vraiment bizarre ou surprenante, une clause qui risque particulièrement de prêter à confusion, une subtilité dans une démonstration qui pourrait ne pas être remarquée, etc., méritent d'être signalées ou expliquées. À l'inverse, tenter de communiquer toute intuition vague n'est pas forcément bénéfique et peut même être néfaste à la compréhension (car l'intuition qu'on se forge soi-même peut être meilleure que celle qu'on reçoit d'un autre mathématicien), ou à la détection d'erreurs de raisonnement (si on fait confiance à l'intuition d'un autre, on risque de faire les mêmes erreurs que lui, et donc de ne pas détecter celles-ci). Quelque part entre les deux, je trouve toujours irritant, quand un objet mathématique est défini dans un texte, de ne pas trouver la réponse aux questions les plus naturelles qu'on peut se poser sur ses propriétés (ou simplement l'affirmation que l'auteur ne sait pas si telle ou telle propriété est vraie) : par exemple, si un auteur devait définir un concept appelé para-anneau, je trouve qu'il serait de son devoir d'expliquer le rapport entre ce concept et celui d'anneau (et même si c'est complètement évident, écrire qu'un anneau est un para-anneau, ou attirer l'attention sur le fait que ce n'est pas le cas, ou peut-être dire qu'on ne sait pas et que de toute façon on n'en aura pas besoin, ou ce genre de choses) ; et si on met plusieurs clauses dans une définition, je trouve qu'il est généralement de bon ton d'expliquer pourquoi chacune est nécessaire et ce qui se passerait si on omettait celle-ci ou celle-là.

Je vais maintenant me plaindre de la façon dont est présentée la théorie globale du corps de classes. [Je suis sûr qu'il devait y avoir un rapport entre ce qui suit et ce qui précède, mais plus j'écris moins ce rapport est clair… enfin, ce n'est pas bien grave.]

En bref : la théorie du corps de classes prétend « expliquer » (c'est-à-dire décrire, classifier, permettre de comprendre) les extensions abéliennes finies (extension abélienne = extension [de corps] galoisienne de groupe de Galois commutatif) de certains corps. « Certains corps », à savoir, les « corps locaux » (auquel cas on parle de théorie locale du corps de classes) et les « corps globaux » (auquel cas, on l'aura deviné, on parle de théorie globale du corps de classes, qui est beaucoup plus intéressante et profonde que la théorie globale locale). Les corps locaux sont des choses comme les corps des réels et des complexes (mais sur ceux-ci la théorie est vraiment triviale), les corps des nombres p-adiques (et les extensions finies de ceux-ci) et les corps de séries formelles sur un corps fini. Des exemples de corps globaux sont le corps des rationnels (ou plus généralement toute extension finie de celui-ci, dit « corps de nombres ») et le corps des fonctions rationnelles sur un corps fini (ou plus généralement le corps des fonctions d'une courbe algébrique sur un corps fini).

(jeudi)

Sur la réalité des quaternions, quasars, quarks et quaggas

J'ai une fois de plus commis l'erreur de commencer (il y a deux-trois semaines) l'écriture d'une entrée que je pensais pouvoir faire courte et qui a grandi, grandi, grandi, jusqu'à prendre des proportions totalement délirantes. Comme je vais être assez débordé ces prochaines semaines, elle risque de rester indéfiniment dans les limbes, là où j'ai déjà mis tout ce que j'ai écrit sur les octonions et tant d'autres choses. Tout ceci m'énerve prodigieusement, et je ne sais pas quoi faire pour réussir à éviter ce problème.

Pour me distraire un peu, je voudrais juste faire une remarque sur la philosophie des mathématiques. Comme il n'aura échappé à personne, je suis férocement platoniste (au moins en ce qui concerne l'arithmétique), où par platonisme (voir aussi cette entrée, et notamment cette petite section de celle-ci pour plus de détails) j'entends le point de vue selon lequel les concepts mathématiques, ou au moins les plus « naturels » d'entre eux, ont une existence autonome, indépendante de l'esprit humain, qui ne fait que les découvrir, et même indépendante de l'univers matériel. (Il y a, bien sûr, toutes sortes de variantes[#][#2] de cette position, et on peut être d'accord avec certaines sans être d'accord avec d'autres, on peut d'ailleurs aussi considérer qu'il ne s'agit pas vraiment d'une différence d'opinion philosophique mais simplement de façon de dire les choses. À ce sujet, voir aussi cette autre entrée.)

Je crois avoir lu quelque part (mais je ne sais plus si un sondage précis à été fait dans ce sens ou si cette affirmation sortait d'un grand chapeau de magicien) que la majorité des mathématiciens, et l'écrasante majorité des logiciens, adhère au moins à une forme modérée de platonisme. A contrario, les neurologues semblent généralement persuadés (là aussi, il s'agit d'une statistique qui, comme 83.28% des statistiques, est purement et simplement inventée) que les mathématiques sont uniquement le résultat de processus cognitifs dans le cerveau humain et n'ont rien de « réel » ou d'« universel » (pas plus que, disons, la beauté de la musique de Bach).

Les arguments les plus souvent invoqués contre le platonisme mathématique, c'est-à-dire, pour montrer que les mathématiques viennent de l'esprit humain et pas d'un « paradis platonique », sont typiquement d'observer que les mathématiques ne sont pratiquées que par les humains (le summum des facultés mathématiques des animaux se limitant à savoir compter sur de tout petits entiers naturels), et aussi que celles-ci ont changé au cours de l'histoire (ce qui est de mauvais augure pour la découverte d'un monde censément intemporel).

Mais une chose que je ne comprends pas est pourquoi ce genre d'arguments, invoqué pour dire chers mathématiciens, les quaternions n'existent que dans votre cerveau ne l'est pas aussi pour dire chers astrophysiciens, les quasars n'existent que dans votre cerveau ou chers physiciens des particules, les quarks n'existent que dans votre cerveau, voire, chers zoologistes, les quaggas n'existent que dans votre cerveau. Après tout, si le problème est qu'on ne peut pas toucher un quaternion, qu'on ne peut les détecter qu'indirectement par le truchement de théories qui prédisent leur existence, et que seuls les humains sur cette Terre ont le moindre concept de quaternions dans leur tête, et encore, seulement depuis quelques siècles, exactement la même chose vaut pour les quarks et les quasars : jamais je ne pourrai toucher un quark ou un quasar, aucun animal autre que l'homme n'a affaire à eux ou de représentation mentale de ces choses-là, il y a simplement des scientifiques qui nous disent mon accélérateur de particules a vu trois quarks dans chaque proton, mon radiotélescope a détecté un quasar dans telle direction, mes calculs ont exhibé une structure abstraite de dimension 4 sur les réels qui se comporte comme une algèbre à divisions. Même les quaggas, je n'en ai, après tout, jamais touché, et comme c'est une espèce éteinte ça ne risque pas de se produire, et j'ai beau avoir des témoignages de gens qui en ont dessiné ou de biologistes qui assurent que ces bestioles ont existé, je ne vois pas pourquoi ils seraient plus (ou moins) crédibles que les physiciens qui disent que les quarks et les quasars existent ou les mathématiciens qui disent que les quaternions existent.

Or j'ai rarement entendu des gens transposer à la physique ou à d'autres domaines la position anti-platoniste qu'ils peuvent avoir au sujet des mathématiques. Y a-t-il des neurologues qui disent aux physiciens ce que vous appelez étoile à neutron n'est que le fruit de vos processus cognitifs [remplacer étoile à neutron par n'importe quoi de difficile à imaginer] ? Voire, qui disent aux autres neurologues ce que vous appelez neurone n'est que le fruit de vos processus cognitifs (de nouveau, on ne peut pas toucher directement un neurone, il faut faire confiance à la théorie du microscope).

Les tenants du platonisme mathématique sont souvent décriés comme religieux, parce qu'ils croient en une sorte de perfection intangible et accessible uniquement par l'esprit (et c'est vrai que le choix d'un terme comme paradis platonique n'est certainement pas pour aider). Je ne sais pas pourquoi ce reproche n'est pas fait aux physiciens des particules[#3] qui prétendent que les quarks et atomes sont vraiment les composants de toute notre matière.

Au contraire, l'attitude consistant à dire je ne crois réel que ce que je peux toucher (et notamment sa variante ultrafinitiste, les grands nombres n'ont pas de sens parce que je ne peux pas les voir) me semble être exactement la même que ceux qui prétendent je ne peux pas croire que la Terre soit plus vieille que 6000 ans environ, parce que je n'ai que des preuves indirectes des millions d'années censées nous avoir précédées. À partir du moment où on accepte l'épistémologie des mathématiques, sa démarche scientifique pour arriver à une vérité (et il est difficile de la nier compte tenu de l'extrême utilité pratique des mathématiques, entre la construction des ponts et la cryptographie !), il faut bien reconnaître qu'elles nous renseignent sur quelque chose qui n'est pas sujet à notre bon vouloir comme la poésie ou la musique — et qu'elles sont, sur le même plan, que les autres sciences, une entreprise visant à découvrir systématiquement une réalité préexistante.

Bref, je comprends la position extrême je ne crois réel que ce que je peux directement toucher (donc je ne crois réels ni les quaternions, ni les quarks, ni les quasars, ni les quaggas, ni la planète Jupiter, ni les virus, ni Louis XIV), mais je ne comprends pas ceux qui l'appliquent uniquement pour les mathématiques et aucune autre science.

[#] Par exemple, je suis tenté de distinguer le platonisme structural, qui serait la position selon laquelle les structures que nous pensons discerner (les groupes, par exemple) sont « naturelles » et « découvertes », et le platonisme logique, orthogonal, qui serait la position selon laquelle les fondements mêmes des mathématiques (entiers naturels ou ensembles), sur lesquels on pose ces structures, ont une existence. Essentiellement, le platonisme structural affirmerait qu'on découvre les définitions tandis que le platonisme logique affirmerait qu'on découvre les axiomes. On peut parfaitement croire à l'un mais pas à l'autre (que la définition d'un groupe est naturelle, mais que les mathématiques n'aient pas de fondement logique immatériel) ou à l'autre mais pas à l'un (que les entiers naturels ou une forme quelconque de monde platonique préexistent à l'univers matériel, mais que la façon dont on le structure est profondément humaine), ou au deux, ou ni à l'un ni à l'autre.

[#2] Concernant ce que j'appelle le platonisme logique dans la note précédente, on peut aussi tenir toutes sortes de positions, par exemple l'idée que les entiers naturels (ou n'importe quoi qui permet d'encoder les structures finies) ont une position spéciale et sont le seul substrat ayant une réelle « existence platonique », ou bien étendre cette position à des objets plus complexes, comme les ensembles d'entiers naturels, ou tous les ensembles (un platoniste ensembliste doit croire que l'hypothèse du continu à une valeur de vérité bien définie, même si les axiomes de ZFC ne permettent pas de la trouver) ; à l'inverse, s'agissant des ensembles, on peut croire à un multivers platonique plutôt qu'un univers platonique.

[#3] Peut-être parce que les physiciens des particules ont des détecteurs expérimentaux ? Mais les mathématiques expérimentales existent aussi, et je ne vois pas de différence importante entre faire s'entrechoquer des protons à haute énergie pour chercher à trouver, peut-être, un compagnon supersymétrique, ou bien faire tourner des ordinateurs à calculer les valeurs de la fonction ζ pour chercher à trouver, peut-être, un zéro non-trivial qui ne soit pas sur l'axe critique.

(jeudi)

L'étrange multiplication du bidual

Encore une surprise mathématique qui m'a fait tomber à la renverse…

Si k est un anneau commutatif et M un k-module (si ça peut aider certains à comprendre, on peut déjà imaginer le cas où k est un corps et M un k-espace vectoriel ; mais dans ce cas il faudra considérer M de dimension infinie pour que ce soit intéressant), on appelle dual de M, disons D(M), l'ensemble des applications linéaires Mk. Et on appelle bidual de M le dual du dual, DD(M). Il y a une application k-linéaire naturelle Φ:MDD(M) (à savoir x ↦ (uu(x))) : en général, elle n'est ni injective ni surjective (mais si k est un corps, elle est toujours injective, et si de plus M est un espace vectoriel de dimension finie sur k, elle est aussi surjective).

Maintenant supposons que A soit une algèbre commutative sur k (c'est-à-dire un k-module qui est aussi un anneau avec la même addition et une multiplication k-bilinéaire). Si on essaie de trouver une multiplication naturelle sur DD(A), on s'aperçoit que ce n'est pas du tout évident. Dans ce genre de situation, le réflexe mathématique est que les choses doivent être soit tout à fait évidentes soit impossibles. Pourtant, il existe bien une multiplication naturelle sur DD(A) : précisément, si ξ et η sont deux éléments de DD(A), on peut définir leur produit ξη comme l'application qui envoie uD(A) sur η(yξ(xu(x·y))) (ceci est bien un élément de k). C'est assez difficile à visualiser, mais rien qu'au niveau du typage on peut être assez convaincu que c'est la seule formule possible. Et entre autres propriétés, cette multiplication est k-bilinéaire, associative, et vérifie : Φ(a)•η = ηΦ(a) est la fonction uη(yu(a·y)), et en particulier, Φ(a)•Φ(b) = Φ(a·b). Je pense que la grande majorité des mathématiciens sera d'accord que dès lors qu'on a trouvé une formule simple, naturelle, qui définit sur DD(A) une structure de k-algèbre, et qui respecte Φ comme je viens de le dire, c'est forcément « la bonne » multiplication sur DD(A).

Eh bien ce qui surprendra certainement bon nombre de mathématiciens comme ça m'a surpris moi-même, c'est que cette multiplication n'est pas commutative en général !

Et ce n'est même pas facile du tout de donner un contre-exemple. (Déjà, il faut bien sûr un exemple où Φ n'est pas surjectif, puisque j'ai expliqué que les Φ(a) commutent les uns aux autres ; or si c'est le cas — grâce à l'axiome du choix — pour tout espace vectoriel de dimension infinie sur un corps k, le problème est qu'« on n'y voit rien » aux éléments du bidual qui ne viennent pas du primal.) Le contre-exemple que j'ai, c'est que si k est un corps fini et A=k[t] l'algèbre des polynômes en une variable t sur k, de sorte qu'en tant que k-espace vectoriel, A est la somme directe d'un nombre dénombrable de copies de k, et son dual est le produit d'un nombre dénombrable de copies de k, c'est-à-dire les suites à valeurs dans k : le bidual de A contient les fonctions qui à une suite u à valeurs dans k associent sa limite prise selon un ultrafiltre sur ℕ, et le produit de deux tels éléments (pour la multiplication que j'ai explicitée) est la limite selon l'ultrafiltre somme, pour l'addition usuelle sur le compactifié de Stone-Čech de ℕ — or il est « bien connu » que cette addition n'est pas commutative en général. (Si vous n'y voyez rien, c'est normal. Moi non plus.)

J'ai posé la question sur MathOverflow de trouver des critères intéressants pour que DD(A) soit commutatif, ou bien un exemple plus simple où il ne l'est pas. Je n'espère pas vraiment de réponse (et par ailleurs j'ai moi-même résolu le cas qui m'avait amené à m'intéresser à cette question : si A est finie sur un anneau k noethérien intègre), mais à vrai dire je serais déjà content si on pouvait me dire que cette multiplication a été explicitée à tel ou tel endroit dans la littérature. (Ah, en fait, on me souffle que ça s'appelle la multiplication d'Arens, au moins dans le contexte des algèbres de Banach.)

(mardi)

Qu'est-ce qu'une géométrie, et autres pensées de fin d'année

J'ai passé la fin de la semaine dernière principalement à comater (pendant que mon poussinet était parti rendre visite à sa tante à Majorque) : c'est surtout en voyant combien j'ai dormi que je prends conscience de combien j'étais fatigué. En particulier, je n'ai pas continué ma série sur la géométrie hyperbolique, et il est probable que ma motivation à le faire décroisse rapidement avec le temps (j'ai déjà parlé de la nature épisodique de mes intérêts ? je ne retrouve pas). Encore que je voudrais vraiment trouver le moment de comprendre un peu en profondeur ces histoires d'automates finis en lien avec les groupes de Coxeter (intéressants dans le cas hyperbolique), et il faut que j'en discute avec mon voisin de bureau qui est spécialiste des automates. Bref.

Il y a une question qui m'a tracassé même dans ma torpeur, cependant, une question posée innocemment à propos de ma description faisant un grand parallèle entre la géométrie euclidienne, sphérique et hyperbolique : pourquoi n'y a-t-il que trois types de géométrie ? — en fait, s'il n'est pas très difficile de répondre à cette question en dimension 2, la question sous-jacente qui me tracasse, c'est surtout : qu'est-ce que c'est, au fait, une géométrie ? — et je dois avouer que je n'ai pas vraiment de réponse satisfaisante.

Ce n'est pas vraiment une question mathématique, ou en tout cas ce n'est pas une question mathématiquement bien formulée : c'est une question de trouver une définition satisfaisante, c'est-à-dire, puisque c'est moi qui me pose la question, une définition qui me satisfasse, qui satisfasse mon sens de l'esthétique mathématique. Comme je crois profondément à la philosophie proposée par notre maître Felix Klein, je suis persuadé que la bonne réponse est une certaine sorte de quotient d'un groupe de Lie (réel, entendu qu'on parle de géométries réelles), ou du moins quelque chose de fortement lié à ça.

[Attention, ce qui suit est un rant de matheux qui ne sait pas trop ce qu'il raconte. Faites semblant de comprendre même si ce n'est pas le cas : vous n'y perdrez pas grand-chose.]

Il y a des gens (je pense notamment à Sharpe, dans son livre Differential Geometry: Cartan's Generalization of Klein's Erlangen Program) qui prennent une définition très générale : une géométrie de Klein, c'est un quotient d'un groupe de Lie par un sous-groupe fermé ; le livre de Sharpe explique ensuite qu'il est possible de se servir de ces géométries de Klein comme des modèles pour définir les géométries de Cartan, qui sont des courbures de celles-ci, c'est-à-dire des espaces qui localement ressemblent à une géométrie de Klein modèle mais qui peuvent varier de point en point (si on part de la géométrie euclidienne comme géométrie modèle, on obtient la notion de variété riemannienne, mais on peut définir énormément d'autres types de structure, un pour chaque géométrie de Klein) : je trouve ça fascinant, ça fait des années que je me dis que je voudrais bien trouver le temps d'y réfléchir plus et d'essayer de comprendre comment me représenter toute cette zoologie de structures et comment elles interagissent entre elles, mais je trouve ça un chouïa trop général pour que ça corresponde à ce que je voulais ici (déjà, en dimension 2, ça fait un peu trop de géométries de Klein).

Il y a aussi la notion classique d'espace symétrique, qui peut être défini comme une variété riemannienne possédant suffisamment de « symétries » ou comme un quotient bien particulier d'un groupe de Lie : ces espaces sont complètement classifiés, indiscutablement ils sont d'une grande beauté conceptuelle, et on peut les regrouper en une famille plutôt « sphérique » (les espaces symétriques compacts) et une famille plutôt « hyperbolique » ; bref, c'est certainement une bonne partie de la réponse de ce que doit être une géométrie, mais on n'y trouve pas forcément la combinatoire (points, droites, etc.) que je m'attends à trouver dans une « géométrie ». Je ne suis donc pas non plus complètement satisfait par cette réponse-là.

En fait, je voudrais bien qu'il y ait une notion de géométrie associée à chaque groupe de Lie semi-simple de sorte qu'on ait un type d'objet pour chaque nœud du diagramme de Dynkin : la géométrie projective (sous un avatar ou un autre) serait celle associée à la série An, les différents nœuds du diagramme de Dynkin de An correspondant aux points, droites, plans, etc., jusqu'aux hyperplans ; la géométrie sphérique ou elliptique serait celle associée aux séries Bn et Dn, avec les points, droites, etc., jusqu'à la moitié de la dimension (au-delà c'est redondant parce que la polarité fondamentale met en dualité points et hyperplans, droites et plans de codimension 2, etc.). Et, pour reprendre ma fascination avec E₈, il devrait y avoir une géométrie exceptionnelle avec 8 types d'objets et certaines notions d'incidence entre elles (mais au lieu que ce soient points, droites, plans, etc., jusqu'à la dimension 7, il y aurait un type qui « brancherait » des autres comme sur le diagramme de Dynkin).

Ce genre de choses existe et est bien connu : ce sont les sous-groupes paraboliques maximaux du groupe de Lie, ou plutôt les quotients du groupe de Lie par ses sous-groupes paraboliques maximaux (ou les « géométries de Klein » données par ces quotients) : il y a bien un sous-groupe parabolique maximal par nœud du diagamme de Dynkin, et dans le cas de An ils définissent naturellement les points, droites, plans, etc. Ces objets, ou les géométries de Cartan modelées sur eux (en les « courbant ») sont étudiés et s'appellent les géométries paraboliques. Mais je ne suis toujours pas content, parce que dans le cas du groupe spécial orthogonal (Bn ou Dn), les quotients paraboliques correspondent pas aux points, droites, etc., de la sphère (d'ailleurs, dans le cas réel compact, ils sont tout simplement vides) : ce sont les points, droites, etc., isotropes, c'est-à-dire dans le cas hyperbolique les points idéaux, droites idéales, etc. — ce n'est pas ce que je veux. (Même si je ne sais pas exactement ce que je veux.) Je veux quelque chose qui ressemble plus aux espaces symétriques classiques, mais qui ait une combinatoire naturelle comme les nœuds du diagramme de Dynkin (peut-être des orbites d'éléments assez généraux dans les représentations fondamentales, mais je n'ai pas les idées super claires sur ce que ça peut être).

La réponse à ma question est peut-être dans le très remarquable (rien que par son prix !) livre de Boris Rosenfeld, Geometry of Lie Groups, mais il faut bien le dire, ce livre est aussi brouillon qu'il est fascinant, et plus je le regarde plus j'ai les idées confuses.

Ce qui est sûr, c'est que parmi les géométries intéressantes, il y a les espaces projectifs réels, complexes et quaternioniques (de toute dimension), et la droite et le plan projectif octonionique (sur les octonions, on ne peut pas faire plus qu'un plan projectif, parce que le théorème de Desargues est automatique à partir de la dimension 3), ainsi que leurs analogues hyperboliques ; le plan projectif octonionique a d'ailleurs un lien intéressant avec plusieurs groupes de Lie exceptionnels (au moins F₄ et E₆), comme il sera raconté dans ma mythique page sur les octonions quand j'aurai fini de l'écrire (mais ce n'est pas forcément si loin que ça, justement !). Il existe aussi une géométrie intéressante, que je ne connaissais pas du tout : celle dont les « points » sont des algèbres de nombres complexes dans les octonions (ou, de façon équivalente, la sphère des des octonions imaginaires purs de module 1) et dont les « droites » (sans doute pas le meilleur terme) sont des algèbres de quaternions dans les octonions (ce sont les quotients de G₂ par quelque chose comme SU₃ et Spin₃×Spin₃), ça a l'air extrêmement joli, et je ne sais pas du tout quel est son nom classique.

Bon enfin bref. Bonne année.

(samedi)

Surprises et bizarreries de la géométrie hyperbolique

Je promets que ce blog ne parlera pas de géométrie hyperbolique jusqu'à la fin des temps ! Mais il me reste encore un certain nombre de choses rigolotes à raconter. Notamment, ce que sont les cercles (cycles et horocyles) en géométrie hyperbolique et les trajectoires de rotations et translations ; comment les projections de Poincaré et de Beltrami-Klein sont reliées (et comment les réconcilier en projetant le plan hyperbolique sur une demi-sphère) ; ce que sont la pseudo-sphère et les surfaces de Dini et pourquoi elles nous permettent de voir un petit bout de la géométrie hyperbolique sur un modèle euclidien (mais juste un petit bout) ; et surtout, parler un peu des groupes de Coxeter et de leur automaticité, des pavages du plan hyperbolique, et de comment ceci permet de travailler informatiquement avec le plan hyperbolique, par exemple s'il s'agit de faire des jeux ou des simulations dessus. (Je ne garantis pas du tout que j'aurai le courage ou le temps de développer chacun de ces thèmes, mais ce serait bien.) De nouveau, je promets d'essayer de rendre les différentes entrées de cette série aussi indépendantes que possible les unes des autres, de façon à ce qu'on puisse lire le sous-ensemble qu'on veut dans l'ordre qu'on veut. Et je vais essayer de rendre autant que possible les choses accessibles à un bas niveau de connaissances mathématiques (même si je n'arriverai pas toujours à rester au niveau lycée), quitte à commettres des imprécisions que les experts, j'espère, me pardonneront.

Dans cette entrée je voudrais essayer de décrire quelques phénomènes très simples qui illustrent le comportement surprenant de la géométrie hyperbolique. Les quatre sous-parties sont d'ailleurs indépendantes les unes des autres. Le principe informel mais fondamental que je cherche à illustrer (au moins sur les deux premiers exemples) est le suivant :

Dans un espace hyperbolique, il n'y a essentiellement qu'une façon de relier deux points : même un chemin en zigzag ne peut pas se racourcir beaucoup.

Autrement dit, si vous allez de A à B par un chemin en zigzag et que quelqu'un d'autre y va en ligne droite, il ne gagnera pas énormément par rapport à vous. Ou, pour dire les choses de façon plus décourageante, si vous avez marché un peu au hasard à partir de A, que vous vous retrouvez en B, et que maintenant vous voulez revenir à votre point de départ, vous allez devoir refaire toutes les méandres de votre chemin. Raconté de façon aussi informelle, ce principe peut être complètement faux, bien sûr (essentiellement parce que le plus court chemin entre deux points est une droite, pas un zigzag, même en géométrie hyperbolique), comme il peut être tout à fait vrai : mais si dans l'espace euclidien il n'y a aucun doute qu'il est faux, dans l'espace hyperbolique je vais essayer d'expliquer de quelle façon il est néanmoins vrai.

Ceux qui ont suivi mon conseil et essayé de jouer à HyperRogue se seront sans doute rendu compte à quel point il est difficile de retracer un chemin dans l'espace hyperbolique (surtout si vous êtes allés jusqu'au bout du jeu !) : voici donc une tentative d'explication de ces phénomènes. J'utiliserai les formules fondamentales de l'entrée précédente, mais si on ne l'a pas lue on peut se contenter de me croire sur parole quand j'affirme une relation métrique.

(mardi)

La formule fondamentale de la trigonométrie du triangle

Je continue une série commencée dans l'entrée précédente sur la géométrie elliptique et hyperbolique, mais, en fait, je vais tâcher de faire en sorte que ces entrées soient aussi indépendantes que possible, pour qu'on puisse les lire dans l'ordre qu'on veut. Je continue à me placer environ au niveau lycée (au moins dans les passages qui ne sont pas en petits caractères ; enfin, j'espère). Ici je veux parler un peu de la trigonométrie du triangle (la loi des cosinus et la loi des sinus). Dans une entrée ultérieure, je parlerai des spécificités et bizarreries de la géométrie hyperbolique.

A B C b a c α β γ

Considérons un triangle ABC (euclidien, sphérique ou hyperbolique, on verra plus tard) : j'appelle a la longueur BC (c'est-à-dire la longueur du côté opposé au sommet A), b la longueur CA, et c la longueur AB ; j'appelle α l'angle CAB (c'est-à-dire l'angle interne au sommet A), β l'angle ABC, et γ l'angle BCA. (On remarquera que ces notations, qui sont standard, sont symétriques si on permute les noms tant qu'on le fait de la même manière sur (A,B,C), (a,b,c) et (α,β,γ), et bien sûr tout ce qu'on pourra dire sur le triangle le sera aussi.)

On s'intéresse aux différentes relations qui peuvent exister entre les six quantités a,b,c et α,β,γ, et éventuellement, du coup, au problème de trouver les trois manquantes si on en connaît trois parmi les six (problème de la résolution du triangle).

Le triangle euclidien

Dans le cas euclidien, les trois angles d'un triangle ne sont pas libres : leur somme vaut π (radians, c'est-à-dire 180°) ; ceci sera la plus évidente différence avec le triangle sphérique ou hyperbolique.

Le théorème le plus célèbre de l'univers (sans doute le théorème que le plus grand nombre de personnes est capable de citer vaguement correctement) affirme que, en géométrie euclidienne, si le triangle est rectangle en C, c'est-à-dire si γ=π/2 (soit cos(γ)=0), alors c² = a² + b². Si on retire cette hypothèse d'être rectangle en C, la relation qui relie a, b, c et l'angle γ est la suivante :

c² = a² + b² − 2a·b·cos(γ)

(vendredi)

Quelques notions de géométrie sphérique et hyperbolique

Comme promis, je voudrais écrire un petit memento de géométrie, en insistant sur le parallèle entre la géométrie sphérique, la géométrie euclidienne, et la géométrie hyperbolique. Je précise que, pour une fois, je suppose très peu de connaissances mathématiques de mes lecteurs : juste un peu de géométrie euclidienne telle qu'on la voit au lycée. Un peu à la fin, et dans des entrées à venir, je supposerai qu'on sait ce que sont les lignes trigonométriques hyperboliques (cosh(t) = ½(exp(t)+exp(−t)) et sinh(t) = ½(exp(t)−exp(−t)), ainsi que tanh(t)=sinh(t)/cosh(t)), mais c'est essentiellement tout.

La géométrie euclidienne, donc je suppose que tout le monde sait ce que c'est : c'est celle qu'on apprend au lycée, la géométrie du plan (pour se limiter à la dimension 2), les points et les droites, avec la notion de distance et d'angle.

(Digression : Si on oublie la notion de distance mais qu'on garde celle d'angle, on pourra parler de géométrie (euclidienne) conforme ; si on oublie à la fois la notion de distance et celle d'angle et qu'on ne garde que l'incidence — c'est-à-dire le fait qu'un point soit sur une droite ou qu'une droite passe par un point — et le parallélisme, alors on parle de géométrie affine. Si on oublie aussi le parallélisme, ne retenant que l'incidence, quitte à ajouter une droite à l'infini sur laquelle les droites parallèles sont réputées se croiser, on parle de géométrie projective. Dans l'esprit du fameux « programme d'Erlangen » de Felix Klein, à chacune de ces géométries est associé un groupe de transformations, c'est-à-dire celles qui préservent la géométrie en question du plan, à savoir le groupe des isométries planes pour la géométrie euclidienne, le groupe des similitudes pour la géométrie conforme, le groupe des affinités pour la géométrie affine, et le groupe des transformations projectives pour la géométrie projective. Il est intéressant de se rappeler ces différents niveaux, par exemple comme indiqué à la fin de cette entrée. Mais a priori, c'est bien avec la géométrie euclidienne classique, angles et distances, que je comparerai la géométrie sphérique et la géométrie hyperbolique.)

(jeudi)

Un labyrinthe hyperbolique, et une nouvelle vidéo

J'écrivais récemment un petit TODO pour plus tard. Il faut que je dise un peu ce que j'en ai fait.

Je me suis rendu compte que faire un labyrinthe hyperbolique était à la fois mathématiquement plus intéressant, et aussi plus facile, que ce que j'imaginais. En fait, j'ai eu une sorte d'épiphanie mathématique en réfléchissant à la question de savoir à la fois comment mettre des coordonnées sur un pavage comme ça (je veux dire quelque chose qui soit informatiquement manipulable et numériquement robuste, pour étiqueter les cases) et comment limiter la taille du labyrinthe. Comme Knuth l'a dit, on ne comprend vraiment bien un objet mathématique que quand on l'a enseigné, et on comprend encore mieux quand on l'a enseigné à un ordinateur.

(Ceux qui ne sont pas intéressés par les maths peuvent sauter les quelques paragraphes suivants.)

Quand on fait un jeu informatique sur le bête plan euclidien, pour ne pas aller à l'infini, parfois on met des bords, mais parfois aussi on préfère cycler dans les deux directions (i.e., quand on va trop loin, on retourne à son point de départ), ce qui revient en fait, mathématiquement, à quotienter le plan, et le réseau du pavage Λ (presque toujours un réseau carré en informatique, pour des raisons de simplicité du tracé) par un sous-réseau Γ des périodes (presque toujours aussi un réseau carré, même si pour le coup il n'y a guère de raison à ça), de sorte que Λ/Γ soit un groupe fini (un (ℤ/m)⊕(ℤ/n)), qui est celui où les coordonnées du jeu prennent leurs valeurs : du coup, les coordonnées sont des entiers modulo m et n (généralement deux puissances de 2, souvent égales, ce qui simplifie encore les choses), donc faciles à manipuler en informatique, et le monde est un quotient du plan par Γ, ce qu'on appelle un tore plat (ou, si on veut être sophistiqué, une surface de Riemann compacte de genre 1, c'est-à-dire une courbe elliptique, dont Γ est le groupe fondamental et dont Λ/Γ est un sous-groupe de points de torsion).

Bon, mais voilà, que faire pour le plan hyperbolique ? Contrairement au plan euclidien, ses translations ne commutent pas (c'est très clair quand on joue au jeu vers lequel je fais un lien ci-dessous) : on peut certes le paramétrer par deux coordonnées (par exemple les coordonnées polaires : la distance à une origine arbitrairement choisie et le cap/azimuth), mais ce sera des coordonnées réelles, peu pratiques à manipuler, et dès qu'on s'éloigne un peu de l'origine, elles deviennent numériquement délicates à gérer. Notamment, pour étiqueter les cases d'un pavage, ce n'est pas commode. Ce qui joue le rôle dans le cas hyperbolique du réseau du pavage dans le cas euclidien, c'est le groupe Δ des isométries du pavage (ou éventuellement le sous-groupe Δ⁰ des isométries directes) : c'est un groupe de Coxeter (en l'occurrence un groupe de triangle, qui, pour le pavage que j'ai choisi, est Δ(2,4,5), engendré par la réflexion par rapport à un mur du pavage, la rotation d'angle π/2 autour du centre d'un « carré » et la rotation d'angle 2π/5 autour d'un sommet). Ce qui permet déjà de le manipuler un peu informatiquement (il y a toutes sortes d'algorithmes pour calculer dans les groupes de Coxeter).

Mais surtout, ce qu'il y a, c'est qu'on peut aussi trouver, et de façon très agréable, des sous-groupes distingués Γ de Δ⁰ qui agissent sans point fixe, et de sorte que le quotient du plan hyperbolique par Γ soit compact (c'est une surface de Riemann compacte de genre ≥2) et notamment que Δ⁰/Γ soit fini (c'est le groupe des isométries de cette surface de Riemann). J'avoue n'avoir pas une idée aussi claire que je voudrais de comment décrire « tous » ces Γ, mais ce n'est pas difficile d'en trouver (en l'occurrence, j'ai écrit les matrices des isométries hyperboliques de mon pavage dans les nombres algébriques, j'ai trouvé un nombre premier p, en l'occurrence 89, qui scindait toutes ces matrices, et j'ai réduit modulo p). Du coup, ce qui joue le rôle analogue aux coordonnées cycliques (ℤ/m)⊕(ℤ/n) dans le cas d'un jeu euclidien, sur mon jeu hyperbolique, c'est le groupe Δ⁰/Γ, qui dans mon cas est PSL(2,89) (le groupe projectif spécial linéaire des matrices 2×2 sur le corps des entiers modulo 89 ; il a 352440 éléments), et le labyrinthe est en fait un sous-graphe du graphe de Cayley de ce groupe.

Voilà donc que j'ai figuré informatiquement, sans trop m'y attendre, trois objets mathématiques dignes d'intérêt : le plan hyperbolique, le graph de Cayley d'un groupe simple fini, et une surface de Riemann compacte de genre 8812 ayant ce groupe de symétries (et le plan hyperbolique comme revêtement universel, Γ étant le groupe fondamental).

(Il faudra que j'essaie voir avec un groupe Δ⁰/Γ plus petit — à commencer par trouver le plus petit possible, d'ailleurs — ce qui rendra le jeu moins intéressant mais peut-être la géométrie plus facile à visualiser. Une autre question sur laquelle je n'ai pas les idées parfaitement claires, c'est de savoir, si je voulais calculer les périodes de ma surface de Riemann, quelle serait la difficulté de l'opération.)

Bref, voici mon petit jeu de labyrinthe hyperbolique en JavaScript (qui devrait marcher sur les navigateurs vaguement récents ; mais n'essayez pas depuis un téléphone, d'une part parce qu'on joue avec les touches et d'autre part parce que les calculs sont un peu lents au démarrage et que ça consomme pas mal de mémoire).

Je l'ai présenté sous forme d'un jeu (il faut d'abord chercher à atteindre le cercle vert, puis revenir à son point de départ en ayant fait une « boucle » : c'est très facile si on se fie aux indications de distance données à droite, un peu plus difficile si on n'utilise que la couleur des cercles comme indication, et ce serait quasiment impossible s'il n'y avait rien du genre). Mais en fait l'intérêt est surtout d'explorer le plan hyperbolique et de se rendre compte comment il fonctionne. Par exemple, on peut chercher à se déplacer avec uniquement des « translations », sans jamais faire de rotation, et s'apercevoir qu'on peut revenir à son point de départ avec une différence d'orientation. On peut aussi s'amuser à essayer d'appliquer l'algorithme de la main droite (garder toujours un mur à droite et le suivre) et ceci donnera une idée de la vastesse du plan hyperbolique. Je trouve ça très instructif, et ce fut tout à fait agréable à programmer (une heureuse surprise).

🌍

Pour ce qui est des projections cartographiques, je n'ai pas calculé celle dont je parlais dans mon TODO, parce qu'elle ferait intervenir les fonctions hypergéométriques de façon pas du tout évidente, et je n'ai pas vraiment envie de me farcir le Abramowitz & Stegun pour un résultat incertain. En revanche, j'ai calculé les mêmes projections que dans ma vidéo précédente mais pour la Terre, c'est amusant à voir (et comme cette fois-ci je n'ai pas fait de commentaire audio, ça a été beaucoup plus rapide à faire) :

Allez, je termine par une vue de la Terre en projection stéréographique depuis le pôle sud sur une grande distance, parce qu'on n'a pas l'habitude de la voir comme ça, je trouve ça vraiment rigolo (et on comprend ce que ça veut dire qu'une projection conforme préserve les formes mais pas les tailles ; clickez pour zoomer) :

[La Terre vue en projection stéreographique depuis le pôle sud]

À ce propos, mon poussinet et moi avons cherché à trouver s'il y avait des vols aériens qui passent au-dessus de l'Antarctique : Wikipédia prétend que non, mais c'est au moins amusant, et étonnamment difficile, de chercher quelles lignes droites entre deux grandes villes sur Terre, passent au-dessus de l'Antarctique (nous avons trouvé, si je me rappelle bien : Sydney–Rio, Auckland–Le Cap, ou encore Buenos Aires–Shanghaï, mais aucune de ces liaisons n'existe en vol direct). Encore une illustration du fait qu'il est difficile de visualiser la géographie sphérique.

(mercredi)

Petit TODO pour plus tard

Deux idées que m'ont données les deux dernières entrées, à retenir pour plus tard, peut-être, un jour, si jamais j'ai du temps :

(mardi)

Visualisation de la sphère et du plan hyperbolique

Écrire l'entrée précédente m'a motivé pour faire quelque chose dont je traîne l'idée depuis longtemps : produire de jolies illustrations de quelques projections de la sphère et du plan hyperbolique, et des analogies entre elles.

[Pavage heptagonal du plan hyperbolique] [Pavage pentagonal de la sphère (dodécaèdre)]

On trouve beaucoup d'images et de vidéos des projections de la sphère, mais elles utilisent généralement l'image des continents de la Terre, parce qu'elles ciblent la cartographie, et pour cette raison aussi elles ont tendance à omettre la projection gnomonique, ce qui est dommage parce qu'elle est mathématiquement intéressante (elle met en lumière le fait que la sphère quotientée par l'antipodie donne un plan projectif réel tandis que la projection stéréographique illustre le fait que la sphère peut être vue comme une droite projective complexe).

Il y a aussi beaucoup d'images et de vidéos du plan hyperbolique, mais presque exclusivement en utilisant les modèles du disque et demi-plan de Poincaré (les projections conformes standards), beaucoup plus rarement le modèle de Beltrami-Klein, et je crois que je n'ai jamais vu une projection équivalente (=préservant les aires) du plan hyperbolique, alors qu'on en montre souvent pour la sphère.

Enfin, les analogies entre la sphère et le plan hyperbolique sont rarement mises en valeur. Bref, j'ai fait cette vidéo pour essayer de combler les trous (le commentaire est en anglais ; apparemment YouTube ne permet pas de faire des vidéos bilingues, ce qui est tout de même con) :

Comme souvent, ce n'est pas ce qu'on pense qui a pris du temps : le programme pour calculer les images (qu'on peut trouver ici) est extrêmement simple et m'a pris nettement moins d'une heure à écrire (environ 150 lignes de C ! on fait difficilement plus simple, même s'il est vrai que j'ai dû faire quelques petits calculs de trigonométrie sphérique et hyperbolique pour calculer les constantes au début du programme). Le calcul lui-même a été aussi assez indolore. La lecture du commentaire, en revanche, a été abominable, et j'ai fini par craquer et renoncer à produire quelque chose de pas trop mauvaise qualité où je ne bégaierais pas sur plein de mots, où on n'entendrais pas les voisins qui passent dans le couloir, où je ne parlerais pas avec une voix différente entre chaque paragraphe, etc. Je ne suis vraiment pas doué pour ça.

(lundi)

La magie du théorème de l'application conforme de Riemann

Parmi les théorèmes mathématiques que je trouve les plus magiques, le théorème de l'application conforme de Riemann est assez haut dans la liste.

Pour expliquer un peu au niveau grand public ce que ce théorème signifie, il faut d'abord expliquer application conforme : une application conforme (ou holomorphe — au niveau où je me place ce n'est pas la peine de faire de distinction) est simplement une transformation du plan qui conserve les angles (orientés). De façon encore plus simple, disons qu'une application conforme est une application qui préserve localement les formes sans les aplatir : elle peut plus ou moins les agrandir ou les rétrécir d'un point à l'autre, mais un tout petit cercle se transforme en quelque chose qui ressemble à un cercle, pas à une ellipse (voir plus loin ce que je dis sur les cartes de la Terre).

Pour ceux qui comprennent un peu plus de maths, je peux dire ceci : une application affine (c'est-à-dire, préservant l'alignement) qui conserve les angles (orientés) est ce qu'on appelle une similitude (directe), c'est-à-dire la composition d'une homothétie et d'une rotation (et éventuellement d'une translation) ; si on voit le plan comme l'ensemble des nombres complexes, alors une similitude (directe) est précisément une application de la forme za·z+b pour certains nombres complexes a et b (le module et l'argument de a déterminant le rapport de l'homothétie et l'angle de la rotation, tandis que b détermine la translation ou le « centre » de la transformation). Une application conforme est une transformation qui, au premier ordre, en tout point, est une similitude (directe), c'est-à-dire, une application (d'une région du plan vers le plan) qui est différentiable et dont la différentielle est partout une similitude (directe) : d'après ce que je viens de dire, cela revient à voir ça comme une application dérivable au sens complexe.

À titre d'exemple, l'application exponentielle complexe, c'est-à-dire l'application qui à un point (x,y) du plan (qu'on peut identifier au nombre complexe z = x+i·y) associe le point (exp(x)·cos(y), exp(x)·sin(y)) (qu'on peut identifier au nombre complexe exp(z)), où ici exp(•) désigne e, est une transformation conforme. J'ai tenté de la représenter sur la figure suivante :

[Grille cartésienne + polaire] [Image de la grille par l'exponentielle]

(mercredi)

C'est compliqué d'enseigner Fourier

Je donne à Télécom ParisChose un cours d'Analyse (cela me demande d'ailleurs beaucoup de travail parce que je ne suis pas du tout analyste) dont un des points centraux est la théorie de Fourier. J'avais l'an dernier fait un petit catalogue de quelques énoncés sur la théorie des séries de Fourier (dépassant largement le niveau du cours que j'enseigne, mais nécessaire pour me clarifier les idées). Mais il faudrait que je parle un peu aussi de la transformée de Fourier, pour expliquer à quel point c'est subtil à définir.

Si f est L¹ (=intégrable au sens de Lebesgue) sur ℝ, on définit sa transformée de Fourier ℱf par

f ( ξ ) = + f(x) e 2i πξx dx

(pour ceux qui ont un de ces vieux navigateurs qui ne comprennent pas le MathML, il s'agit de l'intégrale de f(x)·exp(−2iπξx) pour x allant de −∞ à +∞, vue comme fonction de la variable ξ). Cette fonction ℱf est continue (de ξ), de limite nulle à l'infini.

Si f est L² (=de carré intégrable) mais pas forcément L¹, la formule ci-dessus n'a pas de sens en général ; on peut cependant définir une transformée de Fourier sur L² : par exemple, on utilise la formule ci-dessus pour définir la transformée de Fourier sur L²∩L¹ (ou sur un espace plus petit, comme l'espace de Schwartz), dense dans L², on démontre que l'opération « transformée de Fourier » est une isométrie au sens L², et on la prolonge par continuité. C'est déjà quelque chose d'assez subtil pédagogiquement.

L'autre subtilité pédagogique, c'est que nos élèves sortent (généralement) de prépa et que si on leur y a défini une intégrale de −∞ à +∞, c'est comme limite des intégrales à bornes finies quand ces bornes tendent vers −∞ et +∞ ; alors que l'intégrale dont il est question ci-dessus est l'intégrale de Lebesgue, définie de façon holiste sur ℝ, et il se trouve que si elle existe, elle est effectivement égale à la limite des intégrales à bornes finies (par le théorème de convergence dominée), mais la réciproque n'est pas vraie.

Les choses deviennent catastrophiques parce que ces deux subtilités se combinent de façon encore plus subtile : si on considère la fonction fM = f×1[−M;+M] égale à f sur l'intervalle [−M;+M] et à 0 ailleurs, alors fM converge vers f au sens L² quand M→+∞, donc les transformées de Fourier des fM convergent vers celle de f au sens L² ; or fM est L¹ et sa transformée de Fourier est donc donnée par l'intégrale de −M à +M de de f(x)·exp(−2iπξx). On a donc (pour tout f∈L²) :

M +M f(x) e 2i πξx dx M+ f ( ξ )

mais il s'agit d'une convergence au sens L² (d'une fonction de ξ vers une autre fonction de ξ), qui ne dit rien sur ce qui se passe pour un ξ ou un autre. Et là où ça devient subtilissimement subtilissime, c'est que en fait, si, il y a bien convergence pour presque tout ξ, mais cette convergence p.p. est un théorème très difficile (le théorème de Carleson).

En revanche, je suis assez convaincu, même si je n'ai pas de contre-exemple, qu'il est parfaitement possible qu'une fonction f localement intégrable ait une transformée de Fourier au sens des distributions g elle aussi localement intégrable, c'est-à-dire qu'on ait ∫(f·ψ)=∫(g·φ) pour toute fonction φ de l'espace de Schwartz ayant transformée de Fourier ψ (automatiquement elle-même dans l'espace de Schwartz), et pourtant que la limite écrite ci-dessus n'existe pour aucun ξ. Je me demande bien, d'ailleurs, s'il est possible que la limite existe pour tout ξ mais ne soit jamais égale à g(ξ) ; mais je n'ai pas du tout le temps d'y réfléchir.

Comment faire pour enseigner quelque chose qui soit rigoureux et qui ne noie pas pour autant les élèves sous la subtilité ?

(Monday)

Gratuitous Literary Fragment #147 (referee report)

To whom it may concern:

This is a referee report on the thesis titled The Character Table of the Weyl Group of E8: Applications to the Arcane Arts, a dissertation submitted by M. Parry Hotter in partial fulfillment of the degree of Magiæ Doctor at the University of Hogsbridge.

Context: To put this study in its proper historical perspective, which M. Hotter himself does at length in the first chapter of the thesis under review, would require more space than can be afforded here. As the author aptly recalls, the E8 perspective on the arcane arts can be traced back to the unification, proposed by Leibniz in 1710, of six of the seven classical schools of magic (Earth, Water, Air, Fire, Macrocosm, Life and Spirit, arranged linearly by Paracelsus) with six of the seven oriental phases (Earth, Water, Wind, Fire, Heaven, Change and Unchange, with Change and Unchange branching from Heaven), by equating Heaven with Macrocosm and Change with Life (and renaming Unchange as Time). The asymetrical nature of the resulting diagram — which we now know as the Dynkin diagram of E8 — prompted a number of attempts to identify at least one more house — attempts that we presently understand to be misguided.

But it is in the year 1918, which saw the publication of Hermann Weyl's now classic Earth, Water, Air, Fire, Space, Time, Life and Spirit, that the 240 directions of the mysticohedron were put upon a firm theoretical footing. This represents a considerable paradigm shift, whose practical consequences were slow to come to fruition (starting with the startling realization of where the level grades, 1, 248, 3 875, 27 000, 30 380, 147 250, 779 247… appear). And as examined in more detail in Aldus Bumblebore's The Eight Elements (or: What's so Special about the Number 696 729 600?), it was only considerably recently that any attention was given to the profond interconnection between the largest exceptional Weyl group and the transmutations of magic.

As explained in the abstract, M. Hotter's work consists of two main parts. The first explores applications of the « pure » character theory of W(E8) beyond the mere, and previously known, identification of the 112 representations (lines of the character table) and conjugacy classes (columns) with the arcane circles and astral configurations. The second, and much deeper, part of this thesis, develops an invariant theory for E8 that is analogous to the classical Schur-Weyl duality between representations of the linear group and those of the symmetric group, and then applies this duality to obtain esoterica. Eight specific and illustrative examples are given in an appendix. We now review each of the chapters in greater detail.


Some commentary: (Generally I don't discuss the references in my texts but I've made exceptions before.)

I've often said that E8 (and the cohort of related objects) is so deeply fascinating and profoundly beautiful (see here and there) that if the Universe has any sense of æsthetics, it really should involve E8 in some way (some people have indeed tried to find it, but with dubious success: it is possible that the Universe we live in does not have the same notion of æsthetics as mathematicians). At any rate, in a world in which magic is real and wizards who (after their elementary and high school years spent doing more applied work like fighting supervillain wizards) go to university and write doctoral theses in pure and theoretical magic, I cannot conceive the mathematical foundations of magic to be anything but E8 (OK, maybe I'll take the largest Mathieu group as an acceptable substitute). Of course, in my vision of magic, the head magician does not look so much like this as like that (seriously, if anyone is a real world magician, it's John Conway). Anyway.

So if magic is to be built on E8, then the system at the root of all arcana is represented by the following diagram:

—and there should definitely be some labels attached here. (They would actually be of some use to real world mathematicians because nobody can agree on how to number the vertices of this diagram. Unfortunately, Conway, the great inventor of witty names, did not do his job here.) So I propose to name the seven on the bottom line, from left to right: Spirit, Life, Macrocosm, Fire, Air, Water and Earth, and the top one, Time. There isn't much rationale to my suggestion that the Europeans and Chinese(?) should have discovered the A7 (i.e., all but the top node) and D7 (i.e., all but the leftmode node) subdiagrams of the above, but it is true that Leibniz was fascinated by the Yi Jing and popularized it in Europe. (It seemed right to make Leibniz play a role here when I had had fun with Newton in a previous fragment.)

More importantly, Hermann Weyl, something of a magician himself, to whom we owe much of the theory of representations of compact Lie groups (and in particular the formula which allows to compute the sequence I mention), wrote a book called Space, Time, Matter, one of the first expositions of Einstein's theory of general relativity (and indeed one of the books — found in my father's library — through which I myself learned the subject): in an alternate universe, it would certainly have been a book on magic.

Incidentally, I wish someone would tell me how one can construct some kind of analogue of Schur-Weyl duality for the exceptional groups (or in any way relate the representations of E8 to those of W(E8)).

(samedi)

Comment définir efficacement ce qu'est un schéma

[Cette entrée m'a pris environ deux mois à écrire : j'ai commencé à cause de ceci qui m'a donné envie de m'éclaircir les idées en les racontant. Au début je pensais que ça ne ferait que quelques lignes !]

Introduction

Il est souvent intéressant, en mathématiques, de prendre une notion, et d'essayer de la redéfinir (ou, s'il s'agit d'un théorème, de le redémontrer) de novo, je veux dire en partant de rien (ou du minimum). Ceci permet de se rendre compte de ce dont on a besoin pour arriver à ce point, de chercher les raccourcis pour y arriver, et de gagner en clarté sur la notion en question. Je vais prendre l'exemple de la notion de schéma, qui est une notion centrale de la géométrie algébrique depuis Grothendieck.

Je m'adresse ici au lecteur qui sait ce qu'est un anneau commutatif (ainsi que les notions qui vont forcément avec : morphisme d'anneaux commutatifs, idéal, quotient par un idéal ; et aussi : polynômes à coefficients dans un anneau commutatif ; je suppose aussi qu'on sait ce qu'est un corps), mais qui n'a pas de connaissances en géométrie algébrique et qui, en particulier, ne sait pas ce qu'est un schéma. Le but est de montrer qu'on peut définir ce terme-là de façon relativement efficace (c'est-à-dire : rapide, mais pas forcément pédagogiquement idéale) en évitant de parler de tout le fatras d'idéaux premiers, faisceaux d'anneaux, espaces localement annelés, etc., qui servent normalement à définir ce qu'est un schéma.

(L'expert en géométrie algébrique n'a certainement rien à apprendre ici, mais il pourra trouver intéressante ma définition d'une immersion ouverte comme tiré en arrière d'une immersion universelle ; et s'il n'a jamais réfléchi à la question, l'exercice de décrire le foncteur des points de la droite avec origine doublée et de quelques uns de ses avatars est amusante.)

La définition proprement dite est ce qui figure dans les parties encadrées (pour montrer qu'elle est effectivement plutôt courte même si cette entrée dans son ensemble est extrêmement longue) : 1, 2, 3, 4, 5, 6, 7, 8 et 9. On peut donc en principe se contenter de lire ces passages-là. Le commentaire autour sert à essayer de la rendre pas totalement incompréhensible, en donnant quelques exemples et quelques explications, et à motiver un peu ce qu'on fait.

Plan de cette entrée :

Préliminaires : Je vais fixer un anneau de base k (tous les anneaux considérés sont commutatifs et ont un élément unité). Si on ne sait pas ce qu'est une k-algèbre (sous-entendu : commutative), c'est simplement un anneau A accompagné d'un morphisme d'anneaux kA (appelé morphisme structural) ; et un morphisme AB de k-algèbres est défini comme un morphisme d'anneaux tel que la composée kAB avec le morphisme structural de A soit le morphisme stuctural de B. Mais pour lire ce qui suit, si on préfère, on peut par exemple imaginer que k est un corps (la notion de k-algèbre est sans doute mieux connue dans ce contexte), ou bien que k est l'anneau ℤ des entiers auquel cas il faut comprendre l'expression k-algèbre comme exactement synonyme de anneau. Cet anneau de base k est sous-jacent à toute la construction (ce qu'on définit, ce sont les k-schémas), il ne sera jamais varié, et parfois j'omettrai sa mention (je parlerai par exemple de l'espace affine pour ce qu'il conviendrait d'appeler l'espace affine sur k).

Motivation : Le type d'objets que la géométrie algébrique étudie, ce sont des solutions d'équations polynomiales (en plusieurs variables), considérés comme des objets géométriques ; pour prendre un exemple, je pourrais appeler cercle unité (affine) l'« objet » C d'équation x²+y²=1 : quand j'écris ça, cela signifie que pour n'importe quel corps K sur k, ou plus généralement n'importe quelle k-algèbre A, je vais considérer l'ensemble C(K) ou C(A) des solutions de cette équation dans K ou A, c'est-à-dire l'ensemble des couples (x,y) de deux éléments de K ou A tels que x²+y²=1. A priori ce sont plutôt les solutions sur un corps K qui ont historiquement intéressé les géomètres algébriques, mais pour toutes sortes de raisons il est pertinent (et utile pour la formalisation) de s'intéresser aux solutions sur une k-algèbre A quelconque (même si l'intuition et, dans une certaine mesure, la terminologie, viennent du cas des corps).

À titre d'exemples, C(ℤ) n'a que quatre points ((±1,0) et (0,±1)), tandis que C(ℝ) correspond vraiment à ce qu'on appelle naïvement un cercle (celui qu'on peut paramétrer de façon transcendante par (cos(θ),sin(θ)) ; C(ℚ) est infini même si ce n'est pas forcément si évident à première vue (il contient des points tels que (3/5, 4/5)) ; et on peut montrer que C(F), si F est un corps fini à q éléments (q nécessairement une puissance d'un nombre premier), a q−1, q+1 ou q éléments selon que q est respectivement congru à 1 modulo 4, congru à 3 modulo 4, ou bien une puissance de 2. (En fait, si K est un corps de caractéristique différente de 2 — c'est-à-dire que 2 y est inversible — alors C(K) peut être paramétré, à l'exception du seul point (−1,0), par t↦((1−t²)/(1+t²),2t/(1+t²)) tant que t²≠−1.)

(mercredi)

Remise en question d'une croyance mathématique

[Le fond de ce dont il est question dans ce post ne sera compréhensible que par mes lecteurs qui sont eux-mêmes géomètres algébriques, mais ce que je veux souligner c'est aussi et surtout l'effet psychologique produit sur moi par ce que j'ai appris, et cet aspect-là ne devrait pas être technique.]

Lundi j'ai appris l'existence d'un contre-exemple qui montre que quelque chose que j'avais tenu pour absolument et évidemment vrai en géométrie algébrique est, en fait, faux. Le fait (vrai) est que :

L'algèbre Γ(X,𝒪X) des fonctions régulières globales d'un schéma X de type fini (et même d'une variété quasiprojective — ou meme quasi-affine — lisse) sur un corps k n'est pas nécessairement de type fini. (Voici un contre-exemple, accompagné de quelques commentaires ; voir aussi ici pour un contexte un peu différent.)

(Pour dire les choses différemment, le foncteur X↦Spec(Γ(X,𝒪X)), adjoint à gauche du foncteur d'inclusion des k-schémas affine dans les k-schémas, ne préserve pas la type-finitude sur k.)

Et pour ceux qui savent un peu d'algèbre mais pas de géométrie algébrique : on peut trouver une algèbre A de type fini sur un corps k — c'est-à-dire qu'elle est engendrée en tant qu'algèbre par un nombre fini d'éléments —, disons même A intègre, et un nombre fini d'éléments f1,…,fr de A (je suppose que r=2 doit suffire), tels que l'intersection B, prise dans le corps des fractions K de A, des anneaux A[1/fi] (des fractions qui peuvent s'écrire avec une puissance de fi comme dénominateur), autrement dit les éléments de K qui peuvent s'écrire avec une puissance de n'importe quel fi comme dénominateur, bref, tels que cette algèbre B ne soit pas de type fini. (Le lien avec la formulation précédente est que B est l'anneau des fonctions régulières sur l'ouvert réunion des D(fi) dans Spec(A). Bon, évidemment, sous cette forme purement algébrique, ce n'est pas évident que ça soit choquant.)

Pour ceux pour qui c'est du chinois, imaginez que j'aie toujours cru que New York était la capitale des États-Unis et je viens d'apprendre que non. Ou peut-être, justement, que je viens d'apprendre que New York est la capitale des États-Unis. Toujours est-il qu'il est intéressant de se demander pourquoi j'ai cru le contraire ou quel effet cette révélation produit sur moi.

Pourquoi me suis-je fait cette idée fausse (que l'algèbre des fonctions régulières d'un schéma de type fini serait de type fini) ? Évidemment ce n'est écrit dans aucun livre ou cours, puisque ce n'est pas vrai. Mais quand on apprend une branche des mathématiques, on ne se contente pas de retenir par cœur quantité d'énoncés vrais et leur démonstration : comme on n'est pas un ordinateur, on essaie de se former une image mentale de la manière dont les choses fonctionnent, des mécanismes généraux par lesquels les choses sont nommées et selon lesquelles les démonstrations sont construites, etc. Un de ces mécanismes, en géométrie algébrique, pourrait s'énoncer en gros comme ceci :

Contexte : Il y a des objets algébriques classiques appelés anneaux ou algèbres. La géométrie algébrique transforme ces objets algébriques en des objets géométriques, appelés schémas affines, qui leur sont tout à fait équivalents — chaque anneau donne naissance à un schéma affine, son spectre, et le schéma affine permet de retrouver l'unique anneau dont il est le spectre comme son anneau des fonctions régulières globales. Puis, sur cette base plus géométrique, la géométrie algébrique définit des objets géométriques plus généraux, les schémas, qui s'obtiennent par « recollement » de schémas affines (lesquels sont le modèle local des schémas généraux).

Idée : Pour beaucoup de propriétés P des anneaux qui ont un nom standard (par exemple : réduit), on qualifie par le même nom les schémas affines qui correspondent à (=sont le spectre d')un anneau ayant cette propriété P ; puis on appelle aussi de la même manière les schémas généraux qui s'obtiennent en « recollant » des schémas affines qui sont P (éventuellement avec une condition de finitude supplémentaire sur le recollement) ; et enfin, on s'assure que cette terminologie est raisonnable en vérifiant que les objets algébriques qui se déduisent de ces objets géométriques P (leurs anneaux de fonctions régulières) sont encore P.

Personne n'énonce explicitement ce principe général, qui admet d'ailleurs certaines déclinaisons, et notamment les étudiants en géométrie algébrique doivent s'en apercevoir eux-mêmes (c'est sans doute dommage), mais je pense que personne de l'art ne contestera l'esprit général de ce que je viens d'écrire. (Voyez, par exemple, dans le Algebraic Geometry de Hartshorne, l'exemple 3.0.1 et la proposition 3.2 et la remarque qui précède, et plus généralement ce qu'il y a dans ce coin-là.) Il y a certainement des petites variations selon la propriété P (idéalement, c'est une propriété locale, et alors il suffit de la vérifier localement), mais généralement elles sont telles qu'avec un tout petit peu d'habitude on comprend immédiatement ce qu'il faut dire parce que les contre-exemples sont évidents (par exemple : la somme de deux schémas intègres non vide n'est pas intègre puisque l'opération algébrique correspondante est un produit d'anneaux, ce n'est pas une propriété locale, mais on devine alors immédiatement quand il faut qualifier un schéma d'intègre). Je pense que beaucoup de cours, faute de temps, s'abstiennent de faire le tour de chaque propriété qu'on énonce pour expliquer si elle est locale (et le démontrer !) ou donner les métapropriétés de cette propriété qui permettent exactement de contrôler le vocabulaire — au mieux, on a tendance à laisser ça en exercice au lecteur (voyez, par exemple, toujours chez Hartshorne, l'exercice 2.3).

Le cas que j'évoque est traître, parce que les vérifications qu'on va instinctivement faire pour s'assurer que « tout va bien » pour cette propriété P (être de type fini sur un corps) sont effectivement satisfaites (notamment : si on définit un schéma affine de type fini sur k comme le spectre d'une algèbre de type fini sur k, alors il est bien vrai qu'un schéma affine est de type fini sur k si et seulement si il est recouvert par un nombre fini d'ouverts affines dont chacun est de type fini sur k). Et aucun contre-exemple ne saute aux yeux. Donc je pense que beaucoup de géomètres algébristes auraient tendance, comme moi, à tomber dans le panneau et à se dire être de type fini sur un corps, pour un schéma nœthérien, est une propriété locale, donc tout va bien. En tout cas, j'aurais certainement laissé passer sans tiquer, dans un article dont je serais rapporteur, une affirmation de ce genre.

Bref, je croyais quelque chose de faux. Est-ce grave ? Formellement, probablement pas, parce que je ne pense pas avoir jamais utilisé ce fait dans un raisonnement : c'est plutôt quelque chose qui guide l'intuition — et apparemment mon intuition était mal guidée — que quelque chose dont on se sert dans une démonstration. C'est néanmoins très déstabilisant de se rendre compte tardivement d'une pareille erreur d'intuition. Parce que ça m'oblige maintenant à me demander si je n'en ai pas fait d'autres pour d'autres propriétés P : à me demander, par exemple, si l'anneau des fonctions régulières globales d'un schéma intègre est bien intègre, ou autres bêtises de ce genre. Ou a contrario, à me demander s'il n'y a pas une propriété P′ meilleure que P pour laquelle le problème ne se poserait pas (être une limite finie d'algèbres de type fini, par exemple, est-ce que ça se comporte bien de tout point de vue ?), ce qui soulève quantité de questions certes très instructives mais néanmoins chronophages et qui ne font pas vraiment progresser la recherche.

Pour éviter ça, les cours devraient faire l'effort de systématiquement proposer tous les exemples et contre-exemples qui permettent d'éviter de se faire des idées fausses sur la terminologie. Donc j'en veux beaucoup à ceux qui m'ont enseigné la géométrie algébrique de ne pas avoir attiré mon attention sur ce qui est un problème ou un contre-exemple classique (puisque Hilbert se l'était posé, sous une forme différente). Ou de ne rien m'avoir appris sur les propriétés du foncteur d'« affinisation » X↦Spec(Γ(X,𝒪X)), par exemple quelles propriétés il préserve, ou de la flèche canonique X→Spec(Γ(X,𝒪X)), par exemple quelles propriétés elle a ou à quelle condition elle effectue une descente de propriétés de X vers son affinisé, parce que ce sont des objets vraiments naturels et qu'on est en droit d'être curieux à leur sujet.

Ajout : On me signale que l'avertissement est fait dans le Red Book de Mumford (II.§3, en-dessous de la proposition 1). En effet, c'est un bon point pour mumford, comme le fait qu'il fait des tentatives pédagogiquement intéressantes pour dessiner, par exemple, Spec(ℤ[t]).

(vendredi)

Pourquoi je ne crois pas à l'ultrafinitisme

(Je développe ici quelque chose que j'ai écrit en commentaire sur une entrée du blog de David Monniaux sur l'épistémologie des mathématiques.)

Le finitisme en philosophie des mathématiques est l'idée que l'infini n'existe pas (avec différentes variations possibles selon ce qu'on entend au juste par n'existe pas), i.e., que seuls les objets finis — les entiers naturels ou ce qui peut se coder avec eux, comme les structures combinatoires finies — ont vraiment un sens. Disons qu'il s'agit d'une position qui met une limite sur le platonisme (cf. ce que j'en disais ici) qui postule que les objets mathématiques existent dans une sorte de paradis platonicien : le finitisme n'admet dans ce paradis que les entiers naturels et les structures finies. Cette position est illustrée par une phrase de Kronecker que j'ai déjà mainte fois citée : Die ganzen Zahlen hat der liebe Gott gemacht, alles andere ist Menschenwerk (Les entiers ont été faits par Dieu, tout le reste est l'œuvre de l'homme).

L'ultrafinitisme va plus loin en rejetant non seulement l'infini mais même les nombres absurdement grands comme ceux que je décris dans cette entrée (ajout : voir aussi celle-ci) (ou même des nombres beaucoup plus petits qu'eux). Pour un ultrafinitiste, se demander, par exemple, si le 10↑(10↑(10↑100))-ième nombre premier se termine par 1, 3, 7 ou 9, est une question à peu près dénuée de sens.

Évidemment, il est parfaitement sot de penser qu'il existe un plus grand entier naturel, auquel on ne peut pas ajouter 1 : ce serait là une caricature de la position ultrafinitiste. Ceux qui se revendiquent de cette idée pensent plutôt que les nombres ont de moins en moins de sens au fur et à mesure qu'ils grandissent, si bien que 100 existe certainement mais que 10↑(10↑(10↑100)) n'a à peu près aucun sens. Je ne sais plus où j'avais entendu cette anecdote de quelqu'un qui a voulu mettre en défaut un ultrafinitiste en essayant de trouver le plus grand nombre dont ce dernier reconnaîtrait l'existence : il a commencé par lui demander si 1000 existait, puis un million (10↑6), puis un milliard (10↑9), puis un gogol (10↑100), etc. La raison pour laquelle ce plan n'a pas marché est que l'ultrafinitiste a toujours répondu « oui », mais en réfléchissant de plus en plus longtemps à mesure que le nombre était grand : il a répondu presque instantanément qu'un milliard existait, mais il a mis une seconde à déclarer qu'un gogol existait, peut-être 10 secondes pour 10↑1000, et n'a jamais consenti à admettre que 10↑(10↑100) existât. [Précision : l'ultrafinitiste en question était Esenin-Vol'pin, l'autre était Harvey Friedman, et l'anecdote est racontée sur l'article Wikipédia su premier (et les nombres impliqués sont d'ailleurs plus petits que ceux que je cite).] Voilà qui devrait donner une meilleure idée de cette philosophie ; et globalement, on peut imaginer qu'un ultrafinitiste typique reconnaîtra l'existence d'un nombre dans un temps, ou avec une difficulté, proportionnel à ce qu'il faut pour l'écrire complètement — disons, en base 10 — sans artifice comme les exponentielles, c'est-à-dire, proportionnellement à son log. Cela correspond assez bien à l'usage qu'on fait des nombres ailleurs qu'en mathématiques, finalement.

L'ultrafinitisme, du coup, n'admet pas forcément que l'arithmétique de Peano, ou que ZFC, soient consistants. En fait, il n'admet même pas que la question ait un sens (la démonstration d'une contradiction pourrait être démesurément longue) : mais il constate certainement qu'aucune contradiction n'est connue dans ces systèmes, et admet peut-être, ou peut-être pas, qu'on pourrait raisonnablement en trouver une. De fait, il y a des gens qui cherchent à trouver, ou espèrent sérieusement qu'on trouve, une contradiction dans ces systèmes. (Voir notamment cette entrée passée.)

C'est là que je trouve que la position ne tient pas vraiment debout. Car de toute évidence les ultrafinitistes acceptent les conclusions arithmétiques de Peano (ou même de ZFC, mais ça ne fait guère de différence ici) concernant les entiers qu'ils considèrent comme raisonnables : si on considère les mathématiques comme une science expérimentale, on peut même dire qu'on dispose d'une quantité faramineuse de confirmation expérimentale de son cadre (à chaque fois qu'on paie quelque chose, on vérifie la commutativité et l'associativité de l'addition, et n'importe quel calcul sur ordinateur vérifie expérimentalement des quantités énormes de théorèmes mathématiques), et en tout cas, je vois mal comment on peut être un mathématicien si on ne croit pas un mininum aux théorèmes que l'on démontre. Et je ne vois rien dans la position ultrafinitiste qui permette d'expliquer ceci : comment expliquer que Peano (ou ZFC) fasse des prévisions si justes ? comment se fait-il qu'on n'arrive pas, au moins en pratique, à y trouver une contradiction ? Ou, pour dire les choses autrement : comment se fait-il, si les objets infinis ou même les très grands nombres n'existent pas, qu'ils donnent l'illusion d'exister ? Comment se fait-il que le monde mathématique se comporte comme s'ils existaient ?

Un platoniste pur jus n'aura pas de difficulté à expliquer que Peano soit consistant : si les entiers naturels existent et sont bien définis, il est normal qu'ils se comportent ainsi, il n'y a pas de contradiction dans Peano tout simplement car Peano est vrai. ((S'agissant de ZFC, ma position à moi a tendance à être que les ensembles existent sans être uniques : il s'agit de la position « multivers » où il n'existe pas un univers privilégié de la théorie des ensembles, mais le fait qu'il en existe au moins un fait que ZFC doit être consistant.))

La position ultrafinitiste en mathématiques me paraît semblable à celle de quelqu'un qui prétendrait que les galaxies lointaines que nous voyons dans le ciel nocturne n'existent pas : comme nous ne pouvons pas raisonnablement les atteindre, nous n'en avons qu'une image, qui pourrait être une illusion. Il n'y a pas forcément besoin pour cela de croire que l'Univers aurait une frontière bien nette comme il n'y a pas besoin pour être ultrafinitiste de croire qu'il existe un plus grand entier naturel. Néanmoins, il me semble beaucoup plus simple de penser que ces objets lointains et inatteignables (qu'il s'agisse des autres galaxies ou des très grands nombres) existent vraiment que de croire que, sans exister, ils parviennent à laisser une image dans notre expérience qui suggère qu'ils existent.

(Ajout : voir aussi une entrée ultérieure sur un thème proche. • Et une autre.)

(mardi)

Pourquoi l'univers constructible de Gödel est important mathématiquement et philosophiquement

[J'ai écrit ce texte par tout petits bouts sur plusieurs mois. J'espère que le processus fragmenté de son écriture ne le rend pas trop brouillon !]

Introduction

De façon inexplicable, quand j'ai listé certains des objets mathématiques qui me fascinent, j'ai oublié de citer l'univers constructible de Gödel : la lecture de l'article Wikipédia à son sujet ne parlera sans doute pas beaucoup au profane, mais je voudrais rattraper mon oubli en essayant d'expliquer un peu de quoi il s'agit, parce que cet objet me semble non seulement fondamental et extrêmement élégant, mais même, dans un certain sens, on peut dire qu'il donne un sens à toutes les mathématiques (avec néanmoins une question philosophique fondamentale : est-ce vraiment le sens que nous voulons ou devrions leur donner ? c'est-à-dire, veut-on ou doit-on accepter l'axiome de constructibilité qui affirme que cet univers constructible est l'univers mathématique ?).

Si on me donne dix secondes pour dire un peu de quoi il s'agit à quelqu'un qui ne connaît rien aux mathématiques, je pense que je tenterais de résumer l'axiome de constructibilité à ce slogan philosophique dont, malheureusement, le côté percutant enlève beaucoup à la précision :

Il n'existe pas de vrai hasard.

Si, en revanche, je dois expliquer de quoi il s'agit à quelqu'un qui connaît un peu les mathématiques, je dirai la chose suivante : l'axiome de constructibilité généralise — et non seulement implique, mais même explique — deux postulats célèbres de la théorie des ensembles que sont l'axiome du choix et l'hypothèse (généralisée) du continu. L'axiome de constructibilité rend explicites et « naturels » des objets dont l'axiome du choix ne fait que postuler l'existence, et il apporte suffisamment d'information sur les parties de ℕ pour démontrer et éclairer l'hypothèse du continu (et plus généralement sur les parties de n'importe quel ensemble pour l'hypothèse généralisée du continu). L'axiome de constructibilité ordonne (et « déroule ») tout l'univers mathématiques selon les ordinaux et permet donc de répondre à un nombre étonnant de questions combinatoires autrement indécidables, dont la véracité de l'axiome du choix et de l'hypothèse du continu ne sont que deux exemples : ce qui ne veut pas dire, cependant, que nous devions forcément accepter ces réponses comme correctes.

Plan de cette entrée :

(mercredi)

Qui peut dire le nombre le plus grand ?

Je suppose que beaucoup d'enfants, quand ils apprennent à compter, jouent au petit jeu de qui peut dire le nombre le plus grand. Bon, au début, c'est facile, ils ne connaissent qu'un nombre fini d'entiers naturels, donc il suffit de dire le plus grand. Puis un jour arrivent les milliers, les millions, les milliards, les idées pas très claires sur ce qui est le plus grand dans tout ça et tout de même la réalisation terrifiante de ce que c'est que l'infini, et qu'il n'y a pas de moyen de gagner à coup sûr à ce jeu : si l'un dit un milliard, l'autre peut dire un milliard de milliards ; si on écrit les nombres sur du papier, cela devient une question de qui aura le temps ou la patience d'écrire le plus de chiffres. Quand on devient plus sophistiqué, on se dit qu'on peut relaxer la règle, ce n'est peut-être pas la peine d'écrire tous les chiffres, on peut écrire dix puissance suivi de leur nombre, mais alors le même problème se repose. Un jour, un des enfants décide qu'on a le droit de jouer l'infini, mais alors l'autre réplique l'infini plus un et s'ensuit une dispute pour savoir si c'est légitime ou pas, pareil ou pas.

Mais les adultes jouent parfois encore à ce jeu, et notamment les mathématiciens (il y a même un Wikia consacré aux grands nombres). Les physiciens sont petits joueurs : à peu près le plus grand nombre qui doit intervenir en physique est le rapport de la densité de Planck sur la constante cosmologique, soit quelque chose comme 10 puissance 122, ce qui est un peu embarrassant si on pense que ce nombre devrait valoir pas loin de 1, mais pour un mathématicien ce n'est pas très impressionnant ; pour un cryptographe, c'est une estimation du nombre d'opérations qu'il faut faire, en cryptographie, pour casser une clé de 400 bits.

D'où naturellement la question un peu stupide ou enfantine, mais néanmoins amusante : quel est le plus grand nombre qu'on sache définir ?

(samedi)

Ce que « vrai » veut dire en mathématiques

Une des difficultés que rencontrent les gens qui font un peu de logique mathématique mais qui n'en ont pas trop l'habitude — et une difficulté qui sous-tend beaucoup de discussions sur la philosophie des mathématiques — c'est que les gens ne savent plus ce que « vrai » veut dire. Par exemple, quand on discute du théorème de Gödel ou de la différence entre l'ensemble des théorèmes de l'arithmétique de Peano et l'ensemble des énoncés vrais de l'arithmétique, ceci cause souvent un certain malaise (voir par exemple la note #2b de l'entrée précédente). J'ai souvent tourné autour de cette question dans ce blog, mais je n'ai jamais essayé de présenter les choses de façon synthétique. En réponse à une question, je vais donc essayer de dissiper la confusion (ce qui me permettra de renvoyer à la présente entrée quand la question se reposera à l'avenir).

(Eh oui, ce qui suit est très long. Je croyais avoir trois fois rien à raconter, et une fois de plus j'ai pondu des pages… et des pages… et des pages, en essayant de « parler » à la fois à plusieurs niveaux d'expertise différents. J'ai mis en plus petits caractères les passages qui sont une digression par rapport à l'essentiel de mon propos, mais de façon générale j'ai essayé de faire en sorte qu'on puisse comprendre un passage même en ayant lu ce qui précède en diagonale. Peut-être que j'aurais dû publier tout ça sous forme de feuilleton, en plusieurs entrées de blog, mais je trouvais que ça nuisait à la cohérence de l'ensemble.)

(lundi)

Problème de l'arrêt de problème de Post

Je voudrais à nouveau tenter un peu de vulgarisation autour de la calculabilité, cette fois-ci pour parler du problème de Post dont je regrette qu'il soit trop mal connu des matheux et informaticiens. Bon, déjà le nom pose une difficulté, parce qu'il y a deux choses différentes connues sous le nom de problème de Post (pas totalement sans rapport, toutes les deux du domaine de la calculabilité et liées au problème de l'arrêt, mais néanmoins bien distinctes). Celle dont je ne veux pas parler est le problème de correspondance de Post : comme ce dernier est nettement plus connu que le problème de Post dont il est question ici, cela cause un certain nombre de confusions désagréables. Une autre difficulté tient de façon plus générale à la terminologie du domaine (comme le faisait remarquer il n'y a pas longtemps mon ami David Monniaux) : ce qu'on appelle problème décidable s'appelle aussi ensemble récursif (et problème semi-décidable aussi ensemble récursivement énumérable). Bref, essayons d'y voir plus clair.

D'abord, il faut expliquer ce qu'on entend par un problème de décision : en bref, c'est une question mathématique bien définie et dont la réponse doit être oui ou non. En un peu plus précis, c'est un problème qui prend en entrée une donnée finie (c'est-à-dire, par exemple, un entier, ou une chaîne finie de caractères, ou une donnée combinatoire finie par exemple un graphe) et qui doit répondre à une question mathématiquement précise sur cette donnée. Un exemple de tel problème serait : le nombre p que voici (la donnée du problème) est-il un nombre premier ? Ou encore : exise-t-il un circuit hamiltonien dans le graphe que voici ? Il est toujours possible — c'est même la définition ce que j'entends par donnée finie — de coder[#] la donnée sous la forme d'un entier naturel (par exemple, une chaîne de caractères peut se coder comme une suite finie d'entiers, et une suite finie d'entiers peut elle-même se coder sous la forme d'un entier par exemple en utilisant la décomposition en facteurs premiers ou diverses manipulations sur l'écriture binaire ou décimale). À cause de ça[#2], on peut tout simplement considérer qu'un problème de décision est un ensemble d'entiers naturels : le problème est alors simplement de savoir si tel ou tel entier donné appartient ou non à l'ensemble. On peut aussi préférer considérer — de la même manière — qu'on a affaire à un ensemble de chaînes (finies) de caractères, ce qu'on appelle un langage : les notions de problème de décision, d'ensemble d'entiers naturels, ou de langage, sont essentiellement équivalentes.

(jeudi)

Personne n'aime les fonctions primitives récursives ?

Je me dis souvent que la classe des fonctions primitives récursives est le parent mal aimé de l'informatique théorique.

Les fonctions générales récursives — c'est-à-dire, calculables au sens de Church-Turing — figurent dans n'importe quel cours de base : ce sont celles qui peuvent être calculées par une machine de Turing (ou toutes sortes d'autres modèles de calculs, comme des machines à registres), ou encore définies dans le λ-calcul de Church (non typé) ou par le schéma de récursion générale, ou bien calculables par essentiellement n'importe quel langage de programmation idéalisé raisonnable (je recommande la lecture du livre de Hofstadter, Gödel, Escher, Bach, et la description du langage FlooP, comme exemple). Toutes ces descriptions sont équivalentes. Le cours va ensuite généralement souligner deux choses : (A) il est possible de réaliser une machine de Turing universelle (c'est-à-dire, qui prend en entrée une description d'une autre machine de Turing et l'entrée à fournir à cette dernière, et simule son exécution, donc termine ssi l'autre termine, et renvoie le même résultat si c'est le cas), ce qui revient, informatiquement, à écrire un interpréteur d'un langage de programmation dans lui-même (ou dans un autre, peu importe), et (B) il n'est pas possible pour une machine de Turing de résoudre le problème de l'arrêt des machines de Turing, c'est-à-dire de décider (en terminant toujours) si une machine de Turing spécifiée s'arrête (sur une entrée donnée, mais en fait peu importe). La plupart des cours s'arrêtent là.

(lundi)

Petit exposé sur la relativité

J'ai donné avant-hier dans le cadre du séminaire Mathematic Park, qui s'adresse surtout aux élèves de prépas ou de licences scientifiques, un exposé intitulé Relativité et Géométrie — malgré ce que le titre peut laisser penser, je n'ai parlé que de relativité restreinte (j'avais prévu quelques transparents sur la relativité générale s'il me restait du temps, mais il ne m'en est pas resté, ce qui valait sans doute mieux). J'aurais sans doute dû l'annoncer à l'avance sur ce blog, mais j'ai été un peu pris par le temps en commençant à préparer à la dernière minute. Bref. Mon propos a surtout été de présenter la relativité restreinte en insistant sur l'importance de la forme quadratique de Minkowski, et d'expliquer pourquoi il vaut mieux mesurer les vitesses en relativité en utilisant la notion de rapidité[#] (qui ont le bon goût de s'ajouter en dimension 1+1) et en quoi l'espace des vitesses de la relativité restreinte se comporte naturellement comme un espace hyperbolique ; tout ça, en faisant le parallèle entre trois sortes de relativités : la relativité restreinte ou minkowskienne/lorentzienne, la relativité galiléenne (antérieure à 1905), et le monde fictif de la relativité « euclidienne » (exploré dans la trilogie Orthogonal de Greg Egan, qui malheureusement utilise le terme « riemannien » que je trouve très mal choisi), cette dernière servant essentiellement comme contrepoint plus facile à visualiser, et où l'espace des vitesses correspond à la géométrie sphérique.

Mes transparents sont ici, même si je ne sais pas s'ils seront très compréhensibles sans tout le blabla que je prononce pour les expliquer (le blabla a été enregistré, je ne sais pas encore s'il sera mis en ligne ; si c'est le cas, je tâcherai d'éditer cette entrée).

Comme souvent, je me rends compte après coup de quantité de choses que j'aurais pu expliquer et que je n'ai pas dites (ou même pas pensées) : le sens de la polarité par rapport à la conique fondamentale en géométrie hyperbolique ou elliptique ; ou comment utiliser les formules trigonométriques hyperboliques pour calculer l'aberration de la lumière relativiste (je ne la mentionne que brièvement au transparent 30/37) ; ou la notion d'aire sur le plan hyperbolique, sa conservation par le groupe de Lorentz, et l'analogue hyperbolique de la projection azimutale équivalente de Lambert. Mais la continuation logique de mon exposé — qui dressait le parallèle entre la relativité restreinte et certaines géométries de Klein — serait de faire le parallèle entre la relativité générale et les géométries de Cartan, et ça, je dois dire que je n'ai pas encore pris le temps de le comprendre en profondeur (même si j'ai commencé ici).

[#] Par exemple, plutôt que de dire que les protons du LHC vont à 99.9999991% de la vitesse de la lumière (jouez à compter les 9 !), ou qu'ils ont une énergie de 7 TeV, je trouve que c'est plus parlant de dire qu'ils ont une rapidité de 9.6 dans les unités naturelles.

(samedi)

Petite devinette mathématique : un damier irrégulier

Carré divisé en 12×12 rectanglesÀ part mon choix lamentable de couleurs, qu'est-ce que l'image ci-contre a de (mathématiquement) remarquable ?

Les couleurs sont juste censées être une indication. La question porte sur la manière dont le carré est divisé en 12×12 rectangles.

Si on veut des valeurs plus précises, à cinq chiffres significatifs, les largeurs des colonnes en fraction du tout sont :

0.10367, 0.02778, 0.15922, 0.00744, 0.13889, 0.06300, 0.06300, 0.13889, 0.00744, 0.15922, 0.02778, 0.10367

et les hauteurs des lignes sont :

0.06699, 0.11603, 0.06699, 0.06699, 0.11603, 0.06699, 0.06699, 0.11603, 0.06699, 0.06699, 0.11603, 0.06699

Voici quelques faits supplémentaires (peut-être trompeurs, mais vrais) :

Je donnerai la solution — qui ne fait pas appel à des choses compliquées — en éditant ce post.

(Les gens qui ont déjà eu la réponse — et notamment les lecteurs de forum maths à l'ENS — n'ont pas le droit de participer ! ☺)

La réponse () (je ne la cache pas, parce que c'est vraiment trop long) :

Chacune des diagonales du damier irrégulier a la même aire qu'elle aurait dans un damier 12×12 régulier : le rectangle (rouge) du coin en haut à gauche a une surface égale à (1/12)² = 1/144 du carré tout entier, les deux (orange) à sa droite et en-dessous ont, ensemble, une aire de 2/144 = 1/72 du carré entier, les trois rectangles adjacents ont une aire totale de 3/144 et ainsi de suite — n'importe quelle suite de n rectangles consécutivement arrangés en diagonale de bord en bord a une surface totale égale à n/144 du carré. (Ainsi, dans les nombres donnés ci-dessus, 0.10367×0.06699=(1/144), 0.02778×0.06699+0.10367×0.11603=(2/144), et ainsi de suite.) En particulier, avec mon choix de couleurs, chaque couleur couvre une surface égale de l'image (mais la propriété que j'énonce est plus forte).

Ce qui rend la chose remarquable, c'est qu'il n'y a pas moyen de faire ça (en écartant bien sûr le damier régulier) pour une taille moindre que 12×12 si on impose aux largeurs des colonnes et hauteurs des lignes d'être strictement positives (en taille 10×10 il y a une solution ou certaines lignes/colonnes sont réduites à 0). Et en 12×12 c'est, à symétrie près, la seule solution (autre que le damier régulier et les deux qui ont des lignes/colonnes réduites à 0).

Le problème peut aussi se poser avec des dés : on se demande si on peut construire deux dés à m faces, c'est-à-dire deux distributions de probabilités sur m entiers consécutifs (de 0 à m−1 ou de 1 à m, ça ne change rien) de manière que si on tire ces deux dés simultanément et qu'on considère leur somme, on obtienne bien la distribution de probabilité attendue pour la somme sur un tirage de deux dés à m faces non pipés. Pour m<10 la seule façon d'y arriver est d'avoir deux dés non pipés. Pour m=12, les deux distributions de probabilité données par les deux suites de 12 nombres ci-dessus définissent deux dés pipés dont la somme est non pipée.

Maintenant, comment (p/t)rouve-t-on ça ? L'idée initiale est très séduisante : on considère le polynôme de degré m−1 dont les coefficients sont les largeurs des colonnes (soit a0 + a1·x + ⋯ + am−1·xm−1 où les ai sont les largeurs des colonnes) et celui dont les coefficients sont les hauteurs des lignes (b0 + b1·x + ⋯ + bm−1·xm−1) : en les multipliant, on obtient le polynôme (de degré 2m−2) dont les coefficients sont les aires des diagonales (le coefficient constant est a0·b0, c'est la surface du coin en haut à gauche, le suivant est a1·b0 + a0·b1, c'est la surface de la diagonale adjacente, et ainsi de suite). La contrainte demande donc que ce produit soit le même que le produit des deux polynômes représentant une distribution uniforme, autrement dit (1+x+x2+⋯+xm−1)/m (au carré, donc, pour le produit). La question qui se pose est donc d'écrire le polynôme (1+x+x2+⋯+xm−1)2, c'est-à-dire ((1−xm)/(1−x))2 (j'ai retiré le coefficient multiplicatif 1/m de normalisation globale, sachant qu'on peut toujours renormaliser) comme produit de deux polynômes de degré m−1 à coefficients positifs (voire strictement positifs).

Malheureusement, la suite est plus décevante. Le polynôme 1+x+x2+⋯+xm−1 se factorise dans ℝ[x] comme produit des (1 − 2·cos(2iπ/mx + x²) pour i allant de 1 à ⌊(m−1)/2⌋ ainsi que (1+x) lorsque m est pair. On va donc chercher à répartir les exposants (le total devant être 2) sur chacun de ces facteurs de manière à avoir le bon degré de part et d'autre, et n'avoir que des coefficients positifs (ou strictement positifs), et je ne vois pas de façon plus intelligente pour ça que d'essayer toutes les combinaisons possibles, typiquement par ordinateur. S'agissant de m=12, les facteurs de 1+x+x2+⋯+x11 sont (1−√3·x+x²), (1−x+x²), (1+x²), (1+x+x²), (1+√3·x+x²) et (1+x). Et le produit de

(1−√3·x+x²) × (1−x+x²) × (1+x²) × (1+x+x²)2 × (1+x) = 1 + 0.26795·x + 1.53590·x2 + 0.07180·x3 + 1.33975·x4 + 0.60770·x5 + 0.60770·x6 + 1.33975·x7 + 0.07180·x8 + 1.53590·x9 + 0.26795·x10 + x11

et de

(1−√3·x+x²) × (1−x+x²) × (1+x²) × (1+√3·x+x²)2 × (1+x) = 1 + 1.73205·x + x2 + x3 + 1.73205·x4 + x5 + x6 + 1.73205·x7 + x8 + x9 + 1.73205·x10 + x11

donne bien (1+x+x2+⋯+x11)2, les deux ayant des coefficients positifs ; en les renormalisant (pour que la somme des coefficients, c'est-à-dire la valeur en 1, soit 1), on obtient les deux suites de nombres annoncées.

On peut aussi faire varier m et chercher le nombre de manières dont le polynôme (1+x+x2+⋯+xm−1)2 s'écrit comme produit de deux polynômes unitaires de degré m−1 à coefficients positifs, ou strictement positifs : ceci revient à compter le nombre de façons dont on peut fabriquer un damier m×m à diagonales régulières (sans ou avec la contrainte de non-nullité des lignes et colonnes ; et en comptant une fois le damier régulier et deux fois chaque damier régulier à cause de la possibilité d'échanger lignes et colonnes). Ces suites sont majorées par 3m/2⌋ (qui est le nombre total de manières d'écrire le polynôme comme produit de deux polynômes unitaires à coefficients réels, sans autre contrainte). Je trouve :

m12345678 910111213141516 1718192021
pos.11111111 13175799 1315172537
s.pos.11111111 11135799 1311171933

La seconde suite est sans doute plus naturelle (parce que si on va autoriser des coefficients égaux à 0, autant supprimer la contrainte que le degré des polynômes soit exactement m−1 parce que ça correspond à demander la non-nullité du dernier coefficient). Je l'ai soumise à l'OEIS.

(jeudi)

Les labyrinthes de petits théorèmes tordus, tous semblables (ici : Fourier)

Je donne cette année un cours d'Analyse en première année à l'école-qui-s'appelait-ENST. Je ne suis pas du tout analyste, mais j'en profite pour essayer de me cultiver un peu sur le sujet, et apprendre à mettre dans leur contexte les résultats somme toute assez basiques que je leur enseigne. Aujourd'hui j'ai fait cours sur les séries de Fourier, et comme je voulais essayer de mettre au clair les différents résultats relatifs à la convergence et à l'estimation de séries de Fourier, j'ai commencé à essayer de me faire une liste systématique, et je suis tombé sur ce que j'aime appeler un labyrinthe de petits théorèmes tordus, tous semblables (le terme est une référence geek célèbre).

Ce que je veux dire par là est qu'on a un phénomène mathématique sur lequel on montre une propriété, qui suggère quelques nouvelles questions, auxquelles on répond par de nouveaux théorèmes ou des contre-exemples, mais ceux-ci suggèrent encore des questions, et le processus ne converge pas (ou du moins, ne converge pas dans les limites de la patience ou de la mémoire dont je dispose), et à la fin je me retrouve avec une masse de théorèmes que je confonds et où je ne vois plus rien. C'est loin d'être le seul cas où ce me soit arrivé, mais les séries de Fourier sont un exemple assez frappant (et le fait qu'un M. Zygmund ait réussi à écrire deux tomes de 350 pages chacun sur le sujet sans réussir à faire le tour non pas de toutes les questions mais de toutes celles que je me pose naturellement, suggère qu'il y a vraiment un labyrinthe). Petit apercu (tout ceci étant dit pour les fonctions périodiques d'une variable réelle) :

(samedi)

Ce qu'on écrit — en maths — et ce qu'on pense

L'autre jour, dans le cadre de mon cours d'Analyse à Télécom, j'énonce un résultat sur le changement de variable dans les intégrales multiples. Quelque chose comme ceci : si φ:UV est un C¹-difféomorphisme entre des ouverts de ℝn, et si f est une fonction mesurable sur V, alors l'intégrale sur V de f est égale à (et converge dans les mêmes cas que) l'intégrale sur U de (fφ)×|J| où J désigne le déterminant de la différentielle de φ. L'ennui d'un tel énoncé, c'est qu'il est peut-être mathématiquement impeccable, mais ce n'est pas la manière dont on pense à un changement de variable, ça ne montre pas la manière dont on mène en pratique le calcul, parce qu'avec un tel énoncé on ne sait pas où écrire les φ et les J.

La manière dont on fait les choses en pratique, c'est qu'on écrit les variables y1,…,yn sur V en fonction de celles x1,…,xn sur U, on calcule les différentielles dyi, on exprime l'« élément de volume » sur V dy1∧⋯∧dyn en fonction de celui dx1∧⋯∧dxn sur U (le rapport étant justement J), et on remplace simplement ça dans l'intégrale. Par exemple, pour passer des coordonnées cartésiennes aux coordonnées polaires dans une intégrale double, j'écris x = r·cos(θ) et y = r·sin(θ), donc dx∧dy = (cos(θ)·drr·sin(θ)·dθ) ∧ (sin(θ)·dr + r·cos(θ)·dθ) = r·dr∧dθ et je sais tout de suite où et comment placer le facteur r sans me tromper.

Mais expliquer ça, c'est autrement plus difficile qu'énoncer un théorème bien propre. Comme mes élèves ne savent pas ce que c'est qu'une forme différentielle (même sur ℝn), on ne peut pas vraiment expliquer quel sens aurait cet élément de volume dy1∧⋯∧dyn, ni les subtilités sur l'orientation (autrement qu'en dimension 1) : on écrit juste dy1⋯dyn pour l'élément d'intégration, mais du coup on n'explique pas vraiment le mystère (et on n'oriente pas les intégrales).

Bref, j'ai essayé de donner une idée de ce qui se passait, mais je ne sais pas si j'ai réussi à faire passer quoi que ce soit. C'est malheureusement assez fréquent, en maths, qu'on soit tiraillé, pour la pédagogique, entre donner un énoncé rigoureux auquel se rattraper, ou donner une explication utile pour le calcul ou pour l'intuition, avec parfois un peu de mal à faire le lien entre les deux.

(dimanche)

Objets mathématiques fascinants

Un jour il faudra que je fasse un petit catalogue des objets mathématiques qui me fascinent le plus. Ça peut être pour l'élégance hypnotique de leurs symétries (E8, le réseau de Leech) ou pour l'universalité protéenne de leurs structures (l'ensemble de Mandelbrot, l'ensemble des degrés de Turing, le compactifié de Stone-Čech des entiers naturels), ça peut être pour leur existence exceptionnelle (les octonions) ou leur valeur de contre-exemple qui surprend l'imagination (la longue droite), pour la simplicité naturelle de leur construction (l'algèbre de Grassmann-Cayley), ou encore leur centralité pour tout un domaine (le groupe de Galois absolu des rationnels). Si je fais des mathématiques, c'est sans doute beaucoup pour avoir le droit de visiter et admirer ce petit musée des formes extraordinaires (l'ensemble de Mandelbrot est visible pour n'importe qui, il y en a quantité de vidéos, mais les autres objets que j'ai cités sont à mon avis encore plus beaux, simplement ils sont plus difficiles à voir).

À côté de ça, il y a aussi les situations où les maths sont surprenantes. L'exemple le plus bateau est le paradoxe de Banach-Tarski (on peut découper une boule en un nombre fini de morceaux, et déplacer ces morceaux sans changer leur taille de manière à les réassembler pour former deux boules chacune de la taille de la boule d'origine — sans laisser de trous), mais il y en a d'autres. Là aussi, je devrais faire un petit catalogue. Par exemple, saviez-vous que la somme de deux régions convexes du plan dont le bord est C (ou même analytique) est toujours C6 (=six fois continûment dérivable) mais pas forcément C7 ? (Un exemple est formé par les épigraphes de x4/4 et x6/6 ; en fait, la régularité de la somme est C20/3.)

Il y a une célèbre citation de von Neumann : Young man, in mathematics you don't understand things. You just get used to them. (Mon père prétend d'ailleurs que von Neumann l'a piquée à Robert Musil, mais il n'a jamais été capable de me trouver la référence précise, et Google ne semble pas lui donner raison, donc je reste sur von Neumann.) Je ne sais pas si c'est vrai, ou, plus exactement, je ne sais pas s'il y a une différence entre comprendre les choses et s'y habituer. En lisant une démonstration du paradoxe de Banach-Tarski (la référence classique à ce sujet est l'excellent petit livre de Stan Wagon), j'ai l'impression de comprendre pourquoi et comment ce truc fonctionne ; et certainement, depuis le temps que je le connais, il ne me surprend plus trop. Disons qu'on se fait une intuition de la manière dont les objets mathématiques fonctionnent, cette intuition est essentielle pour rechercher ce qui a des chances d'être vrai et ce qui ne l'est probablement pas, cette intuition est parfois prise en défaut et à ce moment-là il faut la modifier, ce qui est d'autant plus facile si on comprend un peu en détail le pourquoi et le comment.

Et parfois les mathématiques sont à la fois très surprenantes et élégantes. Dans mon petit musée des objets mathématiques fascinants, il faut que je mette la sphère de Gromoll-Meyer et la sphère de Kervaire.

En voici une définition concise pour ceux qui la comprendront : on considère le groupe Sp(2) des matrices 2×2 à coefficients dans les quaternions et qui sont unitaires ; là-dessus, on fait agir le groupe Sp(1) des quaternions unité (=de module 1) comme ceci : si u est un quaternion unité et T est dans Sp(2), on définit uT comme la matrice 2×2 obtenue en multipliant T à gauche par u (c'est-à-dire la matrice diagonale (u,u)) et à droite par la matrice diagonale (1,u*) où u* désigne le conjugué (=l'inverse) de u ; ceci définit une fibration de Sp(2) en Sp(1)≅S3, et la base de cette fibration est la sphère de Gromoll-Meyer. Ce qui est incroyablement surprenant, à mes yeux, c'est que l'objet ainsi obtenu est homéomorphe à la sphère de dimension 7 mais pas difféomorphe : il s'agit donc d'une sphère exotique. (Il y a plusieurs choses surprenantes dans l'histoire : l'existence même des sphères exotiques, mais aussi le fait qu'on puisse en donner une construction aussi élégamment algébrique. On peut aussi définir la sphère de Gromoll-Meyer, en tant que variété différentielle, comme l'ensemble des quintuplets (f,p,x,y,z) de nombres complexes tels que f5+p3+x2+y2+z2=0 — j'espère que le 5 est correct — et |f|²+|p|²+|x|²+|y|²+|z|²=1, ce qui est plus simple à comprendre mais assurément moins élégant.)

Quant à la sphère de Kervaire (de dimension 9, disons), elle s'obtient en prenant deux copies de l'espace total du fibré en 5-disques tangentes à la 5-sphère et en les recollant ensemble en identifiant, sur un voisinage d'un point identifié à un 5-disque (sur lequel on a trivialisé le fibré), le 5-disque base d'une copie avec le 5-disque fibre de l'autre copie : le bord de la variété ainsi obtenue est la sphère de Kervaire. (On peut aussi la définir comme l'ensemble des sextuplets (p,x,y,z,u,v) de nombres complexes tels que p3+x2+y2+z2+u2+v2=0 et |p|²+|x|²+|y|²+|z|²+|u|²+|v|²=1.) Elle aussi est homéomorphe mais non difféomorphe à la sphère standard (en dimension 9, cette fois).

Bref, il faudra que je parle un jour de structures exotiques sur les sphères et sur ℝ4, je mets ça dans ma TORANT-list. Parce que ça fait partie de ces choses que je n'arrive vraiment pas à comprendre, ou disons, auquelles je ne me suis pas habitué.

(mercredi)

Comment peut-on courber un espace galiléen ?

La convergence entre le hasard de divagations mathématiques auxquelles je m'étais livré récemment (et qui passaient notamment par le concept de géometrie de Cartan) et du fait qu'on me propose de faire un exposé de vulgarisation sur la relativité (j'en parlerai une autre fois) m'a conduit à d'autres divagations entre la physique et les maths, et à me poser la question parfaitement idiote — et assez technique — suivante, que je vais néanmoins tâcher de raconter : comment peut-on courber un espace galiléen ?

Grossièrement, l'idée est de faire à la « relativité galiléenne » (c'est-à-dire la cinématique de la physique classique, telle qu'elle existait avant Einstein) la même chose qu'on fait pour passer de la relativité restreinte à la relativité générale : courber l'espace-temps.

L'espace-temps galiléen (« plat ») correspond à l'idée naïve qu'on est censé se faire de l'espace et du temps, ou l'idée qu'on s'en faisait avant le passage de MM. Lorentz, Poincaré, Einstein et Minkowski (et le terme d'espace-temps n'était pas utilisé parce qu'il n'est pas particulièrement utile, dans le cadre galiléen, de mettre les deux ensemble : un point de l'espace-temps est juste la donnée d'un point de l'espace à un moment précis). À savoir : le temps est le même pour tous les observateurs ; et les lois de la physique sont invariantes par les transformations suivantes : (0) une translation dans l'espace ou dans le temps, (1) une rotation (constante) de l'espace, et (2) un changement de référentiel donné par un mouvement de déplacement uniforme (=à vitesse constante). Soit concrètement : le résultat d'une expérience physique ne doit pas changer lorsque (0) on la fait à un autre endroit ou un autre moment (à condition bien sûr de déplacer tout ce qui intervient dans l'expérience, y compris la Terre si elle intervient !), (1) on oriente différemment ce sur quoi on mène l'expérience (même remarque), ou (2) on effectue l'expérience dans un laboratoire se déplaçant à vitesse constante ; le point (2) est le moins évident, il constitue le génie de Galilée qui a (au moins selon la légende) effectué des expériences dans des bateaux pour le prouver (du genre : une balle lâchée du haut du mât touche le sol au pied du mât — au moins en l'absence de frottement de l'air — et pas un peu derrière comme on pourrait le penser). Remarquons qu'une conséquence du point (2) est que dire que deux points de l'espace-temps sont « au même endroit » n'a aucun sens à moins qu'ils soient aussi au même moment (j'ai peut-être l'impression d'être assis au même endroit qu'hier, mais la Terre, pendant ce temps, a parcouru quelque chose comme 2.5 millions de kilomètres par rapport au système solaire qui lui-même, etc.). Les transformations de l'espace-temps (translations, rotations, changements de vitesse uniforme) décrites ci-dessus engendrent un groupe appelé groupe de Galilée (ou en fait, deux groupes : le groupe de Galilée homogène, de dimension 6, engendré par (1) et (2), qu'on peut imaginer comme opérant sur les vitesses, et qui est d'ailleurs isomorphe au groupe des déplacements d'un espace euclidien de dimension 3 ; et le groupe de Galilée inhomogène, ou complet, de dimension 10, engendré par (0)–(2), qu'on peut imaginer comme opérant sur les points de l'espace-temps).

L'espace-temps de la relativité restreinte, ou espace-temps de Minkowski, est construit selon des principes analogues à ceci près que maintenant le temps n'est plus absolu, c'est la vitesse de la lumière qui l'est (i.e., quelle que soit la vitesse à laquelle je cours derrière un rayon de lumière, il avancera toujours aussi vite par rapport à moi), et ce simple principe, avec les invariances par translation, rotations et changement de référentiel, correctement interprétées, suffit à fonder toute la cinématique relativiste. Si on a la vision de Felix Klein dans son célèbre programme d'Erlangen, ce qui importe vraiment est le groupe des transformations sur l'espace-temps, et en relativité restreinte les analogues du groupe de Galilée sont le groupe de Lorentz (de dimension 6, analogue du groupe de Galilée homogène) et le groupe de Poincaré (la variante inhomogène, c'est-à-dire incluant aussi les translations, il est de dimension 10).

La relativité générale part du principe que l'espace-temps est un espace courbe (et sans torsion ; cf. une entrée précédente sur le sens de ces deux mots) qui « ressemble localement » à l'espace-temps de Minkowski, et que les objets en chute libre suivent des géodésiques (c'est-à-dire des courbes « aussi droites que possible ») dans un espace-temps courbe. Normalement, il n'y a pas grand-chose à dire, en plus de ça, pour arriver à la relativité générale (il faut cependant bien dire quelque chose de plus car, comme j'aime bien le rappeler, sinon la théorie de Nordström convient aussi). La question que je me suis ingénument posée est : que donnerait une théorie physique fictionnelle partant du principe que l'espace-temps est courbe (et sans torsion) mais ressemble localement à l'espace-temps galiléen (toujours avec le principe que les objets en chute libre suivent des géodésiques). Il est assez facile de se convaincre que cette théorie fictionnelle contient au moins la gravitation à la Newton, mais elle contient plus, parce que l'espace lui-même peut être courbe, parce qu'il y a une sorte de champ « gravitomagnétique », et par ailleurs, comme la relativité générale, elle permet de décrire des changements quelconques de coordonnées et de référentiels (y compris accélérés, en rotation, etc.).

(mercredi)

Le problème des chapeaux de couleur

Une petite addition à la liste que j'avais faite naguère (+1), dans le genre plus proche de ces problèmes-là (en fait, il s'agit d'une variation sur ce que j'appelais l'archi-classique problème des amazones qui tuent leurs maris quand elles savent qu'ils sont infidèles ; il est aussi apparenté au paradoxe de l'examen surprise) :

Le cruel Docteur No a capturé seize mathématiciens. Il les installe autour d'une table et met sur la tête de trois d'entre eux un chapeau blanc, cinq d'entre eux un chapeau rouge, et huit d'entre eux un chapeau noir. Puis il leur tient le discours suivant (rigoureusement exact) : Messieurs, vous êtes tous de parfaits logiciens, et vous savez que je ne vous dirai que la vérité. J'ai placé sur la tête de chacun d'entre vous un chapeau, soit blanc, soit rouge, soit noir. Chacun de vous peut voir la couleur des chapeaux des quinze autres mathématiciens, mais pas du sien. Votre but sera de déduire la couleur de votre chapeau. Pour cela, nous allons procéder en plusieurs tours : à chaque tour, vous écrirez secrètement dans une enveloppe la couleur que vous aurez déduite de votre chapeau, si vous le pouvez, sinon vous laisserez l'enveloppe vide — puis nous dévoilerons le contenu de chaque enveloppe et nous procéderons à un nouveau tour (et ainsi de suite). Vous n'aurez aucun autre moyen de communication. Si une enveloppe contient une mention incorrecte, je vous ferai tous mourir dans d'atroces souffrances (mais cela ne se produira pas car, en tant que parfaits logiciens, vous n'écririez qu'une couleur dont vous êtes logiquement certains). Si trop de tours passent sans que vous ayez tous déduit la couleur de votre chapeau, je vous mettrai aussi à mort (mais nous savons tous que vous écrirez une couleur dès qu'il est logiquement possible de la déduire). Bien, nous allons commencer. Puis, sentant bien que le problème est impossible, le Docteur No ajoute, comme indication : Toutes les couleurs de chapeaux sont représentées (i.e., au moins l'un d'entre vous a un chapeau de chacune des trois couleurs possibles). Comme vous pouvez d'ailleurs le voir. Que va-t-il se passer ?

Le nœud de ce problème existe sous un nombre infini de variantes (par exemple celle-ci), je l'ai souvent appelé le « problème des amazones » parce que j'ai dû le lire d'abord sous cette forme-là[#], mais il faut faire beaucoup de contorsions pour y mettre toutes les hypothèses nécessaires (que je crois avoir correctement réunies). Ici j'ai ajouté quelques petites subtilités pour rendre la chose plus amusante.

(Si on n'a jamais rencontré ce problème, on peut s'échauffer en réfléchissant à ce qui se passe s'il n'y a qu'un seul mathématicien, puis deux, puis trois, quatre, cinq, tous ayant un chapeau blanc, et l'indication du Docteur No est : au moins l'un de vous a un chapeau blanc. Chaque mathématicien supplémentaire apporte un niveau de profondeur supplémentaire dans le raisonnement, au sens où chacun raisonnera sur les raisonnements de tous les autres.)

Bref, que va-t-il se passer ? Réponse :

Le « paradoxe » avec ce problème, c'est que le Docteur No donne comme indication quelque chose qui est manifestement visible de tous les mathématiciens (tous voient bien qu'il y a un chapeau de chaque couleur, et même, puisqu'il y a trois chapeaux blancs, tous voient bien que tous le voient bien, donc tout le monde savait déjà que l'indication du Docteur No était correcte : elle n'apporte en elle-même aucune information nouvelle à qui que ce soit), mais elle est pourtant indispensable à une quelconque déduction (sans l'indication, aucun mathématicien ne peut jamais déduire quoi que ce soit). L'explication, c'est que si tous les mathématiciens savent que l'information donnée par le Docteur No était correcte, le fait qu'il la prononce apporte une information nouvelle, c'est que maintenant non seulement tout le monde le sait, mais tout le monde sait que tout le monde le sait, et tout le monde sait ça, et ainsi de suite. C'est ce qui rend la déduction possible.

En fait, si on veut faire une analyse vraiment rigoureuse du problème, le cadre est assez complexe : a priori, il s'agit de calcul propositionnel modal, avec 16 modalités correspondant à le mathématicien nº1 sait que jusqu'à le mathématicien nº16 sait que (heureusement vérifiant le système standard S5 de la logique modale). Et les modèles d'une telle chose sont, en vérité, assez compliqués. Par exemple, si on veut décrire l'ensemble de toutes les configurations possibles, ce n'est pas très aisé : rien qu'avec un mathématicien, il y a douze « états » possibles (le mathématicien a un chapeau blanc et ne sait rien sur la couleur de celui-ci, il a un chapeau blanc et il sait qu'il n'est pas rouge, il a un chapeau blanc et il sait qu'il n'est pas noir, il a un chapeau blanc et il sait qu'il est blanc, et de façon analogue pour chacune des deux autres couleurs) ; pour deux mathématiciens, il faut tenir compte non seulement de la couleur du chapeau de chacun, et de ce qu'il en sait, mais aussi de ce que l'autre sait qu'il en sait, et ainsi de suite jusqu'à un niveau arbitrairement élevé, ce qui fait une infinité de possibilités — il y a certainement des façons intelligentes de définir des états « utiles » en nombre fini, mais je n'ai pas les idées complètement claires.

On peut aussi penser au problème sous un angle vaguement algorithmique, si un mathématicien voit p autres mathématiciens ayant un chapeau blanc, q avec un chapeau rouge, et r avec un chapeau noir, en fonction de ce qui a été annoncé aux tours précédents, que doit-il mettre dans son enveloppe ? Ce qui est assez étonnant, c'est que si les mathématiciens avaient l'occasion de se concerter entre eux (avant de recevoir les chapeaux, évidemment, mais après avoir reçu l'indication il y a au moins un chapeau de chaque couleur, ou pour être exactement identique à ce que j'ai écrit, il y a au moins deux chapeaux de chaque couleur), leur stratégie serait de toute façon la même : cette concertation ne sert à rien. (Elle est utile, en revanche, s'ils ne reçoivent aucune indication : dans ce cas, ils peuvent décider de prendre le risque de mourir si le Docteur No a cité une couleur pour laquelle il n'a placé aucun chapeau.)

[#] Sans doute dans une des colonnes mathématiques de l'âge d'or de Scientific American : Mathematical Games de Martin Gardner, Metamagical Themas de Douglas Hofstadter ou bien Mathematical Recreations d'Ian Stewart.

(samedi)

Comment vulgariser la géométrie riemannienne ?

La laborieusement interminable écriture de mon texte de vulgarisation sur les octonions m'a amené, de fil en aiguille (géométrie octonionique → espaces projectifs sur les réels, complexes, quaternions et octonions → géométrie riemannienne réelle de ceux-ci) à lire ou relire des choses sur la géométrie riemannienne. Pour ceux qui n'ont aucune idée de ce dont je parle, disons qu'en zéroième approximation[#], il s'agit de la géométrie des espaces courbes (le mot courbe méritant lui-même d'être expliqué, puisqu'il s'agit de courbure intrinsèque) ; et il s'agit[#2] de l'ingrédient mathématique essentiel de la relativité générale, qui explique la gravitation comme une courbure de l'espace-temps[#3].

La géométrie riemannienne est aussi quelque chose qu'on a vraiment envie de vulgariser : parce qu'elle donne l'impression, peut-être trompeuse, qu'il est possible d'en expliquer les idées fondamentales « avec les mains », tant il s'agit d'idées géométriques souvent visuellement « concrètes » ; et aussi parce que la vulgariser aiderait à mieux la comprendre et, accessoirement, à comprendre la relativité générale[#4].

La première difficulté qui surgit, c'est sans doute d'expliquer de quoi il est question : la géométrie riemannienne s'intéresse à la courbure intrinsèque ; or si on propose au profane de visualiser un espace courbe, il va fatalement le visualiser comme une courbe ou une surface à l'intérieur d'un espace euclidien (i.e., plat) de dimension 3, cette tendance étant certainement accentuée par le fait que l'exemple le plus évident soit celui d'une sphère, qu'on imaginera volontiers plongée en dimension 3. Et de même, si on explique que la relativité générale présente l'espace-temps comme courbe, la première image qui vient à l'esprit de tout un chacun est de se dire qu'il doit y avoir un espace plus gros (i.e., ayant des dimensions en plus) à l'intérieur duquel il réside. Or, s'il est vrai qu'on peut toujours plonger une variété riemannienne dans un espace plat de dimension assez grosse (ajouter une seule dimension ne suffit pas toujours), ce n'est une opération ni naturelle, ni très intéressante, et ce serait un mauvais départ que de se servir de cet artifice.

(samedi)

Amplificateurs de probabilités

Dans la série David fait joujou avec les probas et les maths élémentaires, je me suis fait les réflexions à 15 microzorkmids suivantes :

Voilà un scénario typique : on considère un jeu sportif entre deux joueurs qui se joue, disons, par manches indépendantes les unes des autres (chacune étant gagnée par un des deux joueurs), et on souhaite définir une manière de combiner les manches en un match, c'est-à-dire définir une règle qui détermine en fonction des manches déjà jouées si on en joue une nouvelle ou si on déclare un gagnant et dans ce cas lequel. Des exemples de telles règles pourraient être : le gagnant est le premier joueur qui a emporté deux manches (« deux sets gagnants »), ou trois manches (« trois sets gagnants »), ou encore, le gagnant est celui qui a emporté deux manches de plus que son adversaire (le risque étant alors que la partie dure longtemps). On peut aussi imaginer empiler deux niveaux de telles règles, par exemple avoir un jeu qui se joue sous forme de jeux indépendants, une première règle définissant quel joueur emporte une manche en fonction des jeux qu'il a gagnés, et une seconde définissant quel joueur emporte le match en fonction des manches. Voire trois niveaux (points, jeux, manches, match) ou plus.

Faisons l'hypothèse suivante : le joueur 1 remporte une manche quelconque avec probabilité p, le joueur 2 l'emportant donc avec probabilité 1−p, et chaque manche est indépendante des autres. La probabilité que le joueur 1 emporte le match est une fonction f(p) qui dépend de la règle appliquée. La moindre des choses qu'on souhaite, c'est que la règle soit équitable a priori, favorise le meilleur joueur a posteriori, et d'autant plus qu'il est bon, i.e., f(1−p)=1−f(p) et f strictement croissante (ce qui implique notamment f(p)>½ si p>½), mais même f(p)>p pour ½<p<1. C'est ça que je vais appeler un amplificateur de probabilités.

La règle « deux sets gagnants » est sans doute la plus simple (à part celle qui consiste à dire qu'on ne fait qu'une seule manche) : il revient évidemment au même de faire toujours exactement trois manches et de prendre pour gagnant celui qui en a gagné le plus (c'est-à-dire, au moins deux), étant entendu qu'il n'a pas d'incidence mathématique qu'on décide de ne pas jouer la troisième manche lorsqu'elle ne peut pas influencer l'issue du match. La probabilité que le joueur 1 emporte le match est égale à la somme de la probabilité qu'il emporte les trois manches, soit p³, et de la probabilité qu'il emporte deux des manches et perde la troisième, qui peut être n'importe laquelle des trois, soit 3·p²·(1−p) ; ce qui fait, au total, f(p) = 3·p² − 2·p³.

(dimanche)

Matrice de report des voix : mes résultats

Je conclus (enfin, j'espère !, parce que je commence à en avoir un peu marre) la série des trois derniers posts (1, 2 et 3) avec les résultats promis.

D'abord, en petits caractères, voici de façon très détaillée la méthodologie que j'ai suivie.

Premièrement, le jeu de données. S'agissant de 2012, elles sont ici pour le 1er tour et pour le 2d ; s'agissant de 2007, elles sont ici pour le 1er tour et pour le 2d. Pour bien s'entendre, il y a 36791 lignes de données pour 2012, et 36698 pour 2007.

J'ai d'abord retiré tous les départements et autres collectivités d'outre-mer (mais gardé la Corse), au motif que les reports s'y effectuent sans doute de façon différente de la métropole, et aussi parce que certaines ne sont pas détaillées dans le fichier pour 2007. Ensuite, comme je voulais un fichier unifié entre 2007 et 2012, j'ai fusionné toutes les données selon les codes de département et de commune, en ne gardant que les clés qui étaient présentes à la fois en 2007 et 2012 : ceci implique que pour les communes qui ont fusionné entre les deux (par exemple 21084 Blessey et 21551 Saint-Germain-Source-Seine ont fusionné pour former 21084 Source-Seine), je n'ai gardé que la commune ayant le numéro donné à la commune fusionnée, et inversement en cas de scission (par exemple, je supprime des données de 2012 la commune de 52033 Avrecourt qui faisait en 2007 partie de 52332 Val-de-Meuse). Je supprime encore les 15 communes (05014 Barret-sur-Méouge, 05181 Villar-d'Arêne, 10298 Pont-sur-Seine, 14726 Vassy, 31019 Artigue, 31081 Bourg-d'Oueil, 39364 Montrond, 43122 Lissac, 50049 Besneville, 50105 Catteville, 50614 Le Valdécie, 63181 Joserand, 79076 La Chapelle-Saint-Laurent, 80197 Cizancourt et 86241 Saint-Rémy-sur-Creuse) dont la totalité des votes a été annulée par le Conseil constitutionnel sur l'un des quatre tours d'élection considérés. Au final, il reste 36538 lignes de données.

S'agissant des colonnes de données, je conserve, pour chaque élection : le nombre d'abstentions, le nombre de blancs+nuls, et le nombre de votes pour chaque candidat, le total étant toujours égal au nombre d'inscrits. Qui peut, en revanche, changer, même entre les deux tours d'une même élection, oui : mon fichier totalise 42057423 inscrits (sur 44472834 en vérité, c'est-à-dire surtout avec l'outre-mer) au premier tour en 2007, 42057755 au second tour (sur 44472733), et en 2012 : 43250761 inscrits (sur 46028542) au premier tour et 43253197 (sur 46066307) au second.

J'attribue à chaque commune et indépendamment pour chacune des deux élections, une répartition gauche-droite grossière, sur la base des suffrages exprimés au 1er tour, en sommant les voix des candidats que j'ai classés, de façon ad hoc, comme étant « de gauche » d'un côté, « de droite » de l'autre, les centristes comptant pour moitié de chaque côté. J'ai classé de cette manière : en 2007, Besancenot, Buffet, Schivardi, Bové, Voynet, Royal et Laguiller à gauche, Bayrou et Nihous au centre, de Villiers, Le Pen et Sarkozy à droite ; en 2012, Joly, Mélenchon, Poutou, Arthaud et Hollande à gauche, Cheminade et Bayrou au centre, Le Pen, Sarkozy et Dupont-Aignan à droite. Par exemple, ce score répartit Paris en 2007 à 48.8% à gauche (et donc 51.2% à droite) et en 2012 à 55.8% à gauche (et donc 44.2% à droite). Ce score ne sera pas utilisé directement mais simplement pour analyser plus finement les populations d'abstentionnistes et d'électeurs de Le Pen (l'idée étant que les électeurs de Le Pen ne sont pas vraiment les mêmes à Calais et à Cannes et n'ont pas le même comportement au second tour).

Je divise fictivement les populations d'abstentionnistes et de votants pour Le Pen au premier tour en deux dans les proportions données par la répartition gauche-droite grossière évoquée ci-dessus (par exemple, comme j'ai dit qu'à Paris en 2012 la répartition est de 55.8% à gauche et 44.2% à droite, je ferai deux sous-populations des abstentionnistes du premier tour avec 55.8% d'un côté et 44.2% de l'autre, et pareil pour les électeurs de Le Pen du premier tour). J'appellerai ces sous-populations des abstentionnistes de gauche et abstentionnistes de droite et de même électeurs de Le Pen gauche et électeurs de Le Pen droite, ce qui ne signifie pas que je préjuge des choses à leur sujet, encore moins leur vote, il s'agit juste de refléter l'environnement général où ils se trouvent pour modéliser la façon dont ils se comporteront au second tour.

J'ai donc divisé les électeurs du premier tour en N populations : il y a 16 populations en 2007 (une pour chacun des 12 candidats, sauf Le Pen qui en a récupéré deux, plus encore deux pour les abstentionnistes et une pour les blancs-ou-nuls), et 14 populations en 2012. Pour le second tour, je n'ai que 4 populations : les abstentionnistes, les votes blancs-ou-nuls, et les deux candidats. Pour éviter de s'ennuyer avec la variation du nombre d'inscrits, je multiplie les populations du second tour par le rapport d'inscrits pour faire comme si le nombre d'inscrits du second tour était égal à celui du premier tour : ce sera ça ma cible. (On aurait aussi pu imaginer créer une nouvelle population, les absents-au-premier-tour, mais je ne pense pas qu'ils soient suffisamment nombreux ou homogènes pour être modélisables de façon sensée.)

Maintenant, je vais chercher à trouver la matrice de report entre les N populations du premier tour et les 4 populations du second tour (ramenées proportionnellement au nombre d'inscrits du premier tour). Je cherche donc une matrice 4×N de nombres réels entre 0 et 1 (les N colonnes représentant la répartition des votes au second tour, en proportion, de chacune des populations du premier tour). Les contraintes exigées de cette matrice sont :

  • toutes les entrées sont comprises entre 0 et 1,
  • la somme de chaque colonne vaut 1 (i.e., la matrice est stochastique à gauche),
  • la matrice appliquée au vecteur total de chacune des N populations de premier tour pour toute la France doit donner le vecteur total des 4 populations de second tour (par exemple, pour 2012, la matrice appliquée au vecteur [abstention-gauche:3930068 abstention-droite:4126717 blancs-ou-nuls:648166 Joly:786363 Le-Pen-gauche:2923896 Le-Pen-droite:3397710 Sarkozy:9340798 Mélenchon:3899288 Poutou:399753 Arthaud:194859 Cheminade:84939 Bayrou:3173183 Dupont-Aignan:627892 Hollande:9717129] doit donner [abstention:7804808 blancs-ou-nuls:2076910 Hollande:17125029 Sarkozy:16244014]), ces deux vecteurs étant évidemment de même total à savoir le nombre d'inscrits du premier tour.

Les deux derniers points déterminent N+3 conditions linéaires indépendantes (une pour chaque colonne et une pour chaque ligne, sachant qu'une quelconque de ces conditions peut être éliminée comme découlant de toutes les autres).

Je cherche maintenant la matrice, vérifiant ces contraintes, qui parmi les matrices vérifiant ces contraintes réalise la plus petite somme des erreurs quadratiques sur toutes les communes (enfin, parmi les 36538 communes de mon tableau) : les erreurs étant la différence, en nombre total de voix, entre l'application de la matrice au vecteur donnant les populations de premier tour, et le vecteur de second tour (ramené au nombre d'inscrits du premier tour) — on somme donc les carrés des erreurs sur chacune des quatre composantes du vecteur et sur chacune des 36538 communes. Ce calcul est un problème de programmation quadratique en 4N variables, que j'ai résolu avec la fonction qp de GNU Octave.

On peut éventuellement ajouter une contrainte demandant que le report d'un candidat du premier tour qui est admis au second tour soit parfait sur ce candidat lui-même : je n'ai pas eu à ajouter cette contrainte pour 2012 (la solution trouvée vérifiait déjà cette contrainte) ; pour 2007, la solution vérifiait cette contrainte sur Nicolas Sarkozy, et seulement approximativement sur Ségolène Royal (la matrice trouvée reportait 3% des voix de Ségolène Royal du premier tour sur l'abstention au second tour, et seulement à 97% sur elle-même) : ajouter de force la contrainte ne changeait que de quelques pour cent les reports sur les autres candidats, une précision à laquelle je ne prétends de toute façon pas, donc je l'ai introduite pour plus de propreté.

Évidemment, pour indiquer les résultats finaux, il faut réagréger les populations qui ont été artificiellement séparées, c'est-à-dire les « abstentionnistes-de-gauche » et les « abstentionnistes-de-droite », et de même « Le Pen-gauche » et « Le Pen-droite ».

Par contre, je n'ai finalement pas agrégé ensemble dans les calculs les candidats trop semblables (Arthaud et Poutou, ou bien Cheminade avec les blancs-et-nuls), au motif que de toute façon les résultats calculés pour eux sont probablement dénués de sens de toute façon mais que les garder séparés dans les calculs permet peut-être d'obtenir de meilleurs résultats sur les autres candidats (après tout, tout prédicteur en entrée est bon à prendre, je suppose). J'agrège ces résultats uniquement dans le résultat que j'indique :

Pour 2012 :

1er tour→
↓2d tour
Abstentions Blancs+nuls + Cheminade Joly Le Pen Sarkozy Mélenchon Poutou + Arthaud Bayrou Dupont-Aignan Hollande
Abstentions 79% 0% 0% 23% 0% 0% 0% 0% 0% 0%
Blancs+nuls 0% 46% 0% 15% 0% 0% 40% 9% 44% 0%
Hollande 6% 43% 74% 6% 0% 98% 60% 42% 25% 100%
Sarkozy 15% 10% 26% 56% 100% 2% 0% 49% 31% 0%

Pour 2007 :

1er tour→
↓2d tour
Abstentions Blancs+nuls Besancenot + Schivardi + Laguiller Buffet Bayrou Bové + Voynet De Villiers Royal Nihous Le Pen Sarkozy
Abstentions 82% 0% 0% 0% 17% 0% 0% 0% 0% 0% 0%
Blancs+nuls 0% 75% 1% 0% 11% 1% 0% 0% 14% 9% 0%
Sarkozy 13% 0% 5% 0% 31% 0% 100% 0% 86% 85% 100%
Royal 5% 25% 94% 100% 41% 99% 0% 100% 0% 6% 0%

Évidemment, ces tableaux sont à prendre avec énormément de pincettes ! Pour avoir une idée de l'imprécision, on peut comparer le tableau pour 2007 ci-dessus avec celui donné dans une entrée précédente (où les principales différences étaient que (a) je n'avais pas scindé les abstentions et Le Pen, (b) je n'avais pas imposé les contraintes linéaires sur les lignes de la matrice, et (c) je n'avais pas exclu l'outre-mer) : je pense que mon nouveau tableau est un poil meilleur, mais il ne l'est sans doute pas énormément, donc il faut prendre l'énorme différence dans les scores de reports de Frédéric Nihous comme signifiant simplement on n'en sait rien (même si le nouveau tableau suggère quand même plutôt que son électorat était de droite). Évidemment il est invraisemblable que l'électorat de Bové et Voynet se soit reporté à 99% sur Ségolène Royal en 2007, ou celui de Mélenchon à 98% sur Hollande en 2012, ou autres colonnes de ce genre, donc ces reports doivent simplement être considérés comme signifiant que l'algorithme a correctement classifié ces candidats comme étant de gauche, ou a contrario De Villiers comme étant de droite (on pourra m'objecter que ma méthodologie supposait de toute façon de classifier a priori les candidats grossièrement à gauche ou à droite, mais en fait les scores dont je parle sont relativement robustes à cette classification).

(mercredi)

Encore des considérations sur les statistiques électorales

Pour ceux qui auraient la flemme de lire les deux entrées précédentes (ici et ), la question qui m'intéresse est la suivante : peut-on, à partir des données électorales détaillées des deux tours d'une élection présidentielle, estimer statistiquement la matrice de report des voix d'un tour sur l'autre, c'est-à-dire, la proportion de chacun des types d'électeurs du premier tour (électeurs de chacun des candidats + nuls + abstentionnistes) qui a eu tel ou tel vote au second tour (l'un des deux candidats, ou le nul, ou l'abstention) ? Je voudrais faire cette analyse pour les élections présidentielle de 2007 et de 2012[#].

Des commentaires éclairants sur les deux dernières entrées font que j'y vois plus clair : d'abord concernant la terminologie, on parle d'inférence écologique parce qu'il s'agit de reconstituer des comportements individuels à partir d'agrégats (on sait simplement le nombre total de votes de chaque type au premier et au second tour dans chacune des ∼37000 communes de France). Ce type d'inférence est hasardeux en général, et l'idée naïve d'appliquer une simple régression linéaire peut donner des résultats aberrants ou faux quoique apparemment plausibles. Un exemple célèbre du paradoxe écologique est celui souligné en 1950 par W. Robinson, qui observe qu'en faisant une régression entre (état par état) le nombre de personnes nées à l'étranger et le nombre de personnes sachant lire et écrire sur les données du recensement de 1930 aux États-Unis, il observe une corrélation positive, i.e., plus un état compte de personnes nées à l'étranger, plus il compte de personnes sachant lire et écrire : peut-on en conclure que les personnes nées à l'étranger savent plus lire et écrire (dans la population des États-Unis de 1930) ? non, l'explication est simplement que les personnes nées à l'étranger et ayant immigré aux États-Unis ont eu tendance à s'installer dans des états où la population (native) savait plus lire et écrire, par exemple parce que ces états étaient plus riches. Ce texte résume un peu le problème ainsi que différents éléments de réponse.

Les deux problèmes que je répertoriais dans l'entrée précédente sont : primo, que le nombre de coefficients que je cherche à estimer est important et que les données ne sont pas assez nombreuses, ou surtout pas assez dispersées pour permettre une estimation raisonnable (un commentateur me signale que la taille de l'échantillon pour avoir des coefficients peu bruités croît exponentiellement avec le nombre de coefficients à déterminer) ; secundo, qu'on a des effets que j'appelle non-linéaires et qui sont en vérité la même chose que le paradoxe écologique décrit ci-dessus : les abstentionnistes du premier tour, pour ceux qui se mobilisent au second tour, par exemple, n'ont pas le même profil dans les communes qui votent globalement à gauche que dans celles qui votent globalement à droite (si on y réfléchit, il s'agit du même phénomène que dans l'exemple de Robinson mentionné ci-dessus : une hétérogénéité des populations concernées).

Différentes méthodes ont été proposées pour essayer de faire quand même cette fameuse inférence écologique. La méthode consistant à faire une simple régression linéaire a été analysée par L. Goodman dans les années '50, qui montre (si je comprends bien, parce que je n'ai pas pu avoir accès aux articles) qu'elle fonctionne bien sous des hypothèses qui, dans mon cas, doivent dire grosso modo que la répartition des reports de chaque type d'électeurs du premier tour n'est pas corrélé à la configuration des votes dans la commune (comme je le signale ci-dessus, c'est sans doute assez faux, par exemple dans le cas de l'abstention ou dans une moindre mesure du vote pour Le Pen ; ça me semble plus plausible pour le vote Bayrou). Divers statisticiens ont eu, comme moi, l'idée de borner les coefficients et de faire une régression linéaire contrainte (je n'ai regardé que très sommairement, mais ce papier et celui-là ont l'air de faire des choses de ce genre : le second, d'ailleurs, semble extrêmement proche de ce que j'ai fait).

Des méthodes plus sophistiquées existent : on me signale que Gary King en a écrit tout un livre, où il propose une « solution » au problème ; comme je n'ai pas accès à ce livre, je dois me contenter d'en lire des recensions et commentaires, et des résumés de la méthode de King, et je note que cette dernière ne fait pas l'unanimité. Voir par exemple ce texte, écrit par un critique. Le principal problème que j'ai, moi, est d'ordre pratique : l'implémentation de la méthode pour [le programme de statistiques] R, écrite par King lui-même, est limitée à des matrices 2×2 (or celle qui m'intéresse est 4×14 pour 2007 et 4×12 pour 2012) ; de même, ce package, qui implémente une autre méthode « sophistiquée » d'inférence écologique, est limité de la même façon ; et toutes ces méthodes sont algorithmiquement bien trop pénibles pour être implémentées de novo en un temps raisonnable. Donc il faut bien que je me contente de quelque chose de plus simple.

D'un autre côté, je pense qu'il est raisonnable, pour le problème considéré, de se contenter de quelque chose de plus simple : notamment parce que les populations des différents votes au premier tour sont relativement homogènes quand il s'agit de prévoir le vote au second tour (contrairement aux exemples classiques de « paradoxe écologique » où on relie des variables très différentes et mal corrélées). Un exemple extrême est évidemment la population d'électeurs au premier tour d'un des candidats qui passent au second tour : il est évident qu'une énorme majorité d'entre eux votent encore pour le même candidat au second tour — ici, la prédiction est presque parfaite.

Je défends donc finalement mon idée de rester sur une régression linéaire, avec trois principales idées que j'ai déjà exposées pour améliorer la qualité des chiffres :

  1. Contraindre les coefficients de la régression à être entre 0 et 1 et de somme 1 pour chaque colonne. (Comme je l'ai signalé, je ne suis pas le premier à faire ça.) Autrement dit, j'effectue une régression linéaire contrainte (je minimiser la somme des erreurs quadratiques parmi les matrices vérifiant les contraintes ci-dessus). L'idée sous-jacente est que certains coefficients sont connus trop grossièrement, leur valeur calculée naïvement peut être délirante, cette contrainte assure qu'ils seront tronqués à quelque chose de raisonnable (ce qui, du coup, assure de répercuter une erreur déraisonnable sur d'autres coefficients).
  2. Regrouper les candidats du premier tour trop petits et ayant un profil sociologique proche (ça ne sert à rien d'essayer de déterminer séparément les reports du vote pour Poutou et du vote pour Arthaud, ou du vote pour Cheminade et du vote blanc/nul).
  3. À l'inverse, scinder les populations du premier tour qui risquent d'être sociologiquement trop inhomogènes (abstentionnistes et vote Le Pen) en sous-populations artificielles dans les mêmes proportions qu'une proportion gauche-droite approximative sur la commune. Ceci permet (au prix de nouveaux coefficients à déterminer !) d'introduire un effet non-linéaire relativement raisonnable et donc de diminuer l'effet d'inhomogénéité de ces populations (et le « paradoxe écologique » qui va avec).

Je donnerai les chiffres que j'obtiens dans la prochaine entrée (qui sera, j'espère, la dernière sur ce sujet !), parce que je suis fatigué d'avoir écrit tout ça. Mais disons qu'ils sont assez plausibles (évidemment, il faut imaginer qu'ils ne sont que des ordres de grandeur !) et qu'ils prédisent, par exemple, que les électeurs de François Bayrou du premier tour se sont plus reportés sur Sarkozy que sur Hollande en 2012, alors qu'en 2007 ils s'étaient plus reportés sur Royal que sur Sarkozy — or ceci est conforme aux sondages directs sur la question ainsi qu'aux analyses des politologues.

[#] J'ai fini par obtenir les données du second tour de 2012, qui étaient effectivement sur RegardsCitoyens.org comme on me l'avait soufflé, mais bien cachées et pas à l'endroit où on les attendait. Elles sont par ailleurs un peu incomplètes puisqu'il y manque la Corse, mais peu importe.

(lundi)

De la difficulté de faire une régression linéaire contrainte en politique

Dans l'entrée précédente, j'ai suggéré l'idée de faire une régression linéaire multivariée entre les deux tours des résultats de l'élection présidentielle, c'est-à-dire, essayer de calculer quelle combinaison linéaire des résultats du premier tour de la présidentielle (considérés comme un vecteur de N+2 nombres, à savoir le nombre de voix pour chacun des N candidats + bulletins blancs/nuls + abstentions) approche le mieux, sur l'ensemble des communes de France, les résultats du second tour (considérés comme un vecteur de 4 nombres, pour 2 candidats + blancs/nuls + abstentions). J'espérais[#] — un peu naïvement comme on va le voir — que ce calcul permettrait de connaître la matrice de reports des voix, c'est-à-dire, la proportion, dans chacun des N+2 votes possibles au premier tour, des 4 votes possibles au second tour : par exemple savoir que les électeurs de François Bayrou au premier tour se seraient reportés à 30% sur l'abstention, à 5% sur le vote blanc, à 35% sur Nicolas Sarkozy et à 30% sur François Hollande (chiffres imaginaires mais pas aberrants).

Les résultats du second tour n'étant pas encore disponibles sur www.data.gouv.fr au moment où j'écris, je me suis dit que j'allais m'exercer sur les résultats de 2007 (pour calculer les reports entre les deux tours de celle-ci soit, de façon plus osée, entre 2007 et 2012). Je passe sur les différentes petites crottes de ragondin rencontrées en chemin pour préformater les données sous une forme sympathique (par exemple les communes qui ont eu la fort sotte idée de fusionner ou de se séparer ; je passe aussi sur le fait qu'il n'y a pas de version détaillée des résultats de Paris, parce que Paris a le malheur d'être une unique commune). Disons que j'ai un gros tableau de données raisonnables, d'où j'ai retiré tout ce qui me chagrine.

Il n'est alors pas difficile de faire les régressions linéaires, avec un programme comme R[#2]. C'est-à-dire trouver les (2+2)×(12+2)=56 coefficients tels que, pour chaque vote possible au second tour, le nombre de ces votes soit au mieux prédit par la combinaison, affectée par les coefficients correspondants, des 14 votes possibles au premier tour (il y avait 12 candidats en 2007, ce qui fait 14 avec blancs et abstention). Il est assez facile de se convaincre, dans la mesure où le nombre d'inscrits ne change pas entre les deux tours (ce qui est quasiment vrai — pas rigoureusement, et ça fait partie des petites crottes de ragondin — mais suffisamment pour qu'on puisse faire comme si), que la somme des coefficients sur une colonne de cette matrice (c'est-à-dire pour chaque vote possible de premier tour) vaut 1. Maintenant, j'espérais que quelque chose ferait que ces coefficients seraient aussi tous positifs, et auraient l'interprétation naïve que j'ai décrite ci-dessus comme matrice de transfert des voix. Or ce n'est pas le cas, et voici la matrice des coefficients :

1er tour→
↓2d tour
Abstentions Blancs/nuls Besancenot Buffet Schivardi Bayrou Bové Voynet De Villiers Royal Nihous Le Pen Laguiller Sarkozy
Abstentions 0.8519 −0.4145 0.1060 0.0578 −0.2845 0.1705 0.5994 −0.5476 0.0281 0.0002 −0.5410 −0.0405 0.3789 0.0047
Blancs/nuls 0.0035 0.4859 0.1085 0.0113 0.5714 0.0867 −0.1229 0.0775 0.0596 −0.0019 0.2442 0.0119 0.2184 0.0153
Sarkozy 0.0910 0.5596 −0.0944 −0.0309 0.8717 0.3499 0.0586 0.9280 0.9056 −0.1129 0.7721 0.9979 −1.2629 1.0427
Royal 0.0532 0.3785 0.8656 0.9573 −0.1743 0.3938 0.5116 0.5719 0.0021 1.1131 0.5122 0.0283 1.6956 −0.0627

Le fit linéaire est excellent : même si je ne sais pas lire exactement les données de marges d'erreur que R me sort, je sais lire qu'elles sont très faibles (par exemple s'il me dit que 99.99% de la variance est expliquée par ce modèle linéaire, ou que dans 50% des communes l'écart est inférieur à 6 voix) ; bref, ces coefficients ont un sens. Mais pas exactement celui que je veux !

Il est relativement concevable que 85% des abstentionnistes du premier tour en 2007 l'aient encore été au second, tandis que 9% seraient allés voter Sarkozy et 5% Royal ; ou que les électeurs de Bayrou se soient reportés à 17% sur l'abstention, à 9% sur le vote blanc, à 35% sur Sarkozy et à 39% sur Royal : j'y crois assez ; ou encore que, comme le tableau le suggère, ceux de Villiers aient voté à 91% pour Sarkozy au second tour tandis que 3% se seraient abstenus et 6% auraient voté blanc. Mais il est impossible que 93% des électeurs de Voynet aient voté Sarkozy au second tour, 57% pour Royal, et un pourcentage négatif, −55%, se soient abstenus.

C'est assez perturbant : ce tableau montre des chiffres relativement sensés, dans un monde où un vote négatif serait possible. ☺

Bon, ben si les chiffres ne veulent pas d'eux-mêmes être raisonnables, il n'y a qu'à les forcer à l'être : je peux demander à chercher, après tout, quelle est la matrice à coefficients positifs, où chaque colonne a pour somme 1, et qui réalise la meilleure approximation linéaire parmi celles vérifiant ces contraintes : on parle de régression linéaire avec contraintes. Il s'agit là d'un problème d'optimisation quadratique (avec contraintes linéaires, et terme quadratique positif défini) : quelque chose qu'on sait très bien faire. En principe, R a ce qu'il faut pour y arriver : mais nouvelle petite crotte de ragondin, ce package ne marche pas chez moi, il prétend que mes contraintes (=la positivité des variables) sont impossibles à satisfaire, je ne sais pas ce qu'il a fumé. À la place, j'ai dû passer par Octave, qui est encore plus pénible à manipuler et que je connais encore moins, mais enfin qui sait faire le boulot (quand on réussit à exporter les matrices du problème de R vers Octave, ce qui n'est pas la chose la plus agréable qui soit).

Voilà ce que ça donne :

1er tour→
↓2d tour
Abstentions Blancs/nuls Besancenot Buffet Schivardi Bayrou Bové Voynet De Villiers Royal Nihous Le Pen Laguiller Sarkozy
Abstentions 0.8424 0.0000 0.0000 0.0000 0.0000 0.1679 0.0275 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Blancs/nuls 0.0424 0.2600 0.0000 0.0000 1.0000 0.1093 0.0000 0.0000 0.0026 0.0000 0.5503 0.0004 0.0000 0.0000
Sarkozy 0.0495 0.0900 0.0000 0.0000 0.0000 0.3283 0.0000 0.0000 0.9974 0.0000 0.1999 0.9996 0.0000 1.0000
Royal 0.0657 0.6500 1.0000 1.0000 0.0000 0.3945 0.9725 1.0000 0.0000 1.0000 0.2498 0.0000 1.0000 0.0000

De nouveau, il est relativement raisonnable de penser que les électeurs de François Bayrou au premier tour en 2007 se seraient divisés au second tour entre l'abstention à 17%, le vote blanc à 11%, Sarkozy à 33% et Royal à 39% (les chiffres diffèrent très peu du tableau précédent, et sont toujours crédibles). À la limite, il n'est pas totalement délirant d'imaginer que, avec la précision des mesures, près de 100% des électeurs de Marie-George Buffet, ou même d'Olivier Besancenot, se soient reportés sur Ségolène Royal au second tour, comme d'ailleurs les électeurs du premier tour de Ségolène Royal elle-même. Mais alors croire que les électeurs de Gérard Schivardi au premier tour auraient tous voté blanc au second (sans s'abstenir, mais vraiment voté blanc), ou croire que ceux qui ont voté blanc au premier tour auraient été 65% à voter pour Royal au second, ce n'est, comme qui dirait, pas très crédible. Je suis aussi amusé du 99.96% de report calculé de Le Pen sur Sarkozy (les 0.04% restants ayant censément voté blanc, c'est très précis) !

Voici donc la question à 100¤ : ces chiffres ont-ils une quelconque signification en rapport avec la réalité, ou un quelconque intérêt pour l'analyse politique ? À défaut, y a-t-il un autre traitement statistique que je puisse mener pour en obtenir de meilleurs ? Et en tout état de cause, quand (et si) le ministère de l'intérieur se sortira les doigts du c** pour fournir les chiffres complets du second tour de 2012 en Open Data, sera-t-il intéressant de mener la même analyse ou doit-on considérer que c'est du temps perdu ?

[#] Pourquoi espérer ça ? Parce que si les reports de voix du premier vers le second tour se font à peu près de la même façon partout, et notamment, indépendamment de ce pour quoi votent les autres électeurs de la commune, ce qui a priori ne semblait pas une hypothèse délirante, alors on devrait bien retomber dessus en faisant une régression linéaire.

[#2] Programme au nom incroyablement stupide quand on pense à la difficulté que cela cause de chercher dans Google des informations sur un truc à une lettre.

(vendredi)

Le jugement de paris : comment établir une cote ?

Une obscure province des États-Unis d'Europe va bientôt tenir l'élection de son gouverneur. Les deux candidats encore en course s'appellent M. Sarlande et M. Holkozy. Toutes sortes d'instruments sont utilisés pour mesurer l'état de l'opinion de l'électorat avant cette échéance (sondages, pronostics de politologues et autres boules de cristal), mais au final on aimerait avoir des résultats lisibles sous la forme M. Sarlande a x% de chances d'être élu gouverneur, M. Holkozy a (100−x)% de chances. Déjà, il est un peu difficile de donner un sens à une telle affirmation : si je prétends que M. Sarlande a 85% de chances et M. Holkozy en a 15%, que l'un ou l'autre soit élu, on ne pourra pas me dire que j'avais tort (après tout, les deux nombres étaient strictement positifs) ; or l'expérience (=l'élection) n'a lieu qu'une fois, on ne va pas la répéter d'une manière qui permette de donner un sens statistique aux probabilités.

On pourrait cependant faire des statistiques pour savoir si je suis un fin analyste politique. Si, par exemple, à chaque fois qu'il y a une élection je fais un pronostic du style le candidat 1 a une probabilité q1 d'être élu, le candidat 2 en a q2, le candidat 3 en a q3, etc. (la somme ∑i(qi) des probas annoncées valant 1), si c'est le candidat numéro i qui est effectivement élu on m'attribue un score de fiabilité de valeur log(n)+log(qi) où n est le nombre total de candidats. (Pourquoi log(qi) ? Parce qu'il est facile de se convaincre que la stratégie optimale pour maximiser son succès dans ce contexte, si on connaît les « vraies » probabilités pi, consiste à annoncer effectivement qi=pi, auquel cas on a une espérance de gain de l'opposé de l'entropie de Shannon de la distribution, plus le terme ajouté log(n) (=l'entropie d'une distribution uniforme sur les candidats) qui est là pour assurer qu'on ne gagne ni ne perd rien en faisant la prévision triviale de donner la même proba qi=1/n à chaque candidat.) Par exemple, quand je prédis 85% de chances à M. Sarlande et 15% à M. Holkozy, il convient d'ajouter 0.77 logons à mon score de fiabilité si c'est le premier qui est élu et d'y retranche 1.74 logons si c'est le second qui est élu. Et si mes chiffres sont corrects, mon espérance de score est de 0.39 logons. (Le mot logon indiquant que j'ai pris des logs base 2.) Si on somme ce score fiabilité sur un grand nombre de prévisions, on peut comparer mes capacités d'analyse à celles d'autres analystes. Je me dis souvent qu'on devrait faire des concours de prévisions de ce genre entre analystes politiques.

Bon, maintenant, comme les gens aiment bien jouer aux jeux de hasard, inévitablement, on va vouloir transformer cette question d'évaluer les chances en un pari. La conversion est la suivante : dire que je considère que M. Sarlande a x% de chances d'être élu et que M. Holkozy en a (100−x)%, ça signifie que je suis prêt à accepter de payer x¤ pour un contrat qui me promet 100¤ si c'est M. Sarlande qui gagne, et dualement (100−x)¤ pour un contrat qui me promet 100¤ si c'est M. Holkozy qui l'emporte. Il y a donc moyen de mettre en place un marché de tels contrats, laisser faire l'axiome libéral de l'efficience des marchés, et voir ce qu'il en résulte. C'est ce que fait le site intrade.com (dont le fonctionnement est résumé ici), et sur lequel on peut notamment voir le cours de MM. Sarlande et Holkozy ici et (à moins que ce soit le contraire). Ces cours (le prix auquel s'échange un contrat je paie 10$ en cas d'élection de Untel) se lisent assez directement comme des probabilités, c'est assez agréable. Il serait intéressant de les évaluer sur un grand nombre d'élections selon le score de fiabilité que je propose plus haut. À vrai dire, je ne suis pas trop convaincu par l'efficience de ces marchés, qui ont des volumes assez petits dont les acteurs sont largement des Américains pas forcément bons analystes de la situation politique française (même si ceux qui parient, évidemment, doivent se renseigner). La logique voudrait que j'intervinsse moi-même dans le marché si je m'estime meilleur analyste (ou simplement pour acheter une assurance contre l'élection d'un candidat qui me déplairait), mais j'ai assez peu de confiance dans ce genre de site et dans mes chances de récupérer effectivement une grosse somme d'argent si je parie comme je le pense.

Un système apparenté mais différent est utilisé par les bookmakers anglais : il s'agit cette fois de cotations (on n'échange pas des contrats mais on place des paris à une certaine cote), et on peut voir ici une synthèse des cotes qu'ils attribuent (c'est un peu pénible à lire : le système traditionnel d'affichage de la cotation indique la fraction de la mise qu'on récupère en plus de celle-ci si on a raison sur la prévision — sachant que si on a tort on perd tout ; alors que le système décimal indique combien on récupère au total, mise comprise, si on a raison, comme un nombre décimal).

J'en viens à la question qui m'a pas mal tracassé : comment fait-on, au juste, pour établir une cote de paris ? (Autrement dit, je veux imaginer un système où chacun peut décider de placer un pari sur un des candidats, à une cote instantanée déterminée automatiquement en fonction des paris précédents, pari qui sera payé par une autorité centrale organisatrice, et pas un système de marché comme sur intrade.com ; notamment, une personne doit pouvoir parier même si elle est seule à le faire.)

Une première idée naïve pour un système de paris pourrait être ceci : tous ceux qui le veulent placent un pari de la somme qu'ils veulent sur un des deux candidats, toutes ces sommes sont mises en commun (mettons que u zorkmids aient été pariés sur Sarlande et v sur Holkozy), et lorsque le gagnant est connu, la somme totale u+v est redistribuée à ceux qui ont parié sur ce gagnant, proportionnellement à leur mise (donc par exemple si c'est Sarlande qui gagne, la mise de ceux qui ont parié sur lui est multipliée par (u+v)/u, autrement dit ils emportent v/u fois leur mise en plus de celle-ci). Ce système est extrêmement simple, mais souffre de défauts rédhibitoires : essentiellement, la cote est la même pour tous et n'est connue qu'à la clôture des paris et ne dépend pas du moment où on a parié — ce qui va conduire à des paris de dernière minute alors que le résultat de l'élection se précise, et pénaliser les parieurs de la première heure qui auraient une vision claire bien en avance. On peut imaginer un tel système où les paris seraient clos à une date butoir, ou renouvelés dans le temps, ou ce genre de choses, mais on ne résout pas vraiment le problème.

Ensuite, je me suis imaginé la chose suivante : lorsqu'on parie une somme sur l'un des deux candidats, la cote instantanée utilisée est donnée simplement par le rapport entre la somme totale qui a été pariée sur l'un et celle qui a été pariée sur l'autre. Plus exactement, le système serait le suivant : initialement, l'autorité centrale place 100¤ (disons) comme somme fictive pariée sur Sarlande et autant sur Holkozy ; puis, si à un instant donné u zorkmids ont été pariés sur le premier et v sur le second, et si je veux miser δ (une somme infinitésimale) sur Sarlande, je récupérerai δ·(u+v)/u (c'est-à-dire ma mise δ plus encore δ·v/u de bonus) si j'ai eu raison et 0 (=ma mise est perdue) si j'ai eu tort. On convient que les cotations sont modifiées instantanément : pour parier une somme non infinitésimale, il faut diviser celle-ci en mises infinitésimales et faire l'intégrale qui convient — je n'insiste pas là-dessus. L'ennui c'est qu'avec ce système, les pertes de l'autorité centrale ne sont pas bornées : si après la mise fictive initiale de 100¤ de chaque côté je suis seul à parier et que je mise A sur Sarlande, et si j'ai gagné, je récupère ma mise A plus un gain de 100¤·log(1+(A/100¤)) payé par la banque (comme on le vérifie en calculant l'intégrale 100¤ (A+100¤) ( u+100¤ u ) du — ici écrite en MathML — qui vaut A + 100¤ · log ( 1 + A100¤ ) ). La divergence est certes logarithmique, mais elle est là (sans regarder le détail de l'intégrale, on voit bien que la divergence doit être logarithmique parce que le gain varie comme l'inverse de u).

Voici comment on peut y remédier. Disons que la banque (=l'autorité qui mène les paris) veut limiter ses pertes à 100¤ dans le pire cas. Elle met donc initialement 100¤ dans deux comptes, le compte u somme pariée sur Sarlande et restant à distribuer et le compte v somme pariée sur Holkozy et restant à distribuer. Si je veux miser δ (une somme infinitésimale) sur Sarlande, ce δ est ajouté à u comme précédemment, et placé à la même cote que précédemment (je récupérerai δ·(u+v)/u en cas de victoire de Sarlande, c'est-à-dire ma mise plus δ·v/u), mais cette fois je déduis la somme δ·v/u du compte v, puisque c'est à partir de là que je paie les gains. Il est facile de se convaincre que dans ce système, le produit u·v (ou, si on veut, la moyenne géométrique entre les deux) reste constant ; la banque réalise un bénéfice net de v−100¤ si c'est Sarlande qui gagne, et u−100¤ si c'est Holkozy, ses pertes sont donc minorées dans le pire cas (le reste des gains éventuels venant des mises des autres joueurs). Cette fois, si après la mise fictive initiale de 100¤ de chaque côté je suis seul à parier et que je parie A sur Sarlande, et si j'ai gagné, je récupère ma mise A plus un gain de 100¤·(A/(100¤+A)) payé par la banque, puisque u vaut 100¤+A après mes mises et v vaut 10000¤²/(100¤+A). Cette fois il n'y a pas de divergence puisqu'on intègre quelque chose en v/u, c'est-à-dire en fait en 1/u² (précisément, l'intégrale est 100¤ (A+100¤) ( u + ( 100¤/u ) u ) du ce qui vaut A + 100¤ · ( A 100¤ + A ) ).

Ce système semble mathématiquement assez naturel (et se généralise assez bien à plus de 2 candidats), et il me rappelle l'apparition de la moyenne géométrique que j'avais vue dans la réalisation des paniers de monnaies. Mais je ne sais pas si elle porte un nom standard, ni si c'est ce qu'utilisent les bookmakers anglais (modulo leurs marges, et modulo le fait qu'ils ne remettent évidemment pas à jour leur cotation instantanément).

(samedi)

Le piège de Hadwiger-Nelson

Un collègue m'a poussé à réfléchir à des questions tournant autour du problème de Hadwiger-Nelson (ou problème du coloriage du plan, ou problème du nombre chromatique des unit distance graphs). Fatale erreur ! Ma maman m'avait pourtant toujours dit quand j'étais petit : Ne réfléchis jamais au problème de Hadwiger-Nelson. Ce problème est comme le Zahir de Borges : on commence à y penser, on se laisse tenter par son apparence si facile et si séduisante, sa faculté à relier des domaines mathématiques aussi divers que la théorie des graphes, la géométrie algébrique et la logique, et bientôt on ne peut plus songer qu'à lui, on le voit dans des rêves et on dessine partout des petits graphes avec des points à distance 1 les uns des autres.

Le problème de Hadwiger-Nelson (que j'avais d'ailleurs déjà évoqué, mais je n'en connaissais pas le nom à l'époque) est sans doute le problème mathématique ouvert le plus incroyablement simple à formuler (même si cette simplicité est peut-être un peu trompeuse). Et qui insulte l'honneur de l'esprit humain de ne pas être capable de répondre à une question aussi bête :

(On fixe une fois pour toutes une unité de distance.) Quel est le nombre minimal χ de couleurs qu'il faut pour colorier le plan de manière que deux points distants d'une unité ne soient jamais de la même couleur ?

Tout ce qu'on sait montrer est que 4≤χ≤7. Et c'est d'autant plus frustrant que la démonstration de ces deux faits est à la portée d'un collégien, et que toutes les maths sophistiquées qu'on a pu essayer de balancer contre ce problème n'ont pas amélioré d'un chouïa l'encadrement en question. La minoration par 4 est démontrée par exemple par la figure suivante, appelée Moser's spindle (le fuseau de Moser ?) :

Chaque arête a distance 1 dans le plan, ce qui détermine rigidement la figure. Il est facile de se convaincre qu'il n'est pas possible de colorier les sommets de ce graphe avec seulement 3 couleurs de manière que deux sommets reliés par une arête ne soient pas de la même couleur (en effet, si on n'a que trois couleurs, quelle que soit la couleur c du sommet en bas à gauche, les deux autres sommets de chacun des triangles équilatéraux dont il est un sommet doivent avoir les deux autres couleurs, du coup le sommet tout en haut et celui tout à droite ont la même couleur c, or ils sont reliés par une arête, une contradiction). La majoration par 7 est démontrée par la figure suivante :

L'unité de longueur (figurée par le trait noir en haut à gauche, et qui est à la même échelle que sur la figure précédente) est juste un tout petit peu trop courte pour relier les sommets les plus proches de deux hexagones de la même couleur, mais juste un tout petit peu trop longue pour tenir à l'intérieur d'un même hexagone : donc quelle que soit la manière dont on place cette règle sur le plan, les deux extrémités auront une couleur différente.

On ne sait rien dire de mieux, donc. Oh, on sait dire des choses sur des problèmes adjacents : par exemple, sur le nombre chromatique fractionnaire du plan pour la relation être-distant-d'une-unité (on sait qu'il est compris entre 3.55 et 4.36), ou sur les coloriages dans lesquels on impose de plus aux parties coloriées d'être mesurables (on sait qu'il faut alors au moins 5 couleurs), ou sur le coloriage des points à coordonnées rationnelles (seulement 2 couleurs suffisent alors) ; en fait, on sait dire assez de choses pour qu'Alexandr Soifer écrive un livre de 600 pages consacré à peu près entièrement à ce problème. Mais l'inégalité 4≤χ≤7 continue de nous narguer et de rappeler les mathématiciens à l'humilité. Personnellement je trouve ça beaucoup plus rageant que le problème de Collatz/Syracuse/3n+1 ou que le théorème de Fermat n'a jamais pu l'être.

Et ce que ce problème a de rageant, aussi, c'est qu'on ne sait pas trop quoi conjecturer. Un théorème d'Erdős et de Bruijn (qui est une conséquence immédiate du théorème de compacité du calcul propositionnel, ou — un petit peu moins immédiate — de la compacité des produits de compacts) assure que pour minorer le nombre de couleurs χ nécessaire pour colorier le plan, il « suffit » [OK, en fait ça veut dire « il faut », comme on me le signale en commentaire] d'exhiber un graphe fini réalisable avec distance 1 et qui n'est coloriable qu'avec ce nombre de couleurs. On pourrait donc se dire que puisque ces « unit distance graphs » ont été tant étudiés, s'il y en avait un qui ait nombre chromatique 5 ou plus, ça aurait fini par se voir : mais il est aussi parfaitement plausible qu'il ait un nombre de sommets faramineux, alors que la borne supérieure de 7 par le pavage hexagonal, elle, a l'air tellement naturelle, tellement appropriée a la situation, qu'on a envie de croire qu'elle est optimale. De fait, jusqu'à récemment, j'étais convaincu en mon for intérieur que la bonne valeur de χ est 7. Mais il est parfaitement possible que ce ne soit la bonne valeur que pour des parties coloriées possédant des propriétés de régularité sympathique (ceci dit, même avec l'hypothèse de mesurabilité on ne sait pas fermer le gap), et qu'un coloriage avec 4 couleurs existe mais nécessite l'axiome du choix (qui est caché derrière le théorème d'Erdős-de-Bruijn). Croire que χ=4 se défend aussi : elle consiste à croire que les configurations de points à distance 1 dans le plan ne peuvent pas trop nous jouer de tour ou de coïncidences inattendues, qu'ils ne sont pas trop éloignés des graphes de Laman (lesquels sont toujours 4-coloriables pour des raisons idiotes de degré). Entre les deux, il est aussi permis de croire que la bonne valeur est 5 ou 6, même si ça semble moins plausible qu'aucun des deux arguments élégants pour 4 ou 7 ne donne la bonne valeur, mais bon, c'est comme en politique, il faut bien qu'il y ait aussi des centristes qui croient qu'in medio stat virtus.

Mise à jour : Quelques années plus tard, j'ai écrit un article sur le problème de Hadwiger-Nelson où on se concentre sur les points à valeurs dans certains corps de nombres comme ℚ(√2) ou ℚ(√3).

Bon, à part ça, je continue à vouloir écrire un textes sur les octonions pour mettre dans ce blog, mais je retarde ça tant que je n'ai pas trouvé le temps de lire l'article attentivement fondamental Lie Groups in the Foundations of Geometry de Hans Freudenthal (qui expose généralement la raison pour laquelle les octonions sont naturels). Comme cet article est dense, ça risque de prendre du temps.

Et je maintiens aussi sur le feu mes éphérémides astronomiques (dans lesquels je mets des quaternions, comme beaucoup de gens l'ont deviné, mais pas d'octonions), mais comme dès que je m'y mets pour trop longtemps je m'énerve contre l'astronomie, il ne faut pas non plus y compter pour sitôt.

(dimanche)

J'essaie de comprendre comment la Terre tourne

Je me suis laissé convaincre par un ami d'écrire une application pour Android d'éphémérides astronomiques (il en existe certainement déjà plein, mais guère qui soient libres / open source) : c'est-à-dire un truc qui calcule au moins des choses comme la position et les heures de lever et coucher du Soleil, de la Lune et des planètes, les dates et heures des saisons et des phases de la Lune, et sans doute d'autres choses du même acabit. Normalement, ça ne devrait pas être difficile, il y a plein de code pour ça, presque déjà écrit, en fait, qu'il suffit de convertir en Java.

Mais le truc, c'est que je suis un chouïa maniaque (←ceci est un euphémisme) sur certaines choses, et j'ai une idée assez arrêtée sur la façon dont les choses devraient être faites. Notamment, un calcul astronomique ne se mène pas vraiment de la même façon si on vise une précision d'une fraction de minute d'arc ou de quelques microsecondes d'arc. Et je n'ai pas envie de faire silencieusement des approximations qui empêcheraient de passer à une précision nettement plus grande : i.e., je ne tiens pas spécialement à ce que mon application permette une précision énorme, mais je tiens à ce que le cadre logiciel le permette. Ça devient un peu un défi (stupide) en soi.

Or il se trouve que réaliser des calculs astronomiques permettant, même en principe, une très haute précision, c'est compliqué. (Ne serait-ce que parce qu'on ne va plus pouvoir négliger les effets relativistes, et qu'on commence à avoir mal à la tête juste pour définir ce que c'est que le temps.) J'ai une assez bonne vision des phénomènes les plus simples, mais si je m'impose le carcan de bien prendre conscience de toutes les approximations, je m'y perds assez.

Prenons l'exemple de la rotation de la Terre.

La zéroïème approximation, celle qu'on apprend à l'école primaire, c'est que la Terre tourne autour du Soleil, effectuant une révolution en une année dans un plan appelé écliptique, et qu'elle tourne aussi autour d'elle-même selon un axe de direction fixe appelé l'axe des pôles et dont le plan perpendiculaire s'appelle le plan équatorial ; l'angle entre les plans écliptique et équatorial, ou bien entre l'axe des pôles et l'axe perpendiculaire au plan écliptique, s'appelle l'obliquité ou inclinaison de l'axe terrestre, notée ε, et vaut 23°26′15.66″. L'angle entre l'axe de rotation et la droite Terre-Soleil est responsable des saisons, lesquelles sont limitées par les deux équinoxes lorsque l'axe est en quadrature avec cette droite, ou, si on préfère, que le Soleil se trouve dans le plan équatorial de la Terre, et par deux solstices lorsque le Soleil atteint ses latitudes minimale et maximale par rapport au plan équatorial terrestre, qu'on appelle tropiques du Capricorne (→été austral) et du Cancer (→été boréal). Ça c'est ce que tout le monde devrait savoir, sauf à être un sombre inculte.

(lundi)

Quelques réflexions sur l'inertie

Quand j'écris inertie dans le titre de cette entrée, je ne parle pas du phénomène psychologique mais scientifique : scientifique, c'est-à-dire notamment physique mais pas seulement. Dans ce sens, l'inertie, de façon volontairement très vague, c'est le mécanisme qui fait qu'un phénomène qui se produit a tendance à continuer à se produire (plutôt que, par exemple, cesser immédiatement que sa cause cesse).

En physique, il s'agit de la loi d'inertie, ou première loi de Newton, selon laquelle en l'absence de forces extérieures un objet continue à se déplacer en ligne droite et à vitesse constante : ce n'est pas une évidence, et historiquement il semble qu'on ait pu croire — dans la mesure où la physique aristotélicienne énonçait ces choses clairement, ce dont je ne suis pas sûr du tout — qu'une force était toujours nécessaire pour mouvoir un objet, i.e., le que fait qu'un objet en mouvement finisse par s'arrêter dans les situations concrètes n'était pas l'action des forces de frottement mais le phénomène normal, et que du coup l'inertie était ce qu'il fallait expliquer, ce qu'on a pu faire, semble-t-il, par des mécanismes du genre la poussée de l'air exercée par l'endroit que l'objet venait de quitter (je ne suis pas compétent en histoire des sciences, donc j'affabule peut-être en disant ça, ce sont des souvenirs de manuels de physique lus il y a longtemps, mais Wikipédia suggère des choses compatibles). Le principe général d'inertie, ce que j'ai appelé première loi de Newton, a été formulé clairement par Galilée, même s'il est sans doute exagéré de dire que c'est lui qui l'a dégagé.

Toujours est-il qu'on aurait tort de prendre ça pour une évidence. Il y a une célèbre anecdote racontée par Richard Feynman (qui vaut la peine d'être écoutée rien que pour son délicieux accent new-yorkais) sur la manière dont son père (Melville Feynman) lui a expliqué ce qu'est l'inertie : personne ne sait à quoi c'est dû. Un mathématicien va voir l'inertie comme le fait que la physique est décrite par des équations différentielles du second ordre (la force contrôle non pas la vitesse mais l'accélération, c'est-à-dire la variation de la vitesse), mais ce n'est que reformuler le problème ; ou encore, que si on ramène ces équations au premier ordre, cela se fait en introduisant de nouvelles variables en plus de la position, à savoir la quantité de mouvement des objets : l'état d'un système mécanique classique se traduit par la donnée non seulement des positions des objets mais aussi de leurs quantités de mouvement (ou de façon plus approximative, vitesses[#]). On peut reformuler ces choses de façon plus ou moins sophistiquée, parler d'espace des phases, de principes variationnels, de formulations lagrangienne ou hamiltonienne de la mécanique, on peut généraliser à la mécanique quantique ou à la relativité générale, mais il reste toujours ce même mystère qu'on pousse ou cache sous ces diverses formulations[#2].

Mais il y a d'autres domaines où la notion d'inertie peut être considérée, et c'est alors d'autant plus frappant qu'il ne faut pas la prendre pour une évidence.

Prenons l'économie. Voici une question qui me semble assez profonde : si vous avez une grandeur économique ou financière, peut-être le cours d'une action ou d'une monnaie, dont vous ne savez rien sauf sa valeur à l'instant présent, manifestement la meilleure chose que vous puissiez faire pour prévoir sa valeur demain, c'est de prévoir la même valeur (ce n'est évidemment pas une bonne prévision, mais si vous ne savez rigoureusement rien de plus, c'est certainement le mieux qu'on puisse faire) ; maintenant, je vous donne la valeur d'aujourd'hui et aussi la valeur d'hier : est-ce que la connaissance de cette valeur d'hier peut aider à faire une prévision meilleure ? Si on croit à une forme d'inertie en économie, on va se dire que si la grandeur a augmenté entre hier et aujourd'hui, elle risque d'augmenter de nouveau entre aujourd'hui et demain, et peut-être dans les mêmes proportions, donc on va peut-être prévoir pour demain la valeur symétrique de celle d'hier par rapport à celle d'aujourd'hui (de fait, en physique, si vous voulez prévoir le mouvement d'un objet, c'est exactement ça que vous prévoit la loi d'inertie en l'absence de forces, et donc ce sera une approximation sensée si vous ne savez rien du tout). Mais en fait, s'agissant du cours d'une action, cette idée n'est pas du tout bonne : au contraire, on a tendance à modéliser ces choses-là — en toute première approximation — par des objets mathématiques appelés des martingales, ce qui signifie essentiellement que connaître des choses sur le passé ne vous avancera absolument pas à prévoir l'avenir (par rapport à juste connaître le présent) ; ou, de façon plus concise mais moins précise, il n'y a aucune sorte d'inertie. C'est raisonnable si on pense au cours d'une action comme déterminé par des agents rationnels : ils ont connaissance du passé et ils en tiennent compte, donc si une prévision simpliste basée dessus peut donner une meilleure approximation pour l'avenir qu'une prévision simpliste seulement basée sur le présent, ils en tiendront compte déjà au présent, donc anticipent sur cette prévision !, qui du coup devrait être réalisée déjà maintenant et pas dans l'avenir.

Mais l'absence totale d'inertie signifie que l'idée que le cours d'une action est en train de monter est dénué de sens, ou, en tout cas, de sens prédictif : le fait que ce cours ait augmenté ces N derniers jours ne donnerait aucune information sur le fait qu'il risque d'augmenter encore demain, pas plus que le fait de savoir qu'une pièce non truquée est tombée 20 fois sur pile ne vous donne d'information sur le fait qu'elle tombera sur pile la fois suivante. Or on a quand même tendance à s'imaginer qu'il y a de l'inertie : c'est contraire à cette idée que les marchés anticipent sur toute prévision qu'ils peuvent faire quant à l'avenir. Même si le cours d'une action dépend de phénomènes (physiques, par exemple) qui, eux, peuvent avoir de l'inertie, si ces phénomènes sont connus, ils devraient être anticipés. Je ne sais pas si on peut exhiber des cas où il y a quand même incontestablement une forme inertie dans des cours économiques, mais j'ai toujours été perturbé par cette dissonance entre le fait qu'on soit censé croire à l'absence d'inertie si les agents sont rationnels et le fait qu'on dise, par exemple, que le cours du pétrole va certainement continuer à monter au cours des prochaines années (si cette prévision est si évidente, tout le monde va vouloir prendre des options dessus, ce qui va faire augmenter le cours du pétrole maintenant).

Mais ce qui a motivé cette réflexion à ¤0.02 sur l'inertie, c'est encore un autre domaine, celui de la sociologie : j'entends les commentateurs politiques (dont je ne pense pas forcément grand bien) expliquer que la progression ou régression de tel ou tel homme politique dans les sondages électoraux constitue une dynamique. Le fait de parler de dynamique suppose qu'il y a inertie. Mais est-ce le cas ? Je n'ai cette fois pas d'argument comme pour l'économie qui expliquerait qu'il ne dût pas y en avoir, mais je n'ai pas non plus d'explication vraiment convaincante au fait qu'il y en ait (à part que les électeurs seraient naturellement portés à apprécier en soi les hommes politiques qui enregistrent déjà une progression dans les sondages récents, ce qui est possible mais pas évident). En tout état de cause, je trouve qu'on ne devrait prendre ni l'existence de l'inertie, ni son absence, pour une évidence : c'est une question essentielle qu'on doit se poser sur tout phénomène auquel on est confronté.

[#] Quand on parle d'un seul objet sans interaction extérieure, la masse n'intervient pas du tout, et l'inertie au sens physique peut porter aussi bien sur la vitesse (c'est la manière dont Newton la formule) que sur la quantité de mouvement. Quand il y a plusieurs objets qui interagissent, la masse (inertielle) d'un objet devient, très grossièrement, la proportion avec laquelle l'inertie de cet objet est importante relativement à celle des autres, donc la difficulté des forces à agir sur cet objet.

[#2] La relativité générale est peut-être ce qui arrive le plus proche d'une réponse au mystère, aux yeux du matheux que je suis, parce que l'équation des géodésiques et les équations d'Einstein sont des équations du second ordre mathématiquement très naturelles alors qu'il n'y a rien de la sorte au premier ordre ; mais on peut difficilement prétendre avoir tout résolu en disant ça.

(vendredi)

Quelques formules en radicaux

On a (en MathML, donc à condition que votre navigateur sache l'afficher correctement) :

cos ( 2π 3 ) = 1 2

cos ( 2π 5 ) = 1 4 + 1 4 5

cos ( 2π 7 ) = 1 6 + 1 6 7 2 21 2 −3 3 + 1 6 7 2 + 21 2 −3 3

cos ( 2π 11 ) = 1 10 + ( 1 40 + 1 40 5 + 1 40 10 2 5 ) 979 4 275 4 5 55 10 2 5 + 275 4 10 + 2 5 5 + ( 1 40 + 1 40 5 + 1 40 10 2 5 ) 979 4 + 275 4 5 275 4 10 2 5 55 10 + 2 5 5 + ( 1 40 + 1 40 5 1 40 10 2 5 ) 979 4 + 275 4 5 + 275 4 10 2 5 + 55 10 + 2 5 5 + ( 1 40 + 1 40 5 1 40 10 2 5 ) 979 4 275 4 5 + 55 10 2 5 275 4 10 + 2 5 5

cos ( 2π 13 ) = 1 12 + 1 12 13 + ( 1 24 + 1 24 −3 ) 65 2 39 2 −3 3 + ( 1 24 1 24 −3 ) 65 2 + 39 2 −3 3 + ( 1 24 + 1 24 −3 ) 4381 2 195 2 −3 6 + ( 1 24 1 24 −3 ) 4381 2 + 195 2 −3 6

cos ( 2π 17 ) = 1 16 + 1 16 17 + 1 8 17 2 1 2 17 + 1 4 17 4 + 3 4 17 1 2 17 2 1 2 17 17 2 + 1 2 17

L'existence de ces formules n'a rien de nouveau ou d'extraordinaire (celles de cos(2π/3) et cos(2π/5) sont essentiellement connues depuis l'antiquité, celle de cos(2π/17) a été trouvée par Gauß en 1796, lequel a aussi trouvé la méthode permettant de calculer toutes les formules de ce genre ; j'ai d'ailleurs déjà écrit une formule de ce genre ici, et la formule la plus compliquée, celle de cos(2π/11), dans l'exercice 5 de cette feuille d'exercices que je donnais quand j'enseignais à l'ENS) ; il s'agit de résultats classiques tournant autour de la théorie de Galois, et d'ailleurs c'est parce que j'écrivais quelque chose sur la théorie de Galois que je les ai calculées (et aussi pour m'amuser avec Sage). Ceci dit, la formule de cos(2π/13) ou cos(2π/11), je ne l'ai jamais vue écrite nulle part dans un bouquin.

Mais une question qui me laisse modérément perplexe, c'est la question de formes plus canoniques que d'autres (plus naturelles, plus élégantes, ce que vous voudrez, bref, préférables) pour ces expressions. Je ne parle même pas de factorisations possibles (comme on peut factoriser une racine 5-ième de 11/4 dans l'expression de cos(2π/11)), mais de réécritures un peu plus profondes. Par exemple, l'expression de exp(2·i·π/17) donnée dans l'entrée liée ci-dessus n'est pas la même que celle donnée dans le livre Galois Theory (formule (9.11) page 239) : j'ai tendance à trouver que la mienne (avec deux racines sixièmes plutôt qu'une racine carrée d'expressions faisant intervenir des racines cubiques) est préférable. Mais une autre formule pour cos(2π/17), qui est assurément moins agréable que celle donnée ci-dessus, et qui apparaît pourtant plus naturellement quand on applique un algorithme systématique, est la suivante :

cos ( 2π 17 ) = 1 16 + 1 16 17 + 1 16 −1 255 136 −1 4 1 16 −1 255 + 136 −1 4 + ( 1 32 2 1 32 −2 ) 73185 + 39032 −1 + 3264 2 6120 −2 8 + 1 16 −1 73185 39032 −1 3264 2 6120 −2 8 1 16 −1 73185 + 39032 −1 3264 2 + 6120 −2 8 + ( 1 32 2 + 1 32 −2 ) 73185 39032 −1 + 3264 2 + 6120 −2 8

Une autre question sur laquelle je ne sais pas dire grand-chose, c'est comment produire de façon systématique de telles expressions en MathML (pour celles que je viens de donner, j'ai utilisé un mélange de techniques pas complètement automatisées, jusqu'à terminer quelques réécritures à la main). Rien que mettre les termes dans un ordre raisonnable, ou transformer quelque chose qui apparaît naturellement comme −1·x + (−3/2)·y + (2−tz (une somme pondérée par des coefficients) en −x − (3/2)·y + (2−tz (extraire les signes pour les mettre au niveau de la somme), ce n'est pas évident.

(mardi)

De la difficulté de visualiser trois dimensions ou plus

Je suis notoirement incapable de visualiser la géométrie déjà en trois dimensions. Pourtant, quand j'étais petit, mon papa avait fabriqué pour moi, et suspendu au-dessus de mon lit, un mobile qui faisait tournoyer les cinq solides platoniciens : ça m'a peut-être donné le goût de la géométrie, mais ça ne m'a pas aidé à voir dans l'espace.

Un exemple de quelque chose de très simple que je n'ai jamais réussi à correctement me représenter mentalement, c'est le réseau que les chimistes appellent cubique faces centrées (tiens, pour une fois, Wikipédia en français n'est pas mauvais) et les mathématiciens le réseau A3 : il s'agit simplement d'un arrangement régulier de cubes où on place des points au sommets des cubes et aux milieux de leurs faces — dit comme ça ce n'est pas difficile à visualiser, mais on est censé pouvoir se rendre compte que le réseau en question est engendré par les vecteurs arêtes d'un tétraèdre régulier (voyez notamment cette image), et par ailleurs qu'en le tournant juste de la bonne façon on arrive à une superposition de plans sur chacun desquels les points sont en arrangement hexagonal (ce que les matheux appellent A2). Malgré la quantité tout à fait impressionnante de pages web qui illustrent ces choses de quantités de façons différentes (par exemple ici), et bien que mathématiquement je comprenne parfaitement ce qui se passe, je n'arrive décidément pas à le « voir » : soit je vois les cubes, soit je vois les tétraèdres et les hexagones, mais jamais les deux à la fois. (C'est un peu comme la fameuse illusion qu'on peut voir tourner dans un sens ou dans l'autre mais qu'il est très difficile de faire passer de l'un à l'autre.) Remarquez, si j'en crois le nombre de pages consacrées au réseau cubique faces centrées, justement, je ne dois pas être le seul à avoir du mal.

Dans ces conditions, il n'est pas surprenant que je n'arrive pas à visualiser quatre dimensions ou plus. Et si déjà le réseau A3 est surprenant par sa capacité à avoir une symétrie cubique, tétraédrale et hexagonale à la fois, il n'est pas étonnant que E8 recèle aussi des surprises.

Parfois les gens vous disent qu'ils arrivent à voir en quatre dimensions parce qu'ils ont regardé un tesseract tourner pendant assez longtemps. Demandez-leur alors : existe-t-il un hyperplan qui coupe le tesseract selon un tétraèdre régulier ? (la réponse est évidemment oui, et même un tétraèdre arbitrairement petit, de la même façon qu'on peut couper un cube par un plan proche d'un sommet pour obtenir un triangle équilatéral) ; puis : et pour un octaèdre régulier ? (la réponse est encore oui, en prenant un hyperplan défini par six sommets du tesseract). Je pense que ces questions en embarrasseront plus d'un.

Pour prendre un exemple très simple de quelque chose sur quoi notre intuition de trois dimensions conduit à penser des choses fausses, considérons une simple rotation uniforme. Par rotation uniforme j'entends ici ce que les mathématiciens appellent un sous-groupe à un paramètre du groupe des rotations : un mécanicien aura plutôt tendance à dire qu'on a affaire à une rotation (à vitesse) constante ; si l'on veut, on fait une rotation infinitésimale entre les temps 0 et δt puis on répète indéfiniment cette même rotation. Je ne sais pas bien quelle terminologie adopter pour souligner que c'est le concept le plus simple qu'on puisse concevoir, on fait juste tourner un solide toujours de la même façon et à vitesse toujours égale. Sauf qu'en fait ce n'est pas si simple que ça, parce que notre intuition de la dimension trois nous induit facilement en erreur : en dimension trois, une telle rotation uniforme se fait autour d'un axe de rotation, qui est une droite de points laissés fixes lors du mouvement ; mais en dimension quatre, il n'y a généralement pas d'axe de rotation : si on applique une rotation uniforme à une boule, il n'y a en général qu'un seul point fixe (le centre de la boule), et c'est le cas en toute dimension paire. Mais il y a pire : en dimension trois, si on continue la rotation pendant suffisamment longtemps, le solide finit par revenir à son orientation de départ, i.e., le mouvement est périodique. À partir de la dimension quatre, ce n'est plus le cas : une rotation uniforme très générale n'a pas de période[#]. Autre idée fausse : le fait que le mouvement d'un point donné, sous une rotation uniforme, soit un cercle — ceci est vrai de façon évidente en dimension deux, et aussi en dimension trois où c'est un cercle centré sur, et perpendiculaire à, l'axe de rotation. En dimension quatre ou plus, la trajectoire d'un point sous l'effet d'une rotation uniforme est une sorte de courbe de Lissajous, qui en dimension paire va avoir tendance à être dense dans [correction] un tore de la sphère (c'est-à-dire à passer arbitrairement près d'un point quelconque de celui-ci).

On pourrait illustrer les choses comme ceci : en dimension quatre, les habitants d'une planète sphérique en rotation dans l'espace pourraient généralement connaître l'heure et la date par la simple observation de la position d'une seule étoile. Ou pourraient réaliser des pendules qui sont une simple boule qui tourne uniformément, avec un point marqué. (Bon, tout ceci ne serait pas très pratique, certes, parce que ce serait pénible de faire une lecture précise, mais au moins dans l'idée de nos horloges analogiques avec deux aiguilles qui tournent on pourrait faire des horloges sphériques qui tournent rapidement dans une direction pour indiquer la minute et plus lentement dans une autre pour indiquer l'heure.)

La notion implicite sous-jacente, c'est plus ou moins celle du rang d'un groupe de Lie : le groupe SO3 des rotations en trois dimensions est de rang 1, c'est à peu près ça qui fait qu'on a une seule vitesse de rotation, que les trajectoires des points sont des cercles, etc. Mais en général, SOn est de rang ⌊n/2⌋, c'est par exemple le nombre de vitesses de rotation différentes qu'il faudra donner (sans même chercher à savoir dans quelles directions elles se font), le nombre de paramètres des courbes de Lissajous décrites par les points, etc.

Bref, ce sont différentes réflexions qui me sont venues en réalisant une nouvelle vidéo de rotation du système de racines de E8, rotation cette fois uniforme tout du long. (Pour l'instant la vidéo est sur YouTube, mais la qualité en est tellement abominablement atroce que ça n'a vraiment pas grand intérêt de la regarder ; je publierai une version JavaScript dès que j'aurai fini d'écrire une petite introduction mathématique pour aller avec.) Comme en huit dimensions il y a beaucoup de directions dans lesquelles on puisse tourner (SO8 est de dimension 28 et de rang 4), j'ai fait un choix qui m'a semblé amusant — et je reviendrai dessus pour l'expliquer plus précisément — consistant à prendre une rotation qui appartienne au groupe de Lie exceptionnel G2 (de dimension 14 et de rang 2) formé des rotations qui laissent invariante une structure octonionique sur l'espace de dimension 8, structure octonionique avec laquelle le réseau de E8 a d'intéressants rapports. Du coup, la vidéo fournit une illustration de deux groupes de Lie exceptionnels à la fois, G2 par son action et E8 par son système de racines.

[#] Ce qui ne signifie pas pour autant qu'il soit compliqué : si je prends bêtement deux points tournants à vitesse uniforme sur deux cercles dans le plan, et que leurs vitesses de rotation sont irrationnelles entre elles — ce qui est la situation la plus générale — alors ce mouvement n'est pas périodique non plus, et c'est quand même quelque chose de très simple ; en vérité, la rotation uniforme d'une sphère en dimension quatre n'est pas très éloignée de cette idée (justement parce que le rang du groupe des rotations vaut 2).

(jeudi)

La beauté du système de racines E8

[Une projection de E8]Parmi les objets mathématiques qui me fascinent complètement, un des plus beaux et des plus remarquables est certainement le système de racines de E8 (ou du moins tout le cortège d'objets mathématiques plus ou moins liés à E8 : le système de racines, les polytopes associés et leur groupe de Weyl, le réseau des poids, les groupes de Lie ou de Chevalley associés, les immeubles de Tits qui en découlent et les variétés de drapeaux en question, etc. : il y a plein de choses auxquelles on pense quand on dit E8). Sans rentrer dans les détails mathématiques, disons qu'il s'agit ici d'un solide semi-régulier en dimension 8 (pas exactement régulier — il n'y a que trois solides réguliers à partir de la dimension 5 et ils ne sont pas très amusants — mais uniforme), le plus grand et le plus remarquable d'une famille de cinq objets exceptionnels ; il s'agit aussi des points les plus proches de l'origine dans un certain réseau cristallographique aux propriétés mirobolantes[#].

J'avais déjà fait une page interactive à son sujet (que je devrais d'ailleurs retravailler un peu), mais je reste sur ma faim : cette page ne laisse pas vraiment voir la beauté de l'objet, parce qu'on ne le voit pas bouger.

Bref, je voulais me faire une image du système de racines de E8 en train de tourner et d'exhiber quelques unes de ses impressionnantes symétries.

Le problème est que le polytope dont je parle a 240 sommets et 6720 arêtes[#2], et que tracer 6720 arêtes 25 fois par seconde ça a l'air un chouïa trop rapide pour une bête application en JavaScript sur Canvas (enfin, si quelqu'un trouve moyen d'optimiser ça et peut m'expliquer comment faire, je suis preneur ; le calcul des projections de 240 points, lui, devrait être très rapide). [Mise à jour : voir néanmoins cette page.] À défaut, je me suis fait une vidéo, que j'ai entre autres mise sur YouTube ; bon, l'ennui, c'est que la compression drastique que YouTube fait subir à ses vidéos fait que c'est en fait épouvantablement moche (surtout dans la deuxième partie de la vidéo, celle où ça tourne très vite), ce qui est dommage pour quelque chose censé être d'une beauté ineffable : j'en ai donc aussi fait une version en plus haute qualité à télécharger (170Mo ; le lien qui précède pointe sur un fichier BitTorrent[#3], si ça ne marche pas, vous pouvez réessayer sans l'extension .torrent pour télécharger directement le fichier WebM), ce n'est toujours pas très satisfaisant, il y a encore des artefacts de compression et aussi des artefacts d'aliasing dans le tracé, mais bon, c'est quand même joli à regarder (et certainement mieux que l'horreur qui a atterri sur YouTube).

Les premières 1′30″ montrent différentes petites rotations du polytope pour illustrer certains de ses plans de projection à haute symétrie (à 10″ on voit une symétrie d'ordre 30 appelée figure de Petrie, à 20″ une symétrie d'ordre 20, à 30″ une symétrie d'ordre 24, à 50″ une symétrie d'ordre 18, à 1′10″ une symétrie d'ordre 14). Les 2′30″ restantes sont différentes : cette fois, on revient toutes les 10″ à une projection équivalente, après avoir fait une rotation qui laisse le polytope symétrique (ça tourne donc beaucoup plus vite, et c'est cette partie-là qui a été le plus complètement massacrée par la compression vidéo sur YouTube).

Bizarrement, le plus difficile dans l'histoire a surtout été d'écrire le code qui interpole une rotation discrète en un mouvement continu (ou, de façon mathématiquement plus précise, qui inscrit une transformation orthogonale directe au bout d'un groupe à un paramètre de telles transformations[#4]).

[#] Par exemple, concernant le problème de savoir combien de sphères identiques on peut placer en contact avec une sphère donnée (sans qu'elles se chevauchent, bien sûr), la réponse est connue en toute petite dimension (≤4), en dimension 8 grâce à E8, en dimension 24 grâce au réseau de Leech (un autre réseau aux propriétés mirifiques), et c'est tout. Donc en fait je pourrais définir mon polyèdre E8 de la façon suivante : placez 240 sphères toutes identique autour d'une autre (également identique) en dimension 8, il n'y a essentiellement qu'une seule façon de faire ça, et les centres des 240 sphères forment le polyèdre dont je parle. Mais bon, il est plus simple de dire constructivement que mes 240 points sont ceux qui ont les coordonnées (±1,±1,0,0,0,0,0,0) (pour un choix quelconque de deux coordonnées non nulles et deux signes indépendants, ce qui fait 112 points) ou bien (±½,±½,±½,±½,±½,±½,±½,±½) (pour un nombre pair de signes moins, ce qui fait 128 points).

[#2] Il a aussi 60480 faces, qui sont des triangles équilatéraux, 241920 trois-cellules (c'est-à-dire les faces de dimension 3), qui sont des tétraèdres réguliers, 483840 quatre-cellules, qui sont des 4-simplexes réguliers, 483840 cinq-cellules, qui sont des 5-simplexes réguliers, 207360 six-cellules (dont 138240 relient une facette 7-simplexe à une facette 7-croix et 69120 relient deux 7-croix), et enfin 19440 facettes (=sept-cellules), 17280 étant des 7-simplexes réguliers et 2160 étant des octaèdres généralisés (des 7-croix). Enfin, son groupe de symétries (le groupe de Weyl de E8) est d'ordre 696729600 (et il est isomorphe, à un facteur 2 près, au groupe des transformations préservant une forme quadratique déployée de rang 8 sur 𝔽8).

[#3] Mon organisation BitTorrent, basée sur XBT est d'ailleurs épouvantablement bordélique, mal foutue, et probablement bourrée de trous de sécurité inquiétants. Mais je n'ai jamais réussi à trouver un tracker et client BitTorrent qui me satisfassent (notamment, sans PHP), à utiliser en ligne de commande (sur des machines qui sont essentiellement des serveurs) ; si quelqu'un a des suggestions, je suis preneur. Je devrais peut-être essayer la combinaison opentracker et rTorrent, ce sera peut-être plus agréable que l'horreur que j'ai actuellement.

[#4] En principe c'est très facile : on veut calculer Mt, pour M une transformation orthogonale directe, avec t variant de 0 à 1 : on calcule une matrice P de vecteurs-propres de sorte que D:=P·M·P−1 soit diagonale, et on calcule P−1·Dt·P pour différentes valeurs de t. Le problème est que M peut avoir la valeur-propre −1, auquel cas (−1)t a un problème de détermination (si on ne fait pas attention, on va se retrouver avec une matrice complexe et pas une matrice orthogonale réelle comme on le veut) : il faut donc trouver une base orthogonale de l'espace propre de −1 (et commencer par en trouver une base réelle, parce que les approximations numériques peuvent faire que le calcul initial donne des résultats complexes), puis fabriquer une matrice diagonale par blocs 2×2 de rotation d'angle 2π·t, bref, c'est lourdingue d'avoir quelque chose d'un peu robuste numériquement.

(lundi)

Un joli livre de géométrie

Je mentionnais récemment que je n'écrivais pas beaucoup sur ce blog de critiques de livres. Il est encore plus vrai que je n'écris pas beaucoup de critiques de livres de maths : ce n'est pas que je n'aie pas de livres de maths préférés, bien au contraire, mais la difficulté extrême que je trouve à critiquer un tel livre est que je ne parviens généralement pas à séparer mon appréciation du sujet de celle de la forme (au moins dans le cas où les deux me plaisent). Par exemple, un de mes livres de maths préférés est Algorithms in Invariant Theory de Bernd Sturmfels, dont j'ai déjà parlé, mais en vérité il est difficile de savoir si je l'aime parce que la présentation est excellente ou simplement parce que les théorèmes sont très beaux (auquel cas l'auteur n'y est pas pour grand-chose : c'est juste que je trouve que la théorie des invariants est un petit bijou de mathématiques). Il y a bien sûr des cas où on sait distinguer : par exemple, pour tout livre écrit par Conway, on sait que le sujet va être magnifique mais que l'exposition va être insupportable parce qu'il s'adresse à des génies comme lui et pas à des êtres humains comme vous et moi, et qu'en plus il fait des espèces de jeux de mots insupportables dans sa façon de nommer tous les objets.

Bref, je ne parle normalement pas trop de livres de maths, mais je vais faire une exception pour signaler un livre récent de Jürgen Richter-Gebert, Perspectives on Projective Geometry (A guided tour through real and complex geometry) (Springer 2011, ISBN 978-3-642-17285-4), sur lequel je suis tombé un peu par hasard il y a quelques jours dans la librairie Eyrolles. D'abord parce qu'il ne s'agit pas d'un livre de recherche : il s'agit d'un livre pédagogique qui peut s'adresser à un lectorat extrêmement varié, et même si le mathématicien professionnel n'y apprendra probablement pas grand-chose (en tout cas celui qui se spécialise en géométrie), je pense que beaucoup de gens peuvent l'apprécier, entre un bon lycéen passionné de géométrie et un agrégatif de maths à la recherche de développements originaux.

Pour être clair, et pour m'adresser à mes lecteurs non mathémeticiens qui ont peut-être l'idée que quand je dis géométrie je parle de quelque chose de complètement abscons (du style donnée une variété algébrique projective de dimension n et une section hyperplane dont le complémentaire est lisse, le morphisme de restriction de l'une à l'autre, sur la cohomologie à coefficients entiers, est un isomorphisme jusqu'en dimension n−2 et injectif en dimension n−1), là il s'agit vraiment de géométrie au sens où les gens normaux l'entendent, avec des points, des droites et des triangles. Ceci étant, il s'agit quand même d'un point de vue projectif, algébrique et très élégant : donc de la géométrie plutôt façon Poncelet et Klein que façon Euclide et Apollonios[#]. Donc on a à la fois des choses vraiment élémentaires sur des angles et des distances, et des outils plus sophistiqués venus justement de la théorie des invariants (bracket algebras — comment dit-on ça en français ?).

En vérité, et c'est surtout la raison pour laquelle je le mentionne, il s'agit d'un livre que j'aurais voulu écrire, et qui présente exactement la manière dont je pense la géométrie élémentaire. En tout cas, c'est certainement selon ces lignes que j'aurais fait ma présentation de la géométrie sur ce blog si j'avais eu le courage de la mener à terme. Ce qu'on m'a plusieurs fois reproché de ne pas faire, donc, ceux qui m'ont dit ça, lisez le livre de Richter-Gebert !

Qui plus est, c'est un très joli livre, avec des illustrations bien faites (ce qui n'est jamais mal pour un livre de géométrie, même si le proverbe dit qu'il s'agit de l'art de raisonner juste sur une figure fausse), et imprimé en couleur. Donc même si vous en trouverez certainement un exemplaire électronique diffusé par rayons cosmiques, je conseille vivement d'en prendre une version bouts d'arbres morts, qui n'est pas très chère et qui fera belle figure sur la table basse du salon.

⁂ Un autre livre, sur un sujet vaguement apparenté, que j'ai aussi acquis récemment, et que je ne recommande pas, en revanche, c'est d'Ernest E. Shult, Points and Lines (Characterizing the classical geometries), qui porte sur la géométrie d'incidence. J'espérais y lire des choses qui m'éclairent un peu sur les immeubles et les quotients paraboliques des groupes algébriques réductifs vus comme des géométries, et le genre d'idées sur lesquelles je ne connais que le trop pléthorique et assez indigeste livre de Boris Rosenfeld, Geometry of Lie Groups. L'intention pédagogique de Shult est excellente en ce qu'il a fait un livre self-contained, mais le résultat est malheureusement un fouillis abscons de termes ultra-techniques qui me laisse exactement aussi peu Éclairé qu'au début et beaucoup plus embrouillé, et où il ne parle même pas de groupes de Lie ; et indépendamment du fond, beaucoup de termes sont utilisés avant d'être définis et ne figurent pas dans l'index, ce qui est à peu près rédhibitoire : par exemple, il dit tout un tas de choses sur les espaces métasymplectiques et leur caractérisation, et je n'ai pas réussi à trouver où il en a caché la définition ! C'est d'autant plus dommage que je pense qu'il y aurait eu le moyen de faire quelque chose d'excellent.

[#] Anecdote gratuite : j'ai un ami qui a fait un développement d'agreg sur les coniques sans jamais parler d'ellipse, parabole ou hyperbole. Rached Mneimné, qui était dans son jury, le lui reprochant, lui a dit : Je pense que votre leçon n'aurait pas plu à Archimède. Et il aurait répondu : Mais peut-être qu'elle aurait plu à Poncelet ? (enfin, non, en vérité, malheureusement, il n'a pas eu le culot de dire ça — mais il aurait voulu et eu raison de le faire, et du coup je raconte sans vergogne l'anecdote ainsi arrangée en espérant qu'elle devienne une jolie légende urbaine).

❄ Tiens, et pour ceux qui aiment la géométrie projective, voici une question à 0.02 zorkmids à laquelle je cherche toujours une solution simple et élégante : soient C et D deux coniques planes en position assez générale, p1,p2,p3,p4 leurs quatre points d'intersection, et 1,2,3,4 leurs quatre tangentes communes (c'est-à-dire les intersections des coniques duales C* et D*). Montrer que, quitte à réordonner les points, le birapport de p1,p2,p3,p4 sur C est égal au birapport de 1,2,3,4 sur D*. (Ce dernier étant le birapport sur D des quatre points de tangence de 1,2,3,4. On peut aussi éventuellement remarquer que le premier est aussi le birapport, dans le pinceau linéaire L de coniques engendré par C et D, de C,X,Y,ZX, Y et Z désignent les trois coniques dégénérées passant par p1,p2,p3,p4 ; et de même, le second birapport est aussi celui, dans le pinceau M de coniques simultanément tangentes à 1,2,3,4 de D,U,V,WU, V et W désignent les duales dégénérées qu'on devine. Mais peut-être que cette observation ne fait qu'embrouiller les choses.)

[Ajout () par rapport à la question précédente : cela revient plus ou moins à montrer qu'il existe une conique Γ telle que C et D soient polaires l'une de l'autre par rapport à Γ (car alors la polarité par Γ transforme p1,p2,p3,p4 en 1,2,3,4 à l'ordre près, ce qui implique ce qu'on veut sur le birapport) ; la conique Γ doit nécessairement admettre le triangle autopolaire commun à C et D comme on s'en persuade assez facilement ; on peut montrer son existence en considérant des coordonnés (x:y:z) pour lesquelles ce triangle autopolaire est donné par (1:0:0), (0:1:0) et (0:1:0), ce qui revient à diagonaliser simultanément les formes quadratiques définissant C et D : leurs équations deviennent, disons, cx·x² + cy·y² + cz·z² = 0 et dx·x² + dy·y² + dz·z² = 0, et Γ peut être définie par γx·x² + γy·y² + γz·z² = 0 où chaque γi vaut ±√(ci·di). Mais je voudrais quelque chose de purement géométrique.]

(samedi)

Différentes manières de permuter six objets

Voici un petit gadget qui pourrait servir de décoration de Noël (choisissez une entrée au hasard dans le menu déroulant puis cliquez sur Start, avant de lire les explications ci-dessous) :

Il s'agit d'une représentation sous forme animation de n'importe lequel des seize (classes de) sous-groupes transitifs sur six objets. J'avais évoqué des questions semblables à propos des symétries possibles sur cinq objets dans une entrée récente, mais la discussion pour six objets est évidemment plus compliquée. Un groupe de permutations sur six objets (=sous-groupe de 𝔖6), c'est un ensemble de façon de permuter (réordonner) ces six objets de façon que si on effectue deux permutations du groupe à la suite (=on les compose), on obtient encore une permutation du groupe ; le nombre de permutations s'appelle l'ordre du groupe. Un tel groupe de permutations est dit transitif lorsqu'il y a moyen d'envoyer n'importe quel objet à n'importe quel emplacement par (au moins) un élément du groupe. On dit que deux sous-groupe de 𝔖6 sont conjugués lorsqu'on peut transformer l'un en l'autre en permutant les objets. À conjugaison près, il existe exactement seize groupes de permutation transitifs sur six objets, et c'est ça que cette petite animation représente : on choisit un groupe dans la liste, et le script va choisir aléatoirement une permutation du groupe, puis une autre, puis une autre, et ainsi de suite indéfiniment, et anime à chaque fois le déplacement des six objets. À une extrême, 𝔖6 contient toutes les permutations possibles, à l'autre, C6 ne contient que les permutations cycliques. Entre les deux, chacun des sous-groupes proposés correspond à une petite danse que peuvent faire mes six cercles colorés, je trouve ça assez envoûtant à regarder.

Le cas de 𝔖6 est intéressant, parce que 𝔖6 est l'unique groupe symétrique qui possède des automorphismes extérieurs (c'est-à-dire des façons d'associer à toute permutation une autre de façon à préserver la composition). Pour reprendre la terminologie de Sylvester (qui aimait bien les mots commençant par sy), on appelle pentade synthématique une façon de partitionner en 5 classes les 15 arêtes du graphe complet sur les six objets de façon que deux arêtes ayant un sommet commun ne soient jamais dans la même classe : il existe exactement 6 pentades synthématiques, et 𝔖6 réalise toutes les permutations possibles sur les pentades, ce qui signifie qu'en même temps qu'il agit sur les six objets, il agit aussi sur les six pentades, la correspondance entre les deux définissant un automorphisme extérieur. Beaucoup des sous-groupes transitifs de 𝔖6 se voient assez naturellement à travers cette description. [Ajout : voir cette entrée ultérieure pour une description de l'automorphisme extérieur de 𝔖6.]

Par ailleurs, je dois signaler que j'ai dû faire des choix de représentants dans mes classes de conjugaisons de sous-groupes. (Il n'est malheureusement pas possible de les faire de façon parfaite, c'est-à-dire de façon que deux sous-groupes inclus à conjugaison près soient effectivement représentés par des sous-groupes inclus exactement.) J'ai fait ces choix de façon à respecter la structure de l'hexagone, c'est-à-dire, techniquement, que le groupe diédral de l'hexagone soit dans le normalisateur de tous les représentants ici choisis (ça doit rendre mes choix uniques ou quasiment uniques, et ça les rend en tout cas assez naturels).

(dimanche)

Polynômes plus ou moins symétriques en cinq variables

Suite à des réflexions autour de la théorie de Galois (notamment des équations de degré 5, dans le cadre de l'écriture d'un livre sur le sujet) et autour de la théorie des invariants, je me suis amusé à regarder un peu la façon dont « fonctionnent » les polynômes plus ou moins symétriques à cinq variables. Par plus ou moins symétrique je veux dire qu'il y a des permutations échangeant les cinq variables qui laissent le polynôme invariant, mais pas nécessairement que le groupe G de ces permutations doive être le groupe symétrique 𝔖5 de toutes les (120) permutations possibles. Par exemple, le polynôme Q = Z1·Z2 + Z2·Z3 + Z3·Z4 + Z4·Z5 + Z5·Z1 (dans les cinq variables Z1, Z2, Z3, Z4, Z5) est symétrique sous l'effet de 10 permutations des variables, à savoir les 10 symétries d'un pentagone régulier dont les sommets seraient étiquetés par les cinq variables (dans l'ordre donné), i.e., ce qu'on appelle le groupe diédral D5 du pentagone : concrètement, Q est invariant si on permute cycliquement les variables (Z1 devient Z2, Z2 devient Z3 et ainsi de suite) ou si on les inverse (Z1 devient Z5 et réciproquement, Z2 devient Z4 et réciproquement, et Z3 reste) ou par n'importe quelle composition de ces symétries.

Pourquoi précisément cinq variables ? Parce que c'est le plus petit nombre pour lequel il commence à y avoir des choses intéressantes à dire, parce qu'historiquement cela a eu de l'importance (pour montrer que l'équation algébrique générale du cinquième degré n'est pas résoluble par radicaux et pour savoir précisément détecter si une équation donnée l'est), parce que ça fait une situation sur laquelle faire des calculs explicites, et parce que la situation pour plus de variable commence à devenir franchement compliquée. Bref, c'est un cadre sympathique pour faire quelques observations élémentaires de théorie des invariants ou de Galois, et un peu de vulgarisation comme j'aime en faire.

(dimanche)

Les nombres surréels sont-ils intéressants ?

J'ai évoqué brièvement dans une entrée passée les nombres surréels de Conway. En marge de ma saga sur les ordinaux (commencée ici), je voudrais essayer d'en parler un peu plus ici (comme d'habitude, je promets de faire en sorte de dépendre le moins possible des entrées passées et d'être largement self-contained), et discuter notamment de la question de savoir dans quel mesure ces objets sont naturels, ou intéressants. Je sais qu'ils fascinent beaucoup les mathématiciens amateurs ou moins amateurs, parce qu'ils sont une classe de nombres extrêmement généraux, unifiant à la fois les ordinaux et les nombres réels : on aime bien, en maths, trouver des généralisations communes à plusieurs choses (et c'est vrai que c'est assez rigolo de se dire qu'il y a des « nombres » comme ω√2 ou ε−½). Il y a aussi de jolies analogies entre ces nombres surréels et les nimbres, ces derniers étant une sorte de version en caractéristique 2 de la même chose. Ceci étant, je n'arrive pas vraiment à décider si je trouve les nombres surréels vraiment élégants ou insupportablement bricolés, et je veux présenter des arguments dans les deux sens.

Suites de signes

Je vais prendre la définition suivante : un nombre surréel est une suite de signes plus (+) et moins (−), dont la longueur peut être ou non finie, et est en général un ordinal. (Cet ordinal est appelé par Conway la date de naissance du nombre surréel en question.) Parfois on peut avoir envie d'imposer à cette longueur de ne pas être trop grande, j'y reviendrai.

0 −1 1 −2 −½ ½ 2 −3 −3⁄2 −¾ −¼ ¼ ¾ 3⁄2 3

Par exemple, la suite vide () servira à désigner le nombre 0 (c'est le seul nombre surréel né le jour 0), la suite de longueur 1 formée d'un seul plus (+) le nombre 1 tandis que la suite (−) sera le nombre −1 (ce sont les deux nombres surréels nés le jour 1). Les quatre suites possibles de longueur 2, (++), (+−), (−+) et (−−) seront les nombres 2, ½, −½ et −2 respectivement (les quatre nombres surréels nés le jour 2). Comme je n'ai pas encore expliqué comment on ajoute ou multiplie les nombres surréels, il est normal de ne pas comprendre pourquoi ils correspondraient à ces valeurs précises, mais je donne ces exemples juste pour situer. En fait, n'importe quelle suite finie de + et de − codera un nombre dyadique, c'est-à-dire de la forme p/2r (avec p et r entiers). Ces suites forment un arbre, représenté ci-dessus si votre navigateur gère le SVG (prendre la branche qui descend à droite revient à ajouter un + à la fin de la suite, et celle qui descend à gauche revient à ajouter un −), et dont on devine assez bien la règle de correspondance avec les dyadiques : pour construire le niveau r en ayant construit les niveaux antérieurs, chaque nœud représente le nombre qui est la demi-somme du nombre immédiatement à gauche et du nombre immédiatement à droite dans les niveaux précédents (je veux dire, l'ancêtre le plus récent qui soit situé sur la gauche, resp. sur la droite, du nœud considéré), sauf pour le nombre le plus à droite d'un niveau donné qui s'obtient en ajoutant 1 à celui du niveau précédent (c'est donc l'entier r) et pour le nombre le plus à gauche qui s'obtient en soustrayant 1 à celui du niveau précédent (c'est donc l'entier −r).

(dimanche)

Jeux combinatoires et ordinaux

Je continue ma série sur les ordinaux commencée ici et (tout en promettant de faire mon possible pour que chaque entrée soit au moins vaguement lisible si on n'a pas bien lu les précédentes !, sinon je n'aurai vite plus personne qui suive).

Je commence par évoquer un des jeux mathématiques les plus classiques (et dont j'ai déjà parlé par le passé), le jeu de nim (que j'ai parfois aussi entendu appeler jeu de Marienbad parce qu'il apparaît dans le film L'année dernière à Marienbad de Resnais). C'est un jeu extrêmement simple, que n'importe qui peut comprendre :

On dispose un certain nombre d'allumettes (bâtonnets, jetons, ce que vous voudrez) en un certain nombre de lignes, classiquement 1+3+5+7=16 allumettes dans la position de départ (cf. la figure ci-contre si votre navigateur supporte le SVG). Deux joueurs s'affrontent et chacun, tour à tour, retire des allumettes, autant qu'il en souhaite mais provenant d'une seule ligne (il peut retirer la totalité de la ligne s'il le souhaite, et il peut ne retirer qu'une seule allumette, ou n'importe quoi entre les deux ; mais il doit retirer au moins une allumette et ne doit affecter qu'une seule ligne). Le gagnant est celui qui retire la dernière allumette (de façon équivalente, celui qui ne peut plus jouer parce qu'il n'y a plus aucune allumette a perdu).

La variante misère, dans laquelle celui qui retire la dernière allumette a perdu, existe aussi, et est même peut-être plus fréquente, mais elle est moins satisfaisante mathématiquement et je ne vois aucune raison de la préférer.

Ce petit jeu peut avoir un certain succès auprès des gens qui ne le connaissent pas (et quand on connaît le truc, c'est rigolo de les faire perdre). Si vous ne connaissez pas, et si votre navigateur le supporte, la figure ci-contre est jouable (je vous laisse deviner le mode d'emploi, qui n'est peut-être pas terrible, mais je fais ce que je peux).

Évidemment, la seule chose qui importe pour définir un état du jeu est le nombre d'allumettes restant dans chaque ligne (on pourrait imposer que les joueurs retirassent les allumettes à partir de le droite, ça ne changerait rien). Mathématiquement, on peut dire que le jeu est basé sur les idées que (1) si on décroît un nombre, on finit forcément pas s'arrêter (parce qu'on tombe sur zéro) et que (2) on va faire perdre le joueur qui ne peut plus jouer (selon la logique que chaque joueur est obligé de jouer, donc celui qui ne le peut pas à perdu).

Décrit comme ça, et vu que j'ai présenté les ordinaux comme des lignes de bâtonnets et que j'ai lourdement insisté sur le fait que quand on décroît un ordinal on obtient un processus qui termine toujours, on devine bien sûr que je vais définir un jeu de nim transfini (ou ordinal), dans lequel les lignes peuvent comporter un nombre éventuellement infini de bâtonnets. Mais en fait, ceci sera mon deuxième thème : je commence par un type de jeu un petit peu différent selon le même genre d'idées.

(Les deux parties qui suivent sont indépendantes, et les deux sous-parties de la première le sont aussi à peu près.)

(dimanche)

Petit navigateur d'ordinaux

À la fois pour m'exercer à la programmation en JavaScript (dont j'ai déjà dû dire que c'est un langage dans lequel je trouve un mélange très étonnant de choix très élégants et puissants et de bizarreries insupportables), et pour exercer mon intuition sur les ordinaux, j'ai créé une petite page dynamique (devrais-je dire un jeu en HTML5 ?) d'exploration des ordinaux sous la forme de bâtonnets comme je les présentais dans une entrée récente.

La page est ici, et je l'inclus aussi dans une frame plus bas dans cette entrée (mais c'est moins commode de cette manière parce qu'on ne peut pas utiliser l'historique du navigateur et notamment le bouton back) ; son utilisation mérite sans doute quelques explications. L'idée est qu'un certain ordinal est présenté sous forme de bâtonnets (au départ, ε0, mais on peut en sélectionner d'autres), et plus précisément comme une somme infinie, toujours aux mêmes proportions géométriques, de différents termes (du genre ε0 = ω + ωω + ωωω + ωωωω + ⋯, les termes omis valant d'ailleurs tout autant que le total), et on peut sélectionner un de ces termes (soit un des quatre premiers termes, soit la totalité du reste de la série, ce qui fait cinq choix) pour zoomer dessus : cela se fait soit en cliquant sur le graphique, soit sur un des noms des ordinaux en-dessous (ce sont des liens) qui représentent les valeurs de ces différents termes. Le faire devrait déclencher une animation où on voit la partie en question s'étendre jusqu'à occuper toute la largeur de l'image. Lorsque ceci se produit, le titre reflète le nouvel ordinal qu'on est en train d'observer (la valeur de l'ordinal représenté dans l'image, le « nombre » de bâtonnets sur lesquels on a zoomé, si l'on veut).

En bas de l'image s'affiche aussi le « nombre » de bâtonnets qu'on a fait disparaître sur la gauche, c'est-à-dire la valeur de la somme des termes précédents de la série (à toutes les étapes), ou encore, si l'on préfère, l'ordinal du bâtonnet le plus à gauche à l'intérieur de l'ordinal initial : en quelque sorte, c'est notre position actuelle dans l'ordinal de départ alors que l'ordinal affiché dans le titre est en quelque sorte notre niveau de zoom ; il est donc possible, pour n'importe quel ordinal α plus petit que l'ordinal de départ (et multiple de ω, parce que mon programme refuse de descendre plus loin), de faire en sorte que cet ordinal removed at left vaille exactement α.

En cliquant sur la partie tout à droite (celle qui représente la somme de tous les autres termes de la série), on ne fait pas diminuer l'ordinal représenté, et le processus ne termine jamais (enfin, jusqu'à ce qu'on ait fait exploser JavaScript, ce qui ne devrait pas être long, j'imagine). Si on clicke sur d'autres parties, l'ordinal décroît toujours (je parle de celui indiqué dans le titre, i.e. la « largeur », pas celui du bas, la « position », qui elle augmente toujours), et donc on tombe forcément en un nombre fini d'étapes sur ω, mais à moins de clicker sur la partie la plus à gauche, ce nombre fini d'étapes risque souvent d'être considérablement plus long que la durée de vie de l'Univers, ou en tout cas que la mémoire de votre navigateur, donc il est facile de tomber sur des ordinaux impossiblement compliqués.

Bref, voilà le joujou, je fais d'autres remarques plus sérieuses en-dessous :

Quelques remarques d'ordre mathématique, maintenant, suivies de quelques remarques d'ordre informatique :

  • Tous les ordinaux dans l'histoire ressemblent un peu à la même chose. En fait, dès qu'ils sont plus que légèrement compliqués, ils doivent être identiques au pixel près. La fractale à laquelle ils ressemblent, qui a tout à voir avec mon choix d'arrangement des bâtons, et rien avec la nature fondamentale des ordinaux, peut être décrite comme ceci : si on appelle u la transformation affine qui fixe le point au milieu à gauche du dessin et qui transforme l'axe des abscisses par un coefficient 10/3 et laisse les ordonnées identiques (c'est la transformation qui sert à zoomer sur la partie la plus à gauche de l'ordinal) et v la similitude qui fixe la pointe droite du dessin et qui a pour rapport 10/7 (les transformations qui servent à zoomer sur les autres parties de l'ordinal sont alors uv, uv², uv³, et v4 pour la partie restante), alors il s'agit du plus petit fermé contenant le bâtonnet tout à droite et stable par u et v. Ça, je répète, c'est à quoi mes dessins d'ordinaux ressemblent, et ça signifie simplement que la complexité est telle qu'on ne peut pas résoudre les petits bâtons individuels à moins de clicker très souvent ; mais cette fractale comporte un nombre infini de « bâtonnets » entre deux abscisses distinctes, alors que mes dessins d'ordinaux ont, en principe, un bâtonnet distinct à droite de n'importe quel bâtonnet donné. Bref, voilà une première limitation sérieuse de mon système, c'est qu'on n'y voit rien, et qu'on se retrouve plus ou moins à zoomer tout le temps de la même façon sur le même dessin, avec juste les noms qui changent, ce n'est ni très intéressant, ni très éclairant. ☹
  • Encore plus sérieux : ce système suggère, alors que c'est faux, qu'il existerait une façon unique, ou au moins très naturelle, de fabriquer n'importe quel ordinal comme somme d'une série d'ordinaux plus petits ; ou que la subdivision de l'ordinal a quelque chose d'intrinsèque. Or ce n'est pas le cas. Par exemple, l'écriture de ωω comme ω + ω² + ω³ + ⋯ laisse penser, comme elle est représentée, que le premier ω est spécial ou différent des autres ω qui peuvent se trouver à l'intérieur des autres termes : il n'en est rien, il a un rôle totalement semblable à celui que joue par exemple le premier ω du terme ω², c'est-à-dire que la séparation des termes n'a rien de magique ou d'intrinsèque. Je suis donc en train de donner une impression totalement fausse de certains ordinaux comme quoi ils seraient plus ou moins espacés à tel ou tel endroit, ce qui n'a aucun sens — seul l'ordre compte. J'avais fait plus attention à ce problème dans mon entrée précédente sur la question, notamment dans mon dessin de ωω, où j'ai fait au moins en sorte que rien ne distingue fondamentalement le premier ω du suivant, mais je ne sais pas généraliser naturellement ce genre d'astuce un peu ad hoc à des ordinaux considérablement plus grands (et de toute façon je ne suis pas persuadé que c'était vraiment plus clair).
  • Les noms que mon programme donne aux ordinaux ne sont pas forcément idéaux : ils sont systématiques et raisonnables, mais ce ne sont pas forcément ceux qu'on utiliserait le plus naturellement. Par exemple, on a ε0ω = ωε0+1, et ε02 = ωε0⁢2, et ε0ω = ωωε0+1, et ε0ε0 = ωωε0⁢2, et ε0ε0ω = ωωωε0+1 (tout cela est laissé en exercice au lecteur, c'est assez facile en se rappelant que ε0=ωε0 et en partant plutôt du membre de gauche) ; or dans chacune de ces égalités, mon programme utilisera la forme de droite pour nommer les ordinaux en question (parce qu'il utilise autant que possible la forme normale de Cantor) alors que la version de gauche (basée en premier lieu sur une écriture en base ε0) semble plus naturelle. Cela peut, au moins, surprendre.
  • Le programme en JavaScript contient un vrai petit système d'objets permettant de représenter les plus petits ordinaux (les plus petits signifiant ici, les ordinaux jusqu'à l'ordinal εεε, qui est le plus petit ordinal vérifiant l'équation α=εα, exclu). Il « sait » vraiment faire des additions, comparer deux ordinaux, trouver une suite qui converge vers un ordinal limite, fabriquer un nom HTML, etc. Ça m'a donné l'occasion de faire de la programmation orientée objet en JavaScript (mélangée à un petit peu de programmation fonctionnelle, puisque je n'hésite pas à renvoyer des fonctions qui capturent des variables internes, etc.). Et à comprendre un peu plus précisément comment fonctionne le système de prototypage de JavaScript (je savais le principe général que chaque objet avait un prototype, qui sert à déterminer la chaîne d'héritage, mais je ne comprenais pas bien la façon dont il était initialisé avec new ou Object.create).
  • C'était aussi l'occasion de faire joujou avec la manipulation des URL en JavaScript : je voulais faire en sorte que chaque état du programme (l'ordinal qu'on voit, mais aussi celui laissé à gauche) corresponde à une URL stable qu'on peut charger directement, du style http://www.madore.org/~david/math/drawordinals.html#?v=e pour la représentation initiale de ε0 (et de même, tous les liens dans la page activent des fonctions JavaScript mais comportent aussi des URL correctes et qu'on peut utiliser directement) ; j'ai donc suivi cette fameuse convention (souvent décriée, mais enfin je ne vois pas comment faire autrement) consistant à coder les paramètres à passer au JavaScript dans ce qui devrait normalement être l'identificateur de fragment. (J'ai utilisé un ‘?’ pour séparer ces paramètres, ça me semble plus propre que de ne rien mettre pour signaler qu'il est normal qu'il n'y ait pas de balise HTML ayant cet ID, mais en même temps je ne voulais pas utiliser le ‘!’ qu'on voit souvent dans cette fonction parce qu'il a un sens magique pour Google.) Ceci permet aussi que (si vous essayez le truc dans sa propre page et pas tel qu'il est inclus dans la présente entrée) les boutons de navigation dans l'historique (back/forward) marchent normalement, ce qui est toujours plus plaisant ; la magie, là, est de capter l'événement hashchange (ça ne marche pas sur tous les navigateurs, mais bon, c'est déjà ça).
  • Ah, et vous vous en foutez, mais si vous voyez des petites mains qui pointent pour marquer les items de cette liste de remarques, je suis assez fier de ma petite magouille en CSS qui m'a fait un peu suer (mais ça c'est parce que je suis mauvais en CSS, pas parce que c'était dur).

(mardi)

Edward Nelson prétend montrer que les mathématiques sont inconsistantes

On me signale cette esquisse d'une démonstration (dont la version complète formerait un gros bouquin), par Edward Nelson (qui est pourtant un matheux relativement renommé, pas un fou dans sa cave), du fait que les mathématiques usuelles, et en fait déjà l'arithmétique de Peano, serait contradictoire.

L'idée serait une sorte de variante du paradoxe bien connu de l'« examen surprise » :

Un prof annonce à ses élèves qu'ils auront un examen au cours de la semaine qui vient (lundi à vendredi) et qu'ils ne pourront pas savoir avant le jour même quel sera le jour de l'examen ; les élèves raisonnent alors que l'examen ne peut pas être le vendredi puisque sinon le jeudi soir ils sauraient que ce ne peut être que le lendemain, et du coup le vendredi est exclu donc l'examen ne peut avoir lieu que du lundi au jeudi, mais les élèves peuvent alors répéter le même raisonnement pour exclure le jeudi, et ainsi de suite, et du coup l'examen ne peut pas avoir lieu du tout ; pourtant, lorsque le mercredi l'examen a lieu, il est effectivement une surprise.

On peut gloser cent mille ans sur ce paradoxe, je ne vais pas le faire parce que ça m'énerve particulièrement (voyez l'article Wikipédia à ce sujet), mais la résolution n'est pas particulièrement compliquée : si on appelle T0 l'axiome il y aura un examen cette semaine et Ti+1 l'axiome (T0 et) on ne peut pas conclure sur la base de Ti quel jour l'examen aura lieu avant qu'il ait lieu, alors T1 implique que l'examen n'a pas lieu vendredi, T2 implique qu'il n'a pas lieu jeudi non plus, T4 implique que l'examen a forcément lieu le lundi, et T5 est contradictoire. Si l'examen a lieu le mercredi, c'est que T3 était faux, voilà tout : si on interprète l'énoncé du prof comme T défini comme (T0 et) on ne peut pas conclure sur la base de T quel jour l'examen aura lieu avant qu'il ait lieu, c'est contradictoire et faux, ce qui n'empêche que T2 peut être vrai, ce qui présente déjà un certain élément de surprise. Bref, je trouve que ce paradoxe n'est pas spécialement intéressant. Mais je veux surtout faire remarquer que ce paradoxe appelle naturellement à faire appel à différentes théories, de plus en plus complexes, dans lesquelles on sait (ou on peut conclure) des choses.

L'erreur technique de Nelson (parce que comme Randall Munroe je n'ai pas le moindre doute qu'il y en ait une, et je ferais bien de prendre son conseil et d'ouvrir les paris au lieu d'essaier d'expliquer les choses) est facile à trouver : même si je n'ai pas envie d'essayer de comprendre exactement ce qu'il prend comme théories faibles de l'arithmétique, il est clair que le qu'il considère en haut de la page 4 (de l'esquisse signalée au début de cette entrée) dépend de la complexité (de Kolmogorov) de la théorie T. Or page 5 il considère des preuves qui increase in rank and level (de nouveau, je n'ai pas envie de savoir exactement ce qu'il entend par là), donc dans des théories T dont la complexité varie, alors qu'il prétend garder fixe. Perdu.

Du moins c'était ma réaction immédiate en lisant son esquisse, et comme je vois ici que Terence Tao est arrivé à la même conclusion, je suis raisonnablement confiant que c'est bien là le problème (au moins dans la façon dont Nelson explique les choses). Les mathématiques sont sauves (et nous avec) !

Mais même si j'ai envie d'ironiser en disant que c'est un peu inquiétant qu'un membre de la National Academy of Science puisse prétendre des choses aussi sottes, il y a un certain intérêt à essayer de comprendre ce que croit en fait Nelson, parce que ce n'est pas idiot (même si quand il pense que l'arithmétique de Peano est contradictoire, je suis totalement et complètement convaincu qu'il se trompe), et c'est une question qui est revenue à diverses reprises sur ce blog. Il ne prétend pas que les mathématiques réellement pratiquées sont contradictoires (et encore moins que 0=1), seulement que tous les systèmes dans lesquels on les fait habituellement sont contradictoires, parce que le principe de récurrence est faux et contradictoire. (Et il pense pouvoir reformuler beaucoup de résultats mathématiques dans un système plus faible qui lui convient, ce qui est en soi intéressant, par exemple du point de vue des mathématiques à rebours, même si on ne croit pas une seule seconde que ZF soit contradictoire.)

Peut-être que pour comprendre sa thèse je peux inviter mon lecteur à lire un texte de vulgarisation sur l'infini que j'avais écrit il y a quelques années, où je commence par expliquer le principe de récurrence sous la forme : 0 est un nombre fini, si n est un nombre fini alors n+1 est aussi un nombre fini (et les entiers naturels sont exactement ce qui s'obtient de cette manière, cf. ce que je racontais récemment sur les ordinaux) ; de ça, je prétends conclure que 1000, mais aussi 101000 ou 10↑10↑10↑10↑⋯↑1000 (avec 1000 élévations à la puissance), ou encore d'autres choses beaucoup plus grandes, sont des nombres finis. Faux, me rétorquerait Nelson : la seule façon dont je pourrais montrer que 101000 est un nombre fini, c'est par une démonstration qui commencerait par 0 est fini, donc 1 est fini, donc 2 est fini, donc 3 est fini, donc 4 est fini… et qui terminerait 101000 par donc 101000 est fini. Or si on met en doute le fait que 101000 soit fini, cette démonstration ne vaut que si elle est écrite complètement, ce qui est manifestement impossible, et je ne peux pas agiter des mains en disant oui, je pourrais le faire en principe, mais c'est très long alors il n'en est pas question : la question est justement de savoir si on pourrait le faire en principe, et si je ne le fais pas, mon raisonnement est circulaire. (Le problème est sérieux, puisque si on permet des longueurs non-standard, il est connu et certain qu'il existe des démonstrations de contradiction dans les mathématiques, mais ces démonstrations ne sont justement pas de longueurs finie, ce ne sont pas du tout des démonstrations, donc tout repose crucialement sur la question de la finitude.)

Maintenant, dans l'arithmétique de Peano, il n'y a aucun problème : si x et y sont des entiers naturels, alors xy existe (=est fini, a bien un sens, est un entier naturel). Mais c'est justement ça que Nelson met en doute : dans les théories faibles de l'arithmétique qu'il considère (je n'ai pas regardé les détails, mais ce genre de choses est assez habituel, voyez par exemple la partie C de ce livre), la fonction exponentielle n'est pas forcément totale : il n'y a pas de raison que xy existe si x et y sont des entiers naturels. Du coup, il faudrait effectivement une démonstration démesurément longue pour montrer que 101000 est un nombre fini ; et ces théories faibles ont un intérêt certain en algorithmique (à cause d'un rapport profond entre leurs théorèmes et différentes hiérarchies de complexité).

Maintenant, je ne sais pas si Nelson croit vraiment que le nombre 101000 n'existe pas ([ajout : en fait, probablement pas, parce que la fonction de multiplication, elle, est bien totale, et on peut construire 101000 en multipliant 1000 fois par 10, ce qui constitue une démonstration assez courte pour être écrite] ; mais il le croit sans doute pour le nombre 10↑10↑10↑10↑⋯↑1000 avec 1000 élévations à la puissance). Cela ne signifie pas qu'il existerait un plus grand entier naturel : tout le monde est d'accord que si n est un entier naturel, alors n+1 en est un, juste qu'on n'atteindrait jamais des nombres comme ce que je prétends avoir écrit ; c'est une opinion provocatrice, que je ne partage pas du tout parce que je suis religieusement platoniste, mais qu'il est difficile de disqualifier, parce qu'il est vrai qu'il faut pour éviter des démonstrations ridiculement longues (et peut-être, justement, prétendra Nelson, infiniment longues !) des axiomes strictement plus forts que ce qu'il admet, et dont il peut tout à fait croire qu'ils sont contradictoires (même si, en l'occurrence, il s'est trompé).

Et c'est un problème philosophique que je considère comme assez sérieux, de savoir si vraiment ces nombres ridiculement grands existent, et comment, et dans quelle mesure et pourquoi on a besoin qu'ils existent, et si les mathématiques peuvent s'en passer. Si on pense qu'ils existent (ce qui est mon cas), la difficulté est d'éviter le côté religieux du paradis platoniste. À l'inverse, si on pense qu'ils n'existent pas (ce qui est le cas de Nelson et, je crois, dans une certaine mesure, d'au moins un lecteur de ce blog), la difficulté est d'expliquer pourquoi ils ne causent pas de contradiction (s'ils n'en causent pas, c'est une forme d'existence au moins potentielle : pourquoi des choses inexistantes auraient-elles des conséquences tangibles comme la non-contradiction de Peano ou de ZFC ?), ou sinon, de trouver cette contradiction (comme Nelson semble déterminé à faire). Les paris sont ouverts !

(dimanche)

Nombres ordinaux : une (longue) introduction

Encore une fois je vais tenter de communiquer mon enthousiasme pour un objet mathématique en essayant d'en parler de façon compréhensible par ma petite sœur[