David Madore's WebLog: Mathematics

This WebLog is bilingual, some entries are in English and others are in French. A few of them have a version in either language. Other than that, the French entries are not translations of the English ones or vice versa. Of course, if you understand only English, the English entries ought to be quite understandable without reading the French ones.

Ce WebLog est bilingue, certaines entrées sont en anglais et d'autres sont en français. Quelques-unes ont une version dans chaque langue. À part ça, les entrées en français ne sont pas des traductions de celles en anglais ou vice versa. Bien sûr, si vous ne comprenez que le français, les entrées en français devraient être assez compréhensibles sans lire celles en anglais.

Note that the first entry comes last! / Notez que la première entrée vient en dernier !

Index of all entries / Index de toutes les entréesXML (RSS 1.0) • Recent comments / Commentaires récents

Entries with category math / Entrées de la catégorie math:

↓Entry #2562 [older| permalink|newer] / ↓Entrée #2562 [précédente| permalien|suivante] ↓

(mercredi)

Sur la rédaction des maths et la recherche de l'inambiguïté

L'an dernier, j'ai eu l'honneur de déjeuner avec Jean-Pierre Serre, et nous avons discuté entre autres de la rédaction des mathématiques. (Comme Serre est à mon avis — et je suis loin d'être le seul à le penser — un des mathématiciens dont le style de rédaction est le plus parfait qui soit, c'était évidemment très intéressant pour moi d'entendre ce qu'il avait à dire. Je recommande d'ailleurs de regarder cet exposé où il dénonce beaucoup de mauvaises habitudes dans ce domaine.)

Il a beaucoup insisté sur l'importance d'écrire des énoncés justes : c'est-à-dire notamment, si un énoncé P(n) est vrai pour tout n≥1, de bien écrire pour tout n≥1 et de ne pas laisser le lecteur penser que P(0) puisse être vrai lorsqu'il ne l'est pas (et c'est encore pire quand l'énoncé commence à être vrai à 2 ou 3, voire au-delà). Je savais déjà qu'il accordait beaucoup d'importance à ça[#]. Mais comme je mentionnais les codes correcteurs d'erreurs, il a fait cette autre remarque que je trouve tout à fait digne d'être érigée en maxime, à savoir qu'il essayait d'écrire les mathématiques comme un code correcteur d'erreurs (je n'ai malheureusement pas noté la phrase exact qu'il a employée, mais ça fait peut-être justement partie du phénomène souligné). Ce qu'il voulait dire est qu'inévitablement, dans une rédaction mathématiques, il y aura des choses qui seront mal lues : soit que l'auteur lui-même fasse un lapsus, soit que le manuscrit soit mal retapé, soit que l'imprimeur change certains symboles, soit que le lecteur lise mal ou ait une convention différente sur certaines choses : il faut essayer d'écrire de manière à rendre le texte relativement robuste par rapport à ces erreurs (pour qu'elles soient détectables ou, encore mieux, corrigeables).

[#] Plusieurs fois j'ai assisté à un séminaire où Serre était dans l'assistance[#2], où l'orateur commence énonce un théorème et où Serre s'exclame mais c'est complètement faux ! ce n'est pas possible, ça ! — alors là, l'orateur, visiblement paniqué, se demande si Serre vient de trouver en direct un contre-exemple au théorème principal, et au bout d'un moment de confusion on comprend que Serre protestait contre le fait que l'énoncé était trivialement faux pour n=0. Moment sans doute très désagréable pour l'orateur, mais je pense qu'après ça on apprend très vite à se demander si pour tout n veut vraiment dire tout n.

[#2] Tiens, puisque j'en suis à raconter des anecdotes à son sujet[#3], un jour j'ai assisté à un séminaire où l'orateur a commencé à parler du groupe de Serre comme si tout le monde savait évidemment de quoi il s'agissait (je sais que c'était dans un contexte de représentations galoisiennes, mais moi-même je n'avais aucune idée de ce que c'était censé être). L'éponyme a levé la main pour demander qu'est-ce que le groupe de Serre ?. La morale, là, et je pense aussi que l'orateur l'aura bien retenue, c'est que même quand on parle à une assistance de gens très distingués, il faut être très conservateur dans ce qu'on suppose que tout le monde connaît.

[#3] Allez, une troisième pour la route. Quand j'ai écrit cet article avec mon directeur de thèse, ce dernier l'a envoyé à Serre pour lui demander son avis avant publication. Entre autres remarques, il a relevé le bout de phrase par récurrence sur le naturel k et a commenté ce n'est sûrement pas vous [Colliot-Thélène] qui avez écrit ça : de fait, c'est moi qui l'avais rédigé ce passage. (L'objection est que Serre n'aime pas qu'on écrive un naturel pour un entier naturel. Je vous rassure, ses autres remarques sur l'article étaient beaucoup plus intéressantes.) Colliot-Thélène a regardé dans le petit Robert, qui recense bien quelque part naturel comme nom masculin dans le sens de entier naturel, et nous avons décidé de laisser la phrase comme ça. Mais depuis, je fais plus attention à écrire généralement un entier naturel plutôt que juste un naturel (sauf quand j'ai l'impression que le second allège vraiment la phrase).

Une façon d'attraper les erreurs consiste à dupliquer certaines informations, à redire en symboles ce qu'on vient de dire en mots ou vice versa, ou à insérer des égalités qui peuvent servir de sanity checks confirmant au lecteur que son interprétation est la bonne. Dans un énoncé de contrôle que j'ai donné récemment à Télécom ParisTruc, je vois par exemple que j'ai écrit des choses comme :

Construire un automate reconnaissant le langage M := Σ*\L complémentaire de L.

Soit P le langage {aibjij} constitué des mots de la forme aibj avec i et j deux entiers naturels vérifiant ij (autrement dit, les mots de M qui ont au moins autant de a que de b).

(Ces deux paragraphes appartiennent à des contextes différents et ce n'est pas le même M, mais ça n'a aucune importance.) Le premier sert à m'assurer que ceux qui auraient un doute sur la notation \ (différence de deux ensembles) peuvent se rattraper avec le mot complémentaire ou que ceux qui ont un doute sur ce dans quoi le complémentaire est pris peuvent se rattraper sur l'écriture Σ*\L. Le second est peut-être un peu excessivement redondant (je dis trois fois la même chose !), mais on voit l'idée. Je suis particulièrement soigneux quand j'écris des énoncés d'examen, comme ça, à atténuer les risques qu'une erreur d'interprétation bloque complètement un étudiant.

(Soit dit en passant, j'utilise aussi beaucoup la notation x:=y pour dire que x est défini comme égal à y. Que je n'hésite d'ailleurs pas à écrire comme y=:x le cas échéant. Son intérêt principal est que si on énonce un théorème comme x=y=z, le fait d'écrire x:=y=z permet au lecteur de comprendre que la première égalité est une définition, une trivialité ou une explication, tandis que c'est la seconde qui constitue l'énoncé du théorème ; voir ce passage de l'exposé de Serre évoqué plus haut. J'évite de toute façon de faire de tels énoncés, mais il arrive qu'ils se glissent au passage. Ce qui est agaçant, c'est que cette notation x:=y n'est apparemment elle-même pas définie dans le cursus scolaire français standard, et je dois donc perdre plus de temps en explications à son sujet qu'elle ne m'en fait gagner. Mais je me dis que ça servira bien à mes élèves de l'avoir rencontrée.)

Redire beaucoup de choses deux fois (en symboles et en mots) aide énormément à confirmer au lecteur le sens de certaines notations ou de certains mots, et aide aussi l'auteur à se persuader lui-même qu'il n'est pas indispensable de chercher à minimiser le nombre de signes dans son article. Globalement c'est une bonne idée.

Mais il y a un autre type de correction d'erreurs qu'on peut faire, c'est de trouver les notations et termes qui minimisent la confusion terminologique. Je m'explique.

Il y a une ambiguïté vraiment pénible en mathématiques et qui revient tout le temps et sous plein de variantes, c'est que personne ne sait au juste si positif signifie ≥0 ou bien >0 ; et, de façon correspondante, si supérieur signifie ou >. Le fait est que les deux conventions existent. Certains vous diront avec aplomb que en français, positif signifie ≥0 et supérieur signifie , tandis qu'en anglais, positive signifie >0 et greater than signifie >, et ils auront raison si on parle de la convention majoritaire, mais (A) il y a des exceptions dans les deux sens et (B) même si c'était universellement vrai, ça resterait un état de choses complètement merdique que positif et positive aient des sens différents (c'est à peu près aussi pourri que la situation du mot billion). Comment contourner cet énorme étron du paysage mathématique ?

Une solution consiste à tout dire avec les symboles qui, heureusement, sont inambigus. Ou à tout dire deux fois comme je l'ai proposé plus haut. Mais même comme ça, je ne suis pas très content.

Une option que je préfère consiste à choisir les termes les moins ambigus. Il arrive souvent qu'il y ait trois termes pour deux concepts : certains auteurs utilisent le terme A pour le concept X et le terme B pour le concept Y tandis que d'autres utilisent le terme B pour le concept X et le terme C pour le concept Y (en l'espèce : certains disent strictement positif=:A pour >0 et positif=:B pour ≥0 tandis que d'autres disent positif pour >0 et positif ou nul=:C pour ≥0) ; dans ce cas, j'essaie systématiquement d'utiliser les termes A et C, puisqu'ils ne sont jamais utilisés autrement que pour X et Y respectivement, et les identifient donc sans ambiguïté, et j'évite complètement le terme B.

Cela voudrait donc dire de dire toujours soit strictement positif (strictly positive en anglais), soit positif ou nul (positive or zero ; mais je vais revenir sur le fait que je n'aime pas tellement celui-là non plus). Et de ne jamais utiliser le terme positif tout seul. Ou du moins, de ne l'employer que quand (i) l'interprétation choisie n'a aucune importance (voire, même en changeant d'interprétation au sein même d'une phrase), et (ii) le fait que l'interprétation choisie n'a aucune importance sera complètement clair pour le lecteur (histoire qu'il n'ait pas à se gratter la tête en se demandant ce que positif veut dire, même s'il s'avère que l'une ou l'autre interprétation convenait). Par exemple, il est acceptable d'utiliser le terme positif dans un contexte comme : soit x un réel non nul ; définissons y par l'une des formules suivantes selon le signe de x : (a) si x est positif, on pose y:=(…), et (b) si x est négatif, on pose y:=(…) — dès lors que x a été explicitement qualifié de non nul, le problème de savoir ce que positif signifie ne se pose pas.

C'est ainsi que j'utilise la notation AB pour désigner le fait que A est un sous-ensemble de B, avec une barre en-dessous, parce qu'il y a des gens, même s'ils sont minoritaires peu importe, qui notent AB pour dire que A est un sous-ensemble strict de B (strict c'est-à-dire différent de B) ; et si je veux noter ce fait, je peux utiliser AB mais je le fais rarement parce que je préfère écrire AB et AB (et/ou utiliser des mots), histoire que la négation ne passe pas inaperçue. De toute façon, je trouve plus logique d'utiliser le symbole  qui fait un parallèle avec  (et je vais jusqu'à noter KG pour le fait que K est un sous-groupe distingué de G, toujours avec la barre horizontale en-dessous). Sur ce point, je dois préciser que Serre n'était pas d'accord avec moi. Toujours est-il que j'évite autant que possible le symbole  (il m'est arrivé de m'en servir lorsque les conditions (i) et (ii) du paragraphe précédent étaient réunies, par exemple pour écrire soit C⊂ℙ² une courbe projective plane, mais même comme ça je l'ai regretté parce que je me suis dit que ça pouvait amener le lecteur à se poser des questions si d'aventure les trois symboles , et  étaient utilisés dans le même texte ; donc le mieux me semble être de s'en tenir à et de jeter tous les autres).

Ajout () : Je donne un autre exemple pris en-dehors des mathématiques (et qui a l'intérêt de marcher pareil en anglais et en français). Les Nord-Américains appellent moose=:A₁ en anglais et orignal=:A₂ en français l'animal X := Alces alces, et ils appellent elk=:B₁ en anglais et (son cognat) élan=:B₂ en français l'animal Y := Cervus canadensis. Les même deux espèces sont ainsi nommées en Europe : elk= en anglais et élan= en français pour Alces alces, et wapiti=:C pour Cervus canadensis. La seule solution raisonnable de ce chaos est de ne jamais utiliser les mots elk et élan : soit on se réfère aux animaux par leur nom scientifique binomial (ce qui est sans doute le mieux, mais plus long), soit on utilise les termes inambigus que sont moose/orignal pour Alces alces, et wapiti pour Cervus canadensis. C'est ce que je fais (enfin, les très rares fois où j'ai envie de parler de ces bébêtes autrement que comme des cervidés interchangeables — et où j'arrive à me rappeler ce qui est quoi).

Mais revenons à la manière de dire x≥0 ou plus généralement xy avec des mots.

Il y a un mot abominable en anglais, c'est nonnegative : la logique étant que negative signifie <0 et que nonnegative signifie donc ≮0 [vous devriez voir le symbole barré, je ne sais pas à quel point ce caractère Unicode est courant], c'est-à-dire (que x is nonnegative signifie) ¬(x<0), autrement dit ≥0. C'est abominable à au moins deux titres. D'abord, ça ne lève pas l'ambiguïté : dès lors qu'il existe des gens qui disent negative pour ≤0, et il y en a (oui, même en anglais), le fait de dire nonnegative ne nous aide pas (bon, dans les faits, je pense que vraiment personne n'utilise ce mot pour autre chose que ≥0, mais ça reste vraiment problématique sur le principe ; il y a au moins bien des gens qui ont dû écrire x is not negative pour x>0). Ensuite, dès lors qu'on a possiblement affaire à des ordres partiels, la négation de <0 n'est pas ≥0. Ça n'a pas empêché que quelqu'un (qu'il faudrait pendre haut et court) d'avoir inventé le terme abominable de nondecreasing pour une fonction f telle que xy implique f(x)≥f(y) (dans la convention selon laquelle increasing resp. decreasing signifie strictement croissante resp. strictement décroissante, i.e., que x>y implique f(x)>f(y), resp. que x>y implique f(x)<f(y)). Donc nondecreasing n'est pas la négation d'aucun sens raisonnable de decreasing, et le Club Contexte se frotte très fort les mains. (Déjà qu'en France on a du mal à faire comprendre aux étudiants que la négation de strictement décroissant n'est pas croissant, mais alors j'ai vraiment pitié pour les enseignants qui doivent faire avec cette terminologie merdique et expliquer que la négation de decreasing n'est pas nondecreasing.)

Il est nettement préférable de dire positive or zero et, en français, positif ou nul pour ≥0, et bien sûr greater than or equal to et, en français, supérieur ou égal pour . Je vais expliquer ci-dessous pourquoi je n'en suis toujours pas complètement satisfait. Mais en tout état de cause, ça ne résout pas vraiment le problème pour le mot increasing / croissant qu'il faut désambiguïfier en strictly increasing / strictement croissant et en… en quoi, justement ?, si on ne veut pas tomber dans l'abomination qu'est nondecreasing ?

Je n'ai toujours pas trouvé de réponse vraiment satisfaisante à ce dilemme. Le mieux est sans doute d'utiliser une variante de weakly en anglais et de au sens large en français (i.e. : weakly positive / positif au sens large pour ≥0 ; weakly greater / supérieur au sens large pour  ; et weakly increasing / croissante au sens large pour xyf(x)≥f(y)). Mais ces termes, ou du moins ceux à base de weak en anglais, ne sont pas terriblement courants (ou peuvent désigner des choses encore complètement différentes) et risquent donc encore de causer de la confusion. Je ne crois pas que ce soit mieux avec des termes comme laxly, broadly, loosely, flacidly, leniently, softly ou tout ce que je peux imaginer, soient plus clairs. Il n'y a peut-être pas de bonne solution ! (Pour remplacer spécifiquement les abominations que sont nondecreasing et nonincreasing, il y a order-preserving et order-reversing qui sont, je crois, inambigus, et qui sont encore ce que je peux proposer de mieux à ce chapitre, mais c'est vraiment un pis-aller.)

J'ai mentionné le fait qu'utiliser le terme nonnegative, c'est-à-dire utiliser la négation de <0, pour donner un nom à ≥0, était mauvais parce que ça ne fonctionne pas en présence d'ordres partiels. Il faut que j'explique aussi que je n'aime pas trop non plus positive or zero : une raison est qu'en mathématiques constructives, l'énoncé x≥0 n'est généralement pas équivalent à x>0 ∨ x=0 (et ça se comprend intuitivement : le premier signifie qu'on est certain que x est plus grand que n'importe quel rationnel strictement négatif, ou si on préfère plus grand que n'importe quel −1/2k ; tandis que le second signifie que soit on est capable d'exhiber une borne inférieure rationnelle strictement positive pour x, disons un 1/2k si on préfère, soit on est certain qu'il est nul ; mais si je prends le réel x entre 0 et 1 donné par l'écriture binaire dont le n-ième chiffre vaut 0 si une certaine machine de Turing ne s'arrête pas au bout de n étapes, et 1 si elle s'est arrêtée au bout de ce nombre d'étapes, alors on a trivialement x≥0 puisque j'ai défini un nombre entre 0 et 1, mais on ne peut pas forcément affirmer x>0 ∨ x=0 faute de savoir si la machine s'arrêtera ou pas[#4]). Bref, si on veut préserver la possibilité d'écrire des maths constructives[#5], on ne peut pas utiliser le terme positive or zero ou, en français positif ou nul.

Mais bon, de toute façon, les raisons de ne pas vouloir dire positif ou zéro sont assez nombreuses : pour dire que f(x)≥0 partout, si on commence à dire que f est partout positive ou nulle, on ne sait pas trop si cela signifie f est (partout positive) ou [partout] nulle ou f est partout (positive ou nulle), et du coup, on n'a pas levé l'ambiguïté sur le mot positif. C'est pour ça que je cherche plutôt une variante autour d'un adverbe comme weakly ou (d'une locution adverbiale comme) au sens large, évitant toute disjonction.

(On m'a aussi soufflé bounded above/below by, qui est probablement inambigu pour désigner l'inégalité large. Mais ça fait quand même des phrases bizarres.)

[#4] Bon, je me suis un peu autoconfusé en écrivant cet exemple, parce que comme un mathématicien classique, je me suis dit qu'un réel donné par une écriture binaire monotone (c'est-à-dire qu'à partir du moment où il y a un 1, il n'y a que des 1) est évidemment rationnel (classiquement, il vaut 0 ou bien 1/2k), or pour un rationnel, même en mathématiques constructives, x≥0 est bien équivalent à x>0 ∨ x=0. Ça doit donc être que ce x n'est pas forcément rationnel, ce qui est sensé parce que je ne peux pas lui en exhiber un dénominateur, mais c'est vraiment trop horrible qu'une écriture binaire monotone ne donne pas forcément un rationnel.

[#5] Ironiquement, sur les réels, les maths constructives sont d'accord avec le terme nonnegative, puisque ¬(x<0) équivaut bien à x≥0. (Je ne sais pas pourquoi, j'étais persuadé du contraire, au moins sur les réels de Dedekind. Mais vérification faite, c'est pareil.) C'est sans doute quand même mieux d'imaginer x≥0 comme signifiant ∀y<0.(y<x), où éventuellement y est limité aux rationnels, si on doit définir l'inégalité large en fonction de l'inégalité stricte. Toujours est-il que le rapport entre un ordre strict et un ordre large est assez complexe à cerner comme l'illustre cette question de MathOverflow qui n'a pas vraiment reçu de réponse satisfaisante.

Le combat pour rendre les mathématiques aussi lisibles que possible, et pour écrire de façon à lever toutes les ambiguïtés, est évidemment semé d'embûches (d'autant que les deux buts peuvent être un peu contradictoires quand la levée de l'ambiguïté se fait par des formulations excessivement lourdes qui finissent par causer de la confusion). Je n'ai pas de solution miracle. Mais la moindre des choses serait au moins que tous les mathématiciens et tous les enseignants du sujet, et plus généralement tous ceux qui sont amenés à « parler mathématiques » soient au moins conscients de certains de ces problèmes (et surtout qu'on n'en reste pas à des jugements péremptoires comme en français, positif signifie ≥0 et supérieur signifie , tandis qu'en anglais, positive signifie >0 et greater than signifie >). Bien sûr, dualement, les lecteurs doivent être au courant que les ambiguïtés existent, et que tous les auteurs ne font pas forcément beaucoup d'efforts pour les leur épargner.

(La question peut se poser dans l'enseignement : utiliser une terminologie soigneusement choisie pour éviter toutes les ambiguïtés et confusions est globalement une bonne idée, mais un jour ou un autre il faut bien que les étudiants soient confrontés au fait que tout le monde n'utilise pas forcément les mêmes termes de la même façon ; cf. la note #5 de cette entrée.)

↑Entry #2562 [older| permalink|newer] / ↑Entrée #2562 [précédente| permalien|suivante] ↑

↓Entry #2557 [older| permalink|newer] / ↓Entrée #2557 [précédente| permalien|suivante] ↓

(dimanche)

Une méditation sur le nombre 24 et la causalité en mathématiques

Dans cette entrée, je vais commencer par parler de maths, mais ensuite je veux me servir de ce que j'aurai raconté pour soulever une question de philosophie (ou peut-être, de psychologie) des maths. Ces deux parties n'ont pas vraiment de rapport sauf que la première sert d'illustration pour la seconde : on doit pouvoir sauter la première partie (ou la lire en diagonale) et quand même comprendre quelque chose à la seconde, enfin, j'espère. (Mais bon, je ne suis pas content de ce que j'ai écrit dans la seconde partie, donc ça n'a peut-être pas d'intérêt.)

*

Je racontais récemment que le nombre 24 était particulièrement magique à cause de l'existence de certains objets exceptionnels, notamment le réseau de Leech en dimension 24 (défini dans l'entrée en question). Maintenant, considérons le fait suivant (problème des boulets de canon, conjecturé par Édouard Lucas autour de 1875 et démontré par George Watson en 1918) :

L'équation 0² + 1² + ⋯ + n² = m² a exactement trois solutions, à savoir quand (n,m) vaut (0,0), (1,1) ou (24,70). Autrement dit, à part les deux cas triviaux (0²=0² et 0²+1²=1²), la seule situation où la somme des carrés des premiers entiers naturels est encore un carré est donnée par 0² + 1² + ⋯ + 24² = 70².

(La somme 0²+1²+⋯+n² vaut encore n·(n+1)·(2n+1)/6, mais si on écrit l'équation comme n·(n+1)·(2n+1) = 6m², on ne voit pas vraiment pourquoi elle est intéressante.)

Ce n'est pas très facile à montrer, mais ce n'est pas ça qui m'intéresse.

On pourrait dire que le fait que la somme des carrés des entiers naturels jusqu'à 24 est un carré (et qu'à part les cas triviaux c'est le seul) est une propriété remarquable du nombre 24. Pas franchement passionnante, mais bon. Mais a priori, on se dit que cette propriété n'a aucun rapport particulier avec les propriétés magiques du nombre 24 que j'ai évoquées dans mon autre entrée.

Sauf qu'en fait, si.

Pour expliquer ce rapport, considérons d'abord l'espace minkowskien de dimension 25+1, défini comme l'ensemble des 26-uplets de nombres réels (x0,…,x24,t), que je vais plutôt noter (x0,…,x24|t) pour bien séparer la dernière coordonnée que j'appelle t (bref, c'est juste ℝ26 mais noté un peu spécialement). Je définis la norme-carrée lorentzienne[#] d'un tel vecteur comme x0² + ⋯ + x24² − t² (avec un signe moins sur la coordonnée spéciale), et le produit scalaire lorentzien de (x0,…,x24|t) et (x0′,…,x24′|t′) comme x0x0′ + ⋯ + x24x24′ − tt′. C'est le genre de produit scalaire qu'on utilise en relativité restreinte (avec, ici, une dimension de temps et 25 dimensions d'espace). Je définis le vecteur w := (0,1,2,…,24|70), qui est de norme-carrée nulle — on peut aussi appeler ça un vecteur isotrope — à cause du fait énoncé ci-dessus. On dira qu'un vecteur est orthogonal à w lorsque son produit scalaire lorentzien avec w est nul, c'est-à-dire x1 + 2x2 + ⋯ + 24x24 − 70t = 0 ; c'est le cas de w lui-même, comme je viens de le dire, ou, bien sûr, de n'importe quel multiple de w. Maintenant, considérons l'ensemble U = ⟨w/⟨w⟩ des vecteurs orthogonaux à w modulo les multiples de w, c'est-à-dire les vecteurs vérifiant x1 + 2x2 + ⋯ + 24x24 − 70t = 0 mais où on identifie deux tels vecteurs (x0,…,x24|t) et (x0′,…,x24′|t′) lorsque leur différence est un multiple (réel) de w (c'est-à-dire, si on veut, que xi′−xi = i·(x1′−x1) pour 0≤i≤24, et t′−t = 70·(x1′−x1)). La norme-carrée d'un élément de U est simplement donnée par sa norme-carrée lorentzienne x0² + ⋯ + x24² − t². Ce U est simplement un espace euclidien de dimension 24 (pour la norme que je viens de définir : ce n'est pas difficile de voir qu'elle est positive définie), et on peut se demander pourquoi j'ai fait tout ce boulot juste pour définir un espace euclidien qu'on pourrait identifier à ℝ24 pour sa norme euclidienne usuelle (il n'y a qu'un espace euclidien de chaque dimension).

Voici la raison : considérons maintenant l'ensemble (généralement noté II25,1, une notation indiciblement pourrie) des (x0,…,x24|t) tels que (A) toutes les coordonnées (xi et t) sont entières ou bien toutes sont entières-et-demi (c'est-à-dire un entier plus ½), et (B) la somme x0+⋯+x24+t de toutes les coordonnées est paire. C'est notamment le cas du vecteur w := (0,1,2,…,24|70) que j'ai introduit. Faisons exactement comme ci-dessus avec les contraintes (A)&(B) d'intégralité que je viens d'introduire : appelons Λ l'ensemble des vecteurs vérifiant (A)&(B) (i.e., appartenant à II25,1) orthogonaux à w modulo les multiples (forcément entiers) de w.

[#] Re terminologie : il y a toujours un doute, quand on parle de la norme, dans un contexte quadratique, comme ça, pour savoir si c'est la forme quadratique elle-même ou sa racine carrée ; c'est vraiment pénible, parce que les deux valeurs sont plus ou moins naturelles selon le contexte. Quelqu'un devrait inventer deux termes qui lèvent totalement l'ambiguïté. Faute de mieux, j'écris norme-carrée, mais je ne suis pas content de ce terme, parce que dans ce contexte, la norme-carrée peut évidemment être négative (c'est plutôt la norme-sans-carré qui est la/une racine carrée de la norme-carrée que la norme-carrée qui le carré de la norme-sans-carré…).

Je répète, donc : Λ est l'ensemble des 26-uplets (x0,…,x24|t) de réels qui (A) sont tous entiers ou tous entiers-et-demi, (B) dont la somme est paire, et qui de plus sont orthogonaux à w au sens où x1 + 2x2 + ⋯ + 24x24 − 70t = 0, et où on identifie ceux qui diffèrent par un multiple (forcément entier) de w ; et la norme-carrée d'un tel élément est donnée par x0² + ⋯ + x24² − t² (et elle est forcément positive, et n'est nulle que si le vecteur est nul [c'est-à-dire représenté par un multiple de w]). À titre d'exemple, (2,0,0,…,0|0) est un vecteur de Λ (de norme-carrée 4) puisqu'il vérifie (A)&(B) et que son produit scalaire lorentzien avec w est nul ; c'est le même élément de Λ que (2,1,2,3,4,…,24|70) ou que (2,2,4,6,8,…,48|140) (puisque ceux-ci diffèrent par des multiples de w).

Eh bien ce Λ est le réseau de Leech.

Ce que je veux dire par est, c'est qu'on peut identifier les points du Λ que je viens de définir avec ceux du réseau de Leech que j'ai défini dans cette entrée de façon compatible à l'addition et à la norme (à un facteur multiplicatif près, qui doit être √8) : la disposition des points de Λ dans l'espace euclidien U défini ci-dessus est celle du réseau de Leech (et réalise, par exemple, l'empilement optimal des sphères d'une certaine taille).

(J'avoue que je n'ai pas d'isomorphisme explicite sous la main entre les deux réseaux. Je ne suis même pas sûr de savoir lister les 196 560 points de norme-carrée 4.)

Bon, tout ça peut toujours ressembler à une sorte de coïncidence superficielle. Mais ce n'est pas que ça : cette description du réseau de Leech via le réseau minkowskien II25,1 et le vecteur w particulier donné par la solution du problème des boulets de canon 0² + 1² + ⋯ + 24² = 70² est au cœur de l'explication uniforme par Borcherds des 23 constructions du réseau de Leech trouvées par Conway et Sloane (cf. ce que je racontais dans l'entrée sur Leech au sujet des « réseaux de Niemeier »).

*

Bon, alors, pour résumer ce que j'ai dit dans la première partie, il y a « un rapport » entre :

  • l'identité numérique 0² + 1² + ⋯ + 24² = 70², qui est en gros la seule de son type, et
  • l'existence d'un réseau remarquable en 24 dimensions appelé le réseau de Leech (et qui réalise, notamment, la façon optimale d'empiler les sphères en cette dimension).

« Un rapport » étant au moins compris dans le sens que l'existence de cette identité permet commodément de construire le réseau. (Si vous n'avez pas été convaincus par le côté naturel de la construction que j'ai donnée, essayez de me croire : c'est vraiment quelque chose d'assez naturel à faire que de considérer ⟨w/⟨w⟩, et l'autre ingrédient de la construction, le réseau minkowskien II25,1 qui, lui, n'a rien d'« exceptionnel » parce qu'il fait partie de la famille tout à fait évidente IIk, lorsque k est multiple de 8, est aussi un objet vraiment standard.)

Maintenant, la question que je veux illustrer avec ça, c'est : y a-t-il une notion de causalité en mathématiques ? et si oui, comment peut-on l'approcher, au moins informellement ? Peut-on dire que c'est « à cause » de l'égalité 0² + 1² + ⋯ + 24² = 70² que le réseau de Leech existe ? Ou au contraire, que c'est « à cause » du réseau de Leech que cette égalité est vraie ?

C'est quelque chose de très bizarre. La causalité (A cause B) normalement s'imagine en faisant l'expérience de pensée si A ne se produisait pas, alors B ne se produirait pas non plus (i.e., dans un monde parallèle où A n'a pas lieu, B n'a pas lieu non plus), et ça, en mathématiques, ce n'est pas possible : les mathématiques sont comme elles sont, il est vraiment difficile d'imaginer des mathématiques différentes (enfin, on peut toujours jouer à essayer, mais à part jouer avec les axiomes ce qui n'est pas du tout le point ici, ou à part trouver des analogies et des situations parallèles, ça ne marche pas vraiment). Pourtant, il y a des situations où on a vraiment l'impression qu'un phénomène mathématique en « explique » un autre, ou même qu'on a envie de dire qu'il le « cause ».

Pour prendre un exemple simple, prenez une calculatrice et calculez (1+√2)n pour des n de plus en plus grands : on obtient des nombres de plus en plus proches d'un entier (et qui sont alternativement juste un peu en-dessous d'un entier et juste un peu au-dessus) : l'« explication » est que (1+√2)n + (1−√2)n, lui, est exactement un entier (comme on le voit en développant), si bien que (1+√2)n est égal à un entier moins (1−√2)n, et que 1−√2 vaut approximativement −0.4, donc il est négatif et surtout, plus petit que 1 en valeur absolue (donc (1−√2)n est alternativement positif et négatif, et tend vers 0). En disant ça, j'ai démontré le phénomène observé, mais on est tenté de dire que je ne l'ai pas seulement démontré, je l'ai aussi expliqué ; et on a tendance à dire que c'est à cause du fait que |1−√2|<1 que (1+√2)n devient proche d'un entier pour n grand.

Un autre exemple classique (que j'ai peine à croire que je n'ai jamais mentionné sur ce blog !) est le fait que exp(π·√163) est presque un entier (il vaut 262 537 412 640 768 743.999 999 999 999 25…, très proche de 640 320³ + 744), ce qui s'« explique » par le fait que la valeur de l'invariant modulaire j (peu importe ce que c'est exactement) en τ = (1+√−163)/2 vaut exactement −640 320³, ce qui s'« explique » à son tour par des raisons de théorie des nombres, et que j(τ) admet un développement qui commence par 1/q + 744 + 196 884·q + ⋯ (dont les coefficients ne croissent pas trop vite) où q = exp(2iπ·τ), si bien que pour τ = (1+√−163)/2, la quantité 1/q = −exp(π·√163) vaut −640 320³ − 744 − 196 884·q − ⋯ est très proche de la somme des deux premiers termes. Ce qui est intéressant, là, c'est qu'un logiciel de calcul numérique quelconque, si on fait attention aux précisions des développements, peut démontrer que exp(π·√163) est proche d'un entier, simplement en calculant sa valeur ; mais on a cette démonstration n'est pas « explicative » : on constate que c'est le cas, mais on n'a pas de « raison », alors qu'en faisant intervenir l'invariant modulaire, on a une explication de pourquoi 163 a cette propriété.

Et cette notion de causalité en mathématiques, bien que problématique à cerner, est non seulement utile mais même prédictive : c'est en observant des traces de pas qu'on peut parfois dire qu'une licorne ou un éléphant blanc est passé par là et a causé les traces de pas. Un des signes qui a permis de détecter le groupe Monstre (que je range dans la catégorie « éléphant blanc ») était le calcul de sa table de caractères (peu importe ce que c'est exactement) : une table des caractères doit vérifier énormément de relations, et le fait que ces relations « marchent » était le signe qu'il y avait quelque chose qui les « causait », l'explication la plus naturelle étant, justement, l'existence d'un tel groupe.

Mais en même temps, ça semble complètement impossible, et futile d'essayer, de distinguer clairement une notion de « démonstration explicative » d'une notion de « démonstration non-explicative ». (Conway et Sloane ont montré par des calculs explicites que chacun des 23 réseaux de Niemeier permettait de construire le réseau de Leech, Borcherds a fourni une démonstration uniforme à base de (0,1,2,…,24|70), on considère cette dernière comme plus explicative, mais ce n'est vraiment pas clair ce que ça veut dire au juste.)

Bon, mes méditations tournent un peu en rond donc je vais mettre un terme à cette entrée, mais pour moi, c'est un des mystères des mathématiques : il y a toute une série d'objets exceptionnels qui sont reliés les uns aux autres parfois de façon très surprenante, on a envie de croire qu'ils se « causent » les uns les autres, qu'ils sont là pour une raison, d'autant que la manière dont ils apparaissent fait l'effet psychologique d'une mécanique bien huilée, mais on est obligé de se rappeler que tout ça ne veut pas dire grand-chose, les mathématiques sont comme elles sont, c'est tout.

↑Entry #2557 [older| permalink|newer] / ↑Entrée #2557 [précédente| permalien|suivante] ↑

↓Entry #2555 [older| permalink|newer] / ↓Entrée #2555 [précédente| permalien|suivante] ↓

(jeudi)

Les trois magiciens du nombre 24 : le code de Golay, le réseau de Leech et le module de Moonshine

S'il y a un nombre magique en mathématiques, c'est bien 24. (Je pense que Douglas Adams a juste inversé les chiffres.) Le nombre 8 vient presque à égalité, et 12, peut-être 6 et 16 ont aussi quelques propriétés magiques (qui, globalement, sont toujours liées à celles de 24), mais celui qui est vraiment farabuleux (pardonnez le néologisme), c'est 24.

Je voudrais dans cette entrée essayer de témoigner de la magie de 24 en définissant deux et en évoquant le troisième de trois objets exceptionnels qui font que 24 est si spécial. On pourrait aussi les appeler les trois générations de « magiciens » qui tirent leur pouvoir magique du nombre 24. Ces objets sont : le code de Golay binaire (première génération), le réseau de Leech (deuxième génération), et le module de Moonshine (troisième génération). Mon but est donc d'en parler un peu, en définissant proprement les deux premières générations, en essayant que ce que je dis sur la première soit accessible à un très large public, et en disant quelques mots de la troisième. Ou du moins, mon but était tout ça, parce que je me suis pas mal embourbé et je ne suis pas du tout content de ce que j'ai écrit : je donne certes une définition du code de Golay binaire et du réseau de Leech, mais je crois ne pas avoir du tout réussi à passer l'idée de pourquoi ils sont intéressants au fond. Et comme souvent, je crois que je me retrouve à présupposer de mon lecteur un niveau de connaissances mathématiques préalables qui varie de façon assez incohérente d'un endroit à l'autre (au début je m'efforce vraiment de ne rien supposer, et à la fin, il sera certainement nécessaire d'avoir au moins une intuition de ce qu'est un groupe). Néanmoins, maintenant que tout ça est écrit, je ne vais pas ne pas le publier, donc prenez-le pour ce que ça vaut.

Comme par ailleurs, le nombre 8 est aussi magique (quoiqu'un peu moins que 24), je peux aussi parler de deux des trois[#] générations de magiciens qui tirent leur pouvoir magique de celui-ci : le code de Hamming de longueur 8 et le réseau E₈, parce qu'ils sont utiles pour approcher leurs analogues du nombre 24.

[#] Je crois que le troisième qui complète la série serait l'algèbre d'opérateurs de sommets dont Griess parle dans son article A vertex operator algebra related to E₈ with automorphism group O⁺(10,2), mais je ne comprends décidément pas bien tout ça.

Bref, le tableau à garder en tête (juste pour le plan : je vais expliquer ce que tout ça veut dire) est quelque chose comme :

Nombre magique1re génération2e génération3e génération
24Code de Golay binaireRéseau de LeechModule de Moonshine
8Code de Hamming de longueur 8Réseau E₈[Voir note #]

Le terme de génération évoque l'idée que les objets de la deuxième génération se définissent en termes de ceux de la première, et ceux de la troisième en termes de ceux de la deuxième, et qui plus est, il y a une certaine similarité entre la manière dont ces objets s'enfantent les uns les autres (je ne prétends pas que c'est rigoureusement la même, ni entre les colonnes, ni entre les lignes : notemment, il n'y a pas de « foncteur » dans l'affaire, juste une certaine analogie).

Je vais aussi évoquer, à chaque fois, les groupes de symétrie de ces différents objets, qui ressembleront à la numérologie suivante (là aussi, je dois expliquer ce que sont ces machins, mais à chaque fois, je donne le nom du groupe de symétrie et son ordre, c'est-à-dire le nombre de symétries) :

Nombre magique1re génération2e génération3e génération
24
M24
244 823 040
Co₀
8 315 553 613 086 720 000
Monstre (F₁)
808 017 424 794 512 875 886 459 904 961 710 757 005 754 368 000 000 000
8
C₂³⋊PSL(3,2)
1 344
W(E₈)
696 729 600
O(10,2,+) [???]
46 998 591 897 600

Plan de la suite :

↑Entry #2555 [older| permalink|newer] / ↑Entrée #2555 [précédente| permalien|suivante] ↑

↓Entry #2551 [older| permalink|newer] / ↓Entrée #2551 [précédente| permalien|suivante] ↓

(jeudi)

Le corps à un élément, et autres licornes mathématiques

Les chasseurs-prouveurs se rassemblaient comme chaque soir autour de l'équation de la chaleur et se racontaient les histoires de leurs aventures. Joueur-Atlas, qui était célèbre pour avoir autrefois attrapé un groupe parfait à 8 315 553 613 086 720 000 éléments évoqua le fils de « son » groupe, dont il avait aperçu la silhouette monstrueuse, à la lumière de la lune, en train de remuer près du nombre 196 883, et qu'il espérait voir un jour capturé. Mais ce soir, c'était au tour du vieux Bâtisseur-Alternatif de prendre la parole.

— Un jour, j'ai vu un corps comme je n'en avais jamais vu auparavant.

Il désigna une figure rupestre qu'il avait exécutée il y a longtemps, à la craie sur le tableau noir du Hilbertraum : un F pas tout à fait gras finissant par un 1 plutôt bas. Et il conclut théâtralement :

— Figurez-vous que ce corps n'avait qu'un seul élément.

Certains soupiraient d'entendre Bâtisseur-Atlernatif raconter toujours la même histoire à dormir debout, mais les jeunes chasseurs-prouveurs étaient fascinés :

— Un corps à un seul élément ? Mais ce n'est pas possible, grand-père !

— Pourtant je l'ai bien vu. Et attendez, ce n'est pas le plus incroyable… il était… sous l'anneau des entiers !

Cette révélation fit place à un silence choqué de la part de ceux qui n'avaient pas encore entendu cette légende. Un corps caché sous l'anneau des entiers ! Cela semblait si impossible — et en même temps si prometteur !

Bon, trêve d'humour à 1/1728 zorkmids.

Ce que j'appelle licorne mathématique, c'est un objet mathématique dont on aimerait croire à l'existence, un objet dont on a une certaine intuition et même des indices suggérant sa présence, qui, naïvement envisagé tel quel, n'existe pas, n'est pas possible, conduit à des paradoxes et des contradictions. On peut démontrer qu'il n'existe pas, que les propriétés qu'on lui attribue sont impossibles, et pourtant, on cherche quand même un moyen de le faire exister.

Ce qui fait que les licornes sont des licornes, c'est qu'on n'a pas trouvé la bonne définition ou la bonne théorie-cadre. Chasser la licorne, c'est donc chasser la définition ou la théorie qui lui permettra d'exister et de faire disparaître les paradoxes. Cela peut sembler bizarre : si on s'imagine qu'on donne naissance à un objet mathématique en le définissant, comment peut-il y avoir des objets qu'on poursuive sans parvenir à les définir ? Pourtant, cela se produit assez souvent (et je prends même ça pour un indice — certes pas terriblement concluant — dans le sens que les mathématiques existent indépendamment de l'homme).

*

L'exemple le plus simple est sans doute celui des nombres complexes. La manière dont je vais l'évoquer prend des libertés avec l'Histoire, qu'on m'en pardonne, mais mon but n'est past de raconter l'histoire des maths mais d'expliquer le concept d'une licorne. La racine carrée de −1, donc, était une licorne : un nombre qui, multiplié par lui-même, donne −1, c'est impossible a priori. Et on a une preuve de cette impossibilité : à savoir, que x soit positif ou négatif, son carré x² = x·x est forcément positif, donc ne peut jamais valoir −1. Bref, √(−1) est une licorne. Pourtant, quelqu'un prétend avoir vu des traces de la licorne : si on fait comme si elle existait, si on oublie cette impossibilité, si on mène les calculs comme si la racine carrée des nombres négatifs avait un sens, on arrive à résoudre des équations du troisième degré qu'on ne savait pas résoudre autrement (celles qui ont trois racines). Comment expliquer que quelque chose d'impossible conduise à une conclusion heureuse ? C'est cela qui fait soupçonner que la licorne existe vraiment, et qui donne envie de la capturer.

Maintenant on ne voit plus du tout que cette histoire a été une licorne : maintenant, √(−1) est un nombre complexe, quelque chose de tellement banal qu'on en oublie trop facilement que cela a pu représenter un paradoxe, une licorne. Pourtant, pour capturer cette licorne, il a fallu faire un saut conceptuel : abandonner l'idée que les nombres soient ordonnés, c'est un saut conceptuel gigantesque (les nombres ont été faits pour être ordonnés, pourrait-on dire ; les opérations algébriques sont une sophistication ajoutée sur le concept de comparaison). Mais une fois fait le saut conceptuel, une fois définie la notion de nombre complexe, la licorne est capturée, elle perd tout son mystère, on s'aperçoit que la définition antérieure de nombre était restrictive (ce qui ne signifie pas qu'elle n'ait pas de valeur !, il n'est pas question de remplacer systématiquement les nombres réels par des nombres complexes en mathématiques ou ailleurs).

Ce qui m'intéresse dans cette histoire, c'est la démarche où d'abord on aperçoit des traces de pas qui semblent paradoxales (cette bestiole marche comme un cheval, pourtant elle semble avoir une corne !), on traque le concept, et on finit par capturer la licorne, c'est-à-dire résoudre le paradoxe, rendre possible ce qu'on avait démontré impossible, en contournant l'impossibilité par une définition élargie. La licorne se capture par la définition. C'est inhabituel par rapport à la pratique générale des mathématiques qui consiste à chasser les preuves, pas les définitions (ni les licornes).

Méta : Dans la suite, je vais évoquer quelques autres licornes. Ne sachant pas à quel niveau de vulgarisation me placer, je n'ai pas vraiment pris de décision cohérente à ce sujet, et je suppose donc de la part de mon lecteur des connaissances variables de paragraphe en paragraphe : j'espère néanmoins avoir fait en sorte qu'on puisse comprendre un petit peu l'idée générale même si on ne comprend pas tel ou tel passage. D'autre part, comme mon but était de raconter une histoire plus que d'exposer des maths, il se peut que je dise des choses un peu abusées ici ou là (j'espère quand même avoir toujours été assez vague pour qu'on ne puisse pas m'accuser d'avoir écrit un énoncé indiscutablement faux, mais si c'est le cas, je mettrai la faute sur les licornes qui m'ont poussé).

↑Entry #2551 [older| permalink|newer] / ↑Entrée #2551 [précédente| permalien|suivante] ↑

↓Entry #2549 [older| permalink|newer] / ↓Entrée #2549 [précédente| permalien|suivante] ↓

(samedi)

Quelques conseils pour les étudiants en maths

À l'approche de la rentrée, je me dis qu'il peut être utile que je publie quelques conseils pour les étudiants en maths. Ceux-ci sont inspirés à la fois de ce que j'ai écrit dans ce fil Twitter et de ce que j'ai expliqué de vive voix à un élève de prépa qui me demandait de tels conseils : ayant ainsi un peu réfléchi à ce que j'avais à dire, autant le mettre sur ce blog.

Il s'agit là de conseils généraux (et sans doute d'une bonne dose de proverbial enfonçage de portes ouvertes à ma fidèle hache bénie +2 trempée dans la potion de banalités), s'adressant plutôt à des étudiants entre approximativement ce qui correspond, dans le système éducatif français, aux niveaux bac à bac+5 (disons) : grosso modo, avant ça, on ne fait pas tellement de maths au sens « raisonnement déductif » (ayant la démonstration comme méthode essentielle) ; et après, si vous en êtes arrivé là, vous avez assez de familiarité avec les mathématiques pour ne pas avoir besoin de mes conseils. Certaines des choses que je vais dire s'appliquent à d'autres disciplines adjacentes, comme la physique ou l'informatique (pour ce qui est de l'informatique théorique, mon avis est qu'il s'agit de toute façon d'une branche des mathématiques, même si elle ne s'assume pas toujours comme telle) ; quelques uns s'appliquent sans doute à n'importe quelle discipline, mais je me focalise quand même sur les maths.

On doit pouvoir tirer de ces conseils aux étudiants quelques conseils pour les enseignants (en appliquant la dualité étudiant-enseignant et le foncteur de réduction des platitudes), mais comme je n'aime pas donner des leçons à ce sujet, je vais laisser ça en exercice au lecteur.

✱ Conseil nº1 : aimer ce que l'on fait. C'est peut-être un peu idiot de dire ça, mais je suis persuadé qu'on ne peut correctement faire des maths que si on les trouve un minimum belles et intéressantes. Si on les conçoit comme une corvée, elles le resteront. Si on les conçoit comme (la métaphore que j'aime bien utiliser) l'exploration d'un palais magnifique et incompréhensiblement gigantesque, à la structure à la fois labyrinthique et élégante, on peut arriver à comprendre que ce soit à la fois excitant et séduisant, et en tirer la motivation nécessaire à leur étude.

Je ne peux évidemment pas donner de recette magique pour comprendre que les maths sont belles. C'est quelque chose que j'essaie de communiquer, mais il est évident que je ne vais pas transformer tout le monde en matheux. Mais, même si on a un a priori négatif (et certaines formes d'enseignement des mathématiques laissent hélas place à bien peu d'autre que la corvée rébarbative), il est au moins essentiel de garder l'esprit ouvert à cette possibilité, que les maths puissent être fascinantes. Je pense qu'il est au moins utile, même si on est réfractaire, de chercher les sous-domaines sur lesquels on accroche un peu plus, et de peut-être chercher à se renseigner sur l'allure générale du paysage mathématique, méditer sur la question de pourquoi certaines personnes y trouvent goût (est-ce qu'on a reçu une image déformée par un enseignement rébarbatif ou est-ce qu'on est véritablement hostile aux mathématiques ? dans ce dernier cas, il vaut certainement mieux arrêter de les étudier le plus rapidement possible et ne pas céder aux sirènes qui promettent une meilleure carrière ou quelque chose de ce genre). L'histoire des sciences peut aussi être une passerelle vers un intérêt pour les mathématiques elles-mêmes.

✱ Conseil nº1b : faire preuve de curiosité intellectuelle, et questionner ce que l'on fait. Apprendre le cours pour le cours est la meilleure garantie d'en rester là. Pour comprendre un cours de maths, il faut plutôt le questionner[#], le décortiquer, essayer de prendre du recul. Pour ça, le mieux est de garder à l'esprit toutes sortes de questions (pourquoi fait-on ça ?, où veut-on en venir ?, comment fonctionne cet objet ?) ; je vais donner des exemples plus précis de telles questions (à se poser à soi-même ou à poser à l'enseignant) dans les conseils suivants, mais le message plus général est que tout questionnement est bienvenu (voir aussi les conseils nº6 et 6b ci-dessous).

[#] Dans un cours de langue, si un étudiant demande pourquoi 95 en français de France se dit-il quatre-vingt-quinze ?, on ne peut pas vraiment lui donner de réponse sauf des choses comme c'est comme ça ou c'est un accident historique, peut-être accompagnées d'une histoire du phénomène (mais c'est déjà empiéter des langues sur la linguistique, et ça n'aidera pas tellement à l'apprentissage du français). L'enseignant en maths, lui, doit être prêt à se justifier de plus près que ça.

↑Entry #2549 [older| permalink|newer] / ↑Entrée #2549 [précédente| permalien|suivante] ↑

↓Entry #2548 [older| permalink|newer] / ↓Entrée #2548 [précédente| permalien|suivante] ↓

(jeudi)

Des figures que j'en ai marre de refaire, et des histoires de kaléidoscopes

[Dessins des systèmes de racines de rang 2]Il y a des des figures que je me retrouve à refaire encore et toujours, à chaque fois que je veux réfléchir à un certain sujet. Parmi ceux que je reproduis avec une fréquence qui finit par devenir vraiment pénible, il y a ceux qui apparaissent ci-contre à droite, et que je me suis enfin de sorti les doigts du c** pour produire en PDF avec TikZ (suivez le lien pour le PDF). Comme je ne suis certainement pas le seul trouver ces figures utiles pour réfléchir, je les mets en ligne. Et du coup, je peux en profiter pour faire un peu de vulgarisation sur ce qu'ils représentent.

Je vais essayer d'expliquer ça sous l'angle de la géométrie euclidienne élémentaire, à travers la question de classifier et de comprendre les kaléidoscopes (simpliciaux). L'intérêt, outre que c'est peut-être plus parlant, est ne pas supposer que qui que ce soit ait lu mon récent rant interminable sur les groupes de Lie (mais en même temps, essayer de dire les choses de manière à quand même éclairer le rant en question). En fait, après coup, je ne suis rendu compte que ce n'était pas forcément une très bonne approche, et que cette entrée ressemble beaucoup à une accumulation de faits qui partent dans tous les sens et qui ne reflètent pas bien (pun unintended) l'élégance du sujet. En plus de ça, comme c'est un sujet que j'ai l'habitude de voir abordé autrement que comme de la géométrie euclidienne, je ne suis pas très sûr de l'ordre dans lequel les faits s'agencent logiquement, et je n'ai pas toujours une idée très claire de la difficulté qu'il y aurait à les démontrer dans une telle approche. Et aussi à cause de ça, il faut que j'avertisse que je n'ai pas vérifié très soigneusement (je veux dire, encore moins que d'habitude…) tous les résultats que j'énonce dans cette entrée, et qu'il est fort possible que j'aie oublié une hypothèse ou une autre pour me raccrocher à là où je veux en venir ; notamment, j'ai failli complètement négliger la « condition supplémentaire » que j'ai finalement trouvé utile d'introduire plus bas dans la définition d'un kaléidoscope. Malgré tout ça, j'espère que ce que je raconte est au moins un peu intéressant.

↑Entry #2548 [older| permalink|newer] / ↑Entrée #2548 [précédente| permalien|suivante] ↑

↓Entry #2546 [older| permalink|newer] / ↓Entrée #2546 [précédente| permalien|suivante] ↓

(mercredi)

Quelques points de vue (de matheux) sur les grandeurs physiques et unités de mesure

Dans cette entrée, je voudrais évoquer la question des grandeurs physiques (longueur, durée, vitesse, masse, courant électrique…) et des unités de ces grandeurs. Je vais jeter un regard de matheux sur ce que ces choses sont, proposer quelques points de vue ou (esquisses de) définitions formelles possibles, et m'interroger sur l'utilité et la pertinence de ces points de vue, notamment pédagogiques, mais aussi du point de vue de la question de l'incertitude des mesures.

Je précise que cette entrée part un peu dans tous les sens, parce que j'ai commencé par écrire de la façon dont les idées me venaient (ou me revenaient, parce que ce sont des idées que je rumine depuis longtemps), et j'ai voulu raconter trop de choses à la fois, donc il y a plein de digressions. En plus de ça, j'ai un peu permuté les bouts que j'avais écrits (il en reste certainement des incohérences comme des je vais y revenir alors que les choses sont dans un autre ordre), puis repermuté, puis re-repermuté au fur et à mesure que j'ajoutais des digressions, et finalement je ne sais plus du tout dans quel ordre je dis les choses. Heureusement, il n'y a pas trop de lien logique clair ni de dépendance entre les différents morceaux ce que je raconte, donc on doit pouvoir lire cette entrée dans le désordre puisque c'est comme ça qu'elle a été écrite ! J'ai essayé de marquer par des triples accolades {{{…}}} (cf. ici) les digressions les plus identifiables, dans l'espoir que ça aide à s'y retrouver un peu.

À l'origine je voulais parler de la manière dont un mathématicien peut définir ce que sont les grandeurs physiques et leurs unités. Mais je n'ai pas résisté à parler d'autres choses, à faire un tableau de plein de grandeurs (ci-dessous) et à entrer dans des discussions sur ce que sont les grandeurs dans la pratique, sur les incertitudes et les échelles de masse. J'ai commencé à écrire des choses sur la réforme du SI qui doit avoir lieu d'ici quelques mois, puis je me suis dit que non, ça faisait vraiment trop, mais il en reste quand même des bouts… (Je garde donc pour une entrée ultérieure les explications précises sur la réforme du SI, même si j'y fais allusion à diverses reprises ici.) Bref, voilà pourquoi cette entrée est encore plus désordonnée que d'habitude. J'espère qu'il y a quand même des choses à en tirer !

Pour essayer de fixer la terminologie, j'appellerai grandeur (plutôt que dimension qui peut causer confusion) quelque chose comme « la masse » de façon abstraite ; et j'appellerai quantité [de cette grandeur] une masse particulière (par exemple 70kg), mesurée, donc, dans une unité. Si on veut parler comme un informaticien, donc, la grandeur sera, pour moi, le type (« la masse »), tandis que la quantité sera l'instance de ce type (70kg). Et l'unité est une quantité particulière (de la grandeur) qu'on a choisie pour exprimer toutes les autres. Comme n'importe quelle quantité non nulle (disons peut-être strictement positive) peut servir d'unité, la différence entre « quantité » et « unité » est juste une question de regard qu'on porte dessus.

Je ne sais pas si ce choix terminologique était le meilleur, je conviens que c'est un peu contre-intuitif de dire que la grandeur de [la quantité] 70kg est la masse, mais je ne suis pas certain qu'il existe de choix vraiment bon (et puis, maintenant que c'est fait, je n'ai plus envie de tout rééditer). J'ai essayé de m'y tenir systématiquement, de toujours utiliser le mot grandeur pour le type et quantité pour la valeur dans le type, mais je ne peux pas exclure quelques lapsus occasionnels.

Ajout () : En fait, je ne distingue pas vraiment la grandeur et la dimensionnalité de cette grandeur (définie formellement ci-dessous), par exemple je ne distingue pas les grandeurs « énergie » et « moment d'une force » (tous les deux ayant l'unité SI de kg·m²/s², même si dans un cas on l'appelle plutôt le joule et dans un autre cas plutôt le newton·mètre, la distinction est plus mnémotechnique que fondamentale) ; de même, pour moi, le watt et le volt·ampère sont bien la même chose, nonobstant le fait qu'on ne les utilise pas exactement de la même manière ; je vais faire occasionnellement allusion à ce problème.

Bref, qu'est-ce que c'est que toute cette histoire ?

Pour commencer, une des propriétés des grandeurs et des unités est qu'on peut les multiplier et les inverser (donc, les diviser) ; alors qu'on ne peut ajouter ou soustraire que des quantités de même grandeur, mais ça j'y reviendrai plus loin. Par exemple, une unité de longueur divisée par une unité de durée (=temps) donne une unité de vitesse (mètre par seconde, kilomètre par heure) : et il s'agit bien d'une division des quantités correspondantes (1km=1000m, 1h=3600s donc 1km/h = 1000m/3600s = (1000/3600)m/s = 0.2777…m/s). On peut dire que, indépendamment des unités, la grandeur « vitesse » est le quotient de la grandeur « longueur » par la grandeur « durée ». De même, la grandeur « surface » est le carré de la grandeur « longueur » (son produit par elle-même). Et la grandeur « fréquence » est l'inverse de la grandeur « durée » (l'unité SI de fréquence, le hertz, est l'inverse de l'unité SI de temps, la seconde).

↑Entry #2546 [older| permalink|newer] / ↑Entrée #2546 [précédente| permalien|suivante] ↑

↓Entry #2537 [older| permalink|newer] / ↓Entrée #2537 [précédente| permalien|suivante] ↓

(dimanche)

Un problème d'algorithmique (en lien secret avec la formule de Weyl)

Méta : Régulièrement je tombe sur des problèmes mathématiques qui me paraissent tellement simples, tellement naturels et/ou tellement évidents (je veux dire évidents à poser, pas forcément évidents à résoudre !) que c'est inconcevable qu'il n'existe pas déjà une littérature abondante à leur sujet. Mais faute de connaître les bons mots-clés ou la bonne façon de formuler le problème (car souvent un même problème admet mille et une reformulations ou réinterprétations), je peux galérer pour mettre le doigt sur cette littérature. C'est extrêmement frustrant. Pour digresser sur ce problème en général, cf. par exemple cette vidéo où le YouTubeur Tom Scott passe la moitié du temps à raconter combien il a eu du mal à trouver le terme Inogon light pour en savoir plus sur un type de signal nautique utilisant intelligemment des effets de moiré pour montrer aux bateaux où aller en fonction de leur position. L'Internet a quelque chose de la Kabbale : quand on connaît le Vrai Nom de quelque chose, on acquiert du pouvoir sur cette chose — en l'occurrence, le pouvoir d'en savoir plus. Le problème que je veux évoquer ici fait partie de ces problèmes qui me semblent tellement « s'imposer » que je suis sûr qu'il a un nom et qu'il y a des chapitres entiers de bouquins d'algorithmiques qui lui sont consacrés ; mais comme je ne le formule pas forcément sous le bon angle, je ne trouve pas.

Il s'agit, donc, de quelque chose que je comprends raisonnablement bien du côté mathématique, mais dont l'algorithmique me laisse passablement perplexe. Ce qui veut dire que j'ai beaucoup de choses à raconter, dont beaucoup ne sont sans doute pas pertinentes pour le problème algorithmique, mais je ne sais pas au juste ce qui l'est et ce qui ne l'est pas.

Voici la première variante du problème algorithmique, qui est la plus simple et élémentaire à énoncer : je vais l'appeler la variante (AS), parce que je vais vouloir en formuler un certain nombre, ce sera plus commode si je leur donne des noms. (Le S signifie symétrique ; le A est là comme dans la classification de Killing-Cartan, mais pour l'instant peu importe.)

(AS) On se donne x et y deux vecteurs (de longueur, disons, n≥1), à coordonnées entières. Je suppose que la somme des coordonnées de x est nulle, et pareil pour y (je ne sais pas si ça sert vraiment à quelque chose).

Problème : trouver tous les produits scalaires possibles σ(xy entre y et un vecteur σ(x) obtenu en permutant les coordonnées de x, avec, pour chacun, son nombre d'occurrences, c'est-à-dire le nombre de permutations σ des coordonnées de x qui conduisent à ce produit scalaire.

Exemple : si x=(−2,−1,0,1,2) et y=(−2,0,0,1,1), la réponse attendue est {−7: 4 fois, −6: 4 fois, −5: 12 fois, −4: 8 fois, −3: 12 fois, −2: 4 fois, −1: 8 fois, 0: 16 fois, 1: 8 fois, 2: 4 fois, 3: 12 fois, 4: 8 fois, 5: 12 fois, 6: 4 fois, 7: 4 fois} (chaque produit scalaire possible σ(xy étant suivi de son nombre d'occurrences : notamment, il y a 16 permutations des coordonnées de x qui donnent un produit scalaire nul avec y). • Autre exemple : si x=y=(−2,−1,0,1,2), la réponse attendue est {−10: 1 fois, −9: 4 fois, −8: 3 fois, −7: 6 fois, −6: 7 fois, −5: 6 fois, −4: 4 fois, −3: 10 fois, −2: 6 fois, −1: 10 fois, 0: 6 fois, 1: 10 fois, 2: 6 fois, 3: 10 fois, 4: 4 fois, 5: 6 fois, 6: 7 fois, 7: 6 fois, 8: 3 fois, 9: 4 fois, 10: 1 fois}.

Il y a évidemment plein de façons de reformuler ça et plein de remarques évidentes à faire. Par exemple, je peux dire qu'il s'agit de considérer toutes les façons d'apparier (bijectivement) les coordonnées de x avec celles de y et de sommer les produits des coordonnées appariées entre elles : sous cette forme, il est évident que le résultat est symétrique entre x et y ; par ailleurs, il est clair que ça ne change rien de permuter les coordonnées de x ou celles de y, donc on peut les supposer triées au départ. Si on veut, je me donne deux paquets (deux « multiensembles ») x et y de nombres, de même taille, mais sans ordre, et je cherche toutes les façons de faire un produit scalaire.

↑Entry #2537 [older| permalink|newer] / ↑Entrée #2537 [précédente| permalien|suivante] ↑

↓Entry #2532 [older| permalink|newer] / ↓Entrée #2532 [précédente| permalien|suivante] ↓

(mercredi)

Petite animation (merdique) d'ondes sur un tore plat

En lien avec l'entrée précédente (que personne n'a lue mais c'est normal), j'ai produit ce petit gadget JavaScript qui (s'il n'est pas complètement cassé) représente une animation de l'équation des ondes sur un tore plat, en l'occurrence le tore plat E/L quotient du plan euclidien E=ℝ² par un réseau L triangulaire équilatéral (i.e., la fonction est périodique par L), à partir d'une condition initiale gaussienne assez piquée (censée donnée une idée d'approximation d'une distribution δ). Si on préfère, cela revient à faire l'équation des ondes dans le plan à partir d'une condition initiale qui est la somme d'une gaussienne centrée sur chaque point de L. Concrètement, il s'agit juste de calculer (la fonction du temps t et du point xE/L) :

αL* cα exp 2 i π αx cos 2 π α t cα = exp α2 / U2

— soit, en plus moche pour les navigateurs cassés qui ne gèrent pas le MathML —

αL* cα·exp(2iπ(α·x))·cos(2π|αt) cα = exp(−|α|²/U²)

U est un paramètre d'étroitesse de la condition initiale, et, histoire de faire le lien avec les notations de l'entrée précédente, Λ(α)=|α|² et m(α)=1 pour le paramétrage par tous les éléments αL*. Ce que fait mon programme est uniquement de calculer cette somme (pour les α pas trop loin de l'origine dans L* ; pour alléger les calculs, il précalcule les fonctions de α et x et se contente ensuite de les sommer).

Commentaire mathématique : Si la dimension d'espace était impaire, l'évolution de l'équation des ondes à partir d'un δ initial se ferait uniquement sur des fronts sphériques centrés sur les points du réseau (imaginez que vous superposez une sphère centrée en chaque point de L, dont le rayon croit linéairement avec le temps, et dont l'amplitude décroît proportionnellement à la surface de façon que la quantité totale reste constante), et l'évolution à partir d'une gaussienne donne la même chose avec des sphères un peu épaissies ; en dimension paire, ce qui est le cas ici, ce « principe de Huygens » ne vaut pas, la fonction de Green de l'équation des ondes n'est pas concentrée sur une sphère[#], il y a une « queue » (négative par rapport au front d'onde, et qui apparaît en bleu sur mon animation). • Par ailleurs, même si le réseau L* ici est le réseau des poids de SU₃ et même si on a symétrie par le groupe de Weyl, il ne s'agit pas de l'équation des ondes sur SU₃ (pour ça il faudrait corriger Λ(α) et m(α)), c'est en gros ce qu'essaie d'expliquer l'interminable entrée qui précède.

[#] Ceci dit, ça doit être aussi assez joli comme dessin, une superposition de cercles de rayon croissant linéairement avec le temps et centrés sur chacun des points d'un réseau L triangulaire équilatéral.

Bon, tout ça fait des images pas trop moches, je dois l'avouer, et l'aspect « kaléidoscopique » apparaît assez clairement. Je pourrais mettre une animation de ce genre sur YouTube.

Ajout () : Voici les vidéos YouTube : pour un réseau triangulaire équilatéral et pour un réseau carré (j'ai eu la folie, dans les deux cas, de calculer ça en 1920×1080, 25fps, pour une vidéo de 3′=180s ; ça m'a pris deux fois 40 minutes de calcul, mais il faut reconnaître que le résultat n'est pas mal).

Ajout 2 : Je recopie le lien fourni dans le commentaire de Benoit qui a écrit une version bien plus efficace de mon animation en utilisant WebGL.

Mais le calcul en direct est péniblement lent. Je pensais que sur un ordinateur moderne je n'aurais même pas besoin d'optimiser et je pouvais calculer la somme de quelques centaines de cosinus par pixel d'une image de taille raisonnable à une vitesse d'animation qui dépasse la perception de l'œil humain, mais apparemment calculer des centaines de millions de cosinus par seconde ça ne se fait pas sur un simple ordinateur de bureau, en tout cas pas en JavaScript.

Comme je déteste optimiser par-dessus tout, et que JavaScript commence à me sortir par les oreilles, je ne touche plus à ce code. Si quelqu'un veut l'améliorer (rendre le truc interactif en ajoutant un bouton pause ou quelque chose comme ça, permettre de bouger, zoomer, ou ce que vous voudrez, ou encore changer le réseau — il y a juste quelques lignes à commenter/décommenter pour faire un réseau carré), envoyez-moi des patchs, mon code est lisible et commenté, mais je ne veux pas de suggestions non codées. Parce que, là, pour le moment, les incantations propitiatoires du JavaScript servant à conjurer des petites crottes de ragondin, elles me gonflent prodigieusement.

Si vous voulez savoir ce que ça donne comme son, voici la conversion directe en onde sonore de la valeur mesurée au point central (l'origine de E/L, celle où est centrée la gaussienne initiale, i.e., mettre x=0 dans les formules ci-dessus), avec exactement les paramètres de l'animation, juste accélérée d'un facteur 8800 par rapport à l'animation affichée par le JavaScript. Mais ça donne juste un bruit strident atroce (moralité, une jolie image ne correspond pas forcément à un joli son, et si je veux transformer des spectres en sons un peu harmonieux, une dissipation dans le temps, dépendant de la fréquence, est indispensable).

↑Entry #2532 [older| permalink|newer] / ↑Entrée #2532 [précédente| permalien|suivante] ↑

↓Entry #2531 [older| permalink|newer] / ↓Entrée #2531 [précédente| permalien|suivante] ↓

(lundi)

Où je commence par penser tout haut toujours à propos de spectres, et finis par ranter de façon interminable sur les caractères des groupes de Lie

Avant-propos : Cette entrée est une sorte de brain-dump, qui finit assez différemment de ce qu'elle commence. J'étais parti sur l'idée, sans avoir forcément pour but d'être compréhensible (en tout cas pas complètement, en tout cas pas par tout le monde), de jeter des réflexions surtout pour moi-même (comme une sorte de sauvegarde de mon état mental) sur des questions autour du spectre du laplacien. Sachant que je n'avais pas les idées complètement claires sur certaines des choses qui suivent, donc je ne peux pas expliquer tout ça parfaitement, encore moins le vulgariser au niveau où j'aimerais idéalement le faire : le but était plutôt de retrouver mes idées éventuellement plus tard, quitte à produire quelque chose d'un peu abscons et pas forcément bien correct mathématiquement ; et je me disais que ça ne ferait pas de mal de les mettre en ligne. Mais en pondant tout ça, je me suis laissé emporter par mon sujet, et la section sur les groupes de Lie compacts a pris une place démesurée, et s'est écartée du point de vue initial (finalement, pour ce que je raconte sur les groupes de Lie, on n'a pas vraiment besoin de savoir ce qu'est un laplacien ni de prononcer son nom, et d'ailleurs comme je prends l'exemple du groupe des rotations, on n'a pas vraiment non plus besoin de savoir ce qu'est un groupe de Lie compact) ; et j'en ai écrit des pages sur l'analyse de Fourier sur un groupe de Lie compact. Chose que je comprends quand même nettement mieux que le problème du spectre du laplacien en général, mais ça ne veut pas forcément dire que je l'explique mieux. Et finalement, je ne sais plus bien de quoi parle cette entrée, il y a plusieurs sujets assez indépendants, et le niveau auquel je place mes explications varie d'un endroit à l'autre. Bref, je ne sais pas ce que tout ça vaut, mais maintenant que c'est écrit, ce serait quand même idiot de ne pas le mettre en ligne. C'est dommage que, comme j'ai fait une énorme moussaka, tout le monde va être rebuté, mais tant pis, je n'ai plus le courage d'essayer de démêler les ingrédients de la moussaka.

Je commence en reprenant la ligne de pensées commencée dans l'entrée précédente (et inspirée par un roman de Connes, Chéreau et Dixmier, donc) : je cherche à produire des sons mathématiques intéressants (et pas déplaisants) à écouter, et une des façons d'y arriver semble être de considérer un spectre, notamment le spectre du laplacien (et donc en pratique, de l'équation des ondes) sur une variété riemannienne (compacte, parce que je ne suis pas analyste ni géomètre, moi, je ne sais pas gérer le cas non-compact[#]) ; plusieurs questions soulevées incidemment : quels objets choisir pour lesquels on sait calculer explicitement le spectre du laplacien (et qu'est-ce que ça signifie au juste) ?, quelles données sont associées au spectre en question ?, comment précisément convertir ce spectre en un son ?, d'ailleurs, comment mener le calcul sur ordinateur ? ; et aussi : comment vulgariser la notion de spectre du laplacien (notamment sur un groupe de Lie, espace riemannien symétrique, etc.) ? (Je ne compte pas tant essayer de faire cette vulgarisation ici et maintenant, mais peut-être donner les pistes par lesquelles je l'aborderais pour pouvoir les retrouver si je devais le faire plus tard.) Je vais évoquer le cas des tores plats (quotients de l'espace euclidien par un réseau) puis, comme expliqué au paragraphe précédent, je vais dévier sur la théorie de Weyl de l'analyse harmonique sur les groupes de Lie compacts, ce qui est largement indépendant de ce que je raconte au début. Et à la fin, je serai trop fatigué pour parler des espaces riemanniens symétriques autrement que pour dire que suis trop fatigué.

[#] Une blague, qui est d'ailleurs peut-être une histoire vraie, qu'on m'avait racontée il y a longtemps, concerne un mathématicien dont la femme… — non, ne soyons pas sexiste comme ceux qui m'ont raconté cette histoire, je vais plutôt dire : — une mathématicienne dont le mari ne connaît absolument rien aux maths ; mais elle lui a donné l'astuce suivante permettant presque à tous les coups de poser une question pertinente lors d'un échange entre matheux : il suffit d'attendre qu'il y ait une petite pause dans la conversation, de prendre un air pensif, et de demander et est-ce que vous avez considéré le cas non-compact ?.

Plan

↑Entry #2531 [older| permalink|newer] / ↑Entrée #2531 [précédente| permalien|suivante] ↑

↓Entry #2528 [older| permalink|newer] / ↓Entrée #2528 [précédente| permalien|suivante] ↓

(lundi)

Le Spectre d'Atacama — et quelques spectres de groupes de Lie à écouter

(La première partie de cette entrée parle d'un roman qui parle de maths, la second parle de maths vaguement inspirées par le roman en question : à part cette proximité d'idées, il n'y a pas vraiment de rapport entre elles. Si les maths vous ennuient, à la fin, il y a des sons bizarres à écouter.)

Je viens de finir de lire le livre Le Spectre d'Atacama d'Alain Connes, Danye Chéreau et Jacques Dixmier, et j'avoue que je ne sais pas bien ce que j'en ai pensé. Pour commencer, c'est un livre assez difficilement classable : une sorte de mélange entre roman de science-fiction, fantaisie poétique, vulgarisation scientifique, plaidoyer sur l'intelligence artificielle, conte philosophique, récit picaresque et transposition en fiction de cet essai sur l'hypothèse de Riemann. Chacun des ingrédients me plaît a priori, et j'aime beaucoup l'idée de faire de la fiction à partir de la science, y compris de façon un peu poétique ; mais je trouve le mélange trop peu homogène… disons qu'il y a des grumeaux.

Le style est souvent un peu faible, mais ça ne me gêne pas tant que ça ; ce qui me gêne nettement plus, en revanche, c'est que l'intrigue part tellement dans tous les sens, accumule tellement d'invraisemblances et de rebondissements en apparence gratuits que ma suspension d'incrédulité, à force d'être tellement secouée, finit par lâcher complètement le coup. Parfois le roman devient didactique, parfois il est humoristique, parfois encore onirique, mais il y a trop de moments où on ne sait pas vraiment à quel degré le lire. L'idée de départ est bonne : un astrophysicien travaillant au réseau d'antennes de l'Atacama détecte un spectre d'absorption qui l'intrigue et fait appel à un ami mathématicien (de l'IHÉS…) pour essayer de le comprendre. Il y a aussi quelques tableaux du milieu académique qui sont plutôt réussis. Mais rapidement, et quitte à divulgâcher jusqu'à la fin de ce paragraphe, il est question d'une physicienne qui a volontairement passé son cerveau dans le rayon du LHC et qui a acquis la conscience quantique de vivre dans un espace de Hilbert et des capacités transhumaines mais seulement quand elle est à proximité d'un certain ordinateur : et là, je trouve que c'est vraiment un peu trop ; en plus de ça, le mathématicien part dans un périple dont on ne comprend pas vraiment le sens, qui l'emmène à Valparaiso puis sur une île perdue au milieu de nulle part puis à Sainte-Hélène, et tout ça ne sert pas vraiment l'intrigue. Et quand il est question d'ordinateurs, on sent que les auteurs ne sont pas du tout dans leur élément.

Ceci étant, je pense que c'est un ouvrage intéressant sur le plan de la communication scientifique : pas tellement d'idées scientifiques (il y a un peu de vulgarisation, mais ce n'est certainement pas l'objet principal du livre, et elle est plutôt light), mais de l'amour de la science et — et c'est important — des liens qui relient mathématiques, physique et informatique, et aussi du fait que la science « dure » peut avoir des aspects poétiques. Sur ce plan-là, je dirais que c'est plutôt une réussite. Peut-être finalement que ce roman, qui ne présuppose pas de connaissances scientifiques ou mathématiques, plaira plus à ceux qui justement l'abordent sans a priori.

J'en viens à des maths : la lecture du roman décrit ci-dessus m'a au moins convaincu (ou rappelé) que « les spectres » c'est important et intéressant. Je sais bien, pour avoir souvent entendu des gens le dire, que le spectre du laplacien (sur une variété riemannienne, disons), par exemple, c'est archi-super-important, mais j'avoue que je ne sais essentiellement rien de ce qu'il y a à dire, justement, sur ce spectre du laplacien, même dans des cas idiots (compacts, agréablement symétriques, tout ça tout ça).

En guise d'exercice, je me suis dit que j'allais calculer le spectre du laplacien pour des groupes de Lie compacts G (ou éventuellement des espaces homogènes G/H, par exemple des espaces riemanniens symétriques ou bien des R-espaces (variétés de drapeaux réelles), choses que je confonds d'ailleurs trop facilement[#]).

[#] Digression : Les espaces riemanniens symétriques irréductibles de type compact et simplement connexes sont (les groupes de Lie compacts simples simplement connexes eux-mêmes ainsi que) les quotients G/KG est un groupe de Lie compact simple simplement connexe et K le sous-groupe compact connexe maximal d'une forme réelle G₀ de G (par exemple, la sphère de dimension n est Spin(n+1)/Spin(n) où Spin(n) est le compact connexe maximal de la forme Spin(n,1) de Spin(n+1)), et on peut aussi voir K comme les points fixes d'une involution de G qui correspond à l'involution de Cartan définissant G₀ ; j'ai certainement commis quelques erreurs en disant ça (notamment dans la connexité et la simple connexité), mais l'idée générale doit être à peu près ce que j'ai dit. Les R-espaces, eux, s'obtiennent sous la forme G₁/PP est un parabolique d'un groupe de Lie réel semisimple G₁, qu'on peut aussi voir comme G/(GP) où G est un sous-groupe compact connexe maximal de G₁ et GP un sous-groupe compact maximal (du facteur de Levi) de P (par exemple, l'espace projectif réel dimension n est défini par le quotient de SL(n+1,ℝ) par son parabolique maximal associé à la première racine simple, i.e., les matrices dont la première colonne n'a que des zéros à partir de la deuxième ligne, et on peut le voir comme le quotient SO(n+1)/S(O(n)×O(1)) du sous-groupe compact connexe maximal SO(n+1) de SL(n+1,ℝ)) ; de nouveau, j'ai certainement commis quelques erreurs en disant ça, mais l'idée générale doit être ça. Je n'ai jamais vraiment compris « pourquoi » il y avait ces deux types de quotients très importants des groupes de Lie réels compacts, comment il faut y penser, par exemple du point de vue de l'analyse harmonique, et, de façon encore plus perturbante, pourquoi certains espaces peuvent se voir à la fois comme un espace riemannien symétrique et comme un R-espace (ou presque : cf. l'exemple que je viens de donner de la sphère et de l'espace projectif réel). Si quelqu'un a des éléments de réponse à m'apporter ou simplement des références où ces deux types de quotients sont discutés côte à côte de manière à me désembrouiller, ça m'intéresse ! (J'ai regardé l'article Geometry of Symmetric R-spaces de Tanaka, et j'ai eu l'impression de comprendre encore moins bien et de confondre encore plus après sa lecture.)

Mais aussi, j'avais (peut-être même que j'ai encore) vaguement l'espoir que des spectres intéressants, comme le spectre du laplacien sur tel ou tel espace bien sympathique, pourrait conduire à des sons harmonieux et donc répondre à ma question de trouver un objet mathématique qui s'« auditorise » de façon intéressante et agréable (plutôt que de se « visualiser ») ; dans cet ordre d'idées j'avais bien produit ceci, mais ce n'était pas du tout agréable à écouter et la construction de ces sons n'était pas franchement des plus naturelles.

L'idée générale, cette fois-ci, est qu'une fois connu le spectre du laplacien on peut s'en servir pour résoudre l'équation des ondes et obtenir les fréquences des vibrations propres de l'objet considéré (comme les racines carrées des opposées des valeurs propres du laplacien). Et donc produire des sons qui correspondraient à la manière dont « vibre » l'objet considéré — un groupe de Lie compact G ou un espace homogène G/H — quand, par exemple, on donne un coup dessus.

J'avoue que l'idée de taper un groupe de Lie pour voir comment il résonne me plaît énormément. (Et si j'en crois la lecture du Spectre d'Atacama, ça a aussi des chances de plaire à Connes et/ou Dixmier.)

Bref. Du peu que je sais de l'analyse harmonique sur les groupes de Lie et du théorème de Peter-Weyl, et si je comprends bien que le Casimir fournit la valeur du laplacien sur ce qui correspond à chaque représentation irréductible, le spectre du laplacien sur un groupe de Lie compact G est donné, à un facteur multiplicatif près (essentiellement arbitraire(?), mais négatif), par l'ensemble des valeurs C(v) := ⟨v,v+2ρ⟩ où v parcourt le réseau des poids dominants pour G. (Si tout ceci est du chinois pour vous, ce n'est pas très important, mais l'idée est qu'à G est associé un réseau euclidien appelé le « réseau des poids » et un cône polyédral de sommet l'origine dans cet espace euclidien appelé la « chambre de Weyl », auquel appartient le vecteur ρ dit « vecteur de Weyl », et les poids dominants sont les éléments de la chambre de Weyl ; chaque tel v, ou plus exactement le « caractère » χv associé, peut se concevoir comme un mode propre — un mode de vibration, si on veut — du groupe G, et la valeur du Casimir C(v) := ⟨v,v+2ρ⟩, est essentiellement l'opposé de la valeur propre du laplacien dont le vecteur propre est le caractère : Δχv = −C(vχv pour une certaine normalisation de Δ. S'il y a dans l'assistance des gens qui s'y connaissent en analyse harmonique et qui pourraient confirmer que j'ai bien compris, et peut-être même recommander un endroit où ce que je viens de dire serait écrit noir sur blanc sous cette forme y compris avec la valeur du Casimir, je leur serais reconnaissant.) Par exemple, pour les groupes de rang 2 : pour A₂ (i.e., SU₃), je trouve des valeurs (proportionnelles à) 8/3, 6, 20/3, 32/3, 12, 16, 50/3, 56/3, 68/3, 24, 80/3, 30… (où seules celles qui sont entières sont possibles pour la forme adjointe PSU₃) ; pour B₂ (i.e., Spin₅), je trouve 5/2, 4, 6, 15/2, 10, 21/2, 12, 29/2, 16, 35/2, 18, 20… (où seules celles que j'ai soulignées sont possibles pour la forme adjointe SO₅) ; et pour G₂, je trouve 12, 24, 28, 42, 48, 60, 64, 72, 84, 90, 100, 108… ; et sinon, pour F₄ : 12, 18, 24, 26, 32, 36, 39, 40, 42, 46, 48, 52… ; et vous devinez évidemment j'ai fait le calcul pour E₈ : 60, 96, 120, 124, 144, 160, 180, 186, 192, 196, 200, 210…

Et pour les espaces homogènes G/H, il doit s'agir de se limiter aux plus hauts poids v qui définissent des représentations de G dont la restriction à H a des points fixes (ou, ce qui revient au même par réciprocité de Frobenius, des représentations qui apparaissent dans l'induite à G de la représentation triviale de H, mais je ne suis pas si ça aide de le dire comme ça). J'arrive (mais laborieusement) à faire les calculs sur des cas particuliers en utilisant l'implémentation des règles de branchement dans Sage. Par exemple, le spectre de G₂/SO₄ (l'espace des sous-algèbres de quaternions dans les octonions) semble être : 28, 60, 72, 112, 132, 168, 180, 208, 244, 264, 300, 324… Mais je comprends trop mal les règles de branchement pour savoir s'il faut chercher une logique d'ensemble ou ce à quoi elle ressemblerait (sur les coordonnées de v dans la base des poids fondamentaux ; ce n'est même pas clair pour moi les v en question forment un sous-réseau du réseau des poids ou quel est son rang). Ajout () : À la réflexion, pour les espaces riemanniens symétriques, je crois que je comprends au moins à peu près la situation (tout est dans la notion de système de racines restreintes) ; je crois même que tout est dit dans le chapitre V (par ex., théorème V.4.1) du livre de 1984 de Sigurður Helgason (Groups and Geometric Analysis), même si j'ai vraiment du mal à le lire ; je crois bien que le rang du réseau des poids v tels que la restriction à H ait des points fixes non triviaux coïncide avec le rang de l'espace symétrique G/H, même si j'aimerais bien voir ça écrit noir sur blanc.

Une chose qui m'étonne beaucoup est que ces suites ne semblent pas être dans l'OEIS. Tout le monde parle de l'importance du spectre du laplacien et personne n'a pris la peine de mettre le résultat, pour les cas les plus évidents que sont les groupes de Lie compacts, dans l'OEIS ‽ Comment est-ce possible ‽ J'hésite cependant à les soumettre moi-même parce que, à vrai dire, je ne suis pas très sûr de bien comprendre ce que je fais. (Et, entre autres choses, je ne sais pas du tout si les valeurs que j'ai listées ci-dessus ont un sens dans l'absolu ou seulement à proportionalité près. La valeur du Casimir semble dépendre d'une normalisation un peu arbitraire sur la longueur des racines ou quelque chose comme ça, et du coup je ne sais pas bien quoi prendre ou quoi soumettre.)

Pour ce qui est de produire des sons à partir de ça, il y a un autre truc sur lequel je n'ai pas des idées claires, c'est quelles amplitudes relatives il serait logique d'utiliser pour ces différentes harmoniques. Si on donne un coup de marteau sur le groupe de Lie G₂ (mais pas assez fort pour le casser !), il va peut-être résonner à des fréquences proportionnelles aux racines carrées de 12, 24, 28, 42, 48, 60, etc., mais avec quelles amplitudes ? Le problème se pose déjà sur une sphère de dimension 2 (SO₃/SO₂, si on veut) : les valeurs propres du laplacien sphérique sont (proportionnelles à) (+1), donc si on fait vibrer une sphère, elle produit des fréquences proportionnelles à 1, √3, √6, √10, etc., mais une fois ce spectre connu, ça ne donne pas pour autant un son (même si ça peut faire de jolies animations). Un bout de la réponse est fourni par la multiplicité des valeurs propres en question (sur la sphère, par exemple, (+1) a la multiplicité +1 parce qu'il y a ce nombre-là d'harmoniques sphériques de niveau  indépendantes) ; s'agissant d'un groupe de Lie G, les multiplicités sont les carrés N(v)² des dimensions N(v) = χv(1) des représentations irréductibles correspondantes (par exemple, s'agisant de G₂, les valeurs propres avec multiplicité sont (12,7²), (24,14²), (28,27²), (42,64²), (48,77²), (60,77²), etc.). Mais ensuite ? Il me semble que, pour parler abusivement, les « coefficients » de la distribution δ (centrée en 1∈G) sur la base des caractères χv sont les N(v) = χv(1) et qu'il serait donc logique de donner à la fréquence √C(v) une amplitude proportionnelle à N(v)² (si on tape un coup sec et très localisé sur notre groupe de Lie), mais évidemment ceci diverge très méchamment. Je peux régulariser en remplaçant δ par une gaussienne, ce qui doit revenir à multiplier les coefficients par exp(−C(vσ²) avec σ une sorte d'écart-type de la gaussienne, mais le choix de σ est complètement arbitraire dans l'histoire. Bref, je peux produire des sons en superposant des fréquences proportionnelles aux √C(v) avec des amplitudes proportionnelles aux N(v)²·exp(−C(vσ²), mais le son en question dépend de façon énorme de σ. Une autre idée est de faire varier l'amplitude avec le temps pour donner une dissipation aux modes de vibration, par exemple en exp(−C(vt) (inspiré de l'équation de la chaleur).

Pour faire quand même des essais, de façon assez arbitraire, j'ai décidé de faire que l'intensité de la fréquence √C(v) décroisse en exp(−(C(v)/C(v₀))·(1+t/3s)) où v₀ est le poids qui correspond à la représentation adjointe de G (c'est-à-dire, la plus haute racine), et j'ai de même normalisé les fréquences pour que la fréquence de v₀ soit à 440Hz. C'est-à-dire que j'ai superposé des sin(2π·440Hz·(C(v)/C(v₀))·t) · N(v)² · exp(−(C(v)/C(v₀))·(1+t/3s)) où t est le temps et v parcourt les poids de G. Je n'aime pas le côté assez arbitraire de tout ça (et en particulier de mon 1+), donc je suis preneur d'idées plus naturelles, mais au moins les sons sont intéressants et, pour une fois, pas du tout désagréables à écouter.

Ceci n'est qu'une première expérience : j'en ferai sans doute d'autres quand j'aurai des idées plus claires sur ce que je veux faire et ce qui est intéressant, mais en attendant, voici quelques essais de ce que ça peut donner comme son de frapper différents groupes de Lie compacts (calibrés pour que leur représentation adjointe sonne le la à 440Hz) : en rang 1 : A₁ (c'est-à-dire SU₂, qui est vraiment une 3-sphère, je voulais vérifier que ça avait un son de cloche plausible et ça a effectivement un son de cloche vaguement plausible, c'est déjà ça) ; en rang 2 : A₂ (c'est-à-dire SU₃), B₂ (c'est-à-dire Spin₅) et G₂ ; en rang 4 : A₄ (c'est-à-dire SU₅), B₄ (c'est-à-dire Spin₉), C₄ (c'est-à-dire Sp₄), D₄ (c'est-à-dire Spin₈) et F₄ ; et bien sûr : E₆ et E₈. Tous ces fichiers sont du FLAC et chacun dure 6 secondes, si votre navigateur ne les ouvre pas spontanément, téléchargez-les et vous trouverez certainement un truc qui les lit. Tous les groupes que je viens de donner sont la forme simplement connexe, mais j'ai aussi produit des essais pour comparer le son de la forme simplement connexe avec la forme adjointe (laquelle a moins d'harmoniques) : Spin₅ versus SO₅ d'une part, et SU₃ versus PSU₃ de l'autre.

↑Entry #2528 [older| permalink|newer] / ↑Entrée #2528 [précédente| permalien|suivante] ↑

↓Entry #2527 [older| permalink|newer] / ↓Entrée #2527 [précédente| permalien|suivante] ↓

(jeudi)

Une conjecture « du dimanche » sur les nombres premiers

Je racontais ici que les « mathématiciens du dimanche » étaient souvent fascinés par les nombres premiers et capables de produire toutes sortes de conjectures fantaisistes à leur sujet ; et aussi, ils sont fascinés par l'écriture en base 10. Voici que je vois passer sur MathOverflow (et précédemment sur Math.StackExchange) la conjecture suivante, qui ressemble beaucoup à la caricature de la « conjecture du mathématicien du dimanche », à ceci près qu'elle conjecture que des nombres ne sont pas premiers :

Soit j≥1 un entier naturel, et Nj le nombre formé de la concaténation des écritures en base 10 des nombres (« de Mersenne » consécutifs) 2j+1−1 et 2j−1 ; c'est-à-dire : Nj = 10m·(2j+1−1) + (2j−1) où m := ⌊log(2j−1)/log(10)⌋+1 est le nombre de chiffres de l'écriture décimale de 2j−1.

(Par exemple, N₁=31 (concaténation de 3 et 1), N₂=73 (concaténation de 7 et 3), N₃=157 (concaténation de 15 et 7), N₄=3115 (concaténation de 31 et 15), etc.)

Conjecture d'Enzo Creti : si Nj≡6 (mod 7), alors Nj n'est pas premier.

(Par exemple : pour j=9, on a N9=1023511, qui est congru à 6 modulo 7, et il n'est pas premier : il vaut 19×103×523 ; pour j=10, on a N10=20471023, qui est congru à 6 modulo 7, et il n'est pas premier : il vaut 479×42737.)

(Je ne sais pas si l'auteur de cette conjecture est un mathématicien « du dimanche », je ne sais rien sur lui, mais l'énoncé, en tout cas, ressemble exactement au type de spéculations sur les nombres premiers et les écritures en base 10 dont je voulais parler.)

Ce genre de problèmes est à la fois agaçant et passablement intéressant au niveau méta.

Expérimentalement, la conjecture est vérifiée jusqu'à des valeurs passablement grandes de j (l'auteur prétend être allé jusqu'à 4×10⁵ ; moi je me suis arrêté à 10⁴) ; et de plus, elle n'est pas vide, c'est-à-dire qu'il y a effectivement une densité significative (en fait, 1 sur 9) de j pour lesquels la prémisse Nj≡6 (mod 7) est vérifiée.

(On peut accessoirement remarquer que dans chacune des autres classes de congruence de Nj modulo 7, exceptée bien sûr la classe 0, on trouve des nombres premiers. C'est la classe 6 qui semble éviter les nombres premiers. À toutes fins utiles, en distinguant les cas de congruence de m modulo 6 et de j modulo 3, on peut remarquer que 10m·(2j+1−1) + (2j−1) est congru à 6 modulo 7 lorsque soit (m≡3 (mod 6) et j≡0 (mod 3)) soit (m≡4 (mod 6) et j≡1 (mod 3)).)

Pourtant, je pense que n'importe quel théoricien des nombres sera d'accord avec moi pour dire qu'il ne croit pas une seule seconde à une telle conjecture. Pourquoi ?

D'abord, on se rappelle que le théorème des nombres premiers peut s'interpréter en disant que la « probabilité d'être premier » empirique d'un entier x tiré au hasard vaut environ 1/log(x) ; ou si le nombre est impair par construction, disons plutôt 2/log(x). En l'occurrence, on a log(Nj) = 2·log(2)·j + O(1), si bien que Nj a empiriquement une « probabilité d'être premier » qui décroît comme une fonction harmonique de j (quelque chose comme 1/(log(2)·j), en tenant compte du fait qu'il est forcément impair). Or la série harmonique diverge, donc il n'est pas vraisemblable que les Nj échouent tous à être premiers « par hasard ». En revanche, comme la série harmonique diverge très lentement (logarithmiquement), cela veut bien dire qu'il peut être nécessaire de pousser très très loin pour trouver un contre-exemple, donc avoir vérifié 10⁴ ou 10⁵ valeurs ne vaut pas grand-chose, et il n'est pas du tout invraisemblable que 10⁴ ou 10⁵ valeurs échouent toutes à être premières « par hasard » (expliquant ainsi la constatation expérimentale).

Il est donc invraisemblable que la conjecture soit vraie « par hasard », mais vraisemblable qu'elle le paraisse quand même jusqu'à 10⁴ ou 10⁵. Maintenant, se peut-il que la conjecture soit vraie autrement que « par hasard » ? Cela voudrait dire qu'il y aurait une « raison » expliquant une factorisation de 10m·(2j+1−1) + (2j−1) à tous les coups (par exemple une identité algébrique, ou une conguence à 0 qui vaut à tous les coups, enfin, une « raison » qui fait qu'il n'est jamais premier). Or, si on met de côté la donnée que m est le nombre de chiffres décimaux de 2j−1, ce n'est pas vrai que 10m·(2j+1−1) + (2j−1) n'est jamais premier. En effet, en changeant un petit peu m, j'ai le contre-exemple de 1070·(2230−1) + (2229−1) (où le nombre 2229−1 a 69 chiffres décimaux, j'ai inséré juste un 0 de plus dans la concaténation) : ce nombre est bien congru à 6 modulo 7, et il est premier (il a 140 chiffres, alors vous m'épargnerez de l'écrire complètement). Bref, si la conjecture était vraie autrement que par hasard, il faudrait avoir une factorisation de 10m·(2j+1−1) + (2j−1) qui dépende du fait que m est précisément le nombre de chiffres décimaux de 2j−1, et ça, ça semble complètement abracadabrant. (Tout ce que je raconte est complètement empirique, bien sûr, je n'ai pas de contre-exemple à la conjecture énoncée plus haut, mais j'explique pourquoi je n'y crois pas.)

Bref, je suis complètement convaincu qu'il y a un contre-exemple, et que ce contre-exemple a un j très grand (donc un Nj gigantesque), et ce n'est pas très surprenant qu'il soit difficile à trouver. Pour être un peu plus précis dans la quantification de la vraisemblance, numériquement, le produit des 1−(2/log(Nj)) (i.e., leur probabilité empirique de ne pas être premiers, le 2 étant là parce qu'ils sont impairs) parcourant ceux des Nj qui sont congrus à 6 modulo 7 vaut environ 0.25 pour j allant jusqu'à 10⁴, c'est-à-dire qu'il y avait a priori environ 25% de chances pour qu'aucun de ces nombres ne soit premier compte tenu de leurs tailles (et du fait qu'ils sont impairs) ; si on monte jusqu'à 4×10⁵, cela doit tomber à environ 18%. Bref, ce n'est pas du tout invraisemblable que la conjecture soit vraie jusqu'à ce point-là « par hasard ». Il suffit qu'il y ait une dizaine de mathématiciens du dimanche qui essaient des conjectures de ce genre, et il y en aura bien un qui tombera sur une qui marche sur toutes les valeurs que sa patience lui permettra de tester ; en fait, il suffit même qu'un seul mathématicien du dimanche ait testé la restriction des Nj à suffisamment de classes de congruence modulo des petits nombres pour tomber sur une qui semble ne contenir que des nombres composés.

Il n'est cependant pas exclu à mes yeux qu'il y ait une « raison » un peu plus précise que le hasard pour laquelle la conjecture soit vraie pour des « assez petites » valeurs de j, et c'est un problème possiblement intéressant. Il est par exemple possible que plein de cas de congruence de j et de m excluent la primalité. (Un exemple idiot est que si j est congru à 0 modulo 4, sans aucune discussion sur m, alors Nj est multiple de 5 — parce que 2j−1 l'est — et donc Nj n'est certainement pas premier ; donc déjà il n'y a plus que les quatre cinquièmes des j qui jouent vraiment, et cela contribue à rendre encore moins invraisemblable que la conjecture soit vraie « par hasard » pour des petites valeurs de j. Mais il y a peut-être des choses plus intelligentes à dire.)

Il y a notamment une chose qu'on peut voir, c'est que m := ⌊log(2j−1)/log(10)⌋+1 (le nombre de chiffres décimaux de 2j−1) vaut en fait ⌊j·ξ⌋+1 où ξ := log(2)/log(10) ≈ 0.301. Les réduites du développement en fraction continue de ξ sont 1/3, 3/10, 28/93, 59/196, etc. Si je remplace m=⌊j·ξ⌋+1 par m=⌊j·x⌋+1 où x est une de ces réduites, j'obtiens d'autres suites de nombres Nj (dépendant de x que j'omets abusivement dans la notation), à savoir Nj := 10(⌊j·x⌋+1)·(2j+1−1) + (2j−1), qui coïncident avec Nj au début (et d'autant plus loin que la réduite est bonne), et je peux poser la question de la conjecture analogue pour ces suites-là. Pour x=1/3, la conjecture sur les N′ ne vaut pas, car pour j=330, le nombre N330 = 10111·(2331−1) + (2330−1) est congru à 6 modulo 7 et est premier ; pour x=3/10, la conjecture sur les N′ ne vaut pas non plus, car pour j=849, le nombre N849 = 10255·(2850−1) + (2849−1) est congru à 6 modulo 7 et est premier. Mais pour x=28/93 (autrement dit, avec Nj := 10(⌊j·28/93⌋+1)·(2j+1−1) + (2j−1)), je n'ai pas trouvé de contre-exemple : au moins jusqu'à j=10⁴, les Nj qui sont congrus à 6 modulo 7 ne sont jamais premiers. C'est déjà moins invraisembable d'imaginer que tous ces Nj-là soient premiers que pour les Nj de la conjecture de départ : on peut tout à fait imaginer qu'il y ait une distinction de quelque chose comme 93 cas selon la valeur de j qui permette, dans chacun des cas (ou simplement dans un grand nombre de ces cas, diminuant d'autant le hasard !), de montrer que Nj serait divisible par quelque chose. Du coup, si Nj n'est jamais premier, cela expliquerait que plein de petites valeurs de Nj soient composées, et il est encore moins surprenant qu'ensuite on tombe par hasard sur des nombres composés.

Mise à jour (avant publication) : bon, en fait, pour j=14058, le nombre N14058 = 104233·(214059−1) + (214058−1) est congru à 6 modulo 7 et semble être premier (en tout cas il passe des tests de pseudo-primalité), donc mon explication n'est pas la bonne, mais je la laisse parce qu'on voit que ce genre de choses est tout à fait imaginable.

Laissant de côté la question mathématique proprement dite, il reste la question de savoir comment un mathématicien (au hasard, féru de vulgarisation) doit réagir face à ce genre de conjectures. C'est toujours un peu délicat d'expliquer je n'y crois pas du tout malgré vos constatations expérimentales, et même si on peut expliquer tout ce que je viens d'expliquer sur les probabilités, il reste quand même un certain acte de foi, quand je dis qu'il est « complètement abracadabrant » qu'il y ait un phénomène de ce genre sur les nombres premiers qui fasse intervenir de façon cruciale le nombre de chiffres décimaux du nombre 2j−1 (même si on le revoit comme ⌊j·ξ⌋+1 avec ξ = log(2)/log(10)).

↑Entry #2527 [older| permalink|newer] / ↑Entrée #2527 [précédente| permalien|suivante] ↑

↓Entry #2522 [older| permalink|newer] / ↓Entrée #2522 [précédente| permalien|suivante] ↓

(mercredi)

Les revêtements doubles du groupe symétrique sont pénibles

Écrire l'entrée récente sur la vulgarisation des mathématiques m'a motivé a essayer d'écrire un morceau de vulgarisation sur la symétrie, les groupes finis et (l'histoire de) la classification des groupes simples finis. Comme c'était évidemment prévisible, ce texte est en train de grandir jusqu'à une taille démesurée, et comme d'habitude le risque commence à devenir sérieux que je finisse par en avoir marre et que je laisse tomber ; j'essaierai, le cas échéant, de m'efforcer de publier ce que j'aurai déjà écrit même si c'est inachevé plutôt que le garder indéfiniment dans mes cartons en pensant je finirai peut-être un jour. Ceci n'est pas le texte en question : c'est une tangente qui est déjà insupportablement longue en elle-même. Mais ceci est une illustration de ce que je disais dans l'entrée récente liée ci-dessus : on apprend toujours quelque chose en faisant de la vulgarisation, même quand on croit se placer à un niveau où on sait déjà tout ; et aussi que ça peut être un problème mathématiquement difficile de trouver comment bien expliquer ceci ou cela.

Puisqu'il s'agit de raconter mes difficultés, je m'adresse dans ce qui suit à des lecteurs qui sont déjà familiers avec la notion de groupe (et de sous-groupe, de quotient, de permutations, de signature (=parité) d'une permutation, et quelques choses à peu près à ce niveau-là). Normalement le contenu de l'entrée interminable que je viens de promettre pour un lendemain rieur devrait suffire à comprendre celle-ci (mais bon, c'est la théorie ; pour la pratique, je ne sais pas bien). Bref.

Remarque informatique : J'utilise la notation 𝔖 pour le groupe symétrique et 𝔄 pour le groupe alterné. Vous devriez voir une ‘S’ gothique (enfin, fraktur) pour le premier et un ‘A’ gothique pour le second. Mais on me souffle que dans certaines contrées reculées où la totalité d'Unicode ne baigne pas encore le monde de sa lumière bienfaisante et où les polices sont incomplètes, ces deux symboles pourraient apparaître comme des simples carrés (sans même un numéro hexadécimal à l'intérieur permettant de les distinguer simplement), ce qui est un peu fâcheux si je cherche à dire que 𝔄n est simple (pour n≥5) alors que 𝔖n n'est que « presque simple », par exemple. Pour toucher aussi ces provinces reculées (ainsi que les gens qui font une allergie à l'écriture gothique), j'ai prévu un peu de magie en JavaScript qui remplacera en un seul clic tous ces symboles par des identifiants plus explicites Sym et Alt : cliquez ici pour activer ce remplacement.

Je commence par expliquer le contexte (même si ce n'est pas vraiment important pour ce que je veux raconter ci-dessous, et c'est un peu plus technique, donc on peut ignorer), une des idées que je veux évoquer, au moins rapidement et en petits caractères, même si c'est un peu technique, est le fait qu'un groupe simple fini non abélien G apparaît souvent, dans la nature, « étendu » par des petits groupes (résolubles, souvent cycliques), de l'une ou l'autre, ou les deux, de manières (que, à ma grande honte, j'ai beaucoup tendance à confondre). À savoir : (1) « par la droite » par des automorphismes extérieurs, c'est-à-dire sous la forme d'un groupe E (dit presque simple) intermédiaire entre G et le groupe Aut(G) des automorphismes de G, si bien que G est un sous-groupe distingué de E avec un « petit » quotient (le plus gros possible étant le groupe Out(G)=Aut(G)/Int(G) des automorphismes extérieurs de G) ; ou bien (2) « par la gauche » par un sous-groupe central, c'est-à-dire sous la forme d'un groupe G˜ (dit quasisimple), parfait (= sans quotient abélien), ayant cette fois G comme quotient par un noyau contenu dans le centre de G˜ (et de nouveau il y a un plus gros revêtement possible, donné par le multiplicateur de Schur) ; et on peut avoir les deux à la fois, ce qui complique encore les définitions (je n'en connais d'ailleurs pas qui ne soient pas passablement pénibles à donner, donc si quelqu'un a ça, ça m'intéresse), et en plus on se perd dans les marais de l'« isoclinisme ». Je voudrais donner des exemples des deux phénomènes, voire des deux à la fois. Ne voulant pas supposer que mon lecteur est familier avec l'algèbre linéaire, je voudrais donner l'exemple du groupe alterné G = 𝔄n des permutations paires sur n objets. À ce moment-là, l'exemple de la situation (1) est facile à donner, c'est le groupe symétrique E = G:2 = 𝔖n de toutes les permutations sur n objets (et il n'est pas difficile d'expliquer que l'automorphisme intérieur défini par une permutation impaire devient, quand on le restreint au groupe alterné G = 𝔄n, un automorphisme extérieur). La situation (2) se produit aussi, et il existe un revêtement double G˜ = 2·G = 2·𝔄n, et deux revêtements doubles (« isoclinaux ») 2·𝔖n⁺ et 2·𝔖n⁻. J'ai donc bien envie d'essayer de décrire à quoi ressemblent ces groupes. L'ennui, c'est qu'ils ne sont vraiment pas commodes à décrire.

Ce dont il est question, ce sont deux groupes 2·𝔖n⁺ et 2·𝔖n⁻ qui sont des « revêtements doubles » du groupe symétrique 𝔖n sur n objets, et qu'on peut considérer comme des sortes de « permutations avec un signe »[#].

[#] (Ajout)Il vaut mieux éviter de dire permutations signées, parce que le groupe des permutations signées est encore autre chose (que les quatre groupes de permutations-avec-un-signé décrits ci-dessous, et qui ont tous 2·n! éléments) : le groupe des permutations signés, ou « produit en couronne » {±1} ≀ 𝔖n, lui, a 2n·n! éléments : on peut le décrire comme les permutations de l'ensemble {±1}×{1,…,n} qui, si elles envoient (+1,x) sur (±1,y) doivent alors nécessairement envoyer (−1,x) sur (∓1,y) (autrement dit, changer la première coordonnée de la source change la première coordonnée de la cible) ; on peut aussi voir ça comme des matrices dont toutes les entrées sont nulles sauf qu'il y a des ±1 sur le graphe d'une permutation (entre lignes et colonnes). Ce groupe {±1} ≀ 𝔖n, bien que plus gros, est assez simple à manipuler, et malheureusement il ne contient pas (sauf pour n très petit) les groupes 2·𝔖n⁺ et 2·𝔖n⁻ dont je veux parler ici. Je vais y revenir.

L'idée est la suivante : je vais chercher des groupes G˜ ayant 2n! éléments, à savoir deux pour chaque permutation σ dans G := 𝔖n ; disons qu'on va noter +[σ] (ou simplement [σ]) et −[σ] les deux éléments de G˜ correspondant à une permutation σ, mais attention, le choix de qui est +[σ] et qui est −[σ] est dans une certaine mesure arbitraire, c'est bien ça qui va poser problème. Je vais maintenant imposer plusieurs choses : d'abord, si 1 désigne la permutation triviale (l'identité : celle qui envoie chaque objet sur lui-même), alors +[1], qu'on va juste noter +1 ou 1 sera l'élément neutre de mon groupe ; quant à −[1], qu'on va simplement noter −1, il aura la propriété que le produit (−1)·[σ] sera −[σ] et le produit (−1)·(−[σ]) sera +[σ] comme on s'y attend, autrement dit, −1 est « central » (il commute à tout) et échange +[σ] et −[σ] ; enfin, je vais vouloir que [σ]·[τ] soit ±[σ·τ] où σ·τ désigne le produit dans 𝔖n et ± signifie qu'il y a peut-être un signe (cela dépend de σ et τ : on pourrait le noter c(σ,τ)) mais je n'impose rien à son sujet (c'est-à-dire, rien que ce qui est nécessaire pour obtenir un groupe).

Il se trouve qu'il y a (pour n≥4) exactement quatre groupes qui répondent aux contraintes que je viens d'énoncer : deux sont sans intérêt (mais il est pertinent de les décrire pour expliquer un peu comment les choses peuvent fonctionner) et les deux autres sont ces fameux revêtements doubles 2·𝔖n⁺ et 2·𝔖n⁻ dus à Issai Schur :

  1. Le plus évident est le groupe produit direct {±1}×𝔖n (ou 2×𝔖n étant entendu que 2 désigne abusivement le groupe cyclique Z₂={+1,−1} à deux éléments) ; c'est-à-dire qu'ici le signe et la permutation n'interagissent pas du tout. Autrement dit, dans ce groupe-là, on a [σ]·[τ] = [σ·τ] (toujours avec un signe ‘+’), et il n'y a vraiment rien d'intéressant à en dire. Remarquons que si σ est une transposition (= permutation d'ordre 2 échangeant deux éléments et laissant fixes tous les autres), alors ±[σ] est d'ordre 2 dans ce groupe, et que si σ est le produit de deux transpositions de support disjoints (= permutation d'ordre 2 échangeant deux paires d'éléments et laissant fixes tous les autres), alors ±[σ] est encore d'ordre 2.
  2. Un groupe un petit peu moins évident est celui dans lequel [σ]·[τ] = [σ·τ] sauf lorsque σ et τ sont toutes les deux impaires, auquel cas [σ]·[τ] = −[σ·τ]. Faute d'idée de meilleure notation, je vais le noter 2⊙𝔖n pour y faire référence plus tard. En fait, il est peut-être plus parlant pour y penser de modifier la notation et, lorsque σ est une permutation impaire, de noter (ou en tout cas de penser comme) +i[σ] et −i[σ] plutôt que +[σ] et −[σ] les deux éléments du groupe qui relèvent σ, où i est la racine carrée complexe standard de −1, auquel cas la règle des signes que je viens de donner est assez logique. (Je répète que je ne change pas du tout le groupe, là, je change juste la manière de noter ses éléments ou simplement d'y penser.) Ce groupe a la propriété que si σ est une transposition, alors ±[σ] est d'ordre 4 dans ce groupe (puisque son carré va être −1 d'après la règle de signe), et que si σ est le produit de deux transpositions de support disjoints, alors ±[σ] est d'ordre 2.
  3. On a le groupe 2·𝔖n⁺ que je vais essayer (sans grand succès) de décrire : il a la propriété que si σ est une transposition, alors ±[σ] est d'ordre 2 dans ce groupe (son carré vaut 1), et que si σ est le produit de deux transpositions de support disjoints, alors ±[σ] est d'ordre 4 (son carré vaut −1).
  4. Enfin, on a le groupe 2·𝔖n⁻ : il a la propriété que si σ est une transposition, alors ±[σ] est d'ordre 4 dans ce groupe (son carré vaut −1), et que si σ est le produit de deux transpositions de support disjoints, alors ±[σ] est également d'ordre 4 (son carré vaut −1).

Les deux premiers groupes dont je viens de parler (2×𝔖n et 2⊙𝔖n) deviennent identiques si on se limite aux permutations paires (et c'est toujours aussi inintéressant : c'est {±1}×𝔄n qu'on peut aussi noter 2×𝔄n) ; il en va de même des deux derniers : on note 2·𝔄n (groupe d'ordre n!) la restriction de l'un ou l'autre de 2·𝔖n⁺ ou 2·𝔖n⁻ aux permutations ±[σ] avec σ paire.

↑Entry #2522 [older| permalink|newer] / ↑Entrée #2522 [précédente| permalien|suivante] ↑

↓Entry #2520 [older| permalink|newer] / ↓Entrée #2520 [précédente| permalien|suivante] ↓

(mardi)

Mathématiques discrètes et continues

(Pour l'explication du titre, voir cette vieille entrée.)

J'assistais tout à l'heure à une séance de présentation, pour les élèves de Télécom ParisPloum où j'enseigne, des différentes filières (=spécialisations) entre lesquelles ils doivent piocher pour leur deuxième année. (La première année est généraliste, et en seconde année ils doivent choisir essentiellement deux-parmi-N spécialisations.) À vrai dire, j'étais plus là pour écouter les questions des élèves et les réponses faites par mes collègues, qui s'en sortaient très bien et n'avaient pas trop besoin de mon aide ; mais c'est intéressant, ne serait-ce que sociologiquement, de savoir ce que nos élèves ont comme questions à poser, et éventuellement comme préconceptions, sur les enseignements qu'on leur propose.

L'une des filières où j'enseigne s'appelle MITRO comme Mathématiques, Informatique Théorique, et Recherche Opérationnelle : c'est un rassemblement légèrement hétéroclite de cours à dominance plus théorique ayant pour but de donner une culture générale utile, soit en complément d'autres filières, soit pour entrer dans un master en informatique ou en recherche opérationnelle ; j'y fais un cours de théorie des jeux dont j'ai déjà parlé. (J'enseigne aussi un cours sur les courbes algébriques dans une filière AC2Q comme Algèbre, Codage, Crypto, Quantique, et les deux filières ont une intersection assez importante dans leur population d'élèves.)

Et une des questions qui m'a frappée à laquelle mon collègue présentant MITRO a dû répondre à un bon nombre de reprises, portait sur le contenu des mathématiques. Ça ne m'avait pas tellement frappé les années précédentes, ou peut-être que je n'avais juste pas fait attention :

En fait, nos élèves ont une vision très étroite de ce que sont les mathématiques. Et on ne peut pas leur en vouloir : ils sortent (pour l'essentiel) des classes prépa françaises, où on leur a enseigné, au moins sous l'étiquette mathématiques, des maths qui se limitent essentiellement à deux choses, (1) de l'algèbre linéaire, (2) de l'analyse réelle classique, et depuis récemment un peu de (3) probabilités. En première année à Télécom, ils ont des cours de maths qui couvrent les probabilités et encore plus d'analyse (un peu d'analyse fonctionnelle, cette fois ; j'enseigne aussi dans le cadre de ce cours-là). Donc au final, pour eux, les maths, c'est des espaces vectoriels (réels ou complexes), des intégrales et des probas (essentiellement). Et ils nous demandent, soit en l'espérant soit en le craignant, s'il y a des choses comme ça dans la filière MITRO. La notion de maths discrètes leur est largement inconnue.

Mais ce qui est un peu ironique, c'est qu'en fait ils ont déjà fait des maths discrètes (par exemple, ils savent ce que c'est qu'un graphe, un arbre, ce genre de choses) : simplement, ils en ont fait, en prépa ou après, dans des cours étiquetés informatique. Et j'enseigne moi-même un cours sur les langages formels (cf. ici) qui, dans mon esprit, est clairement un cours de maths, mais qui est étiqueté informatique (ceci provoque d'ailleurs des malentendus dans l'autre sens, parce que j'en ai qui se plaignent qu'on ait besoin de raisonner).

Je suis de l'avis que l'informatique théorique, ainsi qu'une bonne partie de la physique théorique, fait partie des mathématiques. En fait, pour moi, les mathématiques ne se définissent pas par leur objet d'étude mais par leur méthode, c'est-à-dire le fait qu'on arrive à la vérité par un raisonnement déductif dont la rigueur se cherche dans l'aspect formel ou du moins formalisable ; par opposition, essentiellement, aux sciences expérimentales dont la méthode est inductive et la rigueur se cherche dans l'application méticuleuse d'un protocole expérimental. Il se trouve que cette distinction — qui n'exclut pas qu'il y ait des régions intermédiaires où on combine un raisonnement partiellement heuristique et des constatations expérimentales — est largement transverse à un domaine comme l'informatique, la physique ou l'astronomie, et je classifie donc l'informatique théorique comme étant à la fois des maths (pour la méthode) et de l'informatique (pour la finalité).

Mais peu importent les classifications. (Si vous trouvez que je dis des conneries ci-dessus, je n'ai pas vraiment l'intention de défendre ma position, je dis comment je pense spontanément les choses, mais fondamentalement je me fous un peu de savoir comment on place les frontières entre les domaines d'investigation du savoir humain.) Ce qui m'inquiète, c'est l'effet de myopie disciplinaire.

Que les classes prépa françaises n'enseignent essentiellement que de l'algèbre linéaire, de l'analyse réelle classique et des probabilités, je ne me sens pas spécialement fondé à le critiquer. À un certain niveau, j'aimerais bien qu'on y rencontre la notion de corps fini, mais je comprends qu'il y a plein de choix à faire, que tout le monde tire la couverture à soi, que c'est très politique, etc.

Mais ce que je trouve vraiment regrettable, quand je repense à l'entrée que je viens d'écrire où j'évoque l'idée que le grand public se fait des mathématiques (manipuler des gros nombres ou manipuler des grosses formules), c'est que des élèves qui en ont quand même avalé nettement plus que le grand public aient toujours une idée finalement toujours aussi étroite de ce que sont les mathématiques. C'est-à-dire que je trouve que, même si on n'a pas le temps d'enseigner ceci ou cela de précis, et même si « ça ne sert à rien » (or je ne crois pas que ça ne serve à rien), on doit quand même pouvoir trouver le moyen de faire un survol de ce que sont les branches, et comment elles se nomment, des mathématiques, toutes les mathématiques. (Disons au moins en se donnant comme but que ce ne soit pas une surprise d'apprendre qu'il y a des mathématiciens qui étudient les graphes et qui n'ont qu'un rapport extrêmement lointain avec l'informatique. Mais aussi pour pouvoir leur dire, voyez, ce qu'on va vous enseigner, c'est les parties anciennes de ce tout petit bout-là.) Je pense bien sûr la même chose des autres sciences qu'ils peuvent être amenés à étudier, même si j'ai l'impression — peut-être effet de ma propre myopie — que la « cartographie » des mathématiques est particulièrement mal connue.

↑Entry #2520 [older| permalink|newer] / ↑Entrée #2520 [précédente| permalien|suivante] ↑

↓Entry #2519 [older| permalink|newer] / ↓Entrée #2519 [précédente| permalien|suivante] ↓

(dimanche)

Réflexions décousues sur la vulgarisation mathématique

Bon, il faut peut-être que j'arrête d'intituler mes entrées quelques réflexions sur… ou réflexions décousues sur…, parce qu'à peu près tout ce que j'écris finit par rentrer dans cette forme. Mais j'aime bien me retrancher derrière cette sorte d'excuse quand je ne sais pas très bien à l'avance ce que je vais raconter et/ou que je n'ai pas envie d'essayer d'élaborer un plan. [Ajout : J'ai essayé de faire un plan a posteriori en insérant des intertitres à certains points dans cette entrée, peut-être que ça aide à la lire.]

☞ Vulgarisation à différents niveaux

La vulgarisation mathématique (et occasionnellement, physique) occupe une grande place dans ce blog. Enfin, déjà, il faut se demander ce que le terme vulgarisation recouvre au juste, vu que je parle rarement en faisant l'effort d'être compréhensible par un public complètement non-initié (i.e., Madame Michu — parce que ma maman en a marre d'être prise en exemple de la-personne-qui-ne-connaît-rien-aux-maths), mais je pense qu'il y a justement une place intéressante, et trop peu exploitée, pour toute forme de communication qui s'adresse à un public plus large que les spécialistes mais néanmoins plus étroit que le vulgum pecus, par exemple un scientifique d'un autre domaine, ou un enseignant du secondaire. (Le monde scientifique est tellement cloisonné[#] que les initiatives par lesquelles les biologistes et les informaticiens se tiendraient mutuellement au courant de leurs recherches, hors d'un cadre d'applications directes, sont extrêmement rares, et c'est même le cas entre algébristes et analystes ; et il en va semblablement entre enseignants-chercheurs dans le supérieur et enseignants du secondaire. Tout cela est vraiment triste.) Convenons d'appeler encore ça de la vulgarisation. Je ne sais pas si c'est exactement ça que j'essaie de faire, le niveau auquel je place mon exposition de tel ou tel concept mathématique dépend plus de mon inspiration du moment et de la difficulté du concept lui-même que de l'intention de viser tel ou tel public que je cerne, de toute façon, assez mal. Mais il est certain que j'écris des explications à ces niveaux assez variés[#2], et j'ose espérer qu'au moins une partie de ce que j'ai pu écrire au chapitre vulgarisation mathématique a été compréhensible par le très grand public et qu'au moins une partie a pu être intéressante pour d'autres matheux (et peut-être même que ces parties ont une intersection non-triviale, ce qui serait formidable). Bref.

[#] J'ai déjà plusieurs fois cité Giancarlo Rota à ce sujet : A leader in the theory of pseudo-parabolic partial differential equations in quasi-convex domains will not stoop to being understood by specialists in quasi-parabolic partial differential equations in pseudo-convex domains.

[#2] Enfin, j'ai toujours considéré ça comme évident, mais au moins une personne lisant mon blog (et que je ne dénoncerai pas) ne s'en était pas aperçu. Dès qu'il est question de maths, je ne comprends plus rien… — D'accord, mais est-ce que tu avais bien compris que parfois quand je parle de maths ce n'est pas censé être compréhensible par le grand public et parfois si ? — Hum… Là on peut vraiment considérer que c'est un échec.

☞ Mon intérêt pour la vulgarisation

Bref, je fais souvent de la vulgarisation mathématique, mais je n'ai jamais vraiment parlé de vulgarisation mathématique : pourquoi ça m'intéresse, pourquoi j'en lis, pourquoi j'en fais, etc.

Je suis tombé dans la marmite de la vulgarisation scientifique quand j'étais petit (avouons que mon papa m'a un peu poussé dans la marmite en question), par exemple à travers le livre Cosmos de Carl Sagan (tiré de la série du même nom), ou de One, Two, Three… Infinity de George Gamow (ça fait plus de trente ans que je ne l'ai pas lu, celui-là, je devrais sans doute y jeter à nouveau un œil pour voir ce qu'il contenait), ou encore The Emperor's New Mind de Penrose ainsi que (plus tard) Gödel, Escher, Bach de Hofstadter auquel le livre de Penrose est plus ou moins une réponse, ou enfin Les Trous noirs de Jean-Pierre Luminet.

Et je continue à apprécier la vulgarisation scientifique (en tout cas quand elle est bonne) à différents niveaux. Même quand je n'apprends rien sur le fond, ce qui est rarement le cas ne serait-ce que parce que les vulgarisateurs racontent de l'histoire des sciences en même temps que la science elle-même, j'apprends quelque chose de très important, qui est comment communiquer, justement, avec le grand public, ce qui est loin d'être évident, et d'autant moins évident qu'on parle d'un sujet abstrait comme la physique théorique ou les mathématiques. Une des difficultés de l'exercice est de trouver des analogies ou des images qui respectent le double impératif largement contradictoire d'être parlantes (c'est-à-dire compréhensibles mais aussi éclairantes) et correctes (c'est-à-dire qui évitent de simplifier tellement les choses que ça devient une bouillie de mots qui ne veulent plus rien dire) : c'est quelque chose de véritablement difficile, et j'essaie de retenir les bonnes analogies que je trouve pour pouvoir les resservir éventuellement. Et même quand il s'agit de quelque chose que je connais très bien, il y a toujours quelque chose à apprendre sur comment bien le résumer, comment souligner ce qui est le plus important, quoi mettre en lumière et quoi passer sous silence, etc. À titre d'exemple, le cosmologiste Sean Carroll est, à mon avis, un vulgarisateur extraordinaire, et cette petite série de cinq épisodes de trois ou quatre minutes chacun sur la direction du temps (s'adressant à des gens qui, quand même, ont une certaine culture scientifique générale) est un modèle à suivre de comment expliquer les choses clairement bien que rapidement (ou cet exposé, plus long et sans doute plus élémentaire, sur le même sujet).

Inversement, quand on écrit de la vulgarisation, on apprend toujours quelque chose sur ce sur quoi on écrit. Même quand on pense exposer quelque chose qu'on connaît parfaitement, et quel que soit le niveau auquel on se place, il y aura toujours quelque chose à apprendre, ou au moins à mieux comprendre, dans le processus d'explication. C'est une des raisons qui me pousse à me prêter à l'exercice (et plus généralement, à aimer enseigner), et je pense que cela devrait faire partie de n'importe quel travail de recherche.

☞ Pourquoi j'aime parler de trucs « vieux »

Il y a quand même une chose qui m'agace dans la vulgarisation, en tout cas comme certains la pratiquent, c'est la tendance à surreprésenter les progrès récents (dans le domaine scientifique considéré), voire, la recherche personnelle du vulgarisateur. Je comprends évidemment les raisons qui poussent à ça : il est gratifiant de parler de ce qu'on fait soi-même, et on a envie de montrer au grand public qu'on fait avancer la science, et ce qui se passe « sur le front ». Et inversement, le grand public a sans doute plus envie qu'on lui parle de la physique toute récente que de celle de Newton. L'ennui, c'est que pour bien faire comprendre la physique toute récente, il faut sans doute commencer par bien faire comprendre celle de Newton (puis celle de Maxwell, puis celle d'Einstein et celle de Schrödinger et Heisenberg… enfin, vous voyez l'idée). Forcément, dans le cadre de la vulgarisation, on va sauter des étapes, commettre des approximations, passer des choses sous silence, et peut-être ne faire qu'évoquer Newton pour dire directement des choses sur le boson de Higgs ou les ondes gravitationnelles ou la théorie des cordes ou que sais-je encore. C'est bien, et c'est normal. Mais il est quand même utile qu'il y ait aussi des gens qui vulgarisent Newton, et ce n'est pas forcément si évident que ça, et c'est vraiment utile parce que Newton est quand même bigrement pertinent dans la vie de tous les jours (certainement plus que les ondes gravitationnelles), et d'ailleurs ce serait sacrément utile dans le débat politique si le grand public connaissait un peu mieux la physique, disons, de Boltzmann (par exemple ce que j'en racontais ici). Mais je m'écarte un peu de la question de la vulgarisation pour m'aventurer dans celle de la culture générale scientifique (question sur laquelle j'aurais beaucoup à dire, mais je vais essayer de garder ça pour une autre fois).

Je ne suis pas spécialement tenté, moi, de vulgariser ma propre recherche[#3] (même en mettant de côté le fait que ma propre recherche papillonne dans tous les sens plutôt qu'elle ne progresse dans une direction bien définie). J'en ai déjà déçu plus d'un, comme ça, qui m'invitait à parler devant telle ou telle assistance (par exemple ici) et qui espérait plus ou moins que je parlerais de quelque chose d'un peu actuel : non, j'ai plutôt envie de parler d'objets ou de théories mathématiques qui sont bien connues depuis des dizaines et des dizaines d'années. Ne serait-ce que parce que plus c'est vieux, mieux c'est compris, et mieux on sait, entre autres, quelle est la bonne façon de voir et de présenter les choses. J'aime comparer les maths à un palais magnifique et incompréhensiblement gigantesque, à la structure à la fois labyrinthique et extraordinairement belle, — palais qu'on visite en étant totalement aveugle, si bien qu'on ne peut que tâtonner pour comprendre comment les salles sont agencées et quels bibelots précieux elles contiennent : si je dois emmener un groupe de touristes faire un tout petit tour du palais, je vais plutôt les emmener visiter les salles bien cartographiées que celles qu'on ne sait atteindre que par un chemin compliqué et qui sont peut-être encore en train d'être déterrées par les archéologues (hum, mes métaphores sont un peu mélangées, mais vous voyez l'idée).

[#3] Plus généralement, d'ailleurs, je constate empiriquement que les exposés scientifiques sont d'autant plus intéressants et agréables à écouter (à mon avis personnel à moi que j'ai) que l'orateur ne parle pas de ses propres travaux (c'est la règle au séminaire Bourbaki, mais j'aimerais que plus de séminaires adoptassent le même principe).

☞ Comment communiquer la beauté des mathématiques ?

C'est indiscutablement la beauté des mathématiques, et plus précisément la beauté de certains objets mathématiques, qui me motive à la fois pour faire des maths et pour communiquer autour des maths. La physique m'intéresse mais les maths font bien plus, elles m'émerveillent. J'ai déjà parlé ici et de deux de mes fascinations mathématiques les plus profondes (la symétrie et la « grandeur »), j'ai déjà plein de fois fait références à ces entrées, donc je ne vais pas revenir dessus. Mais étant moi-même envoûté par l'élégance de telle ou telle structure mathématique, j'ai envie de partager cette fascination, pas seulement à mes collègues mais aussi au grand public.

Et la frustration, quand on essaie de communiquer la beauté d'un objet mathématique, est à peu près celle qu'un musicien sourd aurait à essayer d'expliquer à un autre sourd (mais non musicien) la beauté d'une symphonie de Beethoven (compositeur lui-même sourd), qu'il aurait appris à « comprendre » en lisant la partition, mais que personne ne l'aurait jamais entendue jouée. Mes métaphores sont décidément pourries, mais vous voyez l'idée. Mes métaphores sont notamment pourries parce que je suis fermement dans le camp « platonicien » s'agissant des structures mathématique (au moins celles qui sont finitaires), c'est-à-dire convaincu que ces structures préexistent à leur découverte, existent indépendamment du monde matériel ou des lois de la physique (ou de la neurologie du cerveau du mathématicien), et notamment que leur beauté est telle qu'aucun humain n'aurait jamais pu la créer. (Je sais que tout cela peut sembler un tantinet religieux — et je vais revenir là-dessus au sujet d'un chauffeur de taxi. De nouveau, je m'écarte un peu de la question de la vulgarisation, cette fois vers celle de la philosophie des mathématiques, et de nouveau j'aurais beaucoup à dire mais je vais efforcer de garder ça pour une autre fois.) Bref, une meilleure comparaison serait peut-être d'essayer de décrire la beauté de la planète Jupiter dans un monde où tout le monde est aveugle.

Alors on peut faire quelques images. Je fais des choses comme ça sur YouTube et vous en avez vu passer d'autres sur ce blog (comme récemment ici) ou sur des pages web spécifiques (genre ici ou ). Ces images peuvent peut-être aider à commencer de convaincre qu'il y a une forme de beauté dans les mathématiques, mais pour l'essentiel, il ne s'agit que de pâles reflets des objets représentés. L'ensemble de Mandelbrot, on aura peut-être une toute petite idée de sa richesse en jouant à zoomer dessus de façon interactive, en prenant vraiment le temps d'explorer ses recoins, certainement pas en regardant une seule vidéo de zoom. S'agissant de E₈, cette vidéo est jolie et a eu un certain succès (49k vues, quand même !), mais on est littéralement dans la situation de l'allégorie de la caverne de Platon, on regarde la projection en deux dimensions d'un objet plus riche, sauf que cet objet est de dimension 8 (et encore, l'objet de dimension 8, ce n'est que le système de racines de E₈, qui n'est qu'une sorte d'empreinte à partir de laquelle le vrai E₈, le groupe algébrique, est fabriqué, et lui il est de dimension 248). S'agissant des ordinaux, je peux bien représenter ε₀ par des petits bâtons, mais on n'y voit franchement pas grand-chose, et ça ne donne aucune idée de comment « fonctionne » cet ordinal, sans parler d'ordinaux beaucoup plus grands. Pour ce qui est du groupe de Mathieu sur 24 objets, vous pouvez jouer à ce petit puzzle tant que vous voudrez (cf. ici pour les explications), je doute que ça permette de visualiser vraiment le groupe. Quant à ceci, c'est une représentation à peu près fidèle du graphe de Higman-Sims (si tant est qu'on arrive à distinguer les sommets, mais bon, j'ai mis sur Wikipédia les vues les plus importantes), mais ça ne montre pas vraiment ce qui le rend remarquable, on ne peut certainement pas voir le groupe de Higman-Sims là-dedans, et je ne vous parle pas du réseau de Leech dont il s'agit d'un bout vraiment minuscule. (S'il y a un objet mathématique que je donnerais mon âme pour pouvoir « voir » directement, c'est probablement le réseau de Leech. Ce truc est… C'est juste… Comment dire… Aaaah, mais pourquoi 24 ?) Et encore, le réseau de Leech, on peut au moins vaguement imaginer faire quelque chose pour des petits bouts (comme E₈ ou le graphe de Higman-Sims, justement), mais s'agissant de quelque chose comme le groupe monstre (voyez ici pour une tentative de vulgarisation par Numberphile de ce dont il s'agit), c'est peine perdue ; c'est cependant intéressant que Conway, dans la vidéo de Numberphile, compare les groupes simples en général, et le monstre en particulier, à une décoration de Noël et ensuite à une gemme, et semble aussi contrarié que moi de ne pas pouvoir le « voir ». (Il est aussi intéressant qu'il se plaigne de ne pas comprendre pourquoi le monstre existe, mais ça aussi c'est un problème philosophique dont je voudrais parler une autre fois.) Et je ne dis rien des objets fondamentalement infinis dont les mathématiques regorgent. Comment diable pourrait-on représenter βℕ, la Longue Droite ou un cardinal inaccessible ? Tout ça est, je répète, extrêmement frustrant.

Un des buts de la vulgarisation, comme je la comprends, est donc d'essayer de faire comprendre, même en l'absence d'images — ou en présence d'images qui ne sont que des ombres sur le mur de la caverne —, que les mathématiques en général, et certains objets mathématiques en particulier, sont beaux. Et je cherche encore à explorer les manières d'y arriver. Parfois on peut décrire l'objet assez précisément, mais ce n'est pas forcément la bonne façon de communiquer sa beauté (le réseau E₈ peut se décrire comme l'ensemble des octuplets de nombres, qui sont soit tous entiers soit tous entiers-et-demi, et dont la somme est paire, ce n'est vraiment pas compliqué à dire ni à comprendre ; le réseau de Leech a une description un chouïa plus compliquée, mais qu'on peut quand même rendre très terre-à-terre, avec 24 nombres : mais dans un cas comme dans l'autre, ça ne vous donne aucune idée de pourquoi c'est intéressant ou beau, ni pourquoi 8 et 24 sont si remarquables). Une autre approche possible est d'énumérer quelques propriétés remarquables[#4] (par exemple, je peux dire que si vous prenez des boules toutes de même taille en dimension 8 et que vous cherchez à en placer le plus grand nombre possible en contact d'une centrale, sans qu'elles se chevauchent, vous arriverez à en mettre 240 et pas plus, et la manière dont vous aurez placé 240 boules autour d'une centrale sera rigide et les centres formeront le système de racines de E₈ ; et en dimension 24, vous arriverez à en placer 196560 et la configuration sera à symétrie près celle des vecteurs de plus petite norme dans le réseau de Leech ; et je crois qu'il n'y a qu'en dimensions 1, 2, 8 et 24 qu'il y a une telle unicité, en tout cas, elle n'a pas lieu en d'autres dimensions ≤24). Encore une autre approche consiste à décrire les connexions entre différents objets mathématiques, même si on ne les décrit pas précisément (par exemple, si on raconte un peu l'histoire de la classification des groupes simples finis, qui est en quelque sorte l'histoire de la classification de toutes les sortes de symétries finies possibles, on va évoquer les groupes sporadiques, on peut expliquer qu'au sein même de ceux-ci, à part quelques « parias », forment une « famille heureuse » qui compte trois générations, les groupes de Mathieu qui sont essentiellement des symétries sur un ensemble de (12 ou) 24 objets, les groupes qu'on peut voir comme des symétries du réseau de Leech en 24 dimensions, et la troisième génération, dont le monstre, symétries d'un « module de Moonshine », mais ce n'est peut-être pas la bonne façon de voir les choses).

[#4] Reste à savoir dans quelle mesure beau, remarquable et exceptionnel sont synonymes en mathématiques (sans doute pas complètement, c'est sûr). J'avais essayé dans cette entrée de décrire précisément un objet remarquable pas trop compliqué (l'automorphisme exceptionnel du groupe symétrique sur six objets) et d'énoncer — sans démonstration — le fait, qui le rend remarquable, que ça n'est possible que pour six objets et pas un autre nombre (et aussi ses liens avec d'autres objets exceptionnels). Est-ce que ce fait est beau ? J'ai tendance à le trouver.

☞ L'« interaction » avec les objets mathématiques

J'ai tendance à penser que le mieux est que la vulgarisation s'accompagne d'une possibilité d'« interagir » avec l'objet (c'est-à-dire l'explorer de façon interactive, naviguer dedans, jouer avec, quelque chose comme ça). L'informatique ouvre un certain nombre de possibilités dans ce sens. C'est la raison pour laquelle j'ai essayé de faire des pages Web interactives comme mon labyrinthe hyperbolique pour visualiser le (ou plus exactement, un quotient fini du) plan hyperbolique, et — je les ai déjà mentionnés ci-dessus — ce puzzle basé sur le groupe de Mathieu sur 24 objets pour essayer de comprendre ce dernier ainsi que ce navigateur d'ordinaux qui permet de zoomer sur telle ou telle partie de l'ordinal ; et en-dehors des pages Web en JavaScript, j'ai aussi fait (et je suis le zillionième à avoir fait) un programme pour calculer l'ensemble de Mandelbrot qui permet de zoomer de façon interactive. Inspiré de jeux commerciaux tels que Set et Dobble, j'ai aussi fait imprimer des jeux de cartes (voir ici et pour des exemples, j'en ai encore un basé sur la combinatoire des 27 droites sur une surface cubique) autour de structures combinatoires finies, mais le jeu à faire avec ces cartes reste à trouver. Je reviendrai plus bas sur l'idée d'un musée des mathématiques. Mais ce qui est sûr, c'est que cette idée d'interactivité, si elle demande plus d'efforts (de programmation) à déployer, multiplie les possibilités de « représenter » un objet mathématique et de le faire comprendre, ou au moins d'en faire comprendre quelques facettes, par le grand public. Je pense qu'il y a vraiment un terrain de recherche, je veux dire de recherche en vulgarisation, à mener pour trouver toutes sortes de façons de rendre « interactifs » toutes sortes d'objets mathématiques, et qui n'a été que très peu exploré. (Je considère comme un problème ouvert, par exemple, la question de savoir si on peut trouver un puzzle dont le groupe des transformations soit le groupe de Mathieu sur 24 objets, et qui soit réellement jouable et intéressant — ce que ne sont pas mes différentes tentatives dans ce sens. Et je précise que j'ai beaucoup joué avec Gap pour trouver des systèmes de générateurs qui tentent de résoudre ce « problème ouvert ».)

Une autre possibilité d'interaction, d'ailleurs, serait d'utiliser les maths pour faire des tours de magie (de cartes, par exemple) ou des choses de ce genre. On peut dire que la stratégie gagnante du jeu de nim est une forme d'interaction avec les mathématiques, il y en aurait d'autres à chercher dans le domaine de la théorie des jeux (combinatoire ou classique). Ou dans le domaine des codes correcteur (du genre choisissez un nombre entre 0 et 4000 [en fait, 4095], je vais maintenant vous poser 24 questions auxquelles vous répondrez par oui ou non pour essayer de deviner ce nombre, mais pour me compliquer la tâche vous aurez le droit de mentir à jusqu'à trois questions et je devrai quand même retrouver votre nombre (ou même, vous pouvez mentir quatre fois, mais dans ce cas ma seule obligation est de détecter le fait que vous aurez menti quatre fois) ; l'astuce est d'utiliser un bon code correcteur ; les questions prendront toutes la forme de votre nombre est-il dans la liste des 2048 suivants ?, ce qui n'est pas très drôle, mais on peut facilement mettre ça dans un ordinateur).

Après, pour revenir à la question de la beauté, je ne sais pas si l'interactivité permet vraiment de faire passer ce concept : cela permet de mieux faire comprendre l'objet, sans doute, et certainement de mieux faire comprendre qu'il y a un objet à faire comprendre (si je gagne systématiquement au jeu de nim, cela démontre — au sens usuel et pas mathématique — que j'ai bien une forme de stratégie qui me permet d'y arriver), mais la beauté, je ne sais pas vraiment.

☞ Vulgarisation des objets, ou vulgarisation des histoires

Ma conception de la vulgarisation, qui se concentre sur les objets mathématiques, n'est pas forcément bien partagée, même par ceux qui essaient d'en faire. Il y a d'autres approches que d'essayer de décrire / présenter / visualiser / rendre interactifs des objets mathématiques : on peut vulgariser en racontant l'histoire des mathématiques ou en racontant des histoires des mathématiques (vu de haut, par exemple, quelles sont les principales branches des mathématiques et comment elles interagissent et interagissent avec d'autres sciences ou disciplines ; ou l'histoire de telle ou telle aventure mathématique, comme la classification des groupes simples finis[#5]). J'aime à croire qu'il faut mélanger les approches, mais que la présentation d'objets mathématiques précis est importante et qu'il ne faut pas trop céder à la facilité de « raconter des histoires ».

[#5] Dans le genre de la vidéo de Numberphile que j'ai déjà liée ci-dessus, ou, en plus sérieux, du livre Symmetry and the Monster de Mark Ronan, que je recommande (malgré sa façon un peu agaçante d'utiliser le terme atom of symmetry pour désigner les groupes simples finis parce qu'il pense que ce sera plus parlant pour le grand public — je comprends l'idée, la comparaison est bonne, mais utiliser ce terme dout du long est tout de même un peu abusif).

☞ Que pense l'homme de la rue des mathématiques ?

En un certain sens, il me semble que les maths sont très en retard sur d'autres sciences dans le domaine de la vulgarisation, et peut-être même simplement au niveau de la culture générale : les termes d'ADN ou de trou noir sont devenus familiers au grand public, je ne suis pas certain qu'on puisse trouver un concept mathématique de découverte à peu près aussi récente et qui soit à peu près aussi connu. La notion même de cryptographie (et ne serait-ce que le terme cryptographie), alors qu'elle a un impact concret dans la vie quotidienne de n'importe qui va sur Internet, n'a franchement pas l'air connu du grand public comme je m'en suis aperçu en en parlant à des gens comme mon coiffeur.

Il faut dire que l'exposition principale qu'a le grand public avec les mathématiques, c'est-à-dire ce qu'on lui en a enseigné à l'école, est incroyablement rébarbative. Donc j'imagine que beaucoup de gens pensent que les mathématiciens passent leur temps à faire de gros calculs : soit avec des nombres soit, pour ceux qui sont allés un peu plus loin dans l'enseignement secondaire, avec des formules symboliques (c'est un petit peu moins faux, et il y a assurément des mathématiciens qui manipulent des formules compliquées, peut-être même des nombres, mais c'est tout de même extraordinairement réducteur). La notion de raisonnement déductif étant, je crois, devenue presque obscène dans les programmes scolaires français jusqu'au bac, l'activité principale du mathématicien, la démonstration, devient complètement étrangère[#6] à ceux qui ont suivi cet enseignement. (Bon, là aussi, je me mets à digresser, et j'aurais sans doute beaucoup à dire sur le sujet de l'enseignement scolaire, mais pour ça je veux d'abord trouver le temps de lire le rapport Villani-Torossian.) Et en tout cas, sauf travail intensif de vulgarisation, je ne vois pas ce qui pourrait, a priori, donner la moindre idée au grand public que les mathématiques (ou des objets mathématiques particuliers) puissent être belles. Utile, il doit en avoir quelque idée, mais là aussi je veux m'interdire de trop digresser sur la question de comment on doit essayer de justifier, auprès du grand public et dans le débat politique, la science pure (non appliquée) et son financement.

[#6] J'ai essayé dans cette entrée de faire de la vulgarisation consistant à donner une démonstration complète, à un niveau complètement élémentaire, d'un énoncé mathématique non-trivial (et vaguement récent). Et à travers certaines des questions qu'on m'a posées dans les commentaires, j'ai pu me rendre compte qu'il y a beaucoup d'éléments du raisonnement mathématique (que ce soit des techniques de démonstration ou simplement des conventions sur la manière dont on les écrit en français) qui sont problématiques à expliquer.

Peut-être que je me trompe. Un jour il y a longtemps, j'ai pris un taxi pour une course assez longue, le chauffeur s'est mis à bavarder avec moi, il m'a demandé ce que je faisais, j'ai dit que j'étais mathématicien, je m'attendais à une des réactions habituelles comme oh j'ai toujours été nul en maths (ou au contraire j'étais plutôt bon en maths mais j'ai arrêté), mais il m'a dit quelque chose qui m'a beaucoup surpris, c'est qu'il était persuadé que faire des mathématiques était comme lire l'esprit de Dieu. (Il était musulman : peut-être cela joue que l'islam enseigne que la divinité est parfaite et ne peut être représentée que de façon symbolique — il y a plus d'un mathématicien « platonicien » qui pense ce genre de choses de l'univers mathématique ou de tel ou tel de ses habitants.) J'aurais dû lui demander ce qui lui avait donné une telle perspicacité, en tout cas je trouve que c'est une façon vraiment intéressante de penser les choses.

Comme prévu, je pars un peu dans tous les sens et tout ceci est assez décousu. Mais pour revenir à l'intérêt et à l'importance de la vulgarisation, il faut sans doute que je cite Hilbert :

Ein alter französischer Mathematiker hat gesagt: Eine mathematische Theorie ist nicht eher als vollkommen anzusehen, als bis du sie so klar gemacht hast, daß du sie dem ersten Manne erklären könntest, den du auf der Straße triffst.

(Un vieux mathématicien français a dit: Une théorie mathématique ne doit pas être considérée comme complète tant qu'on ne l'a pas rendue si claire qu'on puisse l'expliquer au premier homme qu'on croise dans la rue.)

— Mathematische Probleme (exposé au congrès international des mathématiciens, Paris 1900)

(Je n'ai pas réussi à retrouver qui est le mathématicien français en question, peut-être que Hilbert l'a plus ou moins inventé.)

☞ Sur les fascinations des « mathématiciens du dimanche »

Un autre point sur lequel je devrais dire un mot concerne la manière dont les mathématiciens amateurs se fascinent pour tel ou tel type de mathématiques. Les nombres premiers, par exemple, ou les décimales de π en base 10. Et s'évertuent à chercher de l'ordre dedans, ou quelque chose de ce genre. Je suis sûr (je préfère ne pas chercher, ce genre de choses m'énerve) qu'il y a plein de gens qui ont fait de la musique composée à partir des décimales de π (et que la plupart de ceux qui ont fait ça n'ont même pas, au minimum, écrit π en base 12 s'il s'agit de jouer sur la gamme tempérée dodécaphonique usuelle). C'est un peu ironique parce que (a) toutes les conjectures vont dans le sens que les décimales de π se comportent essentiellement comme du pur hasard, c'est-à-dire comme la chose la plus chiante et inintéressante à écouter en musique et dans laquelle on ne trouvera aucun ordre intéressant (s'agissant des nombres premiers, c'est un peu plus compliqué parce que leur proportion décroît — logarithmiquement — mais l'idée est vaguement la même), et (b) on ne sait d'ailleurs essentiellement rien prouver d'intéressant dans le sens de telles conjectures (ni même vraiment formaliser autre chose que des variantes très faibles comme conjecturer que toute suite finie de chiffres se trouvera dans les décimales de π en n'importe quelle base fixée avec la même fréquence asymptotique que dans une suite aléatoire de chiffres de cette base, ce qui est certainement vrai mais qu'on est à des années-lumières de savoir prouver). Bon, tant mieux pour eux si les mathématiciens du dimanche ont envie d'accumuler les questions du genre il existe une infinité de nombres premiers p tels que les nombres p−6 et (2p)−1 soient également premiers (conjecture de Tartempion Dugenou : je ne sais pas si quelqu'un a déjà sorti celle-là précisément, mais on peut facilement générer une infinité de telles conjectures sur lesquelles personne ne saura rien dire), mais j'ai l'impression qu'à se focaliser sur des bouts des maths qui sont faciles à comprendre mais sur lesquels il n'y ait finalement pas grand-chose à dire en tout cas dans cette ligne d'idée, ils passent à la fois à côté de la beauté plus profonde des mathématiques et à côté de domaines où ils (des amateurs) pourraient faire des contributions utiles. Un des buts de la vulgarisation devrait être, selon moi, de montrer aux passionnés de ce genre qu'ils peuvent se passionner pour quantité d'autres choses que les nombres premiers et les décimales de π.

☞ Sur un musée des mathématiques

J'ai entendu des rumeurs autour de la possibilité de créer à Paris un musée des mathématiques. Je sais que Cédric Villani était enthousiaste de cette idée, maintenant qu'il s'est lancé en politique j'ai peur qu'il y ait une équation de conservation qui fait que s'il a plus de pouvoir pour faire avancer les choses il a aussi moins de temps à y consacrer, donc je ne sais pas si ce projet verra vraiment le jour. (J'ai trouvé ceci, qui est récent et sans doute en rapport, donc je suis plutôt optimiste.) Cela sera peut-être l'occasion de réfléchir à comment rendre les mathématiques interactives (parce que l'interactivité est particulièrement importante dans le cadre d'un musée où, contrairement à un musée d'histoire ou d'histoire naturelle, on n'a pas de choses uniques à mettre dans des vitrines) ; la principale difficulté que je vois dans un musée est que le visiteur n'a sans doute pas envie de lire de longues explications, et que si on veut dépasser le stade ah, c'est joli, il est difficile de faire l'économie d'explications. Je ne sais pas ce que valent les quelques musées des maths qui existent déjà dans le monde (la seule fois où je suis allé à New York j'ai appris trop tard l'existence du MoMath), mais les quelques salles consacrées aux maths dans des musées de sciences que j'ai pu visiter m'ont souvent semblé assez décevantes (surtout par leur caractère hétéroclite et désorganisé : on rassemble au même endroit un tas de trucs qui n'ont guère de rapport entre eux, et on laisse le spectateur sans fil directeur, sans idée de quelles maths exposées sont vieilles ou récentes, faciles ou difficiles…).

Ajout () : Je suis tombé sur cette vidéo de vulgarisation mathématique ou peut-être, plutôt, de méta-vulgarisation, qui insiste sur l'importance du choix des bonnes analogies. Je ne suis pas forcément d'accord avec la qualité des analogies qu'il décrit, ou surtout, avec l'idée que l'une doit remplacer l'autre (elles doivent plutôt s'additionner), mais la vidéo est intéressante au moins dans le contexte de cette entrée.

↑Entry #2519 [older| permalink|newer] / ↑Entrée #2519 [précédente| permalien|suivante] ↑

↓Entry #2518 [older| permalink|newer] / ↓Entrée #2518 [précédente| permalien|suivante] ↓

(vendredi)

Quelques notes sur la factorisation des entiers

J'ai donné mardi un exposé à des professeurs de classes préparatoires, dans le cadre d'un journée Télécom-UPS, sur la factorisation des entiers (l'idée était que je fisse un exposé général introductif sur le problème, qu'un de mes collègues donnât un exposé sur les courbes elliptiques et qu'un autre organisât un TP sur l'algorithme de Lenstra). Mes transparents ne sont sans doute pas très intéressants parce que je les ai écrits à la quatrième vitesse (quoi, le 15 mai c'est demain ? mais j'étais persuadé que c'était mercredi !), ils contiennent d'ailleurs du coup sans doute beaucoup d'erreurs ou d'approximations, et je les ai accompagnés d'énormément d'explications à l'oral ; mais à tout hasard, les voici.

↑Entry #2518 [older| permalink|newer] / ↑Entrée #2518 [précédente| permalien|suivante] ↑

↓Entry #2512 [older| permalink|newer] / ↓Entrée #2512 [précédente| permalien|suivante] ↓

(mardi)

Encore de jolies images quasipériodiques

Encore un peu d'art mathématique construit autour de l'élégance du nombre 7 et de la quasipériodicité. Cette fois-ci, je vais faire travailler votre navigateur plutôt que calculer les images moi-même (l'image qui suit, normalement, est animée et change de temps en temps ; sa périodicité est d'une semaine de 10 minutes et 04.8 secondes [correction () j'avais fait une erreur d'un facteur 1000 parce que JavaScript renvoie le temps en millisecondes et pas en secondes]) :

Jeu de couleurs : Échelle :

M'étant fatigué à programmer ça, j'avoue que j'ai maintenant un peu la flemme d'expliquer de quoi il s'agit (surtout que je ne suis pas sûr d'en avoir une idée si précise moi-même), et je suis un peu tenté de dire vous n'avez qu'à lire le source JavaScript, il n'est pas obfusqué. Mais pour dire quand même un peu d'où ça sort, je suis parti d'une jolie construction de pavages de Penrose décrite dans un article de Nicolaas Govert de Bruijn, Algebraic theory of Penrose's non-periodic tilings of the plane, I, Nederl. Akad. Wetensch. (=Indag. Math.) 43 (1981), 39–42 (notamment §4), et j'ai remplacé 5 par 7 un peu partout (on peut d'ailleurs changer seven = 7 par d'autres valeurs dans mon code et voir ce que ça fait, ça devrait marcher ou au moins marchouiller) et supprimé une hypothèse qui a sans doute un intérêt pour cet article mais pas vraiment s'il s'agit juste de faire de « jolies images ». (Cet article m'avait été présenté par un candidat au moment où j'étais examinateur aux TIPE à l'ENS. J'avais écrit du code à ce moment-là, mais je n'avais pas bien compris comment fabriquer quelque chose de symétrique, et par ailleurs je coloriais les morceaux de façon bizarre, donc ça ne donnait pas un résultat très beau ; j'y ai repensé en écrivant l'entrée précédente.)

Très sommairement, la construction est la suivante : on part de sept familles de droites parallèles régulièrement espacées dont les directions sont séparées des multiples de 2π/7 (dans un premier temps, on pourra imaginer que l'origine du plan est à mi-chemin entre deux droites dans chaque famille) : appelons ça une heptagrille. On fait l'hypothèse qu'il n'y a pas de points où trois droites différentes de l'heptagrille se coupent. Le pavage sera en quelque sorte dual de l'heptagrille, au sens où à chaque intersection de deux droites de l'heptagrille on va associer un losange du pavage (et chaque sommet du pavage est associé à une composante connexe du complémentaire de la réunion des droites de l'heptagrille). Pour calculer les coordonnées d'un point du pavage, on commence par attribuer des valeurs entières aux bandes délimitées par les droites de chaque famille de l'heptagrille, disons de façon que l'origine ait la valeur 0 : pour un point P « général » du plan où vit l'heptagrille (« général » c'est-à-dire non situé sur une droite) on a ainsi sept valeurs entières k₀,…,k₆, selon les bandes où il se situe, et on associe à P le point Φ(P) du plan complexe somme des kj·ζjζ=exp(2iπ/7) est une racine septième de l'unité ; si le point P est sur une droite, l'un des kj va prendre deux valeurs entières adjacentes au voisinage de P, et s'il est sur deux droites à la fois, on va avoir deux des kj qui prennent deux valeurs adjacentes : les quatre points associés par Φ (i.e., sommes des kj·ζj) sont alors les quatre sommets d'un losange du pavage. Ceci définit le pavage, qu'il est facile de construire en énumérant tous les points de croisement de droites de deux familles de l'heptagrille. (La forme du losange est déterminée par l'écart entre les angles des deux droites qui s'intersectent au point auquel il est associé.) Pour muter le pavage, on peut décaler les différentes familles de droites constituant l'heptagrille (si le décalage est le même pour chaque famille, la symétrie est conservée).

Bon, la description ci-dessus est certainement assez obscure, mais je n'ai pas le temps d'expliquer mieux. Par ailleurs, il y a certainement quelque chose d'intelligent à dire qui fait intervenir les mots système de racines de type A et plan de Coxeter, mais là, tout de suite, comme ça, je ne vois pas bien.

Ajout () : J'ai ajouté un sélecteur pour afficher ça en couleurs (les couleurs sont choisies d'après l'orientation des losanges). Mais je continue à préférer nettement la version en teintes de gris (choisies d'après la forme des losanges). Nouveaux ajouts : J'ai aussi ajouté de quoi changer l'échelle, et de quoi se déplacer (cliquer+déplacer la souris), voir aussi l'entrée suivante.

↑Entry #2512 [older| permalink|newer] / ↑Entrée #2512 [précédente| permalien|suivante] ↑

↓Entry #2511 [older| permalink|newer] / ↓Entrée #2511 [précédente| permalien|suivante] ↓

(lundi)

Je fais de jolies images avec la transformée de Fourier

[Transformée de Fourier d'un carré]

[Transformée de Fourier d'un hexagone]

[Transformée de Fourier d'un octogone]

[Transformée de Fourier d'un décagone]

[Transformée de Fourier d'un dodécagone]

[Transformée de Fourier d'un tétradécagone]

[Transformée de Fourier d'un hexadécagone]

[Transformée de Fourier d'un octadécagone]

[Transformée de Fourier d'un icosagone]

[Transformée de Fourier d'un doicosagone]

[Transformée de Fourier d'un tétraicosagone]

Pour une fois, cette entrée mathématique n'a aucun autre but que de « faire joli ». Il y a peut-être des choses intéressantes à dire à ce sujet (et ces choses intéressantes font peut-être intervenir des mots comme quasi-cristal ou pavage de Penrose), mais je n'ai pas vraiment envie d'y réfléchir.

Les images ci-contre à droite (faites défiler vers le haut et vers le bas, ou voyez ici sur Imgur) représentent les transformée de Fourier de polygones réguliers, et plus exactement des n-gones réguliers pour n pair allant de 4 à 24. Elles sont représentées par des nuances de gris pour les valeurs positives (où 0=noir et n=blanc) et des nuances de bleu pour les valeurs négatives (où 0=noir et −n=bleu intense). Ce que j'appelle transformée de Fourier d'un n-gone régulier (ou plus exactement, des sommets du polygone — je ne trouve pas de tournure qui ne soit pas invraisemblablement lourde), c'est la transformée de Fourier d'une somme de n distributions δ, l'une centrée en chaque sommet du n-gone (le n-gone étant lui-même centré à l'origine). Plus concrètement, la fonction tracée est donc la somme de n ondes planes (toutes en phase à l'origine) partant dans chacune des n directions régulièrement espacées autour de l'origine :

k=0n1 exp 2iπ cos2kπn x + sin2kπn y

(Ou, pour les navigateurs pourris qui ne gèrent pas le MathML : ∑k=0n−1exp(2iπ·(cos(2kπ/nx+sin(2kπ/ny)).) Pour n pair, ceci est bien une fonction réelle, et elle possède une symétrie de rotation d'ordre n autour de l'origine. Contrairement à l'impression qu'on peut avoir, elle n'est pas périodique (sauf dans les cas « cristallographiques » n=4 et n=6, qui ne sont pas franchement passionnants), seulement quasi-périodique. Il n'est pas concevable une seule seconde que je sois le premier à mettre de telles images en ligne mais, bizarrement, je ne trouve pas comment d'autres gens ont pu les appeler.

On pourra noter que quand n tend vers l'infini, la fonction (correctement renormalisée) tend (en un certain sens, que je n'ai vraiment pas envie de chercher à préciser) vers une fonction de Bessel de première espèce J de la distance à l'origine : c'est ce qu'on commence à voir par le jeu d'anneaux concentriques autour de l'origine pour n grands.

Bon, enfin, ce qui importe surtout c'est que ce soit visuellement plaisant, et je trouve que ça l'est.

Comme la fonction n'est pas périodique, ça pourrait être intéressant (surtout pour n modérément grand) d'en faire un « explorateur » interactif en JavaScript, où on pourrait se déplacer dessus, zoomer ou dézoomer, et ce serait calculé en temps réel. Mais j'avoue que je n'ai pas la patience de programmer ça.

En revanche, pour ceux qui trouvent que mes images 2D ci-dessus sont trop statiques, je peux vous proposer une version 3D, qui consiste à faire la transformée de Fourier d'un polyèdre régulier et de la « trancher » en tranches 2D (c'est-à-dire, d'afficher des valeurs dans des plans parallèles les uns aux autres) selon une direction de plan qui présente une symétrie maximale (plan de Coxeter) : j'ai mis ça sur YouTube, et vous pouvez voir la transformée de Fourier d'un icosaèdre régulier et celle d'un dodécaèdre régulier (le plan de Coxeter fournit une symétrie d'ordre 10 : c'est la direction de plan parallèle à deux faces opposées quelconques du dodécaèdre). Là aussi, j'ai du mal à comprendre pourquoi une recherche Google de Fourier transform of dodecahedron ou variantes ne donne essentiellement rien (à part des choses que j'ai moi-même calculées, dont une vieille version des mêmes vidéos) : même si ça ne doit servir qu'à « faire joli », c'est pourtant quelque chose d'éminemment naturel à regarder, il me semble.

(J'ai vaguement imaginé, aussi, calculer la transformée de Fourier de polygones et polyèdres pleins, et aussi de leurs facettes et arêtes, mais outre que ce serait excessivement pénible à calculer, je pense que ce serait très décevant, en fait : ça ressemblerait sans doute à peu près la même chose mais en s'atténuant très vite quand on s'écarte de l'origine.)

↑Entry #2511 [older| permalink|newer] / ↑Entrée #2511 [précédente| permalien|suivante] ↑

↓Entry #2507 [older| permalink|newer] / ↓Entrée #2507 [précédente| permalien|suivante] ↓

(mercredi)

Le progrès récent sur le problème de Hadwiger-Nelson

J'ai déjà parlé à plusieurs reprises du problème de Hadwiger-Nelson sur ce blog (ici en général, et ici pour mes malheurs personnels liés à ce problème), et il faut que j'en reparle puisqu'il y a eu un progrès considérable. Le problème de Hadwiger-Nelson a ceci de sympathique que c'est un problème de mathématique de niveau recherche (au sens empirique où il y a, effectivement, des mathématiciens professionnels qui ont fait de la recherche dessus et publié des choses à son sujet) dont un bon élève de primaire peut comprendre l'énoncé, un bon collégien peut comprendre les meilleures bornes connues jusqu'à la semaine dernière, et un bon lycéen peut les trouver lui-même. (Enfin, quelque chose comme ça.) Je rappelle l'énoncé :

Trouver le plus petit nombre χ de couleurs nécessaires pour colorier le plan de manière à ce qu'il n'y ait jamais deux points situés à distance 1 l'un de l'autre et qui aient la même couleur.

Ce χ s'appelle le nombre chromatique du plan ou nombre [chromatique] de Hadwiger-Nelson. Jusqu'à la semaine dernière, tout ce qu'on savait était que 4≤χ≤7.

Le fait que χ≤7, c'est-à-dire que sept couleurs suffisent, est montré par un coloriage explicite (d'un pavage du plan par des hexagones) avec 7 couleurs, coloriage qui est représenté par le dessin ci-contre à droite que je recopie de ma précédente entrée sur le sujet ; l'unité de longueur est figurée par le trait noir dans le coin en haut à gauche de la figure : quel que soit l'endroit où on le place et la manière dont on le tourne, les deux extrémités tombent toujours sur deux couleurs différentes ; et le problème est, donc, de savoir si on peut faire ça avec strictement moins de sept couleurs.

La minoration χ≥4 (c'est-à-dire qu'au moins quatre couleurs sont nécessaires), elle, est démontrée par un graphe fini tout à fait explicite, appelé Moser's spindle (fuseau de Moser ?) : je le recopie lui aussi de mon entrée précédente (ci-contre à gauche), toutes les arêtes représentées ont la même longueur (l'unité de longueur), et il n'est pas possible de colorier ses sommets avec seulement trois couleurs de façon que deux sommets reliés par une arête ne soient jamais de la même couleur. (En effet, si on ne dispose que de trois couleurs, chaque triangle équilatéral de côté 1 [du graphe] doit avoir un sommet de chaque couleur, du coup, dans le graphe représenté à gauche, chacun des deux sommets en haut à droite a la même couleur que celui en bas à gauche, donc ils ont la même couleur l'un que l'autre, or ils sont reliés par une arête.) Bref, dans tout coloriage du plan avec 3 couleurs, il y en a deux situés à distance 1 qui ont la même couleur.

Si vous n'aimez pas le fuseau de Moser, vous pouvez aussi utiliser le graphe de Golomb, représenté ci-contre à gauche (lui n'était pas dans l'entrée précédente, il faut bien que je m'embête un peu à faire du SVG et à calculer que les coordonnées d'un point valent (1,√11)/6), qui est plus joli et plus symétrique. Comme le fuseau de Moser, il n'est pas coloriable avec trois couleurs : si on a seulement trois couleurs, une fois qu'on en donne une au point central, les six points à distance 1 de lui doivent partager les deux autres couleurs en alternance, et notamment les trois qui sont reliés au triangle « oblique » sont de la même couleur, ce qui ne laisse que deux couleurs pour colorier ce dernier.

Bref, la minoration vient de graphes finis tout à fait explicites.

En fait, on sait à cause d'un théorème de compacité (que les théoriciens des graphes appellent le théorème d'Erdős et de Bruijn, et que les logiciens considèrent comme une conséquence immédiate du théorème de compacité du calcul propositionnel) que toute minoration sur χ s'obtient par un graphe fini, c'est-à-dire que χ est aussi la plus grande valeur possible du nombre de couleurs d'un graphe de ce genre. Donc on peut reformuler le problème de Hadwiger-Nelson de la façon suivante :

Trouver le plus petit nombre χ de couleurs nécessaires pour colorier un nombre fini quelconque de points du plan de manière à ce qu'il n'y ait jamais deux points situés à distance 1 l'un de l'autre et qui aient la même couleur.

(Le « fuseau de Moser » ci-dessus étant à comprendre comme l'ensemble de sept points qui sont les sommets tracés : on ne peut pas colorier cet ensemble de sept points avec trois couleurs donc χ≥4.)

Jusqu'à la semaine dernière, donc, c'est tout ce qu'on savait. Toute recherche sur ce problème a porté sur des analogues ou des généralisations (nombre chromatique de l'espace, nombre chromatique du plan à coordonnées dans ceci-cela, nombre chromatique fractionnaire, ce genre de choses).

Voilà que, dimanche, un certain Aubrey (David Nicholas Jasper) de Grey a mis un papier sur l'arXiv prouvant que χ≥5 : i.e., dans tout coloriage du plan avec 4 couleurs, il y en a deux situés à distance 1 qui ont la même couleur. (Je l'ai appris par un commentaire sur ma première entrée au sujet du problème.)

C'est assez sidérant pour plusieurs raisons. D'abord parce que c'est quand même un problème sur lequel on est restés coincés pendant environ 50 ou 60 ans (l'histoire du problème est elle-même assez tarabiscotée, mais il semble que Nelson l'ait imaginé dans les années '50 et qu'il — le problème — soit devenu célèbre une petite dizaine d'années plus tard). Mais aussi parce le de Grey auteur du papier n'est pas mathématicien (ou en tout cas, pour éviter de se mouiller sur ce que mathématicien veut dire, il n'est pas mathématicien de profession, et ne semble pas avoir fait de contributions aux mathématiques avant ça) ; il est « biogérontologue », connu pour ses positions contre le vieillissement, et considéré par certains comme un gourou voire un crackpot (le fait qu'il ressemble à Gandalf doit aider ce genre de préjugés). Il ne faut pas croire sur parole n'importe quel papier mis sur l'arXiv surtout quand il annonce un résultat « spectaculaire », mais, en l'occurrence, (1) le papier est bien écrit (les arguments sont rapides mais clairs et écrits dans le style habituel dans lequel on écrit les mathématiques), et de toute façon (2) une fois connu le graphe construit, il est modérément facile de vérifier le résultat par ordinateur, des gens ont déjà vérifié qu'un des graphes décrits par de Grey est réalisable avec distance 1[#] et (au moyen d'un SAT-solver) n'est pas 4-coloriable[#2], donc le résultat principal est certifié valable (nonobstant d'éventuelles erreurs très mineures dans la description).

[#] Ici et dans la suite, j'emploie le terme réalisable avec distance 1 pour dire que le graphe est réalisable comme un ensemble de points dans le plan de sorte que toutes les arêtes aient longueur 1. (On peut éventuellement demander que, réciproquement, chaque paire de points à distance 1 donne effectivement une arête du graphe ça ne changera rien puisque ajouter des arêtes ne peut qu'augmenter le nombre chromatique.)

[#2] Ici et dans la suite, j'emploie le terme k-coloriage pour signifier, bien sûr, un coloriage avec k couleurs de façon que deux sommets reliés par une arête (i.e. à distance 1) ne soient jamais de la même couleur ; et k-coloriable pour dire qu'un k-coloriage existe.

Mais pour être épatant, ce résultat est aussi un peu frustrant, je vais essayer de dire pourquoi.

Quand j'avais commencé à réfléchir au problème de Hadwiger-Nelson, ma première intuition était que χ=7 était sans l'ombre d'un doute la bonne valeur, et qu'il s'agissait juste de trouver de bons graphes, et que, si on ne les connaissait pas, c'était juste qu'on n'avait pas cherché assez fort, notamment avec des ordinateurs. (Cette intuition initiale est donc confirmée par le résultat de de Grey, mais je ne vais pas dire ha ha, j'avais raison, puisque, comme je vais l'expliquer, j'ai ensuite changé d'avis.) En gros, ce qui fait « marcher » le « fuseau de Moser » représenté ci-dessus est qu'on a le triangle équilatéral dont les 3-coloriages sont très peu nombreux, donc suffisamment rigides pour qu'on arrive à les combiner pour fabriquer un graphe plus gros qui n'est pas 3-coloriable. L'espoir, ensuite, serait que les 4-coloriages du fuseau (ou du graphe de Golomb) soient assez rigides pour qu'on arrive à combiner plusieurs fuseaux pour former un graphe qui ne soit pas 4-coloriable. Et qu'on puisse monter encore un coup pour former un graphe qui ne soit pas 5-coloriable, puis un qui ne soit pas 6-coloriable, ce qui démontrerait χ=7.

Plus tard, j'étais beaucoup moins convaincu de χ=7 : la raison est que j'ai essayé de réfléchir à comment on pourrait construire des graphes réalisable avec distance 1 et qui ne soient pas 4-coloriables, et j'ai eu l'impression de buter contre des problèmes insurmontables. Comme je le dis au paragraphe précédent, on peut essayer de combiner des fuseaux de Moser (ou des graphes de Golomb) et essayer de limiter leurs possibilités de 4-coloriages jusqu'à toutes les tuer. Mais j'ai un peu essayé et je m'y suis salement cassé les dents : tout me semblait suggérer que plus on augmente le nombre de sommets plus les possibilités de 4-coloriages se multiplient, plus vite qu'on arrive à les tuer en ajoutant des arêtes. Pour être un peu moins vague, j'ai eu l'impression que la seule façon exploitable de fabriquer des graphes réalisables avec distance 1 dans le plan est de prendre deux graphes G₁,G₂ déjà réalisés avec distance 1 et utiliser une isométrie plane sur G₂ (en faixant G₁) pour imposer des identifications de sommets ou fabriquer des arêtes, mais pour ça, on n'a que très peu de degrés de liberté (le groupe des isométries planes est de dimension 3), donc, sauf coïncidences, on ne peut ajouter essentiellement que trois arêtes (ou une identification de sommet et une arête) ; j'ai eu l'impression que « sauf coïncidence », tout ceci devrait conduire à une borne sévère sur la dégénérescence des graphes réalisables avec distance 1, donc sur leur nombre chromatique ; en fait, qu'ils devaient être des graphes de Laman — « sauf coïncidence », donc, mais je ne voyais pas comment fabriquer des « coïncidences » intéressantes. Bref, tout ça pour dire que j'ai essayé justement l'approche que de Grey fait marcher, que je n'ai pas du tout réussi à en faire quoi que ce soit, et que je me suis même mis à penser que ça ne pouvait pas marcher « sauf coïncidence » mais que ce serait extraordinairement difficile de prouver l'inexistence de telles « coïncidences » ou, a contrario, d'en fabriquer. Du coup, j'ai commencé à douter que χ=7 soit la bonne valeur (je ne prétends pas que j'étais convaincu que χ=4, mais que ma foi dans le fait que χ=7 s'était envolée jusqu'à ce qu'on me signale la trouvaille de de Grey).

Ajout : Un autre de mes espoirs était qu'on puisse chercher à extraire un graphe de nombre chromatique au moins 5 (voire 6, voire 7) comme un sous-graphe de l'analogue de Hadwiger-Nelson sur un corps fini, disons le graphe (ℤ/pℤ)² avec une arête entre (x₁,y₁) et (x₂,y₂) lorsque (x₂−x₁)² − (y₂−y₁)² = 1. (La motivation étant que si un graphe plan est réalisable avec distance 1, il est aussi réalisable à coordonnées algébriques, ces coordonnées de scindent modulo un ensemble de densité >0 de nombres premiers p, donc imposent la même inégalité sur les nombres chromatiques des (ℤ/pℤ)² pour la relation que je viens de dire.) Évidemment, cet espoir était naïf — mais vu que les coordonnées du graphe calculé par de Grey sont dans des extensions assez petites de ℚ comme je le soupçonnais, ce n'était pas complètement stupide non plus.

C'est dire que je suis surpris par le tour de force. La lecture du papier lui-même est un peu décevante, cependant : il y a un mélange de raisonnements « à la main » sur les 4-coloriages de graphes de plus en plus grands réalisables avec distance 1, et de vérifications par ordinateur (avec différentes astuces pour rendre la vérification plus gérable), mais au final je ne suis pas vraiment Éclairé sur la manière dont il arrive à obtenir suffisamment d'arêtes eu égart au nombre de sommets (le graphe réalisable avec distance 1 et non 4-coloriable dont Dustin Mixon publie le fichier de données sur son blog — revoici le lien — a 1585 sommets et 7909 arêtes), ou sur la raison pour laquelle je m'étais trompé en pensant qu'il était très difficile d'obtenir une grande dégénérescence.

Ce qui est frustrant, c'est que ce progrès rend le problème de Hadwiger-Nelson beaucoup moins intéressant. Peut-être que la presse généraliste va s'en emparer (et raconter des conneries), et il va sans doute y avoir des efforts renouvelés pour construire des graphes plus simples prouvant χ≥5 (cf. ici) ou pour pousser jusqu'à χ≥6 voire χ=7, mais mathématiquement, le problème a un peu perdu de sa beauté. Pourquoi ? Déjà parce qu'on ne peut plus donner ça comme un exemple de problème où l'état de l'art correspond à ce qu'un lycéen peut trouver tout seul. Mais surtout je suis maintenant revenu à mon intuition première, et complètement convaincu d'une part que χ=7 et d'autre part que des graphes le démontrant peuvent se construire avec des techniques de type « dupliquer et identifier » et des recherches sur ordinateur (à supposer qu'ils ne soient pas trop grands). Il aurait été beaucoup plus intéressant de chercher à montrer que certains graphes ne peuvent pas exister que de chercher à les exhiber.

Après, on peut s'intéresser à toutes sortes de problèmes adjacents. Je soumets notamment la question suivante, ou problème de Hadwiger-Nelson lorentzien (que j'espérais rendre publique via cette note, mais comme cette dernière est partie à la poubelle, personne n'est au courant de ce problème) :

Trouver le plus petit nombre χL de couleurs nécessaires (ou bien ∞ si aucun nombre fini ne suffit) pour colorier le plan de manière à ce qu'il n'y ait jamais deux points (t₁,x₁) et (t₂,x₂) situés à intervalle de Lorentz 1 l'un de l'autre, c'est-à-dire (t₂−t₁)² − (x₂−x₁)² = 1, et qui aient la même couleur.

(Autrement dit, on remplace les cercles de rayon 1 — translatés de {x²+y²=1} — dans le problème de Hadwiger-Nelson par des hyperboles translatées de {t²−x²=1}, représentant, si on veut, un intervalle d'espace-temps. Il y a beaucoup de similarités, parce que le groupe des isométries lorentziennes, comme le groupe des isométries euclidiennes, et de dimension 3. À la différence du problème de Hadwiger-Nelson euclidien, dans le problème lorentzien les graphes réalisables avec intervalle 1 sont naturellement orientés, par la valeur de la coordonnée t ; et on peut se convaincre qu'il n'existe pas de triangle ; comme il existe néanmoins des cycles d'ordre impair, on a quand même χL≥3.)

Je conjecture que χL=∞ (en tout cas, je ne sais montrer aucune borne supérieure sur χL). Le problème semble plus dur que Hadwiger-Nelson euclidien, car il ne semble pas exister de coloriage évident avec un nombre fini de couleurs, mais a contrario, si on veut prouver χL=∞, il faudra construire toute une famille de graphes finis.

Ajout : Je devrais mentionner qu'une des raisons de s'intéresser à χL est que l'analogue complexe du nombre de Hadwiger-Nelson, c'est-à-dire le nombre chromatique χC du graphe ℂ² avec une arête entre (x₁,y₁) et (x₂,y₂) lorsque (x₂−x₁)² − (y₂−y₁)² = 1, majore à la fois χ (euclidien) et χL (lorentzien), et qu'il est lui-même majoré par le χ de ℝ⁴ pour la métrique de signature indéfinie (++−−) (c'est-à-dire le nombre chromatique du graphe ℝ⁴ avec des arêtes définies par des hyperboloïdes translatés de {t²+u²−v²−w²=1}). Je conjecture à plus forte raison que χC=∞, et en fait c'est surtout ça que je trouve intéressant (parce que c'est un problème purement algébrique).

↑Entry #2507 [older| permalink|newer] / ↑Entrée #2507 [précédente| permalien|suivante] ↑

↓Entry #2503 [older| permalink|newer] / ↓Entrée #2503 [précédente| permalien|suivante] ↓

(vendredi)

Jouons maintenant avec le groupe de Weyl de F₄ parce que c'est plus facile

Cette entrée est la petite sœur de la précédente : après avoir écrit cette dernière, je me suis rendu compte (et on me l'a par ailleurs fait remarquer dans les commentaires) qu'il y a une version plus simple de ce dont j'y parlais et que j'aurais pu évoquer. Du coup, je vais essayer de le faire ici, en utilisant massivement le copier-coller et le recherche-remplacement. Ce que je ne sais pas, c'est s'il vaut mieux lire cette entrée-ci, ou la précédente, ou les deux en parallèle ou dans un certain ordre (bon, la réponse est peut-être bien « aucune des deux »).

Note : Principales modifications systématiques par rapport à l'entrée précédente : 8→4, E₈→F₄, D₈→B₄, 696 729 600 → 1152, et (0,1,2,3,4,5,6,23) → (½,3⁄2,5⁄2,11/2) ; il n'y a que trois vecteurs dans ma liste finale au lieu de 135 ; les contraintes de parité de changements de signes disparaissent (et du coup trouver un représentant dominaint pour W(B₄) consiste juste à passer aux valeurs absolues et à trier) ; l'opération de soustraire à chacune des huit composantes le quart de la somme de toutes devient soustraire à chacune des quatre composantes la moitié de la somme de toutes. Mais il y a quelques autres différences par ci par là, comme le fait que le système de racines est un tout petit peu plus compliqué à définir (c'est bien la seule chose qui se complique). ⁂ Ah, et puis sinon j'ai un problème typographique, qui est de savoir comment représenter agréablement des demi-entiers : il y a un symbole magique ½ pour un demi, qui est bien pratique parce que ça apparaît souvent, pour trois demis et cinq demis on peut utiliser le U+2044 FRACTION SLASH et écrire 3⁄2 et 5⁄2 ce qui si vous avez la bonne police apparaîtra peut-être comme une jolie fraction ; mais pour 11/2 je ne peux pas vraiment faire mieux qu'avec un bête U+002F SOLIDUS, parce que si je mets U+2044 FRACTION SLASH à la place, la sémantique est celle de (et ça apparaîtra exactement comme ça sous certaines polices), soit un-et-demi. Du coup, j'ai le choix entre cette écriture (½, 3⁄2, 5⁄2, 11/2) qui est bien moche, ou bien écrire (1/2, 3/2, 5/2, 11/2) mais alors il y a à la fois du ½ et du 1/2 pour le même nombre, c'est bizarre ; et si j'écris 1/2 partout, le vecteur (1/2, 1/2, 1/2, 1/2) est quand même moins lisible que (½, ½, ½, ½). Remarquez, je pourrais écrire 1½ pour trois demis et 2½ pour cinq demis, mais les matheux détestent ça en général (vu que 2·½ c'est 1 et pas 5/2). Pfff, que c'est pénible, les petites crottes de ragondin.

Partons de quatre nombres (= un élément de ℝ⁴) ; pour que ce que je raconte ne suppose aucune connaissance mathématique particulière, je précise que j'appellerai ça un vecteur et j'appellerai composantes du vecteur les quatre nombres en question. Par exemple (1, 0, 0, 0), ou bien (½, 3⁄2, 5⁄2, 11/2) sont des vecteurs avec lesquels on va pouvoir jouer (ces exemples vont être intéressants pour la suite ; et oui, c'est bien un 11/2 que j'ai écrit à la fin, bear with me, ce n'est pas une blague dans le style quel est le quatrième nombre qui complète la suite : ½, 3⁄2, 5⁄2… ?c'est évidemment 11/2). Maintenant, à partir de ce vecteur, imaginons qu'on ait le droit de faire, autant de fois qu'on veut, et dans n'importe quel ordre, les opérations très simples suivantes :

  • permuter ses composantes — c'est-à-dire les réordonner — de n'importe quelle manière (par exemple, on peut transformer (½, 3⁄2, 5⁄2, 11/2) en (3⁄2, 11/2, 5⁄2, ½), ce sont les mêmes nombres écrits dans un ordre différent),
  • changer le signe — c'est-à-dire transformer en leur opposé, remplacer moins par plus et vice versa — d'un nombre quelconque des composantes (par exemple, on peut transformer (½, 3⁄2, 5⁄2, 11/2) en (½, −3⁄2, −5⁄2, −11/2), j'ai changé le signe de trois composantes),
  • soustraire à chacune des quatre composantes la moitié de la somme de toutes (par exemple, ceci transforme (½, 3⁄2, 5⁄2, 11/2) en (−9⁄2, −7⁄2, −5⁄2, ½) : la somme des nombres était (½)+(3⁄2)+(5⁄2)+(11/2)=10 donc j'ai soustrait 5 à chacun).

Voilà qui n'est pas bien compliqué. Pour fixer la terminologie les opérations des deux premiers types que je viens de dire seront appelées opérations de W(B₄) tandis que les opérations des trois types seront dites opérations de W(F₄) (je n'essaye pas du tout de définir ce que c'est que W(B₄) ou W(F₄), en tout cas pas pour le moment, ce sont juste des termes à considérer comme un bloc).

Les opérations de W(B₄) sont assez faciles à comprendre, en réfléchissant un peu on arrive assez facilement à voir ce qu'on peut faire avec (une description plus précise sera donnée plus bas, notamment, de quand on peut passer d'un vecteur à un autre par ces opérations). Celles de W(F₄), c'est-à-dire si on permet la troisième opération que j'ai dite, sont déjà plus mystérieuses mystérieuses : je vais donner quelques exemples ci-dessous ce qu'on peut faire avec.

La question générale est, que peut-on atteindre en appliquant les règles qui viennent d'être dites ? Autrement dit, partant d'un certain vecteur initial, quels vecteurs va-t-on pouvoir fabriquer avec les opérations qui viennent d'être dites (et combien y en a-t-il) ?

Pour prendre un exemple vraiment idiot, si le vecteur d'origine était (0, 0, 0, 0), on ne va pas très loin, il reste identique à lui-même sous l'effet de n'importe laquelle des opérations que j'ai décrites, et donc c'est la seule chose qu'on pourra atteindre.

Si le vecteur de départ est (1, 0, 0, 0), les opérations de W(B₄) (i.e., celles les deux premiers types) permettent de le transformer en n'importe quel vecteur ayant une composante égale à +1 ou −1 et les trois autres nulles, ou en abrégé un vecteur du type (±1, 0, 0, 0) (cela fait 4×2=8 vecteurs si on compte bien) ; la troisième opération transforme (1, 0, 0, 0) en (½, −½, −½, −½), et de là avec les opérations de W(B₄) on peut fabriquer les différents vecteurs (±½, ±½, ±½, ±½) dont toutes les composantes valent +½ ou −½ ; cela fait 2⁴=16 vecteurs de cette forme, soit 8+16=24 vecteurs : il se trouve (il faut le vérifier mais ce n'est pas difficile) que c'est tout ce qu'on obtient de la sorte : 24 vecteurs et pas plus. Ces 24 vecteurs portent le nom de racines courtes de F₄ (là aussi, je ne vais pas chercher à définir ce que ça veut dire, en tout cas pas aujourd'hui).

Pour donner un autre exemple, si le vecteur de départ est (1, 1, 0, 0), les opérations de W(B₄) permettent de le transformer en n'importe quel vecteur du type (±1, ±1, 0, 0) (deux composantes égales à +1 ou −1, les deux autres nulles : cela fait 6×4=24 vecteurs), et la troisième opération ne fait, cette fois, rien de nouveau. Ces 24 vecteurs portent le nom de racines longues de F₄ ; et réunies aux 24 vecteurs définis au paragraphe précédent, on obtient 48 vecteurs appelés système de racines de F₄ (c'est là essentiellement le seul point sur lequel F₄ est plus compliqué que E₈ défini à l'entrée précédente : il y a des racines courtes et longues alors que dans E₈ il n'y a qu'une seule longueur).

Je peux donner d'autres exemples. Si on part de (1, 1, 1, 0), on va pouvoir atteindre 96 vecteurs différents par les opérations de W(F₄) : il y a les 32 vecteurs du type (±1, ±1, ±1, 0) avec des signes quelconques (et un emplacement quelconque du 0), et les 64 vecteurs du type (±3⁄2, ±½, ±½, ±½) avec des signes quelconques (et un emplacement quelconque du 3⁄2), ce qui fait 32+64=96 vecteurs au total. Si on part de (2, 1, 1, 0), on peut aussi atteindre 96 vecteurs différents (ce sont juste ceux qui s'obtiennent déjà par les opérations de W(B₄), c'est-à-dire (±2, ±1, ±1, 0) avec des signes quelconques et une permutation quelconque des composantes). Si on part de (2, 1, 0, 0), on peut atteindre 144 vecteurs différents (les 48 du type (±2, ±1, 0, 0) et les 96 du type (±3⁄2, ±3⁄2, ±½, ±½)).

Mais dans le « cas général » (disons, celui qui se produit avec probabilité 1 si notre vecteur initial a été tiré au hasard, ou bien si on est parti de (½, 3⁄2, 5⁄2, 11/2)), on va atteindre exactement 1152 vecteurs. (En fait, la condition pour que ça soit le cas n'est pas très compliqué : il est nécessaire et suffisant, pour que cela se produise, que les quatre composantes du vecteur initial soient toutes non nulles, deux à deux distinctes, qu'il n'y en ait pas deux qui soient opposées, et qu'il n'y en ait pas non plus un certain nombre dont la somme soit égale à la somme des autres.) Et dans absolument tous les cas, le nombre de vecteurs qu'on peut atteindre sera fini, et sera même un diviseur de ce nombre maximal qu'est 1152.

(Il y a d'ailleurs exactement 16 cas possibles entre le cas le plus spécial qu'est (0, 0, 0, 0) et qui donne un seul vecteur atteignable et le cas le plus général qui en donne 1152. Mais je préfère rester vague sur ce que j'entends par un cas possible, parce que ce n'est pas vrai que chacun de ces cas donne forcément un nombre de vecteurs atteints différents. Les nombres de vecteurs atteignables possibles sont : 1, 24, 96, 144, 192, 288, 576 et 1152)

Pour y voir plus clair, je vais appeler orbite sous W(F₄) l'ensemble de tous les vecteurs qu'on peut atteindre à partir d'un vecteur donné par les opérations de W(F₄) (toutes celles que j'ai décrites), et orbite sous W(B₄) la chose analogue avec les opérations de W(B₄) (c'est-à-dire celles qui n'autorisent qu'à permuter les composantes et à changer le signe d'un nombre quelconques d'entre elles). Par exemple, (½, ½, ½, ½) est dans l'orbite sous W(F₄) de (1, 0, 0, 0), mais pas dans son orbite sous W(B₄).

Il sera utile de faire l'observation suivante : toutes les opérations que j'ai décrites peuvent se faire à l'envers. S'agissant des opérations de W(B₄) c'est évident (une permutation des composantes a pour inverse une autre permutation des composantes, et changer les signes deux fois revient au vecteur de départ) ; s'agissant de W(F₄), il suffit de remarquer que la troisième opération que j'ai décrite retourne sur le vecteur dont on est parti quand on l'applique deux fois (c'est un petit exercice que je laisse au lecteur). Par conséquent, si un vecteur v est dans l'orbite d'un vecteur w (que ce soit sous W(B₄) ou sous W(F₄)), alors réciproquement, w est dans l'orbite de v, et, en fait, ils ont exactement la même orbite : a contrario, deux orbites distinctes sont forcément disjointes (c'est-à-dire, sans élément commun).

Il est facile de reconnaître à quelle condition deux vecteurs définissent la même orbite sous W(B₄) : c'est-à-dire qu'on peut passer de l'un à l'autre en permutant les composantes et en changeant le signe d'un nombre quelconque d'entre elles. Pour ce faire, le mieux est de rendre toutes les composantes positives, puis de les trier par ordre croissant : on obtient ainsi un représentant de l'orbite du vecteur sous W(B₄) que je vais appeler le représentant dominant ou vecteur dominant pour W(B₄) (il faut que je souligne, cependant, que c'est un choix que j'ai fait : j'aurais pu trier par ordre décroissant, ou mettre autant de signes moins que possible ou ce genre de choses). Par exemple, le représentant dominant de (−3, −2, 5, −1) est (1, 2, 3, 5) (on passe bien d'un vecteur à l'autre par les opérations de W(B₄), et les composantes du second sont bien triées, et toutes positives). Il est très facile de calculer le représentant dominant d'un vecteur, et deux vecteurs ont la même orbite sous W(B₄) exactement lorsqu'ils ont le même représentant dominant (il y a un représentant dominant par orbite).

Il est par ailleurs aussi facile, avec un peu de dénombrement, de calculer le nombre de vecteurs dans une orbite sous W(B₄) : dans tous les cas, c'est un diviseur de 4!×2⁴ (où 4! := 1×2×3×4 = 24), soit 384, ce nombre correspondant au cas « général » qui est, par exemple, le cas pour (1, 2, 3, 4) : je détaille ça dans le paragraphe suivant en petits caractères parce que ce n'est pas important pour ce que je veux raconter.

Pour dénombrer l'orbite d'un vecteur sous W(B₄), ce qui importe est, premièrement, le nombre r de composantes qui valent 0, et, deuxièmement, les nombres s1,…,sk de composantes qui sont égales en valeur absolue. Le premier détermine le nombre de changements de signes sur un nombre de composantes qui ne change rien au vecteur : il vaut 2r ; les si, eux, déterminent le nombre de permutations des valeurs absolues des composantes qui ne changent rien : il vaut s1!⋯sk! ; donc finalement, la taille de l'orbite sous W(B₄) vaut 384/(2r·s1!⋯sk!). Par exemple, (−1, 1, 3, 3) a une orbite sous W(B₄) de taille 384/(2!·2!) (comptez un 2! pour chacune des valeurs absolues 1 et 3 qui sont répétées deux fois), soit 96, tandis que (0, 0, 0, 1) en a une de taille 384/(2³·3!) = 8, un nombre déjà signalé ci-dessus.

On peut chercher à dire des choses analogues avec les orbites sous W(F₄). À la limite ce n'est pas tellement ça qui m'intéresse ici, mais il faut quand même que j'en dise un mot, par souci de cohérence. Je vais appeler représentant dominant d'une orbite sous W(F₄), ou vecteur dominant pour W(F₄), un vecteur qui vérifie déjà toutes les conditions pour être dominant pour W(B₄) (c'est-à-dire trié par ordre croissant, avec des composantes positives), et qui vérifie, en outre, la condition suivante : la dernière composante est supérieure ou égale à la somme des trois autres (si on veut : − v₀ − v₁ − v₂ + v₃ ≥ 0, où les composantes du vecteur ont été notées v₀ à v₃). (Là aussi, c'est un choix que je fais, on pourrait en faire d'autres ; ce choix précis a une certaine logique, et comme pour le choix que j'ai fait pour W(B₄) il est vaguement « standard », mais il n'est pas forcément le plus opportun eu égard à la description que j'ai donnée des opérations de W(F₄) : peu importe.) Par exemple, (½, 3⁄2, 5⁄2, 11/2) est dominant pour W(F₄) parce que, outre qu'il l'est déjà pour W(B₄), on a 11/2≥½+3⁄2+5⁄2 ; il en va de même de (0, 0, 0, 1) (ou, d'ailleurs, de (0, 0, 0, 0)) ; en revanche, (½, ½, ½, ½) n'est pas dominant pour W(F₄) (il l'est pour W(B₄)) parce que ½ est strictement plus petit que ½+½+½. Chaque orbite sous W(F₄) possède un unique représentant dominant ; et un algorithme pour le calculer consiste à alterner les deux étapes suivantes (qui effectuent bien des opérations de W(F₄)) :

  • calculer un représentant dominant pour W(B₄) (c'est-à-dire trier les valeurs absolues, et retirer les signes moins),
  • calculer ½·(− v₀ − v₁ − v₂ + v₃) où les composantes du vecteur ont été notées v₀ à v₃ et, si ce nombre est négatif, le soustraire à v₃ tandis qu'on l'ajoute à v₀ à v₂ (il revient au même de : changer le signe des composantes v₀ à v₂, soustraire à chacune des quatre composantes la moitié de la somme de toutes, ce qui est l'opération spécifique avec laquelle j'ai définie W(F₄), et changer de nouveau le signe des composantes v₀ à v₂).

Il s'agit de répéter jusqu'à ce que le vecteur ne change plus, mais, en fait, il me semble que deux itérations suffiront toujours. À titre d'exemple, si je pars de (9⁄2, −7⁄2, −5⁄2, ½), son représentant dominant pour W(B₄) est (½, 5⁄2, 7⁄2, 9⁄2), l'étape suivante soustrait ½(−½−5⁄2−7⁄2+9⁄2)=−1 (c'est-à-dire, ajoute 1) à la dernière composante tandis qu'elle l'ajoute (c'est-à-dire, retire 1) aux autres, ce qui donne (−½, 3⁄2, 5⁄2, 11/2), dont le représentant dominant pour W(B₄) est (½, 3⁄2, 5⁄2, 11/2), et l'algorithme s'arrête là. On est donc passé de (9⁄2, −7⁄2, −5⁄2, ½) à son représentant dominant (½, 3⁄2, 5⁄2, 11/2) par des opérations de W(F₄), et bien sûr, si on inverse les opérations, on peut passer dans l'autre sens : ces deux vecteurs sont dans une même orbite sous W(F₄).

Ajout/digression : Pour dénombrer l'orbite d'un vecteur sous W(F₄), il y a une méthode, mais elle est plus compliquée que celle que j'ai donnée plus haut pour W(B₄). (Le présent paragraphe n'est inséré ici que pour être un peu complet, et il est recommandé de ne pas le lire.) On commence par remplacer le vecteur par le représentant dominant de son orbite pour W(F₄), qu'on peut calculer comme on l'a expliqué ci-dessus. Maintenant, on trace le diagramme de Dynkin de F₄, qui est représenté sur cette page. Pour chacun des quatre nœuds qui sont alignés sur ce diagramme, dans l'ordre (en suivant l'ordre indiqué par la flèche), on va l'effacer si l'une des sept quantités suivantes est non nulle : v₂ − v₁, v₁ − v₀, v₀ et ½·(− v₀ − v₁ − v₂ + v₃). (Remarquer que, par la définition d'un représentant dominant pour W(F₄), toutes les quantités qu'on vient de tester sont positives ou nulles : on efface le nœud quand la quantité est strictement positive.) À la fin du processus, il reste entre 0 et 4 nœuds (à savoir 4 si le vecteur était identiquement nul, et 0 si c'était par exemple (½, 3⁄2, 5⁄2, 11/2)) ; on efface aussi toutes les arêtes du diagramme reliant des nœuds dont au moins l'un a été effacé. Il reste une réunion disjointe de diagrammes de Dynkin (de nouveau, consulter la page Wikipédia que j'ai indiquée) : on considère l'ordre du groupe de Weyl de chacun, sachant que l'ordre du groupe de Weyl de An vaut (n+1)!, et celui de Bn ou Cn vaut 2n·n! (ce sont les seuls qui peuvent apparaître) ; on fait le produit de tous ces ordres, et on divise 1152 par le produit en question : le quotient est un entier, qui est la taille de l'orbite. Par exemple, si le vecteur était (0, 0, 0, 1), qui est bien un représentant dominant sous W(F₄), la seule quantité non nulle parmi celles testées est ½·(− v₀ − v₁ − v₂ + v₃) (qui vaut ½), donc on efface le quatrième nœud de la chaîne de quatre, ce qui reste est le diagramme de Dynkin de B₃, et on effectue donc le rapport 1152 / 48 = 24. L'orbite est donc de cardinal 24.

Maintenant, quand on a une orbite sous W(F₄), pour mieux la comprendre, on peut essayer de la décomposer en orbites sous W(B₄). C'est ce que j'ai fait plus haut : l'orbite de (0, 0, 0, 1) sous W(F₄) est la réunion de deux orbites sous W(B₄), à savoir celle de (0, 0, 0, 1) lui-même, qui a 8 éléments, et celle de (½, ½, ½, ½), qui en a 16. De même, l'orbite de (0, 0, 1, 2) sous W(F₄) est réunion de deux orbites sous W(B₄), à savoir celle de (0, 0, 1, 2) (qui a 48 éléments), celle de (½, ½, 3⁄2, 3⁄2) (qui en a 96). Ce que j'ai écrit, ici, colle avec ce que j'ai déjà écrit plus haut, si ce n'est que j'ai systématiquement utilisé les représentants dominants, à la fois pour les orbites sous W(F₄) et sous W(B₄).

Mais le cas qui m'intéresse le plus est le cas général, celui des orbites sous W(F₄) de taille 1152 (le maximum) : elles se décomposent en exactement trois orbites sous W(B₄), toutes également de taille maximale 384. La liste complète des 3 représentants des orbites pour W(B₄) constituant l'orbite pour W(F₄) de (½, 3⁄2, 5⁄2, 11/2) est la suivante :

(1/2, 3/2, 5/2, 11/2)
(1, 2, 3, 5)
(1/2, 5/2, 7/2, 9/2)

(Ils sont ici triés par ordre lexicographique inverse donnant le poids le plus fort aux dernières composantes. Mais ce n'est peut-être pas l'ordre le plus logique ici.)

Autrement dit, les vecteurs qu'on peut atteindre à partir de (½, 3⁄2, 5⁄2, 11/2) par application des opérations de W(F₄) sont exactement les vecteurs qu'on peut atteindre à partir de l'un des trois vecteurs ci-dessus par application des opérations de W(B₄) (384 vecteurs atteignables par permutation des coordonnées et changement de signes sur chacun des trois listés, soit 1152 au total). C'est d'ailleurs un exercice de programmation assez simple de vérifier la liste en question.

Voici maintenant la question à 3 zorkmids : y a-t-il une description élémentaire de la liste ci-dessus ? Euh, non, là, franchement, le copier-coller de l'entrée sur E₈ échoue un peu : autant chercher la logique dans une liste de 135×8 nombres se tient assez, autant la chercher dans une liste de 3×4 nombres aussi petits semble un peu idiot. Mais quand même, en supposant que je donne juste cette liste (en précisant éventuellement que l'ordre des entrées n'a pas d'importance, que l'ordre des composantes de chaque ligne n'en a pas non plus, et qu'on peut changer arbitrairement les signes) et que je demande trouvez la logique, y a-t-il quelque chose qui évite de parler de F₄ ?

Je subodore que la réponse est oui dans le cas de E₈, mais j'avoue que le cas de F₄ me fait un peu douter.

Il faut que j'explique cependant en quoi cela peut avoir un intérêt d'en chercher une. Dans mes explications (peut-être irritantes) ci-dessus, j'ai soigneusement omis d'expliquer ce qu'est, au juste, W(F₄), j'ai juste défini les opérations de W(F₄) et les orbites sous W(F₄). Ceux qui en savent un peu plus que le niveau élémentaire où je me suis placé auront bien sûr deviné que W(F₄) est censé être un groupe, que 1152 est son ordre, et que les 1152 vecteurs atteignables à partir de (½, 3⁄2, 5⁄2, 11/2) sont une orbite régulière (= un espace principal homogène) pour ce groupe, qui, du coup, peut servir à représenter le groupe si on choisit une origine. Pour éviter de supposer qu'on sait ce qu'est un groupe, je peux dire les choses ainsi : si je prend deux vecteurs v et w quelconques de l'orbite de (½, 3⁄2, 5⁄2, 11/2) sous W(F₄), et si j'appelle u le vecteur (½, 3⁄2, 5⁄2, 11/2) lui-même (le représentant qu'on a choisi d'appeler « dominant »), quelle que soit la succession d'opérations de W(F₄) amenant u en v, on peut appliquer la même suite d'opérations sur w, et on obtient un nouveau vecteur de l'orbite, que je vais noter vw : il se trouve qu'il ne dépend pas des opérations choisies pour amener u en v (ce n'est pas du tout évident, et c'est là qu'intervient le fait que l'orbite a 1152 éléments et pas moins). Ceci constitue une « loi de composition » sur mes 1152 éléments ; cette loi est, de plus, associative (on a x•(yz) = (xy)•z quels que soient x,y,z) et elle a u pour élément neutre (c'est-à-dire que uv=vu=v quel que soit v, ce qui est évident sur la définition), et chaque élément v a un inverse v′ (c'est-à-dire que vv′=v′•v=u). C'est ça qu'on appelle un groupe, et c'est ce groupe-là qui s'appelle W(F₄) (même si ce n'est pas vraiment la façon la plus naturelle de le définir : on a plutôt envie de le voir comme les transformations elles-mêmes plutôt que leur effet sur le vecteur particulier (½, 3⁄2, 5⁄2, 11/2)). Si on faisait pareil pour W(B₄) sur l'orbite de (1, 2, 3, 4), la loi de composition ainsi fabriquée serait la composition des permutations signées ; dans le cadre de W(Ar), que je n'ai pas défini, on obtient la composition des permutations sur r+1 objets. Représenter les éléments de W(F₄) par des quadruplets de nombres est possiblement plus sympathique que de le représenter comme on le fait habituellement (par des matrices 4×4, pour ceux qui savent ce que c'est, correspondant à la transformation linéaire effectuée) ; la description que j'ai faite est en principe algorithmique puisque j'ai donné ci-dessus un algorithme pour envoyer u = (½, 3⁄2, 5⁄2, 11/2) sur un vecteur v quelconque de l'orbite (ce qui permet, du coup, de refaire les mêmes opérations sur w), mais en pratique ce n'est pas très commode. J'aimerais croire qu'il y a une description plus élémentaire et plus sympathique comme il y a pour la composition des permutations ou des permutations signées. Ou en tout cas qui permette de calculer différentes choses sur un élément de W(F₄), par exemple son ordre ou son inverse.

Ajout/éclaircissement : Le paragraphe précédent est assez confus, mais l'idée générale est que W(F₄) est, de beaucoup de point de vues, très semblable à un groupe de permutations ou de permutations signées ; or il est facile et courant de représenter les éléments d'un groupe de permutations (éventuellement signées) par des listes d'entiers : il est possible d'en faire autant pour W(F₄), et c'est essentiellement ce que j'ai expliqué jusqu'ici, mais ce qui n'est pas très clair c'est ce que sont, au juste, les listes d'entiers en question (ou, à plus forte raison, comment fonctionne au juste l'opération de composition — ce que j'ai présenté est algorithmique, mais l'algorithme n'est vraiment pas très parlant).

J'ai posé la question sur MathOverflow pour le cas de E₈, mais pour l'instant sans grand succès.

Ajout/exemple : Avec la description que j'ai choisie, L'élément (2, 3, −1, 5) est un élément d'ordre 12 du groupe W(F₄), c'est-à-dire que c'est ce nombre de fois qu'il faut le composer avec lui-même pour retomber sur l'élément unité (½, 3⁄2, 5⁄2, 11/2). (C'est, en fait, un élément dit de Coxeter, ils jouent un rôle assez important.) Ses puissances successives sont les suivantes :

0	(1/2, 3/2, 5/2, 11/2)
1	(2, 3, -1, 5)
2	(7/2, -1/2, -5/2, 9/2)
3	(3/2, -1/2, -11/2, 5/2)
4	(3, -2, -5, -1)
5	(-1/2, -7/2, -9/2, -5/2)
6	(-1/2, -3/2, -5/2, -11/2)
7	(-2, -3, 1, -5)
8	(-7/2, 1/2, 5/2, -9/2)
9	(-3/2, 1/2, 11/2, -5/2)
10	(-3, 2, 5, 1)
11	(1/2, 7/2, 9/2, 5/2)
12	(1/2, 3/2, 5/2, 11/2)

J'avoue que tout ça a l'air assez aléatoire (à part la puissance sixième, mais ce n'est pas difficile à comprendre), et c'est sans doute de mauvais augure pour trouver une logique dans ce foutoir.

Il faut que je précise encore une chose : pourquoi précisément (½, 3⁄2, 5⁄2, 11/2) ? On pourrait chercher à représenter le groupe W(F₄) à partir de n'importe quel vecteur ayant une orbite de taille 1152, mais (½, 3⁄2, 5⁄2, 11/2) est ce qu'on appelle un vecteur de Weyl, et je soupçonne que c'est ce qui a le plus de chances de donner une réponse simple à ma question s'il peut y en avoir une (dans le cas de W(B₄), le vecteur de Weyl dominant est (1, 2, 3, 4), ce qui est quand même bien sympathique pour représenter les permutations signées). Définir exactement ce qu'est un vecteur de Weyl n'est pas tout à fait évident : je peux par exemple proposer la façon suivante, mais ce n'est pas forcément clair que ce soit intéressant : considérons un vecteur dominant u général pour W(F₄), et maintenant considérons parmi les 48 vecteurs que j'ai appelés système de racines de F₄ ci-dessus, ceux dont le produit scalaire avec u (c'est-à-dire la somme des produits des coordonnées correspondantes) est positif (sachant qu'il ne peut pas être nul) ; il se trouve que ce sont les 24 vecteurs (sur les 24 du système de racines) dont la dernière coordonnée non nulle est strictement positive ; maintenant, faisons la demi-somme de tous ces vecteurs : cela donne (½, 3⁄2, 5⁄2, 11/2) ; et en fait, si j'étais parti d'un vecteur u général quelconque (général voulant dire que son orbite a 1152 éléments, ou, ce qui revient au même, que les quatre composantes du vecteur u soient toutes non nulles et deux à deux distinctes, qu'il n'y en ait pas deux qui soient opposées, et qu'il n'y en ait pas non plus un certain nombre dont la somme soit égale à la somme des autres), alors la même procédure (faire la demi-somme des 120 vecteurs du système de racine ayant un produit scalaire positif avec u) donnerait un des 1152 vecteurs de l'orbite de (½, 3⁄2, 5⁄2, 11/2) sous W(F₄), que je cherche justement à identifier. Mais bon, cette description n'est pas franchement éclairante. Il faut plutôt se dire, moralement, que (½, 3⁄2, 5⁄2, 11/2) est, en un certain sens, le vecteur « le plus petit et le plus simple » (mais je ne veux pas chercher à définir exactement ce que cela signifie) qui ait une orbite sous W(F₄) de taille 1152.

↑Entry #2503 [older| permalink|newer] / ↑Entrée #2503 [précédente| permalien|suivante] ↑

↓Entry #2502 [older| permalink|newer] / ↓Entrée #2502 [précédente| permalien|suivante] ↓

(mercredi)

Jouons avec le groupe de Weyl de E₈ et cherchons la logique

J'ai raconté plein de fois dans ce blog (généralement je fais référence à cette entrée-là, mais c'est un thème récurrent, et de toute façon je radote) à quel point je suis fasciné par la symétrie et les structures combinatoires et toujours à la recherche de nouvelles façons de faire apparaître ou de représenter des objets mathématiques que je trouve remarquables. (Tiens, je n'ai pas encore parlé de mon jeu de cartes faussement divinatoires basé sur la combinatoire des 27 droites sur une surface cubique ? Faites-moi penser à vous montrer ça, un jour.) Je voudrais essayer ici de parler de façon extrêmement élémentaire un de mes objets préférés (il s'agit du groupe de Weyl de E₈, mais chut ! je veux éviter les mots barbares) pour arriver à une sorte de petite devinette, dont je n'ai pas la réponse, sur le mode « quelle est la logique dans les nombres suivants ? ».

Avertissement : La présentation qui suit risque d'être un peu irritante pour les mathématiciens — ou d'ailleurs pour des non-mathématiciens — parce que je vais faire tout un tas d'affirmations sans aucune sorte de justification, ce qui est normal pour de la vulgarisation, mais, pire, de façon peut-être gratuitement mystifiante ou à l'encontre de l'ordre et de la présentation logiques des choses. Désolé pour ceux que ça agacera, mais cette approche a un certain mérite pour là où je veux en venir. • Pour ceux qui veulent jouer, vous pouvez sauter toutes les explications, aller voir directement la liste de nombres donnée ci-dessus, et chercher une logique élémentaire : je pense qu'il y en a une, mais je ne la trouve pas.

Ajout : Voir aussi l'entrée suivante (qui est en bonne partie un copier-coller de celle-ci) pour le cas de F₄, qui est plus simple et donc peut-être pédagogiquement préférable.

Partons de huit nombres (= un élément de ℝ⁸) ; pour que ce que je raconte ne suppose aucune connaissance mathématique particulière, je précise que j'appellerai ça un vecteur et j'appellerai composantes du vecteur les huit nombres en question. Par exemple (1, 1, 0, 0, 0, 0, 0, 0), ou bien (0, 1, 2, 3, 4, 5, 6, 23) sont des vecteurs avec lesquels on va pouvoir jouer (ces exemples vont être intéressants pour la suite ; et oui, c'est bien un 23 que j'ai écrit à la fin, bear with me, ce n'est pas une blague dans le style quel est le huitième nombre qui complète la suite : 0, 1, 2, 3, 4, 5, 6… ?c'est évidemment 23). Maintenant, à partir de ce vecteur, imaginons qu'on ait le droit de faire, autant de fois qu'on veut, et dans n'importe quel ordre, les opérations très simples suivantes :

  • permuter ses composantes — c'est-à-dire les réordonner — de n'importe quelle manière (par exemple, on peut transformer (0, 1, 2, 3, 4, 5, 6, 23) en (0, 4, 3, 6, 1, 23, 5, 2), ce sont les mêmes nombres écrits dans un ordre différent),
  • changer le signe — c'est-à-dire transformer en leur opposé, remplacer moins par plus et vice versa — d'un nombre pair quelconque des composantes (par exemple, on peut transformer (5, 6, 7, 8, 9, 10, 11, −12) en (−5, −6, 7, −8, 9, −10, −11, 12), j'ai changé le signe de six composantes, et six est bien pair),
  • soustraire à chacune des huit composantes le quart de la somme de toutes (par exemple, ceci transforme (0, 1, 2, 3, 4, 5, 6, 23) en (−11, −10, −9, −8, −7, −6, −5, 12) : la somme des nombres était 0+1+2+3+4+5+6+23=44 donc j'ai soustrait 11 à chacun).

Voilà qui n'est pas bien compliqué. Pour fixer la terminologie les opérations des deux premiers types que je viens de dire seront appelées opérations de W(D₈) tandis que les opérations des trois types seront dites opérations de W(E₈) (je n'essaye pas du tout de définir ce que c'est que W(D₈) ou W(E₈), en tout cas pas pour le moment, ce sont juste des termes à considérer comme un bloc).

Les opérations de W(D₈) sont assez faciles à comprendre, en réfléchissant un peu on arrive assez facilement à voir ce qu'on peut faire avec (une description plus précise sera donnée plus bas, notamment, de quand on peut passer d'un vecteur à un autre par ces opérations). Celles de W(E₈), c'est-à-dire si on permet la troisième opération que j'ai dite, sont déjà plus mystérieuses mystérieuses : je vais donner quelques exemples ci-dessous ce qu'on peut faire avec.

La question générale est, que peut-on atteindre en appliquant les règles qui viennent d'être dites ? Autrement dit, partant d'un certain vecteur initial, quels vecteurs va-t-on pouvoir fabriquer avec les opérations qui viennent d'être dites (et combien y en a-t-il) ?

Pour prendre un exemple vraiment idiot, si le vecteur d'origine était (0, 0, 0, 0, 0, 0, 0, 0), on ne va pas très loin, il reste identique à lui-même sous l'effet de n'importe laquelle des opérations que j'ai décrites, et donc c'est la seule chose qu'on pourra atteindre.

Si le vecteur de départ est (1, 1, 0, 0, 0, 0, 0, 0), les opérations de W(D₈) (i.e., celles les deux premiers types) permettent de le transformer en n'importe quel vecteur ayant deux composantes égales à +1 ou −1 et les six autres nulles, ou en abrégé un vecteur du type (±1, ±1, 0, 0, 0, 0, 0, 0) (cela fait 8×7×2=112 vecteurs si on compte bien) ; la troisième opération transforme (1, 1, 0, 0, 0, 0, 0, 0) en (½, ½, −½, −½, −½, −½, −½, −½), et de là avec les opérations de W(D₈) on peut fabriquer les différents vecteurs (±½, ±½, ±½, ±½, ±½, ±½, ±½, ±½) dont toutes les composantes valent ±½ avec un nombre pair de signes moins (ou, ce qui revient au même, de signes plus ; cela fait 2⁷=128 vecteurs de cette forme), soit 112+128=240 vecteurs : il se trouve (il faut le vérifier mais ce n'est pas très difficile) que c'est tout ce qu'on obtient de la sorte : 240 vecteurs et pas plus. Ces 240 vecteurs forment d'ailleurs ce qui s'appelle le système de racines de E₈ (là aussi, je ne vais pas chercher à définir ce que ça veut dire, en tout cas pas aujourd'hui).

Je peux donner d'autres exemples. Si on part de (2, 0, 0, 0, 0, 0, 0, 0) (ou de (1, 0, 0, 0, 0, 0, 0, 0), cela revient évidemment au même quitte à tout diviser par deux, mais j'ai des raisons de préférer (2, 0, 0, 0, 0, 0, 0, 0)), on va pouvoir atteindre 2160 vecteurs différents par les opérations de W(E₈) ; c'est un peu plus fastidieux à compter : pour ceux qui veulent les détails, il y a les 16 vecteurs du type (±2, 0, 0, 0, 0, 0, 0, 0), les 1024 du type (∓3⁄2, ±½, ±½, ±½, ±½, ±½, ±½, ±½) avec un nombre pair de signes d'en bas, et les 1120 du type (±1, ±1, ±1, ±1, 0, 0, 0, 0) avec des signes quelconques. Si on part de (2, 1, 1, 0, 0, 0, 0, 0), on peut atteindre 6720 vecteurs différents (c'est encore plus pénible à compter). Si on part de (5⁄2, ½, ½, ½, ½, ½, ½, ½), on peut atteindre 17 280 vecteurs différents. Si on part de (3, 1, 0, 0, 0, 0, 0, 0) on peut atteindre 30 240 vecteurs différents.

Mais dans le « cas général » (disons, celui qui se produit avec probabilité 1 si notre vecteur initial a été tiré au hasard, ou bien si on est parti de (0, 1, 2, 3, 4, 5, 6, 23)), on va atteindre exactement 696 729 600 vecteurs. (En fait, la condition pour que ça soit le cas n'est pas très compliqué : il est nécessaire et suffisant, pour que cela se produise, que les huit composantes du vecteur initial soient deux à deux distinctes, qu'il n'y en ait pas deux qui soient opposées, et qu'il n'y ait pas non plus un nombre pair d'entre elles dont la somme soit égale à la somme des autres.) Et dans absolument tous les cas, le nombre de vecteurs qu'on peut atteindre sera fini, et sera même un diviseur de ce nombre maximal qu'est 696 729 600.

(Il y a d'ailleurs exactement 256 cas possibles entre le cas le plus spécial qu'est (0, 0, 0, 0, 0, 0, 0, 0) et qui donne un seul vecteur atteignable et le cas le plus général qui en donne 696 729 600. Mais je préfère rester vague sur ce que j'entends par un cas possible, parce que je ne crois pas que chacun de ces cas donne forcément un nombre de vecteurs atteints différents. En tout cas, les plus petits nombres possibles de vecteurs qu'on peut atteindre à partir d'un vecteur donné sont essentiellement ceux que j'ai listés ci-dessus : 1, 240, 2160, 6720, 13 440 et 17 280.)

☞ Il faut que je souligne que le fait qu'on obtienne un nombre fini de vecteurs est tout à fait remarquable. Si je faisais juste une toute petite modification à mes règles ci-dessus en autorisant, dans la deuxième opération, de changer le signe d'un nombre quelconque de composantes (au lieu d'exiger un nombre pair), alors n'importe quel vecteur non nul permettrait d'atteindre un nombre infini d'autres vecteurs avec les règles ainsi modifiées. La situation que je décris est véritablement exceptionnelle au sens où les « choses de ce genre » (en fait, les groupes finis de réflexions dans un espace euclidien) se rangent en un certain nombre de familles infinies plus une poignée d'exceptions, et W(E₈) fait partie de ces exceptions. Mais revenons à la situation bien particulière que j'ai considérée.

Pour y voir plus clair, je vais appeler orbite sous W(E₈) l'ensemble de tous les vecteurs qu'on peut atteindre à partir d'un vecteur donné par les opérations de W(E₈) (toutes celles que j'ai décrites), et orbite sous W(D₈) la chose analogue avec les opérations de W(D₈) (c'est-à-dire celles qui n'autorisent qu'à permuter les composantes et à changer le signe d'un nombre pair quelconques d'entre elles). Par exemple, (½, ½, ½, ½, ½, ½, ½, ½) est dans l'orbite sous W(E₈) de (1, 1, 0, 0, 0, 0, 0, 0), mais pas dans son orbite sous W(D₈).

Il sera utile de faire l'observation suivante : toutes les opérations que j'ai décrites peuvent se faire à l'envers. S'agissant des opérations de W(D₈) c'est évident (une permutation des composantes a pour inverse une autre permutation des composantes, et changer les signes deux fois revient au vecteur de départ) ; s'agissant de W(E₈), il suffit de remarquer que la troisième opération que j'ai décrite retourne sur le vecteur dont on est parti quand on l'applique deux fois (c'est un petit exercice que je laisse au lecteur). Par conséquent, si un vecteur v est dans l'orbite d'un vecteur w (que ce soit sous W(D₈) ou sous W(E₈)), alors réciproquement, w est dans l'orbite de v, et, en fait, ils ont exactement la même orbite : a contrario, deux orbites distinctes sont forcément disjointes (c'est-à-dire, sans élément commun).

Il est facile de reconnaître à quelle condition deux vecteurs définissent la même orbite sous W(D₈) : c'est-à-dire qu'on peut passer de l'un à l'autre en permutant les composantes et en changeant le signe d'un nombre pair d'entre elles. Pour ce faire, le mieux est de rendre toutes les composantes positives sauf éventuellement la plus petite en valeur absolue (lorsqu'il y avait initialement un nombre impair de composantes négatives), puis de les trier par ordre croissant : on obtient ainsi un représentant de l'orbite du vecteur sous W(D₈) que je vais appeler le représentant dominant ou vecteur dominant pour W(D₈) (il faut que je souligne, cependant, que c'est un choix que j'ai fait : j'aurais pu trier par ordre décroissant, ou mettre autant de signes moins que possible ou ce genre de choses). Par exemple, le représentant dominant de (−6, 3, −2, 1, 5, 5, −3, 1) est (−1, 1, 2, 3, 3, 5, 5, 6) (on passe bien d'un vecteur à l'autre par les opérations de W(D₈), et les composantes du second sont bien triées, et toutes positives sauf éventuellement la plus petite en valeur absolue). Il est très facile de calculer le représentant dominant d'un vecteur, et deux vecteurs ont la même orbite sous W(D₈) exactement lorsqu'ils ont le même représentant dominant (il y a un représentant dominant par orbite).

Il est par ailleurs aussi facile, avec un peu de dénombrement, de calculer le nombre de vecteurs dans une orbite sous W(D₈) : dans tous les cas, c'est un diviseur de 8!×2⁷ (où 8! := 1×2×⋯×8 = 40 320), soit 5 160 960, ce nombre correspondant au cas « général » qui est, par exemple, le cas pour (0, 1, 2, 3, 4, 5, 6, 7) : je détaille ça dans le paragraphe suivant en petits caractères parce que ce n'est pas important pour ce que je veux raconter.

Pour dénombrer l'orbite d'un vecteur sous W(D₈), ce qui importe est, premièrement, le nombre r de composantes qui valent 0, et, deuxièmement, les nombres s1,…,sk de composantes qui sont égales en valeur absolue. Le premier détermine le nombre de changements de signes sur un nombre pair de composantes qui ne change rien au vecteur : il vaut 2r−1 si r≥1 (ou bien 1 si r=0, soit 2max(r,1)−1) ; les si, eux, déterminent le nombre de permutations des valeurs absolues des composantes qui ne changent rien : il vaut s1!⋯sk! ; donc finalement, la taille de l'orbite sous W(D₈) vaut 5 160 960/(2max(r,1)−1·s1!⋯sk!). Par exemple, (−1, 1, 2, 3, 3, 5, 5, 6) a une orbite sous W(D₈) de taille 5 160 960/(2!·2!·2!) (comptez un 2! pour chacune des valeurs absolues 1, 3 et 5 qui sont répétées deux fois), soit 645 120, tandis que (0, 0, 0, 0, 0, 0, 1, 1) en a une de taille 5 160 960/(2⁵·6!·2!) = 112, un nombre déjà signalé ci-dessus.

On peut chercher à dire des choses analogues avec les orbites sous W(E₈). À la limite ce n'est pas tellement ça qui m'intéresse ici, mais il faut quand même que j'en dise un mot, par souci de cohérence. Je vais appeler représentant dominant d'une orbite sous W(E₈), ou vecteur dominant pour W(E₈), un vecteur qui vérifie déjà toutes les conditions pour être dominant pour W(D₈) (c'est-à-dire trié par ordre croissant, avec au plus une composante de signe négatif, qui est alors la première et qui est inférieure ou égale à la suivante en valeur absolue), et qui vérifie, en outre, la condition suivante : la somme de la première et de la dernière composante est supérieure ou égale à la somme des six autres (si on veut : v₀ − v₁ − v₂ − v₃ − v₄ − v₅ − v₆ + v₇ ≥ 0, où les composantes du vecteur ont été notées v₀ à v₇). (Là aussi, c'est un choix que je fais, on pourrait en faire d'autres ; ce choix précis a une certaine logique, et comme pour le choix que j'ai fait pour W(D₈) il est vaguement « standard », mais il n'est pas forcément le plus opportun eu égard à la description que j'ai donnée des opérations de W(E₈) : peu importe.) Par exemple, (0, 1, 2, 3, 4, 5, 6, 23) est dominant pour W(E₈) parce que, outre qu'il l'est déjà pour W(D₈), on a 0+23≥1+2+3+4+5+6 ; il en va de même de (0, 0, 0, 0, 0, 0, 1, 1) (ou, d'ailleurs, de (0, 0, 0, 0, 0, 0, 0, 0)) ; en revanche, (½, ½, ½, ½, ½, ½, ½, ½) n'est pas dominant pour W(E₈) (il l'est pour W(D₈)) parce que ½+½ est strictement plus petit que ½+½+½+½+½+½. Chaque orbite sous W(E₈) possède un unique représentant dominant ; et un algorithme pour le calculer consiste à alterner les deux étapes suivantes (qui effectuent bien des opérations de W(E₈)) :

  • calculer un représentant dominant pour W(D₈) (c'est-à-dire trier les valeurs absolues, et placer un signe moins sur la première composante s'il y a un nombre impair de signes moins),
  • calculer ¼·(v₀ − v₁ − v₂ − v₃ − v₄ − v₅ − v₆ + v₇) où les composantes du vecteur ont été notées v₀ à v₇ et, si ce nombre est négatif, le soustraire à v₀ et v₇ tandis qu'on l'ajoute à v₁ à v₆ (il revient au même de : changer le signe des composantes v₁ à v₆, soustraire à chacune des huit composantes le quart de la somme de toutes, ce qui est l'opération spécifique avec laquelle j'ai définie W(E₈), et changer de nouveau le signe des composantes v₁ à v₆).

Il s'agit de répéter jusqu'à ce que le vecteur ne change plus, mais, en fait, il me semble que trois itérations suffiront toujours. À titre d'exemple, si je pars de (0, 10, 11, 12, 13, −9, 1, 2), son représentant dominant pour W(D₈) est (0, 1, 2, 9, 10, 11, 12, 13), l'étape suivante soustrait ¼(0−1−2−9−10−11−12+13)=−8 (c'est-à-dire, ajoute 8) à la première et dernière composante tandis qu'elle l'ajoute (c'est-à-dire, retire 8) aux autres, ce qui donne (8, −7, −6, 1, 2, 3, 4, 21), dont le représentant dominant pour W(D₈) est (1, 2, 3, 4, 6, 7, 8, 21), l'étape suivante (en notant que ¼(1−2−3−4−6−7−8+21)=−8) donne (3, 0, 1, 2, 4, 5, 6, 23), dont le représentant dominant pour W(D₈) est (0, 1, 2, 3, 4, 5, 6, 23), et l'algorithme s'arrête là. On est donc passé de (0, 10, 11, 12, 13, −9, 1, 2) à son représentant dominant (0, 1, 2, 3, 4, 5, 6, 23) par des opérations de W(E₈), et bien sûr, si on inverse les opérations, on peut passer dans l'autre sens : ces deux vecteurs sont dans une même orbite sous W(E₈).

Ajout/digression : Pour dénombrer l'orbite d'un vecteur sous W(E₈), il y a une méthode, mais elle est plus compliquée que celle que j'ai donnée plus haut pour W(D₈). (Le présent paragraphe n'est inséré ici que pour être un peu complet, et il est recommandé de ne pas le lire.) On commence par remplacer le vecteur par le représentant dominant de son orbite pour W(E₈), qu'on peut calculer comme on l'a expliqué ci-dessus. Maintenant, on trace le diagramme de Dynkin de E₈, qui est représenté sur cette page. Pour chacun des sept nœuds qui sont alignés sur ce diagramme, dans l'ordre (sachant que le troisième des sept porte trois voisins), on va l'effacer si l'une des sept quantités suivantes est non nulle : ½·(v₀ − v₁ − v₂ − v₃ − v₄ − v₅ − v₆ + v₇), v₁ − v₀, v₂ − v₁, v₃ − v₂, v₄ − v₃, v₅ − v₄, v₆ − v₅ ; et pour le dernier nœud (celui qui est attaché au troisième des sept alignés) : v₀ + v₁. (Remarquer que, par la définition d'un représentant dominant pour W(E₈), toutes les quantités qu'on vient de tester sont positives ou nulles : on efface le nœud quand la quantité est strictement positive.) À la fin du processus, il reste entre 0 et 8 nœuds (à savoir 8 si le vecteur était identiquement nul, et 0 si c'était par exemple (0, 1, 2, 3, 4, 5, 6, 23)) ; on efface aussi toutes les arêtes du diagramme reliant des nœuds dont au moins l'un a été effacé. Il reste une réunion disjointe de diagrammes de Dynkin (de nouveau, consulter la page Wikipédia que j'ai indiquée) : on considère l'ordre du groupe de Weyl de chacun, sachant que le groupe de Weyl de E₇ vaut 2 903 040, celui de E₆ vaut 51 840, celui de An vaut (n+1)!, et celui de Dn vaut 2n−1·n! (ce sont les seuls qui peuvent apparaître) ; on fait le produit de tous ces ordres, et on divise 696 729 600 par le produit en question : le quotient est un entier, qui est la taille de l'orbite. Par exemple, si le vecteur était (0, 0, 0, 0, 0, 0, 1, 1), qui est bien un représentant dominant sous W(E₈), la seule quantité non nulle parmi celles testées est v₆−v₅ (qui vaut 1), donc on efface le septième nœud de la chaîne de sept, ce qui reste est le diagramme de Dynkin de E₇, et on effectue donc le rapport 696 729 600 / 2 903 040 = 240. L'orbite est donc de cardinal 240.

Maintenant, quand on a une orbite sous W(E₈), pour mieux la comprendre, on peut essayer de la décomposer en orbites sous W(D₈). C'est ce que j'ai fait plus haut : l'orbite de (0, 0, 0, 0, 0, 0, 1, 1) sous W(E₈) est la réunion de deux orbites sous W(D₈), à savoir celle de (0, 0, 0, 0, 0, 0, 1, 1) lui-même, qui a 112 éléments, et celle de (½, ½, ½, ½, ½, ½, ½, ½), qui en a 128. De même, l'orbite de (0, 0, 0, 0, 0, 0, 0, 2) sous W(E₈) est réunion de trois orbites sous W(D₈), à savoir celle de (0, 0, 0, 0, 0, 0, 0, 2) (qui a 16 éléments), celle de (−½, ½, ½, ½, ½, ½, ½, 3⁄2) (qui en a 1024), et celle de (0, 0, 0, 0, 1, 1, 1, 1) (qui en a 1120). Ce que j'ai écrit, ici, colle avec ce que j'ai déjà écrit plus haut, si ce n'est que j'ai systématiquement utilisé les représentants dominants, à la fois pour les orbites sous W(E₈) et sous W(D₈).

Mais le cas qui m'intéresse le plus est le cas général, celui des orbites sous W(E₈) de taille 696 729 600 (le maximum) : elles se décomposent en exactement 135 orbites sous W(D₈), toutes également de taille maximale 5 160 960. La liste complète des 135 représentants des orbites pour W(D₈) constituant l'orbite pour W(E₈) de (0, 1, 2, 3, 4, 5, 6, 23) est la suivante :

(0, 1, 2, 3, 4, 5, 6, 23)
(-1/2, 3/2, 5/2, 7/2, 9/2, 11/2, 13/2, 45/2)
(0, 1, 3, 4, 5, 6, 7, 22)
(1/2, 3/2, 5/2, 9/2, 11/2, 13/2, 15/2, 43/2)
(0, 1, 2, 5, 6, 7, 8, 21)
(1, 2, 3, 4, 6, 7, 8, 21)
(1/2, 3/2, 5/2, 9/2, 13/2, 15/2, 17/2, 41/2)
(3/2, 5/2, 7/2, 9/2, 11/2, 15/2, 17/2, 41/2)
(0, 1, 3, 4, 7, 8, 9, 20)
(1, 2, 3, 5, 6, 8, 9, 20)
(2, 3, 4, 5, 6, 7, 9, 20)
(-1/2, 3/2, 5/2, 7/2, 15/2, 17/2, 19/2, 39/2)
(1/2, 3/2, 7/2, 9/2, 13/2, 17/2, 19/2, 39/2)
(3/2, 5/2, 7/2, 11/2, 13/2, 15/2, 19/2, 39/2)
(5/2, 7/2, 9/2, 11/2, 13/2, 15/2, 17/2, 39/2)
(0, 1, 2, 3, 8, 9, 10, 19)
(0, 2, 3, 4, 7, 9, 10, 19)
(0, 1, 4, 5, 6, 9, 10, 19)
(1, 2, 4, 5, 7, 8, 10, 19)
(2, 3, 4, 6, 7, 8, 9, 19)
(1/2, 3/2, 5/2, 7/2, 15/2, 19/2, 21/2, 37/2)
(-1/2, 3/2, 7/2, 9/2, 13/2, 19/2, 21/2, 37/2)
(1/2, 5/2, 7/2, 9/2, 15/2, 17/2, 21/2, 37/2)
(1/2, 3/2, 9/2, 11/2, 13/2, 17/2, 21/2, 37/2)
(3/2, 5/2, 9/2, 11/2, 15/2, 17/2, 19/2, 37/2)
(0, 1, 3, 4, 7, 10, 11, 18)
(-1, 2, 3, 5, 6, 10, 11, 18)
(1, 2, 3, 4, 8, 9, 11, 18)
(0, 2, 4, 5, 7, 9, 11, 18)
(0, 1, 5, 6, 7, 8, 11, 18)
(1, 3, 4, 5, 8, 9, 10, 18)
(1, 2, 5, 6, 7, 9, 10, 18)
(-1/2, 3/2, 5/2, 9/2, 13/2, 21/2, 23/2, 35/2)
(-3/2, 5/2, 7/2, 9/2, 11/2, 21/2, 23/2, 35/2)
(1/2, 3/2, 7/2, 9/2, 15/2, 19/2, 23/2, 35/2)
(-1/2, 5/2, 7/2, 11/2, 13/2, 19/2, 23/2, 35/2)
(-1/2, 3/2, 9/2, 11/2, 15/2, 17/2, 23/2, 35/2)
(3/2, 5/2, 7/2, 9/2, 17/2, 19/2, 21/2, 35/2)
(1/2, 5/2, 9/2, 11/2, 15/2, 19/2, 21/2, 35/2)
(1/2, 3/2, 11/2, 13/2, 15/2, 17/2, 21/2, 35/2)
(0, 1, 2, 5, 6, 11, 12, 17)
(-1, 2, 3, 4, 6, 11, 12, 17)
(0, 2, 3, 5, 7, 10, 12, 17)
(-1, 3, 4, 5, 6, 10, 12, 17)
(0, 1, 4, 5, 8, 9, 12, 17)
(-1, 2, 4, 6, 7, 9, 12, 17)
(1, 2, 4, 5, 8, 10, 11, 17)
(0, 3, 4, 6, 7, 10, 11, 17)
(0, 2, 5, 6, 8, 9, 11, 17)
(0, 1, 6, 7, 8, 9, 10, 17)
(-1/2, 3/2, 5/2, 9/2, 11/2, 23/2, 25/2, 33/2)
(1/2, 3/2, 5/2, 11/2, 13/2, 21/2, 25/2, 33/2)
(-1/2, 5/2, 7/2, 9/2, 13/2, 21/2, 25/2, 33/2)
(-1/2, 3/2, 7/2, 11/2, 15/2, 19/2, 25/2, 33/2)
(-3/2, 5/2, 9/2, 11/2, 13/2, 19/2, 25/2, 33/2)
(-3/2, 5/2, 7/2, 13/2, 15/2, 17/2, 25/2, 33/2)
(1/2, 5/2, 7/2, 11/2, 15/2, 21/2, 23/2, 33/2)
(-1/2, 7/2, 9/2, 11/2, 13/2, 21/2, 23/2, 33/2)
(1/2, 3/2, 9/2, 11/2, 17/2, 19/2, 23/2, 33/2)
(-1/2, 5/2, 9/2, 13/2, 15/2, 19/2, 23/2, 33/2)
(-1/2, 3/2, 11/2, 13/2, 17/2, 19/2, 21/2, 33/2)
(0, 1, 3, 4, 5, 12, 13, 16)
(0, 2, 3, 5, 6, 11, 13, 16)
(0, 1, 3, 6, 7, 10, 13, 16)
(-1, 2, 4, 5, 7, 10, 13, 16)
(-1, 2, 3, 6, 8, 9, 13, 16)
(-2, 3, 4, 6, 7, 9, 13, 16)
(1, 2, 3, 6, 7, 11, 12, 16)
(0, 3, 4, 5, 7, 11, 12, 16)
(0, 2, 4, 6, 8, 10, 12, 16)
(-1, 3, 5, 6, 7, 10, 12, 16)
(-1, 3, 4, 7, 8, 9, 12, 16)
(0, 1, 5, 6, 9, 10, 11, 16)
(-1, 2, 5, 7, 8, 10, 11, 16)
(1/2, 3/2, 5/2, 7/2, 9/2, 25/2, 27/2, 31/2)
(1/2, 3/2, 7/2, 9/2, 11/2, 23/2, 27/2, 31/2)
(-1/2, 3/2, 7/2, 11/2, 13/2, 21/2, 27/2, 31/2)
(-1/2, 3/2, 5/2, 13/2, 15/2, 19/2, 27/2, 31/2)
(-3/2, 5/2, 7/2, 11/2, 15/2, 19/2, 27/2, 31/2)
(-5/2, 7/2, 9/2, 11/2, 15/2, 17/2, 27/2, 31/2)
(1/2, 5/2, 7/2, 11/2, 13/2, 23/2, 25/2, 31/2)
(1/2, 3/2, 7/2, 13/2, 15/2, 21/2, 25/2, 31/2)
(-1/2, 5/2, 9/2, 11/2, 15/2, 21/2, 25/2, 31/2)
(-1/2, 5/2, 7/2, 13/2, 17/2, 19/2, 25/2, 31/2)
(-3/2, 7/2, 9/2, 13/2, 15/2, 19/2, 25/2, 31/2)
(-1/2, 3/2, 9/2, 13/2, 17/2, 21/2, 23/2, 31/2)
(-3/2, 5/2, 11/2, 13/2, 15/2, 21/2, 23/2, 31/2)
(-3/2, 5/2, 9/2, 15/2, 17/2, 19/2, 23/2, 31/2)
(0, 1, 2, 3, 4, 13, 14, 15)
(1, 2, 3, 4, 5, 12, 14, 15)
(0, 1, 4, 5, 6, 11, 14, 15)
(-1, 2, 3, 6, 7, 10, 14, 15)
(0, 1, 2, 7, 8, 9, 14, 15)
(-2, 3, 4, 5, 8, 9, 14, 15)
(-3, 4, 5, 6, 7, 8, 14, 15)
(1, 2, 4, 5, 6, 12, 13, 15)
(0, 2, 4, 6, 7, 11, 13, 15)
(0, 2, 3, 7, 8, 10, 13, 15)
(-1, 3, 4, 6, 8, 10, 13, 15)
(-2, 4, 5, 6, 8, 9, 13, 15)
(0, 1, 4, 7, 8, 11, 12, 15)
(-1, 2, 5, 6, 8, 11, 12, 15)
(-1, 2, 4, 7, 9, 10, 12, 15)
(-2, 3, 5, 7, 8, 10, 12, 15)
(-2, 3, 4, 8, 9, 10, 11, 15)
(3/2, 5/2, 7/2, 9/2, 11/2, 25/2, 27/2, 29/2)
(1/2, 3/2, 9/2, 11/2, 13/2, 23/2, 27/2, 29/2)
(-1/2, 5/2, 7/2, 13/2, 15/2, 21/2, 27/2, 29/2)
(1/2, 3/2, 5/2, 15/2, 17/2, 19/2, 27/2, 29/2)
(-3/2, 7/2, 9/2, 11/2, 17/2, 19/2, 27/2, 29/2)
(-5/2, 9/2, 11/2, 13/2, 15/2, 17/2, 27/2, 29/2)
(-1/2, 3/2, 9/2, 13/2, 15/2, 23/2, 25/2, 29/2)
(-1/2, 3/2, 7/2, 15/2, 17/2, 21/2, 25/2, 29/2)
(-3/2, 5/2, 9/2, 13/2, 17/2, 21/2, 25/2, 29/2)
(-5/2, 7/2, 11/2, 13/2, 17/2, 19/2, 25/2, 29/2)
(-3/2, 5/2, 7/2, 15/2, 19/2, 21/2, 23/2, 29/2)
(-5/2, 7/2, 9/2, 15/2, 17/2, 21/2, 23/2, 29/2)
(0, 1, 5, 6, 7, 12, 13, 14)
(-1, 2, 4, 7, 8, 11, 13, 14)
(0, 1, 3, 8, 9, 10, 13, 14)
(-2, 3, 5, 6, 9, 10, 13, 14)
(-3, 4, 6, 7, 8, 9, 13, 14)
(-1, 2, 3, 8, 9, 11, 12, 14)
(-2, 3, 4, 7, 9, 11, 12, 14)
(-3, 4, 5, 7, 9, 10, 12, 14)
(-3/2, 5/2, 7/2, 15/2, 17/2, 23/2, 25/2, 27/2)
(-1/2, 3/2, 5/2, 17/2, 19/2, 21/2, 25/2, 27/2)
(-5/2, 7/2, 9/2, 13/2, 19/2, 21/2, 25/2, 27/2)
(-7/2, 9/2, 11/2, 15/2, 17/2, 19/2, 25/2, 27/2)
(-7/2, 9/2, 11/2, 13/2, 19/2, 21/2, 23/2, 27/2)
(0, 1, 2, 9, 10, 11, 12, 13)
(-3, 4, 5, 6, 10, 11, 12, 13)
(-4, 5, 6, 7, 9, 10, 12, 13)
(-9/2, 11/2, 13/2, 15/2, 17/2, 21/2, 23/2, 25/2)
(-5, 6, 7, 8, 9, 10, 11, 12)

(Ils sont ici triés par ordre lexicographique inverse donnant le poids le plus fort aux dernières composantes. Mais ce n'est peut-être pas l'ordre le plus logique ici.)

Autrement dit, les vecteurs qu'on peut atteindre à partir de (0, 1, 2, 3, 4, 5, 6, 23) par application des opérations de W(E₈) sont exactement les vecteurs qu'on peut atteindre à partir de l'un des 135 vecteurs ci-dessus par application des opérations de W(D₈) (5 160 960 vecteurs atteignables par permutation des coordonnées et changement d'un nombre pair de signes sur chacun des 135 listés, soit 696 729 600 au total). C'est d'ailleurs un exercice de programmation assez simple mais possiblement rigolo de générer ou vérifier la liste en question (si possible sans utiliser de tableau de taille 696 729 600).

Voici maintenant la question à 135 zorkmids : y a-t-il une description élémentaire de la liste ci-dessus ? Autrement dit, en supposant que je donne juste cette liste (en précisant éventuellement que l'ordre des entrées n'a pas d'importance, que l'ordre des composantes de chaque ligne n'en a pas non plus, et que pour ce qui est des signes seule leur parité importe) et que je demande trouvez la logique, y a-t-il quelque chose qui évite de parler de E₈ ?

Je subodore que la réponse est oui, mais j'avoue que je n'ai pas vraiment de raison de le croire à part une sorte de foi inébranlable en l'harmonie des mathématiques.

Il faut que j'explique cependant en quoi cela peut avoir un intérêt d'en chercher une. Dans mes explications (peut-être irritantes) ci-dessus, j'ai soigneusement omis d'expliquer ce qu'est, au juste, W(E₈), j'ai juste défini les opérations de W(E₈) et les orbites sous W(E₈). Ceux qui en savent un peu plus que le niveau élémentaire où je me suis placé auront bien sûr deviné que W(E₈) est censé être un groupe, que 696 729 600 est son ordre, et que les 696 729 600 vecteurs atteignables à partir de (0, 1, 2, 3, 4, 5, 6, 23) sont une orbite régulière (= un espace principal homogène) pour ce groupe, qui, du coup, peut servir à représenter le groupe si on choisit une origine. Pour éviter de supposer qu'on sait ce qu'est un groupe, je peux dire les choses ainsi : si je prend deux vecteurs v et w quelconques de l'orbite de (0, 1, 2, 3, 4, 5, 6, 23) sous W(E₈), et si j'appelle u le vecteur (0, 1, 2, 3, 4, 5, 6, 23) lui-même (le représentant qu'on a choisi d'appeler « dominant »), quelle que soit la succession d'opérations de W(E₈) amenant u en v, on peut appliquer la même suite d'opérations sur w, et on obtient un nouveau vecteur de l'orbite, que je vais noter vw : il se trouve qu'il ne dépend pas des opérations choisies pour amener u en v (ce n'est pas du tout évident, et c'est là qu'intervient le fait que l'orbite a 696 729 600 éléments et pas moins). Ceci constitue une « loi de composition » sur mes 696 729 600 éléments ; cette loi est, de plus, associative (on a x•(yz) = (xy)•z quels que soient x,y,z) et elle a u pour élément neutre (c'est-à-dire que uv=vu=v quel que soit v, ce qui est évident sur la définition), et chaque élément v a un inverse v′ (c'est-à-dire que vv′=v′•v=u). C'est ça qu'on appelle un groupe, et c'est ce groupe-là qui s'appelle W(E₈) (même si ce n'est pas vraiment la façon la plus naturelle de le définir : on a plutôt envie de le voir comme les transformations elles-mêmes plutôt que leur effet sur le vecteur particulier (0, 1, 2, 3, 4, 5, 6, 23)). Si on faisait pareil pour W(D₈) sur l'orbite de (0, 1, 2, 3, 4, 5, 6, 7), la loi de composition ainsi fabriquée serait la composition des permutations signées-avec-un-nombre-pair-de-signes-moins ; dans le cadre de W(Ar), que je n'ai pas défini, on obtient la composition des permutations sur r+1 objets. Représenter les éléments de W(E₈) par des octuplets de nombres est possiblement plus sympathique que de le représenter comme on le fait habituellement (par des matrices 8×8, pour ceux qui savent ce que c'est, correspondant à la transformation linéaire effectuée) ; la description que j'ai faite est en principe algorithmique puisque j'ai donné ci-dessus un algorithme pour envoyer u = (0, 1, 2, 3, 4, 5, 6, 23) sur un vecteur v quelconque de l'orbite (ce qui permet, du coup, de refaire les mêmes opérations sur w), mais en pratique ce n'est pas très commode. J'aimerais croire qu'il y a une description plus élémentaire et plus sympathique comme il y a pour la composition des permutations ou des permutations signées. Ou en tout cas qui permette de calculer différentes choses sur un élément de W(E₈), par exemple son ordre ou son inverse.

Ajout/éclaircissement : Le paragraphe précédent est assez confus, mais l'idée générale est que W(E₈) est, de beaucoup de point de vues, très semblable à un groupe de permutations ou de permutations signées ; or il est facile et courant de représenter les éléments d'un groupe de permutations (éventuellement signées) par des listes d'entiers : il est possible d'en faire autant pour W(E₈), et c'est essentiellement ce que j'ai expliqué jusqu'ici, mais ce qui n'est pas très clair c'est ce que sont, au juste, les listes d'entiers en question (ou, à plus forte raison, comment fonctionne au juste l'opération de composition — ce que j'ai présenté est algorithmique, mais l'algorithme n'est vraiment pas très parlant).

J'ai posé la question sur MathOverflow, mais pour l'instant sans grand succès.

Ajout/exemple : Avec la description que j'ai choisie, L'élément (−1, 3, 4, 5, 6, 7, 0, 22) est un élément d'ordre 30 du groupe W(E₈), c'est-à-dire que c'est ce nombre de fois qu'il faut le composer avec lui-même pour retomber sur l'élément unité (0, 1, 2, 3, 4, 5, 6, 23). (C'est, en fait, un élément dit de Coxeter, ils jouent un rôle assez important.) Ses puissances successives sont les suivantes :

0	(0, 1, 2, 3, 4, 5, 6, 23)
1	(-1, 3, 4, 5, 6, 7, 0, 22)
2	(0, 5, 6, 7, 8, 1, -2, 21)
3	(-3/2, 15/2, 17/2, 19/2, 5/2, -1/2, -7/2, 39/2)
4	(-3/2, 23/2, 25/2, 11/2, 5/2, -1/2, -9/2, 33/2)
5	(-2, 16, 9, 6, 3, -1, -8, 13)
6	(-7/2, 29/2, 23/2, 17/2, 9/2, -5/2, -21/2, 15/2)
7	(0, 15, 12, 8, 1, -7, -11, 4)
8	(-4, 16, 12, 5, -3, -7, -11, 0)
9	(-2, 18, 11, 3, -1, -5, -10, -6)
10	(-2, 15, 7, 3, -1, -6, -14, -10)
11	(-5/2, 23/2, 15/2, 7/2, -3/2, -19/2, -21/2, -29/2)
12	(0, 10, 6, 1, -7, -8, -9, -17)
13	(-5/2, 17/2, 7/2, -9/2, -11/2, -13/2, -15/2, -39/2)
14	(-1/2, 13/2, -3/2, -5/2, -7/2, -9/2, -11/2, -45/2)
15	(0, -1, -2, -3, -4, -5, -6, -23)
16	(1, -3, -4, -5, -6, -7, 0, -22)
17	(0, -5, -6, -7, -8, -1, 2, -21)
18	(3/2, -15/2, -17/2, -19/2, -5/2, 1/2, 7/2, -39/2)
19	(3/2, -23/2, -25/2, -11/2, -5/2, 1/2, 9/2, -33/2)
20	(2, -16, -9, -6, -3, 1, 8, -13)
21	(7/2, -29/2, -23/2, -17/2, -9/2, 5/2, 21/2, -15/2)
22	(0, -15, -12, -8, -1, 7, 11, -4)
23	(4, -16, -12, -5, 3, 7, 11, 0)
24	(2, -18, -11, -3, 1, 5, 10, 6)
25	(2, -15, -7, -3, 1, 6, 14, 10)
26	(5/2, -23/2, -15/2, -7/2, 3/2, 19/2, 21/2, 29/2)
27	(0, -10, -6, -1, 7, 8, 9, 17)
28	(5/2, -17/2, -7/2, 9/2, 11/2, 13/2, 15/2, 39/2)
29	(1/2, -13/2, 3/2, 5/2, 7/2, 9/2, 11/2, 45/2)
30	(0, 1, 2, 3, 4, 5, 6, 23)

J'avoue que tout ça a l'air assez aléatoire (à part la puissance quinzième, mais ce n'est pas difficile à comprendre), et c'est sans doute de mauvais augure pour trouver une logique dans ce foutoir.

Il faut que je précise encore une chose : pourquoi précisément (0, 1, 2, 3, 4, 5, 6, 23) ? On pourrait chercher à représenter le groupe W(E₈) à partir de n'importe quel vecteur ayant une orbite de taille 696 729 600, mais (0, 1, 2, 3, 4, 5, 6, 23) est ce qu'on appelle un vecteur de Weyl, et je soupçonne que c'est ce qui a le plus de chances de donner une réponse simple à ma question s'il peut y en avoir une (dans le cas de W(D₈), le vecteur de Weyl dominant est (0, 1, 2, 3, 4, 5, 6, 7), ce qui est quand même bien sympathique pour représenter les permutations signées). Définir exactement ce qu'est un vecteur de Weyl n'est pas tout à fait évident : je peux par exemple proposer la façon suivante, mais ce n'est pas forcément clair que ce soit intéressant : considérons un vecteur dominant u général pour W(E₈), et maintenant considérons parmi les 240 vecteurs que j'ai appelés système de racines de E₈ ci-dessus, ceux dont le produit scalaire avec u (c'est-à-dire la somme des produits des coordonnées correspondantes) est positif (sachant qu'il ne peut pas être nul) ; il se trouve que ce sont les 120 vecteurs (sur les 240 du système de racines) dont la dernière coordonnée non nulle est strictement positive ; maintenant, faisons la demi-somme de tous ces vecteurs : cela donne (0, 1, 2, 3, 4, 5, 6, 23) ; et en fait, si j'étais parti d'un vecteur u général quelconque (général voulant dire que son orbite a 696 729 600 éléments, ou, ce qui revient au même, que les huit composantes du vecteur u soient deux à deux distinctes, qu'il n'y en ait pas deux qui soient opposées, et qu'il n'y ait pas non plus un nombre pair d'entre elles dont la somme soit égale à la somme des autres), alors la même procédure (faire la demi-somme des 120 vecteurs du système de racine ayant un produit scalaire positif avec u) donnerait un des 696 729 600 vecteurs de l'orbite de (0, 1, 2, 3, 4, 5, 6, 23) sous W(E₈), que je cherche justement à identifier. Mais bon, cette description n'est pas franchement éclairante. Il faut plutôt se dire, moralement, que (0, 1, 2, 3, 4, 5, 6, 23) est, en un certain sens, le vecteur « le plus petit et le plus simple » (mais je ne veux pas chercher à définir exactement ce que cela signifie) qui ait une orbite sous W(E₈) de taille 696 729 600.

↑Entry #2502 [older| permalink|newer] / ↑Entrée #2502 [précédente| permalien|suivante] ↑

↓Entry #2492 [older| permalink|newer] / ↓Entrée #2492 [précédente| permalien|suivante] ↓

(samedi)

Approximation diophantienne ; et une bizarrerie mathématique : la constante de Freiman

Il est bien connu que l'ensemble ℚ des rationnels, que je noterai ici p/q sous forme irréductible, est dense dans les réels ℝ, c'est-à-dire que si x∈ℝ, on peut trouver p/q aussi proche qu'on veut de x, ou encore : (pour tout ε>0, il existe p/q tel que) |xp/q| < ε. Là où les choses deviennent plus intéressantes, c'est quand on commence à se demander, donné x∈ℝ, combien il faut payer pour l'approcher par p/q rationnel : autrement dit, si je veux une approximation de qualité ε>0, combien je dois le payer en utilisant un rationnel compliqué, le « compliqué » en question se mesurant par le dénominateur q>0 utilisé (on pourrait prendre la « hauteur » max(|p|,q), ou peut-être |p|+q, mais ça ne changerait pas grand-chose). Le sujet général s'appelle l'approximation diophantienne, et je n'y connais pas grand-chose, mais rappelons quand même les résultats les plus standards à ce sujet.

Si h est une fonction croissante des entiers naturels non nuls vers les réels strictement positifs, je peux dire qu'un réel x est h-approchable par les rationnels (ou simplement h-approchable) lorsqu'il existe des rationnels p/q de dénominateur q arbitrairement élevé tels que |xp/q| < 1/h(q) (formellement : pour tout n entier naturel non nul, il existe p et q entiers premiers entre eux avec qn tels que |xp/q| < 1/h(q)). Il faut y penser comme : en payant avec un dénominateur q j'obtiens une qualité d'approximation h(q). Plus la fonction h grandit vite, plus je demande une bonne approximation, donc plus il est difficile de trouver de tels x. Si h′≥h, ou même simplement si cette inégalité vaut à partir d'un certain rang, alors tout réel h′-approchable est, en particulier, h-approchable. Si h est constante (je demande une qualité d'approximation constante, et je suis prêt à payer arbitrairement cher pour l'avoir) ou simplement bornée, tout réel x est approchable, c'est ce que j'ai rappelé ci-dessus, mais on va voir ci-dessous qu'on peut faire mieux. Dans la pratique, on prendra donc une fonction h de limite ∞ en ∞, sinon la définition n'a guère d'intérêt.

Si h est quelconque (croissante des entiers naturels non nuls vers les réels strictement positifs), il existe toujours des réels h-approchables au sens ci-dessus : c'est une conséquence du théorème de Baire : quel que soit n>0, l'ensemble des x pour lesquels il existe p/q avec qn vérifiant |xp/q| < 1/h(q) est ouvert (puisque c'est une réunion d'intervalles ouverts de largeur 2/h(q) centrés en les p/q) et dense (puisqu'il contient l'ensemble dense des rationnels p/q de dénominateur qn) ; donc (le théorème de Baire assure que) leur intersection est non vide, c'est-à-dire qu'il existe des réels x, et même qu'il existe un ensemble dense, pour lesquels il existent des p/q avec q arbitrairement grand vérifiant |xp/q| < 1/h(q), ce qui signifie exactement qu'ils (les x en question) sont h-approchables. Bref, on peut trouver des réels approchés arbitrairement bien par des rationnels, quelle que soit la qualité h de l'approximation qu'on demande pour un dénominateur donné.

Un autre résultat, dit théorème d'approximation de Dirichlet, est que quel que soit x irrationnel, il existe des p/q de dénominateur q arbitrairement élevé tels que |xp/q| < 1/q² (c'est-à-dire que x est q²-approchable, ceci étant une écriture abusive pour dire h-approchable pour h(q)=q²). La démonstration est vraiment facile mais astucieuse : on considère les parties fractionnaires zk := yk−⌊yk⌋ (entre 0 inclus et 1 exclu) des réels yk := k·x pour 0≤kN entier ; ceci fait N+1 nombres zk, qu'on répartit en les N intervalles de largeur 1/N partitionnant [0;1[ (je veux dire : l'intervalle entre 0 inclus et 1/N exclu, l'intervalle entre 1/N inclus et 2/N exclu, et ainsi de suite jusqu'à l'intervalle entre (N−1)/N inclus et 1 exclu) ; comme il y a plus de réels que d'intervalles, deux d'entre eux, disons zk et z avec k<, qui tombent dans le même intervalle de largeur 1/N, donc ils vérifient |zzk| < 1/N, c'est-à-dire |·x − ⌊·x⌋ − k·x + ⌊k·x⌋| < 1/N, ce qui donne |q·xp| < 1/Nq = k et p = ⌊·x⌋−⌊k·x⌋, et comme 0<q<N (puisque 0≤k<N), on a du coup |xp/q| < 1/(N·q) < 1/q² comme annoncé ; quant au fait qu'on puisse trouver des q arbitrairement grands vérifiant ça, c'est simplement parce que (tant que x est irrationnel !, ce qui n'a pas encore été utilisé), chaque q donné ne peut vérifier |xp/q| < 1/(N·q) que jusqu'à un certain N (à savoir la partie entière de |q·xp|), et donc en prenant un N plus grand que ça, on obtient un p/q forcément différent (je laisse le lecteur remplir les détails).

↑Entry #2492 [older| permalink|newer] / ↑Entrée #2492 [précédente| permalien|suivante] ↑

↓Entry #2477 [older| permalink|newer] / ↓Entrée #2477 [précédente| permalien|suivante] ↓

(vendredi)

Notes de cours de théorie des langages formels

Un des cours (de première année) dont je suis responsable à l'ENST Télécom ParisTech ParisSaclay NewUni l'école où j'enseigne concerne la théorie des langages [formels], c'est-à-dire les langages rationnels, expressions rationnelles et automates finis, les langages algébriques et grammaires hors-contexte, et pour finir une toute petite introduction à la calculabilité (sujet dont je me suis déjà plaint, et plus d'une fois, de la difficulté à l'enseigner proprement). J'ai tout juste fini d'en réécrire le poly, complètement en retard puisque le cours a déjà commencé et qu'il va falloir du temps pour l'impression.

Comme je suis partisan de l'ouverture et de la disponibilité des documents d'enseignement, voici les notes en question. Si certains de mes lecteurs sont intéressés par ce sujet, ou veulent m'aider à traquer les erreurs qui demeurent certainement nombreuses, n'hésitez pas à me faire parvenir vos commentaires (mais comme je mets à jour ce lien régulièrement, pensez à recopier la ligne Git de la première page pour que je sache à quelle version vous faites référence).

(Il va de soi que le contenu lui-même, qui est le résultat de divers compromis, que ce soit sur le temps imparti ou sur l'équilibre entre mathématiques et informatique pratique, est souvent boiteux. Ce n'est pas la peine de me faire des remarques à ce sujet ; enfin, ce n'est pas qu'elles soient mal venues, c'est juste qu'elles ne seront pas suivies d'effets.)

↑Entry #2477 [older| permalink|newer] / ↑Entrée #2477 [précédente| permalien|suivante] ↑

↓Entry #2462 [older| permalink|newer] / ↓Entrée #2462 [précédente| permalien|suivante] ↓

(jeudi)

Petit guide bordélique de quelques ordinaux intéressants

Méta / avant-propos

L'écriture de cette entrée aura été assez chaotique, et un peu un échec : j'ai changé plusieurs fois d'avis sur ce que je voulais y mettre, et du coup le résultat est parti un peu dans tous les sens. Cela faisait longtemps que je me disais que je devrais écrire quelque chose sur des ordinaux remarquables (comme une suite de l'entrée d'introduction à leur sujet), j'y ai repensé en écrivant l'entrée sur la programmation transfinie, je m'y suis remis en reprenant (et en copiant-collant) des bouts de choses que j'avais écrites antérieurement et laissées de côté, mais ça s'est enlisé. Je commence par expliquer pourquoi — et dans une certaine mesure, comment lire cette entrée.

Mon idée initiale était d'aider le lecteur à situer un certain nombre d'ordinaux intéressants (dont j'ai pu parler par le passé ou dont je pourrais parler ultérieurement) en les classant dans l'ordre (ce qui est bien avec les ordinaux, c'est qu'ils sont, justement, bien ordonnés) : j'ai déjà écrit cet autre texte à ce sujet (lié depuis l'entrée précédente), mais il est un plutôt technique, son but étant surtout de rassembler des pointeurs vers la littérature mathématique publiée, alors qu'ici je voulais donner un aperçu plus intuitif de (certains de) ces ordinaux intéressants.

Je me suis dit que j'allais faire un plan en trois parties, que j'appellerai domaines : (1) les ordinaux calculables (et a fortiori dénombrables), c'est-à-dire les ordinaux strictement inférieurs à l'ordinal de Church-Kleene ω₁CK, (2) les ordinaux non calculables mais néanmoins dénombrables, c'est-à-dire ≥ω₁CK mais néanmoins <ω₁ (qui, en gros, ne sont intéressants que s'ils sont « admissibles »), et (3) les ordinaux non dénombrables (qui, en gros, ne sont intéressants que s'ils sont des cardinaux). Ce plan a le bon goût de permettre d'insister sur le fait que, par exemple, certains ordinaux, bien que monstrueusement grands et complexes à définir, sont néanmoins encore calculables (domaine (1), c'est-à-dire <ω₁CK), ce qui donne une petite idée de combien ω₁CK est gigantesque.

Mais ce plan a aussi l'inconvénient que l'ordre naturel sur les ordinaux (la taille, quoi) n'est pas du tout la même chose que l'ordre d'importance, d'intérêt, ou de difficulté à les définir (je peux définir ω₁ en disant que c'est le plus petit ordinal indénombrable, ou que c'est l'ensemble des ordinaux dénombrables triés par ordre de taille : ça ne laisse peut-être pas comprendre à quel point il est riche et complexe, mais au moins, c'est une définition nette et précise, alors que certains ordinaux beaucoup plus petits, quoique structuralement moins riches, sont beaucoup plus subtils à définir, puisqu'on veut les définir, justement, de façon beaucoup plus précise et complète). Plus subtilement, d'ailleurs, mon plan par taille des ordinaux a aussi l'inconvénient que l'ordre de taille n'est même pas l'ordre de dépendance logique des ordinaux : c'est ce phénomène qu'on appelle imprédicativité qui veut qu'on fasse appel, pour construire certains ordinaux, à des ordinaux encore plus grands ; ainsi, la construction de l'ordinal de Bachmann-Howard (qui est <ω₁CK, donc dans le domaine (1) de mon plan) fait appel à une « fonction d'écrasement », qui présuppose de savoir ce que c'est que ω₁CK ou peut-être ω₁ (l'un ou l'autre peut servir, et on lui donne le nom de Ω dans les notations), et c'est encore pire dans la construction d'ordinaux calculables encore plus grands, qui nécessitent d'invoquer des ordinaux récursivement grands ou de grands cardinaux.

Je le savais, bien sûr, mais je pensais pouvoir contourner ces difficultés en fournissant au fur et à mesure des informations minimales sur les grands ordinaux des domaines (2) et (3) alors que je décrivais le domaine (1), quitte à y revenir plus tard. Finalement, c'est une très mauvaise idée, et cette partie (1) a beaucoup trop gonflé et est devenue, du même coup, assez illisible. (Un autre problème est que ce qui rend les ordinaux calculables vraiment intéressants est leur lien avec certaines théories logiques, et il faudrait vraiment beaucoup de place pour expliquer ce que sont exactement des théories telles que la « théorie des ensembles de Kripke-Platek », l'« arithmétique du second ordre limitée à la Δ¹₂-compréhension », la « théorie des définitions inductives ».) En même temps que ça, j'ai commencé à en avoir vraiment marre d'écrire sur des ordinaux de plus en plus techniques à expliquer. Du coup, j'ai calé sur la partie (1), ce qui casse vraiment l'intention initiale, puisque j'avais surtout envie (pour rester sur la lancée de la programmation transfinie) d'essayer de dire des choses sur les ordinaux nonprojectibles, stables et compagnie, qui sont résolument dans la partie (2).

Au final, c'est un peu n'importe quoi : cette entrée me fait l'effet d'une moussaka géante où on ne comprend plus rien. Mais je pense qu'il y a quand même un certain intérêt à ce que je publie ce « n'importe quoi » plutôt que de le ranger dans mes cartons, c'est-à-dire dans le vaste cimetière des entrées que j'ai commencées et jamais publiées. Car après tout, ce que j'écris est correct (enfin, je crois), et même si vers la fin je lance dans l'air de plus en plus de termes non définis faute de patience pour les définir, ou que je pars complètement dans l'agitage de mains, certains en tireront quand même quelque chose.

Finalement, les différentes sous-parties de cette entrée sont, je l'espère, assez indépendantes les unes des autres, donc comme d'habitude, et même plus encore que d'habitude, j'encourage à sauter les passages qu'on trouve incompréhensibles ou trop techniques (beaucoup d'entre eux ne servent, finalement, à rien).

Comme expliqué ci-dessus, je vais d'abord faire quelques remarques générales sur les ordinaux intéressants, expliquer plus précisément le plan que j'avais en tête, puis parler d'ordinaux calculables (i.e., <ω₁CK, le domaine (1)), et m'arrêter en queue de poisson.

↑Entry #2462 [older| permalink|newer] / ↑Entrée #2462 [précédente| permalien|suivante] ↑

↓Entry #2460 [older| permalink|newer] / ↓Entrée #2460 [précédente| permalien|suivante] ↓

(vendredi)

Un peu de programmation transfinie

Ça fait très longtemps que j'ai envie d'écrire cette entrée, parce que je trouve le sujet extrêmement rigolo : en gros, ce dont je veux parler, c'est comment définir et programmer un ordinateur transfini ? (comment concevoir un langage de programmation considérablement plus puissant qu'une machine de Turing parce qu'il est capable de manipuler directement des — certains — ordinaux ?). Techniquement, ce dont je veux parler ici, c'est de la théorie de la α-récursion (une branche de la calculabilité supérieure qui a fleuri dans les années '70 et qui semble un peu moribonde depuis) ; sauf que la α-récursion n'est jamais présentée comme je le fais ici, c'est-à-dire en décrivant vraiment un langage assez précis dans lequel on peut écrire des programmes pour certains ordinateurs transfinis. Ces ordinateurs ont le malheur de ne pas pouvoir exister dans notre Univers (encore que, si on croit certaines théories complètement fumeuses que j'avais imaginées… ?) ; mais même s'ils n'existent pas, je pense que le fait d'écrire les choses dans un style « informatique » aide à rendre la théorie mathématique plus palpable et plus compréhensible (en tout cas, c'est comme ça que, personnellement, j'aime m'en faire une intuition).

Bref, ce que je voudrais, c'est que cette entrée puisse plaire à la fois à ceux qui aiment la programmation et à ceux qui aiment les ordinaux ; ce que je crains, c'est qu'en fait elle déplaise à la fois à ceux qui n'aiment pas la programmation et à ceux qui n'aiment pas les ordinaux — ce qui est logiquement différent. On verra bien.

Il faut que je précise que tout ce que je raconte est un territoire relativement mal couvert par la littérature mathématique (il y a certainement des gens qui trouveraient tout ça complètement évident, mais je n'en fais pas partie, et comme je le disais, je soupçonne que la plupart étaient surtout actifs vers '70 et sont maintenant un peu âgés ou sont passés à autre chose), et jamais de la manière dont je le fais (comme un vrai langage de programmation : il y a des gens qui ont « redécouvert » des domaines proches comme avec les machines de Turing infinies ou les machines ordinales de Koepke, mais c'est un peu différent). Du coup, il faut prendre tout ce que je raconte avec un grain de sel : je n'ai pas vérifié chaque affirmation avec le soin que j'aurais fait si j'étais en train d'écrire un article à publier dans un journal de recherche.

Une autre remarque : cette entrée contient un certain nombre de digressions, notamment parce que je pars dans plusieurs directions un peu orthogonales. Je n'ai pas voulu les mettre en petits caractères comme je le fais souvent, pour ne pas préjuger de ce qui est important et ce qui ne l'est pas, et je n'ai pas eu le courage de tracer un leitfaden, mais tout ne dépend pas de tout : donc, si on trouve un passage particulièrement obscur ou inintéressant, on peut raisonnablement espérer(!) qu'il ne soit pas vraiment important pour la suite.

*

Pour faire une sorte de plan ce dont je veux parler, je vais décrire un langage de programmation assez simple (dont la syntaxe sera imitée de celle du C/JavaScript) et différentes variantes autour de ce langage. Plus exactement, je vais définir quatre langages : un langage (0) « de base » et deux extensions qu'on peut appliquer à ce langage (les extensions « forward » et « uloop », qui seront définies après), de sorte qu'à côté du langage (0) de base, il y aura le langage (1) avec extension « forward », le langage (2) avec extension « uloop », et le langage (3) avec les deux extensions à la fois ; tout ça peut encore être multiplié par deux si j'autorise les tableaux dans le langage, ce qui, finalement, ne changera rien à son pouvoir d'expression, et c'est peut-être surprenant.

Chacun de ces langages pourra servir dans le « cas fini » (le langage manipule des entiers naturels, et chacun des langages (0)–(3) peut être implémenté sur un vrai ordinateur et servir de vrai langage de programmation) ou dans le « cas transfini » (le langage manipule des ordinaux). J'expliquerai plus précisément en quoi consiste ce cas transfini, mais je veux insister dès à présent sur le fait que les langages de programmation (0)–(3) seront exactement les mêmes dans ce cas transfini que dans le cas fini (plus exactement, leur syntaxe sera exactement la même ; la sémantique pour les langages (0)&(1) sera prolongée, tandis que pour les langages (2)&(3) elle sera raffinée et dépendra d'un « ordinal de boucle » λ).

↑Entry #2460 [older| permalink|newer] / ↑Entrée #2460 [précédente| permalien|suivante] ↑

↓Entry #2447 [older| permalink|newer] / ↓Entrée #2447 [précédente| permalien|suivante] ↓

(lundi)

Sons et graphes de caractères de groupes de Lie

Il y a quelque temps, je me désolais de ne jamais avoir réussi à trouver un objet mathématique dont je pourrais faire une représentation sous forme auditive — plutôt que visuelle — et qui serait mélodieux à entendre.

Or ces derniers temps, je réfléchissais à des problèmes — et globalement, à essayer de comprendre plus précisément des choses — autour de caractères de groupes de Lie, et j'ai été amené à tracer des fonctions qui ressemblent à ceci (cliquez pour agrandir) :

[Caractères fondamentaux du groupe de Lie F₄ restreintes au tore du SU₂ principal de Kostant]

Là, je devrais essayer de dire de quoi il s'agit. L'ennui, c'est que ce n'est pas facile. Je peux donner une explication pour les experts, mais elle n'éclairera pas du tout le grand public (ni même le public moyennement averti) ; je l'écris surtout pour m'en souvenir moi-même :

(Pour les experts, donc.)

Il s'agit des caractères fondamentaux d'un groupe de Lie (réel compact) simple (dans la figure ci-dessus, il s'agit de F₄), restreints au tore du SU₂ principal de Kostant, c'est-à-dire, plus concrètement, le groupe à un paramètre engendré par la demi-somme des coracines positives. Autrement dit, si ρ# est la demi-somme des coracines positives (ou somme des copoids fondamentaux), donnée une représentation définie par son système de poids, on applique ρ# aux poids en question, ce qui donne des demi-entiers (les multiplicités étant sommées), à interpréter comme les poids d'une représentation de SU₂, ou comme définissant un polynôme trigonométrique. Une façon de calculer en pratique consiste à appliquer la formule de caractère de Weyl avec une petite astuce (cf. §3.1 de cet article) : si ρ est la demi-somme des racines positives et λ un poids dominant, on calcule le produit des tλ+ρ,α#⟩−1 où t est une indéterminée et α# parcourt les coracines positives, et on divise ce polynôme par le produit des tρ,α#⟩−1 ; ceci donne un polynôme en t (dont la valeur en 1 est précisément la dimension de la représentation de poids dominant λ, c'est la formule de dimension de Weyl ; quant au degré, il vaut 2⟨λ,ρ#⟩, c'est-à-dire la somme des coefficients de λ sur la base des racines simples) : les coefficients de ce polynôme sont ceux recherchés : si on les décale (i.e. on divise encore par tλ,ρ#⟩) et qu'on lit comme un polynôme trigonométrique, c'est la fonction recherchée. Voici par exemple le calcul en Sage dans le cas de F₄ :

sage: WCR = WeylCharacterRing("F4", style="coroots")
sage: weylvec = sum([rt for rt in WCR.positive_roots()])/2
sage: R.<t> = PolynomialRing(QQ,1)
sage: weyldenom = prod([t^weylvec.scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer1 = prod([t^(weylvec+WCR.fundamental_weights()[1]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer2 = prod([t^(weylvec+WCR.fundamental_weights()[2]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer3 = prod([t^(weylvec+WCR.fundamental_weights()[3]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer4 = prod([t^(weylvec+WCR.fundamental_weights()[4]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer1/weyldenom
t^22 + t^21 + t^20 + t^19 + 2*t^18 + 2*t^17 + 3*t^16 + 3*t^15 + 3*t^14 + 3*t^13 + 4*t^12 + 4*t^11 + 4*t^10 + 3*t^9 + 3*t^8 + 3*t^7 + 3*t^6 + 2*t^5 + 2*t^4 + t^3 + t^2 + t + 1
sage: weylnumer2/weyldenom
t^42 + t^41 + 2*t^40 + 3*t^39 + 5*t^38 + 7*t^37 + 10*t^36 + 12*t^35 + 16*t^34 + 20*t^33 + 25*t^32 + 29*t^31 + 35*t^30 + 39*t^29 + 45*t^28 + 50*t^27 + 55*t^26 + 58*t^25 + 62*t^24 + 63*t^23 + 66*t^22 + 66*t^21 + 66*t^20 + 63*t^19 + 62*t^18 + 58*t^17 + 55*t^16 + 50*t^15 + 45*t^14 + 39*t^13 + 35*t^12 + 29*t^11 + 25*t^10 + 20*t^9 + 16*t^8 + 12*t^7 + 10*t^6 + 7*t^5 + 5*t^4 + 3*t^3 + 2*t^2 + t + 1
sage: weylnumer3/weyldenom
t^30 + t^29 + 2*t^28 + 3*t^27 + 4*t^26 + 5*t^25 + 7*t^24 + 8*t^23 + 10*t^22 + 11*t^21 + 13*t^20 + 14*t^19 + 16*t^18 + 16*t^17 + 17*t^16 + 17*t^15 + 17*t^14 + 16*t^13 + 16*t^12 + 14*t^11 + 13*t^10 + 11*t^9 + 10*t^8 + 8*t^7 + 7*t^6 + 5*t^5 + 4*t^4 + 3*t^3 + 2*t^2 + t + 1
sage: weylnumer4/weyldenom
t^16 + t^15 + t^14 + t^13 + 2*t^12 + 2*t^11 + 2*t^10 + 2*t^9 + 2*t^8 + 2*t^7 + 2*t^6 + 2*t^5 + 2*t^4 + t^3 + t^2 + t + 1

Le polynôme en question doit d'ailleurs avoir un rapport très fort avec les crystal graphs de Kashiwara et Littelmann (les coefficients énumèrent le nombre de nœuds à chaque hauteur du graphe) ; et sans doute avec les groupes quantiques : je n'y connais rien, mais dans le cas de Ar, on obtient exactement le coefficient binomial gaussien (r+1,i) pour la i-ième représentation fondamentale. • Par ailleurs, il y a une grande similarité avec un autre polynôme important, à savoir le produit des tα,ρ#⟩+1−1 où t est une indéterminée et α parcourt les racines positives, divisé par le produit des tα,ρ#⟩−1 : ce polynôme-là énumère les éléments du groupe de Weyl par leur longueur (Carter, Simple Groups of Lie Type (1972/1989), théorème 10.2.2 page 153), par exemple pour F₄ on trouve t^24 + 4*t^23 + 9*t^22 + 16*t^21 + 25*t^20 + 36*t^19 + 48*t^18 + 60*t^17 + 71*t^16 + 80*t^15 + 87*t^14 + 92*t^13 + 94*t^12 + 92*t^11 + 87*t^10 + 80*t^9 + 71*t^8 + 60*t^7 + 48*t^6 + 36*t^5 + 25*t^4 + 16*t^3 + 9*t^2 + 4*t + 1, il est en lien avec les exposants du groupe de Weyl (id, théorème 10.2.3 page 155), et à très peu de choses près donne la fonction zêta du groupe algébrique, c'est-à-dire compte ses points sur les corps fini (id, proposition 8.6.1 page 122), ou de façon sans doute plus pertinente, les points de la variété de drapeau associée. Je ne comprends pas bien le rapport précis entre tous ces polynômes (notons que j'ai écrit le dernier pour coller avec ce que je trouve dans Carter, mais si je ne m'abuse, c'est aussi le produit des tρ,α#⟩+1−1 où t est une indéterminée et α parcourt les racines positives, divisé par le produit des tρ,α#⟩−1, ce qui le fait ressembler encore plus à ce que j'ai écrit ci-dessus). [Ajout : ce dernier polynôme est appelé q-polynomial ici. Je devrais ajouter, pour reproduire ce qui est mentionné sur cette page, que pour obtenir le polynôme donnant nombre de points de la variété de drapeau partielle définie par un ensemble S de nœuds du diagramme de Dynkin, on fait le produit des tα,ρ#⟩+1−1 divisé par le produit des tα,ρ#⟩−1, où cette fois α parcourt seulement les racines ayant au moins un coefficient strictement positif devant une racine simple omise de S.]

Il faudrait essayer de vulgariser tout ça, mais ce n'est pas évident : pas tellement parce que les objets en question sont compliqués (fondamentalement, le calcul final est un petit calcul combinatoire, assez facile, même si évidemment le présenter comme tel ne fournit aucune motivation), mais surtout parce que, comme c'est souvent le cas dans ce domaine entre la théorie des groupes algébriques, la théorie de la représentation, et la combinatoire algébrique, chaque objet peut se voir d'une multitude de manières différentes (ce qui est d'ailleurs la source d'incompréhensions diverses et variées). J'avais commencé à essayer d'écrire quelque chose, non pas vraiment pour expliquer mais juste pour donner une idée de ce dont il est question (en agitant énormément les mains), mais même comme ça, ça partait tellement dans tous les sens que c'est incompréhensible : je le recopie quand même ici (comme un gros bloc de texte), mais je ne recommande de le lire que pour rigoler :

↑Entry #2447 [older| permalink|newer] / ↑Entrée #2447 [précédente| permalien|suivante] ↑

↓Entry #2433 [older| permalink|newer] / ↓Entrée #2433 [précédente| permalien|suivante] ↓

(dimanche)

Sections du diagramme de Voronoï du réseau E₈

Je ne savais pas bien à quoi m'attendre quand j'ai calculé cette image, mais probablement pas à ça :

[Section plane aléatoire du diagramme de Voronoï de E₈]

(Cliquez pour une vue plus large.)

De quoi s'agit-il ? C'est une section plane aléatoire du diagramme de Voronoï du réseau E₈ : il faut que j'explique ces termes (mais is ça ne vous intéresse pas, il y a d'autres images, et des liens vers des vidéos, plus bas).

Le réseau E₈ est un arrangement régulier de points en dimension 8, qui a toutes sortes de propriétés remarquables. En fait, il n'est pas difficile de le définir concrètement : il s'agit des octuplets (x₀,x₁,…,x₇) de nombres réels tels que :

  • les coordonnées x₀,x₁,…,x₇ sont soit toutes entières soit toutes entières-et-demi (par entier-et-demi je veux évidemment dire un nombre qui vaut un entier plus ½, par exemple 5/2),
  • la somme x₀+x₁+⋯+x₇ de toutes les coordonnées (qui est forcément un entier d'après le point précédent) est paire.

À titre d'exemple, (0, 0, 0, −1, 2, −1, 1, −1) et (−1.5, 2.5, −0.5, 1.5, −1.5, −0.5, −2.5, 0.5) sont dans le réseau E₈ ; en revanche, (0, 0, 0, −1, 2, −1, 1.5, −1.5) n'y sont pas (les coordonnées ne sont ni toutes entières ni toutes entières-et-demi), et (−1.5, 2.5, −0.5, 1.5, −1.5, −0.5, −2.5, 0.5) non plus (la somme n'est pas paire).

La somme ou différence de deux points du réseau E₈ est encore dedans : c'est là la propriété essentielle d'être un réseau (et ce qu'un non-mathématicien qualifierait de points régulièrement espacés). Les points du réseau E₈ les plus proches de l'origine (0,0,0,0,0,0,0,0) sont d'une part ceux de la forme (±1,±1,0,0,0,0,0,0) (où exactement deux coordonnées, quelconques, valent soit 1 soit −1 : ceci fait 28×4=112 possibilités — 28 choix de deux coordonnées et 4 choix de leurs signes), et d'autre part ceux de la forme (±½,±½,±½,±½,±½,±½,±½,±½) (où chaque coordonnée vaut ½ ou −½, et où il y a un nombre pair de valeurs −½ : ceci fait 2⁸/2=128 possibilités) : au total, 112+128=240 points tous à distance √2 de l'origine ; ces 240 points sont ce qu'on appelle les racines du système E₈ et ils engendrent le réseau, mais ici c'est le réseau plus que ses racines qui m'intéresse. Entre autres propriétés remarquables, c'est le réseau E₈ qui réalise l'empilement optimal de boules identiques en dimension 8 (mettre une boule de rayon (√2)/2 autour de chaque point du réseau : elles se touchent sans se chevaucher et remplissent 25.367% de l'espace, ce qui ne paraît peut-être pas impressionnant, mais en dimension 8 on ne peut pas faire mieux).

Donné un ensemble (discret) de points dans l'espace euclidien, le diagramme de Voronoï associé est la division de l'espace en cellules de Voronoï, la cellule de Voronoï d'un point étant la région des points de l'espace qui sont plus proches de ce point-là que de tout autre point de l'ensemble. En général, un diagramme de Voronoï ressemble à ce que Google images vous montrera (il est formé de cellules qui sont des polytopes convexes dont les facettes sont hyperplans médiateurs entre le point définissant la cellule et un autre point). Lorsque l'ensemble des points est un réseau, toutes les cellules ont la même forme : la cellule de Voronoï de l'origine est l'ensemble des points plus proches de l'origine que de tout autre point du réseau, elle est d'ailleurs symétrique, et toutes les autres cellules sont identiques autour d'un autre point, elles sont translatées les unes des autres. S'agissant du réseau E₈ précisément, la cellule de Voronoï de l'origine est un polytope convexe ayant 240 facettes[#], une par racine du système de racines, chaque facette étant un morceau de l'hyperplan médiateur entre l'origine et la racine en question. (Il n'est pas vrai dans un réseau en général que les facettes de la cellule de Voronoï de l'origine soient ainsi définies uniquement par les points les plus proches de l'origine. Mais c'est vrai pour ce qu'on appelle un réseau de racines, et notamment E₈.)

[#] Il a aussi 19440 sommets : 2160 sont les points à distance 1 de l'origine ainsi que de quinze autres points du réseau, on les appelle les trous profonds du réseau E₈ (un exemple d'un tel point est (1,0,0,0,0,0,0,0)), et 17280 sont les points à distance (2√2)/3≈0.943 de l'origine ainsi que de sept autres et ce sont les trous superficiels (un exemple d'un tel point est (−5/6, 1/6, 1/6, 1/6, 1/6, 1/6, 1/6, 1/6)).

Bref, le diagramme de Voronoï du réseau E₈ est un pavage de l'espace de dimension 8 par des copies (translatées) de ce polytope à 240 facettes, chacune étant centrée sur un point du réseau. Il y a un algorithme assez simple[#2] pour décider, quand on se donne un point de l'espace, à quelle cellule de Voronoï il appartient, c'est-à-dire, trouver le point du réseau le plus proche (on parle aussi d'algorithme de décodage pour ce réseau).

[#2] En voici une description. Commençons par expliquer comment trouver le point du réseau D₈ le plus proche d'un point donné, où le réseau D₈ est le réseau formé des points de coordonnées toutes entières de somme paire (c'est-à-dire les points du réseau E₈ dont toutes les coordonnées sont entièrs). Donné (z₀,z₁,…,z₇) un point à approcher, on appelle x₀ l'entier le plus proche de z₀ et de même pour les autres : ceci fournit le point (x₀,x₁,…,x₇) à coordonnées entières le plus proche de (z₀,z₁,…,z₇). Si la somme x₀+x₁+⋯+x₇ des coordonnées est paire, c'est le point de D₈ recherché. Sinon, l'astuce suivante permet de le trouver : parmi les coordonnées x, prendre celle qui est le plus loin du z correspondant, et la remplacer par l'arrondi de ce z dans l'autre sens. À titre d'exemple, si on part du point (0.3, −0.1, 0.1, −1.0, 2.0, −0.4, 0.9, −0.7), l'arrondi des coordonnées à l'entier le plus proche donne (0, 0, 0, −1, 2, 0, 1, −1), la somme est impaire, donc on corrige le plus mauvais arrondi, à savoir −0.4 transformé en 0, en prenant l'entier de l'autre côté, donc −1, ce qui donne le point (0, 0, 0, −1, 2, −1, 1, −1) qui est le point du réseau D₈ le plus proche du point initial. S'agissant du réseau E₈, maintenant, on peut faire ce calcul une fois pour trouver le point de D₈ le plus proche, puis soustraire ½ toutes les coordonnées, refaire le calcul pour trouver le point de D₈ le plus proche du point ainsi modifié et rajouter ½ à toutes les coordonnées : on obtient ainsi deux points de E₈ (l'un dans D₈ et l'autre dans D₈+(½,½,½,½,½,½,½,½)) ; il n'y a plus qu'à comparer la distance de ces deux points au point d'origine et choisir le plus proche (soit en comparant les distances soit en calculant l'équation de l'hyperplan médiateur, ce qui revient essentiellement au même). Il existe des algorithmes légèrement plus efficaces que ce que je viens de décrire, mais en contrepartie ils sont plus fastidieux à implémenter et je pense que ça n'en vaut pas la peine.

Maintenant, ce que j'ai fait pour calculer l'image ci-dessus est de prendre un plan aléatoire dans l'espace euclidien de dimension 8 (plus exactement, la direction du plan est définie par deux vecteurs unitaires orthogonaux, tirés uniformément pour cette propriété, et l'origine est tirée uniformément modulo le réseau), et tracer l'intersection de ce plan avec les cellules de Voronoï du réseau E₈. Bien que le diagramme de Voronoï de E₈ soit complètement régulier, le fait de l'intersecter avec un plan aléatoire fournit quelque chose d'assez irrégulier comme on le voit, mais où on peut discerner, si on regarde bien (et surtout sur la vue plus complète), une forme de quasipériodicité. Je ne suis pas sûr d'avoir une description ni une explication complète de tout ce qu'il y a à remarquer sur l'image.

Pour information, l'échelle de l'image est de 10 pixels pour 1 unité (l'« unité » en question étant celle des coordonnées que j'ai exposées ci-dessus, c'est-à-dire que la distance entre deux points les plus proches du réseau vaut √2, ou encore que l'unité est le rayon de la sphère circonscrite à une cellule de Voronoï, ou encore que la cellule a un volume de 1 unité⁸), ce qui veut dire que l'image fait 136.6 unités en largeur et 76.8 en hauteur pour les images larges (la moitié pour les images plus étroites reproduites ci-dessus).

Pour ce qui est du coloriage des cellules de Voronoï, j'ai tiré aléatoirement trois directions orthogonales au plan et orthogonales entre elles, et les composantes rouge, verte et bleue donnent la distance au point du réseau (le centre de la cellule de Voronoï) selon ces trois directions, le gris étant le zéro.

J'ai aussi calculé des images selon des plans ayant des directions particulières : on appelle plan de Coxeter du réseau E₈ un plan tel que la projection (orthogonale) du système de racines sur ce plan présente une symétrie d'ordre maximal, en l'occurrence 30. (Le dessin le plus courant du système de racines de E₈ est généralement choisi projeté selon un tel plan : par exemple, cette image Wikimédia Commons est une projection sur un plan de Coxeter, aussi appelé dans ce contexte plan de Petrie.) Le résultat est le suivant :

[Section plane de Coxeter du diagramme de Voronoï de E₈]

(Cliquez pour une vue plus large.)

De nouveau, l'origine de projection est aléatoire modulo le réseau, et les directions choisies pour définir les couleurs des cellules sont aléatoires sujettes à la contrainte d'être perpendiculaires au plan de projection. Ce qui est intéressant est qu'on voit apparaître des symétries d'ordre 30 approximatives autour de différents points : ce sont ceux qui sont les plus proches d'un point du réseau. Si ça ne vous frappe pas, regardez attentivement la vue plus large, éventuellement depuis une certaine distance : on voit apparaître toutes sortes de figures en cercles concentriques, un peu comme des ondes de gravité circulaires à la surface de l'eau quand on y fait tomber quelque chose (des encyclies si on veut faire chic, des ronds dans l'eau si on veut faire moins chic) ; je suppose que le cortex visuel détecte quelque chose de cette symétrie localte approximative d'ordre 30, mais je ne sais pas exactement ce qu'il détecte.

J'ai aussi fait le calcul pour un plan la projection sur lequel présente une symétrie d'ordre 24 du système de racines :

[Section plane symétrique d'ordre 24 du diagramme de Voronoï de E₈]

L'effet est à peu près le même, peut-être encore plus fort.

J'ai aussi calculé et mis sur YouTube des vidéos de sections tridimensionnelles (ou (2+1)-dimensionnelles) du même diagramme de Voronoï : tridimensionnelles, c'est-à-dire que le temps est la troisième dimension, ou plus exactement, qu'il s'agit de sections planes se déplaçant dans une direction aléatoire orthogonale au plan (et orthogonale aux trois directions servant à définir les couleurs comme expliqué ci-dessus) : celle-ci montre une section aléatoire et celle-ci une section dont le plan 2D est un plan de Coxeter. Les deux sont assez envoutantes à regarder, mais la seconde l'est particulièrement à cause de la manière dont apparaissent puis disparaissent des symétries approximatives d'ordre 30. Les vidéos sont cadrées plus serré que les images fixes : l'image est large de 16 unités et haute de 9, et dans le temps le plan parcourt 40 unités en 48 secondes.

J'hésite à refaire des calculs analogues pour le réseau de Leech, qui est un réseau peut-être encore plus remarquable en dimension 24. Mais l'algorithme pour retrouver « décoder » le réseau de Leech (c'est-à-dire en trouver le point le plus proche d'un point donné, autrement dit, pour calculer les cellules de Voronoï) est un peu pénible à écrire, et j'ai peur que le résultat soit décevant parce que autant 2 dimensions (voire 2+3 en comptant les couleurs, voire 2+1+3 pour les vidéos) sur 8, ce n'est pas complètement négligeable, autant 2 dimensions, ou même 2+3 ou 2+1+3, sur 24, ça ne fait vraiment pas beaucoup, et j'ai peur qu'il ne subsiste absolument rien de la très extraordinaire symétrie du réseau de Leech.

A contrario, je pourrais peut-être baisser la dimension et regarder ce qui se passe dans des réseaux comme A₄ à A₆, D₄ à D₆ et E₆. S'agissant de A₄, par exemple, si on le regarde selon un plan de Coxeter, cela fera apparaître une symétrie d'ordre 5 qui ne manque sans doute pas d'intérêt (je crois qu'il y a des liens avec les quasi-cristaux et les pavages de Penrose à symétrie pentagonale, mais je ne connais pas les détails). D'un autre côté, j'ai une certaine flemme, parce que calculer les plans de Coxeter est assez fastidieux, et je ne sais plus bien comment il faut faire (dans le cas de E₈ j'avais les résultats sous la main, mais je me souviens m'être battu contre Sage et Gap pour les obtenir). Quant au réseau An, il est pénible parce que son système de coordonnées le plus naturel utilise n+1 coordonnées entières à somme nulle, certes il rend le plan de Coxeter évident, mais il est plus délicat à manier (sinon, pour A₄, exactement la même définition que j'ai donnée de E₈ doit marcher avec 4 coordonnées, mais alors de nouveau le plan de Coxeter n'est pas évident).

Ajout () : Finalement, j'ai fait les calculs pour A₈ et D₈ (ainsi que ℤ⁸, qui n'est pas très intéressant). L'algorithme pour trouver le point de D₈ le plus proche d'un point de ℝ⁸ est expliqué au passage quand j'explique celui de E₈ ci-dessus ; s'agissant de A₈ (qui est l'ensemble des 9-uples d'entiers de somme nulle), l'algorithme pour décoder (z₀,z₁,…,z₈) consiste à considérer (x₀,x₁,…,x₈) les entiers les plus proches, puis, si la somme x₀+x₁+⋯+x₈ est strictement positive, soustraire 1 aux x qui tels que l'erreur xz correspondante est la plus grande pour l'amener à 0, tandis que si elle est strictement négative, ajouter 1 aux x qui tels que l'erreur xz correspondante est la plus négative. Le plan de Coxeter de D₈ présente une symétrie d'ordre 14 (correspondant à une rotation cyclique des 7 premières coordonnées en même temps qu'on change le signe des deux dernières), tandis que pour A₈ elle est d'ordre 9 (correspondant à une rotation cyclique des 9 coordonnées). Voici les images : section plane aléatoire de D₈, section plane de Coxeter de D₈, section plane aléatoire de A₈, section plane de Coxeter de A₈, section plane aléatoire de ℤ⁸. J'ai aussi calculé une section de E₈ selon le plan de Coxeter de D₈, pour mieux comparer les deux. (J'ai aussi rassemblé ces images ici sur imgur.) Je vais peut-être produire aussi quelques vidéos.

Ajout 2 () : Comme on m'y a incité en commentaire, j'ai aussi calculé des images où ce qui est représenté est la distance (au carré) au point du réseau le plus proche (avec 0=noir et 1=blanc). C'est effectivement beaucoup plus joli à voir, et peut-être encore plus parlant visuellement (même s'il y a, techniquement, plutôt moins d'information) ; et je dois dire qu'artistiquement je trouve ça absolument époustouflant (quoique légèrement déconseillé aux trypophobes), ça fait penser à quelque chose en train de bouillonner ou aux cellules de convexion dans le soleil. Bref, merci à Fab pour la suggestion. Voici donc une vidéo noir et blanc selon un plan aléatoire et selon un plan de Coxeter, et en bonus selon un plan présentant une symétrie d'ordre 24.

Code source : Il est ici pour la version originale, et ici pour la version mentionnée dans le deuxième ajout ci-dessus. Quelques explications (et les instructions sur comment compiler) sont en commentaire au début du code lui-même.

↑Entry #2433 [older| permalink|newer] / ↑Entrée #2433 [précédente| permalien|suivante] ↑

↓Entry #2430 [older| permalink|newer] / ↓Entrée #2430 [précédente| permalien|suivante] ↓

(mercredi)

Exposé pour Math en Jeans : les slides

J'ai mis en ligne ici le support que je compte utiliser pour mon exposé devant des lycéens samedi après-midi à Math en Jeans, intitulé Le jeu de nim : thème et variations.

Soit dit en passant, je ne suis pas spécialement hostile aux anglicismes, mais celui-là m'agace — en fait, le terme anglais n'est pas terrible pour commencer : qu'est-ce qu'on peut dire en français, plutôt que slide, pour parler d'une image projetée, de nos jours, par vidéoprojecteur, et servant à illustrer un exposé ?

Il manque, évidemment, l'accompagnement audio (si je suis très motivé, je ferai une vidéo sur YouTube), mais je me dis que si je n'ai pas trop mal réussi mon coup, on doit pouvoir à peu près comprendre même sans les explications orales. (Évidemment, il y a des endroits où elles sont quand même utiles à la clarté des choses ! Je pense par exemple au calcul des valeurs de Grundy dans l'exemple slide 18, qui est très facile à expliquer de vive voix avec un pointeur laser mais franchement laborieux si on veut l'écrire.)

Je précise que je n'ai pas l'intention de tout présenter : il y en a sans toute trop, peut-être même beaucoup trop (combien n'est pas clair). J'essaierai de m'adapter en fonction de la manière dont mon auditoire réagit. Disons que le minimum est le contenu des slides 3 à 14, ce qui suit contient plusieurs sujets de difficulté inégale, donc j'en traiterai un sous-ensemble, quelque part entre « rien » et « tout », selon le temps disponible et la manière dont j'ai l'impression qu'ils comprennent. (Exemple de parcours possible : 1–16,20–22,29.)

Les commentaires sont bienvenus ; mais ce n'est pas la peine de me dire que j'aurais dû m'y prendre complètement autrement, ou traiter un autre sujet : il est trop tard pour ça ; et ce n'est pas non plus la peine de me suggérer d'ajouter une figure, j'ai suffisamment souffert avec TikZ comme ça. Les suggestions locales d'amélioration/reformulation (surtout en nombre de mots constant !) seront appréciées. Mais ce qui est particulièrement bienvenu est un avis sur la difficulté relative des différentes slides pour des lycéens (motivés), ainsi que leur attrait, ou le temps qu'il faudrait y passer pour les expliquer : relatif, parce que si ça ne sert pas à grand-chose de dire que tout est trop dur, ça a un intérêt de se demander si la slide 30 est plus ou moins difficile à comprendre que la 23 (par exemple), dans la mesure où je devrai certainement faire des choix sur quoi présenter (modulo un hypothétique director's cut sur YouTube).

Bilan : voir l'entrée suivante.

↑Entry #2430 [older| permalink|newer] / ↑Entrée #2430 [précédente| permalien|suivante] ↑

↓Entry #2429 [older| permalink|newer] / ↓Entrée #2429 [précédente| permalien|suivante] ↓

(dimanche)

Hidden Figures

Mon poussinet et moi sommes allés voir le film Hidden Figures (le titre français — Les Figures de l'ombre — ne rend pas vraiment le jeu de mot le jeu de mot entre une personne et un chiffre dans un calcul), et je voudrais vraiment le recommander.

Il s'agit de l'histoire, vraie mais bien sûr partiellement romancée, de trois femmes noires « calculatrices » à la NASA au début des années 1960 (plus exactement, au centre de recherches Langley en Virginie, entre le premier vol dans l'espace de Ûrij [=Yuri] Gagarin en 1961 et celui de John Glenn en 1962). La manière dont elles sont confrontées à la fois à la discrimination raciale et au sexisme, et leurs différentes façons d'y faire face, sont montrées avec une certaine subtilité, de même que l'atmosphère côté américain de la « course à l'espace ». L'histoire suit une trame hollywoodienne bien formatée et qu'on peut trouver un peu trop schématique, mais les actrices jouent très bien (Taraji Henson, qui interprète Katherine Goble, Janelle Monáe qui joue Mary Jackson, et surtout Octavia Spencer — que je connaissais par un autre film remarquable, The Help — dans le rôle de Dorothy Vaughan), et pour une fois qu'on voit un film dont les personnages principaux sont des femmes noires, et mathématiciennes qui plus est, ne boudons pas notre plaisir. (Et puis j'ai un faible pour l'ambiance course à l'espace, l'ambiance « atompunk », ici illustrée avec une certaine sympathie sans excès.)

Scientifiquement, le film ne commet pas de bourde majeure, en tout cas pas que j'en aie repérée : le moment le plus faux sur ce plan-là est celui où l'héroïne principale, Katherine Goble, effectue au tableau, devant une salle de généraux un peu médusés, un calcul de paramètres de réentrée orbitale avec une précision dont il devrait être à peu près évident pour n'importe qui ayant un chouïa de culture scientifique, qu'il n'est pas atteignable de tête, en tout cas pas un temps tel que présenté ; je suis prêt à ne pas faire mon grincheux pour quelque chose du genre. Il y a aussi un certain nombre de modifications du tempo par rapport à la réalité, imposées pour s'adapter au rythme cinématographique, que je suis également prêt à pardonner.

Il est vrai que j'aurais aimé voir un peu de considération pour la différence entre la notion de calcul symbolique et celle de calcul numérique, choses que le grand public ne doit pas vraiment apprécier, mais qui n'est certainement pas impossible à faire passer. Les équations qu'on entr'aperçoit dans différents plans ont l'air superficiellement sensées, mais mélangent inexplicablement des valeurs numériques à virgules dans des expressions par ailleurs symboliques ; et de façon plus profonde, je n'ai pas vraiment idée de quel genre de calculs on faisait faire à ces « calculatrices », soit en général, soit précisément celles qui sont les héroïnes de ce film.

Et on ne peut pas dire que les répliques m'aident à deviner. À un moment, le chef d'équipe joué par Kevin Costner demande à Katherine Goble si elle sait calculer un repère de Frénet — et elle complète : par le procédé d'orthogonalisation de Schmidt. C'est vraiment amusant comme effet Zahir, parce que je discutais du repère de Frénet avec mon poussinet un quart d'heure avant d'aller voir le film (à propos du tome 5, particulièrement poussiéreux, du Cours de Mathématiques spéciales de MM. Ramis-Deschamps-Odoux), et je mentionnais justement qu'il s'agissait précisément du résultat d'un Gram-Schmidt sur les dérivées successives du mouvement : j'ai eu du mal à ne pas éclater de rire à la coïncidence. Mais même si vois le lien avec des trajectoires dans l'espace, je ne sais vraiment pas précisément dans quel genre de calcul, symbolique ou numérique, on utilise le repère de Frénet.

En vérité, même si je connais ma mécanique orbitale et lagrangienne, je n'ai aucune idée précise du genre de calculs qu'il faut réellement mener pour envoyer un homme dans l'espace. (Bon, je dois dire, je n'ai même pas d'idée précise sur le genre de calculs qu'il faut mener pour construire un pont ou un moteur à explosion. Je suis un peu comme le matheux d'une blague générique sur les ingénieurs, physiciens et mathématiciens, qui démontrerait que le pont, le moteur à explosion ou le vol orbital sont possibles — par une démonstration non-constructibe qui ferait appel à l'axiome du choix.)

Sur la précision scientifique des films hollywoodiens de façon plus générale, j'étais tombé il y a un certain temps sur cette vidéo qui explique que des gens ont mis en place une hotline permettant à l'industrie du cinéma d'être mis en contact avec des scientifiques de tel ou tel domaine quand ils veulent des conseils ou des éléments (phrases, équations à mettre sur un tableau, etc.) pour rendre leurs films scientiquement plus crédibles. Ça expliquerait un certain progrès que j'ai cru constater dans le domaine depuis les années '90 (même si ce progrès est souvent bien superficiel, il faut l'admettre : le fait de prononcer une phrase techniquement sensée à tel ou tel moment ne va pas compenser une absurdité fondamentale de principe ; il y a toujours très peu de films qui, comme The Martian, se donnent pour mission d'être véritablement réalistes scientifiquement, d'un bout à l'autre, ce qui implique d'aller plus loin qu'appeler une hotline de temps à autre).

À part ça, je me rends compte que je ne remplis pas vraiment consciencieusement la catégorie cinema de ce blog : ces derniers temps, j'ai vu en salles, entre autres, Manchester by the Sea et 君の名は (traduit en « français »(?!) par Your Name), et j'ai trouvé que les deux étaient vraiment des chefs d'œuvre. Je n'ai pas le temps d'en faire une critique maintenant (et ce serait un peu du réchauffé), mais je les recommande tous les deux très vivement, ce sont des films d'une très grande subtilité humaine et psychologique.

↑Entry #2429 [older| permalink|newer] / ↑Entrée #2429 [précédente| permalien|suivante] ↑

↓Entry #2427 [older| permalink|newer] / ↓Entrée #2427 [précédente| permalien|suivante] ↓

(mercredi)

Sujet d'exposé pour Math en Jeans

Je me suis engagé à donner un exposé (quelque part entre le 24 et le 27 mars) dans le cadre de l'événement Math en Jeans : c'est-à-dire qu'il s'agit de vulgarisation adressée à des lycéens motivés (a priori de seconde).

J'ai toute latitude pour choisir le sujet, donc je vais sans doute choisir un des trucs sur lesquels j'ai déjà fait de la vulgarisation, soit sur ce blog soit ailleurs : la contrainte est que je dois pouvoir raconter ça en une heure (en prévoyant des probables interruptions par des questions) et que ça soit accessible à des lycéens. Et, bien sûr, que ce soit susceptible de les intéresser.

Je n'ai pas une idée très précise de ce qu'un lycéen (motivé !) connaît en maths ni de ce qui l'intéressera : peut-être que certains lecteurs (par exemple s'il y en a qui enseignent en lycée ou qui sont ou out été lycéens il n'y a pas trop longtemps) peuvent m'éclairer un peu.

Globalement, j'ai plutôt trop d'idées que pas assez, donc je me demande si vous avez des conseils sur ce qui passerait plus ou moins bien parmi les thèmes suivants (j'essaie de mettre à chaque fois un lien vers une entrée de ce blog qui raconte de quoi il s'agit, mais il ne s'agit pas forcément de raconter exactement la même chose, notamment quand il s'agit de choses un peu techniques : c'est plus pour donner une idée) :

[Ajout : quelques arguments pour/contre ces différents sujets.]

  • Les (très très) grands nombres et/ou les ordinaux infinis. (On peut donner un côté ludique à la chose avec le jeu de l'hydre. Pour : ça intéresse facilement, voire, ça impressionne ; ça ne dépend pas trop de connaissances qu'ils pourraient avoir ou ne pas avoir. Contre : ça peut donner l'impression d'être peu rigoureux, et on peut facilement larguer les gens dans les définitions sans leur donner de moyen de se rattraper ; certains risquent d'avoir déjà entendu de la vulgarisation à ce sujet.)
  • La géométrie sphérique et la géométrie hyperbolique (voir cette entrée et les quelques suivantes). (On peut donner un côté ludique à la chose en montrant mes différents labyrinthes hyperboliques. Pour : c'est visuel et ça accroche facilement. Contre : ils ne connaissent pas forcément grand-chose en trigonométrie, donc difficile d'introduire la formule fondamentale qui permet de faire plein de calculs réels. Autre problème pratique : les illustrations sont très fastidieuses à réaliser pour moi.)
  • Quelques notions de théorie combinatoire des jeux et notamment comment gagner au jeu de nim (un peu comme ici mais sans les trucs infinis). (Pour : ils ressortent avec quelque chose de vraiment utilisable — à savoir la stratégie gagnante de jeux comme nim, des jeux de retournement de pièces, voir nim⊗nim ; sur les jeux de retournement de pièces, je peux introduire des codes correcteurs ; le tout serait sans doute facile à comprendre et ils n'auront sans doute pas vu avant. Contre : ça peut donner l'impression d'être très anecdotique.)
  • Quelques notions de géométrie finie (voir ici et pour des illustrations). (Contre : n'ayant pas vu de géométrie projective avant, l'élégance de l'idée de construire des structures combinatoires à partir de notions géométriques risque de leur échapper complètement.)
  • …et sans doute plein d'autres choses dont j'ai parlé à l'occasion sur mon blog, comme le problème de Hadwiger-Nelson (pas sûr qu'on puisse tenir une heure avec ça), le lemme de Higman (ça fait une démonstration complète et très accessible, mais c'est sans doute très peu vendeur), l'automorphisme exceptionnel de 𝔖₆ (peut-être pas très motivant).
  • Les cardinaux infinis. (Pour : ça a l'avantage de permettre de faire des vraies démonstrations : argument diagonal de Cantor et/ou théorème de Cantor-Bernstein. Contre : c'est peut-être aride ; et comme pour les ordinaux, ça peut donner l'impression d'être peu rigoureux.)
  • Les groupes finis, vus comme des groupes de permutations, et présentés comme des puzzles (cf. ceci).
  • Une introduction à la géométrie projective.
  • …et encore plein d'autres choses.

(Sujets triés par ordre approximatif d'intérêt/faisabilité a priori.)

PS : Je dois fournir un titre rapidement, donc c'est plutôt pressé !

PPS : Idéalement, j'aimerais arriver à faire au moins une « vraie » démonstration pendant mon exposé, mais je me rends compte que c'est mal parti. Certains sujets le permettent quand même mieux que d'autres.

Fin : Finalement, j'ai choisi de faire un exposé sur la théorie des jeux, dont le titre sera Jeu de nim : thème et variations. (Comme je l'explique en commentaires, les géométries sphérique et hyperbolique m'ont paru trop difficiles à présenter à des élèves qui connaissent a priori très peu de trigonométrie et pas la fonction exponentielle — ni à plus forte raison les lignes trigonométriques hyperboliques. Quant aux grands nombres et ordinaux, c'est sans doute plus facile de trouver en ligne de la vulgarisation à ce sujet, et j'avais peur par ailleurs que ça puisse en perdre rapidement plus d'un, et/ou que ça donne l'impression d'être peu rigoureux, foire fumeux. Les jeux dont je vais parler, au contraire, sont quelque chose de bien concret et sur quoi on peut « mettre les mains ».) • Je parlerai au moins du jeu de nim, de ses différentes variations et déguisements, et de jeux de retournement de pièces (ce que Berlekamp, Conway et Guy appellent, avec leur terminologie inimitablement baroque, Moebius, Mogul et Gold Moidores, et peut-être leurs liens avec les codes correcteurs ; ou de façon générale, de certaines choses qu'on trouve au tout début du volume ♣ de Winning Ways).

Ajout : voir une entrée ultérieure.

↑Entry #2427 [older| permalink|newer] / ↑Entrée #2427 [précédente| permalien|suivante] ↑

↓Entry #2425 [older| permalink|newer] / ↓Entrée #2425 [précédente| permalien|suivante] ↓

(mercredi)

La magie du nombre six redessinée sous forme pentagonale

L'avant-dernière entrée était consacrée au commentaire mathématique d'un dessin illustrant une propriété magique du nombre six : l'existence de six « pentades » (c'est-à-dire six façons de regrouper trois par trois les doublets sur six objets de manière que deux doublets regroupés ne partagent jamais un objet) ; ce dessin était présenté sous forme « hexagonale », c'est-à-dire que chacune des pentades montrait les six objets sous la forme des six sommets d'un hexagone régulier, ce qui à son tour suggérait une certaine disposition des pentades elles-mêmes (comme la permutation cyclique de l'hexagone fixe une pentade, en échange deux, et permute cycliquement les trois dernières, j'avais choisi une disposition et un coloriage qui mettait en évidence ces transformations). On m'a convaincu de refaire le même dessin sous forme « pentagonale », c'est-à-dire en disposant les six objets sous la forme des cinq sommets d'un pentagone régulier plus son centre. Voici le résultat (il s'agit donc, conceptuellement, du même dessin, mais où les objets ont été disposés différemment, les pentades aussi, et les couleurs sont différentes) :

Cette fois, la disposition pentagonale suggère de s'intéresser à la permutation cyclique des cinq objets disposés selon les sommets du pentagone : ce 5-cycle permute aussi les pentades selon un 5-cycle, ce qui suggère de les disposer elles aussi de façon pentagonale, avec au centre celle qui est fixée par le cycle, et en pentagone autour celles qui sont permutées cycliquement. J'ai donc choisi comme couleurs le noir et cinq couleurs maximalement saturées disposées régulièrement sur le cercle chromatique (bon, c'est plutôt un hexagone chromatique, mais peu importe). Du coup, tout le dessin est laissé invariant si on effectue une rotation de 2π/5 (=un cinquième de tour) en permutant aussi cycliquement les couleurs.

En plus de cela, le choix de la disposition définit ce que j'aime appeler une polarité symétrique sur l'ensemble à six objets : cela signifie que si on met en correspondance chaque objet avec la pentade qui occupe « la même place » dans la disposition graphique, alors l'automorphisme qui en résulte est involutif, au sens où une pentade de pentades va reprendre la place de l'objet qui lui correspond naturellement (on pourrait, du coup, se figurer ce dessin comme une structure fractale où le petit disque représentant chaque objet est remplacé par le dessin de la pentade correspondante, et ainsi de suite à l'infini). J'ai essayé de donner aux objets les mêmes couleur que les pentades, mais j'ai trouvé que ça embrouillait plutôt qu'autre chose.

Je n'arrive pas vraiment à décider, mais je crois quand même que je préfère la forme hexagonale du dessin. La forme pentagonale est peut-être un chouïa plus symétrique, mais c'est une symétrie moins bonne, parce qu'elle donne un rôle particulier à un des objets (en le plaçant au centre du pentagone) ; et, de façon plus grave, elle donne l'impression que la correspondance objets↔pentades que j'appelle polarité symétrique ci-dessus est naturelle alors qu'elle résulte de la disposition pentagonale (or tout l'intérêt de l'automorphisme extérieur de 𝔖₆ est justement que les pentades ne sont pas en correspondance naturelle avec les objets). Mais ça a certainement un intérêt de voir ces deux dessins (et d'essayer de se convaincre que c'est bien la même chose).

(Pour aller un cran plus loin, ça peut être intéressant de se convaincre que quelle que soit la manière dont on décide d'identifier les objets du dessin « pentagonal » avec les objets du dessin « hexagonal », il en découle une identification des pentades, et inversement, quelle que soit la manière dont on décide d'identifier les pentades, il en découle une identification des objets.)

Ajout () :

On me fait la remarque suivante : plutôt que disposer mes six objets selon un pentagone régulier plus son centre, ce qui en distingue un, j'aurais pu les disposer selon les sommets d'un icosaèdre régulier modulo antipodie (c'est-à-dire, en identifiant deux sommets opposés ; ou si on préfère, selon les six diagonales centrales d'un icosaèdre régulier). Je ne vais pas faire la représentation graphique parce que ce serait trop pénible, mais en fait c'est très intéressant : cette disposition icosaédrale évite de distinguer un objet, mais elle distingue toujours une pentade privilégiée, et c'est presque exactement ce qu'elle fait.

Plus exactement : le groupe des isométries directes de l'icosaèdre est isomorphe au groupe alterné (=groupe des permutations paires) 𝔄₅ sur cinq objets, et l'automorphisme extérieur de 𝔖₆ est justement une façon de se représenter les choses. Placer les six objets aux sommets d'un icosaèdre modulo antipodie définit une pentade privilégiée (à savoir, l'unique pentade laissée fixée par la rotation d'angle 2π/5 autour d'un sommet quelconque de l'icosaèdre) ; et les isométries directes de l'icosaèdre sont précisément les permutations paires sur les 5 pentades restantes (i.e., fixant cette pentade privilégiée). Les 5 synthèmes de la pentade privilégiée peuvent se voir comme 5 sextuplets d'arêtes de l'icosaèdre (sextuplets parce que ce sont des triplets d'arêtes opposées) dont les milieux forment un octaèdre, ce qui permet de retrouver une description classique du groupe des isométries de l'icosaèdre comme les permutations paires sur cinq octaèdres inscrits dans l'icosaèdre. (Il est pertinent de remarquer au passage qu'un permutation sur six objets est paire si et seulement si la permutation correspondante sur les pentades l'est.)

On doit aussi pouvoir faire le lien avec des structures de droite projective sur le corps à cinq éléments : comme les pentades sur six objets sont aussi en bijection avec toutes les façons de voir les six objets comme la droite projective sur 𝔽₅, ça veut dire qu'il y a une structure de droite projective sur 𝔽₅ « naturelle » (privilégiée) sur les sommets d'un icosaèdre modulo antipodie. Je soupçonne qu'il y a une jolie façon de la voir en réduisant modulo 5 les birapports des sommets de l'icosaèdre dans quelque chose, mais les détails m'échappent.

↑Entry #2425 [older| permalink|newer] / ↑Entrée #2425 [précédente| permalien|suivante] ↑

↓Entry #2423 [older| permalink|newer] / ↓Entrée #2423 [précédente| permalien|suivante] ↓

(lundi)

Sur la magie du nombre six (l'automorphisme exceptionnel de 𝔖₆)

J'ai posté dans une entrée récente le dessin suivant, avec la devinette d'essayer de trouver ce qu'il représente et ce qu'il nous apprend :

Les réponses dans les commentaires ont été intéressantes (et j'ai bien fait de proposer cette devinette), parce que plusieurs personnes ont remarqué des aspects différents du dessin, et ont fait des observations justes et pertinentes. La réponse mathématique que je vais tenter d'expliquer tourne autour du fait que les matheux énoncent classiquement en disant que le groupe des permutations sur six objets (et uniquement sur six objets) possède un « automorphisme extérieur non-trivial » ; mais cette formulation n'a aucun sens pour les non matheux, et même pour les matheux je trouve qu'elle ne fait pas vraiment ressortir pourquoi ce fait est remarquable et exceptionnel. Donc le mieux est peut-être de formuler le fait remarquable sous la forme suivante (qui est certes un peu de l'agitage de mains, mais qu'on peut rendre rigoureux, et que je trouve en tout cas plus parlant), et c'est ça que je vais essayer d'expliquer :

À partir de six objets, il est possible de construire, de façon systématique, de nouvelles « choses », également au nombre de six, tout aussi interchangeables que les objets de départ, mais qui ne peuvent pas être mis en correspondance systématique avec eux.

De plus, ceci n'est possible pour aucun autre nombre que six.

Pour les mathématiciens qui aiment la théorie des catégories, ce qui précède est censé signifier la chose suivante : le groupoïde formé des ensembles de cardinal 6 avec les bijections pour morphismes admet un endofoncteur fidèle (donc automatiquement une autoéquivalence) mais qui n'est pas naturellement isomorphe à l'identité ; et ce n'est vrai pour aucun autre entier naturel que 6.

C'est un exemple d'un de ces phénomènes exceptionnels en mathématiques, comme on nomme des structures intéressantes qui apparaissent uniquement dans un petit nombre de cas : en l'occurrence, cet « automorphisme exceptionnel de 𝔖₆ » fait partie d'une sorte de chemin magique d'objets exceptionnels, qui le relie aussi aux groupes de Mathieu ou au système de racines de E₆ et aux vingt-sept droites sur la surface cubique. Mais celui-ci a l'intérêt d'être raisonnablement facile à expliquer, surtout avec mon (j'espère) zouli dessin (censé représenter ces six « choses » qui, plus bas, s'appellent des pentades).

Au passage : la notation 𝔖₆ (vous devriez voir une S gothique avec un 6 en indice) désigne le groupe des permutations sur 6 objets, c'est-à-dire l'ensemble des façons de leur faire changer de place (ou pas) ; voir aussi cette entrée antérieure et cette vidéo YouTube pour une description animée des différents sous-groupes transitifs de 𝔖₆ (c'est-à-dire, toutes les façons de permuter six objets qui sont capables de placer n'importe quel objet à n'importe quel endroit).

Après, je dois avertir que, si je suis parti pour expliquer ça, mon enthousiasme s'est un peu atténué en chemin, et la fin de cette entrée est sans doute un peu bâclée (j'avoue que j'ai passé tellement de temps à trouver le bon chemin pour expliquer proprement la combinatoire des synthèmes et pentades ci-dessous qu'à la fin j'en avais marre, et j'ai plutôt traîné des pieds pour la finir). Je la publie telle quelle en espérant qu'elle ait un certain intérêt, même si je me rends compte qu'elle est bancale et un peu décousue. (Par ailleurs, si on n'est pas intéressé par les détails, ne pas hésiter à sauter les démonstrations, qui ne sont pas franchement indispensables pour la compréhension de l'ensemble.)

Partons, donc de six objets. On pourra imaginer si on veut qu'ils sont placés aux six sommets d'un hexagone, comme dans chacun des hexagrammes ci-dessus ; ou bien qu'ils sont numérotés 0,1,2,3,4,5 : ça n'a aucune importance (et je vais tâcher de préciser cette absence d'importance plus loin). Je vais introduire quatre termes désignant des structures de complexité croissante fabriqués sur ces six objets : outre les 6 objets eux-mêmes, je vais définir les 15 doublets, les 15 synthèmes et les 6 pentades (ces dernières étant, essentiellement, ce que j'ai représenté ci-dessus). Précisément :

  • Les objets sont ces six choses dont je suis parti. Il y a donc 6 objets.
  • Les doublets sont les paires d'objets : par « paire » j'entends la donnée de deux objets (différents) sans qu'il y ait un ordre particulier entre les deux. Ainsi, si mes objets sont représentés comme les six sommets d'un hexagone, les doublets sont toutes les arêtes et diagonales de l'hexagone (tous les segments représentés sur l'un des dessins ci-dessus). Si les objets sont numérotés 0,1,2,3,4,5, alors les doublets peuvent être numérotés 01,02,03,04,05,12,13,14,15,23,24,25,34,35,45 : remarquez qu'il n'y a pas de 21, par exemple, dans ma liste, parce que c'est la même chose que 12 (c'est en ce sens que je dis qu'il s'agit de paires sans ordre ou non ordonnées).

    Il y a 15 doublets : ceci peut se voir soit en comptant l'énumération que je viens de faire (et en se convainquant qu'il n'y a ni omission ni répétition), soit en faisant le raisonnement que pour choisir un doublet, on choisit un premier objet parmi 6, puis un second parmi 5, et on doit ensuite diviser par deux parce qu'on a obtenu chaque doublet deux fois (selon que l'un ou l'autre objet a été choisi en premier) ; bref, il y a 6×5÷2=15 doublets.

    Je dirai par ailleurs que deux doublets distincts sont enlacés (c'est moi qui invente le mot, il n'est pas standard) lorsqu'ils ont un objet en commun : par exemple, si j'ai numéroté les objets, les doublets 02 et 23 sont enlacés (ils ont l'objet 2 en commun), tandis que 02 et 13 ne sont pas enlacés.

  • Maintenant, ça se complique. Un synthème est la donnée de trois doublets (distincts, sans ordre) dont aucun n'est enlacé avec un autre, c'est-à-dire, ne faisant intervenir aucun objet en commun ; autrement dit, il s'agit d'une façon de regrouper mes six objets en trois doublets, l'ordre n'ayant pas d'importance. Si on préfère, c'est une façon d'apparier (« marier ») les objets deux par deux. Par exemple, si je numérote mes objets, 01/23/45 est un synthème (formé des doublets 01, 23 et 45 : on apparie 0 avec 1, et 2 avec 3, et 4 avec 5) ; de même, 03/14/25 est un synthème. Sur les dessins ci-dessus, si vous regardez un quelconque des hexagones et une couleur particulière, il y trois segments de cette couleur, c'est-à-dire trois doublets, qui constituent un synthème (autrement dit, ils n'ont aucun objet/sommet en commun).

    Combien y a-t-il de synthèmes ? On peut faire le raisonnement suivant : pour construire un synthème, je choisis un parmi les 15 doublets ; puis je dois en choisir un autre qui ne fait intervenir aucun des objets du premier doublet, ce qui me laisse 4×3÷2=6 possibilités pour le second doublet ; puis je choisis le troisième, et là, je n'ai plus du tout de possibilité ; et en faisant tout ça, j'ai compté six fois chaque synthème puisque j'ai pu prendre ses trois doublets dans n'importe quel ordre, et il y a six ordres possibles : je me retrouve donc avec 15×6÷6=15 synthèmes. Voici un raisonnement peut-être plus simple : pour construire un synthème, je choisis l'objet que je vais apparier avec l'objet 0, j'ai donc 5 possibilités de choix (tous les objets sauf 0), puis je considère le premier objet non encore apparié et je choisis avec quel objet je vais l'apparier, ce qui me laisse 3 choix possibles (à savoir, n'importe quel objet autre que les 2 déjà appariés et l'objet que je cherche à apparier), et une fois ces choix faits, le synthème est complètement déterminé (car il ne reste que deux objets à apparier, et on ne peut donc que les mettre ensemble), donc j'ai 5×3=15 synthèmes.

    On peut aussi les énumérer exhaustivement : visuellement, cela se fait très bien, et voici les 15 synthèmes représentés graphiquement (faites défiler horizontalement) :

    Ou si on préfère numéroter les objets, ils sont (dans l'ordre utilisé ci-dessus si les objets sont numérotés de 0 à 5 dans le sens contraire des aiguilles d'une montre à partir de celui qui est à droite) : 03/14/25, 01/23/45, 05/12/34, 03/15/24, 02/14/35, 04/13/25, 03/12/45, 05/14/23, 01/25/34, 04/12/35, 04/15/23, 02/15/34, 02/13/45, 05/13/24, 01/24/35.

    Je dirai par ailleurs que deux synthèmes distincts sont enlacés lorsqu'ils n'ont pas de doublet en commun. (Je sais, ça peut sembler inversé : j'ai défini deux doublets comme enlacés lorsqu'ils ont un objet en commun ; mais on va voir que c'est logique.) Par exemple, 03/14/25 et 01/23/45 sont enlacés, tandis que 03/14/25 et 03/15/24 ne le sont pas (ils ont le doublet 03 en commun).

  • Quatrième et dernière définition : une pentade (également appelée pentade synthématique ou total synthématique) est formée de cinq synthèmes (distincts, sans ordre) qui sont tous enlacés les uns avec les autres : autrement dit, c'est une façon de répartir les quinze doublets trois par trois pour former cinq synthèmes.

    Pour dire les choses de façon un peu différente : une pentade est une manière de colorier les quinze doublets avec cinq couleurs de façon que deux doublets distincts enlacés (=ayant un objet commun) ne soient jamais de la même couleur (il est facile de se convaincre qu'il y aura alors forcément trois doublets, donc un synthème, de chaque couleur) ; je souligne que l'identité des couleurs n'a aucune importance (si on échange deux couleurs, la pentade reste la même), seul compte le fait que deux doublets aient ou n'aient pas la même couleur.

    Chacun des six hexagones de mon dessin initial représente une pentade, figurée par un coloriage des segments : si on se concentre sur un des hexagones, chacune des couleurs représente un synthème de la pentade, et la pentade est la répartition des doublets en ces cinq synthèmes. On peut se convaincre que les six pentades dessinées sont toutes distinctes (j'insiste : il ne s'agit pas simplement de voir que les couleurs sont différentes, mais que la répartition des doublets entre les synthèmes est différente).

    On pourrait s'imaginer qu'il y a beaucoup de pentades, mais en fait, il y en a a exactement six (i.e., je les ai toutes dessinées, chacune une seule fois, ci-dessus). Je démontrerai plus loin ce fait qui rend toute l'histoire intéressante.

Pour résumer tout ce qui précède, les 6 objets définissent 15 doublets (chacun formé de 2 objets distincts) ; on a aussi défini 15 synthèmes (chacun formé de 3 doublets distincts mutuellement non enlacés), et enfin des pentades (au nombre de 6 mais on ne le sait pas encore, chacune formée de 5 synthèmes distincts mutuellement enlacés). Mon but est d'expliquer qu'il y a une forme de « symétrie » qui échange objets et pentades en même temps qu'elle échange doublets et synthèmes.

↑Entry #2423 [older| permalink|newer] / ↑Entrée #2423 [précédente| permalien|suivante] ↑

↓Entry #2418 [older| permalink|newer] / ↓Entrée #2418 [précédente| permalien|suivante] ↓

(dimanche)

Sur les adjectifs qui élargissent le nom qu'ils qualifient

Le point de grammaire(?) que je veux évoquer ici concerne surtout la terminologie scientifique, notamment mathématique, même s'il est a priori complètement général.

Normalement, quand on accole une épithète à un nom, ou en fait n'importe quelle sorte de complément, le sens devrait être de préciser, c'est-à-dire de restreindre, l'ensemble des entités possiblement désignées. Par exemple, même si vous ne savez pas ce que c'est qu'un foobar (c'est normal !), ni ce que signifie l'adjectif cromulent (idem), si je parle d'un foobar cromulent, vous pouvez conclure qu'il s'agit d'une sorte particulière de foobar, qui a une propriété additionnelle (être cromulent) par rapport à celle d'être un foobar. De même, un bazqux roncible frobnicable devrait être un type spécial de bazqux roncible, qui est lui-même une sorte de bazqux ; et le groupe des ptérodoncles mouffetés de Linné devrait être un ensemble (d'animaux ?) plus restreint que celui des ptérodoncles.

Je suis sûr que les grammairiens ou les linguistes ont un terme précis pour ce phénomène, mais je ne le connais pas ; ou peut-être, au contraire, un terme pour les exceptions. Car il y a bien sûr des exceptions. Dans le langage courant, elles abondent. Un secrétaire général n'est pas vraiment un secrétaire (et pas du tout un général, mais ça c'est plutôt une blague). Un procureur adjoint n'est pas un procureur, puisqu'il n'est qu'adjoint (et il en va de même d'adjectifs comme délégué). Un faux bourdon n'est évidemment pas un bourdon, comme un faux acacia n'est pas un acacia : on peut s'attendre à ce qu'un faux foobar ne soit pas un foobar, d'un autre côté, une fausse bonne idée est quand même une idée, même si elle n'est pas une bonne idée. Il y a aussi tout ce qui est nommé par métonymie ou par métaphore : un blouson noir n'est pas une sorte de blouson et un visage pâle n'est pas une sorte de visage ; une peau de chagrin était bien ce que ça dit jusqu'à ce qu'un roman de Balzac donne un sens très particulier à cette expression. Et ainsi de suite. Évidemment, les frontières des mots dans le langage non-technique ne sont pas rigoureusement définies, donc il n'est pas toujours possible de décider avec certitude si un adjectif est ou n'est pas restrictif au sens du paragraphe précédent : un tableau noir est-il un type particulier de tableau, par exemple ? certainement si on prend tableau au sens le plus large, mais ce n'est pas ce qu'on entend normalement par ce mot. Un hôtel de ville est un hôtel pour une certaine définition d'hôtel, mais ce n'est plus vraiment le sens courant de ce mot. Et je ne saurais pas vraiment dire si un coup de soleil est une sorte de coup, ou si le clair de lune est une sorte de clair (whatever that may be).

Dans le vocabulaire technique, on pourrait espérer que les mots aient un sens suffisamment précis pour pouvoir éviter ces gags, mais ce n'est pas le cas. En mathématiques, un faisceau pervers n'est pas un faisceau et en physique, un champ quantique n'est pas un type particulier de champ [classique] mais un concept parallèle dans un cadre adjacent (la théorie quantique des champs), et il est discutable qu'une étoile à neutrons soit une étoile. Sans compter, bien sûr, les cas où le terme technique est une locution indivisible : un trou noir (terme technique) n'est pas une sorte particulière de trou (terme non technique). La situation reste beaucoup plus rare que dans le langage courant.

Il y a cependant une situation importante où un foobar cromulent n'est pas une sorte particulière de foobar, et dont les matheux ont assez souvent besoin, et peut-être aussi d'autres sciences (les exemples ne me viennent pas trop à l'esprit, mais je suppose qu'ils doivent exister), ce sont les cas où on veut au contraire élargir le sens d'un mot. Autant la situation normale est que l'adjectif restreint le sens d'un mot, et les diverses situations évoquées jusqu'ici sont des cas où il déplace (comme faux, adjoint, etc.) ou bien le transforme de façon complètement imprévisible et figée par l'usage (blouson noir), la situation d'élargissement est encore un peu autre chose.

Le cas d'usage typique pour les maths est qu'un foobar est défini par différentes propriétés, et on veut désigner un objet qui vérifie toutes les propriétés du foobar sauf une. On peut bien sûr appeler ça un quasi-foobar ou un pseudo-foobar ou un presque foobar (near foobar en anglais ; certains grammairiens grincheux pourraient râler de voir un adverbe — presque — qualifier un nom), ou ce genre de choses, mais on aura peut-être envie de parler de foobar généralisé, et là, l'adjectif généralisé élargit le sens du mot.

Mais je pense que la situation la plus fréquente est celle, très proche, où on fait tout un traité sur les foobars bleutés, alors par flemme d'écrire bleuté à chaque fois, on convient dans l'en-tête du traité : le terme foobar désignera ci-après, sauf précision du contraire, un foobar bleuté. Une fois cette convention faite, pour parler d'un foobar en général, on doit écrire foobar non nécessairement bleuté, et non nécessairement bleuté est une locution adjectivale qui a cette propriété d'élargir le sens du mot foobar (en retirant la restriction bleuté). Et comme le mot nécessairement est lui-même long à dire, on écrit le plus souvent foobar non bleuté, ce qui est un abus de langage ou de logique parce qu'on veut, en fait, dire non nécessairement bleuté (i.e., foobar dans le sens où on retire la convention faite initialement qu'il est sous-entendu bleuté, mais il se pourrait qu'il soit quand même bleuté quand même). Il faut admettre que cela cause une certaine confusion, mais je ne connais aucune façon agréable de se sortir de ce problème de rédaction.

Le cas d'école est celui de la commutativité (et éventuellement de l'unitarité ou de l'associativité) des anneaux : en algèbre, un anneau est défini comme un ensemble muni d'opérations (l'addition et la multiplication) vérifiant un certain nombre de propriétés (l'associativité de l'addition, la commutativité de celle-ci, l'existence d'un neutre et de symétriques pour l'addition, la distributivité de la multiplication sur l'addition, l'associativité de la multiplication et l'existence d'un neutre pour la multiplication ; la dernière, voire les deux dernières n'étant pas systématiquement incluses dans la définition) ; et les gens qui font de l'algèbre commutative vont avoir envie d'ajouter une propriété supplémentaire, la commutativité de la multiplication, ce qui donne la notion d'anneau commutatif (commutatif étant ici un adjectif régulier, c'est-à-dire restrictif). C'est pénible d'écrire anneau commutatif trente-six fois par page, alors on fait souvent la convention que anneau signifiera désormais anneau commutatif (typiquement sous la forme : tous les anneaux considérés ici seront, sauf précision du contraire, supposés commutatifs, et peut-être, pour qu'il n'y ait aucun doute sur la définition utilisée, unitaires [i.e., possédant un élément neutre pour la multiplication] et associatifs). Mais on a quand même envie de temps en temps de dire quelque chose sur les anneaux plus généraux, alors on devrait écrire anneau non nécessairement commutatif en utilisant un adjectif qui élargit le sens du mot. Sauf qu'en fait, il n'est quasiment jamais intéressant de parler spécifiquement d'anneaux non nécessairement commutatifs qui ne sont effectivement pas commutatifs (au sens où il existe vraiment x et y tels que x·yy·x), donc on dit simplement non commutatif pour non nécessairement commutatif ; ce qui conduit à la situation absurde qu'un anneau commutatif est un cas particulier d'un anneau non commutatif (puisque ce dernier terme signifie en fait non nécessairement commutatif). C'est agaçant, j'en conviens, mais je ne connais pas de façon agréable de s'en sortir.

En fait, c'est très souvent le cas avec les adjectifs en non en mathématiques : de la même manière, un automate fini déterministe est un cas particulier d'un automate fini non déterministe (puisque ce dernier terme signifie en fait non nécessairement déterministe).

Le terme d'algèbre est particulièrement merdique parce qu'il signifie plein de choses selon le contexte : la multiplication peut être commutative et associative, ou seulement associative, ou même pas ; si on la suppose associative par défaut (ce qui est quand même le plus courant), ça n'empêchera pas d'écrire algèbre de Lie alors que le crochet de Lie n'est pas associatif (on a une autre hypothèse à la place, l'identité de Jacobi) ; de même, si on écrit algèbre alternative, il faut comprendre que l'hypothèse d'associativité a été remplacée par quelque chose de plus faible (l'hypothèse d'alternativité / de Moufang) ; et c'est pareil pour les algèbres de Jordan. Donc une algèbre de Lie, une algèbre alternative et une algèbre de Jordan ne sont (en général) pas des algèbres [associatives], ce sont des algèbres non [nécessairement] associatives, en revanche toute algèbre [associative] est une algèbre alternative. Et c'est sans compter la notion très générale d'algèbre sur une monade ! Pour le mathématicien habitué, tout ça ne pose pas trop de problème, à part un énervement certain quand on tient à la logique, mais quand il s'agit d'enseigner, c'est vraiment embêtant.

Certains proposent parfois des adjectifs différents pour rendre la terminologie moins incohérente : par exemple, si on convient qu'un corps est nécessairement commutatif (ce qui, n'en déplaise à Bourbaki, est quasiment universellement admis), lorsqu'on veut parler de corps non nécessairement commutatif, plutôt que d'écrire la longue expression corps non nécessairement commutatif ou l'abus de langage corps non commutatif, certains aiment écrire algèbre à division (avantage : c'est bien une algèbre ; inconvénient : personne ne sait au juste ce que c'est qu'une algèbre), ou corps gauche (avantage : c'est relativement court et agréable à écrire ; mais il reste que ce n'est pas un corps, et le terme n'est pas ultra standard), voire corps-gauche (le trait d'union permet de faire comme si ce n'était pas un adjectif et de prétendre qu'il est complètement normal qu'un corps-gauche ne soit pas un corps). Ça peut marcher pour des cas précis, mais ce n'est pas une solution universelle.

On pourrait aussi se demander ce qu'un adverbe est censé avoir comme effet général sur un adjectif (qui lui-même qualifie un nom) : si les foobars orgnesquement cromulents sont censés être des foobars, comment se situent-ils par rapport aux foobars cromulents ? Je ne crois pas vraiment qu'il y ait de convention absolue en mathématiques : parfois localement cromulent implique cromulent, parfois c'est la réciproque qui vaut, parfois ni l'un ni l'autre.

↑Entry #2418 [older| permalink|newer] / ↑Entrée #2418 [précédente| permalien|suivante] ↑

↓Entry #2410 [older| permalink|newer] / ↓Entrée #2410 [précédente| permalien|suivante] ↓

(mardi)

Une version de Gödel sur l'inséparabilité des théorèmes et antithéorèmes

(Le mot antithéorème, dans le titre et dans ce qui suit, désigne un énoncé P dont la négation logique, que je note ¬P, est un théorème, i.e., un énoncé réfutable alors qu'un théorème désigne un énoncé démontrable. Si vous avez du mal à distinguer vrai/faux de théorème/antithéorème, vous pouvez réviser ici.)

Je fais de temps en temps des remarques sur le théorème de Gödel (par exemple ici), il semble que ce soit un sujet dont on n'arrête pas d'extraire du jus. J'ai fait une remarque à ce sujet récemment sur MathOverflow, je me dis qu'elle pourrait intéresser mes lecteurs, donc je vais tenter de l'expliquer. Je vais essayer de reléguer les détails ou les complément un peu plus techniques à plein de notes : ceux qui veulent juste the big picture peuvent ignorer ces notes (et, dans tous les cas, il vaut peut-être mieux les garder pour une seconde lecture). Pour ceux qui veulent vraiment juste the bottom line, j'explique ici, en utilisant un tout petit peu de calculabilité, pourquoi il existe non seulement des énoncés indémontrables et irréfutables (i.e., « logiquement indécidables »), mais même de tels énoncés dont l'indémontrabilité et l'irréfutabilité sont elles-mêmes indémontrables (i.e., « logiquement indécidablement indécidables »). J'avoue qu'il y a un peu plus de subtilités dans tous les sens que ce que je pensais (i.e., beaucoup de notes), mais j'espère qu'on peut quand même en retenir quelque chose sans comprendre tous les détails.

La clé de tout ça, c'est de méditer sur la manière dont un algorithme (i.e., une machine de Turing) peut séparer les théorèmes et les antithéorèmes, ou le vrai et le faux — en gros, montrer qu'il ne peut pas, même pas en un sens assez faible.

Voici un premier fait : il est possible de produire un algorithme (i.e., une machine de Turing) qui, quand on lui donne un énoncé mathématique P, termine en répondant oui lorsque P est un théorème, et termine en répondant non lorsque P est un antithéorème (i.e., ¬P est un théorème). Il suffit, pour cela, d'énumérer toutes les démonstrations mathématiques possibles (par exemple en énumérant toutes les suites de symboles possibles, en vérifiant pour chacune s'il s'agit d'une démonstration conforme aux règles de la logique, tout ceci étant faisable algorithmiquement), et si on tombe sur une démonstration de P, on s'arrête et on répond oui, tandis que si on tombe sur une démonstration de ¬P, on s'arrête et on répond non. Je n'ai pas précisé dans quel système axiomatique je me place, cela pourrait être, par exemple, l'arithmétique de Peano [du premier ordre] PA ou la théorie des ensembles ZFC (mais dans ce cas, il faudra la supposer cohérente, ce que ZFC lui-même ne peut pas prouver, sans quoi tout énoncé serait à la fois théorème et antithéorème ce qui n'est pas bien intéressant). Bien sûr, tout cela est complètement théorique (dans la vraie vie, la démonstration automatisée ne sert que dans des théories extrêmement étroites, pas pour des énoncés mathématiques « généraux »). Mais le point théorique à souligner, c'est que l'algorithme que je viens de décrire ne termine pas si P n'est ni un théorème ni un antithéorème (i.e., s'il est logiquement indécidable dans la théorie considérée) : la contrainte est seulement que si P est un théorème, l'algorithme termine en répondant oui, et si ¬P est un théorème, l'algorithme termine en répondant non.

Voici un deuxième fait : il n'est pas possible de faire un algorithme (i.e., une machine de Turing) qui, quand on lui donne un énoncé mathématique P, termine en répondant oui lorsque P est vrai, et termine en répondant non lorsque P est faux (i.e., ¬P est vrai). En fait, ce n'est même pas possible si on se limite[#] à ce que P soit un énoncé arithmétique (c'est-à-dire, qui ne parle que d'entiers : voir ici pour une petite discussion) ; ni même si on se limite encore plus à ce que P soit un énoncé arithmétique Π₁ (c'est-à-dire un énoncé de la forme pour tout entier naturel n, on a Q(n), où Q, lui, est arithmétique et algorithmiquement testable en temps fini pour chaque n donné ; voir ici pour une discussion). La démonstration de ce deuxième fait est facile si on connaît un tout petit peu de calculabilité, plus exactement, l'indécidabilité algorithmique du problème de l'arrêt : si un algorithme comme je décrit ci-dessus (i.e., capable de dire si un énoncé est vrai ou faux) existait, il serait notamment capable de dire si l'énoncé <tel algorithme> ne termine pas quand on le lance sur <telle entrée> est vrai ou faux (ceci est bien un énoncé arithmétique, et il est même arithmétique Π₁), et du coup, de résoudre algorithmiquement le problème de l'arrêt.

[#] À vrai dire, si je ne mets pas une restriction de ce genre, c'est encore pire : on ne peut même pas énoncer formellement ce que ça voudrait dire d'avoir un algorithme qui répond oui ou non selon que l'énoncé est vrai ou faux.

Quand on met ensemble les deux faits que je viens de dire, on obtient le théorème de Gödel : en effet, s'il est possible de faire un algorithme qui répond oui sur les théorèmes et non sur les antithéorème, et impossible de faire un algorithme qui répond oui sur les énoncés vrais et non sur les énoncés faux, c'est forcément que les deux concepts ne sont pas identiques !, et donc, si tant est que tous les théorèmes de la théorie sont bien vrais (ou au moins les théorèmes arithmétiques, ou au moins[#2] les théorèmes arithmétiques Σ₁), il y a forcément des énoncés vrais, et même forcément des énoncés arithmétiques Π₁ vrais[#3], mais qui ne sont pas des théorèmes. C'est le théorème de Gödel, et c'est d'ailleurs peut-être la manière la plus simple de le voir. La construction peut être rendue explicite (car l'indécidabilité du problème de l'arrêt l'est). Je crois que cette façon de démontrer le théorème de Gödel était une motivation importante pour Turing dans l'étude du problème de l'arrêt.

↑Entry #2410 [older| permalink|newer] / ↑Entrée #2410 [précédente| permalien|suivante] ↑

↓Entry #2408 [older| permalink|newer] / ↓Entrée #2408 [précédente| permalien|suivante] ↓

(dimanche)

La forme élégante du plan projectif complexe

Je ressors ici de mes cartons une vieille entrée commencée il y a très longtemps, et plusieurs fois reprises, abandonnée, re-reprise, re-abandonnée, etc. Il s'agit d'essayer d'expliquer ce que c'est, et dans une certaine mesure comment visualiser, le plan projectif complexe[#] et sa géométrie. (Sauf qu'à cause de l'histoire compliquée de la rédaction de ce texte, qui s'étale sur des années, j'ai changé plusieurs fois d'avis sur ce que je voulais raconter, et il ne faut pas s'attendre à une grande cohérence. Mais j'espère au moins que les différents bouts seront intéressants.)

Le plan projectif complexe est intéressant parce qu'il appartient à la liste des espaces homogènes et isotropes (ou : deux points homogènes), ce que j'avais évoqué dans mon entrée sur les octonions (plus précisément, ici ; je voulais en parler depuis longtemps), et il est le plus simple/petit parmi eux qui ne soit pas maximalement symétrique, c'est-à-dire, qui ne soit pas un espace euclidien, une sphère (ou espace projectif réel) ou un espace hyperbolique : si on veut essayer d'imaginer ce que la notion d'espace homogène et isotrope signifie, et pourquoi ce n'est pas pareil que maximalement symétrique, il est donc bon de commencer par là ; d'autant plus qu'il n'est que de dimension (réelle) 4, ce qui n'est pas totalement hors de portée de l'imagination, et de toute façon tous ceux qui sont plus compliqués vont le contenir (ou bien contenir son dual, le plan hyperbolique complexe).

Mais il y a une raison supplémentaire d'en parler, c'est que le plan projectif complexe est une sorte d'amalgame entre le plan projectif réel (qui n'est autre que la sphère ordinaire, après identification des points antipodaux) et la droite projective complexe (a.k.a., sphère de Riemann, qui est elle aussi la sphère ordinaire, cette fois sans identification des antipodes, mais qu'il sera pertinent d'imaginer de rayon deux fois plus petit) : ces deux espaces-là sont faciles à comprendre, et sont aussi l'occasion de parler de deux projections particulières de la sphère, à savoir la projection gnomonique et la projection stéréographique. Car le plan projectif réel est fortement lié à la projection gnomonique de la sphère, et la droite projective complexe à la projection stéréographique. • Toutes les deux fonctionnent en projetant la sphère sur un plan tangent à elle et en projetant depuis un point appelé centre de projection (c'est-à-dire que pour projeter un point de la sphère, on trace la droite ou demi-droite partant de ce centre de projetant et reliant le point à projeter, et son intersection avec le plan choisi définit la projection) : la différence est que dans le cas de la projection gnomonique on projette depuis le centre de la sphère tandis que dans le cas de la stéréographique on projette depuis le point antipodal du point de tangence du plan choisi. La projection gnomonique préserve l'alignement (i.e., envoie les grands cercles sur des droites) et c'est d'ailleurs la seule à le faire, tandis que la stéréographique préserve les angles. (Voir aussi mes explications sur les projections de la sphère et l'application au cas de la Terre, ou encore le texte que j'avais écrit il y a bien longtemps sur le sujet de la cartographie.)

[#] Plus exactement : le plan projectif complexe muni de sa métrique/distance de Fubini-Study, qui est alors une variété riemannienne de dimension 4 ; peut-être que je devrais dire plan elliptique complexe (ou plan projectif hermitien ?) — la terminologie n'est pas totalement claire.

Table des matières

Définition rapide et résumé pour les gens pressés

Pour les lecteurs qui veulent tout de suite une définition, le plan projectif complexe est l'ensemble des triplets (u,v,w) de nombres complexes non tous les trois nuls, dans lesquels on identifie (u′,v′,w′) avec (u,v,w) lorsqu'il existe λ complexe non nul tel que (u′,v′,w′) = λ·(u,v,w) (et pour marquer cette identification, on note (u:v:w) la classe de (u,v,w), c'est-à-dire l'ensemble {(λu,λv,λw) | λ∈ℂ×}). Autrement dit, on identifie (u,v,w) et (u′,v′,w′) lorsque les trois rapports u/u′, v/v′ et w/w′ sont tous les trois égaux (plus exactement, les coordonnées nulles doivent être les mêmes d'un côté et de l'autre, et les rapports entre coordonnées non nulles de part et d'autres doivent être les mêmes). On dit que u, v, w sont les coordonnées homogènes du point (définies à un facteur multiplicatif λ commun, donc). Souvent on les prendra normalisées, c'est-à-dire que |u|²+|v|²+|w|²=1 (mais ceci ne définit toujours pas les coordonnées uniquement, car on peut encore multiplier par un complexe λ de module 1).

Pour définir le plan projectif réel, on imposera bien sûr à u,v,w d'être réels (non tous nuls) ; et pour la droite projective réelle, on imposera à w d'être nul (i.e., on n'utilise que deux coordonnées). On pourrait bien sûr définir l'espace projectif de dimension n quelconque en utilisant n+1 coordonnées homogènes. Et on peut faire la même définition avec les quaternions qu'avec les réels ou les complexes (il faut juste faire attention dans ce cas à bien fixer le sens de la multiplication : disons qu'on identifie (u,v,w) avec (λu,λv,λw) pour λ un quaternion non nul : cela revient à identifier (u,v,w) et (u′,v′,w′) lorsque u·u−1, v·v−1 et w·w−1 sont égaux ou, ce qui revient au même, que u−1·v=u−1·v′ et v−1·w=v−1·w′ et w−1·u=w−1·u′, avec les conventions évidentes lorsque des coordonnées sont nulles). Pour les octonions, en revanche, on ne peut fabriquer que la droite et le plan projectifs, et les définitions sont plus délicates.

Mais ce dont je veux surtout parler, ce n'est pas juste le plan projectif complexe, c'est aussi la distance qu'on met dessus (et que je vais motiver en commençant par le cas du plan projectif réel et de la droite projective complexe), qu'on appelle la métrique de Fubini-Study, et qui vaut dist((u:v:w), (u′:v′:w′)) = Arccos(|u·u*+v·v*+w·w*| / √((|u|²+|v|²+|w|²)·(|u′|²+|v′|²+|w′|²))) où z* désigne le conjugué complexe de z ; donc, pour des coordonnées normalisées, c'est dist((u:v:w), (u′:v′:w′)) = Arccos(|u·u*+v·v*+w·w*|), autrement dit l'arc-cosinus du module du produit scalaire hermitien entre les coordonnées normalisées. Il est facile de vérifier que cette distance ne dépend pas des coordonnées homogènes choisies.

Cette distance fait du plan projectif réel une sphère de dimension 2 et rayon 1 où les points antipodaux sont identifiés (l'identification étant par la projection gnomonique), et de la droite projective complexe une sphère de dimension 2 et rayon ½ (l'identification étant par la projection stéréographique) dite « sphère de Riemann ». Quant au plan projectif complexe, de dimension 4, il a une forme où ces deux sortes de sphères jouent un rôle important, et que j'ai tendance à décrire intuitivement comme un « tissu de sphères » (les sphères en question sont les droites projectives complexes du plan projectif complexe : il en passe exactement une par deux points distincts quelconques, et deux d'entre elles se coupent toujours en un point unique). Ce plan projectif complexe, par ailleurs, possède énormément de symétrie, puisqu'elle est homogène et isotrope (« tous les points sont interchangeables, ainsi que toutes les directions à partir d'un point »).

Je dirai encore un mot sur les plans projectifs réels contenus dans le plan projectif complexe, sur les symétries de ce dernier, et sur différentes sortes d'angles qu'on peut définir (car si tous les points se valent et que toutes les distances égales se valent, en revanche, la situation des angles est plus compliquée).

↑Entry #2408 [older| permalink|newer] / ↑Entrée #2408 [précédente| permalien|suivante] ↑

↓Entry #2386 [older| permalink|newer] / ↓Entrée #2386 [précédente| permalien|suivante] ↓

(mercredi)

Hadwiger-Nelson et autres malheurs

Les oulipiens ont inventé le concept du plagiat par anticipation, il faut peut-être que j'explore la manière dont il s'applique aux mathématiques. Pour une fois je vais raconter mes malheurs à ce sujet. Mais il faut d'abord que je donne le contexte.

J'ai déjà parlé du problème de Hadwiger-Nelson, cette question ouverte célèbre qui consiste à déterminer le nombre minimum de couleurs qu'il faut pour colorier le plan de façon que deux points situés à distance 1 (unité fixée quelconque) n'aient jamais la même couleur : on sait seulement que la réponse (i.e., le nombre chromatique du plan pour la relation être-à-distance-un) est entre 4 et 7 ; et je qualifie volontiers ça de problème ouvert le plus embarrassant des mathématiques, parce que vraiment tout le monde peut comprendre l'énoncé, un lycéen peut retrouver les bornes que je viens de donner et on n'a pas fait de progrès par rapport à ça. On peut, en revanche, essayer de changer un peu la question pour faire du progrès sur un terrain adjacent.

Vers avril 2012, j'ai réfléchi avec quelques collègues à de telles questions adjacentes (par exemple, savoir si on peut calculer d'autres invariants intéressants du graphe des points du plan avec la relation être-à-distance-un, comme sa capacité de Shannon — enfin, celle de son complémentaire, parce qu'un des collègues en question a des conventions opposées à tout le monde, et des bons arguments pour les défendre), mais nous n'avons pas trouvé grand-chose d'intéressant. • Comme je parlais du problème en question à mon poussinet, il m'a demandé ce qu'on savait du nombre chromatique pour des points à coordonnées rationnelles (i.e., le nombre minimum de couleurs qu'il faut pour colorier l'ensemble ℚ² des points à coordonnées rationnelles du plan, de façon que deux points situés à distance 1 n'aient jamais la même couleur). J'ai trouvé la solution à cette question-là (2 couleurs sont suffisantes — et évidemment nécessaires), et je l'ai exposée à mes collègues ; l'un d'eux a rapidement repéré que ce fait était déjà bien connu (le résultat est dû à un Douglas Woodall, en 1973). J'ai fait remarquer que les mêmes techniques permettaient de montrer des choses sur d'autres corps, par exemple ℚ(√3) (le corps des nombres de la forme a+b√3, où a et b sont rationnels) pour lesquel le nombre chromatique du plan vaut exactement 3, et cela a suscité un intérêt modéré.

Je suis alors tombé sur le livre d'Alexander Soifer, The Mathematical Coloring Book (publié en 2009), presque entièrement consacré au problème de Hadwiger-Nelson. Ce livre signale le résultat de Woodall (le nombre chromatique du plan à coordonnées dans ℚ vaut 2) et quelques unes de ses variations, et mentionne explicitement comme problème ouvert de trouver des nombres chromatiques d'autres corps, par exemple ℚ(√2). Je me suis rendu compte que je savais aussi calculer la réponse pour ℚ(√2) (c'est un peu plus compliqué que pour ℚ(√3)), et du coup que ça valait peut-être la peine de rédiger tout ça.

Les choses ont un peu traîné, mais j'ai mis sur l'arXiv une petite note contenant ces résultats et quelques faits liés que j'ai trouvé à dire sur le problème. Je pense qu'elle est facile à lire.

Je pense que les trois angoisses majeures du mathématicien quand il a obtenu son résultat sont : (1) de trouver une erreur dans sa démonstration, voire un contre-exemple à l'énoncé, (2) de trouver que le résultat est, en fait, quasiment trivial (i.e., au contraire du (1), trouver une démonstration « trop simple » de l'énoncé), et (3) d'apprendre que tout a déjà été fait avant. S'agissant du (1), j'ai passé (je passe toujours) un temps fou à relire, re-relire, et re-re-relire mes démonstrations, et j'ai atteint un niveau raisonnable de certitude qu'elles étaient correctes, même si je n'ai pas pu persuader qui que ce soit d'y jeter un coup d'œil. S'agissant du (2), l'angoisse est largement neutralisée quand il s'agit d'un problème ouvert répertorié (c'est notamment à ça qu'il sert de répertorier les problèmes ouverts). Restait l'angoisse numéro (3). J'ai écrit à Soifer (l'auteur du bouquin sur le sujet) pour lui demander si la question était toujours ouverte depuis 2009, mais il ne m'a pas répondu (je ne peux pas lui en tenir rigueur, je suis le premier à ne pas répondre à mes mails). J'ai cherché comme j'ai pu dans les bases de données de publications mathématiques et dans Google tout ce qui pouvait tourner autour de Hadwiger-Nelson ou tout ce qui citait le livre de Soifer ou quelques publications-clés, et je n'ai rien trouvé. En fait, presque personne ne semble faire quoi que ce soit au sujet du problème de Hadwiger-Nelson, donc je me suis dit que c'était certainement bon.

Finalement, j'ai soumis ma note à un journal en octobre dernier. Ils l'ont gardé plutôt longtemps (octobre à juillet), et je me suis dit que c'était sans doute un bon signe : si on rejette un article par manque d'intérêt, d'habitude, on le fait rapidement, alors que si on prend le temps de rentrer dans les détails mathématiques, c'est certainement que l'article est jugé assez intéressant, or je ne craignais pas trop qu'on y trouvât des fautes.

J'ai reçu hier le rapport : il commence plutôt bien, mais in cauda venenum : il m'apprend à la fin que l'immense majorité des résultats que je croyais avoir obtenus figurent déjà dans une note non publiée (et pas non plus mise sur l'arXiv, seulement sur la page personnelle de son auteur) d'un certain Eric Moorhouse de l'Université du Wyoming. Et ce Moorhouse a une très nette antériorité, puisque la version actuelle de sa note est datée de 2010 et qu'on trouve même des traces d'une version de 1999 qui contient aussi les résultats essentiels. Cette note m'avait échappé sans doute parce qu'elle n'utilise nulle part le terme Hadwiger-Nelson, et apparemment elle (ou en tout cas, sa version de 1999) avait aussi échappé à Soifer quand il a écrit son livre.

Et il n'y a pas que les résultats qui sont proches : les techniques que j'ai mises en œuvre sont quasiment identiques à celles de Moorhouse (je ne peux même pas espérer parler de démonstrations alternatives). Même la question que je soulève de savoir si le nombre chromatique de ℂ² pour la relation (xx′)² + (yy′)² = 1 est finie, est déjà dans l'article antérieur. J'ai bel et bien été « plagié par anticipation » ! Plus sérieusement, je suis dans une situation vraiment embarrassante, parce qu'on pourrait m'accuser de plagiat ; le rapporteur qui a lu ma note a eu l'intelligence de deviner que ce n'était pas le cas (et il l'écrit clairement à l'éditeur), mais je me méfierai à l'avenir avant d'accuser qui que ce soit de plagiat, parce que je me rends compte à quel point ça peut arriver facilement.

Il y a bien quelques bouts restants dans ma note qui ne sont pas contenus dans ce qu'a fait Moorhouse (pour ceux qui veulent regarder, les §2–4 sont essentiellement incluses dans son travail, sauf peut-être la borne inférieure de la proposition 4.6, mais ce n'est pas franchement passionnant, et les §5–7 partent un peu dans une autre direction), mais je vois mal comment ils pourraient être publiés, ne serait-ce que par manque de cohérence : ce sont des petites remarques éparses qui n'ont plus aucun fil conducteur. (La réponse de l'éditeur du journal auquel j'avais soumis l'article ne ferme pas complètement la porte à cette possibilité, mais il demande des révisions substantielles qui ont l'air difficiles à mener.) À vrai dire, j'espérais beaucoup pouvoir profiter de la publication de cette note pour attirer l'attention sur le problème de Hadwiger-Nelson minkowskien (=lorentzien), i.e., pour la métrique de Minkowski (ℝ² pour la relation (tt′)² − (zz′)² = 1), et sur le fait que je ne sais même pas si le nombre chromatique est fini. Mais ça ne se fait pas de publier un article avec des questions, il faut qu'il y ait des résultats nouveaux pour servir de prétexte à poser des questions. C'est vraiment triste.

En fait, je suis même assez effondré, parce que j'avais investi pas mal de temps, pas tant dans les résultats eux-mêmes mais dans la rédaction de cette note, que j'espérais rendre aussi jolie que possible.

J'ai écrit à Moorhouse pour lui faire part de mon embarras, lui présenter mes excuses d'avoir mis sur l'arXiv comme mien des résultats qu'il avait obtenus avant, et demander s'il accepterait de faire une publication jointe, mais je ne vois pas vraiment pourquoi il accepterait (par ailleurs, je ne sais pas s'il est encore actif, ou s'il lit son mail, ou s'il y répond).

Ce n'est pas la première fois que ça m'arrive de retomber sur des résultats déjà connus, en fait, ou quelque mésaventure du genre — même si c'est la première fois que c'est aussi flagrant. Deux fois pendant ma thèse, d'autres mathématiciens ont obtenu des résultats beaucoup plus forts que les miens et quasiment simultanément (là, j'avais techniquement l'antériorité, mais quand elle se joue à très très peu, ce n'est pas forcément évident pour les journaux et relecteurs, et ça a quelque chose d'un peu absurde de se retrouver à citer un article postérieur qui fait que l'article qu'on écrit n'a déjà plus aucun intérêt). Et je ne compte pas le nombre de concepts que j'ai « découverts » pour apprendre que j'étais né trop tard dans un monde déjà trop vieux : par exemple, en 2001, j'ai « découvert » les séries de Hahn, j'étais tout excité de comprendre qu'elles formaient un corps algébriquement clos, et on m'a fait savoir que j'arrivais à peu près un siècle trop tard. J'ai aussi trouvé plein de choses sur la multiplication de nim avant de découvrir que Lenstra était passé avant, etc. Ce genre de choses arrive à tout mathématicien, mais la multiplicité des cas qui m'ont touché commence à me rendre parano. Pourtant, je cherche à m'écarter des sentiers battus.

↑Entry #2386 [older| permalink|newer] / ↑Entrée #2386 [précédente| permalien|suivante] ↑

↓Entry #2368 [older| permalink|newer] / ↓Entrée #2368 [précédente| permalien|suivante] ↓

(mardi)

Le lemme de Higman expliqué aux enfants

Ceci est un peu une expérience de vulgarisation scientifique : je voudrais essayer d'expliquer et de démontrer un résultat mathématique non-trivial en m'adressant aux gens n'ayant aucune connaissance mathématique particulière (même pas, en principe, ce qu'est un nombre), mais seulement un peu de patience pour lire des explications plutôt verbeuses (bon, OK, si je demande de la patience, ce n'est pas vraiment pour les enfants, mais je ne sais pas quoi dire d'autre). Je pense que cela peut servir d'exemple pour illustrer ce à quoi peut ressembler le travail d'un mathématicien et les raisonnements qu'il fait, et surtout, pourquoi il peut s'agir de tout autre chose que de formules et de calculs. (Ceci étant, la vulgarisation mathématique est quelque chose de difficile parce qu'en plus de chercher à expliquer les concepts ou les outils eux-mêmes, il faut trouver quelque chose à répondre aux gens qui demanderont des choses comme à quoi ça sert de se poser ce genre de question ? de façon plus ou moins agressive.) Ai-je réussi à rendre les choses compréhensibles ? À vous de me le dire — enfin, à ceux d'entre vous qui ne sont pas déjà mathématiciens.

C'est aussi un petit exercice un peu oulipien : expliquer une démonstration mathématique sans utiliser de « variables » (je veux dire des choses comme le nombre n, le mot w, le langage L, l'ensemble S, etc., ou a fortiori la suite (vi)) pour désigner les objets, puisque je ne suppose pas mon lecteur familier avec cette façon de désigner les choses. (Ce petit exercice est peut-être complètement stupide, d'ailleurs, parce qu'il n'est pas clair que m'obliger à utiliser des périphrases comme le mot qu'on considérait ou le langage dont on était parti aide vraiment à comprendre, et je pense même le contraire : mais cet exercice à l'intérêt de m'obliger à limiter le nombre d'objets manipulés dans une phrase donnée, à donner des exemples, etc., donc je pense qu'il a du bon.) J'ai quand même réécrit la démonstration une deuxième fois avec ce genre de langage, pour comparer (là aussi, aux non-mathématiciens de me dire si c'est plus ou moins clair).

J'ai choisi pour l'exercice un théorème de combinatoire : le lemme de Higman. Pourquoi précisément le lemme de Higman ? Parce que c'est un résultat important, relativement récent (1952), que je trouve très joli, et dont la démonstration, simple, élégante et pas trop longue, ne fait appel à aucun concept sophistiqué, mais est un bon exemple de raisonnement pas du tout trivial aboutissant à une conclusion peut-être surprenante. Mais aussi parce que cette démonstration contient des idées mathématiques importantes (un raisonnement par l'absurde qui est une forme de descente infinie), et parce que le résultat lui-même admet des myriades d'applications et de généralisations dans toutes sortes de directions, dont certaines sont des sujets de recherche actifs, et dont certaines utilisent une démonstration relativement proche de celle que je vais présenter.

Alors, de quoi s'agit-il ?

Je commence par présenter le contexte.

On va d'abord parler de mots, et je vais expliquer exactement ce que j'entends par là. Un mot est une succession (finie) de lettres de l'alphabet. Par exemple : abracadabra est un mot (d'une longueur de 11 lettres, mais peu importe, j'ai dit qu'il n'était pas nécessaire de savoir compter). Un mot n'est pas obligé d'avoir un sens en français ou dans une quelconque autre langue : kvtyeohegwnfth est un mot valable. Un mot peut être arbitrairement long : anticonstitutionnellementologiepouettruc est un mot valable. Il peut aussi être arbitrairement court : a est un mot. On va même autoriser le mot, appelé mot vide, qui n'a aucune lettre dedans (de longueur zéro) : il y a juste un petit problème pour l'écrire parce qu'il ne se voit pas, d'où l'intérêt de mettre des guillemets autour pour qu'on le voie quand même : (est le mot vide). Une lettre peut être répétée autant de fois qu'on veut : aaaaaaaaaaaaaa est un mot parfaitement valable (et différent de aaaaaaaaaaaaa).

En revanche, on n'a pas le droit à autre chose que des lettres : pouet42truc n'est pas autorisé. Ou du moins il ne l'est pas si on est convenu à l'avance que l'alphabet est formé des lettres ‘a’, ‘b’, ‘c’, ‘d’, ‘e’, ‘f’, ‘g’, ‘h’, ‘i’, ‘j’, ‘k’, ‘l’, ‘m’, ‘n’, ‘o’, ‘p’, ‘q’, ‘r’, ‘s’, ‘t’, ‘u’, ‘v’, ‘w’, ‘x’, ‘y’ et ‘z’ à l'exclusion de toute autre : en fait, le lemme de Higman marchera tout aussi bien si je veux ajouter les chiffres dans l'alphabet, ou les caractères accentués, ou les majuscules ; ou si je prends l'alphabet grec, ou russe, ou sanskrit, ou tous les caractères chinois : la seule chose qui importe est que l'alphabet soit fini et décidé à l'avance et qu'on n'y touche plus (et on pourra toujours appeler lettres les choses qu'on a mises dans l'alphabet) ; mais pour fixer les idées dans cette explication, on va dire qu'il s'agit de l'alphabet latin minuscule, c'est-à-dire exactement des — 26 mais peu importe — caractères que je viens d'énumérer.

Ce concept étant (j'espère) clair, on va jouer à un petit jeu (à seul ou à plusieurs) consistant à écrire des mots les uns à la suite des autres.

La seule règle du jeu est la suivante : une fois qu'un mot a été écrit, il n'est plus autorisé d'écrire un mot qui s'obtient en ajoutant des lettres dans le mot en question (au début, à la fin, n'importe où au milieu, ou tout ça à la fois). Par exemple, si le mot truc a été joué, on ne peut plus jouer trucage, mais pas non plus trouc ni structure ni autruche ni tirebouchon (eh oui, dans tirebouchon il y a truc, voyez : tirebouchon) ni introductif (idem : introductif), ni cturtutrcu (cherchez bien, il y a moyen de retrouver truc dans cet ordre en retirant les bonnes lettres : cturtutrcu). Et, bien sûr, on ne peut pas rejouer truc lui-même. Si le mot a a été joué, on ne peut plus jouer aucun mot comportant un ‘a’ n'importe où. (Et si le mot vide a été joué, plus aucun mot n'est jouable et le jeu doit s'arrêter.) • Pour parler de façon plus concise, un mot qui s'obtient à partir d'un autre en ajoutant des lettres s'appellera un sur-mot, et inversement, l'autre (qui s'obtient en retirant des lettres n'importe où) s'appellera un sous-mot : donc truc est un sous-mot de tirebouchon et tirebouchon est un sur-mot de truc (et tout mot contenant la lettre ‘a’ est un sur-mot de a, et tout mot est un sur-mot du mot vide). On convient que tout mot est un sur-mot et un sous-mot de lui-même. La règle du jeu est donc : on ne peut pas jouer un mot dont un sous-mot a déjà été joué, ou encore, jouer un mot « grille » (consomme, interdit, bannit) définitivement tous ses sur-mots. C'est là la seule règle.

Évidemment, si on veut vraiment faire un jeu intéressant à partir de l'histoire, il faudra ajouter des règles décidant qui gagne (par exemple, en disant que celui qui joue le mot vide perd — si on décide qu'il gagne, le jeu n'est vraiment pas bien palpitant ; en fait, même si on décide qu'il perd, il y a une stratégie gagnante très facile). Mais ce n'est pas tellement ça qui va m'intéresser.

↑Entry #2368 [older| permalink|newer] / ↑Entrée #2368 [précédente| permalien|suivante] ↑

↓Entry #2356 [older| permalink|newer] / ↓Entrée #2356 [précédente| permalien|suivante] ↓

(mardi)

Une question d'Analyse (moyenner une fonction), et de pourquoi elle m'intéresse

Commençons tout de suite par la question qui m'intéresse (je précise que je n'en connais pas la réponse), que je vais faire suivre de commentaires mathématiques, puis métamathématico-psychologiques :

Soit f une fonction réelle 1-périodique, et L¹ sur une période (ou, si ça ne suffit pas : mesurable et bornée). Est-il vrai que pour presque tout x, la moyenne arithmétique de f(x), f(x+1/n), f(x+2/n), f(x+3/n), …, f(x−1/n), converge vers l'intégrale de f (sur une période) ?

Cette question peut se voir comme la suite d'une question que j'avais proposée en exercice : si j'appelle (n(f))(x) la moyenne dont il est question ci-dessus, je sais montrer un certain nombre de choses, par exemple que n(f) tend dans Lp vers (la fonction constante égale à) l'intégrale de f si f est Lp et p<∞, ou qu'il y a convergence uniforme si f est Riemann-intégrable. Je signale quelques autres faits apparentés (ainsi qu'une esquisse de démonstration de ce que je viens de dire) dans cette question sur math.stackexchange, où je pose la question recopiée ci-dessus et je demande aussi s'il y a convergence dans L (lorsque f est L). Au moment où j'écris, je n'ai pas eu de réponse (et la question n'a suscité que très peu d'intérêt, ouin ☹).

Mise à jour () : Comme on me le signale en commentaire, la réponse est non : même pour f mesurable et bornée (en fait, même pour la fonction indicatrice d'une partie de ℝ/ℤ), il n'y a pas forcément convergence presque partout, ni même « quelque part », de n(f) vers f. C'est l'objet de l'article de Walter Rudin, An Arithmetic Property of Riemann Sums, Proc. Amer. Math. Soc. 15 (1964), 321–324. La démonstration de Rudin est courte et a l'air assez jolie et arithmétique. • Par ailleurs, auparavant, Marcinkiewicz et Zygmund, dans Mean values of trigonometrical polynomials, Fund. Math. 28 (1937), chapitre II, théorème 3 p. 157, avaient déjà montré que pour la fonction précise −log(|x|)/√|x| sur [−½,½], prolongée par périodicité, qui est L¹ sur une période mais non bornée, on n'a convergence nulle part. • Par ailleurs, ces articles montrent que d'autres que moi ont pensé que la question était naturelle, et d'autre part, qu'elle n'était pas triviale. (Le terme qui me manquait pour chercher était somme de Riemann : je pensais qu'une somme de Riemann était le cas associé à une subdivision quelconque, pas spécialement régulière, et qu'on n'allait donc pas trouver grand-chose de plus en cherchant ce terme que la construction de l'intégrale de Riemann.)

Mais une méta-question que je trouve aussi intéressante, c'est : pourquoi est-ce que je trouve la question ci-dessus extrêmement intéressante, importante et naturelle ? (Peut-être que je ne serai plus de cet avis si j'obtiens la réponse, mais au minimum je la trouve intéressante au sens où j'ai vraiment envie d'avoir la réponse.) Ce n'est pas juste que moyenner une fonction comme ça est une opération qui me semble très naturelle (et assez élégante) et qu'on a envie de savoir si ça converge vers l'intégrale voire, si ça donnerait une « définition » de l'intégrale de Lebesgue. L'Analyse n'est pas un sujet dont je suis un grand fan, mais à partir du moment où on me présente une « situation » mathématique (ici, le fait de moyenner une fonction 1-périodique par ses n translatés par 1/n, et de considérer la limite quand n→+∞) sur laquelle j'arrive à dire des choses, j'ai naturellement envie de me poser toutes les questions « adjacentes » à la situation : si j'ai un résultat de convergence dans Lp pour p<∞, j'ai naturellement envie de poser la question de la convergence L et de la convergence presque partout. (D'ailleurs, le mystère c'est pourquoi j'ai mis plus d'un an à me rendre compte que ces questions étaient naturelles et que je ne savais pas les résoudre !) En plus de cela, il y a toujours un degré de frustration à penser : bon sang, mais une question aussi simple et naturelle que ça, je devrais savoir y répondre !, ou au moins, trouver la réponse dans un livre/article.

J'ai souligné le mot naturel dans le paragraphe précédent, parce que c'est un aspect psychologique fondamental dans la manière dont je conçois les mathématiques : il n'y a pas que le fait que les objets soient élégamment symétriques et beaux par leur grandeur qui me motive, il y aussi le caractère naturel des questions qu'on se pose. Je me considère comme un mathématicien pur non pas parce que je ferais des choses qui ne servent à rien, mais parce que ce qui me motive quand je me pose une question de maths n'est pas qu'elle serve à quelque chose (même à l'intérieur des mathématiques), mais qu'elle soit naturelle dans le contexte. Et c'est une qualité que je ne sais pas définir (même si cela a certainement un rapport avec la simplicité) et dont je me demande à quel point elle est personnelle, voire complètement illusoire. Un autre mathématicien sera-t-il convaincu que la question ci-dessus est intéressante ? Je ne sais pas. (Pas plus que pour les questions de l'entrée précédente. En revanche, une question telle que est-il vraie que pour toute fonction réelle f il existe une partie dense à laquelle la restriction de f est continue ? est probablement « naturelle » si j'en crois les réactions que j'ai eues.)

Toujours est-il que je n'ai pas le temps d'y réfléchir sérieusement (et je ne suis pas sûr d'y connaître assez en Analyse pour avoir une chance sérieuse de savoir résoudre le problème), donc j'essaie insidieusement de convaincre d'autres gens d'y faire attention et d'y réfléchir à ma place. Wir müssen wissen — wir werden wissen! 😉

↑Entry #2356 [older| permalink|newer] / ↑Entrée #2356 [précédente| permalien|suivante] ↑

↓Entry #2355 [older| permalink|newer] / ↓Entrée #2355 [précédente| permalien|suivante] ↓

(dimanche)

Quelques théorèmes de points fixes

Je suis un peu débordé en ce moment par la préparation de deux cours[#] qui commencent dans deux semaines et dont je n'ai pour l'instant que des notes très éparses et inachevées, d'autant plus que j'enseigne autre chose en ce moment. Mais pendant la préparation d'un de ces cours, je suis tombé sur une difficulté mathématique au sujet de laquelle j'aimerais l'avis de mes lecteurs mathématiciens (il doit bien y en avoir) ou amateurs de mathématiques : ce n'est pas que je ne sache pas démontrer quelque chose, mais que je m'étonne de la façon dont je le démontre, et je trouve qu'il y a quelque chose de surprenant dans toute l'histoire. Bref, je vais commenter les ressemblances et différences entre quelques énoncés apparemment très semblables et surtout différentes démonstrations des énoncés en question.

[#] L'un de ces cours concerne la théorie des jeux ; ou plutôt les théories des jeux, parce qu'il y a plusieurs domaines que leurs spécialistes appellent théorie des jeux, selon le type de jeux étudiés, et dont l'intersection est relativement faible : pensez à celle (que je ne sais pas nommer plus précisément) qui cherche des équilibres de Nash et celle (en gros, la théorie combinatoire des jeux) qui cherche à calculer des valeurs de Sprague-Grundy, par exemple, chacune a tendance à se définir comme « la » théorie des jeux, et d'ailleurs ça m'énerve, en tout cas je voudrais parler des deux et de quelques autres encore. Mes notes en cours d'écriture sont ici. L'autre cours concerne les courbes algébriques, pour lequel il va s'agir de remanier profondément un cours de géométrie algébrique (anciennes notes ici) que je donnais déjà.

Voici quatre énoncés mathématiques très simples, en théorie élémentaire des ensembles, que je pourrais regrouper sous le label général de théorèmes de points fixes, et que je vais appeler successivement (P), (P$), (F) et (F$) :

(P) Soit X un ensemble : on note 𝒫(X) son ensemble des parties. Soit Ψ:𝒫(X)→𝒫(X) une application vérifiant les deux propriétés suivantes : (i) Ψ est progressive, c'est-à-dire que Ψ(A)⊇A pour tout A∈𝒫(X), et (ii) Ψ est croissante, c'est-à-dire que si AB alors Ψ(A)⊇Ψ(B). Alors il existe un plus petit A∈𝒫(X) tel que Ψ(A)=A (c'est-à-dire un A tel que Ψ(A)=A et que si A′ vérifie aussi Ψ(A′)=A′ alors AA′).

(P$) [Exactement le même énoncé que (P) sans supposer (i).] Soit X un ensemble : on note 𝒫(X) son ensemble des parties. Soit Ψ:𝒫(X)→𝒫(X) une application vérifiant la propriété suivante : Ψ est croissante, c'est-à-dire que si AB alors Ψ(A)⊇Ψ(B). Alors il existe un plus petit A∈𝒫(X) tel que Ψ(A)=A. [Un peu mieux : il existe un plus petit A tel que Ψ(A)⊆A, et ce A vérifie Ψ(A)=A.]

Pour les deux énoncés suivants, j'ai besoin de rappeler la notion de fonction partielle : si X et Z sont deux ensembles, une fonction partielle XZ est une fonction définie sur une partie de X et à valeurs dans Z ; on peut aussi la voir comme une partie de X×Z (à savoir, le graphe de la fonction) qui soit fonctionnelle au sens où si elle contient à la fois (x,z₁) et (x,z₂) pour le même xX alors forcément z₁=z₂. La relation fg entre fonctions partielles signifie alors que la fonction f prolonge la fonction g (i.e., que f est définie partout où g l'est, et qu'alors leurs valeurs coïncident).

(F) [Exactement le même énoncé que (P) avec des fonctions partielles XZ au lieu de parties de X.] Soient X et Z deux ensembles : on note 𝒟 l'ensemble des fonctions partielles XZ. Soit Ψ:𝒟→𝒟 une application vérifiant les deux propriétés suivantes : (i) Ψ est progressive, c'est-à-dire que Ψ(f)⊇f pour tout f∈𝒟, et (ii) Ψ est croissante, c'est-à-dire que si fg alors Ψ(f)⊇Ψ(g). Alors il existe une plus petite f∈𝒟 telle que Ψ(f)=f (c'est-à-dire un f tel que Ψ(f)=f et que si f′ vérifie aussi Ψ(f′)=f′ alors ff′). [Précision : on me fait remarquer à juste titre que cet énoncé est en fait totalement creux (cf. la mise à jour ci-dessous).]

(F$) [Exactement le même énoncé que (F) sans supposer (i), donc exactement le même que (P$) avec des fonctions partielles au lieu de parties.] Soient X et Z deux ensembles : on note 𝒟 l'ensemble des fonctions partielles XZ. Soit Ψ:𝒟→𝒟 une application vérifiant la propriété suivante : Ψ est croissante, c'est-à-dire que si fg alors Ψ(f)⊇Ψ(g). Alors il existe une plus petite f∈𝒟 telle que Ψ(f)=f. [Un peu mieux : il existe un plus petit f tel que Ψ(f)⊆f, et ce f vérifie Ψ(f)=f.]

(Nomenclature : j'appelle (P) et (P$) les énoncés sur les Parties, (F) et (F$) ceux sur les Fonctions partielles, et (P$) et (F$) les énoncés qui vous en donnent plus pour votre argent.) J'espère que j'ai écrit ces énoncés de façon à ce qu'il n'y ait pas le moindre doute sur leur signification formelle. L'objet dont chacun de ces énoncés affirme l'existence peut être qualifié de plus petit point fixe de Ψ.

Commentaires : Le sens intuitif de ces résultats est quelque chose comme le suivant : on a une opération Ψ qui, pour prendre l'exemple de l'énoncé (F), prend une fonction f et l'étend en une fonction peut-être définie sur un peu plus de points, et par ailleurs, Ψ possède une propriété de cohérence, à savoir que si on étend f, on étend aussi le résultat de l'opération Ψ(f) ; alors il existe une « clôture du vide » pour l'opération Ψ, c'est-à-dire qu'en partant de rien, l'opération Ψ vous permet d'arriver à une certaine fonction f à partir de laquelle l'opération Ψ ne la fait plus grandir. Pour donner un exemple d'application de (P$), considérer l'ensemble X=ℕ des entiers naturels, et l'opération Ψ qui à un ensemble A de naturels associe l'ensemble formé des entiers 2, 3 et tous les produits de deux éléments de A : le plus petit point fixe sera alors l'ensemble de tous les entiers qu'on peut fabriquer en multipliant 2 et 3 autant qu'on veut ensemble (à savoir l'ensemble des 2i·3j avec au moins un de i et j non-nul, mais peu importe) ; plus généralement, (P) ou (P$) peut servir à montrer l'existence de toutes sortes de « clôtures » sous des opérations variées. Généralement parlant, le concept de plus petit point fixe (ou de point fixe en général) apparaît très souvent en mathématiques, et il existe tout un labyrinthe — mais je crois vraiment que les énoncés que j'ai cités ci-dessus sont parmi les plus naturels.

↑Entry #2355 [older| permalink|newer] / ↑Entrée #2355 [précédente| permalien|suivante] ↑

↓Entry #2353 [older| permalink|newer] / ↓Entrée #2353 [précédente| permalien|suivante] ↓

(samedi)

Petites notes sur la calculabilité, et quelques remarques à ce sujet

Je donnais jeudi matin une très courte[#] introduction à la calculabilité, dans le cadre d'un cours intitulé Théorie des Langages (donc un sujet plutôt connexe que contenant) dont j'enseigne à un groupe ; des circonstances anecdotiques (des feutres manquants[#2] au début de la séance, les élèves qui filent pour aller à un partiel à la fin) ont fait que je n'ai pas pu la finir correctement. J'ai donc envoyé des notes écrites[#3] aux élèves, auxquelles je n'ai pas résisté à la tentation d'ajouter quelques compléments en petits caractères. Comme ces notes (qui sont très basiques et passablement informelles même par rapport à ce que j'ai pu raconter sur le sujet sur ce blog) peuvent peut-être intéresser d'autres gens, je les mets en ligne ici. L'approche choisie consiste à ne pas chercher à définir formellement ce qu'est un algorithme (que ce soit par une machine de Turing ou autrement), vu que de toute façon on ne demandera à personne de programmer une machine de Turing, et pédagogiquement il semble que si on formalise un modèle de calcul, cela paralyse les étudiants au point qu'ils ne comprennent plus la notion d'algorithme alors qu'en entrant ils savaient.

[#] Et je trouve véritablement triste que dans une grande école dont l'informatique est une des spécialités, le seul contact que tous les élèves auront avec des notions aussi fondamentales que le problème de l'arrêt ou la notion de problèmes décidable et semi-décidable, c'est une séance d'une heure et demie dans le cadre d'un cours plutôt consacré à autre chose (et sur laquelle il est donc difficile de les interroger à l'examen).

[#2] Obtenir des feutres qui marchent au début de chaque cours peut être une véritable quête du graal.

[#3] Ils ont aussi un poly de cours (il n'a pas l'air d'être disponible publiquement), mais j'ai suivi une présentation différente dans mon exposé, suivant le principe qu'on comprend parfois mieux quand les choses sont expliquées deux fois de façon différente, et du coup j'ai repris mes notations dans ces notes.

Mais même en racontant des choses très basiques, on peut apprendre des choses ou s'éclaircir les idées. Notamment sur deux points, tous deux plus ou moins liés à l'énumération φ0,φ1,φ2,… des fonctions calculables partielles ℕ⇢ℕ. Il faut comprendre qu'on numéroté les programmes, par exemple par taille puis par ordre lexicographique, et que φe(n1,…,nk) est le résultat de l'exécution du e-ième programme auquel on fournit les arguments n1,…,nk, la valeur étant indéfinie si le programme ne (s'exécute pas correctement ou) ne termine pas. Un point important est qu'il existe un programme universel, c'est-à-dire que la fonction (e,n) ↦ φe(n) est elle-même calculable (informatiquement, cela signifie qu'on peut écrire un « interpréteur », qui prend un programme e et un paramètre n et exécute le programme sur cette entrée ; philosophiquement, cela signifie que le fait d'exécuter un algorithme est lui-même algorithmique). Les deux points qui m'avaient un peu échappés sont les suivants :

✱ Le premier point concerne le théorème s-m-n de Kleene. Si h(m,n)=φe(m,n) est une fonction calculable des deux variables m,n, alors pour chaque valeur de m elle est calculable dans la variable n : ça c'est plus ou moins une évidence ; mais ce qui l'est moins, c'est qu'on peut algorithmiquement fabriquer un indice s(e,m) pour cette fonction, au sens où φs(e,m)(n) = φe(m,n) avec s une fonction calculable — c'est ça que dit le théorème s-m-n. Informatiquement, cela signifie qu'il y a une transformation algorithmique (le s en question) qui prend un programme e prenant deux arguments m et n (ou en fait, deux jeux d'arguments), et une valeur à donner au premier, et qui renvoie un nouveau programme s(e,m) où ces arguments ont été fixés à cette valeur. Dans toute formalisme de calcul précis (que ce soit les machines de Turing, ou un langage de programmation réel), c'est plus ou moins évident — dans un langage de programmation fonctionnel, par exemple, cela signifie curryfier la fonction et appliquer à une constante — et la fonction s sera mieux que calculable (elle sera primitive récursive, et certainement beaucoup mieux que ça, parce que ce n'est pas un problème algorithmiquement difficile de substituer une valeur dans un programme !). Mais comme je n'introduisais pas de modèle de calcul précis, je me suis demandé si ça pouvait se démontrer in abstracto, à partir de la simple existence de l'énumération des fonctions calculables partielles et l'existence d'un programme universel.

La réponse est non, il existe des numérotations des fonctions calculables partielles qui vérifient le théorème d'universalité mais pas le théorème s-m-n. Un contre-exemple est fourni en définissant à partir d'une numérotation standard φe une nouvelle numérotation ψv+1,e(0)=v (et ψv,e(0) non définie), et sinon, ψv,e(n)=φe(n) (dans tout ça, ‹x,y› désigne un codage quelconque des couples d'entiers naturels par des entiers naturels) : autrement dit, dans la numérotation ψ, on précise séparément la valeur en 0 de la fonction (y compris « non définie ») et ses autres valeurs via une numérotation standard. Sur cet exemple, toute fonction calculable partielle apparaît bien dans les ψ, mais on ne peut pas calculer, à partir de d'un indice e d'une fonction calculable partielle h parmi les ψ, un tel indice pour la fonction constante de valeur h(1), car il faudrait pour cela déterminer si h(1) est défini (i.e., termine), donc résoudre le problème de l'arrêt. Donc on ne peut pas faire de substitution dans les ψ de façon algorithmique.

Pour raconter ce contre-exemple dans des termes informatiques, imaginons un langage de programmation permettant de coder des fonctions ℕ⇢ℕ (ou ℕk⇢ℕ, enfin peu importe) et qui est un langage tout à fait banal à une particularité près : la valeur en 0 de la fonction (qu'il s'agisse d'un entier ou du fait de partir en boucle infinie) doit être précisée par une instruction spéciale au début du programme, la seule instruction qui sera lue pour calculer cette valeur en 0, les autres valeurs étant calculées par un programme « normal » (par ailleurs, cette bizarrerie ne s'applique qu'à la fonction main, si j'ose dire, du programme). Interpréter ce langage, ou le compiler vers un autre, ne pose pas de problème particulier, et ce langage permet de représenter toutes les fonctions calculables partielles, ou d'ailleurs d'écrire un interpréteur pour un langage standard (une machine de Turing, disons) ou quelque chose comme ça. Mais il ne vérifie pas le théorème s-m-n, et ceci cause des bizarreries : on ne peut pas, par exemple, compiler un programme vers ce langage sauf à calculer à la compilation la valeur de la fonction en 0, ce qui risque de provoquer une boucle infinie ; et on ne peut pas algorithmiquement remplacer un programme dans ce langage par le programme qui calcule la (fonction constante égale à la) valeur en 1 de cette fonction. Ceci suggère que le terme Turing-complet est défini de façon un peu trop vague : à mon avis, ce qui importe est que l'énumération des fonctions partielles calculées par le langage considéré soit non seulement l'ensemble de toutes les fonctions calculables partielles, mais aussi que la numérotation soit acceptable au sens où on peut de façon calculable convertir une machine de Turing en le langage en question, et on peut montrer que cela revient exactement à vérifier le théorème s-m-n (avec une fonction s calculable).

(Référence pour tout ça : Soare, Recursively Enumerable Sets and Degrees, 1987, chapitre I, exercices 5.9 à 5.11. C'est de là que je tire le contre-exemple au théorème s-m-n.)

✱ Le second point concerne la fonction « castor affairé », qui à n associe le plus long temps d'exécution possible d'une machine de Turing à ≤n états et qui termine effectivement (en partant d'un ruban vide). Il est facile de voir que fonction, appelons-la h, dépasse infiniment souvent n'importe quelle fonction calculable [totale] f, au sens où, quelle que soit f calculable, il existe une infinité de n tels que h(n)≥f(n). (En effet si ce n'est pas le cas pour une certaine fonction f, quitte à modifier un nombre fini de valeurs de celle-ci, on a h(n)≤f(n) pour tout n, et on peut alors résoudre le problème de l'arrêt pour une machine de Turing — partant d'un ruban vide — en attendant f(n) étapes où n est son nombre d'états : si la machine ne s'est pas arrêtée au bout de ce temps-là, elle ne s'arrêtera jamais.) Mais le résultat classique dû à Tibor Radó est plus fort : la fonction h du « castor affairé » finit par dominer n'importe quelle fonction calculable f, au sens où, quelle que soit f calculable, l'inégalité h(n)≥f(n) est toujours vraie à partir d'un certain point, et je n'avais pas vraiment fait attention au fait que ce n'est pas trivial de passer de l'un à l'autre.

La démonstration d'origine de ce résultat (trouvable ici) est d'une part assez peu lisible (j'arrive à la suivre pas à pas, mais l'idée générale m'échappait) et d'autre part très spécifique au cas de la fonction « castor affairé » sur les machines de Turing en comptant leurs états. Par exemple, si on définit la fonction h en appelant h(n) la plus grande des valeurs φe(0) (ou φe(e), peu importe) qui soient définies pour 0≤en (l'argument montrant qu'elle dépasse infiniment souvent toute fonction calculable marche essentiellement pareil), alors est-il encore vrai que h finit par dominer n'importe quelle fonction calculable ? La réponse est oui, comme il résulte d'un échange sur math.stackexchange (je n'ai pas osé aller sur MathOverflow pour cette question), où on a pu m'expliquer beaucoup plus clairement l'argument de Radó, ce qui m'a permis de le généraliser facilement.

(J'en ai profité pour apprendre ce qu'est un degré de Turing hyperimmune, à savoir qu'il calcule une fonction qui dépasse infiniment souvent n'importe quelle fonction calculable, ce qui n'implique pas automatiquement qu'il calcule une fonction qui finit par dominer n'importe quelle fonction calculable.)

✱ Sinon, de fil en aiguille, je suis tombé par accident sur la relation suivante : pour A et B deux ensembles d'entiers naturels, notons AB lorsqu'il existe deux fonctions calculables partielles ℕ⇢ℕ qui se restreignent en des bijections réciproques entre ces deux ensembles. C'est une notion qui me semble extrêmement naturelle, mais qui n'est pas ce qu'on appelle de façon standard un isomorphisme calculable entre les deux ensembles. Mais ce qui me frappe, c'est que je n'ai réussi à en trouver aucune mention dans la littérature. [Mise à jour : il s'agit de la relation d'équivalence calculable (ou équivalence récursive), dont les types ont été, en fait, largement étudiés, notamment ceux qui s'appellent les isols ; voir pour commencer le livre de Dekker et Myhill de 1960, Recursive Equivalence Types, ainsi que le survey par Dekker et Ellentuck, Myhill's work in recursion theory, Ann. Pure Appl. Logic 56 (1992), 43–71, et les références qu'il contient.]

↑Entry #2353 [older| permalink|newer] / ↑Entrée #2353 [précédente| permalien|suivante] ↑

↓Entry #2349 [older| permalink|newer] / ↓Entrée #2349 [précédente| permalien|suivante] ↓

(mercredi)

Quelques clarifications sur l'intuitionnisme et l'ultrafinitisme

En relisant l'entrée précédente que j'ai écrite et un ou deux commentaires qui ont été postés dessus, j'ai peur d'avoir pu laisser imaginer que je considérais les mathématiques intuitionnistes/constructives comme aussi farfelues que l'existence d'un entier strictement compris entre 3 et 4, ou même, qu'un nombre non-négligeable de mathématiciens pourraient le considérer. Ce n'est certainement pas le cas : la seule chose que je compare, c'est la frustration que peut ressentir (superficiellement) un mathématicien classique devant ces mondes étranges (comment ça, il n'est pas toujours vrai que tout nombre réel x vérifie x≥0 ou x≤0 ???). Mais il vaut la peine de se demander pourquoi, au juste, parmi les trois « abandons » suivants,

  • abandonner l'idée que toute affirmation soit vraie ou fausse (le principe du tiers exclu),
  • abandonner l'idée qu'un nombre comme 10↑(10↑100) ait un sens,
  • abandonner l'idée que 4 soit le plus petit entier après 3,

la première donne indiscutablement lieu à des mathématiques sérieuses, la seconde peut-être mais peut-être pas, et la troisième certainement pas.

Ce que veut avant tout le mathématicien, c'est que les règles du jeu soient claires. Même si on ne prend pas la position formaliste extrême qui considère les maths comme un jeu typographique formel consistant à manipuler des successions de symboles dénués de sens selon des règles arbitraires mais relativement simples[#], les mathématiciens seront sans doute unanimes pour dire qu'il est essentiel dans la pratique des mathématiques qu'il existe des règles objectives et inambiguës sur les manipulations autorisées dans l'écriture d'une démonstration, suffisamment claires pour qu'on puisse toujours, avec assez de patience, trancher un différend sur la validité d'une démonstration en détaillant n'importe quel passage incriminé jusqu'à l'application mécanique de ces règles.

Or les mathématiques intuitionnistes/constructives ont des règles claires : ce ne sont pas les mêmes que les mathématiques classiques (plus exactement ce sont un sous-ensemble, ou une restriction, selon la présentation exacte choisie ; mais du coup, on peut ajouter des axiomes supplémentaires pour compenser qui contrediraient les mathématiques classiques), mais au moins — dans leur formulation moderne[#2] — ce sont des règles indiscutablement bien formulées et objectives. Plus exactement, le mathématicien classique peut comprendre les règles des mathématiques intuitionnistes/constructives par plusieurs mécanismes :

  • syntaxiquement : même si les démonstrations intuitionnistes ne sont pas les mêmes que les démonstrations classiques, l'objet « démonstration » (obéissant aux règles intuitionnistes) peut lui-même être considéré comme un objet des mathématiques classiques (que ce soit comme un entier par un codage de Gödel ou comme une flèche dans une catégorie, ou autre chose du genre), étudié et analysé par elles ;
  • sémantiquement : le(s) monde(s) des mathématiques intuitionnistes peuvent se « plonger » dans le monde des mathématiques classiques, c'est-à-dire que toute affirmation des mathématiques intuitionnistes peut se décoder comme une affirmation classique portant sur des objets particuliers (vivant dans un « modèle de Kripke », un topos, une structure de réalisabilité, un univers à valeurs dans une algèbre de Heyting ou quelque chose comme ça).

(Ces deux approches sont elles-mêmes reliées par des théorèmes de validité et de complétude : je ne rentre pas dans les détails.) On peut par ailleurs relier la logique intuitionniste à d'autres logiques alternatives mais classiques et bien comprises (par des procédés comme ci-dessus), par exemple la logique modale S4.

[Ajout ] Je peux au moins donner une idée de ce dont je parle sous la forme suivante. En mathématiques classiques, si on décide d'interpréter les connecteurs logiques PQ, PQ et ¬P comme décrivant l'intersection, la réunion, et le complémentaire de parties P et Q d'un ensemble T fixé, alors certainement on a ¬¬P=P (le complémentaire du complémentaire d'une partie est la partie elle-même, justement parce qu'on travaille en logique classique) et ¬(PQ)=(¬P)∨(¬Q) ; maintenant, changeons un peu le contexte, et considérons T un espace topologique, imaginons que P et Q sont des ouverts de T, que PQ et PQ désignent l'intersection et la réunion de deux ouverts, mais maintenant ¬P désigne l'intérieur du complémentaire de P (=le plus grand ouvert disjoint de P ; et plus généralement, on peut noter PQ pour l'intérieur de la réunion de Q avec le complémentaire de P, c'est-à-dire l'ouvert des points au voisinage desquels P est inclus dans Q) : alors ¬¬P ne coïncide plus forcément avec P, c'est le « régularisé » de P (=l'intérieur de son adhérence), et de même ¬(PQ) ne coïncide plus forcément avec (¬P)∨(¬Q) (alors que ¬(PQ), lui, coïncide toujours avec (¬P)∧(¬Q)) ; en fait, les règles valables en général dans cette interprétation sont précisément celles du calcul propositionnel intuitionniste, et sont une manière dont le mathématicien classique peut les comprendre (sémantiquement) : comme des affirmations sur les ouverts d'un espace topologique (classique).

D'autre part, les mêmes choses sont valables dans l'autre sens, c'est-à-dire que si on peut « expliquer » les mathématiques intuitionnistes aux mathématiciens classiques comme ci-dessus, on peut aussi « expliquer » les mathématiques classiques aux mathématiciens intuitionnistes (par exemple par l'insertion de doubles négations à des endroits stratégiques). Du coup, les mathématiciens classiques et intuitionnistes ne seront peut-être pas d'accord sur l'intérêt ou la signification des énoncés qu'ils démontrent, mais au moins chacun peut-il expliquer son travail aux autres. (Dans la pratique, bien entendu, les « mathématiciens classiques » et à plus forte raison les « mathématiciens intuitionnistes » ne sont que des archétypes idéalisés : tout le monde est capable de faire sa traduction mentale dans un sens ou dans l'autre, quelle que soit sa représentation préférée de l'Univers.)

Pour dire les choses de façon plus concise : les mathématiques classiques et intuitionnistes sont peut-être différentes, mais leur métamathématique est compatible.

Il en va tout autrement de l'idée qu'il existerait un entier strictement entre 3 et 4 : cette idée fictionnelle est présentée sans être accompagnée de règles permettant de travailler avec et de lui donner un sens. Il n'est pas exclu que de telles règles puissent exister (par exemple : en fait, ce qu'on appelle entier ici est un élément de ℕ[√13] = {u+v·√13 : u,v∈ℕ} (approche sémantique), et il faudrait remplacer les axiomes de Peano par une axiomatisation des faits les plus évidents de la théorie du premier ordre de ℕ[√13] (approche syntaxique)), et qui du coup ferait disparaître le mystère de cette idée (à défaut de lui donner un intérêt…). Mais telle quelle, l'idée est dépourvue de sens aux yeux des mathématiciens parce qu'elle est dépourvue de règles précises.

L'idée intermédiaire (l'ultrafinitisme, j'en ai déjà parlé) occupe une position intermédiaire : on peut peut-être donner un sens à l'ultrafinitisme, mais l'idée est radicale en ce sens qu'elle nécessite de changer non seulement les mathématiques mais aussi les métamathématiques. Notamment, pour refuser l'existence du nombre 10↑(10↑100), il faut refuser l'idée qu'une démonstration puisse occuper un tel nombre de symboles — or les métamathématiques classiques l'admettent (certes, on ne va pas l'écrire explicitement, mais les métamathématiques classiques admettent de considérer comme démonstrations valables des objets qui ne pourraient pas être écrits en pratique, au moins si on en a une description raisonnablement (méta)manipulable) ; pire, il faut probablement refuser l'idée qu'une démonstration puisse occuper seulement 10↑100 symboles (parce qu'en environ ce nombre là de symboles, je peux démontrer l'existence de 10↑(10↑100) à quelqu'un qui admet que la multiplication sur les entiers est totale, ce que de nombreux ultrafinitistes admettent, ce qui permet d'écrire des choses comme 10×10×10×⋯×10), et il faut donc probablement refuser l'idée même d'utiliser « librement » l'arithmétique pour faire des métamathématiques. Je ne suis moi-même pas à l'aise avec l'ultrafinitisme (j'ai vraiment du mal à ne pas considérer la position comme simplement ridicule), mais voici ce qu'écrivent Cherubin & Mannucci dans A very short history of ultrafinitism (in : Kennedy & Kossak (eds.), Set Theory, Arithmetic, and Foundations of Mathematics (Cambridge 2011)) :

First, the rejection of infinitary methods, even the ones based on the so-called potential infinite, must be applied at all levels, including that of the meta-mathematics and that of the logical rules. Both syntax and semantics must fit the ultrafinitistic paradigm. Approaches such as Finite Model Theory are simply not radical enough for the task at hand, as they are still grounded in a semantics and syntax that are saturated with infinite concepts.

Second, barring one term in the dichotomy finite-infinite, is, paradoxically, an admission of guilt: the denier implicitly agrees that the dichotomy itself is valid. But is it? Perhaps what is here black and white should be replaced with various shades of grey.

Bref, même si le programme ultrafinitiste peut sembler à quelqu'un comme moi aussi fantaisiste que l'idée qu'il y aurait peut-être un entier à découvrir strictement entre 3 et 4, il faut avoir la modestie d'admettre que peut-être des règles du jeu précises peuvent en être données, fussent-elles des règles qui imposent de réévaluer aussi les métamathématiques : peut-être le programme peut-il être éclairci comme l'intuitionnisme l'a été, et peut-être sera-t-il possible aux mathématiciens « idéalistes » de comprendre précisément les ultrafinitistes (à défaut d'être d'accord avec eux).

[#] Je ne vais pas faire l'exercice ici et maintenant, mais il est parfaitement possible de présenter un ensemble des « règles du jeu » qui soit compréhensible par à peu près n'importe qui (disons, pas plus compliqué que les règles des échecs ou du tarot) et qui, appliquées mécaniquement, permette de démontrer tous les théorèmes des mathématiques « standard » (ZFC) et uniquement ceux-ci. En ce sens, donc, n'importe qui peut faire des maths formelles : la difficulté du travail du mathématicien est de se faire une idée d'où on va dans ce jeu et comment on peut atteindre un but, et communiquer à d'autres le fait qu'on l'a atteint, sans écrire toutes les étapes intermédiaires.

[#2] Dans leur formulation moderne, c'est-à-dire, je crois, depuis les travaux de Gödel, Heyting, Kolmogorov et d'autres. Lorsque Brouwer a initialement introduit ses idées, il n'était probablement pas clair qu'elles pouvaient être rigoureusement formalisées, d'autant qu'il était lui-même profondément hostile à l'idée de formaliser les mathématiques, de les priver de leur aspect créatif/intuitif ou de les réduire à un jeu typographique ; et c'est peut-être pour ça que ces idées ont d'abord suscité une telle hostilité (non seulement elles étaient radicales, mais en outre elles n'étaient sans doute pas bien définies aux yeux de mathématiciens comme Hilbert).

↑Entry #2349 [older| permalink|newer] / ↑Entrée #2349 [précédente| permalien|suivante] ↑

↓Entry #2347 [older| permalink|newer] / ↓Entrée #2347 [précédente| permalien|suivante] ↓

(lundi)

Comment utiliser les points comme parenthèses ?

Dans une expression mathématique comme

(2+2+2)×(3+4)

les parenthèses servent à indiquer quelles sous-expressions doivent être calculées en premier (la convention, en leur absence, étant qu'on évalue les multiplications avant les additions, si bien que 2+2+2×3+4 sans parenthèses se comprend comme 2+2+(2×3)+4). Mais il existe d'autres manières possibles d'indiquer l'ordre des opérations sans utiliser de parenthèses — ou en tout cas pas sous cette forme. Une possibilité consisterait à utiliser la notation préfixe (où le symbole d'une opération binaire précède les deux quantités sur lesquelles elles s'applique, ce qui donne dans ce cas : × + + 2 2 2 + 3 4) ou bien postfixe (où l'opération binaire suit les deux quantités sur lesquelles elle s'applique, donc 2 2 + 2 + 3 4 + × comme on le taperait sur une calculatrice à notation polonaise inversée), mais ces conventions sont extrêmement peu lisibles pour un humain.

Une autre façon de noter les choses, qui me semble assez intéressante ou en tout cas instructive, même si elle n'a jamais vraiment été utilisée en-dehors de la logique, consiste à utiliser les points comme parenthèses, que je veux présenter et discuter un peu. Sur mon exemple, cette notation donnerait :

2+2+2.×.3+4

avec des points autour du symbole de multiplication pour marquer qu'il doit être effectué après les additions. (On va supposer que le point n'est pas utilisé comme séparateur décimal, ou qu'il y a quelque magie typographique qui évite l'ambiguïté : ni ici ni ailleurs dans cette entrée il n'y a de nombres fractionnaires.)

La manière dont on lit une telle expression est la suivante : on commence par la séparer aux endroits où se trouve des points, on évalue tous les morceaux qui ont un sens en tant qu'expression (en l'occurrence, 2+2+2 et 3+4), puis on réattache les morceaux remplacés par leur valeur (ce qui donne 6×7).

Lorsqu'il y a plusieurs niveaux d'imbrications, on utilise des groupes formés d'un nombre de points croissant pour séparer les niveaux : la règle est alors qu'on commence par regrouper les morceaux séparés par un seul point, puis par un groupe de deux, puis de trois, et ainsi de suite. (Ainsi, un groupe d'un plus grand nombre de points correspond à un niveau de parenthésage plus « extérieur ».) Par exemple,

(14/(1+1))×(6+7)×(30−(6+5))

peut se réécrire dans la notation « ponctuée » comme

14/.1+1:×.6+7.×:30−.6+5

et pour l'évaluer, on commence par calculer les morceaux séparés par des points qui ont un sens tout seuls (1+1, 6+7 et 6+5), puis on regroupe les morceaux séparés par de simples points (14/.1+1 soit 14/2, et 30−.6+5 soit 30−11), et enfin on regroupe les morceaux séparés par deux points. Pour plus de symétrie quant au niveau d'opération × dans le facteur central, on peut préférer écrire

14/.1+1:×:6+7:×:30−.6+5

ce qui est peut-être plus lisible, surtout si on reflète le nombre de points dans l'espacement de la formule :

14/.1+1 :×: 6+7 :×: 30−.6+5

On peut bien sûr utiliser des symboles pour les groupes de deux, trois, quatre points et ainsi de suite : si je récupère des symboles Unicode pas vraiment fait pour, l'expression 6−(5−(4−(3−(2−1)))) peut se ponctuer en 6−∷5−∴4−:3−.2−1, mais généralement on se contente de mettre plusieurs caractères ‘.’ ou ‘:’ d'affilée pour représenter un groupe, comme 6−::5−:.4−:3−.2−1 (il faut traiter ces deux écritures comme parfaitement synonymes).

Les points servent donc à la fois de parenthèses ouvrantes et fermantes : il n'y a en fait pas d'ambiguïté car la directionalité est indiquée par la position par rapport aux symboles d'opérations (si je vois 20−.1+1, cela ne peut signifier que 20−(1+1) car (20−)1+1 n'a pas de sens) ; plus exactement, chaque groupe de points doit être adjacent à un symbole d'opération (sauf si on omet la multiplication, cf. ci-dessous), et correspond à une parenthèse soit ouvrante soit fermante selon qu'il est immédiatement après ou avant l'opération. Et la parenthèse court jusqu'au prochain groupe de points (vers la droite ou vers la gauche, selon le cas évoqué) dont le nombre de points est supérieur ou égal à celui considéré, ou à l'extrémité de l'expression (où se sous-entend un nombre infini de points, si on veut ; ainsi, sur mon premier exemple, on écrit 2+2+2.×.3+4 et non .2+2+2.×.3+4.).

Pour ceux qui veulent des règles plus formelles, je propose les suivantes. En écriture, si on a un arbre d'analyse formé d'opérations possiblement associatives, disons x1x2⋆…⋆xk (pour une certaine opération ici notée ⋆, et avec k=2 si l'opération ⋆ n'est pas supposée avoir d'association par défaut), pour la transformer en « expression ponctuée », on écrit de façon récursive chacun des sous-arbres x1,x2,…,xk comme expression ponctuée, et on concatène ces écritures en plaçant à gauche de chaque symbole ⋆ un groupe de points dont le nombre est strictement supérieur au nombre de points de n'importe quel groupe apparaissant dans l'écriture de la sous-expression gauche (si celle-ci est un atome = une feuille de l'arbre, c'est-à-dire un nombre ou une variable, on peut ne mettre aucun point) ; et de même à droite. Il est admissible de mettre plus de points que nécessaire, par exemple si on veut mettre le même nombre à gauche et à droite de chaque ⋆ intervenant à un niveau donné. On peut, bien sûr, avoir des règles supplémentaires lorsqu'on suppose une certaine priorité des opérations (par exemple, (3×2)+1 peut être noté 3×2+1 si on admet que la multiplication est prioritaire sur l'addition ; toutefois, ceci ne s'applique essentiellement qu'au niveau le plus bas : (3×(1+1))+1 devra certainement être noté 3×.1+1:+1, parce qu'on ne gagnerait rien que de la confusion à le noter 3×.1+1.+1). • Inversement, pour décoder une telle expression, on va, pour n allant de 0 au nombre maximum de points dans un groupe, remplacer chaque expression maximale de la forme x1x2⋆…⋆xk avec les xi des sous-arbres déjà constitués (ou des atomes), en ignorant les groupes de ≤n points pouvant intervenir à gauche ou à droite de l'opération ⋆, par un sous-arbre (ou un bloc parenthésé, si on préfère).

Ce système de notations ne recouvre pas tous les cas possibles d'usage des parenthèses. Disons qu'il nécessite plus ou moins qu'il y ait des symboles d'opérations dans l'histoire : si on a affaire à un contexte mathématique dans lequel on donne un sens différent aux notations u(v) et (u)v (ce qui, honnêtement, ressemble à une très mauvaise idée), ou à u et (u) (même remarque), alors on ne peut pas utiliser des points à la place des parenthèses.

Néanmoins, il marche dans des situations un peu plus générales que ce que j'ai présenté ci-dessus. Par exemple, il continue de fonctionner même si on décide de ne pas écrire le symbole × de multiplication : notamment, si dans la version parenthésée, au lieu de (14/(1+1))×(6+7)×(30−(6+5)) je décide d'écrire (14/(1+1))(6+7)(30−(6+5)), alors de même dans la version ponctuée, au lieu de 14/.1+1:×.6+7.×:30−.6+5 j'écris 14/.1+1:6+7:30−.6+5 et il n'y a pas d'ambiguïté dans le fait que quand un groupe de points apparaît directement entre deux atomes (nombres ou variables), il représente une multiplication (et comme 6.7 représente 6×7, de même 2+2+2.3+4 représente (2+2+2)×(3+4) ; tandis que 2+2+(2×3)+4 s'écrira 2+2+:2.3:+4 ou même, un peu audacieusement, 2.+.2.+.2.3.+.4 si on décide que la multiplication est prioritaire sur l'addition). Ceci fonctionne encore même si on suppose que la multiplication omise n'est pas associative : on distingue bien u(vw) de (uv)w comme u.vw et uv.w respectivement.

Par rapport aux règles formelles que j'ai proposées ci-dessus, l'omission du symbole de multiplication se traite ainsi lors de l'écriture : (a) on écrit toujours au moins un point pour la multiplication quand elle est entre deux chiffres, et (b) au lieu de mettre un groupe de points à gauche et à droite du symbole ⋆ (qui doit être omis), on en met un seul, avec un nombre de points commun, supérieur à celui de tout groupe intervenant dans n'importe quelle sous-expression parmi les x1,x2,…,xk (avec cette règle, 2(x+y)(t⋆(u+v)) s'écrit 2:x+y:t⋆.u+v plutôt que 2.x+y:t⋆.u+v si on veut vraiment placer les trois facteurs 2, x+y et t⋆(u+v) au même niveau).

Il n'y a pas non plus de problème avec les opérations unaires, qu'elles soient écrites de façon préfixe ou postfixe. Il y a, cependant, un problème si on a une opération qui peut être aussi bien unaire que binaire et que le symbole de multiplication est omis : c'est le cas avec le signe moins si on veut pouvoir écrire (2/3)(−3) (qui vaudrait −2 par multiplication implicite) et le distinguer de (2/3)−3 (qui vaut −7/3), les deux étant a priori ponctués comme 2/3.−3 ; on peut résoudre ce problème de différentes façons, par exemple en imposant que pour les opérations binaires qui peuvent aussi être unaires, le nombre de points à gauche et à droite soit égal quand elles fonctionnent comme opérations binaires (donc (2/3)−3 se ponctuerait comme 2/3.−.3, qui se lit sans ambiguïté), et/ou que le signe de multiplication ne peut pas être omis devant une opération unaire (donc (2/3)(−3) devrait s'écrire 2/3.×.−3).

Il me semble par ailleurs qu'il n'y a pas de problème particulier avec une opération ternaire (par exemple si je décide que t?u!v signifie si t=0 alors v et sinon u — je change légèrement la notation du C parce que les deux points sont pris par le sujet de cette entrée — alors il n'y a pas de problème à écrire de façon ponctuée des expressions contenant cette expression imbriquée en elle-même de façon arbitraire). Ceci étant, je n'ai pas forcément pensé à toutes les bizarreries des notations mathématiques, peut-être qu'il y a des cas où le système de points ne fonctionnera pas alors que les parenthèses fonctionnent (outre ceux que j'ai déjà mentionnés).

Il faut que j'en profite pour signaler qu'il y a toutes sortes de petites variations possibles dans le système, j'en ai déjà implicitement signalé quelques unes. Je mentionne notamment la suivante, qui est plus économique dans le nombre de points utilisés, au détriment de la lisibilité de l'ensemble, et qui me semble plutôt une mauvaise idée. Plus haut j'ai signalé que 6−(5−(4−(3−(2−1)))) s'écrit 6−::5−:.4−:3−.2−1 (et c'est ce qui résulte des règles formelles que j'ai proposées), mais on peut aussi imaginer l'écrire simplement come 6−.5−.4−.3−.2−1 ce qui est après tout inambigu vu que chaque ‘.’ suivant immédiatement un symbole d'opération doit représenter une parenthèse ouvrante. (La modification des règles formelles que j'ai proposées doit être quelque chose comme ceci. En écriture, on place à gauche de chaque symbole ⋆ un groupe de points dont le nombre est immédiatement strictement supérieur au plus grand nombre de points de n'importe quel groupe qui apparaît, dans l'écriture de la sous-expression gauche, immédiatement à droite d'un symbole d'opération — ou comme symbole de multiplication omis — en ignorant donc les groupes de points qui apparaissent immédiatement à gauche d'un symbole d'opération ; et symétriquement pour la droite. Et en lecture, pour chaque niveau n de points, on doit grosso modo répéter tant que possible la recherche d'une expression x1x2⋆…⋆xk avec les xi des sous-arbres déjà constitués, la remplacer par un sous-arbre, et retirer les éventuels groupes de n points — mais pas plus — qui seraient adjacents à l'expression.)

Comme je l'ai dit plus haut, je crois que les points comme parenthèses n'ont été véritablement employés que dans des textes de logique (et uniquement entre les connecteurs logiques, pas dans les expressions arithmétiques comme sur les exemples que j'ai pris), même s'il n'y a pas de raison de la lier à ce contexte précis. Je ne sais pas exactement qui a inventé cette notation : peut-être Peano dans ses Arithmetices principia: nova methodo ; mais je sais surtout qu'elle est utilisée dans les Principia Mathematica de Russell et Whitehead dont elle contribue à la réputation d'illisibilité même si je crois que c'est loin d'être ce qui les rend le plus difficile (on pourra jeter un coup d'œil à la page des Principia que j'ai déjà évoquée sur ce blog, et utiliser cette page pour quelques indications sur comment décoder tout ça). J'ai d'ailleurs l'impression que les philosophes qui s'intéressent à la logique mathématique ont, plus que les logiciens vraiment matheux, tendance à utiliser des notations vieillotes (il y a peut-être une raison sociologique à creuser), et en particulier ces points-comme-parenthèses. Il y a aussi l'épouvantable symbole ‘⊃’ utilisé à la place de ‘⇒’ pour l'implication, que la grande majorité des matheux ont abandonné il y a belle lurette, et que des philosophes s'obstinent, Apollon sait pourquoi, à utiliser.

Mais l'autre question à se poser, bien sûr, c'est : ce système de notation avec des points à la place des parenthèses a-t-il des avantages ? Je sais qu'a priori il semble plus compliqué que les parenthèses. Peut-être l'est-il intrinsèquement, mais je crois que c'est essentiellement une question d'habitude (c'est difficile d'être sûr vu que je n'en ai moi-même guère la pratique). Je vois trois principaux arguments qu'on peut avancer pour défendre le système de points : (1) il est légèrement plus compact (quand on discute une opération non associative, il est plus léger d'écrire uv.w que (uv)w, par exemple), (2) on repère plus rapidement le niveau d'imbrication des choses (qui n'a jamais peiné, dans une expression parenthésée, à retrouver où chaque parenthèse se ferme ?), et (3) il est, finalement, relativement analogue à la ponctuation d'un texte en langage naturel (où, grossièrement parlant, on regroupe d'abord les mots non séparés par une ponctuation, puis les groupes séparés par des virgules, puis ceux séparés par des points-virgules, et enfin ceux séparés par des points), rendu plus logique. Le principal inconvénient que je lui vois, c'est que si on veut remplacer, dans une expression, une valeur par une autre expression, on va possiblement devoir incrémenter le nombre de points partout dans l'expression, alors que les parenthèses assurent que tout se passe forcément bien.

Bien entendu, je ne propose pas de changer une notation mathématique bien établie (les parenthèses sont quand même pratiques, finalement), mais il peut être intéressant de se rappeler qu'il y a, ou qu'il y avait a priori, d'autres notations possibles et pas forcément idiotes. Se le rappeler peut aider à mieux comprendre l'analyse syntaxique, à la fois des expressions mathématiques et des phrases ponctuées en langage naturel (cf. mon point (3) ci-dessus) ; et cela peut aussi suggérer comment faciliter la lecture d'une expression mathématique par des enrichissements typographiques (typiquement : mettre à chaque endroit possible un espacement proportionnel au nombre de points qu'on aurait dans la notation avec les points comme parenthèses).

↑Entry #2347 [older| permalink|newer] / ↑Entrée #2347 [précédente| permalien|suivante] ↑

↓Entry #2345 [older| permalink|newer] / ↓Entrée #2345 [précédente| permalien|suivante] ↓

(mardi)

Deux remarques sur l'intuition du théorème de Gödel

C'est un théorème bien connu, et que j'ai expliqué il y a quelques années dans cette longue entrée, que ZFC (:= le système d'axiomes standard de la théorie des ensembles), s'il est consistant, ne peut pas démontrer que ZFC est consistant. C'est là le « second » théorème d'incomplétude de Gödel dans le cas particulier de ZFC. De même, PA (:= l'arithmétique de Peano du premier ordre) ne peut pas démontrer que PA est consistant. (Dans les deux cas, l'affirmation que le système est consistant signifie qu'il n'existe pas de suite finie de symboles partant des axiomes et suivant les règles de la logique pour arriver à la conclusion absurde 0=1 : et on a le droit de parler de suites finies de symboles parce qu'elles peuvent se remplacer par des entiers grâce à ce qu'on appelle le codage de Gödel. Je ne rentre pas dans les détails puisque j'ai déjà expliqué ça et qu'il y a déjà quantité de bonne vulgarisation sur le sujet.)

Du coup, on peut être tenté d'ajouter à ZFC un nouvel axiome Consis(ZFC), qui affirme ZFC est consistant, formant un nouveau système ZFC₁ ; puis, comme le théorème de Gödel s'applique aussi à lui, on peut encore ajouter un nouvel axiome Consis(ZFC₁) qui affirme que celui-là est consistant, formant un nouveau système ZFC₂ ; « et ainsi de suite ». (En réalité, il y a beaucoup de subtilités ici dans le ainsi de suite, et de toute façon ce n'est pas une bonne façon d'enrichir ZFC, ces axiomes étant à la fois beaucoup moins forts, moins maniables et moins intéressants, que les axiomes de grands cardinaux par lesquels on l'étend usuellement. S'agissant de PA, on peut aussi faire cette construction, en gardant à l'esprit que PA, PA₁, PA₂, etc., et leurs consistance, sont de toute façon des conséquences (théorèmes) de ZFC.)

Ce point est bien connu, donc, et peut-être même trop connu, à tel point qu'on fait dire à ce théorème de Gödel un peu n'importe quoi. Les deux faits suivants, en revanche, sont bien moins connus, et mériteraient pourtant de l'être autant, parce qu'ils invitent à reconsidérer la manière dont on interprète (au moins sur le plan intuitif ou philosophique) ce théorème d'incomplétude. J'ai mentionné ces faits en passant lors de l'entrée passée vers laquelle je viens de faire un lien, mais je pense que je n'ai pas assez attiré l'attention dessus, ce qui est dommage.

(Les deux points suivants sont indépendants l'un de l'autre.)

✱ Le premier fait, c'est qu'on peut tout à fait fabriquer une théorie ZFC† dont les axiomes sont ceux de ZFC plus un axiome supplémentaire qui dit ZFC† est consistant. Oui, c'est circulaire (la théorie affirme sa propre consistance), mais ce n'est pas très difficile d'arriver à formaliser ça en utilisant les astuces de points fixes habituelles. Et de même, on peut former PA† dont les axiomes sont ceux de PA (Peano) plus un axiome supplémentaire qui dit que PA† est consistant. Il s'agit d'une façon assez naturelle d'essayer de contourner le théorème d'incomplétude (au moins quand on a mal compris celui-ci), en se disant puisque je ne peux pas démontrer que mon système formel est consistant, je vais l'ajouter comme axiome (et affirmer directement que l'ensemble est consistant plutôt qu'ajouter un axiome qui dit que la théorie de départ est consistante, puis un autre qui dit que cette nouvelle théorie est encore consistante, et encore un autre qui dit que celle-ci est consistante « et ainsi de suite »).

Bref, on peut fabriquer cette théorie ZFC† ou PA†, mais le problème c'est elle est inconsistante (elle démontre 0=1). Parce que le théorème de Gödel s'applique à elle aussi, et comme il affirme que si la théorie est consistante elle ne peut pas démontrer sa consistance, et qu'elle démontre effectivement sa consistance (puisque c'est un axiome, et qu'un axiome compte bien comme une démonstration), du coup, elle n'est pas consistante.

Alors voilà, ce n'est pas bien passionnant, certes : j'ai construit une théorie et j'ai expliqué qu'elle ne marchait pas — mais je pense que c'est quand même instructif, au moins sur le plan de l'intuition. Quand on présente le théorème d'incomplétude de Gödel, que ce soit au grand public, à des mathématiciens non-spécialistes, ou à des débutants en logique, l'idée qui en résulte typiquement — et je ne prétends pas qu'elle soit fausse — est qu'un système formel consistant T (récursivement axiomatisable, et contenant un fragment suffisant de l'arithmétique) n'est jamais assez « puissant » pour démontrer sa propre consistance, mais que (a) il s'agit d'une notion un peu constructive de démonstration, et (b) la raison pour laquelle on est conduit à ajouter des axiomes qui disent T est consistant et cette théorie-là est consistance et cette théorie- est consistante, « et ainsi de suite », est qu'on ne peut jamais tout faire d'un coup. Or l'exemple de la construction que je viens de donner montre qu'il faut se méfier de cette intuition : (b) on peut tout à fait écrire une théorie qui affirme sa propre consistance, et (a) cette théorie est forcément inconsistante parce que le théorème de Gödel interdit à une théorie consistante (récursivement axiomatisable, et contenant un fragment suffisant de l'arithmétique) non seulement démontre sa propre consistance, mais même simplement qu'il l'affirme (un axiome compte bien comme une démonstration). Je vais citer la présentation de Torkel Franzén (Inexhaustibility, 2004, chap. 12) parce que je trouve qu'il est particulièrement clair :

It is often emphasized that the resources of a theory T do not themselves suffice to enable a proof of the consistency of T. Again it is only by “going outside the system” than one can prove that T is consistent.

A weakness of this emphasis is that it doesn't take into account that the relevant concept of proof is a very liberal one. The consistency of T is provable in the theory T+Consis(T). This is not because any new fundamental principle has been introduced or because the theory T+Consis(T) incorporates any new insight that goes beyond those expressed in T, but simply because the consistency of T has been postulated. We don't require any more of a proof, as the term is used in logic. Accordingly, the second incompleteness theorem makes a stronger statement than one might naturally suppose. The consistency of T not only cannot be derived from the basic principles embodied in T, it cannot even be consistently asserted in T. A theory cannot consistently postulate its own consistency. By the diagonal lemma, we can produce a formula φ formalizing This sentence is consistent with T, but since T+φ then proves its own consistency, we know that in fact it is inconsistent.

Why is it impossible for T to consistently postulate Consis(T)? Because a paradox results from such a postulate, or so Gödel's proof of the second theorem suggests. If T asserts its own consistency, it must both assert and deny the provability of the sentence formalizing This sentence is not provable in T. It's not just a matter of T lacking the resources to establish a particular truth (that T is consistent) but of it being impossible to consistently sneak in this truth as an assertion or postulate in the theory itself. Saying that one must go outside the system to prove the consistency of T conveys the suggestion that T metaphorically speaking has a kind of “blind spot”, that it cannot reflect on or understand or inspect itself sufficiently to establish its own consistency—and indeed in extrapolations from the incompleteness theorem to other fields (religion, physics, psychology) this suggestion is frequently made explicit. The fact that T cannot even consistently assert its own consistency, without attempting any inspection or justification whatever, would seem to indicate that this suggestion is a bit of a red herring.

Je trouve que cela illustre très bien la manière dont on a tendance à mal se représenter le théorème d'incomplétude comme traduisant un problème profond de « manque de force » — alors qu'il s'agit de quelque chose d'à la fois plus trivial et plus profond. (Bien sûr, tout ceci est juste une question d'interprétation intuitive : il n'y a aucune difficulté ou subtilité mathématique dans tout ce que j'ai écrit.)

Mais si ce point est un peu trivial et en quelque sorte négatif, le suivant est beaucoup plus intéressant mathématiquement, et il est plutôt positif. Par ailleurs, il concerne spécifiquement ZFC et PA (pas que ce soient les seules théories auxquelles il s'applique, mais il ne s'applique pas à « à peu près n'importe quoi » comme le point que je viens de faire).

✱ J'en viens donc au second fait que je voulais signaler. Il faut d'abord que je rappelle que ZFC et PA ont un nombre infini d'axiomes : ils comportent en effet des schémas d'axiomes (le principe de récurrence dans le cas de PA, et pour ce qui est de ZFC, les schémas de séparation (=compréhension, =sélection) et ceux de remplacement). Ces axiomes veulent affirmer certains faits pour toute propriété P (des entiers naturels dans le cas de PA, ou des ensembles dans le cas de ZFC) : comme la logique du premier ordre ne permet pas de quantifier sur les propriétés, on s'en tire en postulant tous les énoncés dans lesquels P est remplacé par n'importe quelle formule explicitement écrite dans le langage où on se place — ce qui fait donc une infinité d'axiomes.

(Digression : Il y a d'autres façons de faire, consistant plus ou moins à faire de la logique du second ordre, et qui permettent de ramener cette infinité d'axiomes à un nombre fini au prix d'une complication de la logique, et parfois un renforcement du système : ce sont par exemple la théorie des ensembles de Gödel-Bernays, essentiellement aussi forte que ZFC, ou celle, strictement plus forte, de Morse-Kelley, les deux permettant de parler de classes, ce qui revient à permettre de quantifier sur les propriétés, et, s'agissant de l'arithmétique, le système ACA qui est exactement parallèle de Gödel-Bernays et l'arithmétique du second ordre Z₂=PA² qui est exactement parallèle de Morse-Kelley. Mais je vais m'abstenir de plus parler de toutes ces théories, d'autant que ça devient vite technique quand il s'agit de distinguer la vraie logique du second ordre de la logique du second ordre « réifiée » au premier ordre au sens où on a une logique du premier ordre à deux types d'objets qui fait semblant d'être une logique du second ordre en décrétant que l'un de ces types est le type des « classes » ou « propriétés » de l'autre type, ce qui revient finalement au même sauf que la notion de modèle et toute la sémantique qui va avec est différente.)

Un point qui me semble très important, et qui est rarement suffisamment souligné dans les cours élémentaires de logique, est le suivant :

Chacun de ZFC et de PA prouve la consistance de tous ses sous-ensembles finis d'axiomes.

Autrement dit, ZFC ne prouve pas la consistance de ZFC (c'est ce par quoi j'ai commencé : le second théorème d'incomplétude), mais ZFC prouve la consistance de n'importe quel ensemble fini d'axiomes de ZFC. Et la même chose vaut pour PA. On dit que ce sont des théories réflexives. En fait, il y a mieux : n'importe quelle extension de l'une ou l'autre de ces théories, écrite dans le même langage, est elle-même réflexive (on dit que ZFC et PA sont essentiellement réflexives : dans le cas de PA, c'est un théorème de 1952 dû à Andrzej Mostowski, et dans le cas de ZFC, je crois que le résultat est dû à Richard Montague et/ou Azriel Lévy vers 1960).

Une des conséquences de ce théorème est que ni ZFC ni PA, s'ils sont consistants, ne peut pas être axiomatisé par un nombre fini d'axiomes (si un ensemble fini T₀ de théorèmes de ZFC, ou du coup, d'axiomes de ZFC, suffisait à impliquer tous les axiomes de ZFC, alors ZFC prouverait la consistance de T₀, donc T₀ prouverait la consistance de T₀, et en prenant T₀ assez fort pour faire de l'arithmétique basique — je ne rentre pas dans les détails — ceci contredit le théorème de Gödel appliqué à la théorie T₀ ; et exactement le même raisonnement vaut pour PA). Mieux : comme ZFC et PA sont essentiellement réflexifs, aucune théorie consistante contenant ZFC ou PA et écrite dans le même langage ne peut être axiomatisée par un nombre fini d'axiomes. Mais ce n'est pas vraiment de ça que je veux parler.

Le résultat ci-dessus doit surprendre, parce qu'il paraît contredire le théorème de Gödel. L'argument serait le suivant : s'il y avait une contradiction dans ZFC, la démonstration de cette contradiction n'utiliserait qu'un nombre fini d'axiomes de ZFC (si on veut, c'est le théorème de compacité syntaxique, mais c'est une trivialité : une démonstration, étant de longueur finie, ne peut faire appel qu'à un nombre fini d'axiomes !) ; mais d'après ce que j'ai dit, ZFC prouve que ceci ne peut pas se produire (tout ensemble fini d'axiomes de ZFC est consistant) — du coup, ZFC est consistant, et on semble avoir prouvé ce fait dans ZFC ! Quelle est l'arnaque ?

L'arnaque est que le théorème de réflexivité ci-dessus est un métathéorème ; plus exactement, donné un ensemble T₀ quelconque d'axiomes de ZFC, on a une recette tout à fait explicite qui fabrique une démonstration à partir des axiomes de ZFC dont la conclusion est T₀ est consistant, et c'est un théorème (de ZFC, PA ou de systèmes encore plus faibles) que cette recette marche, i.e., l'énoncé encadré ci-dessus est bien un théorème. Mais, s'il est vrai que pour tout T₀ fini ⊆ZFC, T₀ est consistant est un théorème de ZFC, et que ceci est aussi un théorème de ZFC ou PA (i.e., pour tout T₀ fini ⊆ZFC, T₀ est consistant est un théorème de ZFC), en revanche, l'affirmation pour tout T₀ fini ⊆ZFC, T₀ est consistant, elle, n'est pas un théorème de ZFC (si ce dernier est consistant), car elle implique la consistance de ZFC d'après le raisonnement que j'ai fait au paragraphe ci-dessus.

Je répète : pour tout ensemble fini T₀ d'axiomes de ZFC, on sait fabriquer une démonstration dans ZFC que cet ensemble T₀ est consistant, et on sait montrer dans ZFC (ou PA ou moins) que ce procédé marche bien, mais on ne peut pas en conclure dans ZFC que tout ensemble fini T₀ d'axiomes de ZFC est consistant. On peut résumer cette situation ainsi : il est vrai que pour tout ensemble fini T₀ d'axiomes de ZFC, ZFC démontre la consistance de T₀, mais il ne le fait pas uniformément en T₀. C'est un cas du phénomène appelé la ω-incomplétude : pour tout n on démontre P(n) selon une recette générale et explicite, mais on ne peut pas démontrer ∀n.P(n) (ici, s'imaginer que n est un codage de T₀ et P(n) est l'affirmation que ce T₀ est consistant).

Absolument tout ceci vaut en remplaçant ZFC par PA partout (i.e., pour tout sous-système fini T₀ de PA, PA démontre que T₀ est consistant, mais ne le fait pas de façon uniforme). Ce fait est, d'ailleurs, étonnamment difficile à trouver écrit dans des bouquins de logique arithmétique.

Pour autant, pour tout usage philosophique ou épistémologique, je suis tenté de dire que ce qui précède (je veux dire, le résultat encadré ci-dessus) est exactement aussi bien qu'une démonstration de la consistance de ZFC dans ZFC, resp. de PA dans PA. Je ne sais pas au juste ce qu'on espérerait accomplir à avoir une démonstration de la consistance de ZFC dans ZFC ou de celle de PA dans PA (le projet de Hilbert était plutôt d'avoir une démonstration de la consistance d'un système fort dans un système faible, donc disons quelque chose comme celle de ZFC dans PA, or ça c'est vraiment hors de question). Mais je suppose que l'idée serait quelque chose comme je suis prêt à admettre comme mathématiquement vrais et certains les résultats — au moins arithmétiques — dont j'ai une démonstration dans ZFC, et je me sentirais plus rassuré si j'étais certain qu'il n'y a pas de démonstration de résultats absurdes dans ZFC, ce qui n'est pas si idiot que ça même si c'est circulaire (admettre que ZFC est vrai — ne serait-ce qu'arithmétiquement — est beaucoup plus fort qu'admettre qu'il est consistant, donc à partir du moment où on l'admet comme vrai, l'étape épistémologique à l'admettre comme consistant devrait être gratuite). Le principe de réflexion que j'ai encadré ci-dessus rend la réticence à admettre que ZFC est consistant encore plus bizarre dans ce contexte : si je suis prêt à admettre la consistance de tous ses sous-systèmes finis, je devrais bien admettre la consistance de la théorie tout entière ; plus exactement, si on me fournit un modèle simple permettant de construire, pour tout ensemble fini T₀ d'axiomes de ZFC, une preuve du fait que T₀ est consistant (et en outre, une méta-preuve du fait, d'ailleurs plus ou moins évident, que ce procédé fonctionne bien), il serait extrêmement bizarre de ne pas en admettre la conclusion, à savoir que tout ensemble fini T₀ d'axiomes de ZFC est consistant.

↑Entry #2345 [older| permalink|newer] / ↑Entrée #2345 [précédente| permalien|suivante] ↑

↓Entry #2337 [older| permalink|newer] / ↓Entrée #2337 [précédente| permalien|suivante] ↓

(lundi)

Qu'est-ce qu'une machine hyperarithmétique ?

Voici un concept mathématique (voire, informatique ?) dont je suis tout étonné de découvrir que je ne l'ai jamais encore proprement défini sur ce blog, alors même que ça aurait été logique et pertinent de le faire dans différentes entrées que j'ai déjà écrites. (Par exemple, j'y fais explicitement référence dans cette entrée, et il aurait été logique d'en parler dans celle-ci ; et au sujet de cette entrée récente, je pourrais dire qu'il s'agit exactement de la puissance de calcul du niveau ωCK de la « Théorie de la Totalité Transfinie de Turing ».) Je voudrais donc réparer ce manque, d'autant plus que je trouve que le sujet devrait être standard, et connu, notamment, de tous les informaticiens théoriciens vaguement préoccupés de calculabilité ou de complexité (or je suis sûr que ce n'est pas le cas[#]) : une machine hyperarithmétique est un type d'ordinateur théorique strictement plus puissant que les machines de Turing, et il me semble qu'avoir en tête à la fois la notion de fonctions hyperarithmétiques (plus générales que les fonctions calculables au sens de Church-Turing, donc) et la notion de fonctions primitives récursives (plus restreintes) aide à mieux comprendre les contours de la calculabilité (y compris si on ne s'intéresse, in fine, qu'aux machines de Turing). Il me semble par ailleurs qu'il s'agit d'une notion relativement intuitive (je vais donc essayer de la présenter comme telle), qu'il est donc dommage de laisser cachée dans des textes de calculabilité supérieure un peu oubliés et au formalisme souvent obscur.

Je commence par rappeler[#2] ce que c'est que la calculabilité au sens habituel, i.e., de Church-Turing : les lecteurs pour lesquels ce concept est familier peuvent sauter jusqu'au symbole ♠ plus bas.

En bref, [une fonction] calculable (sous-entendu : au sens de Church-Turing) signifie [une fonction] qui pourrait être calculé(e), en principe, par un algorithme tournant sur un ordinateur — sachant que cet ordinateur n'a aucune limite sur la quantité de mémoire qu'il peut utiliser, ni sur le temps qu'il peut prendre, à part que le temps doit être fini (et la mémoire, du coup, automatiquement aussi).

Pour donner une définition plus précise, il y a plein de possibilités : la première qui ait été introduite historiquement, vers 1930, est le lambda-calcul de Church, mais même si elle est utile pour modéliser les langages de programmation fonctionnels, elle n'est pas très parlante intuitivement ; la seconde définition est venue par les fonctions générales récursives (je n'ai pas réussi à comprendre exactement quelle en était l'histoire, mais elles doivent être associées à un ensemble intersectant les noms suivants : Herbrand, Gödel, et Kleene) ; mais la définition de la calculabilité qui a vraiment achevé de convaincre le monde des mathématiciens qu'il s'agissait de la bonne notion est venue en 1936 quand Turing a défini la machine qui porte maintenant son nom. Quantité d'autres définitions ont été données depuis (par exemple avec des machines à registres). J'en donnerai moi-même une (illisible) ci-dessous comme produit dérivé d'une définition rigoureuse du sujet principal de cette entrée (pour les fonctions calculables, retirer la clause (vii) qui me sert à définir les fonctions hyperarithmétiques). Le point important est que toutes ces définitions sont équivalentes au sens où elles conduisent à la même classe de fonctions « calculables » : la fameuse thèse de Church-Turing affirme que n'importe quelle tentative pour définir la notion de « fonction calculable par un algorithme » aboutira, in fine, à cette même classe des fonctions calculables (au sens de Church-Turing, donc), étant bien entendu que l'« algorithme » doit manipuler à tout instant des données finies, et terminer en temps fini (et, par ailleurs, ne peut pas faire appel au hasard, ou en tout cas le résultat final ne doit pas en dépendre).

↑Entry #2337 [older| permalink|newer] / ↑Entrée #2337 [précédente| permalien|suivante] ↑

↓Entry #2335 [older| permalink|newer] / ↓Entrée #2335 [précédente| permalien|suivante] ↓

(lundi)

Comment écrire les nombres en base 5×6

Nous écrivons les nombres en base 10 (c'est-à-dire que pour compter des billes, nous faisons des tas de 10, puis des tas de 10 de ces tas, puis des tas de 10 de ceux-là, etc., et nous indiquons par un chiffre le nombre de chaque type de tas) : heureusement, de la Chine à la Patagonie, tout le monde est d'accord là-dessus, y compris les pays reculés qui continuent à diviser leurs unités de longueur en 1760 et leurs unités de poids en 16. On voit parfois avancée çà ou là l'idée qu'on ferait mieux de compter en une autre base (typiquement 12). Le choix de 10 n'est peut-être pas idéal, mais l'intérêt d'avoir un standard commun à tout le monde est infiniment supérieur à l'avantage d'avoir telle ou telle autre base peut-être préférable dans l'absolu : même si nous utilisions une base franchement merdique, comme 11, il vaudrait mieux rester sur un standard merdique mais commun que de chercher à créer de la confusion en en changeant (c'est d'ailleurs pour le même genre de raison que je ne pense pas qu'il soit une bonne idée d'essayer de changer d'autres choses qui ont été adoptées universellement, comme le calendrier grégorien et ses bizarreries bêtement baroques). Tout ça pour dire que je ne propose certainement pas une seule seconde de changer de système d'écriture des nombres (même si j'avais le pouvoir de motiver des gens à initier un tel changement, je ne voudrais en aucun cas m'en servir). J'espère que j'ai bien enfoncé la porte ouverte, et que je peux maintenant aborder la question purement théorique de ce que pourrait être une bonne base si on devait repartir de zéro.

L'intérêt d'avoir une base b divisible par des petits nombres (premiers) est principalement que les fractions simples vont pouvoir s'écrire en base b de façon simple : le fait que 10=2×5 fait que les rationnels 1/2 et 1/5 s'écrivent respectivement 0.5 et 0.2 en cette base, tandis que le fait que 3 ne divise aucune puissance de 10 est responsable du fait que 1/3 s'écrit 0.333333…, ce qui est un peu agaçant dès qu'on veut manipuler des tiers (notamment à cause des arrondis : si on arrondi 1/3 à 0.333, alors dès qu'on en met trois, on tombe sur 0.999 et il y a un millième qui est tombé à l'eau). L'argument en faveur de la base b=12 est que comme il est divisible par 2, 3 et 4, il simplifie l'écriture des fractions de petit dénominateur (1/2 s'y écrit 0.6, 1/3 s'y écrit 0.4, et 1/4 s'y écrit 0.3), mais évidemment, on perd le 1/5, qui devient 0.24972497…, ce qui n'est pas franchement plaisant. • L'intérêt d'avoir une base b petite est, quant à lui, que les tables d'addition et de multiplication sont d'autant plus courtes à apprendre : la base 2 est bien sûr particulièrement simple de ce point de vue-là, et il est naturel qu'on s'en serve dans circuits électroniques (je veux dire : outre le fait qu'il est naturel de représenter 0 et 1 par l'absence et la présence d'un signal, l'addition et la multiplication se calculent de façon particulièrement simple), même si elle est peu appropriée au calcul humain à cause de la longueur de la représentation des nombres.

D'un autre côté, les choix sont apparemment limités : si la base est trop petite, les nombres sont trop longs à écrire, si elle est trop grande, les tables d'opération sont trop complexes à mémoriser, et si on cherche à avoir autant de divisibilités que possible, il semble que 6 ou 12 soient peut-être les choix les plus sensés, et en tout cas 10 n'est pas du tout mauvais.

(À ce propos, j'espère enfoncer de nouveau des portes grandes ouvertes, mais quand j'écris par exemple la base 12, il va de soi que ce 12 est lui-même écrit de la manière dont nous écrivons habituellement les nombres, c'est-à-dire dans la base dont la valeur est [le nombre de ‘I’ dans ce qui suit] IIIIIIIIII. C'est complètement idiot, mais si on n'éclaircit pas ce point, certains sont capables de s'imaginer que le nombre 10 est magique.)

La discussion ci-dessus, cependant, néglige le fait qu'il y a toutes sortes de variations possibles sur l'écriture en base b, qui peuvent être utiles dans différents sens, ou qui pourraient arriver pour des raisons essentiellement historiques. Les mayas, et les aztèques à leur suite, par exemple, pour autant que je comprenne, écrivaient les nombres en base 20, sauf que le chiffre des vingtaines était exceptionnel et n'allait que jusqu'à 18 : i.e., ils faisaient des paquets de 20 unités, puis des paquets de 18 paquets, puis des paquets de 20 de ces paquets, et de même de 20 à tous les niveaux suivants ; ceci fournissait une correspondance avec leur calendrier de 18 mois de 20 jours. Par ailleurs, même l'écriture des chiffres de 0 à 19 était plus ou moins faite en base 5 (ils utilisaient un bâton pour le nombre 5, un point pour le nombre 1, et donc par exemple trois bâtons et deux points pour le chiffre 17 — je dis bien chiffre, parce que 17 était un chiffre de leur écriture en base à-peu-près-20 ; le zéro était noté spécialement, pour ne pas laisser un vide disgracieux dans l'écriture).

Pour donner un exemple d'écriture qui n'est pas tout à fait une base b entière mais qui s'y rapproche beaucoup, on peut écrire les entiers en « base Fibonacci » : cette représentation n'utilise que les chiffres 0 et 1 et interdit à deux ‘1’ d'être consécutifs, la valeur des positions étant donnée par les termes de la suite de Fibonacci ((1,)1,2,3,5,8,13,21… chacun étant la somme des deux précédents). Ainsi, comme 17=13+3+1, le nombre 17 s'écrira 100101 : et les premiers entiers s'écrivent 0, 1, 10, 100, 101, 1000, 1001, 1010, 10000, 10001, 10010, 10100, 10101, 100000, etc. Ce mécanisme d'écriture (dont il existe d'ailleurs un certain nombre de variations) peut avoir un intérêt dans certaines circonstances, et il est possible d'y mener des calculs, mais évidemment, il est encore plus encombrant que la base 2 (et l'écriture fractionnaire n'est pas du tout claire). Je l'évoque surtout pour montrer qu'il n'y a pas que les écritures en base b qui peuvent avoir un sens ou un intérêt. (D'ailleurs, mon voisin de bureau est spécialiste de ce genre de questions.)

⁂ Bon, alors, si je devais absolument choisir un système d'écriture des nombres de novo, qui soit relativement aisément manipulable à la main si on oublie l'héritage de la base 10, je crois que je choisirais la base 30 écrite sous la forme 5×6, c'est-à-dire une base alternée 5 et 6.

Autrement dit, l'idée est de faire des paquets de 6, puis de faire des paquets de 5 de ces paquets, puis des paquets de 6 de ces paquets-là, puis des paquets de 5 de ceux-là, et ainsi de suite en alternant 6 et 5 : comme les paquets de paquets sont toujours de 30, on peut dire qu'on travaille en base 30, mais on le fait en n'utilisant que des paquets de 6 ou 5, ce qui garde des chiffres petits et manipulables, et des tables d'opérations facilement mémorisables.

Concrètement, on utiliserait deux séries de chiffres, disons 0,1,2,3,4,5 pour les chiffres en base 6, et Z,A,B,C,D pour ceux en base 5 ; ces deux séries alterneraient systématiquement (en terminant par la série 0…5 pour le chiffre des unités). Le fait d'avoir deux séries de chiffres qui alternent peut d'ailleurs avoir un intérêt en lui-même : il évite certaines erreurs de décalage d'une colonne (à la fois à la lecture, et lorsqu'on effectue les opérations). • Les premiers entiers s'écrivent donc 0, 1, 2, 3, 4, 5, A0, A1, A2, A3, A4, A5, B0, B1, B2, B3, B4, B5, C0, C1, C2, C3, C4, C5, D0, D1, D2, D3, D4, D5, 1Z0, 1Z1, 1Z2, 1Z3, 1Z4, 1Z5, 1A0, etc. Le nombre décimal 1760 s'écrirait, par exemple, 1D4C2 dans ce système, parce qu'il vaut 1×30² + 4×6×30 + 4×30 + 3×6 + 2 (le 2 est le chiffre des unités, le C est le chiffre des sixaines, le 4 est le chiffre des groupes de 5×6=30, le D est le chiffre des groupes de 6×5×6 = 6×30 = 180, et le 1 est le chiffre des groupes de 5×6×5×6 = 30² = 900) : cette conversion est, bien sûr, fastidieuse, mais ça ne dit rien sur cette base spécialement parce que la conversion d'une base à une autre est toujours fastidieuse (enfin, sauf entre puissances d'un même nombre).

L'addition en base mixte 5×6 se fait exactement comme en base (pure) quelconque, et notamment comme en base 10 : il faut retenir deux tables d'addition, l'une de taille 6 et l'autre de taille 5, mais leur taille combinée est plus petite qu'une table de taille 10 (très nettement, même, si on compte que la table des zéros est vraiment triviale) :

+012345
0012345
112345A0
22345A0A1
3345A0A1A2
445A0A1A2A3
55A0A1A2A3A4
+ZABCD
ZZABCD
AABCD1Z
BBCD1Z1A
CCD1Z1A1B
DD1Z1A1B1C

Les chiffres (A ou 1) soulignés indiquent qu'il s'agit là de retenues à faire sur la colonne suivante. À titre d'exemple, C3 plus C3 vaut 1B0 : on commence par faire 3+3, ce qui donne A0 d'après la table de gauche, c'est-à-dire 0 avec une retenue de A, puis on effectue C+C dans la table de droite, ce qui donne 1A, auquel il faut encore ajouter la retenue, donc 1B. L'algorithme est donc exactement le même que celui qu'on apprend à l'école primaire, il y a juste deux séries de chiffres, mais on ne peut pas se tromper de table ou de colonne parce que les chiffres d'une série donnée ne peuvent que s'ajouter ensemble. • Il faut quand même que je souligne qu'une écriture comme 1B n'est pas un nombre valable (un nombre entier doit toujours se terminer par un chiffre de la série 0…5) : quand la table de droite donne une écriture comme C+D=1B, il faut en fait comprendre qu'elle signifie C0 + D0 = 1B0, les 0 étant omis (ce n'est pas important pour appliquer l'algorithme d'addition, mais c'est important pour ne pas s'embrouiller sur la signification de ce qu'on fait).

Pour la multiplication, les choses sont un tout petit peu plus compliquées : on a trois tables de multiplication à retenir, dont la taille totale est encore inférieure à l'unique table de la multiplication en base 10, mais dont le mode d'emploi est un chouïa plus délicat. Voici ces trois tables :

×012345
0000000
1012345
2024A0A2A4
303A0A3B0B3
404A2B0B4C2
505A4B3C2D1
×ZABCD
0ZZZZZ
1ZABCD
2ZBD1A1C
3ZC1A1D2B
4ZD1C2B3A
5Z1Z2Z3Z4Z
×ZABCD
Z0Z0Z0Z0Z0Z
A0Z1A2B3C4D
B0Z2B4DA1AA3C
C0Z3CA1AA4DB2B
D0Z4DA3CB2BC1A

La table de gauche ne pose aucune difficulté particulière : on a, par exemple, 4×5=C2, écriture tout à fait normale et qui n'appelle pas à un commentaire particulier ; la table du milieu est utilisée normalement quand on multiplie ensemble un chiffre de la série 0…5 et un chiffre de la série Z…D, et il faut comprendre qu'il y a un 0 implicite après chaque lettre de la table (par exemple, 3×D=2B signifie en fait 3×D0=2B0, parce que 2B n'est pas un nombre valable) ; c'est surtout la troisième table qui est un tout petit peu subtile à utiliser, parce que le décalage des chiffres est un peu modifié : il y a de nouveau un 0 à comprendre implicitement à la fin de chaque entrée, mais il n'y a pas en plus un Z implicite comme on pourrait l'imaginer — par exemple, l'entrée B×D=A3C signifie en fait B0×D0=A3C0 et ce dernier ‘C’ peut surprendre parce qu'on s'attendrait à avoir un ‘Z’ si l'algorithme était exactement le même qu'en base 10 (où le produit de deux nombres se terminant par un chiffre zéro se termine par deux zéros). [Ajout La raison est qu'un nombre finissant par un ‘0’ signifie qu'il est multiple de 6 (i.e., de A0), et quand on multiplie deux tels nombres, on obtient un multiple de 6×6=36 (i.e., de 1A0), et pas forcément de 30 (i.e., 1Z0). Voir aussi le commentaire de JML sur cette entrée.] J'ai donc écrit en italiques le dernier chiffre (de la série Z…D) de chaque entrée de cette troisième table, pour rappeler qu'il est décalé d'un cran par rapport à ce qu'on peut imaginer — on peut par exemple le voir comme une retenue à droite. (Remarquons que sa valeur est complètement prévisible : c'est Z,A,B,C,D selon que le chiffre juste avant vaut 0,1,2,3,4, et il ne peut pas être 5, donc l'effort de mémoire n'est pas considérablement alourdi ! Accessoirement, dans chacune des trois tables ci-dessus on peut faire différents commentaires pour aider à la mémorisation.)

Voici comment faire une multiplication en base 5×6 avec ces tables : comme en base 10, on va multiplier le premier nombre dont on veut faire le produit (appelons-le le multiplicande) par chacun des chiffres de l'autre nombre (appelons-le le multiplicateur). Lorsque le chiffre du multiplicateur par lequel on multiplie est un chiffre de la série 0…5, pas de difficulté, on utilise les deux tables de gauche ci-dessus, et on traite les retenues comme on le fait en base 10, c'est-à-dire en en mémorisant une de chaque colonne à la suivante (on peut aussi, si on trouve fastidieux d'ajouter les retenues à la volée, les écrire explicitement comme une ligne supplémentaire qu'il faudra incorporer dans l'addition finale). En revanche, quand le chiffre du multiplicateur par lequel on multiplie est un chiffre de la série Z…D, on utilise les deux tables de droite, et la table la plus à droite va donner, à chaque fois qu'on l'utilise, un chiffre (de la série Z…D, en italique dans la table) à ajouter sur la colonne un cran à droite de celle qu'on serait normalement en train d'écrire : pour ne pas avoir à s'arracher les cheveux à faire plein d'additions à la volée, il est plus simple d'écrire en fait deux lignes, l'une pour les produits donnés par la table du milieu et l'autre pour ceux donnés par la table de droite (l'addition finale sera plus complexe, du coup, mais en contrepartie, les retenues sont beaucoup plus faciles à faire) ; ou, si on préfère la variante suivante, on se réserve une ligne pour les calculs « normaux » donnés par les deux tables, et une ligne uniquement pour les chiffres de la série Z…D qui sont en italiques dans la troisième table.

À titre d'exemple, si je veux calculer C3×C3, je commence par effectuer le produit du multiplicande par le dernier chiffre, 3, du multiplicateur : comme 3×3=A3, j'écris un 3 et je retiens A, puis C×3=1D, auquel j'ajoute mentalement la retenue de A donne 2Z, et j'écris donc finalement 2Z3 comme première ligne intermédiaire ; puis je dois multiplier C3 par C : une possibilité est d'écrire les deux produits 3×C=1D et C×C=A4D sur deux lignes différentes (les D finaux étant bien sûr alignés avec le Z de la ligne déjà écrite), l'autre variante est de se dire qu'on fait 3×C=1D donc on écrit D et on retient 1, puis C×C=A4D, donc on écrit A5, à cause de la retenue, devant le D déjà écrit, et le D italique de cette dernière multiplication est écrit sur une autre ligne. Dans un cas, on doit finalement ajouter 2Z3 + 1D□ + A4D□ (où j'ai noté □ pour un emplacement laissé vierge : c'est bien sûr la même chose qu'un zéro), dans l'autre on doit ajouter 2Z3 + A5D□ + D□, ce qui ne fait bien sûr aucune différence, seulement de ce qu'on a choisi de mettre dans une ligne ou l'autre, et la somme finale vaut B2C3.

Mes descriptions sont un peu fastidieuses parce que j'ai la flemme de faire des images ou une vidéo montrant clairement le processus (et aussi parce que j'ai décrit ci-dessus deux petites variantes de l'algorithme), mais il n'est vraiment qu'à peine plus compliqué que ce qu'on fait en base 10 : en pratique, j'ai fait quelques essais, et mis à part que je ne connais pas par cœur les tables ci-dessus et que j'ai toujours envie de convertir en base 10 pour vérifier mes calculs, je crois que ça va aussi vite et on pourrait tout à fait apprendre ce système de numération à des enfants à la place de la base 10. (Je répète que je ne propose surtout pas de le faire dans le monde actuel !, je dis juste que si on n'avait pas l'héritage culturel de la base 10, il serait aussi utilisable.) Les tables d'opérations étant plus faciles à apprendre, on y gagne un petit peu : d'un autre côté, les nombres sont 35% plus longs en moyenne (parce que 2×log(10)/log(30) vaut environ 1.35).

Je ne décris pas l'algorithme de division, mais il ne présente pas de difficulté particulière (de toute façon, une division façon école primaire se fait essentiellement par multiplication : on teste juste les chiffres qu'on peut placer au quotient) ; de même, la soustraction se fait sans problème. On peut aussi se dire qu'on fait les opérations en base 30, les chiffres en base 30 étant eux-mêmes écrits en base 6 (avec la convention que le premier chiffre est pris dans la série Z…D, le E étant impossible, et le second dans la série 0…5, pour aider à s'y retrouver) : dans ce cas, il n'y a pas de surprise à ce que les opérations soient faisables. (Ceci s'applique notamment à un algorithme classique de calcul à la main des racines carrées ; mais cet algorithme demande de traiter deux chiffres du radicande d'un coup, et du coup ici il faudra traiter deux chiffres en base 30, c'est-à-dire quatre chiffres en base mixte 5×6.)

Bien sûr, le système que je viens de décrire permet aussi de manipuler des nombres à virgule : immédiatement après la virgule, on a un chiffre de la série Z…D qui représente des cinquièmes, ensuite un chiffre de la série 0…5 qui représente des trentièmes (des sixièmes de cinquièmes), etc. Par exemple, 1/2 s'écrit 0.B3 (calculer B3×2 pour s'en convaincre), 1/3 s'écrit 0.A4, 1/4 s'écrit 0.A1B3, 1/5 s'écrit 0.A0 (qu'on peut noter simplement 0.A si on n'a pas peur de causer une confusion), et 1/6 (enfin, 1/A0) s'écrit 0.Z5. C'était bien tout l'intérêt du choix de la base 5×6 que les fractions de dénominateur ≤6 s'écrivent toutes de façon exacte avec un nombre fini de chiffres. Le nombre 1/7 (i.e., 1/A1), lui, s'écrit 0.Z4A2B5Z4A2B5… ; ensuite, 1/8 (i.e. 1/A2) vaut 0.Z3C4B3 et 1/9 (i.e., 1/A3) vaut 0.Z3A4, et quant à 1/10 (i.e. 1/A4), il vaut 0.Z3. Enfin, je signalerai que 1/11 (i.e., 1/A5) s'écrit 0.Z2C3D0B4A4D3A2Z5B1C1Z2C3D0B4… (Et pour lister un irrationnel, √2 vaut 1.B0B0C5C4D5B4D5Z2D5C0D2D1D0D3Z5D2C5C1B4C5…) Tous les nombres qui s'écrivent en décimal de façon exacte avec un nombre fini de chiffres (i.e., toutes les fractions qui admettent une puissance de 10 comme dénominateur) s'écrivent aussi de façon exacte en base 5×6 (mais il faudra, dans le pire des cas, deux fois plus de chiffres pour les écrire).

Bon, tout ceci était vraiment de la plus haute trivialité mathématique, et d'un intérêt infinitésimal puisque je répète que je ne propose pas une seule seconde d'adopter ce système (sauf peut-être si l'humanité perdait toutes ses connaissances antérieures et devait tout reconstruire de zéro) : j'ai donc consacré à ce sujet beaucoup plus d'espace qu'il ne le méritait. Mais si par hasard vous croisez un jour un de ces huluberlus qui font la pub de la base 12, vous pourrez lui répondre avec la base 5×6.

Et je laisse en exercice au lecteur de trouver les raisons (essentiellement anecdotiques) pour lesquelles la base 5×6 m'a semblé très légèrement préférable à la base 6×5.

↑Entry #2335 [older| permalink|newer] / ↑Entrée #2335 [précédente| permalien|suivante] ↑

↓Entry #2323 [older| permalink|newer] / ↓Entrée #2323 [précédente| permalien|suivante] ↓

(jeudi)

Analysons le mécanisme de vote du Conseil de l'UE

Le Conseil de l'Union européenne, dont le nom officiel est juste le Conseil, et qu'on appelle parfois aussi informellement Conseil des ministres parce qu'il réunit les ministres des 28 états membres sur un sujet donné, est en quelque sorte la chambre haute de la législature de l'Union européenne (dont le Parlement européen serait la chambre basse), représentant les intérêts des États membres tandis que le Parlement européen représente la population de l'Union : il est donc vaguement analogue au Sénat des États-Unis ou au Bundesrat allemand (représentant, dans les deux cas, les entités fédérées). Si je simplifie en passant sous silence un nombre incroyable de cas particuliers, subtilités, astérisques et autres exceptions, une directive européenne (l'équivalent d'une loi) doit, pour être adoptée (selon la procédure législative ordinaire) être proposée par la Commission, et adoptée dans les mêmes termes par le Parlement et le Conseil. Je me propose d'analyser un peu la manière dont ce Conseil vote.

Les gens qui n'aiment pas lire des logorrhées (mais que faites-vous sur mon blog, aussi ?) peuvent sauter plus bas où il y a des jolis graphiques.

La petite minute nécessaire du Club Contexte : il y a aussi un Conseil européen, terminologie épouvantablement idiote parce qu'il n'est pas plus européen que l'autre, qui ressemble beaucoup au Conseil [des ministres] en ce qu'il est formé des représentants des 28 États membres, mais qui diffère en ce qu'il est formé des chefs d'État ou de gouvernement au lieu des ministres, et dont les fonctions ne sont pas tout à fait claires au niveau institutionnel (il « dirige », donne des « impulsions », etc.). Du coup, le Conseil européen a très rarement l'occasion de procéder à des votes, à part pour des cas très précis comme quand il s'agit de nommer le président de la Commission et qu'il n'y a pas de consensus. Les deux conseils (Conseil européen et Conseil [des ministres]) se ressemblent par certains points : dans les rares cas où le Conseil européen effectue un vote, c'est le même mécanisme de vote que pour le Conseil, et les deux Conseils ont, par exemple, le même logo représentant le futur bâtiment qu'ils auront aussi en commun (parfois l'un des deux ajoute au logo le mot latin Consilium, mais je n'ai pas compris lequel, ça a l'air de changer, et c'est peut-être obsolète), et ils ont le même site Web. Il y a aussi des différences : notamment, contrairement au Conseil [des ministres], qui est présidé par un État tournant tous les six mois [subtilité : sauf quand il est en formation affaires étrangères], le Conseil européen est présidé par une personne stable, en l'occurrence l'ancien Premier ministre polonais Donald Tusk. Je pense que l'idée est que si on considère l'UE comme un État fédéral ou confédéral, le Conseil européen en est une sorte de chef d'État collégial : il nomme le chef du gouvernement, c'est-à-dire de la Commission, et il a la main sur les grandes lignes de la politique étrangère. (Il n'est pas rare dans les dispositions constitutionnelles qu'il y ait une certaine porosité ou proximité entre le chef de l'État et la chambre haute du parlement : par exemple, le vice-président des États-Unis est ex officio président du Sénat, tandis que le président du Sénat français devient président par intérim si le président décède, et on peut certainement citer d'autres exemples ; la confusion entre les deux Conseils se comprend donc un peu dans cette logique.) • Par ailleurs, il ne faut pas confondre l'un ou l'autre de ces Conseils, qui sont des institutions de l'Union européenne, avec le Conseil de l'Europe, qui est une autre institution internationale, strictement plus grande que l'Union européenne (et dont, par exemple, la Norvège, la Suisse et la Russie sont membres). Pour tout arranger au niveau confusion, le Conseil de l'Europe a le même drapeau que l'Union européenne (c'est même lui qui l'a utilisé en premier), et aussi le même hymne.

Généralités : La plupart des décisions du Conseil [de l'UE, i.e., Conseil des ministres] se prennent, dans la pratique, sur la base du consensus : un vote a lieu formellement, mais il est précédé de beaucoup de négociations, voire de marchandages, menées informellement (par courrier électronique, par l'intermédiaire des représentants permanents à Bruxelles, ou au cours de réunion officieuses du Conseil), surtout par la présidence tournante du Conseil : lorsque la présidence annonce qu'elle dispose d'une majorité suffisante pour approuver la proposition, les éventuels pays minoritaires préfèrent négocier leur ralliement au vote en échange de quelques concessions plutôt que d'enregistrer une « contestation publique », i.e., de figurer sur le papier final comme votant contre (ce qui peut être embarrassant, diplomatiquement ou politiquement, sauf s'il s'agit d'enregistrer un point vis-à-vis de leur opinion publique nationale). Ce n'est pas pour autant que les détails du mécanisme de vote n'ont pas d'importance ! Car ce sont tout de même eux qui définissent le pouvoir des différents pays dans les négociations informelles, et même si le vote formel apparaît comme unanime — même si on cherche le compromis pour arriver à l'unanimité — l'avis d'un petit pays sera évidemment d'autant plus écouté s'il a le moyen de tout bloquer que si on sait qu'on peut toujours se passer de son accord. (Une analyse précise de la dynamique de vote pour ce qui est de la contestation publique, sur la période 1995–2010, est menée dans ce rapport de Wim van Aken, Voting in the Council of the European Union.)

Le mécanisme de vote dans toute sa subtilité juridique est assez complexe. D'abord, il y a plusieurs mécanismes différents selon le type de motion soumise au vote, et qui exigent des majorités différentes : majorité simple (principalement pour des questions de procédure ou des résolutions sans valeur légale), majorité qualifiée (la procédure ordinaire), ou unanimité (essentiellement pour tout ce qui est conçu comme une coopération intergouvernementale : par exemple, en matière fiscale). Même au sein de la majorité qualifiée, une des conditions demandées est différente selon que le Conseil vote sur une proposition de la Commission ou non (il y a donc, en quelque sorte, deux majorités qualifiées différentes : la normale, pour voter sur une proposition de la Commission, et la renforcée, pour les cas où le Conseil agit de sa propre initiative, essentiellement en matière de politique étrangère). • Pour compliquer encore les choses, pendant une période transitoire qui dure de novembre 2014 à mars 2017, les règles de vote actuelles, entérinées dans le traité de Lisbonne de 2007 (qu'on appellera donc en abrégé règles de Lisbonne, en gros : 55% des états membres représentant 65% de la population), peuvent parfois — à la demande d'un membre du Conseil — être remplacées par les règles antérieures, contenues dans le traité de Nice de 2001 (règles de Nice, en gros : >50% des états membres, et 73.8% des voix pondérées). • Pour compliquer encore un peu plus les choses, une déclaration annexée aux traités (parfois appelée « compromis de Ioannina », ) veut que si un groupe d'états n'est pas suffisant pour constituer une minorité de blocage (c'est-à-dire, une minorité capable d'empêcher un vote de passer, donc, avec les règles de Lisbonne, 45% des états membres ou représentant 35% de la population de l'Union) mais n'est « pas trop loin » d'en constituer une, alors la présidence du Conseil et l'ensemble de ses membres s'engagent à faire des efforts pour trouver une solution tenant compte de leurs objections. • Pour compliquer la complication, la définition de pas trop loin dans la phrase précédente sera abaissée en avril 2017 (pour compenser le fait qu'on ne pourra plus invoquer les règles de Nice ; jusqu'à mars 2017, il suffit de représenter 3/4 du nombre de membres ou de la population nécessaires à constituer une minorité de blocage, tandis qu'à partir d'avril 2017, elle est abaissée à 55% sur ces deux critères). Ouf ! On comprend que les choses ne soient pas aisées à décrire.

Mon but est ici, en oubliant un peu les subtilités de la négociation et de la culture du compromis, de faire quelques points plutôt d'ordre mathématique, mais à un niveau assez simple, sur le mécanisme de vote du Conseil à la majorité qualifiée (« normale »), à la fois dans les règles de Lisbonne et dans les règles de Nice. Et d'en profiter pour faire quelques remarques plus générales sur l'analyse du pouvoir dans un système de vote de ce genre.

[J'avais déjà écrit un billet sur le sujet ici, au moment où le mécanisme de vote était en train d'être débattu (et en écrivant par erreur Conseil européen au lieu de Conseil [de l'Union européenne ou des ministres]). J'y proposais un mécanisme de vote particulier. Ici, je vais plutôt me pencher sur la question de comment analyser un mécanisme de vote existant.]

↑Entry #2323 [older| permalink|newer] / ↑Entrée #2323 [précédente| permalien|suivante] ↑

↓Entry #2321 [older| permalink|newer] / ↓Entrée #2321 [précédente| permalien|suivante] ↓

(mercredi)

Jouons à analyser la forme des continents

[Sommes partielles d'harmoniques sphériques pour la forme des continents] [Niveau 0] [Niveau 1] [Niveau 2] [Niveau 3] [Niveau 4] [Niveau 5] [Niveau 6] [Niveau 7] [Niveau 8] [Niveau 9] [Niveau 10] [Niveau 11] [Niveau 12] [Niveau 13] [Niveau 14] [Niveau 15] [Niveau 16] [Niveau 17] [Niveau 18] [Niveau 19] [Niveau 20] [Niveau 21] [Niveau 22] [Niveau 23] [Niveau 24] [Niveau 25] [Niveau 26] [Niveau 27] [Niveau 28] [Niveau 29] [Niveau 30] [Niveau 31] [Niveau 32] [Niveau 33] [Niveau 34] [Niveau 35] [Niveau 36] [Harmoniques sphériques pour la forme des continents] [Niveau 0] [Niveau 1] [Niveau 2] [Niveau 3] [Niveau 4] [Niveau 5] [Niveau 6] [Niveau 7] [Niveau 8] [Niveau 9] [Niveau 10] [Niveau 11] [Niveau 12] [Niveau 13] [Niveau 14] [Niveau 15] [Niveau 16] [Niveau 17] [Niveau 18] [Niveau 19] [Niveau 20] [Niveau 21] [Niveau 22] [Niveau 23] [Niveau 24] [Niveau 25] [Niveau 26] [Niveau 27] [Niveau 28] [Niveau 29] [Niveau 30] [Niveau 31] [Niveau 32] [Niveau 33] [Niveau 34] [Niveau 35] [Niveau 36]

Je cherchais à me faire une idée intuitive un peu plus claire de la notion mathématique de décomposition en harmoniques sphériques (voir ici pour une explication très sommaire) : or la meilleure façon de comprendre une notion mathématique est probablement de s'amuser avec — je me suis dit que pour avoir une fonction raisonnablement « parlante » sur la sphère avec laquelle faire joujou, un candidat assez naturel est la forme des continents. J'ai donc analysé cette fonction en harmoniques sphériques ; plus exactement, j'ai pris la fonction qui vaut −1 sur la terre et +1 sur la mer, histoire d'être mieux centré vers 0, mais c'est peu important (ça va juste introduire des facteurs ½ pénibles un peu partout dans la suite), et en faisant semblant que la Terre est une sphère. Ce calcul n'a, bien sûr, rien d'original, même si le genre de fonction qu'on analyse pour des applications plus sérieuses seraient plutôt l'altitude, le champ de gravité ou quelque chose de ce goût. Je tire mes données géographiques de cette page (Earth Specular Map 8K). J'ai utilisé la bibliothèque SHTns pour faire les calculs (après une tentative pitoyable pour les faire moi-même, cf. ci-dessous).

L'image à gauche de ce texte montre les sommes partielles de cette décomposition en harmoniques sphériques : en haut, le niveau =0, en-dessous la somme des niveaux =0 et =1, puis la somme des niveaux ≤2, et ainsi de suite (à chaque fois, toutes les valeurs de m, c'est-à-dire −m, sont mises pour chaque , donc si on veut, la première ligne montre 1 terme, le suivant la somme de 4 termes, puis la somme de 9 et ainsi de suite). La Terre est vue en double projection orthographique, c'est-à-dire comme si elle était vue de l'infini : hémisphère nord à gauche, hémisphère sud à droite, le pôle correspondant au centre de chaque disque, le méridien de Greenwich comme le segment horizontal reliant les pôles — tout ceci devrait être assez clair sur les dernières images où on commence vraiment à voir la forme des continents ; mais bien sûr, cette façon de projeter n'a vraiment rien à voir avec le calcul lui-même, qui est porte sur la sphère. L'image de droite montre chaque niveau d'harmoniques séparément (si on veut, chaque ligne de l'image de droite est donc la différence entre la ligne correspondante de l'image de gauche et la précédente : elle montre donc ce qui a changé ; de nouveau, à chaque fois, toutes les valeurs de m, c'est-à-dire −m, sont sommées pour le correspondant). On peut cliquer sur chacune des lignes de l'image pour la voir en plus gros. Sur l'image de gauche (sommes partielles), même si j'ai tronqué la fonction à −1 et +1, on voit assez nettement les artefacts classiques qui résultent d'une troncature de la transformée de Fourier (ici sphérique mais peu importe).

L'intérêt de cette décomposition en harmoniques sphériques est qu'elle est naturelle pour la sphère : ce que je veux dire, c'est qu'elle ne dépend pas du choix des coordonnées — de la position des pôles. Pour dire les choses autrement, si on fait tourner la sphère n'importe comment, chacun des niveaux de la décomposition (et, a fortiori, la somme des niveaux ≤) tourne de la même façon. (Il est essentiel ici de sommer tous les m : si on ne prenait que les termes avec m=0, par exemple, on obtiendrait une moyenne selon les cercles de latitude, et ça, ça dépend du choix des pôles.) Pour dire les choses encore autrement, et de façon un peu plus savante, quand on applique une rotation de la sphère, chaque harmonique sphérique Y[,m] est transformé en une combinaison linéaire des Y[,m′] pour le même (mais pour l'ensemble des −m′≤) : l'espace vectoriel engendré par les Y de niveau (exactement) est stable par rotations (c'est une représentation de SO(3), et c'est même, pour ceux qui savent ce que ça veut dire, la représentation irréductible de plus haut poids ).

En fait, pour un algébriste, la meilleure façon de présenter les choses est certainement la suivante : l'espace vectoriel engendré par les Y de niveau ≤ est tout simplement l'espace vectoriel des polynômes sur la sphère de degré ≤. (Attention cependant, comme x²+y²+z²=1 sur la sphère, le degré d'un polynôme y est mal défini ; je parle ici de l'espace, qui est de dimension (+1)², des restrictions à la sphère de l'espace — lui-même de dimension (+1)(+2)(+3)/6 — des polynômes de degré ≤ en x,y,z. On peut aussi préférer utiliser les polynômes harmoniques, c'est-à-dire dont le laplacien 3D est nul : pour ceux-là, la restriction à la sphère est une bijection, le degré est bien défini et coïncide avec la graduation par .) On peut même dire mieux : si on introduit le produit scalaire défini par l'intégration sur la sphère (normalisée pour avoir surface 1), alors la composante en harmoniques de niveau ≤ d'une fonction f est la projection orthogonale, pour ce produit scalaire, de f sur l'espace vectoriel des polynômes sur la sphère de degré ≤. Quant aux harmoniques sphériques réelles Y elles-mêmes, si je ne m'abuse, on peut dire que Y[0,0], Y[1,0], Y[1,1], Y[1,−1], Y[2,0], Y[2,1], Y[2,2], Y[2,−1], Y[2,−2], Y[3,0], etc. (ordonnées par puis par m en mettant les valeurs négatives après les positives), s'obtiennent par orthonormalisation de Gram-Schmidt à partir des polynômes 1, z, x, y, z², xz, x², yz, xy, z³, xz², x²z, x³, yz², xyz, x²y, etc. (ordonnés par degré total, puis par degré ≤1 en y, puis par degré en x). On obtient ainsi : Y[0,0] = 1 ; Y[1,0] = √3·z ; Y[1,1] = √3·x ; Y[1,−1] = √3·y ; Y[2,0] = √5·(z²−½x²−½y²) ; Y[2,1] = √15·xz ; Y[2,2] = √15·(½x²−½y²) ; Y[2,−1] = √15·yz ; Y[2,−2] = √15·xy ; Y[3,0] = √7·(z³−(3/2)x²z−(3/2)y²z) ; Y[3,1] = √42·(xz²−¼x³−¼xy²) ; etc.

Encore une autre façon de voir le niveau de la décomposition en harmoniques sphériques d'une fonction f est, peut-être à une constante près dont je ne suis pas très sûr, comme la convolée de cette fonction avec Y[,0] (j'insiste : convoler avec Y[,0] donne la projection sur tous les Y[,m] de ce niveau) : en général, la convolution de deux fonctions sur la sphère n'a pas de sens (on ne peut pas ajouter deux points sur la sphère), mais elle en a quand l'une des fonctions convolées est zonale, c'est-à-dire qu'elle ne dépend que de la latitude. En l'occurrence, Y[,0] vaut, à un coefficient de normalisation près, P[](cos(θ)) où P[] est un polynôme de Legendre et θ désigne la colatitude (=π/2 moins la latitude).

Du coup, les niveaux de la décomposition en harmoniques sphériques ont donc une vraie signification par rapport à la fonction sommée.

Le terme =0, ou ce que les physiciens appellent le terme monopôle, est simplement la moyenne de la fonction : dans l'exemple que j'ai pris, il nous renseigne donc sur la proportion de terre et de mer. Je trouve une moyenne de 0.4283, ce qui, compte tenu du fait que j'ai mis la terre à −1 et la mer à +1, signifie qu'il y aurait (1+0.4283)/2 soit 71.41% de mer, et 28.59% de terre ferme, sur la Terre. Je suppose que les mesures peuvent varier selon ce qu'on compte exactement comme terre et mer, notamment dans les régions polaires — je donne ici simplement ce qui résulte de l'image dont je suis partie, et je ne sais pas vraiment quelle est sa source — et peut-être quand on tient compte de l'aplatissement de la Terre, mais cette valeur est au moins réaliste. Pour dire les choses autrement, si on imagine que les terres émergées ont une densité surfacique constante égale à 1 sur la surface de la sphère (et que la mer a une densité nulle), ce qu'on mesure ici est la masse totale (c'est une façon bizarre de formuler les choses, mais la comparaison à la masse va être utile pour comprendre les deux termes suivants comme un terme de barycentre et un terme de moment d'inertie).

Le terme =1, ou terme dipôle, calcule la somme (ou la moyenne) des coordonnées x, y et z contre la fonction, donc donne aussi une information sur la Terre qui a un sens intuitif assez clair : sa direction correspond au barycentre des terres émergées, ce qui se rapporte au genre de problème dont je parlais ici. Mon calcul place ce barycentre à 44.4° de latitude (nord) et 29.0° de longitude (est), du côté de Constanța en Roumanie. Ceci colle au moins grossièrement avec ce qu'on trouve sur Wikipédia, mais celle-ci a l'air surtout de citer des crackpots qui veulent plus ou moins que ce centre ait un rapport avec la Grande Pyramide, et je ne vois pas de raison de penser que mon calcul serait moins bon que le leur (de nouveau, ça dépend sans doute surtout de ce qu'on compte comme terres émergées dans les régions arctiques).

Maintenant, il faut souligner ceci : ce dont je parle ci-dessus est la notion bien définie (en général) de barycentre sphérique, qui est tout simplement la projection sur la sphère (depuis son centre) du barycentre calculé en 3D (j'ai déjà dû citer le joli article de Galperin, A concept of the mass center of a system of material points in the constant curvature spaces, Comm. Math. Phys. 154 (1993) 63–84) ; mais dans le terme dipôle, il a bien trois composantes réelles (puisqu'il y a trois harmoniques sphériques au niveau 1, Y[1,0], Y[1,1] et Y[1,−1]), i.e., ce terme dipôle a une amplitude et pas juste une direction. Il donne donc aussi la profondeur du barycentre 3D. Mon calcul donne un moment dipolaire de la terre émergée de norme 0.0996, c'est-à-dire 34.83% du moment monopolaire (0.2859, la proportion de terre émergée, cf. ci-dessus), c'est-à-dire qu'il place le barycentre des terres émergées à 34.83% du rayon de la Terre à partir de son centre (soit à (x,y,z)=(0.2176,0.1205,0.2439) si z est orienté du centre vers le pôle nord, et x du centre vers le point de longitude 0 sur l'équateur).

(J'espère ne pas avoir mal placé un √3 ou ½ quelque part dans ce calcul : les harmoniques sphériques de niveau 1 avec la convention de normalisation que j'utilise sont Y[1,0]=√3·z, Y[1,1]=√3·x et Y[1,−1]=√3·y, du coup il y a des √3 qui se promènent ; il y a aussi un −2 à cause de ma convention sur les valeurs de la fonction, et il faut encore diviser par la valeur 0.2859 du terme monopôle si on veut obtenir la position du barycentre 3D.)

↑Entry #2321 [older| permalink|newer] / ↑Entrée #2321 [précédente| permalien|suivante] ↑

↓Entry #2320 [older| permalink|newer] / ↓Entrée #2320 [précédente| permalien|suivante] ↓

(mardi)

X+Y (=Le Monde de Nathan =A Brilliant Young Mind)

Je ne sais pas pourquoi ce film a plusieurs noms en anglais, et je ne sais pas non plus pourquoi ils ont décidé de l'appeler Le Monde de Nathan pour sa sortie en France (le 10 juin dernier ; sortie DVD le 21 octobre prochain), alors que X+Y passe très bien dans beaucoup de langues (en contrepartie du fait qu'il est pénible à rechercher sur Internet).

Je racontais il y a quelques mois que j'avais trouvé un peu agaçant que les scénaristes de The Imitation Game fassent passer Alan Turing pour un autiste alors qu'il ne l'était pas, et alimentent ainsi le cliché qui veut que les mathématiciens dans la fiction soient toujours au minimum socialement incompétents quand ils ne sont pas carrément mentalement atteints. Ici, le héros est un jeune autiste anglais doué pour les mathématiques et qui participe aux olympiades internationales de cette discipline. Comme les exercices des olympiades de mathématiques m'agacent[#] autant que le cliché dont je viens de parler, on peut dire que le film ne partait pas avec un a priori très favorable de ma part.

Pourtant, il m'a assez plu pour que je le recommande. D'abord, parce qu'il a réussi à éviter le cliché que je craignais : le héros est autiste et doué pour les mathématiques, et c'est clairement et pas donc ou car, et il y a d'autres personnages qui montrent assez nettement que les scénaristes ne confondent pas les deux. Ils évitent aussi le cliché apparenté (I'm looking at you, Good Will Hunting) du jeune prodige qui est forcément tellement fort en maths qu'il résout tout immédiatement[#2] et fait passer tous les autres pour des nuls — ici, sans vouloir spoiler, le héros est doué, mais il l'est de façon réaliste. C'est sans doute parce que le film est basé sur un documentaire, donc sur des faits réels, qu'il réussit à éviter l'hyperbole, mais c'est assez rare pour être souligné.

(Je ne dis pas que le film évite tous les clichés ou invraisemblances. Par exemple, on laisse beaucoup trop peu de temps à ceux qui préparent les olympiades pour réfléchir sur un problème donné : or absolument personne ne résout ce genre de problème en quelques secondes ; mais on peut justifier ce choix pour des raisons de rythme.)

Ensuite, je trouve assez rare de voir un film qui montre des mathématiques, fussent-elles des mathématiques d'olympiades (voir ma note ci-dessous pour la nuance), sans faire n'importe quoi : on ne nous montre pas seulement des gribouillis ressemblant vaguement à des formules et qui ne veulent rien dire : plusieurs problèmes d'olympiades (ou en tout cas tout à fait dans le genre des problèmes d'olympiades) sont posés, les réflexions sont plausibles, et il y a même une question pour laquelle la démonstration est faite au tableau, de façon correcte et complète (bon, c'est une question à mon avis trop facile pour être d'olympiades, et ce n'est pas très réaliste qu'on applaudisse le héros pour l'avoir trouvée, mais au moins un nombre non négligeable de spectateurs pourra comprendre).

Enfin, l'acteur principal, Asa Butterfield, est remarquable de justesse, dans un rôle pourtant difficile. (On l'avait déjà vu dans Hugo Cabret et Ender's Game, où il était également bon, mais le scénario de ces deux films à gros budget laissait à mon avis moins place à la subtilité des émotions.) L'actrice qui joue sa mère, en revanche, m'a semblé beaucoup moins bonne, mais peut-être que je me laisse influencer par le fait que le personnage m'agaçait.

Sinon, je trouve amusante la coïncidence suivante : j'ai fait référence à l'entrée de blog que j'ai écrite sur le biopic de Turing, qui y est présenté à tort comme autiste, et dans cette même entrée j'évoquais aussi le film, sorti au même moment, sur la vie de Hawking, qui lui a (vraiment) une maladie neurodégénerative. Or le film dont je parle ici met en scène à la fois un personnage autiste et un autre qui a une maladie neurodégénerative (et il est explicitement comparé à Hawking, d'ailleurs). Enfin, peut-être que ce n'est pas une coïncidence mais une sorte de référence.

[#] Pour essentiellement deux raisons. Primo, je trouve que ça a peu de rapport avec les mathématiques : il s'agit de problèmes généralement atrocement astucieux et ne faisant appel à aucune théorie générale, alors que, à mon sens, les mathématiques consistent justement à trouver des théories générales pour éviter les astuces. Bon, pour leur défense, certains problèmes d'olympiades sont au moins assez jolis, ce qui est aussi une caractéristique importante des bonnes mathématiques à mes yeux — mais seulement certains, parce qu'il y en a beaucoup qui sont non seulement difficiles et astucieux mais aussi fondamentalement moches et sans intérêt. (Je précise que je ne suis pas vexé d'y être mauvais : je crois même que je m'en sors honorablement, ou en tout cas que je m'en sortais honorablement quand j'avais l'âge. On m'a d'ailleurs demandé, comme j'avais eu un prix au Concours général de maths, de participer à l'équipe française de la 35e olympiade à Hong Kong — mais comme j'avais aussi un autre prix en physique pour lequel j'étais invité aux États-Unis au même moment, je n'y suis pas allé.) Secundo, et sans doute le plus important : je trouve que l'idée de compétition, que ce soit entre les individus ou les pays, va complètement à l'encontre de l'esprit de la science qui est — ou devrait être — collaboratif et non compétitif.

[#2] Hint : dans la réalité, les maths sont dures pour tout le monde. Si elles ne l'étaient pas, l'hypothèse de Riemann serait décidée à l'heure qu'il est. (En fait, on peut même défendre l'idée que c'est une conséquence d'un théorème et d'un postulat physico-philosophique de Church et Turing que : les mathématiques ne peuvent pas être triviales pour aucun habitant de cet Univers, humain, extra-terrestre ou ordinateur.)

↑Entry #2320 [older| permalink|newer] / ↑Entrée #2320 [précédente| permalien|suivante] ↑

↓Entry #2317 [older| permalink|newer] / ↓Entrée #2317 [précédente| permalien|suivante] ↓

(mercredi)

Petit supplément à ma page d'ondes sur la sphère

J'ai présenté avant-hier une page en JavaScript (enfin, deux : avec WebGL ou sans) qui affiche une animation d'ondes sur une sphère (un peu plus précisément, une solution de l'équation des ondes (∂²/∂t²−c²Δ)φ=0, où Δ est le laplacien sphérique ; ou en fait, trois solutions à la fois, une pour chaque composante de couleur RGB). J'ai ajouté un bouton pause, mais ce n'est pas le plus intéressant : j'ai surtout ajouté toutes sortes de modes spéciaux.

(Si la description qui suit ne vous intéresse pas, sautez directement jusqu'au dernier paragraphe.)

On m'avait demandé si je pouvais permettre un choix de la condition initiale (pour les non-mathématiciens : la configuration à partir de laquelle l'onde évolue) : ce serait assez compliqué de fournir une façon de faire ça en général, mais on peut quand même permettre de choisir une configuration qui a des symétries particulières (qui se conserveront avec l'évolution dans le temps). C'est ce que ma page JavaScript permet maintenant. Un exemple de tel cas est la situation où il y a symétrie par rapport au centre de la sphère : l'état est en permanence le même en deux points antipodaux l'un de l'autre (i.e., φ(−x,−y,−z) = φ(x,y,z)) ; si on veut, on peut considérer qu'il s'agit alors d'une équation des ondes sur le plan projectif réel (qui est la sphère où on a identifié les paires de points antipodaux) ; ceci a l'intérêt qu'on voit alors la totalité de la configuration (puisque le programme n'affiche qu'un hémisphère, mais l'autre s'en déduit par symétrie). On peut imaginer d'autres symétries de ce genre, évidemment : par rapport à un plan (si c'est le plan parallèle au plan de projection — que j'appelle z=0 — alors on voit de nouveau toute la configuration, puisque de nouveau l'autre hémisphère est symétrique, mais cette fois par rapport à un plan, ce qui est donc subtilement différent) ; ou par rapport à un axe, et dans ce cas, à différents niveaux. (Je me suis limité à une symétrie d'ordre 2 ou 3 par rapport à l'axe de vision, parce que je ne calcule pas assez d'harmoniques pour qu'une symétrie d'ordre supérieur puisse être intéressante à voir, déjà 3 est limite. C'est dommage, parce qu'en général on pouvait demander des groupes de symétrie plus intéressants, à savoir les symétries d'un des solides réguliers. Mais bon, même dans le cas de la symétrie cubique/octaédrale, je n'ai pas le courage de calculer l'action sur les harmoniques sphériques.)

Mais j'ai un autre type de configuration particulière à proposer : il s'agit des cas où l'équation des ondes conserve la « masse totale », c'est-à-dire techniquement la norme L² (en l'occurrence, sur chacun des canaux de couleur) : pour parler grossièrement, des creux et des bosses peuvent se déplacer, mais leur quantité totale doit rester inchangée (note : la moyenne reste de toute façon constante — dans mon cas, à 0 que je représente par le gris intermédiaire qui sert aussi de fond — et c'est ici de la moyenne quadratique que je parle). Je ne sais pas quel est le terme standard (il y en a probablement un) pour désigner ce genre de configurations de l'équation des ondes. La situation complètement opposée est celle d'une onde stationnaire : très grossièrement parlant, dans une onde stationnaire, les creux et les bosses apparaissent et disparaissent, mais ne changent pas de place. Comme ce n'est pas terriblement intéressant, j'ai défini les configurations « stationnaires par niveau », qui sont celles où chaque niveau d'harmoniques sphériques (et chaque canal RGB) définit une onde stationnaire. Ces deux conditions se combinent d'ailleurs agréablement avec la condition d'être symétrique par rapport au centre de la sphère (« projectif », cf. ci-dessus), donc j'ai aussi mis les conjonctions en question.

Pour ceux qui connaissent un peu plus de maths, voici une explication plus claire sur ces deux conditions de conserver la masse L² et d'être stationnaire par niveau : en général, on peut écrire φ = ∑u,m(tY[,m] (pour −m, et parcourant les entiers naturels — même si mon JavaScript ne monte que jusqu'à 8), où les Y[,m] sont les harmoniques sphériques (réelles), qui vérifient (ΔY[,m] = −(+1)·Y[,m]) et sont orthogonaux au sens L² et u,m(t) est une sinusoïde de fréquence (c/2π)·√((+1)) (c'est ça qui assure qu'on vérifie l'équation des ondes). Cette dernière condition peut s'écrire u,m(t) = Re(Z,m·exp[i·c·√((+1))·t]) avec Z,m un nombre complexe (dont le module et l'argument déterminent l'amplitude et la phase de cette sinsuoïde). La condition de conserver la masse L² signifie que la somme des carrés de ces parties rélles ne dépend pas de t, ce qui revient en fait à ce que la somme des carrés des complexes Z,m (pour −m) s'annulle pour chaque . La condition d'être stationnaire par niveau, elle, signifie que pour chaque , les Z,m ont tous la même phase à π près (i.e., ils sont proportionnels par des nombres réels).

La première condition m'a d'ailleurs conduit au problème suivant, qui est assez perturbant : comment tirer au hasard de façon « naturelle » des nombres complexes Z1,…,Zk tels que Z1² + ⋯ + Zk² = 0 ? (Il revient au même de chercher des réels A1,…,Ak et B1,…,Bk tels que la somme des Ai² soit égale à la somme des Bi², et que la somme des Ai·Bi soit nulle, i.e., deux vecteurs de même norme et orthogonaux.) En l'absence de condition, je choisis les Zi en tirant leur partie réelle Ai et leur partie imaginaire Bi indépendamment selon une distribution gaussienne (dont l'écart-type décroît avec , mais ce n'est pas la question ici) ; pour une distribution stationnaire par niveau, je choisis un complexe de module 1 une fois pour toutes, et je le multiplie par des réels tirés selon une distribution gaussienne ; mais pour Z1,…,Zk tels que Z1² + ⋯ + Zk² = 0, ce n'est pas clair ce qu'il vaut mieux faire. Je pensais prendre une distribution gaussienne conditionnée par cette condition, mais je suis tombé sur le paradoxe de Borel, et du coup je ne sais pas exactement quoi faire. Au final, je tire Ai et Bi selon des distributions gaussiennes, je projette B sur l'orthogonal à A, et je le renormalise pour avoir la même norme que A (on se convaincra, au moins, que c'est en fait symétrique entre A et B), mais peut-être que la distribution que je donne à la norme carrée de A n'a pas le bon nombre de degrés de liberté (si tant est qu'il y en ait un « bon »).

Toutes ces choses étant dites, je serais curieux de savoir quelle impression font ces différents « modes », même (et surtout) sur ceux qui n'ont pas lu ou compris les explications ci-dessus. Y en a-t-il qui vous semblent plus jolis ? Et pensez-vous pouvoir les reconnaître (à part ceux qui présentent des symétries vraiment évidentes, c'est-à-dire les axialement 2-symétrique et 3-symétrique et les symétriques par rapport aux plans x=0 et y=0) ? Il y a une façon de reconnaître les modes projectifs (même si elle n'est pas évidente quand on laisse tourner l'animation ; je laisse en exercice de deviner de quoi il s'agit). Mais pour ce qui est des modes L²-conservatif et stationnaire par niveau, je n'arrive pas à savoir si j'arrive vraiment à les reconnaître ou si c'est une sorte d'effet placébo (je devrais écrire de quoi faire des tests à l'aveugle) ; et de même pour le mode symétrique par rapport à z=0.

↑Entry #2317 [older| permalink|newer] / ↑Entrée #2317 [précédente| permalien|suivante] ↑

↓Entry #2316 [older| permalink|newer] / ↓Entrée #2316 [précédente| permalien|suivante] ↓

(lundi)

Une envoûtante animation d'ondes sur la sphère

Comme je me suis décidé relativement récemment (j'y ai fait allusion au passage) à apprendre des choses que j'aurais sans doute dû savoir depuis longtemps sur l'analyse harmonique élémentaire sous les groupes compacts, j'ai voulu faire joujou avec les harmoniques sphériques.

Comme il faut bien que je dise au moins approximativement de quoi il est question, voici une petite digression à ce sujet.

Beaucoup de gens, même non-mathématiciens, ont probablement entendu parler des séries de Fourier, qui sont une façon d'analyser un signal périodique en le décomposant en fréquences harmoniques : grossièrement parlant, il s'agit d'écrire une fonction de fréquence f comme comme de sinusoïdes de fréquences n·f (la « n-ième harmonique ») dont l'amplitude et la phase dépendent de n. Par ailleurs, un signal périodique, c'est la même chose qu'une fonction sur le cercle (un temps circulaire, c'est la même chose qu'un temps qui se répète périodiquement : voyez l'article Wikipédia que je viens de lier, il y a plein d'animations très cool dessus) : les séries de Fourier sont donc, si on préfère, une façon d'analyser les fonctions sur le cercle.

Mais il existe aussi une façon très analogue de décomposer un signal sur la sphère (il existe des choses analogues en toute dimension, et même sur des espaces nettement plus généraux, mais limitons-nous à la sphère de dimension 2) : au lieu de développer en sinusoïdes de fréquences multiples de la fondamentale comme on le fait pour les séries de Fourier (séries trigonométriques), on développe en termes de ce qu'on appelle des harmoniques sphériques, et le développement correspondant s'appelle l'expansion multipolaire (note : ces deux articles Wikipédia parlent en gros de la même chose, et il faudrait sans doute les fusionner, ou au moins les harmoniser — mais c'est un bon exemple de la manière dont des gens peuvent faire la même chose sans vraiment se parler). Ce développement a beaucoup de propriétés communes avec le développement de Fourier. Une différence notable est qu'au lieu d'avoir juste le multiple n de la fréquence fondamentale (si on veut, le nombre de bosses sur le cercle), les harmoniques sphériques Y[,m] dépendent de deux entiers, étant en quelque sorte le niveau de fréquence totale et m la fréquence en longitude. (Elles dépendent, du coup, du choix d'un pôle nord : si on effectue une rotation quelconque de la sphère, la fonction Y[,m] se transforme en une combinaison linéaire des Y[,m′] pour ce même et l'ensemble de tous les m′. Une recherche sur Google images donnera au moins une idée de ce à quoi ces fonctions ressemblent, sous différentes représentations graphiques — et on voit vaguement en quoi ce sont des analogues sur la sphère des sinusoïdes sur le cercle.) Du coup, au lieu d'avoir une série simple de coefficients de Fourier, on a une série à deux indices ,m de coefficients harmoniques.

Cette décomposition a des applications dans beaucoup de domaines : elle est très souvent pertinente pour étudier une fonction sur la sphère. Par exemple, une quantité définie sur la Terre tout entière, ça aurait un sens, et souvent un intérêt, d'essayer de la décomposer en harmoniques sphériques (je ne sais pas, moi, la forme du géoïde, la température de surface à un instant donné, la densité de population humaine, ce genre de choses ; les physiciens font ça aussi, entre autres, pour analyser le rayonnement cosmologique fossile et confronter son spectre aux théories).

Mais un intérêt particulier de la décomposition en séries de Fourier (ou de la transformée de Fourier), c'est aussi de résoudre des équations aux dérivées partielles linéaires ; d'ailleurs, Fourier cherchait, historiquement, à résoudre l'équation de la chaleur sur un cercle. C'est aussi le cas pour la décomposition en harmoniques sphériques, essentiellement à cause du fait que les harmoniques sphériques Y[,m] sont des vecteurs propres du laplacien shérique (ΔY[,m] = −(+1)·Y[,m]), ce qui les rend très confortables dans des équations faisant intervenir cet opérateur, comme l'équation de la chaleur ou l'équation des ondes. C'est pour cette raison que les harmoniques sphériques apparaissent dans la résolution de l'équation de Schrödinger pour le calcul des orbitales des électrons dans un atome.

Bref, j'ai fait une petite page en JavaScript qui représente l'évolution — linéaire — d'une onde sur une sphère (ou peut-être plutôt trois ondes, une par composante de couleur). En fait, j'ai fait deux versions de cette page :

ici en WebGL et ici sans

(la version WebGL est généralement beaucoup plus rapide que celle sans — cette dernière pourrait mettre plusieurs secondes, voire dizaines de secondes, à se charger, et affichera certainement moins d'images par seconde — mais la version WebGL a aussi plus de chances de ne pas marcher, ou de marcher bizarrement, ou dans de rares cas de crasher le navigateur ; à part ça, elles sont censées afficher exactement la même chose, aux choix aléatoires initiaux près).

Je trouve ça extrêmement joli et vraiment fascinant à regarder. J'ai passé un temps fou à regarder cette sphère opalescer jusqu'à me laisser hypnotiser par elle. (Mais pourquoi on ne m'a jamais dit ça, quand on m'a parlé de l'équation des ondes, que ça pouvait être aussi joli ?)

Après, je suis un peu déçu par les navigateurs. La version sans WebGL est lente, ce qui est peut-être normal parce qu'elle doit effectuer en gros 81 multiplications+additions par pixel et par rafraîchissement, mais je pensais quand même que les ordinateurs arriveraient à faire un ordre de grandeur plus vite que ça, surtout qu'on m'a tellement vanté que JavaScript était maintenant un langage ultra-rapide. La version avec WebGL est d'une rapidité acceptable, mais j'ai horriblement souffert pour l'écrire, à me cogner contre une limitation après une autre de ce truc (par exemple, j'avais voulu faire ça avec des textures flottantes, mais déjà c'est une extension pas garantie et ensuite de toute façon, on ne peut pas demander 81 textures flottantes, quelle que soit leur taille, c'est trop). Dans tous les cas, je n'ai pas vraiment pu aller au-delà de 9 niveaux d'harmoniques sphériques (c'est-à-dire <9 ; c'est pour ça que la sphère est aussi lisse) : c'est dommage, parce que je pense que ça peut être intéressant avec beaucoup plus, mais je ne vois pas vraiment comment améliorer l'efficacité.

(Les téméraires peuvent reprendre le fichier et modifier la ligne var degree_cut = 9 pour remplacer 9 par le nombre qu'ils voudront, mais déjà pour 12, la version sans WebGL est inacceptablement lente chez moi — bon, il est vrai qu'on peut baisser la résolution pour compenser, en changeant les attributs width="300" height="300" de l'élément canvas — et la version WebGL ne marche tout simplement plus puisque le « fragment shader » devient trop long et bute contre une autre limitation du machin.)

J'essaierai sans doute de calculer une animation en haute résolution et avec beaucoup d'harmoniques (j'aimerais bien arriver à mettre quelque chose comme 30 niveaux), et la mettre sur YouTube. Qui, bien sûr, massacrera impitoyablement la qualité de ce que j'aurai calculé (surtout que les formats vidéo sont très mauvais avec les couleurs qui bougent), mais bon, je ne sais pas bien quoi faire de mieux.

Mise à jour : Voici un lien vers la version sur YouTube, où j'ai calculé 31 niveaux d'harmoniques ce qui donne plus de détails sur la sphère (détails malheureusement en partie obscurcis par la compression vidéo).

Ajout/suite : Voir l'entrée suivante.

↑Entry #2316 [older| permalink|newer] / ↑Entrée #2316 [précédente| permalien|suivante] ↑

↓Entry #2310 [older| permalink|newer] / ↓Entrée #2310 [précédente| permalien|suivante] ↓

(lundi)

Comment faire un jeu de Tribble

Je continue sur les idées développées dans cette entrée (et dans une moindre mesure la suivante) : ma métaphorique petite sœur se plaint qu'un quadrangle généralisé ce n'est pas, nonobstant mes explications fumeuses, une structure très convaincante pour inventer des jeux de cartes, alors que le jeu de Dobble a au moins réussi à convaincre des gens de l'éditer. Si ce dernier est basé sur le principe que deux cartes quelconques ont toujours un symbole en commun, peut-on faire un paquet où trois cartes quelconques auraient toujours un symbole en commun ?

Réponse : oui, on peut, mais je crois qu'il va falloir admettre un nombre de symboles par carte un peu désagréablement élevé (ou un nombre total de cartes bien bas) :

[Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles] [Carte à quatre symboles]

J'ai créé ici 26 cartes portant chacune 30 symboles choisis parmi un répertoire de 130, chaque symbole apparaissant sur 6 cartes différentes, deux cartes distinctes ayant toujours exactement 6 symboles en commun, et trois cartes distinctes ayant toujours exactement 1 symbole en commun. On peut donc imaginer toutes sortes de jeux de rapidité (ou en fait, plutôt de patience) consistant à chercher le symbole en commun à trois cartes, selon des règles inspirées de celles qui servent pour Dobble. Maintenant, à vrai dire, je trouve ça surtout excessivement fastidieux : il m'a fallu plus de deux minutes pour trouver le symbole commun entre les trois premières cartes (notons que l'ordre des cartes affiché ci-dessus n'est pas aléatoire, et ce symbole est en fait commun aux cinq premières cartes et à la dernière, mais ce n'est pas un bug), et je ne trouve pas ça spécialement ludique. Mais bon, il y a plein de choses que je ne trouve pas ludique et que d'autres gens aiment, alors peut-être que ce jeu peut quand même trouver des adeptes (si quelqu'un veut un tirage physique, qu'il me fasse signe).

Ajout : Un jeu qu'on pourrait jouer avec ces cartes consiste à distribuer à chaque joueur le même nombre de cartes (le plus élevé possible) en en laissant deux face retournée sur la table ; quiconque peut montrer du doigt un symbole en commun entre une carte quelconque de sa main et les deux cartes sur la table pose sa carte sur la table et défausse l'une des deux qui y étaient déjà (de façon qu'il y en ait toujours deux) ; le jeu se continue jusqu'à ce que quelqu'un se soit ainsi débarrassé de toutes ses cartes. La particularité de cette procédure est que celui qui arrive à poser une de ses cartes gagne un avantage pour le coup suivant vu qu'il a pu déjà rechercher l'intersection entre les deux cartes sur la table.

Pour répondre à des questions naturelles : l'ordre de disposition des symboles sur une carte donnée est totalement aléatoire (j'ai commencé par essayer de trouver une logique qui me convienne, mais j'ai vite craqué et opté pour un tirage au hasard — enfin, au hasard déterministe —, au prétexte qu'il vaut mieux un chaos garanti qu'un ordre basé sur une logique douteuse) ; et la permutation des symboles à l'intérieur du répertoire l'est aussi. L'ordre des cartes affiché ci-dessus n'est pas aléatoire, mais ça n'a pas d'importance puisqu'un vrai jeu de cartes serait de toute façon mélangé avant usage. Et sinon, je sais que mon choix de symboles est certainement merdique, mais je n'accepterai de critiques que de la part de gens qui peuvent en suggérer un meilleur ; j'ai cherché à avoir une proportion raisonnable de signes d'écriture (lettres ou caractères chinois) et de dessins, j'ai voulu éviter les symboles qui se ressemblent trop (par exemple, je n'ai pas mis le ‘C’ parce qu'il est trop semblable au ‘G’, je n'ai pas mis le ‘Ш’ parce qu'il est trop semblable au ‘Щ’, etc.) même si je sais qu'il en reste, et globalement il n'y a pas trop de logique mais c'est un peu l'idée.

J'explique maintenant comment construire la chose, parce que je trouve ça assez joli : pour résumer très brièvement, on peut dire que si le jeu de Dobble est basé sur l'idée que deux points distincts dans le plan (projectif, mais peu importe) déterminent une unique droite, celui-ci est basé sur l'idée que trois points distincts sur la sphère déterminent un unique cercle (cercle signifiant petit ou grand cercle, i.e., l'intersection de la sphère avec un plan ; en l'occurrence, le plan passant par ces trois points) : on imaginera les cartes du jeu comme les points de la sphère, et les symboles sur une carte comme les cercles passant par ce point. Il ne reste plus qu'à transformer ça en une structure finie en passant sur un corps fini, donc à expliquer ce que sphère et cercle veulent dire dans ce contexte. En gros, je dois parler un peu de géométrie de Möbius.

↑Entry #2310 [older| permalink|newer] / ↑Entrée #2310 [précédente| permalien|suivante] ↑

↓Entry #2308 [older| permalink|newer] / ↓Entrée #2308 [précédente| permalien|suivante] ↓

(mercredi)

Comment faire un jeu de cartes à partir d'un quadrangle généralisé

L'entrée précédente m'a donné envie de concevoir des jeux de cartes avec des structures combinatoires mathématiques remarquables. Je vais déjà en tirer un avec une structure liée à celle des 27 droites sur une surface cubique (à savoir, l'ensemble des 36 double six de telles droites)[#], mais ce serait plutôt pour faire de la cartomancie oulipienne. Je me demandais ce que je pourrais inventer de plus jouable. Et d'un autre côté, parmi les structures combinatoires que j'avais vaguement à l'esprit, il y avait (je les ai mentionnées dans l'entrée précédente, et je vais dire ci-dessous de quoi il s'agit) les quadrangles généralisés.

((Ceux de mes lecteurs qui ne sont pas intéressés par les aspects mathématiques peuvent directement sauter au dessin des cartes ci-dessous, après quoi je pose quelques questions de design, si j'ose dire.))

Pour essayer d'imaginer quelque chose de jouable, j'ai médité sur la structure d'un jeu ordinaire de 52 cartes. Tout le monde sait qu'il s'agit des 13×4 cartes constituant chacune des combinaisons, des couples si on veut, entre un symbole de {A,2,3,4,5,6,7,8,9,X,V,D,R} (la « valeur » de la carte) et un symbole de {♣,♢,♡,♠} (la « couleur » de la carte, le terme français était d'ailleurs épouvantablement ambigu parce qu'il recouvre à la fois ce que les Anglais appellent suit, c'est-à-dire le symbole que je viens de dire, et ce que les Anglais appellent colour, c'est-à-dire noir pour ♣,♠ ou rouge pour ♢,♡ — mais passons). Mathématiquement, on a donc affaire au produit cartésien {A,2,3,4,5,6,7,8,9,X,V,D,R} × {♣,♢,♡,♠}, qui n'est pas une structure combinatoire très intéressante. Si on considère les cartes comme des points et les symboles comme des droites (verticales ou horizontales : voir le dessin ci-dessous), on a affaire à une simple grille. Maintenant, voici quelques propriétés de cette « géométrie », qui peuvent paraître bizarrement compliquées, mais dont on va voir le sens à les énoncer ainsi :

A 2 3 4 5 6 7 8 9 X V D R
  1. Sur chaque carte figurent exactement 2 symboles (distincts) [à savoir, l'indication de sa valeur et l'indication de sa couleur].
  2. Chaque symbole figure sur exactement 4 ou 13 cartes (distinctes) [4 dans le cas d'une valeur, 13 dans le cas d'une couleur].
  3. Deux cartes ayant deux symboles en commun coïncident [il n'y a pas de cartes différentes ayant la même valeur et la même couleur]. Diverses reformulations équivalentes : deux cartes distinctes ont au plus un symbole en commun ; deux symboles distincts figurent sur au plus une carte ; deux symboles figurant tous les deux sur deux cartes distinctes coïncident.
  4. Si C est une carte et σ est un symbole qui ne figure pas sur C, alors il existe exactement une carte D et un symbole τ tels que σ figure sur D et τ figure à la fois sur C et sur D. [Explication ci-dessous.]

La propriété (4) peut sembler bizarre, mais concrètement, elle signifie simplement que si C est une carte et σ est soit une valeur différente soit une couleur différente de celle de C, alors il existe une carte D qui a cette valeur ou couleur et qui pour l'autre symbole (couleur ou valeur respectivement) τ a la même que celle de C.

Cette dernière propriété, d'ailleurs, est en quelque sorte celle utilisée dans un nombre essentiellement infini de jeux de cartes (par exemple le jeu commercial Uno, le « huit américain » ou « maou maou », le « Tschau Sepp » suisse, etc.) qui sont des variantes mineures autour du principe suivant : chaque joueur a des cartes dans sa main dont il doit se débarrasser, ils jouent tour à tour et chacun peut poser une carte ayant un symbole commun avec la carte précédemment jouée (c'est-à-dire concrètement : ayant la même valeur ou la même couleur — le plus souvent la même couleur, bien sûr, puisqu'il y a plus de telles cartes). La propriété signifie alors que si la carte C a été jouée et que je veux passer le jeu à σ qui n'est pas actuellement jouable (i.e., changer la valeur ou la couleur), il y a une unique carte jouable D qui permettra de faire ce changement.

Si j'ai écrit les propriétés sous la forme bizarre ci-dessus, c'est pour pouvoir amener la définition d'un quadrangle généralisé, ou plus exactement, un quadrangle généralisé fini de paramètres (s,t) (deux entiers), définition que je vais formuler ici avec des cartes et des symboles (mais les termes classiques seraient points et droites, sachant que la définition est symétrique entre les deux, à permutation près des paramètres s et t ; je fais ici la convention que les cartes sont les points et les symboles les droites, mais le contraire irait tout aussi bien) :

  1. Sur chaque carte figurent exactement t+1 symboles (distincts).
  2. Chaque symbole figure sur exactement s+1 cartes (distinctes).
  3. Deux cartes ayant deux symboles en commun coïncident. Diverses reformulations équivalentes : une carte est complètement déterminée par la donnée de deux quelconques de ses symboles ; deux cartes distinctes ont au plus un symbole en commun ; deux symboles distincts figurent sur au plus une carte ; deux symboles figurant tous les deux sur deux cartes distinctes coïncident ; un symbole est complètement déterminé par la donnée de deux cartes sur lequel il figure.
  4. C σ D τ Si C est une carte et σ est un symbole qui ne figure pas sur C, alors il existe exactement une carte D et un symbole τ tels que σ figure sur D et τ figure à la fois sur C et sur D. (Cf. dessin ci-contre.)

Les propriétés (3)&(4) sont donc exactement les mêmes que ce que j'ai énoncé pour un jeu de cartes usuelles. La (1) est une généralisation de ce qu'elle était ci-dessus pour autoriser plus que 2 symboles par carte (par contre, on notera bien que la troisième propriété continue à parler de deux symboles : une carte est complètement déterminée par deux quelconques de ses symboles). La propriété (2), en revanche, diffère de ce qu'on avait pour un jeu de cartes ordinaires, en ce sens que chaque symbole figure maintenant sur le même nombre de cartes, au lieu qu'il y ait des types de symboles figurant sur un nombre plus ou moins grand de cartes.

Dans la propriété (4), on dit parfois que τ est le perpendiculaire de σ à travers C : cette terminologie a l'avantage de bien faire ressortir l'unicité, et elle est raisonnable quand on pense à l'exemple d'une grille (par exemple, le perpendiculaire à ♠ passant par 8♡ est 8 : c'est bien le cas sur le dessin de la grille que j'ai fait plus haut). Néanmoins, cette terminologie suggère une notion métrique (des angles), qui n'existent pas ici : on demande simplement une condition d'incidence entre σ et τ (à savoir, qu'ils figurent sur la carte D). D'autre part, comme cartes et symboles jouent des rôles totalement symétriques dans les propriétés (j'ai fait mes dessins avec les cartes pour points et les symboles pour droites, mais je pouvais faire le contraire), on pourrait tout aussi bien dire que D est la perpendiculaire de C à travers σ (et pour le coup, dans le cas d'une grille, c'est beaucoup moins intuitif : la perpendiculaire à 8♡ par ♠ est 8♠). Passons.

↑Entry #2308 [older| permalink|newer] / ↑Entrée #2308 [précédente| permalien|suivante] ↑

↓Entry #2307 [older| permalink|newer] / ↓Entrée #2307 [précédente| permalien|suivante] ↓

(mercredi)

Le jeu de cartes Dobble et la géométrie projective expliquée aux enfants

[Arrangement des cartes de Dobble]J'avais déjà entendu parler du jeu de cartes Dobble (appelé Spot it! aux États-Unis). Il s'agit d'un jeu de 55 cartes circulaires (logiquement il devrait y en avoir 57, mais il en manque deux pour une raison que seul l'éditeur du jeu connaît), chacune portant 8 symboles différents parmi 57 symboles possibles (un peu façon émojis : cœur, clé, cadenas, flocon de neige, sens interdit, coccinelle, vous voyez le genre). La propriété sur laquelle se base le jeu est que deux cartes quelconque du jeu ont toujours un et un seul symbole en commun, et le jeu est un jeu de rapidité consistant à identifier le plus rapidement possible ce symbole (selon les variantes : entre une carte qu'on a en main et une carte au sommet d'une pioche, ou quelque chose comme ça). Le jeu est assez distrayant et intéressant en ce que c'est un jeu auquel des adultes et des très jeunes enfants peuvent jouer ensemble et trouver également rigolo, ce qui n'est pas une contrainte évidente.

Mais son intérêt est également mathématique, car il s'agit d'une structure combinatoire classique et remarquable : pour les mathématiciens qui me lisent, disons brièvement qu'il s'agit du plan projectif sur le corps fini à 7 éléments (les cartes étant, disons, les points, et les symboles les droites — ou le contraire si on préfère — et le fait pour un symbole de figurer sur une carte étant la relation d'incidence). Pour les non-mathématiciens, on peut mentionner une autre propriété, duale de la précédente, qu'ont les cartes : deux symboles quelconques figurent toujours sur une et une seule carte — sauf s'il s'agit d'une des deux cartes « manquantes ». Mais le jeu n'exploite pas cette autre propriété, ce qui est vraiment dommage, parce que c'est la combinaison des deux qui rend la structure mathématiquement vraiment intéressante (voir ici par exemple). Voir aussi cet article de vulgarisation sur le site Images des mathématiques qui tente d'expliquer un peu les choses pour les non-mathématiciens. Comme son auteur (que je salue au passage si par hasard il me lit), je trouve vraiment dommage que les éditeurs n'aient pas eu de meilleure idée pour exploiter la structure combinatoire remarquable qu'ils ont concrétisée que de faire un simple jeu de rapidité (et n'utilisant qu'une seule des deux propriétés duales que j'ai mentionnées), et j'appelle à ce qu'on invente d'autres jeux amusants avec ce jeu de cartes. On pourrait par exemple jouer à choisir deux symboles (i.e. : deux joueurs en choisissent chacun un, le notent sur un papier, et le révèlent simultanément), et essayer de trouver le plus rapidement possible, toutes les cartes étant étalées simultanément, quelle est celle qui contient les deux symboles choisis — mais il y a certainement plus intelligent à faire.

J'avais entendu parler de Dobble, disais-je, parce que plusieurs personnes m'avaient indépendamment proposé, comme une énigme, d'imaginer comment je concevrais un tel jeu (ce qui n'est pas vraiment une énigme, parce que pour un matheux un peu algébriste, un peu géomètre et/ou un peu combinatoricien, la structure d'un plan projectif sur un corps fini est tellement naturelle que j'avais donné la réponse avant d'avoir compris la question). Toujours est-il que je n'avais pas vu les cartes ni retenu le nom. Mais ce week-end, en passant chez des amis à Lyon, j'ai vu le jeu en question. (Il s'agit, d'ailleurs, des mêmes amis qui m'avaient fait découvrir le jeu de Set, un autre jeu de cartes basé sur une géométrie finie — en l'occurrence l'espace affine de dimension 4 sur le corps à 3 éléments.)

Et il y a assurément quelque chose de fascinant pour un matheux (surtout fasciné par les jolies structures combinatoires) d'avoir un plan projectif fini entre les mains. Ceci permet d'expliquer de façon visuelle et interactive comment fonctionne la géométrie projective finie bien mieux que je ne saurais le faire avec un tableau. Avec toutes sortes de questions qui se soulèvent naturellement, par exemple : comment trouver, le plus efficacement possible, quelles sont les deux cartes manquantes ? (imaginons que j'aie un jeu complet de 57 cartes, avec un ensemble de symboles inconnu a priori, et que j'en retire deux au hasard, comment trouver le plus rapidement l'ensemble des symboles de ces deux cartes retirées ?). Et comment disposer efficacement les cartes pour exhiber la structure géométrique ? Sur la photo ci-dessus, même si elle n'est pas terrible, on voit un tel arrangement possible : le carré 7×7 principal (celui où il manque une carte dans le coin en bas à gauche) a la propriété que chaque ligne de cartes a un symbole en commun, chaque colonne en a un, mais aussi chaque diagonale (prolongée cycliquement), chaque antidiagonale, et en fait, les diagonales de pas quelconques (cherchez les cartes ayant un cactus, par exemple) — un matheux dira qu'il s'agit du plan affine sur le corps à 7 éléments, et les cartes restantes (où il en manque aussi une) sont la droite à l'infini. Avec cette disposition, il n'est pas difficile de trouver quels sont les symboles des deux cartes manquantes ; reste que c'est un chouïa fastidieux d'y parvenir. Je me suis aussi amusé à calculer la disposition (duale) des symboles, ce qui permet de faire des petits tours de magie, du genre : choisis une carte, ne me la montre pas, dis-moi deux symboles qu'elle porte, et je te dirai quels sont les autres.

Je me serais précipité pour acheter le jeu s'il n'y avait pas ce gag des deux cartes manquantes, ce qui pour un obsessif-compulsif comme moi est aussi frustrant que l'idée d'avoir un beau rayonnage de livres tous identiques sauf un qui dépasserait les autres de 1cm. (Il existe aussi un Dobble Kids, dont les images laissent suggérer qu'il doit être basé sur un plan projectif d'ordre 5 au lieu de 7, et au lieu d'avoir les 31 cartes qu'il est alors censé avoir, les descriptions que je lis çà et là suggèrent qu'il n'en a que 30 — décidément, cet éditeur cherche à tuer les mathématiciens obsessifs.) Je pourrais aussi concevoir et faire imprimer mes propres cartes. (Je ne sais pas ce que valent les sites Web qui proposent l'impression de cartes personnalisées, mais je tombe par exemple sur celui-ci, qui proposent des tarifs raisonnables, même s'ils le deviendront certainement moins après frais de port depuis les États-Unis — je ne trouve pas grand-chose basé en France ou en Europe, et le problème c'est que les jeux de cartes personnalisés font référence à la personnalisation des dos, pas des faces.) En revanche, si je fais ça, je passerai sans doute une éternité à me torturer sur la manière la plus logique, symétrique et élégante de choisir les symboles et de les disposer sur les cartes (dans le cas de Dobble, c'est visiblement fait au hasard, y compris pour la forme et l'orientation, ce qui participe justement à la difficulté du jeu).

On pourrait aussi chercher à faire des jeux de cartes avec d'autres structures mathématiques (après tout, un plan projectif, c'est un immeuble de Bruhat-Tits classique sphérique de type A₂ : je peux regarder par exemple le type B₂ [ajout : voir l'entrée suivante], et ainsi fabriquer un jeu de 40 cartes avec 4 symboles parmi 40 sur chacune, telles que deux cartes aient toujours au plus un symbole en commun, et que si un symbole ne figure pas sur une carte donnée, alors il existe exactement une autre carte ayant ce symbole et ayant un symbole en commun avec la carte donnée). Mais bon, avant de trouver un jeu à faire avec une structure plus compliquée, il serait déjà intéressant d'en trouver avec les plans projectifs.

↑Entry #2307 [older| permalink|newer] / ↑Entrée #2307 [précédente| permalien|suivante] ↑

↓Entry #2303 [older| permalink|newer] / ↓Entrée #2303 [précédente| permalien|suivante] ↓

(vendredi)

Je passe plusieurs jours à paramétrer une surface cubique

Un des paradoxes de la manière dont je gère (mal !) mon temps est que quand je n'ai pas de choses importantes et urgentes qui m'occupent de façon pressante, toutes sortes de petites choses moins importantes ou moins urgentes que j'ai laissé de côté pendant d'autres périodes percolent alors à la surface, et j'ai l'impression d'être presque plus débordé. D'autant plus que le temps que prennent ces choses n'est pas forcément évident à évaluer. Ainsi l'exemple d'un calcul que j'ai commencé de façon très accessoire suite à une question d'un collègue, que je pensais pouvoir traiter assez rapidement, et qui m'a finalement obsédé pendant à peu près dix jours, à m'énerver de ne pas arriver à faire ce que je voulais et de croire N fois avoir trouvé le bon bout pour tomber en fait dans un cul-de-sac, au point que j'en ai perdu le sommeil pendant une nuit.

D'autant plus que ce n'était pas tellement le résultat du calcul qui m'intéressait, et dont je suis totalement certain qu'il est connu depuis Klein, Cayley, Clebsch ou, au pire, Segre, et qu'il figure dans quantité de livres ou d'articles, mais d'y arriver moi-même, et de façon systématique, sans essayer de « deviner » le résultat (qui, a posteriori, était éminemment devinable), bref, de vérifier que je savais mener ce calcul à bien. Apparemment, la réponse est : oui, j'y arrive, mais très difficilement (et je ne suis pas certain d'avoir été complètement systématique, au final).

Mais je crois qu'il est important pour un mathématicien, en tout cas pour un géomètre algébriste, d'essayer de faire des calculs parfois. Même, ou plutôt surtout, en utilisant un ordinateur : comme l'a écrit Knuth, Science is knowledge which we understand so well that we can teach it to a computer, et l'intérêt d'essayer d'expliquer quelque chose à un ordinateur est de vérifier qu'on le comprend soi-même bien (à défaut d'ordinateur, un étudiant neuneu peut être utile, ou un post de blog 😉). Donc, vérifier qu'on sait passer d'une incantation magique comme une surface cubique est, géométriquement, l'éclaté du plan projectif en six points en position générale (et ces 6 points, les 15 droites passant par deux d'entre eux, et les 6 coniques par cinq d'entre eux, forment les 6+15+6 = 27 droites de la surface cubique) à une suite de calculs qui donnent le paramétrage d'une surface donnée, c'est vérifier qu'on a compris l'incantation.

Bon, j'avoue, je dis ça pour essayer de me convaincre que mon calcul était difficile, or il ne l'était pas, ou du moins, il n'aurait pas dû l'être vu que j'ai passé trois quatre cinq ans à faire une thèse sur les (hyper)surfaces cubiques et que j'en ai même fait un DVD.

Bref.

Le but, si on veut, est de décrire (paramétrer) toutes les solutions rationnelles de l'équation z₁³ + z₂³ + z₃³ = 1, autrement dit, toutes les façons d'écrire 1 comme somme des cubes de trois rationnels (en fait, ce serait plutôt −1, mais ça n'a pas d'importance, il suffit de changer les signes). Pour donner un peu de contexte sur ces sortes d'équations diophantiennes, il faut que j'explique ce qui se passe pour les problèmes analogues s'agissant de la somme de deux carrés, de trois carrés, et de deux cubes.

[Figure géométrique] Je devrais donc commencer par parler des solutions rationnelles de l'équation z₁² + z₂² = 1 (les points rationnels sur le cercle unité si on considère que z₁ représente l'abscisse et z₂ l'ordonnée) et de leur paramétrage. Les solutions rationnelles de z₁² + z₂² = 1 sont données par z₁ = (1−t²)/(1+t²) et z₂ = 2t/(1+t²) pour t parcourant les rationnels (on obtient exactement toutes les solutions comme ça si on convient en outre que t=∞ donne (z₁,z₂)=(−1,0) ; la réciproque est donnée par t = z₂/(1+z₁) = (1−z₁)/z₂). Ces formules peuvent se relier aux formules donnant le cosinus et le sinus d'un angle θ en fonction de la tangente de l'angle moitié (attention !, je ne prétends pas que l'angle θ lui-même soit rationnel, ni même que sa valeur ait un intérêt quelconque dans le problème). La figure ci-contre (si votre navigateur vous la montre et que vous arrivez à la déchiffrer) est censée illustrer ce paramétrage, figure sur laquelle j'ai pris t=1/3, qui donne la solution z₁=4/5 et z₂=3/5 (on a (4/5)² + (3/5)² = 1, c'est-à-dire que le point (4/5,3/5) est sur le cercle unité, ou, si on préfère chasser les dénominateurs, 4² + 3² = 5²). Ces formules (le « paramétrage rationnel d'une conique par une droite de pente variable par un de ses points ») sont une sorte de pons asinorum de la géométrie arithmétique, et avec un tout petit peu de mauvaise foi on peut les attribuer à Pythagore ou à Euclide (dans la recherche des « triplets pythagoriciens », c'est-à-dire des solutions entières de l'équation Z₁² + Z₂² = Z₀² : le fait que le 4² + 3² = 5², c'est-à-dire que le triangle de côtés entiers 4,3,5 est rectangle, est connu depuis très longtemps, et la recherche de solutions analogues intéressait les mathématiciens dès l'antiquité). Il est donc assez naturel de se demander ce qui se passe si on change un petit peu l'équation.

La même technique que ci-dessus marche mutatis mutandis si on cherche les solutions rationnelles de z₁² + z₂² + z₃² = 1 (les points rationnels sur la sphère unité) ou même pour n'importe quel nombre de variables : on s'inspirera de la projection stéréographique de la sphère pour arriver à quelque chose comme z₁ = (1−v²−w²)/(1+v²+w²) avec z₂ = 2v/(1+v²+w²) et avec z₃ = 2w/(1+v²+w²) pour v et w rationnels (je passe sous silence des petites subtilités notamment sur ce qui arrive « à l'infini »).

Si on remplace les carrés par des cubes, en revanche, les choses sont très différentes : l'équation z₁³ + z₂³ = 1 n'a pas de solution rationnelle autre que les deux évidentes (1,0) et (0,1), cela a été démontré par Euler en 1770 (en montrant le cas particulier n=3 du théorème de Fermat, c'est-à-dire que Z₁³ + Z₂³ = Z₀³ n'a pas de solution entière). • Mais en ajoutant une variable, l'équation z₁³ + z₂³ + z₃³ = 1 a de nouveau quantité de solutions rationnelles, et mon calcul consistait essentiellement à en trouver le paramétrage :

z₁ = (9 − 9v + 3v² − 3v³ − 3w − 6v·w − 3v²·w + 3w² − v·w² − w³)/(9 − 9v + 3v² − 3v³ + 3w + 6v·w + 3v²·w + 3w² − v·w² + w³)

z₂ = (−9 − 9v − 3v² − 3v³ + 3w − 6v·w + 3v²·w − 3w² − v·w² + w³)/(9 − 9v + 3v² − 3v³ + 3w + 6v·w + 3v²·w + 3w² − v·w² + w³)

z₃ = (9 + 9v + 3v² + 3v³ + 3w − 6v·w + 3v²·w + 3w² + v·w² + w³)/(9 − 9v + 3v² − 3v³ + 3w + 6v·w + 3v²·w + 3w² − v·w² + w³)

vérifient z₁³ + z₂³ + z₃³ = 1 quels que soient v,w,

avec pour réciproque (« presque partout »)

v = (−1 + z₁² − z₂ − z₂² − z₁·z₃ + z₃²)/(z₁·z₂ + z₃)

w = (1 − 2z₁ + z₁² + z₂ − z₁·z₂ + z₂² + z₃ − z₁·z₃ + 2z₂·z₃ + z₃²)/(z₁·z₂ + z₃)

(Je vais expliquer qu'on peut écrire ces formules de façon un peu plus jolie !) Par exemple, v=2 et w=3 donnent la solution z₁=−5/4, z₂=−3/4 et z₃=3/2, et on a bien (−5/4)³ + (−3/4)³ + (3/2)³ = 1, ou, si on préfère chasser les dénominateurs, (−5)³ + (−3)³ + 6³ = 4³, ou encore, si on est resté un peu en retard sur les derniers progrès mathématiques et qu'on n'aime pas les nombres négatifs, 6³ = 5³ + 3³ + 4³ (au niveau des entiers naturels, les formules ci-dessus produisent donc plein de cubes égaux à la somme de trois autres cubes, ou, selon les signes, de sommes de deux cubes égaux à une autre telle somme). Remarquer que ces formules, comme celles que j'ai données plus haut pour le paramétrage rationnel du cercle ou de la sphère, permettent non seulement de trouver des solutions rationnelles, mais aussi d'approcher une solution réelle par une solution rationnelle (il suffit d'appliquer la « réciproque » sur les réels, d'approcher les paramètres, et d'appliquer la formule directe). Par exemple, si je veux trois entiers « assez proches » dont la somme des cubes est encore un cube, je pars de la solution réelle où z₁, z₂, z₃ valent 3−1/3 ≈ 0.6933612744, pour laquelle les formules réciproques me donnent v ≈ −1.4422495703 et w ≈ 2.0800838231, qui sont proches de −450/312 et 649/312 respectivement, et en appliquant les formules directes avec ces deux rationnels, on trouve, après avoir chassé les dénominateurs, 1403846621³ + 1403905879³ + 1403840755³ = 2024722855³, et ce n'est pas évident de trouver des choses comme ça autrement qu'en utilisant ce genre de techniques.

(Évidemment, c'est plus impressionnant avec le paramétrage rationnel du cercle : si vous cherchez des triangles rectangles à côtés entiers dont les angles non-droits soient proches de 45°, on remplacera t dans les formules donnant le paramétrage rationnel du cercle par les approximants successifs de √2 − 1, et on obtient ainsi successivement 3²+4²=5², 21²+20²=29², 119²+120²=169², 697²+696²=985², 4059²+4060²=5741², etc., où à chaque fois les deux carrés sommés sont non seulement proches mais même consécutifs — je ne sais pas si cette suite était connue des anciens Grecs.)

↑Entry #2303 [older| permalink|newer] / ↑Entrée #2303 [précédente| permalien|suivante] ↑

↓Entry #2301 [older| permalink|newer] / ↓Entrée #2301 [précédente| permalien|suivante] ↓

(jeudi)

Volumes intrinsèques (quermaß) des convexes

Considérons les questions suivantes, dont l'énoncé ne fait pratiquement appel qu'à des notions de niveau collège (quitte à les reformuler ou spécialiser un tout petit peu : par exemple, j'ai écrit convexe dans la seconde, mais si on veut, on peut considérer des cas particuliers comme un triangle, rectangle ou ellipse, pour simplifier) :

  • Une valise est contenue dans une autre : montrer que la somme des trois dimensions de la valise contenue est inférieure à la somme des trois dimensions de la valise contenante. Ou, plus formellement : si un parallélépipède rectangle (dans l'espace euclidien de dimension 3) est inclus dans un autre (on ne demande pas que les côtés des deux parallélépipèdes soient parallèles), alors la somme des trois côtés du contenu est inférieure [i.e., inférieure ou égale] à celle des trois côtés du contenant.
  • Si deux courbes fermées sans intersection (i.e., des courbes de Jordan) dans le plan délimitent des domaines convexes, l'une étant complètement contenue dans l'autre (i.e., le domaine convexe délimité est inclus), montrer que la longueur de courbe contenue est inférieure à la longueur de la courbe contenante. Idem dans l'espace : si deux convexes de l'espace sont inclus l'un dans l'autre, alors la surface du bord du convexe contenu est inférieure à la surface du bord du convexe contenant. Idem en n'importe quelle dimension.
  • On projette un cube orthogonalement sur un plan choisi aléatoirement (uniformément) : quelle est l'espérance de la surface de la projection ? (I.e., quelle est l'« ombre moyenne » d'un cube ?) On pince un cube entre deux plans parallèles dont la direction est choisie aléatoirement : quel est l'écart entre ces deux plans ? (I.e., quel est la largeur moyenne d'un cube selon une direction tirée au hasard ?)

Ces questions ont ceci en commun que, selon le niveau de réflexion qu'on leur accorde, elles semblent faciles (leur énoncé est tout à fait élémentaire), puis difficiles (on ne sait pas par quel bout les aborder), puis faciles (quand on les prend bien) : elles ont aussi ceci en commun qu'elles sont toutes résolubles grâce à la même notion mathématique, celle de volume intrinsèque d'un convexe (ou intégrale de quermaß, c'est la même chose à une constante et une renumérotation près) : c'est une notion que je trouve très jolie et naturelle, pas du tout compliquée à expliquer, et qui semble bizarrement peu connue même des mathématiciens en-dehors des spécialistes de la convexité ou de la géométrie intégrale/stochastique, alors qu'on peut en tirer des choses très simples (comme l'illustrent les problèmes ci-dessus). Bon, peut-être qu'en fait tout le monde connaît, et que j'étais le dernier à être mis au courant (il y a environ quatre ans, quand j'ai entendu parler de ces choses-là pour la première fois), mais ma réaction a été pourquoi aucun cours de maths que j'ai suivi ne m'a présenté ce concept vraiment naturel et intéressant ?!. Il y a toutes sortes de façon de l'approcher, je vais me contenter de donner les résultats basiques qui me semblent les plus importants.

Très grossièrement, l'idée est qu'à côté du volume (de dimension n) et de la surface (de dimension n−1, où n est la dimension ambiante — en fait, on prendra plutôt la demi-surface pour une raison de cohérence d'ensemble), on peut définir (pour un convexe compact) une sorte de « mesure » en chaque dimension entre 1 et n ; dans le cas d'un parallélotope (pas forcément rectangle, mais imaginons-le rectangle pour fixer les idées), le i-ième volume intrinsèque est égal, à une constante près (1/2i) à la somme des volumes i-dimensionnels (longueur, surface, volume, etc.) de toutes les faces de dimension i du parallélotope.

Voici une façon d'approcher cette notion. Si K est un convexe compact dans l'espace euclidien de dimension n, on peut considérer K+B(ρ) (où B(ρ) désigne la boule fermée centrée en l'origine et de rayon ρ, c'est-à-dire) l'ensemble des points situés à distance ≤ρ de K, autrement dit l'épaississement de K jusqu'à distance ρ, ou simplement la « boule » (mais j'éviterai ce terme) centrée sur K et de rayon ρ. On s'intéresse au volume [i.e., à la mesure de Lebesgue] V(K+B(ρ)) de cet ensemble de points : on peut montrer que c'est un polynôme en ρ (pour ρ≥0), et ce sont les coefficients de ce polynôme qui vont m'intéresser. Il est évident, en considérant séparément les cas ρ=0 et ρ très grand, que le coefficient constant (donc la valeur pour ρ=0) est simplement le volume V(K) de K, et que le terme dominant est le volume V(B(ρ)) de la n-boule de rayon ρ, que je vais noter 𝒱n·ρn avec 𝒱n le volume de la n-boule unité (qui vaut πn/2/(n/2)!, mais ce ne sera pas très important). On peut aussi se convaincre, en considérant le comportement pour ρ très petit mais non nul (disons, la dérivée en ρ=0), que le coefficient de degré 1 est la surface de K (c'est-à-dire la mesure (n−1)-dimensionnelle de son bord).

↑Entry #2301 [older| permalink|newer] / ↑Entrée #2301 [précédente| permalien|suivante] ↑

↓Entry #2299 [older| permalink|newer] / ↓Entrée #2299 [précédente| permalien|suivante] ↓

(lundi)

Notes sur les réseaux euclidiens, et le réseau de Leech

Je mets ici les transparents d'un exposé que j'ai donné vendredi matin dans le cadre d'une journée Télécom-UPS (Le Numérique pour tous) s'adressant aux professeurs de classes préparatoires : le sujet que j'ai évoqué était celui des réseaux euclidiens[#] et de leurs applications en cryptographie. Comme j'ai moi-même appris plein de choses en préparant cet exposé (entre autres en me plongeant un peu plus que je ne l'avais fait jusqu'alors dans le célèbre livre Sphere Packings, Lattices and Groups des deux mathémagiciens John Conway et Neil Sloane), je n'ai pas résisté à partir un peu dans tous les sens, et forcément j'avais beaucoup plus de choses sur mes planches que je ne pouvais en exposer en une heure : inversement, j'espère que leur lecture peut être intéressante sans l'exposé oral pour les accompagner.

Je n'ai notamment pas pu m'empêcher d'évoquer (le réseau) E₈, même s'il n'a aucun rapport avec la crypto dont j'étais censé parler. Ce qui me fait penser que si j'ai beaucoup parlé de E₈ sur ce blog, soit de l'algèbre ou du groupe de Lie de ce nom, soit du système de racines qui le définit, je n'ai pas vraiment parlé du réseau E₈ (celui engendré par le système de racines), qui est pourtant un objet plus simple (dans sa définition sans doute la plus compacte, c'est l'ensemble {(x₁,…,x₈) ∈ (ℤ⁸∪(ℤ+½)⁸) : x₁+⋯+x₈ ∈ 2ℤ} des octuplets de réels soit tous entiers soit tous ½+entiers, et dont la somme est un entier pair) ; et je n'ai jamais parlé du réseau de Leech de dimension 24 (qui est pourtant presque aussi ubiquiste dans les mathématiques que E₈, et peut-être encore plus exceptionnel). Voici une façon concise (mais peu constructive) de caractériser ces deux objets : si vous vivez dans un espace de dimension 8 (resp. 24) et que vous cherchez à empiler des boules toutes identiques, vous remarquerez qu'il y a une unique façon de mettre le nombre maximum de boules autour d'une boule centrale de façon à ce qu'elle la touchent toutes, à savoir 240 d'entre elles (resp. 196560), et de plus, une fois réalisé ce motif, il se continue de façon périodique (chaque boule ayant toujours ce même nombre maximum de voisines) ; en regardant le centre des boules, vous avez ainsi réalisé le réseau E₈ (resp. le réseau de Leech ou son symétrique). À part en dimension 2 où on obtient facilement le réseau hexagonal par la même construction (en disposant six cercles identiques autour d'un septième qu'ils touchent tous), les dimensions 8 et 24 sont exceptionnelles, au moins parmi celles qu'on connaît (j'ignore si on sait dire quelque chose sur les dimensions telles que l'arrangement maximal de boules identiques autour d'une boule centrale soit unique et engendre de plus un réseau, mais il n'y en a pas d'autre que 2,8,24 en dimension ≤24, et pas d'autre connue : dans les autres dimensions, les boules ne sont pas du tout rigides — par exemple, en dimension 3, on peut placer au maximum 12 boules identiques touchant une autre donnée, mais il y a beaucoup de façons de le faire, et elles peuvent se déplacer tout en gardant le contact avec la boule centrale).

Ceci étant, si les questions d'empilement de sphère sont frappantes, elles ne permettent pas vraiment de travailler avec le réseau de Leech. Sur le modèle de la définition que j'ai donnée ci-dessus du réseau E₈ (les octuplets de réels, soit tous entiers soit tous ½+entiers, dont la somme est un entier pair), voici la façon la plus simple et constructive que je connaisse de définir le réseau de Leech. Comme il vit en 24 dimensions, il y a 24 coordonnées à donner, et je disposerai ces 24 coordonnées sur les sommets d'un icosaèdre régulier (rappelons qu'un icosaèdre régulier a 12 sommets), deux par sommet, que j'appellerai arbitrairement la coordonnéee rouge et la coordonnée bleue (pour ce sommet). Le réseau de Leech est formé des points dont les coordonnées multipliées par √8 sont 24-uplet d'entiers vérifiant les conditions suivantes : (0) les bits 0 (=bits de poids faible) de ces 24 entiers sont tous les mêmes (i.e., ils sont soit tous pairs, soit tous impairs), (1) le bit 1 de l'entier rouge sur chaque sommet de l'icosaèdre est égal au XOR des bits 1 des entiers bleus des sommets qui ne sont pas adjacents à lui [la même chose est alors automatiquement vraie en échangeant bleue et rouge, et cette condition est une façon de dire que les bits 1 forment un mot du code de Golay binaire (24,12,8)], et enfin (2) le XOR des bits 2 de tous les entiers est égal à leur bit 0 commun [on a déjà dit que les bits 0 sont tous les mêmes]. (Note : le facteur √8 est un simple facteur de normalisation. Il a pour but d'assurer que le réseau de Leech a un covolume — c'est-à-dire la valeur absolue du déterminant d'une base — égal à 1, et alors les produits scalaires de deux vecteurs quelconques sont toujours entiers.)

±?/√8±?/√8±?/√8±?/√8±?/√8±?/√8
±?/√8±?/√8±?/√8±?/√8±?/√8±?/√8
±?/√8±?/√8±?/√8±?/√8±?/√8±?/√8
±?/√8±?/√8±?/√8±?/√8±?/√8±?/√8

Le tableau ci-contre, si mon JavaScript est bien fait, est censé afficher des vecteurs aléatoires de la plus petite longueur non nulle (à savoir 2) uniformément choisis parmi les 196560 possibles dans le réseau de Leech (qui est engendré par eux, c'est-à-dire, est l'ensemble de toutes les combinaisons entières de ces vecteurs) ; j'ai laissé non simplifiées des expressions comme 2/√8 (ou 4/√8, qui apparaît très rarement) pour mieux coller avec la présentation que je viens de donner. Ici, les coordonnées ont été disposées en tableau 6×4 parce que c'est plus commode à mettre sur une page Web qu'un icosaèdre avec deux coordonnées par sommet : si on veut faire le lien entre ces deux présentations, on peut reprendre l'étiquetage des cases que j'avais utilisée dans une entrée récente, et qui est rappelée en attributs title (i.e., si on passe la souris au-dessus d'une case), et les disposer sur un icosaèdre de la façon suivante : en appelant ♈︎ un premier sommet, les cinq sommets adjacents s'appelleront cycliquement ♑︎♒︎♏︎♓︎♊︎, et les six sommets opposés aux six que je viens de nommer seront ♎︎ et ♋︎♌︎♉︎♍︎♐︎ respectivement (à chaque fois, les deux étiquettes que je donne servent à définir la coordonnée « rouge » et la coordonnée « bleue » au sommet en question de l'icosaèdre).

Mais bon, il y a quantité de manières de décrire ou de construire le réseau de Leech (dans un seul chapitre du livre précédemment mentionné — le chapitre 24, et je soupçonne d'ailleurs que le numéro n'est pas un hasard —, Conway et Sloane donnent d'ailleurs 23 constructions différentes, une pour chacun des types de trous profonds [sic] du réseau). C'est un des signes qu'il s'agit d'un objet mathématique riche et extraordinaire qu'il y ait tellement de façons de le décrire. En voici une autre : on considère d'abord le réseau appelé II25,1 (dans l'espace Minkowskien de dimension 25+1) dont les points sont (exactement comme pour ma description de E₈ ci-dessus) les 26-uplets de réels, soit tous entiers soit tous ½+entiers, dont la somme est un entier pair ; dans ce réseau, on considère le vecteur v = (0,1,2,3,…,24|70), qui, vu que 70² = 0² + 1² + ⋯ + 24², est orthogonal à lui-même pour le produit scalaire Minkowskien ; on considère alors les vecteurs de II25,1 qui sont orthogonaux à v (c'est-à-dire que la somme des 25 premières coordonnées multipliées par 0,1,2,3,…,24 respectivement, est égale à la dernière multipliée par 70), modulo v lui-même : le réseau ainsi formé est isométrique au réseau de Leech. Ou, pour parler en physicien, on se place dans un espace-temps de relativité restreinte avec 25 dimensions d'espace et 1 de temps, on considère un photon qui se déplace à la vitesse (0/70, 1/70, …, 24/70), et le réseau très simple II25,1, vu par ce photon (dans l'espace perpendiculaire à son déplacement) est le réseau de Leech. Le passage entre cette description et la précédente, cependant, n'est pas évident.

[#] La terminologie prête vraiment à confusion, parce que le mot français réseau correspond à la fois à l'anglais network et lattice, et c'est du second qu'il est question. Mais l'anglais n'est pas moins ambigu, puisque lattice correspond à la fois au français réseau et treillis. Il ne reste plus qu'à inventer une quatrième sorte d'objet, qui s'appellerait treillis en français et network en anglais, et on aura un beau graphe bipartite complet K(2,2) dans les traductions.

↑Entry #2299 [older| permalink|newer] / ↑Entrée #2299 [précédente| permalien|suivante] ↑

↓Entry #2294 [older| permalink|newer] / ↓Entrée #2294 [précédente| permalien|suivante] ↓

(jeudi)

Exposé au séminaire Codes sources sur mon labyrinthe hyperbolique

Pour les ~7×10⁹ d'entre vous qui n'ont pas pu assister à mon exposé tout à l'heure au séminaire Codes sources (dont j'ai déjà parlé) consacré à l'explication de mon labyrinthe hyperbolique (toujours le même), les transparents sont ici — ou du moins, les transparents de la première partie de mon exposée, dédiée à l'exposition des idées mathématiques sous-jacentes ; ensuite j'ai commenté le code directement dans un éditeur, donc je ne peux que renvoyer vers les commentaires de celui-ci. Il y a évidemment beaucoup de choses que j'ai dites qui ne sont pas sur les transparents, mais ils donneront au moins une idée de ce dont j'ai parlé.

↑Entry #2294 [older| permalink|newer] / ↑Entrée #2294 [précédente| permalien|suivante] ↑

↓Entry #2293 [older| permalink|newer] / ↓Entrée #2293 [précédente| permalien|suivante] ↓

(samedi)

Déformation continue d'une rotation de 2 tours en rien du tout

Dans l'entrée que j'ai postée hier je mentionnais le groupe Spin(3), revêtement double du groupe SO(3) des rotations de la sphère, c'est-à-dire qu'il distingue une rotation par un tour complet de pas de rotation du tout ; et je mentionnais que le groupe Spin(3), lui, est simplement connexe (on ne peut pas le revêtir à son tour) : tout lacet, i.e., tout chemin qui revient à son point de départ, dans Spin(3), et notamment celui qui fait faire deux tours complets à la sphère, peut être contracté en rien du tout. J'ai essayé d'illustrer ce fait par une vidéo que je viens de mettre sur YouTube :

La sphère en haut à gauche (celle numérotée 0) fait deux tours complets pendant une période (=8 secondes) de la vidéo ; celle en bas à droite (numérotée 27) ne bouge pas. Chacune des sphères intermédiaires effectue un mouvement qui part et arrive à la même position de référence, et chacun de ces mouvements est très proche des mouvements de la sphère précédente et suivante. Ceci illustre le fait qu'on peut passer continûment de deux tours complets à zéro. Chose qui ne serait pas possible pour un seul tour (ou si on avait affaire à un cercle, quel que soit le nombre non-nul de tours).

Ceci étant, je n'y vois toujours pas grand-chose à la manière dont cette déformation se fait ou pourquoi elle n'est pas possible pour un seul tour (mon espoir était d'acquérir une intuition visuelle sur le groupe spin, pour le comprendre autrement que juste intellectuellement, et ce n'est pas franchement un succès). J'ai aussi produit une version séquentielle de la vidéo, où la sphère fait des mouvements successifs au lieu qu'on les voie tous simultanément, je ne sais pas si c'est plus clair :

OK, je vois bien que l'idée très grossière est que l'axe qui sert d'axe de rotation dans le premier mouvement (suivre des yeux le point de rencontre des trois pentagones verts) se met, au cours des différents mouvements, à faire des tours, si bien que la sphère n'a plus vraiment besoin de tourner autour de lui, puis ce tour qu'il décrit est lui-même recontracté à rien du tout, mais cette description est vraiment vague, et ne me fournit pas une explication visuelle intuitive de pourquoi on a besoin de faire deux tours pour contracter.

↑Entry #2293 [older| permalink|newer] / ↑Entrée #2293 [précédente| permalien|suivante] ↑

↓Entry #2292 [older| permalink|newer] / ↓Entrée #2292 [précédente| permalien|suivante] ↓

(vendredi)

Racontons des choses autour de la notion de groupe de Lie

Puisque j'ai publié une première entrée sur les octonions, je me dis qu'il faudrait que je fasse un peu de vulgarisation sur la notion de groupe de Lie et sur leur classification — et pourquoi c'est un résultat mathématique majeur. Voici une tentative pour raconter quelques choses dans cette direction.

Comme d'habitude quand je fais de la vulgarisation mathématique, (1) je ne sais pas bien à quel niveau de public je m'adresse (et ce niveau va d'ailleurs varier de façon incohérente au cours du texte, même pas forcément de façon monotone vu qu'il m'arrive de faire des digressions pour revenir ensuite à des choses plus basiques), et (2) je vais chercher à « raconter » les maths plus qu'énoncer des définitions et des résultats précis (j'essaie très fort de ne rien dire de faux, mais je dois souvent me réfugier dans un certain niveau de flou quand je veux cacher quelques détails techniques) : mon but est de donner un petit aperçu de ce à quoi ressemble cette théorie classique, certainement pas de l'enseigner précisément (pour ça, il y a toutes sortes de livres, d'ailleurs j'en suggère quelques uns). L'idée est que — qu'on me corrige si ce que je pense est en fait assez stupide — ça peut intéresser des gens de lire des choses à ce sujet, et de regarder les petits dessins que sont les diagrammes de Dynkin et de Satake, sans avoir envie d'apprendre (et/ou le temps de comprendre) ce qu'est précisément, par exemple, un système de racines, une involution de Cartan, ou en fait, un groupe de Lie.

Après, je peux aussi en profiter pour parler à un public plus averti pour lui dire, par exemple regardez le groupe SO*(2n) comme il est tout gentil et tout mimine, pourquoi est-ce que personne n'en parle jamais, de ce pauvre petit groupe ?, ou pour partager mon agacement qu'il soit si difficile de trouver des informations fiables et précises sur certaines choses (celui qui veut traverser le pont de la mort doit répondre aux questions suivantes : quel est le sous-groupe compact maximal de la forme déployée algébriquement simplement connexe de E₇ ? combien sa forme déployée adjointe algébriquement connexe a-t-elle de composantes réelles ? quelle est sa couleur préférée ?).

Table des matières

La notion de groupe et de groupe de Lie

Symétries discrètes

Pour commencer, si je devais m'adresser à un public qui n'a aucune connaissances mathématiques particulières, je présenterais un groupe comme les formes de symétries que peut posséder un objet mathématique (en étant délibérément vague sur ce que objet mathématique peut recouvrir, et en recouvrant sous le terme symétrie tout ce qui « ne change pas » cet objet, cf. les exemples et commentaires ci-dessous). Cette définition est assez floue, mais elle a le mérite de permettre de comprendre pourquoi il s'agit d'un concept extrêmement central en mathématiques (alors que si on prend la vraie définition comme un ensemble muni d'une loi de composition binaire vérifiant les axiomes gnagnagna, ça ne saute pas forcément aux yeux pourquoi cette définition est la bonne et pourquoi le concept est essentiel).

Par exemple, si je considère un pentagone régulier (ou de façon équivalente, une étoile à cinq branches comme ceci), cette figure a dix symétries : quatre rotations autour du centre du pentagone (de façon à amener un sommet sur un des quatre autres, ce qui donne des angles de ±72° ou ±144° mais peu importe), cinq symétries axiales (les réflexions par rapport à des axes passant par un des cinq sommets du pentagone), et la « symétrie » consistant à ne rien faire, qu'on appelle symétrie identité, ou élément neutre du groupe, et que les mathématiciens incluent toujours parce que cela rend la notion de groupe bien plus commode. L'ensemble de ces dix symétries s'appelle le groupe diédral du pentagone (et on dit qu'il est d'ordre 10, parce qu'il y a dix éléments dedans). Soit dit en passant, si on considère une étoile à cinq branches entrelacée (c'est-à-dire où on voit dans quel sens une branche passe au-dessus d'une autre, comme sur cette version du drapeau marocain), la figure n'a plus que cinq symétries (les cinq rotations de ±72° et ±144°, ou plus exactement, les quatre rotations et l'élément neutre / identité qui est une rotation de 0°), parce qu'une symétrie axiale changerait le sens d'entrelacement de l'étoile : ce groupe s'appelle alors le groupe cyclique à cinq éléments (et c'est un exemple d'un sous-groupe, en l'occurrence un sous-groupe du groupe diédral du pentagone : en ajoutant une structure à un objet mathématique, on restreint ses symétries). Remarquons que la plupart des figures géométriques (prenez un triangle quelconque, par exemple) n'ont pas du tout de symétrie, ou plutôt, ils n'ont que la symétrie idiote consistant à ne rien faire (l'identité ou élément neutre, comme je l'ai appelée ci-dessus), et leur groupe de symétrie est appelé le groupe trivial, ou groupe à un seul élément.

↑Entry #2292 [older| permalink|newer] / ↑Entrée #2292 [précédente| permalien|suivante] ↑

↓Entry #2276 [older| permalink|newer] / ↓Entrée #2276 [précédente| permalien|suivante] ↓

(mardi)

Les octonions sont-ils intéressants ? (première partie)

J'ai promis depuis une éternité de parler d'octonions, et cette entrée a été commencée à ce moment-là, puis laissée de côté, puis remaniée complètement suite à une réflexion que j'ai entreprise sur la notion de géométrie, puis laissée de nouveau de côté, puis reprise, etc. Le résultat, écrit par bribes, manque donc certainement de cohérence globale, j'espère qu'on ne m'en voudra pas. Je reprends la formulation du titre d'une entrée passée pour m'interroger de nouveau sur l'intérêt d'un concept mathématique parmi ceux qui fascinent beaucoup, notamment les mathématiciens amateurs, et ceux qui aiment se demander voyons jusqu'où on peut généraliser les choses : en l'occurrence, les octonions, dont je vais tâcher d'expliquer de quoi il s'agit. Mais, quitte à spoiler la suite, je peux d'ores et déjà révéler que ma conclusion générale sera plus positive que pour les nombres surréels : je prétends que les octonions sont un objet naturel, même si les raisons de leur existence ont quelque chose d'un peu étonnant et mystérieux ; en revanche, les tentatives pour les généraliser encore sont idiotes parce qu'elles passent complètement à côté de la raison profonde pour laquelle les octonions sont intéressants (en se concentrant sur des phénomènes superficiels).

Introduction

Dans cette première partie d'une série d'entrées consacrées aux octonions (mais qui, comme tout ce que j'entreprends, présente un risque sérieux de ne jamais être finie), je n'arriverai pas encore à répondre à la question du titre, puisque je ne ferai essentiellement que définir et présenter les objets en question. Après une présentation et un petit historique censés être lisibles par absolument tout le monde, je veux commencer par rappeler ce que sont les nombres complexes et les quaternions, pour ensuite aborder les octonions. J'expliquerai pourquoi les quaternions sont intéressants et utiles notamment pour calculer avec les rotations dans l'espace, et j'essaierai de présenter ensuite de façon analogue des liens des octonions avec les rotations en sept ou huit dimensions. Je parlerai ensuite un peu des automorphismes des octonions, qui constituent le groupe de Lie exceptionnel G2 (il faudra donc dire un peu ce que cela signifie), et j'évoquerai enfin quelques pistes pour la suite.

Je prévois de continuer avec encore deux entrées sur le sujet : l'une (déjà essentiellement écrite) contiendra un microscopique aperçu du sujet des octonions entiers et notamment leur lien avec mon E8 préféré, et une autre (largement à écrire ou à réécrire, donc probablement pour jamais) doit expliquer ce qu'est le carré magique de Freudenthal-Tits, qui permet vraiment de répondre (positivement !) à la question du titre — oui, les octonions sont intéressants à cause de leur lien profond avec les groupes de Lie exceptionnels G2, F4, E6, E7 et (de nouveau !) E8.

Table des matières

Présentation sans mathématiques, et petit historique

Disons immédiatement la chose suivante : les octonions (𝕆) sont une sorte de « nombres » qui s'inscrit logiquement après les nombres réels ℝ, les nombres complexes ℂ et les quaternions ℍ. Les nombres complexes sont un objet de dimension réelle 2, c'est-à-dire qu'un nombre complexe renferme essentiellement la donnée de deux nombres réels (sa partie réelle et sa partie imaginaire) ; les quaternions sont de dimension réelle 4, c'est-à-dire qu'ils ont quatre coordonnées réelles, et les octonions sont de dimension réelle 8. Ceci donne naturellement envie de prolonger la suite des puissances de 2 et d'inventer des sortes de nombres qui soient de dimension réelle 16, 32 et ainsi de suite, mais le caractère véritablement exceptionnel des octonions offre toutes sortes de raisons de comprendre, au contraire, qu'elle doit s'arrêter (et que c'est justement le fait qu'elle s'arrête qui rend les octonions intéressants !), c'est-à-dire que tout objet qu'on peut inventer pour la prolonger est soit entièrement dénué d'intérêt soit complètement délirant.

Il m'est impossible de faire l'historique des nombres réels puisque la progression historique, à ce sujet, est trop éloignée de la progression mathématique : la géométrie grecque utilise implicitement une notion de mesure, mais la mesure d'une longueur ou d'une aire ne sont pas véritablement unifiées et le concept de nombre négatif n'existe pas ; a contrario, il serait absurde de dater les nombres réels de leur première construction véritablement rigoureuse (peut-être par Cauchy ou Dedekind) car ce serait suggérer qu'Euler, Lagrange ou Gauß ne comprenaient pas ce concept, ce qui est manifestement faux parce que les questions algébriques qui m'intéressent ici sont assez peu liées aux questions (quasi fondationnelles) sur la complétude des nombres réels. Je passe donc sur les nombres réels.

Les nombres complexes ont commencé à apparaître avec la résolution des équations du troisième degré notamment par Jérôme Cardan (vers 1545) : la raison en est que même si une équation réelle du troisième degré a toujours une solution réelle, il peut être nécessaire d'introduire des racines carrées de nombres négatifs, c'est-à-dire de passer par les nombres complexes, pour exprimer ce qui sera finalement une quantité réelle (on sait maintenant, grâce à la théorie de Galois, que le cas où les trois racines d'une équation cubique réelle sont toutes réelles, le fameux casus irreducibilis, lié au problème de la trissection de l'angle, ne peut se résoudre en radicaux que si on accepte des radicaux non réels). Mais même si Cardan fait intervenir, presque malgré lui, des nombres complexes, c'est Bombelli qui en développe une première théorie un peu sérieuse dans son livre d'algèbre publié en 1572. Curieusement, ce n'est que tardivement, peut-être avec Argand en 1806, et avec la recherche de démonstrations du théorème fondamental de l'algèbre (une équation algébrique de degré n dans les nombres complexes a toujours n solutions comptées avec multiplicités), qu'on a acquis la représentation claire des nombres complexes comme les points d'un plan (donc de dimension 2 sur les nombres réels) dont la partie réelle et la partie imaginaire seraient les deux coordonnées.

Les nombres complexes ayant ainsi deux coordonnées réelles, et étant liés de façon agréable à la géométrie plane, il est naturel de chercher si on peut construire des sortes de nombres avec trois coordonnées, qu'on pourrait lier à la géométrie dans l'espace. William Hamilton a passé des années de sa vie, vers 1830–1840, à chercher de tels nombres (sans avoir, bien sûr, une définition exacte de ce qu'il cherchait). C'est en 1843 qu'il a découvert les quaternions, de dimension 4 réelle, en même temps qu'il a compris la raison pour laquelle la dimension 3 ne pouvait pas répondre à ses attentes, à savoir l'inexistence d'une « identité des trois carrés » analogue à l'« identité des deux carrés » ((a²+b²) · (a′²+b′²) = (a·a′−b·b′)² + (a·b′+b·a′)²) qui exprime la multiplicativité de la norme complexe et celle « des quatre carrés » ((a²+b²+c²+d²) · (a′²+b′²+c′²+d′²) = (a·a′−b·b′−c·c′−d·d′)² + (a·b′+b·a′+c·d′−d·c′)² + (a·c′−b·d′+c·a′+d·b′)² + (a·d′+b·c′−c·b′+d·a′)²) liée à l'existence des quaternions mais qui était déjà connue d'Euler et de Lagrange.

Malgré le fait qu'ils soient de dimension 4, les quaternions ont, comme je l'expliquerai, des applications naturelles à la géométrie euclidienne de dimension 3 (pour le calcul des rotations dans l'espace). C'est sans doute la raison pour laquelle ils ont eu un certain succès, et ont valu une grande renommée à leur inventeur. (En fait, comme souvent en mathématiques, les découvertes avaient été préfigurées par d'autres : en l'occurrence, Gauß avait essentiellement découvert les quaternions dans un texte de 1819 sur les rotations de la sphère, qu'il n'a pas jugé bon de publier.) Toujours est-il que dans la deuxième moitié du XIXe siècle ont fleuri des textes, des chaires et des cours sur la « science des quaternions ». (Une anecdote que je n'ai pas réussi à confirmer veut que quand Charles Dodgson, plus connu sous le pseudonyme de Lewis Carroll, a publié Alice in Wonderland, la reine Victoria lui a fait promettre de lui envoyer une copie du prochain livre qu'il écrirait : le livre en question était un traité sur les quaternions, et l'histoire ne dit pas si Victoria l'a autant apprécié.) Les quaternions continuent d'avoir une certaine utilité pour représenter informatiquement des orientations dans l'espace (de façon compacte et efficace).

Les octonions, en revanche, n'ont pas eu une telle popularité, et n'ont guère d'utilité pratique. Découverts (sous le nom d'octaves), à peine quelques mois après les quaternions, par un ami de Hamilton, John Graves, celui-ci s'est fait voler la vedette par Arthur Cayley qui a publié l'existence des octonions en 1845.

Il existe une façon systématique (la construction de Cayley-Dickson) pour passer des nombres réels aux complexes, des complexes aux quaternions, et des quaternions aux octonions : mais à chaque fois qu'on applique cette construction, on perd quelque chose. Quand on passe des réels aux complexes, on perd la propriété d'être un corps ordonné (ou ordonnable) ; quand on passe des complexes aux quaternions, on perd la commutativité de la multiplication, c'est-à-dire que x·y et y·x ne seront plus égaux en général dans les quaternions ; quand on passe des quaternions aux octonions, on perd l'associativité de la multiplication, c'est-à-dire que x·(y·z) et (x·yz ne seront plus égaux en général dans les octonions (ce qui doit faire frémir d'horreur tout mathématicien qui se respecte, mais heureusement on garde au moins une forme faible de l'associativité appelée alternativité) ; et si on cherche à continuer la construction, on perd la seule raison pour laquelle les choses avaient encore un intérêt, à savoir la multiplicativité des normes ou le fait que x·y=0 ne se produit que pour x=0 ou y=0. Même avec ces propriétés, il n'est pas du tout évident que les octonions aient le moindre intérêt autrement que comme une petite curiosité algébrique : il se trouve qu'ils en ont, mais il me semble que la seule explication convaincante de ce fait passe par la théorie des groupes de Lie exceptionnels, et je reporterai à plus tard ces explications.

Quelques lectures : Une excellente référence (souvent citée) concernant les octonions en général est l'introduction de John Baez à leur sujet [edit : lien cassé (en ce moment ?), mais le même texte est disponible sur l'arXiv] ; une autre est le livre de J. H. Conway et D. Smith, On Quaternions and Octonions (their Geometry, Arithmetic and Symmetry). Beaucoup de ce que je vais dire est contenu dans ces sources, mais je vais essayer de dire certaines choses de façon plus élémentaire, ou au moins d'arriver plus rapidement à ce qui est amusant. Une autre référence est les chapitre 9 et 10 par Koecher et Remmert dans le livre Numbers de Ebbinghaus &al. Pour une présentation élégante de la multiplication sur les octonions sans passer par la construction de Cayley-Dickson, je conseille cet article de Bruno Sévennec. Enfin, pour une description claire et approfondie du « carré magique » de Freudenthal (dont je devrai parler plus tard), je recommande ce survey par Barton et Sudbery, qui est le seul que j'aie trouvé vraiment satisfaisant sur le sujet (on pourra aussi consulter cet article de Freudenthal lui-même, en allemand, qui reprend les choses à zéro, de façon assez claire et efficace). Je tire la plupart des informations de mon aperçu historique du livre Mathematics and its History de John Stillwell (notamment les chapitres 14 et 20).

Définition rapide pour les gens pressés

Pour les lecteurs qui n'auraient pas la patience de lire tout ce qui suit, voici une définition ultra-rapide des algèbres à divisions des complexes, quaternions et octonions (on peut aussi l'ignorer sachant que tout va être redit ci-dessous). Il s'agit respectivement des expressions de la forme x(0) + x(1)·i pour les complexes, x(0) + x(1)·i + x(2)·j + x(3)·k pour les quaternions et x(0) + x(1)·i + x(2)·j + x(3)·k + x(4)· + x(5)·i· + x(6)·j· + x(7)·k· pour les octonions (il faudrait traiter i·, j· et k· comme trois lettres supplémentaires, même si je les ai écrites comme des produits pour économiser les lettres de l'alphabet) ; l'addition se fait terme à terme, et la multiplication se fait en développant complètement l'écriture et en utilisant la table qui suit :

×1ijki·j·k·
11ijki·j·k·
ii−1kji·k·j·
jjk−1ij·k·i·
kkji−1k·j·i·
i·j·k·−1ijk
i·i·k·j·i−1kj
j·j·k·i·jk−1i
k·k·j·i·kji−1

(La ligne de la table donne le symbole de gauche à multiplier et la colonne donne le symbole de droite : ainsi, i·j=k tandis que j·i=−k. Pour les complexes, seules les deux premières lignes et colonnes servent, et pour les quaternions, seules les quatre premières lignes et colonnes. Il y a toutes sortes de conventions différentes pour nommer la base des octonions, mais celle que j'ai choisie a l'avantage que — je pense — tous les mathématiciens seront d'accord sur le contenu de la table de multiplication une fois qu'on a choisi les noms.)

La multiplication des complexes est commutative et associative, celle des quaternions est associative mais non commutative, et celle des octonions n'est même pas associative ((i·j=k· tandis que i·(j·)=−k·) ; elle vérifie cependant des conditions plus faibles, dites d'alternativité, à savoir que x·(x·y)=(x·xy, x·(y·x)=(x·yx et y·(x·x)=(y·xx (ce qui revient à dire que l'associateur {x,y,z} := (x·yzx·(y·z) est complètement antisymétrique en ses trois variables).

Si on préfère, on peut aussi définir les octonions à l'aide des formules suivantes (où q,q′,r,r′ désignent des quaternions) : (1) q·(r′·) = (r′·q, (2) (r·q′ = (r·q* et (3) (r·)·(r′·) = −r*·r, où ici, x* désigne le quaternion conjugué de x (cf. ci-dessous). Les mêmes formules en mettant j à la place de peuvent servir à définir les quaternions à partir des complexes, et avec i à définir les complexes à partir des réels. (On parle du procédé de Cayley-Dickson. Pour aider à retenir ces formules, on peut notamment retenir le fait que si w est un quaternion de module 1 quelconque, alors l'application ℝ-linéaire qui fixe les quaternions et envoie un octonions de la forme q′· sur (w·q′)·, constitue un automorphisme des octonions : ceci contraint énormément les formules.)

On peut aussi retenir que i, j, k s'associent et vérifient i² = j² = k² = i·j·k = −1, que la même chose vaut aussi pour n'importe lequel des trois avec (par exemple, i² = ² = (i·)² = −1), et enfin que si on prend deux distincts de i, j, k, avec , alors cette fois ils s'anti-associent toujours, par exemple i·(j·) = −(i·j = −k·. Ceci suffit à reconstruire la table.

Le conjugué d'un complexe, quaternion ou octonion, s'obtient en changeant le signe de toutes les composantes x(p) sauf la partie réelle x(0) (i.e., les conjugués de 1,i,j,k,,i·,j·,k· valent respectivement 1,−i,−j,−k,−,−i·,−j·,−k·). On a (x·y)* = y*·x*, et par ailleurs N(x) := x·x* est la somme des carrés des composantes de x, donc c'est un nombre réel, qui ne peut être nul que si x l'est. En mettant ces deux propriétés ensemble, on voit que tout complexe, quaternion ou octonion x non nul a un inverse de même type, donné par x*/N(x). (Il est utile de savoir que, dans les octonions, le parenthésage n'a pas d'importance dans tout produit faisant intervenir uniquement deux octonions, x, y, ainsi qu'éventuellement leurs conjugués x* et y*, et bien sûr les nombres réels, ce qui permet de conclure que x·y multiplié à gauche par l'inverse de x ou à droite par l'inverse de y donne bien ce qu'on espérait.) On définit par ailleurs |x| = √N(x) (le module, ou la valeur absolue, de x), et aussi Re(x) = ½(x+x*) = x(0) (la partie réelle de x) : cette dernière vérifie notamment Re(x·y)=Re(y·x) et aussi Re(x·(y·z))=Re((x·yz).

↑Entry #2276 [older| permalink|newer] / ↑Entrée #2276 [précédente| permalien|suivante] ↑

↓Entry #2256 [older| permalink|newer] / ↓Entrée #2256 [précédente| permalien|suivante] ↓

(dimanche)

Un nouveau jeu de labyrinthe(?) hyperbolique

Je viens de produire un nouveau jeu de labyrinthe hyperbolique. Je n'étais pas vraiment satisfait du précédent (introduit ici) parce que je trouvais qu'il y a quelque chose d'insatisfaisant à plaquer un labyrinthe au sens traditionnel (i.e., des murs infranchissables) sur l'espace hyperbolique : l'espace hyperbolique est labyrinthique en lui-même (au sens où, par exemple, si on se trompe de direction quelque part, on doit essentiellement revenir à son point de départ pour aller à l'endroit où on voulait aller), je trouvais qu'il faudrait exploiter ce fait — et c'est ce que j'ai tenté de faire dans cette nouvelle version.

Le monde, « périodisé » du plan hyperbolique, est exactement le même que dans la version précédente (88110 carrés formant une surface de genre 8812, et pavé par des carrés selon mon pavage préféré), de même type que le monde « jouet » dont je bassine régulièrement mes lecteurs depuis quelques jours, si ce n'est que ce dernier n'a que 30 carrés formant une surface de genre 4, ce qui le rend plus facile à analyser. J'ai repris le monde à 88110 carrés (et qui est un déguisement du graphe de Cayley du groupe PSL(2,89)) parce qu'il est facile à construire, et d'une taille suffisamment raisonnable.

Cette fois, donc, il n'y a aucun obstacle : juste 24 orbes de couleur cachés (quoique placés de façon régulière) dans ce monde, et qu'il s'agit de collecter, mais c'est surtout un prétexte pour explorer ce à quoi ce monde peut ressembler. Pour aider à l'exploration, chaque orbe fait apparaître un domaine de couleur proche autour de lui, tous connexes et approximativement de même taille (c'est-à-dire dans les 3700 cases). J'ai donné des noms aux orbes pour décorer et surtout pour éviter qu'on s'arrache les cheveux à savoir quand deux couleurs sont identiques.

Le monde n'est pas très grand en diamètre : on peut aller de n'importe quelle carré à n'importe quel autre en au plus 17 mouvements (consistant à passer à une case adjacente). Ce qui n'empêche que ces 17 mouvements, dans un pavage hyperbolique, permettent d'aller à beaucoup plus d'autres cases que ce que ce serait dans un pavage euclidien. On retombe donc assez difficilement sur ses pas (sauf évidemment à suivre une boucle — par exemple en allant tout droit selon un des axes du quadrillage on boucle en 11 mouvements).

Globalement, ce n'est pas très difficile une fois qu'on a un peu compris comment fonctionnent les choses.

Pour aider à savoir par où on est passé, j'ai mis une fonction « petit poucet » qui est amusante en elle-même.

Bref, dans l'ensemble je trouve que c'est plus réussi que le jeu de labyrinthe précédent. Mais j'aimerais surtout trouver comment motiver des gens plus doués que moi pour écrire des jeux informatiques à explorer plus les possibilités intéressantes offertes par la géométrie hyperbolique.

Petit changement () : Je garantis maintenant l'existence d'au moins un orbe à distance de vue du point de départ (mais ça peut être délicat de le repérer).

Amélioration () : J'ai ajouté un système de balises qu'on peut déposer dans le labyrinthe (et rappeler à tout moment) et qui indiquent la direction dans laquelle elles se trouvent (ou du moins une direction, puisqu'il y a souvent plusieurs chemins menant d'un point à un autre selon la façon dont on tourne dans le monde).

↑Entry #2256 [older| permalink|newer] / ↑Entrée #2256 [précédente| permalien|suivante] ↑

↓Entry #2254 [older| permalink|newer] / ↓Entrée #2254 [précédente| permalien|suivante] ↓

(mercredi)

Je m'amuse avec les groupes de Coxeter et je continue à disséquer la surface de Bring

Puisque j'étais parti pour manipuler des polygones hyperboliques, j'ai glissé, suivant le fil conducteur de simplement chercher à apprendre des maths belles et amusantes, vers la combinatoire des groupes de Coxeter (et des dessins qui auraient plu à Escher).

[Un pavage hyperbolique étiqueté][Un pavage hyperbolique étiqueté]Sans me proposer d'expliquer la situation en général, je peux facilement en parler sur le cas particulier (mais représentatif) illustré par les images ci-contre à gauche et à droite (peu importent pour l'instant les différences, qui ne sautent d'ailleurs probablement pas aux yeux). Si on ignore les étiquettes, il s'agit d'un pavage du plan hyperbolique par des triangles tous identiques, caractérisés de façon unique par le fait qu'ils ont aux sommets les angles π/4, π/2 et π/5 (lus dans le sens des aiguilles d'une montre pour les triangles blancs, et dans le sens trigonométrique pour les triangles noirs). De façon équivalente, on obtient cette figure en partant de mon pavage préféré de l'espace hyperbolique par des « carrés » dont cinq se rejoignent en chaque sommet, et en divisant chaque carré en huit selon ses quatre axes de symétrie (deux diagonales et deux médianes). On peut donc regrouper les triangles huit par huit pour retrouver le pavage hyperbolique par des « carrés » d'angle 2π/5 en chaque sommet (chercher les bords teintés en gris sur ma figure), et c'est bien sûr cette parenté qui me fait utiliser cet exemple particulier ; on peut aussi, au contraire, regrouper les triangles dix par dix (chercher les bords teintés en rouge sur ma figure) pour obtenir le pavage dual par des pentagones à angles droits. Le pavage triangulaire s'obtient en partant d'un triangle quelconque le constituant, et en effectuant de façon répétée des symétries par rapport à ses trois côtés (je les ai, à chaque fois, légèrement teintés en gris, vert et rouge).

L'ensemble des transformations en question, c'est-à-dire l'ensemble des compositions de symétries par rapport aux côtés des triangles, est appellé le groupe de Coxeter Δ(2,4,5), ou groupe de Coxeter engendré par trois réflexions x, y, z vérifiant x²=y²=z²=1 avec (x·y)⁵=1, (y·z)⁴=1 et (x·z)²=1 (l'opération · étant la composition des transformations). De plus, donnés deux triangles, il existe une et une seule transformation dans le groupe de Coxeter qui transforme l'un en l'autre. Une fois fixé un triangle de référence (disons, celui étiqueté ε sur mes figures), tous les triangles peuvent s'identifier aux éléments du groupe de Coxeter (via la transformation qui envoie le triangle de référence dans le triangle considéré) : on peut donc associer à toute suite de x, y et z un triangle, qui est celui obtenu en partant du triangle de référence (ε) et en effectuant les transformations indiquées par ces lettres. Concrètement, soit on lit le mot de droite à gauche, auquel cas x, y et z désignent les symétries par rapport aux trois côtés fixés du triangle de référence, soit on le lit de gauche à droite, auquel cas x, y et z désignent les côtés qu'on doit traverser, z étant le petit côté de l'angle droit (teinté en rouge sur ma figure), y l'hypoténuse (teintée en vert), et x le grand côté de l'angle droit (teinté en gris).

Ceci fournit donc (une fois fixé le triangle de référence) une façon de désigner n'importe quel triangle du pavage par une suite de x, y et z (les triangles blancs, dont l'orientation est la même que le triangle de référence, sont ceux ayant un nombre pair de lettres, correspondant à une transformation qui préserve l'orientation, tandis que les noirs, dont l'orientation est opposée, sont ceux ayant un nombre impair de lettres). Mais il existe plusieurs suites pouvant désigner le même triangle : pour commencer, comme x² (c'est-à-dire x·x) est l'identité, on peut supprimer ou insérer un nombre pair quelconque de x consécutifs dans un mot, et de même pour les y et les z : mais ce ne sont pas là les seules simplifications possibles, puisqu'on a aussi (xz)²=1, c'est-à-dire xzxz=1, ce qui se traduit plus concrètement par zx=xz (cette exemple prouve qu'il n'y a pas unicité de l'écriture, même si on impose à celle-ci d'être de longueur minimale). On appelle mot réduit sur x, y et z une écriture de longueur minimale conduisant à un élément/triangle donné ; et même parmi les mots réduits, on peut par exemple s'intéresser à celui qui est lexicographiquement le plus petit (ce qui conduit à préférer l'écriture xz à zx). Ma figure de gauche ci-dessus montre chaque triangle étiqueté par le mot réduit lexicographiquement le plus petit : ceci fournit bien une étiquette unique pour chaque triangle. D'autres variations sont possibles : le mot réduit lexicographiquement le plus grand, le mot réduit lexicographiquement le plus petit lu à l'envers (remarquons que lire un mot à l'envers revient à prendre son inverse dans le groupe de Coxeter), ou le mot réduit lexicographiquement le plus grand lu à l'envers. (La figure de droite ci-dessus montre les mots réduits lexicographiquement les plus grands lus à l'envers : si la différence avec la figure de gauche ne vous frappe pas, cherchez le mot xyxyx d'un côté, qui est yxyxy de l'autre.)

↑Entry #2254 [older| permalink|newer] / ↑Entrée #2254 [précédente| permalien|suivante] ↑

↓Entry #2251 [older| permalink|newer] / ↓Entrée #2251 [précédente| permalien|suivante] ↓

(samedi)

Où je résous une équation

L'équation[#] a₁·b₁·a−1·b−1 · a₂·b₂·a−1·b−1 · a₃·b₃·a−1·b−1 · a₄·b₄·a−1·b−1 conjugué à u₁·v₂·u−1·v−1 · u₂·v₃·u−1·v−1 · u₃·v₄·u−1·v−1 · u₄·v₁·u−1·v−1 dans le groupe libre a (entre autres) comme solution :

  • a₁ = v₁·u₄·v−1
  • b₁ = v₂·u
  • a₂ = v₂·u₁·v−1
  • b₂ = v₃·u
  • a₃ = v₃·u₂·v−1
  • b₃ = v₄·u
  • a₄ = v₄·u₃·v−1
  • b₄ = v₁·u

ou réciproquement

  • u₁ = b−1·a₁·b
  • v₁ = a−1·b
  • u₂ = b−1·a₂·b
  • v₂ = a−1·b
  • u₃ = b−1·a₃·b
  • v₃ = a−1·b
  • u₄ = b−1·a₄·b
  • v₄ = a−1·b

(Et la conjugaison se fait par v₁·u₄.)

[#] Les inconnues sont a₁,b₂,a₃,b₄,a₁,b₂,a₃,b₄ tandis que u₁,u₂,u₃,u₄,v₁,v₂,v₃,v₄ sont les générateurs du groupe libre — mais ça ne change rien si on fait le contraire : c'est pour ça que je donne à la fois une solution et une réciproque.

Cela pouvait effectivement peut-être se trouver de tête en regardant assez longuement les équations et en ayant foi dans le fait (douteux) qu'une équation aussi symétrique devait pouvoir admettre une solution symétrique. En l'occurrence, j'ai trouvé ces valeurs en appliquant l'algorithme de Whitehead déguisé sous forme d'un problème combinatoire, et finalement en appliquant un Dijkstra sur le graphe des 127072 façons de tracer 8 cordes disjointes entre 16 points cycliquement ordonnées. Je n'ai pas du tout d'idée claire sur la question de savoir si cette solution est vaguement unique[#2] (et si oui, en quel sens).

[#2] Enfin, je sais qu'elle n'est pas unique, puisque la première version que j'ai trouvée (en minimisant le nombre de chiasmes plutôt qu'une certaine forme de longueur) était beaucoup plus désagréable : a₁=v−1·u−1·v₁·u₄·u₁·u₃·v₄, b₁=v−1·u−1·v₂·u−1·v−1·u₃·v₄, a₂=v−1·u−1·v₂·u₁·u₂, b₂=v₃·u−1·v−1·u₃·v₄, a₃=v−1·u−1·u−1·v−1·u₃·v₄, b₃=v−1·u−1·v₁·u₄·u₃·v₄·v−1·u₃·v₄, a₄=v−1·u−1·v₁·u₄·u₃·v₄·u−1·v−1·u−1·u−1·v−1·u₃·v₄, b₄=v−1·u−1·v₁·u₄·u₃·v−1·u−1·u−1·v−1·u₃·v₄, dont la réciproque est donnée par u₁=a₃·a−1·b−1·a₁·a₃·b₄·a₄·a−1, v₁=a₃·a−1·b−1·a−1·b−1·a−1, u₂=a₃·a−1·b−1·a−1·a−1·b−1·a₂, v₂=a₃·a−1·b−1·a−1·b₁·b₄·a₄·a−1, u₃=a₃·a−1·a−1, v₃=b₂·b₁·a₁·a₃·b₄·a₄·a−1, u₄=a₃·b₃·b₄·a₄·a−1, v₄=a₃·b−1·a−1 (et la conjugaison se fait par v−1·u−1·v₁·u₄). Est-ce pourtant, en un certain sens, « la même » solution ?

L'ennui, c'est qu'arrivé à ce stade-là, je ne sais plus très bien ce que je dois faire de cette solution, parce que je ne me rappelle plus vraiment ce que je voulais faire au début : je suis parti de questions sur le revêtement hyperbolique d'une surface de Riemann pour arriver, de fil en aiguille, à quelque chose de sérieusement différent, et maintenant que j'ai la réponse,