David Madore's WebLog: Mathematics

This WebLog is bilingual, some entries are in English and others are in French. A few of them have a version in either language. Other than that, the French entries are not translations of the English ones or vice versa. Of course, if you understand only English, the English entries ought to be quite understandable without reading the French ones.

Ce WebLog est bilingue, certaines entrées sont en anglais et d'autres sont en français. Quelques-unes ont une version dans chaque langue. À part ça, les entrées en français ne sont pas des traductions de celles en anglais ou vice versa. Bien sûr, si vous ne comprenez que le français, les entrées en français devraient être assez compréhensibles sans lire celles en anglais.

Note that the first entry comes last! / Notez que la première entrée vient en dernier !

Index of all entries / Index de toutes les entréesXML (RSS 1.0) • Recent comments / Commentaires récents

Entries with category math / Entrées de la catégorie math:

↓Entry #2551 [older| permalink|newer] / ↓Entrée #2551 [précédente| permalien|suivante] ↓

(jeudi)

Le corps à un élément, et autres licornes mathématiques

Les chasseurs-prouveurs se rassemblaient comme chaque soir autour de l'équation de la chaleur et se racontaient les histoires de leurs aventures. Joueur-Atlas, qui était célèbre pour avoir autrefois attrapé un groupe parfait à 8 315 553 613 086 720 000 éléments évoqua le fils de « son » groupe, dont il avait aperçu la silhouette monstrueuse, à la lumière de la lune, en train de remuer près du nombre 196 883, et qu'il espérait voir un jour capturé. Mais ce soir, c'était au tour du vieux Bâtisseur-Alternatif de prendre la parole.

— Un jour, j'ai vu un corps comme je n'en avais jamais vu auparavant.

Il désigna une figure rupestre qu'il avait exécutée il y a longtemps, à la craie sur le tableau noir du Hilbertraum : un F pas tout à fait gras finissant par un 1 plutôt bas. Et il conclut théâtralement :

— Figurez-vous que ce corps n'avait qu'un seul élément.

Certains soupiraient d'entendre Bâtisseur-Atlernatif raconter toujours la même histoire à dormir debout, mais les jeunes chasseurs-prouveurs étaient fascinés :

— Un corps à un seul élément ? Mais ce n'est pas possible, grand-père !

— Pourtant je l'ai bien vu. Et attendez, ce n'est pas le plus incroyable… il était… sous l'anneau des entiers !

Cette révélation fit place à un silence choqué de la part de ceux qui n'avaient pas encore entendu cette légende. Un corps caché sous l'anneau des entiers ! Cela semblait si impossible — et en même temps si prometteur !

Bon, trêve d'humour à 1/1728 zorkmids.

Ce que j'appelle licorne mathématique, c'est un objet mathématique dont on aimerait croire à l'existence, un objet dont on a une certaine intuition et même des indices suggérant sa présence, qui, naïvement envisagé tel quel, n'existe pas, n'est pas possible, conduit à des paradoxes et des contradictions. On peut démontrer qu'il n'existe pas, que les propriétés qu'on lui attribue sont impossibles, et pourtant, on cherche quand même un moyen de le faire exister.

Ce qui fait que les licornes sont des licornes, c'est qu'on n'a pas trouvé la bonne définition ou la bonne théorie-cadre. Chasser la licorne, c'est donc chasser la définition ou la théorie qui lui permettra d'exister et de faire disparaître les paradoxes. Cela peut sembler bizarre : si on s'imagine qu'on donne naissance à un objet mathématique en le définissant, comment peut-il y avoir des objets qu'on poursuive sans parvenir à les définir ? Pourtant, cela se produit assez souvent (et je prends même ça pour un indice — certes pas terriblement concluant — dans le sens que les mathématiques existent indépendamment de l'homme).

*

L'exemple le plus simple est sans doute celui des nombres complexes. La manière dont je vais l'évoquer prend des libertés avec l'Histoire, qu'on m'en pardonne, mais mon but n'est past de raconter l'histoire des maths mais d'expliquer le concept d'une licorne. La racine carrée de −1, donc, était une licorne : un nombre qui, multiplié par lui-même, donne −1, c'est impossible a priori. Et on a une preuve de cette impossibilité : à savoir, que x soit positif ou négatif, son carré x² = x·x est forcément positif, donc ne peut jamais valoir −1. Bref, √(−1) est une licorne. Pourtant, quelqu'un prétend avoir vu des traces de la licorne : si on fait comme si elle existait, si on oublie cette impossibilité, si on mène les calculs comme si la racine carrée des nombres négatifs avait un sens, on arrive à résoudre des équations du troisième degré qu'on ne savait pas résoudre autrement (celles qui ont trois racines). Comment expliquer que quelque chose d'impossible conduise à une conclusion heureuse ? C'est cela qui fait soupçonner que la licorne existe vraiment, et qui donne envie de la capturer.

Maintenant on ne voit plus du tout que cette histoire a été une licorne : maintenant, √(−1) est un nombre complexe, quelque chose de tellement banal qu'on en oublie trop facilement que cela a pu représenter un paradoxe, une licorne. Pourtant, pour capturer cette licorne, il a fallu faire un saut conceptuel : abandonner l'idée que les nombres soient ordonnés, c'est un saut conceptuel gigantesque (les nombres ont été faits pour être ordonnés, pourrait-on dire ; les opérations algébriques sont une sophistication ajoutée sur le concept de comparaison). Mais une fois fait le saut conceptuel, une fois définie la notion de nombre complexe, la licorne est capturée, elle perd tout son mystère, on s'aperçoit que la définition antérieure de nombre était restrictive (ce qui ne signifie pas qu'elle n'ait pas de valeur !, il n'est pas question de remplacer systématiquement les nombres réels par des nombres complexes en mathématiques ou ailleurs).

Ce qui m'intéresse dans cette histoire, c'est la démarche où d'abord on aperçoit des traces de pas qui semblent paradoxales (cette bestiole marche comme un cheval, pourtant elle semble avoir une corne !), on traque le concept, et on finit par capturer la licorne, c'est-à-dire résoudre le paradoxe, rendre possible ce qu'on avait démontré impossible, en contournant l'impossibilité par une définition élargie. La licorne se capture par la définition. C'est inhabituel par rapport à la pratique générale des mathématiques qui consiste à chasser les preuves, pas les définitions (ni les licornes).

Méta : Dans la suite, je vais évoquer quelques autres licornes. Ne sachant pas à quel niveau de vulgarisation me placer, je n'ai pas vraiment pris de décision cohérente à ce sujet, et je suppose donc de la part de mon lecteur des connaissances variables de paragraphe en paragraphe : j'espère néanmoins avoir fait en sorte qu'on puisse comprendre un petit peu l'idée générale même si on ne comprend pas tel ou tel passage. D'autre part, comme mon but était de raconter une histoire plus que d'exposer des maths, il se peut que je dise des choses un peu abusées ici ou là (j'espère quand même avoir toujours été assez vague pour qu'on ne puisse pas m'accuser d'avoir écrit un énoncé indiscutablement faux, mais si c'est le cas, je mettrai la faute sur les licornes qui m'ont poussé).

*

Un autre exemple que je trouve assez convainquant de licorne qui a été capturée (beaucoup plus récemment que √(−1)) est la « fonction δ » de Dirac. Naïvement, c'est une fonction qui vaut zéro partout sauf en zéro, où elle prend une valeur infinie, et même tellement infinie que l'intégrale de la fonction vaut 1. Sauf que, dit comme ça, ça n'a pas de sens : l'intégrale de Lebesgue ne permet pas une telle chose. Ça n'a pas empêché Dirac d'introduire cette « fonction », et de se rendre compte que c'était bien utile de s'en servir (dans son cas, en mécanique quantique ; mais elle sert aussi en traitement du signal ou dans toutes sortes d'autres contextes). Le sens intuitif est clair : on concentre une fonction positive sur une région infinitésimale autour de 0 en gardant l'intégrale constante ; mais la difficulté est de formaliser la chose. Il y a toutes sortes de propriétés « impossibles » qui viennent naturellement avec : par exemple, sa transformée de Fourier est la fonction constante égale à 1 (contredisant notamment le théorème de Riemann-Lebesgue qui assure que la transformée de Fourier d'une fonction intégrable doit tendre vers zéro à l'infini) ; on peut aussi écrire cette licornesque fonction δ comme une limite de densités de probabilités gaussiennes centrées en 0 et dont l'écart-type tend vers 0 (et vérifier que cette limite, en fait, n'existe pas en tant que fonction). Et si on commence à considérer δ² les choses ne tiennent vraiment plus guère debout. Par contre, si on introduit la dérivée δ′ de δ, les choses se passent nettement moins mal, mais c'est encore plus difficile à justifier formellement.

Bref, une licorne : un objet dont on voudrait bien qu'il existât, mais qu'on n'arrive pas à faire entrer dans le formalisme de la théorie dont on dispose. Ce n'est pas que la théorie est « fausse », bien sûr : c'est que les définitions sont trop étroites pour encadrer l'objet qu'on voudrait. C'est le signe qu'il doit y avoir une théorie plus générale à découvrir.

Dans le cas de la « fonction δ », la théorie en question est celle des distributions, développée en 1945 par Laurent Schwartz. et on peut presque dire qu'il a obtenu la médaille Fields (en 1950) non pas pour un théorème mais pour une définition. L'idée qui permet de formaliser la fonction « fonction δ », donc, c'est de la considérer non pas comme une fonction numérique (de ℝ vers ℝ), mais à travers son intégrale : une distribution f n'est pas quelque chose qui à un réel x associe un autre réel f(x) mais qui à une « fonction-test » φ associe un réel ⟨f,φ⟩ qui correspond intuitivement à ∫(f·φ) = ∫f(xφ(x)·dx (et généralise cette construction pour une fonction) ; en choisissant correctement quel espace de fonctions-test on prend et quelle condition de continuité on exige sur φ ↦ ⟨f,φ⟩, on arrive à définir une notion de distribution qui se comporte de façon agréable. (La distribution δ est alors simplement définie par le fait que ⟨δ,φ⟩ = φ(0), et sa dérivée δ′ par le fait que ⟨δ′,φ⟩ = −φ′(0).)

La théorie des distributions ne vient évidemment pas contredire les théorèmes d'impossibilité selon lesquels la « fonction δ » ne pouvait pas être une fonction : elle passe à côté, définit une nouvelle sorte d'objets pour attraper la licorne. Il n'y a pas forcément qu'une seule possibilité. Heaviside en 1893 (donc bien avant Dirac) avait inventé une forme de « calcul symbolique » qui donnait un sens à la fonction δ (pas encore nommée ainsi), même si ce sens était très peu satisfaisant : on ne peut pas considérer qu'il ait attrapé la licorne, simplement qu'il l'avait aperçue ; Bochner en 1932 avait introduit un notion de « fonctions formelles » (dérivables à volonté) qui, en fait, recouvrait partiellement la théorie des distributions et aurait permis de définir la fonction δ, mais personne ne s'en est rendu compte : il a frôlé la licorne sans le savoir. En 1958, Mikio Satō a introduit les hyperfonctions, généralisant encore plus les distributions — il aurait été parfaitement possible qu'elles fussent définies en premier. La théorie des distributions ouvrait elle-même des quêtes de nouvelles licornes : on ne peut pas multiplier les distributions (par exemple définir δ²), il y a un théorème d'impossibilité de Schwartz à ce sujet ; mais dans les années '80, on a attrapé cette licorne-là, quand Colombeau a défini les algèbres qui portent son nom.

*

Évidemment, la chasse aux licornes a un coût : les licornes ne sont pas des animaux comme les autres, donc ne se comportent pas comme les autres : même une fois qu'on les a attrapées par une définition, il faut les apprivoiser, et ce n'est pas forcément facile. Les nombres complexes n'ont pas toutes les propriétés des nombres réels (avoir dû abandonner la possibilité de les ordonner est un gros sacrifice). Les distributions de Schwartz ne se comportent pas comme des fonctions, elles ont des propriétés qui peuvent être déplaisantes, voire vraiment pénibles, et ne sont pas adaptées à tout et n'importe quoi ; les éléments des algèbres de Colombeau sont encore plus désagréables, et on ne s'en sert pas tant que ça. Mais il est quand même utile d'avoir attrapé la licorne pour comprendre comment elle fonctionne, pour savoir comment on peut formaliser une notion qu'on avait envisagée intuitivement.

Distinguons la chasse aux licornes de celle de l'éléphant blanc. La licorne a ceci de particulier qu'on « sait » qu'elle ne peut pas exister : toute la difficulté est de trouver la définition qui lui permet quand même d'exister. L'éléphant blanc, lui, on ne sait pas s'il existe ou on ne sait pas le construire, mais c'est un animal normal. Celui qui réussit à le capturer a droit à la gloire, mais il n'a pas accompli quelque chose qui semblait carrément impossible. Un exemple d'éléphant blanc, c'est le groupe Monstre (ou le groupe J₄ de Janko) : on a vu les traces du Monstre avant de l'attraper, c'est-à-dire qu'on soupçonnait sa présence, on savait plein de choses sur lui[#], sans avoir de construction ou de preuve de son existence — mais il n'y avait pas de doute que c'était un groupe, qu'on n'avait aucun besoin d'étendre la définition de « groupe » pour lui faire plaisir. Une licorne, c'est autre chose.

[#] En l'occurrence, la « table de caractères », qu'on peut comparer à une empreinte extrêmement précise que l'éléphant a laissé sur le monde mathématique. Un squelette, peut-être ? Une fois qu'on a vu le squelette, l'existence de l'animal ne fait vraiment plus guère de doute, même s'il reste à attraper.

Je ne prétends pas que ma classification des objets hypothétiques en licornes et éléphants blancs soit toujours parfaitement claire, cependant. La définition mathématiquement précise d'une théorie quantique des champs est quelque part entre les deux (ou peut-être que c'était une licorne jusqu'à ce que les axiomes de Wightman la transforment en éléphant blanc ; mais les intégrales de chemin sont probablement encore plutôt du côté des licornes).

En matière d'analyse, il y a une autre licorne (ou en tout cas une bestiole apparentée) que je pourrais mentionner, et qui a été au moins partiellement domestiquée, c'est la sommation des séries divergentes. La somme (0+1+2+3+4+⋯), par exemple, vaut classiquement l'infini, mais si on chevauche la bonne licorne, elle peut valoir −1/12 (tandis que (1+1+1+1+1+⋯) vaut −1/2). Quand on manipule les séries divergentes, on aboutit facilement à toutes sortes de paradoxes (du genre, (1+1+1+1+1+⋯) = (1+(1+1+1+1+⋯)) donc (−1/2) devrait valoir 1+(−1/2), ce qui manifestement n'est pas le cas), mais il y a quand même toutes sortes de manipulations qui favorisent la valeur −1/12 pour (0+1+2+3+4+⋯) (disons) : une théorie de la sommation des séries divergentes doit rendre rigoureuse l'explication de quelles séries elle permet de sommer, avec quelles valeurs et pourquoi, et quelles manipulations sont légitimes ou non ; par exemple, la sommation de (0+1+2+3+4+⋯) en −1/12 est justifiée par la régularisation par fonction zêta. On est un peu à la limite de ce que j'appelle une licorne, parce que le problème n'est pas tellement de définir un objet, mais comme il s'agit de justifier rigoureusement des calculs qu'Euler faisait sans s'embarrasser, cela rentre au moins dans le même coin du bestiaire.

Une licorne particulièrement célèbre auprès des algébristes est le corps à un élément (parfois noté 𝔽₁). Je ne vais pas définir ce que c'est que le corps à un élément puisque, justement, c'est une licorne — il n'existe pas. Un corps a forcément au moins deux éléments (0 et 1, qui doivent être distincts ; il y a bien un anneau appelé l'anneau nul, qui a un seul élément et où 0=1, mais cet anneau est prodigieusement inintéressant, et ce n'est pas le mythique corps à un élément). Il s'agirait donc de définir une notion plus générale de corps, dans laquelle le « corps à un élément » existerait ; mais en fait, il est à peu près acquis que ce n'est pas tellement la notion de corps elle-même qu'il faut généraliser (on ne va pas arriver à capturer la licorne en recherchant un ensemble muni d'une structure algébrique quelconque, et surtout pas un singleton muni d'une structure algébrique quelconque, forcément inintéressante), c'est plutôt la notion de « variété algébrique sur un corps » ou quelque chose comme ça. Certains ont l'intuition que le corps à un élément a l'élément 1 mais pas l'élément 0, d'autres ont l'intuition qu'il a l'élément 0 et seulement une « trace infinitésimale » d'élément 1, mais tout ça n'a pas de sens précis : il ne faut pas prendre l'idée que ce corps a « un élément » trop au sérieux, et peut-être qu'il vaudrait mieux l'appeler le corps fondamental ou le corps absolu ou le corps-base ultime ; la seule raison pour laquelle on dit qu'il a « un élément », c'est que certaines formules le concernant s'obtiennent en substituant q=1 (parfois après quelques modifications préalables) dans une formule concernant les corps finis à q éléments.

Bref, je ne peux pas expliquer ce que c'est que le corps à un élément puisque personne ne sait, mais je peux au moins donner quelques indications sur les endroits où on a observé les traces de cette licorne.

*

Le premier à avoir aperçu la licorne « corps à un élément », c'est Jacques Tits, dans le cadre de l'étude de la théorie des groupes algébriques réductifs.

Comme je ne veux pas trop entrer dans les explications techniques, juste raconter un peu l'histoire, je ne vais pas vraiment tenter de dire ce que c'est que les groupes algébriques réductifs, mais disons qu'on peut faire comme si c'était pareil que les groupes de Lie réductifs complexes dont j'ai parlé ici, et en tout cas il y a par exemple le groupe général linéaire GLn, le groupe spécial linéaire SLn, le groupe spécial orthogonal SOn, le groupe symplectique Spn, les groupes exceptionnels G₂, F₄, E₆, E₇, E₈… chacun de ces groupes peut être considéré sur un corps k particulier (ou même sur un anneau commutatif, mais c'est un petit peu plus délicat) : si G est un groupe algébrique et k un corps ou simplement un anneau commutatif, G(k) est un groupe au sens ordinaire appelé ensemble des points de G à valeurs dans k. Par exemple, GLn(k) est le groupe des matrices n×n inversibles à coefficients dans k, comme on s'y attend, le groupe SLn(k) est formé de celles de déterminant 1, et Spn(k) est formé des matrices 2n×2n qui sont symplectiques (préservent une forme bilinéaire alternée non-dégénérée)[#2]. La fonction qui à k associe G(k) est un foncteur, et est même un schéma au sens où je le définis dans cette entrée.

[#2] Par contre, SOn(k) n'est pas ce qu'on imagine naïvement, d'une part parce que la forme quadratique standard (x1² + ⋯ + xn²) utilisée pour définir SOn sur les réels n'est pas celle qui va me fournir un groupe algébrique réductif déployé comme ce que j'ai envie de considérer ici, et d'autre part parce qu'il y a toujours des épines en caractéristique 2 ; voir ici. Enfin, si k est un corps de caractéristique ≠2 et dans lequel −1 est un carré, alors SOn(k) est bien ce que tout le monde entendra par là (mais sur les réels, par exemple, ce que je veux noter SOn(ℝ) est ce qu'on note classiquement SO(⌊n/2⌋,⌈n/2⌉)).

Mais par ailleurs, à tout groupe algébrique réductif G la théorie associe aussi un autre groupe W(G) appelé son groupe de Weyl : ceux qui ont lu ce rant-ci ou celui-là ont au moins une petite idée de quoi il s'agit ; mais sinon, par exemple, le groupe de Weyl de GLn ou SLn est le groupe symétrique sur n objets, et celui de SO2n+1 ou Spn est le groupe des permutations signées sur n objets (= produit d'une matrice de permutation de taille n×n par une matrice diagonale à valeurs diagonales dans {±1}) ; les groupes de Weyl de F₄, E₆, E₇ et E₈ ne sont pas si faciles à décrire mais j'en ai dit un mot ici et (celui de G₂ est juste le groupe diédral du triangle de l'hexagone).

Quel est le rapport entre ces groupes G(k) des points de G à valeurs dans k et ce groupe de Weyl W(G) ? A priori, pas grand-chose. Mais c'est là que Tits fait une observation intéressante : si k est un corps fini 𝔽q à q éléments, il y a une formule permettant de calculer l'ordre (= le nombre d'éléments) de G(𝔽q), et c'est un polynôme en q. Par exemple, pour E₈, c'est q120·(q30−1)·(q24−1)·(q20−1)·(q18−1)·(q14−1)·(q12−1)·(q8−1)·(q2−1) ; or on peut calculer l'ordre de W(G) en prenant ce polynôme, en jetant tous les facteurs q−1 dedans, et en substituant ensuite q=1 (par exemple, pour E₈, cela donne 30×24×20×18×14×12×8×2 = 696 729 600). Les choses se passent donc un peu comme si W(G) était le groupe des points de G à valeurs dans un corps à q=1 élément ! (Enfin, pas tout à fait, puisqu'on jette le facteur q−1 avec lequel on obtient simplement zéro.)

Mais Tits ne s'arrête pas là. Il a défini une structure combinatoiro-géométrique appelée les immeubles, je ne vais pas essayer d'expliquer de quoi il s'agit, mais cette structure admet une variante dégénérée (les immeubles minces ou complexes de Coxeter) qui se comporte comme s'il s'agissait d'immeubles sur le corps à un élément. D'autre part, les groupes algébriques ont des sous-groupes particulièrement importants appelés les paraboliques, et leurs groupes de Weyl ont aussi des paraboliques qui se comportent de façon tout à fait analogue. Et le nombre d'éléments du quotient d'un groupe algébrique par un sous-groupe parabolique, sur un corps fini à q éléments, devient, quand on fait q=1, le nombre d'éléments du quotient du groupe de Weyl par son sous-groupe parabolique correspondant ; et ceci fournit tout un jeu d'analogies entre des données d'algèbre linéaire et des données combinatoires (on appelle ça les q-analogies).

Je peux au moins donner un tout petit exemple de ce genre de ressemblance combinatoire. Si k est un corps et 0≤rn deux entiers naturels, la grassmannienne Gr(r,n,k) est l'ensemble des sous-k-espaces vectoriels de dimension r de kn. On peut aussi la voir comme le quotient (ensemble des classes à gauche) du groupe général linéaire G := GLn(k) des matrices n×n inversibles sur k par son sous-groupe « parabolique » H formé des matrices triangulaires supérieures par blocs de forme (r+(nr))×(r+(nr)) (je veux dire, n'ayant que des 0 à l'intersection des nr dernières lignes et des r premières colonnes) ; l'identification envoie une classe à gauche g·H sur le sous-espace vectoriel g·U de knU est le sous-espace vectoriel engendré par les r premiers vecteurs de la base canonique de kn de sorte que H est justement le stabilisateur {g∈G : g·U=U} de U dans G = GLn(k). Si k est le corps fini 𝔽q à q éléments, alors le cardinal de cette grassmannienne Gr(r,n,𝔽q) = G/H est donné par le coefficient binomial gaussien Binom(n,r,q) := [n]q!/([r]q!·[nr]q!) où [s]q! est défini comme le produit [1]q · [2]q · [3]q ⋯ [s−1]q · [s]q et où [s]q désigne le polynôme (qs−1)/(q−1) = qs−1 + ⋯ + q² + q + 1. Ces dernières formules et notations suggèrent une analogie évidente : quand q=1, le polynôme [s]q vaut simplement s, donc le polynôme [s]q! vaut s! et le polynôme Binom(n,r,q) vaut le coefficient binomial usuel Binom(n,r) = n!/(r!·(nr)!). Mais ce Binom(n,r) dénombre bien quelque chose : c'est l'ensemble, notons-le Gr₁(r,n) des parties à r éléments d'un ensemble à n éléments, disons {1,…,n}, et ce Gr₁(r,n) peut se voir comme le quotient (ensemble des classes à gauche) du groupe symétrique G₁ := 𝔖n par son sous-groupe « parabolique » H₁ formé des permutations qui stabilisent l'ensemble U={1,…,r}. Et justement, le groupe symétrique G₁ = 𝔖n est le groupe de Weyl de GLn. Tout ceci suggère que :

Un espace vectoriel de dimension n sur le « corps à un élément » est simplement un ensemble fini de cardinal n. Un sous-espace vectoriel de dimension r est simplement un sous-ensemble de cardinal r. Une matrice inversible n×n sur le « corps à un élément » est simplement une permutation de n objets.

Cette analogie est donc appuyée à la fois sur le groupe de Weyl et sur l'observation combinatoire que le nombre Binom(n,r,q) = #Gr(r,n,𝔽q) de sous-espaces vectoriels de dimension r d'un espace vectoriel de dimension n sur le corps à q éléments est un polynôme en q qui devient, quand on fait q=1 (cette fois il n'y a rien à changer) le nombre Binom(n,r) de parties à r éléments d'un ensemble de cardinal n. Mais c'est encore plus intéressant quand on permet à r de varier ou quand on considère des « drapeaux » de plusieurs sous-espaces vectoriels imbriqués : c'est essentiellement cette combinatoire-là l'« immeuble » associé à GLn sur un corps k, et l'« immeuble mince » est la combinatoire des parties à r éléments de {1,…,n} et de leurs drapeaux (qui sont juste des suites finies de parties incluses les unes dans les autres).

Et le même genre de choses est possible pour tous les autres groupes algébriques réductifs. Ceci permet de « définir » d'autres structures d'algèbre linéaire sur le corps à un élément. Par exemple, étant acquis qu'un espace vectoriel de dimension n sur le « corps à un élément » est simplement un ensemble fini à n éléments, une forme bilinéaire alternée non-dégénérée dessus est un appariement de ces éléments en n/2 paires (ce qui exige évidemment que n soit pair…) ; un sous-espace lagrangien[#3] (= totalement isotrope maximal) est un choix d'un élément de chaque paire ; et une matrice n×n symplectique est une permutation qui stabilise l'appariement (ce qui peut s'identifier à une permutation signée des n/2 paires, et c'est cohérent avec le fait que le groupe de Weyl de Spn est l'ensemble des permutations signées).

[#3] Le nombre de sous-espaces vectoriels lagrangiens d'un espace vectoriel symplectique (= muni d'une forme bilinéaire alternée non-dégénérée) de dimension n=2m sur le corps fini à q éléments vaut ∏1≤rm ([2r]q/[r]q) (où toujours [s]q = (qs−1)/(q−1) = qs−1 + ⋯ + q² + q + 1) ; pour q=1, ceci donne bien 2m, le nombre de façons de choisir un élément dans chacune des m paires.

Bref, il y a tout un ensemble d'indices quant à l'existence de la licorne « corps à un élément » qui viennent de la théorie des groupes algébriques et des analogies (q-analogies) entre des structures d'algèbre linéaire et des structures combinatoires.

*

Mais il y a d'autres traces de la licorne, ou en tout cas, d'une licorne, qui viennent, cette fois, de la théorie des nombres. Beaucoup de résultats de théorie des nombres (les fondements de la théorie des anneaux d'entiers, la théorie du corps de classes, les lois de réciprocité, les propriétés basiques des fonctions zêta, ce genre de choses) peuvent se formuler dans deux contextes, les « corps de nombres » (c'est-à-dire les extensions finies de ℚ) et les « corps de fonctions » (c'est-à-dire les corps de fonctions rationnelles de courbes algébriques sur les corps finis), et il y a une grande analogie entre ces deux contextes, le cas des « corps de fonctions » étant, généralement parlant, plus simple à traiter. (Je vais donner un tout petit bout d'exemple plus loin, mais pour une introduction générale à la théorie des nombres dans le contexte des « corps de fonctions », on pourra consulter le livre de Michael Rosen, Number Theory in Function Fields, Springer GTM 210 (2002), qui est assez pédagogique.) Ceci suggère qu'on doive visualiser un anneau comme ℤ comme l'anneau des fonctions régulières (≈ polynomiales) sur un objet géométrique qui serait une sorte de courbe, et le corps ℚ comme le corps des fonctions rationnelles sur cette courbe ; cet objet géométrique n'est pas spécialement une licorne, la théorie des schémas de Grothendieck le définit correctement (il s'agit de Spec(ℤ), et en gros on peut imaginer que c'est l'ensemble des nombres premiers), mais on a l'impression qu'il manque quand même quelque chose à l'analogie. Notamment, alors que côté « corps de fonctions » les anneaux et corps de fonctions sont des algèbres sur un corps fini, côté « corps de nombres », il manque un corps de base, un corps sur lequel ℤ serait une algèbre. (Il manque aussi un « point à l'infini » à Spec(ℤ) pour être une bonne courbe, et je vais revenir là-dessus plus bas en essayant d'expliquer un petit peu de quoi il s'agit.)

À ce niveau-là, donc, le « corps à un élément » serait quelque chose qui rendrait plus satisfaisante l'analogie entre « corps de fonctions » et « corps de nombres » en théorie des nombres. Arriver à le définir correctement semble devoir promettre des retombées spectaculaires. Notamment, comme l'hypothèse de Riemann est démontrée côté « corps de fonctions », si ℤ peut être vu comme l'anneau des fonctions d'une courbe sur ce corps licornesque, on devrait pouvoir prendre le produit de deux copies de cette courbe pour définir une sorte de surface, et former quelque chose qu'on doit pouvoir noter ℤ ⊗𝔽₁ ℤ (l'anneau des fonctions sur la surface en question, anneau tout aussi licornesque que le corps à un élément 𝔽₁ lui-même) qui serait une des clés pour une éventuelle démonstration de l'hypothèse de Riemann. On pourrait aussi imaginer des retombées algorithmiques comme une méthode efficace de factorisation des entiers. (Tout cela, évidemment, est totalement spéculatif, et il n'y a rien d'obligatoire à ce qu'une théorie même parfaitement satisfaisante du corps à un élément ait de telles conséquences.)

Il faut garder une possibilité à l'esprit, cependant, c'est que non seulement il n'est pas du tout certain que le « corps à un élément » qu'on soupçonne pour des raisons de groupes algébriques (évoquées plus haut) et le « corps à un élément » qu'on soupçonne à cause d'analogies en théorie des nombres (que je viens d'esquisser) existent l'un ou l'autre, mais même s'ils existent, rien ne dit qu'ils soient nécessairement identiques. Peut-être qu'une théorie permettra de définir l'un et pas l'autre, ou l'autre et pas l'un, peut-être que deux théories différentes et incompatibles permettront de définir chacun d'ente eux, ou qu'une théorie permettra de définir les deux sans qu'ils soient le même objet. Il ne faut pas trop présupposer au sujet des licornes.

*

Néanmoins, il y a un certain nombre de choses qu'on pense savoir sur le corps à un élément et qui semblent assez cohérentes entre les différentes traces de pas laissées par la licorne.

Par exemple, il semble que le corps à un élément ait une unique extension de degré d pour chaque entier naturel d, et qu'on appelle… le corps à 1d éléments. Oui, c'est un peu ridicule, dit comme ça. Peut-être qu'il vaut mieux imaginer, en fait, que le corps à 1 élément a en fait (1+ε) éléments avec ε infinitésimal, si bien que son extension de degré d serait le corps à (1+ε)d≈(1+dε) éléments. Ce corps à 1d (ou (1+ε)d) éléments est, bien sûr, tout autant une licorne que celui à 1 élément, mais on sait quelques choses sur lui : le groupe de Galois de l'extension est le groupe cyclique à d éléments ; au moins pour d impair, un corps est une algèbre sur le corps à 1d éléments si et seulement si il contient les racines d-ièmes de l'unité ; un espace vectoriel de dimension finie sur le corps à 1d éléments est un ensemble fini muni d'une permutation qui soit un produit de d-cycles disjoints et recouvrant l'ensemble (et la restriction des scalaires au corps à 1 élément consiste à oublier cette permutation, tandis que l'extension des scalaires d'un ensemble X du corps à 1 élément à celui à 1d éléments consiste à prendre le produit X×(ℤ/dℤ) avec la translation de 1 sur la seconde composante) ; le groupe des matrices n×n inversibles à valeurs dans le corps à 1d éléments a l'air d'être le groupe des permutations de {1,…,n}×(ℤ/dℤ) commutant à la translation de 1 sur la seconde composante (c'est le « produit en couronne » (ℤ/dℤ) ≀ 𝔖n ou de façon équivalente, le groupe des matrices complexes qui sont produit d'une matrice de permutation par une matrice diagonale ayant des racines d-ièmes de l'unité sur la diagonale).

Tout n'est pas toujours très cohérent (par exemple, le corps à q éléments, qui pour sa part n'est pas du tout une licorne, semble être une extension de degré 1 (???) du corps à 1(q−1) éléments, et ils ont le même groupe multiplicatif, mais ils sont quand même censés être différents — c'est louche et perturbant). Mais il y a suffisamment de cohérence et de choses qui se rejoignent pour qu'on soupçonne qu'il y ait quelque chose à trouver.

*

Il y a toutes sortes de gens qui ont développé des théories censées définir le corps à un élément. En fait, il y a beaucoup plus de théories du corps à un élément qu'il n'y a d'éléments dans le corps à un élément : Soulé, Toën & Vaquie, Connes & Consani (cf. aussi ici), Deitmar (cf. ici), Durov, Borger, Lorscheid, etc. Il y a même une étude comparative des approches possibles du corps à un élément. Et voir aussi ce texte de Manin. (Pour ma part, je n'ai que très peu lu de tout ça, donc je ne peux rien en dire d'intelligent.) Si on est un chouïa peu charitable, on peut penser que tous ces gens ont pris un cheval, leur ont mis une corne sur le front et appellent ça une licorne, mais en fait, si ça ne chie pas des arcs-en-ciel, ce n'est pas une licorne. Plus sérieusement, il y a certainement des idées intéressantes dans chacune de ces approches, on peut dire qu'on a des signes plus précis de l'existence de la licorne et de comment on pourrait peut-être imaginer l'attraper, mais on ne peut pas encore dire qu'elle est au zoo.

Je veux évoquer encore une autre licorne que j'affectionne assez, et qui a l'air de vivre assez près de la licorne « corps à un élément », c'est le corps résiduel des réels. Cette licorne-là est basée sur l'idée que si on considère Spec(ℤ), que le lecteur non familier avec le sujet peut imaginer comme l'ensemble des nombres premiers, comme un objet géométrique, on a l'impression qu'il lui manque un point. Un nombre premier manquant, un nombre premier « à l'infini » (qui est aux nombres réels ce que les nombres premiers ordinaires sont aux nombres p-adiques). Je voudrais essayer d'expliquer un peu ça : pour ça, je dois d'abord expliquer rapidement ce que sont les valeurs absolues p-adiques et les nombres p-adiques.

Si p est un nombre premier (usuel) et n un entier non nul, on appelle valuation p-adique et on note vp(n) l'exposant de la plus grande puissance de p qui divise n, c'est-à-dire l'exposant qui apparaît sur p dans la décomposition de n en facteurs premiers (ou 0 si p n'apparaît pas du tout, i.e., ne divise pas n). Par exemple, comme 1400 = 2³×5²×7, on a v₂(1400)=3, v₃(1400)=0, v₅(1400)=2, v₇(1400)=1 et vp(1400)=0 pour tout nombre premier p∉{2,5,7}. Si on préfère, vp(n) compte le nombre de 0 à la fin (= en « poids faible ») du nombre n quand on écrit ce dernier en base p (par exemple, v₂(n) compte le nombre de 0 à la fin de l'écriture binaire de n). Par convention, on pose vp(0) = +∞ pour tout p premier. Cette valuation p-adique s'étend aux rationnels en définissant vp(a/b) = vp(a) − vp(b). Enfin, on définit la valeur absolue p-adique |x|p d'un rationnel x∈ℚ comme pvp(x) (où vp(x) est la valuation p-adique que je viens de définir) : essentiellement, c'est l'inverse de la puissance de p qui apparaît dans la décomposition en facteurs premiers de x (étendue de façon évidente aux rationnels). Par exemple |2/45|₂ = 1/2 et |2/45|₃ = 9 et |2/45|₅ = 5 (et |2/45|p = 1 si p∉{2,3,5}). Intuitivement, plus la valeur absolue p-adique est petite, plus le nombre est divisible par p. On convient aussi que |0|p = 0 pour tout p premier.

Ces valeurs absolues p-adiques, de même que la valeur absolue usuelle que je vais noter |x| (c'est-à-dire x si x≥0 et −x si x≤0), vérifient les propriétés suivantes :

  • |x|≥0 quel que soit x,
  • |x|=0 si et seulement si x=0,
  • |x+y| ≤ |x| + |y| (en fait, pour une valeur absolue p-adique, on a même |x+y| ≤ max(|x|,|y|)),
  • |1| = 1 [ceci découle du point suivant, mais je trouve que ce serait idiot de ne pas l'inclure],
  • |x·y| = |x|·|y|,
  • il existe des x tels que |x| ne soit ni 0 ni 1.

À ces valeurs absolues est associée une notion de distance : la distance p-adique entre deux rationnels x et y est la valeur absolue p-adique |xy|p de la différence, de même que la distance usuelle entre x et y est la valeur absolue usuelle |xy| de leur différence. Intuitivement, la distance p-adique mesure à quel point les nombres diffèrent par (quelque chose divisible par) une grande puissance de p, de façon que les grandes puissances de p soient très proches de zéro (p-adiquement « petites »). Pour des entiers naturels au moins, dire que deux entiers sont p-adiquement très proches signifie que leurs derniers chiffres (= chiffres de poids faibles) coïncident quand on écrit ces entiers en base p.

Maintenant, le même procédé qui permet de construire les nombres réels ℝ comme « complétion » des rationnels pour la distance usuelle (intuitivement, ℚ a des « trous » parce qu'il y a des suites qui « visiblement » devraient converger et qui n'admettent pas de limite rationnelle, et on fabrique ℝ en bouchant tous ces trous) fonctionne aussi pour toutes ces autres distances que j'ai définies : les corps qu'on obtient s'appellent les corps des nombres p-adiques (un pour chaque nombre premier p) et se notent ℚp. Une définition plus terre-à-terre des nombres p-adiques consiste à définir d'abord les entiers p-adiques ℤp comme les écritures en base p infinies à gauche (par exemple pour p=2, l'écriture binaire …1010101010101011 définit un entier 2-adique, qui s'avèrera être 1/3), l'addition et la multiplication se calculant exactement comme on le fait pour les entiers naturels écrits en base p (mêmes tables d'addition et de multplication, même système de reports ; l'opération est infinie, mais chaque chiffre donné se calcule en un nombre fini d'étapes : par exemple, un petit exercice consiste à vérifier que si on ajoute le 2-adique …1010101010101011 à lui-même deux fois, ou qu'on le multiplie par trois (11), on obtient bien 1) ; la valuation p-adique sur ℤp consiste simplement à compter le nombre de 0 à la fin de l'écriture, et la valeur absolue p-adique se définit comme on l'a fait plus haut. Quant à l'ensemble ℚp des nombres p-adiques, c'est pareil mais cette fois on autorise aussi un nombre fini de chiffres à droite de la virgule/point, ce qui revient à autoriser à diviser par p (0.1 représente le rationnel 1/p, de valuation p-adique −1, et 0.01 le rationnel 1/p², de valuation p-adique −2, et ainsi de suite). On peut montrer que le ℚp que je viens de définir est un corps, complet pour la distance p-adique, et dans lequel ℚ est dense (il est donc le complété de ce dernier pour la distance p-adique).

*

Avec les définitions que j'ai faites, il est logique de noter ℚ = ℝ. Mais pour que ce soit plus qu'une vague notation, il est pertinent que je signale le fait suivant : on peut montrer que les valeurs absolues (usuelle et p-adiques) que j'ai définies sont toutes les valeurs absolues possibles sur les rationnels (essentiellement toutes celles qui vérifient les propriétés que j'ai listées, en convenant d'identifier une valeur absolue avec sa puissance par n'importe quel exposant strictement positif) ; et il y a des résultats du même genre qui disent que les complétés ℝ et ℚp qu'on a construits sont toutes les façons de compléter ℚ (je n'ai pas envie de donner un résultat précis, mais disons qu'il y a des résultats de ce genre). Il est donc raisonnable de tous les mettre ensemble. Comme indication du fait que tous ces objets vivent harmonieusement ensemble, on peut aussi signaler la formule du produit, qui dit que si x est un rationnel non nul, le produit des |x|ww parcourt tous les nombres premiers ainsi que le symbole spécial ∞, vaut toujours 1.

On utilise généralement le terme de place de ℚ pour désigner un nombre premier p ou le symbole spécial ∞, cette dernière s'appelant la place archimédienne. (On peut aussi définir tout ça pour d'autres corps de nombres, ce qui renforce la cohérence de l'histoire.)

Cela m'emporterait trop loin d'essayer d'expliquer pourquoi on a envie de ranger la place archimédienne ∞ avec les autres : mais disons au moins que toutes sortes de résultats de théorie des nombres s'énoncent plus commodément de la sorte. Donnons juste un petit exemple d'indice :

J'ai évoqué plus haut l'analogie entre « corps de fonctions » et « corps de nombres » (servant à expliquer qu'on veuille chasser la licorne 𝔽₁) : un des aspects les plus simples de cette analogie est que le corps 𝔽p(t) des fractions rationnelles en une indéterminée t sur le corps fini 𝔽p = ℤ/pℤ a lui aussi des « places », en l'occurrence une pour chaque polynôme f∈𝔽p[t] unitaire irréductible (la valeur absolue f-adique |x|f de x∈𝔽p(t) est définie comme p puissance −deg(fvf(x) où vf(x) est l'exposant de f dans la décomposition de x en facteurs irréductibles, exactement comme pour les rationnels) plus une « à l'infini » (la valeur absolue |x| de x∈𝔽p(t) étant égale à p puissance le degré de x, c'est-à-dire le degré du polynôme au numérateur moins le degré du polynôme au dénominateur). Dans le cas de 𝔽p(t), cette place « à l'infini » se comporte tout à fait comme les autres, géométriquement on la comprend très bien (les places de 𝔽p(t) sont essentiellement la droite projective sur 𝔽p quotientée par l'action de Galois, i.e., du Frobenius), la formule du produit marche sans problème (∏w |x|w = 1 pour tout x≠0 dans 𝔽p(t) où w parcourt toutes les places, aussi bien celles données par f unitaire irréductible que celle « à l'infini »). Donc on a envie que pour le cas de ℚ il y ait aussi une place « à l'infini ».

Je devrais aussi glisser quelque part les mots théorie d'Arakelov, parce que, de façon très très simplifiée et abusée, c'est toute une théorie autour de comment faire que la place ∞ de ℚ joue avec ses petites copines.

Maintenant, cette place archimédienne ∞ de ℚ se comporte quand même différemment des autres, et c'est franchement désagréable. Par exemple, la boule unité fermée {x∈ℚw : |x|w ≤ 1} est stable par addition et multiplication pour toute place w=p non-archimédienne (c'est ℤp), mais pour w=∞ (c'est l'intervalle [−1;1] de ℝ) elle n'est stable que par multiplication. En fait, si la boule unité fermée {x∈ℚp : |x|p ≤ 1} de ℚp est l'anneau ℤp des entiers p-adiques (fermeture/complétion de ℤ pour la distance p-adique), la boule unité ouverte {x∈ℚp : |x|p < 1} est pp, l'idéal des multiples de p. Le quotient des deux ℤp/pp est simplement le corps ℤ/pℤ des entiers modulo p (on garde juste le dernier chiffre de l'écriture en base p) : on l'appelle corps résiduel 𝔽p de ℚp, ou bien de ℚ à la place p.

La licorne, maintenant, c'est le corps résiduel de ℚ à la place ∞ : ce 𝔽 est quelque chose comme le quotient de l'intervalle fermé [−1;1] par l'intervalle ouvert ]−1;1[ (qui serait sensé être un idéal du précédent, ça n'a pas de sens parce que [−1;1] n'est pas un anneau, il n'est clos par addition, mais on remarque quand même que le produit d'un élément de l'intervalle ouvert par un élément quelconque de l'intervalle fermé est bien dans l'intervalle ouvert comme on l'attend d'un idéal). Tout ça est dénué de sens comme je l'ai écrit, mais on aimerait bien que ça en ait un.

L'intuition que je me fais de ce « corps résiduel de ℝ », que je dois logiquement noter 𝔽, est que c'est un corps ayant un élément, mais ce n'est pas « le » corps à un élément (l'autre licorne dont j'ai parlé avant), parce que « le » corps à un élément (𝔽₁) a un seul élément non nul (cela découle de ce que j'ai dit sur les matrices n×n inversibles, dans le cas n=1), tandis que 𝔽 a deux éléments non nuls, qu'on peut appeler « strictement positif » et « strictement négatif » (avec la table de multiplication qu'on pense). Donc 𝔽 a « un élément parmi lequel deux sont non nuls », c'est très licornesque, comme comportement. (Ça évoque aussi vaguement le genre de choses que je racontais ici !) Plus généralement, je pense qu'il y a toujours exactement deux matrices n×n inversibles sur 𝔽, à savoir celle qui a le déterminant strictement positif et celle qui a le déterminant strictement négatif, c'est différent de 𝔽₁ qui a n! matrices n×n inversibles. (Encore plus généralement, j'ai tendance à dire que si V est une variété algébrique réelle, son nombre de points sur 𝔽 est son nombre de composantes connexes[#4] pour la topologie réelle : l'affirmation de la phrase précédente en découle.)

[#4] Ou peut-être la caractéristique d'Euler-Poincaré ? À voir.

Mais le reste est tout à fait obscur. Le lien entre les deux licornes l'est tout autant. Faut-il considérer que 𝔽 est la réelle-clôture de 𝔽₁ ? Dans ce cas, y a-t-il un « corps résiduel de ℂ » (quotient du disque unité fermé par le disque unité ouvert ?), 𝔽∞², qui serait à la fois la clôture algébrique de 𝔽 et celle de 𝔽₁ (peut-être avec une complétion dans l'histoire ?), et qui aurait un seul élément mais un groupe d'éléments non-nul égal au groupe des complexes de module 1 ? (cela colle vaguement avec le fait que 𝔽1n a apparemment le groupe des racines n-ièmes de l'unité comme groupe des éléments non nuls). Plus on pousse les raisonnements, bien sûr, plus on se heurte à des apories dans tous les sens, et c'est normal, mais on arrive quand même à avancer assez pour se dire qu'il y a peut-être bien quelque chose à attraper.

(La chasse à la licorne « corps résiduel de ℝ » a l'air moins développée que la chasse à la licorne « corps à un élément », mais au moins le texte de Durov que j'ai lié plus haut part un peu dans cette direction en définissant quelque chose qu'il appelle ℤ et qui est apparenté à l'intervalle [−1;1].)

Ajout () : le corps résiduel de ℝ, 𝔽, devrait certainement être une algèbre sur le corps à un élément, 𝔽1, mais même aussi sur le corps à 1² éléments, 𝔽 (puisque +1 et −1 sont les racines de l'unité définies dans ℝ) ; le morphisme correspondant GLn(𝔽)→GLn(𝔽) semble être celui qui envoie une permutation signée de n objets sur le produit des signes.

Terminons par une petite anecdote. Quand j'étais agrégé-préparateur à l'ENS, il y avait quelqu'un (je ne le dénoncerai pas) qui préparait l'agrégation en même temps qu'il passait le concours de recrutement du CNRS. Ayant été pris au CNRS, il n'était plus intéressé par l'agrégation (qu'il présentait comme une sécurité éventuelle). Plutôt que de démissionner ou d'être simplement absent aux oraux de l'agreg, il avait préparé des leçons humoristiques (mais scientifiquement sérieuses) corps à un élément : exemple et applications pour l'algèbre et corps résiduel de ℝ : exemple et contre-exemple pour l'analyse (ces titres sont des parodies des titres typiques des leçons d'agreg) et a proposé au jury de présenter une de ces leçons pour passer le temps (étant bien entendu qu'il aurait de toute façon zéro à l'épreuve). Le jury a froidement refusé (et les gens du département de maths de l'ENS, quand ils ont entendu l'histoire, ont été partagés entre ceux qui trouvaient que c'était une idée rigolote et ceux qui estimaient que c'était un peu insulter le jury de l'agreg et manquer de respect envers les autres candidats que de proposer cette blague).

↑Entry #2551 [older| permalink|newer] / ↑Entrée #2551 [précédente| permalien|suivante] ↑

↓Entry #2549 [older| permalink|newer] / ↓Entrée #2549 [précédente| permalien|suivante] ↓

(samedi)

Quelques conseils pour les étudiants en maths

À l'approche de la rentrée, je me dis qu'il peut être utile que je publie quelques conseils pour les étudiants en maths. Ceux-ci sont inspirés à la fois de ce que j'ai écrit dans ce fil Twitter et de ce que j'ai expliqué de vive voix à un élève de prépa qui me demandait de tels conseils : ayant ainsi un peu réfléchi à ce que j'avais à dire, autant le mettre sur ce blog.

Il s'agit là de conseils généraux (et sans doute d'une bonne dose de proverbial enfonçage de portes ouvertes à ma fidèle hache bénie +2 trempée dans la potion de banalités), s'adressant plutôt à des étudiants entre approximativement ce qui correspond, dans le système éducatif français, aux niveaux bac à bac+5 (disons) : grosso modo, avant ça, on ne fait pas tellement de maths au sens « raisonnement déductif » (ayant la démonstration comme méthode essentielle) ; et après, si vous en êtes arrivé là, vous avez assez de familiarité avec les mathématiques pour ne pas avoir besoin de mes conseils. Certaines des choses que je vais dire s'appliquent à d'autres disciplines adjacentes, comme la physique ou l'informatique (pour ce qui est de l'informatique théorique, mon avis est qu'il s'agit de toute façon d'une branche des mathématiques, même si elle ne s'assume pas toujours comme telle) ; quelques uns s'appliquent sans doute à n'importe quelle discipline, mais je me focalise quand même sur les maths.

On doit pouvoir tirer de ces conseils aux étudiants quelques conseils pour les enseignants (en appliquant la dualité étudiant-enseignant et le foncteur de réduction des platitudes), mais comme je n'aime pas donner des leçons à ce sujet, je vais laisser ça en exercice au lecteur.

✱ Conseil nº1 : aimer ce que l'on fait. C'est peut-être un peu idiot de dire ça, mais je suis persuadé qu'on ne peut correctement faire des maths que si on les trouve un minimum belles et intéressantes. Si on les conçoit comme une corvée, elles le resteront. Si on les conçoit comme (la métaphore que j'aime bien utiliser) l'exploration d'un palais magnifique et incompréhensiblement gigantesque, à la structure à la fois labyrinthique et élégante, on peut arriver à comprendre que ce soit à la fois excitant et séduisant, et en tirer la motivation nécessaire à leur étude.

Je ne peux évidemment pas donner de recette magique pour comprendre que les maths sont belles. C'est quelque chose que j'essaie de communiquer, mais il est évident que je ne vais pas transformer tout le monde en matheux. Mais, même si on a un a priori négatif (et certaines formes d'enseignement des mathématiques laissent hélas place à bien peu d'autre que la corvée rébarbative), il est au moins essentiel de garder l'esprit ouvert à cette possibilité, que les maths puissent être fascinantes. Je pense qu'il est au moins utile, même si on est réfractaire, de chercher les sous-domaines sur lesquels on accroche un peu plus, et de peut-être chercher à se renseigner sur l'allure générale du paysage mathématique, méditer sur la question de pourquoi certaines personnes y trouvent goût (est-ce qu'on a reçu une image déformée par un enseignement rébarbatif ou est-ce qu'on est véritablement hostile aux mathématiques ? dans ce dernier cas, il vaut certainement mieux arrêter de les étudier le plus rapidement possible et ne pas céder aux sirènes qui promettent une meilleure carrière ou quelque chose de ce genre). L'histoire des sciences peut aussi être une passerelle vers un intérêt pour les mathématiques elles-mêmes.

✱ Conseil nº1b : faire preuve de curiosité intellectuelle, et questionner ce que l'on fait. Apprendre le cours pour le cours est la meilleure garantie d'en rester là. Pour comprendre un cours de maths, il faut plutôt le questionner[#], le décortiquer, essayer de prendre du recul. Pour ça, le mieux est de garder à l'esprit toutes sortes de questions (pourquoi fait-on ça ?, où veut-on en venir ?, comment fonctionne cet objet ?) ; je vais donner des exemples plus précis de telles questions (à se poser à soi-même ou à poser à l'enseignant) dans les conseils suivants, mais le message plus général est que tout questionnement est bienvenu (voir aussi les conseils nº6 et 6b ci-dessous).

[#] Dans un cours de langue, si un étudiant demande pourquoi 95 en français de France se dit-il quatre-vingt-quinze ?, on ne peut pas vraiment lui donner de réponse sauf des choses comme c'est comme ça ou c'est un accident historique, peut-être accompagnées d'une histoire du phénomène (mais c'est déjà empiéter des langues sur la linguistique, et ça n'aidera pas tellement à l'apprentissage du français). L'enseignant en maths, lui, doit être prêt à se justifier de plus près que ça.

✱ Conseil nº2 : travailler sans se noyer dans le travail. Les effets suivent une loi des rendements décroissants avec le travail fourni ; pire encore, le rendement marginal peut être négatif si on travaille à tel point qu'on se dégoûte de ce qu'on fait et que cela se transforme en corvée. Certaines filières peuvent encourager les étudiants à trop travailler (au hasard, les prépas en France, parce qu'il y a des concours à la fin), et c'est évidemment à ces étudiants-là que je m'adresse avant tout si je dis de ne pas se rendre malade en travaillant ; d'autres filières, au contraire, n'y encouragent pas assez (au hasard, ce qui vient après les concours en question, par contrecoup et à cause de l'effet maintenant que j'ai été admis, c'est bon, mon avenir est assuré) : mais dans les deux cas, ce sont des mirages. Il s'agit de trouver un point de bon rendement du travail.

La quantité d'effort à fournir est quelque chose de profondément personnel. Il ne faut pas chercher à l'évaluer en nombre d'heures passées, mais (1) à l'impression de familiarité avec le sujet qui doit s'en dégager, et (2) à la sensation de lassitude si on pousse trop. On peut néanmoins estimer que si on en perd le sommeil ou toute vie personnelle en-dehors des études (vie sentimentale, famille, amis, loisirs), c'est qu'on travaille trop (a contrario, si on passe sa vie à enchaîner les soirées étudiantes, on ne travaille sûrement pas trop).

✱ Conseil nº2b : préférer approfondir les exercices que les multiplier. Traiter 696729600 exercices dans l'espoir de les avoir tous faits est une approche idiote. (Elle est même dangereuse, parce que si on est interrogé sur un exercice qu'on a déjà vu, fatalement, on essaie de se rappeler ce qu'on a déjà vu plutôt que d'y réfléchir avec un esprit frais, et si on n'a pas parfaitement retenu ce qu'on avait vu, on risque de faire encore pire que si on n'avait jamais vu l'exercice. En plus de cela, l'examinateur détectera souvent ce qui se passe et pourra décider de ne pas compter cet exercice.) L'idée de bien travailler est de se familiariser avec les sortes d'exercices qui peuvent tomber, et pour ça, il vaut mieux tirer tous les enseignements qu'on peut d'un nombre plus restreint d'exercices choisis pour leur diversité.

✱ Conseil nº3 : chercher d'abord à comprendre la logique générale du cours. Il peut y avoir des choses à apprendre par cœur ou presque par cœur dans un cours de maths, je ne le nie pas, mais la première chose à aborder, c'est le plan général, le message d'ensemble, la structure, le leitfaden. Ce n'est qu'une fois qu'on a une idée d'ensemble qu'on peut envisager d'apprendre telle ou telle chose plus précisément, peut-être même par cœur.

✱ Conseil nº3b : chercher le sens des définitions et le message général des théorèmes. Pour un « platoniste » comme moi, le monde mathématique existe indépendamment des hommes ; mais les définitions qu'on met dessus pour le structurer, et les théorèmes qu'on recherche pour le comprendre, eux, sont des créations humaines. On peut donc s'interroger, devant une définition : pourquoi définir ce concept ? en quoi est-il naturel ou intéressant ? qu'est-ce que son étude va apporter ? pourquoi le définir précisément de cette manière ? Et devant un théorème : pourquoi cette propriété est-elle pertinente ? en quoi me renseigne-t-elle sur l'objet dont elle parle ? dans quel cas le résultat va-t-il servir ou apporter quelque chose ?

Un angle de questionnement qui peut être fécond consiste à se demander (ou à demander à l'enseignement !) comment, historiquement, telle ou telle notion a été dégagée, et quelle est l'histoire de tel ou tel théorème. Ne pas hésiter à l'employer !

✱ Conseil nº4 : comprendre les objets qu'on manipule, et se familiariser avec eux. Je pense que le cœur de toute théorie mathématique ce ne sont pas les théorèmes, ce sont les définitions. Poser une définition, c'est se donner pour but d'étudier tel objet mathématique et ses propriétés ; comprendre la théorie, c'est avant tout se former une représentation mentale des objets en question. Si la représentation mentale est assez bonne, les théorèmes ne doivent pas paraître surprenants ; s'ils le sont, il faut essayer de les réconcilier avec cette représentation mentale.

La première étape pour comprendre, donc, je pense, c'est de bien examiner les définitions, de voir comment elle s'articule et ce qu'on peut en tirer immédiatement. Si on s'est interrogé sur les raisons des définitions (conseil nº3b), cela peut aider, sinon, c'est le moment de le faire. Ensuite, il faut sans doute chercher deux choses liées : se constituer une intuition des objets (conseil nº4b), et appuyer cette intuition sur un stock d'exemples et de contre-exemples (conseil nº4c).

✱ Conseil nº4b : forger son intuition. Les mathématiciens sont malheureusement assez timides quand il s'agit de communiquer l'intuition. On se sent plus à l'aise à donner une définition bourbachique (un foobar localement cromulent est un foobar au sens de la définition 8.24 qui vérifie de plus les propriétés (a), (b) et (c) suivantes) qu'une explication intuitive (alors il faut imaginer un foobar localement cromulent comme un foobar qui a l'air cromulent quand on le regarde de près à n'importe quel endroit, mais en fait, cette apparence de cromulence n'est pas forcément cohérente sur l'ensemble du foobar). Il y a une raison légitime à ça : l'intuition est quelque chose d'assez personnel, et une image qui aidera un étudiant pourra en déstabiliser un autre ; et on a rarement le temps de donner cinq ou six intuitions différentes du même concept pour dire essayez de garder en tête celle qui vous semble la plus parlante. Donc le travail de se forger une intuition est largement laissée au lecteur, c'est-à-dire, dans le cas d'un enseignement, à l'étudiant.

Je pense que c'est un travail vraiment fondamental. On ne peut pas se contenter d'avoir compris logiquement la définition, il est impératif d'avoir une certaine « vision » de l'objet mathématique qui est derrière.

À titre d'exemple, la notion de groupe a une définition formelle (avec une loi de composition interne associative gnagnagna) que je ne vais pas recopier ici, mais il y a aussi une intuition qui va avec. Cela pourrait être quelque chose comme :

Un groupe, c'est une forme de symétrie qu'un objet (notamment un objet mathématique) peut avoir.

Je ne dis pas que c'est parfait ni idéal ni que ça conviendra à tout le monde, mais je dis que pour comprendre une notion comme celle de groupe il est essentiel d'avoir quelque chose comme ça à l'esprit, c'est-à-dire à la fois la définition formelle, la version intuitive (du genre ci-dessus), et aussi la manière dont l'une et l'autre se correspondent. On doit pouvoir jongler avec les deux. Autre exemple : la notion de déterminant en algèbre linéaire doit être reliée à la notion intuitive de volume.

Tous les objets mathématiques n'admettent pas forcément une description intuitive très claire, mais à part peut-être pour un concept technique utilisé ponctuellement dans le cadre d'une démonstration, il faut au moins quelque chose, un dessin, une vague idée.

On peut demander à un autre (par exemple à un prof) de suggérer une intuition, et c'est généralement une bonne idée de le faire, mais le travail de se l'approprier est forcément personnel. En revanche, pour ça, on peut s'appuyer sur :

✱ Conseil nº4c : se constituer un stock d'exemples et de contre-exemples. Les exemples servent à asseoir l'intuition et à lui donner corps, les contre-exemples servent à la cadrer et à éviter les erreurs. Les deux sont indispensables. Ils doivent être nombreux, aussi variés et représentatifs que possible, et assez simples pour permettre de démarrer l'intuition. À chaque fois qu'on s'interroge sur la véracité d'une idée (par exemple comme étape intermédiaire d'un raisonnement), on doit pouvoir ressortir quelques exemples et contre-exemples de son bagage pour la tester avant d'aller plus loin. (Les exemples « dégénérés » peuvent aussi avoir leur propre intérêt pour aiguiller l'intuition sur le terrain glissant des raisonnements sur l'ensemble vide ou autres objets « difficiles car triviaux ».)

À chaque fois que deux définitions mathématiques se ressemblent ou se rapprochent, on doit se demander si on sait donner un exemple d'un objet vérifiant l'une et pas l'autre, et l'autre mais pas l'une (ou alors démontrer qu'il y a implication). De même, dans l'énoncé d'un théorème, comme généralement toutes les hypothèses sont essentielles, on doit pouvoir fournir un contre-exemple au théorème en retirant n'importe laquelle d'entre elles. Il est vraiment utile de vérifier que c'est le cas. L'enseignant doit pouvoir fournir tous les contre-exemples idoines.

✱ Conseil nº4d : expérimenter et chercher l'algorithmique. On a parfois l'idée que les mathématiques expérimentales seraient un oxymore. C'est faux (il y a même au moins un journal entièrement consacré aux mathématiques expérimentales). Beaucoup d'objets mathématiques peuvent être représentés par un ordinateur, et manipulés par lui : utiliser cette possibilité est une façon de se familiariser avec les objets en question, de « jouer avec » pour mieux les comprendre.

Parallèlement, il est souvent pertinent et intellectuellement utile, dans toutes sortes de branches des mathématiques, de se demander ce qui est algorithmiquement faisable : est-ce que je sais représenter tel objet (qui vient de m'être défini) informatiquement ? est-ce que je sais algorithmiquement tester telle propriété ? est-ce que telle construction dont un théorème m'affirme l'existence est explicitée par la démonstration et en principe implémentable ? Se poser régulièrement ces questions aide à comprendre en profondeur les objets auxquels on a affaire.

Pour donner un exemple très simple de ce que je veux dire, quiconque a appris les bases du calcul des dérivées et des intégrales (comme on les apprend, en France, au niveau du bac) devrait comprendre que calculer la dérivée d'une expression symbolique (techniquement, disons, d'une fonction élémentaire) est mécanique/algorithmique, alors que le calcul des intégrales est plus problématique (en fait, il y a un algorithme, mais on ne l'enseigne jamais, et de toute façon, il n'y a pas forcément de réponse en forme élémentaire).

✱ Conseil nº5 : rechercher les idées-clés des démonstrations. Pour comprendre une démonstration, je pense que la meilleure approche est de commencer par ne pas la lire, et ne surtout pas de l'apprendre par cœur. Il vaut mieux partir de l'énoncé, et se demander est-ce que je sais démontrer ça ?. Beaucoup de démonstrations doivent se dérouler toutes seules, c'est-à-dire qu'on les produit sans réfléchir : il n'y a presque pas de choix de quoi faire à chaque moment, les étapes s'enchaînent presque inévitablement[#2] ; on doit savoir produire de telles démonstrations les yeux fermés, sans réfléchir.

[#2] Je pense à des choses comme : l'image réciproque par une fonction de l'intersection ou la réunion de deux ensembles est l'intersection ou la réunion des images réciproques ; démonstration : soient U et V deux ensembles et f une fonction ; dire que x est dans l'image réciproque de UV respectivement UV signifie que f(x) est dans UV respectivement UV, c'est-à-dire à la fois dans U et dans V, respectivement dans l'un des deux, et cela signifie que x est dans les deux images réciproques de U et V, respectivement dans l'une des deux, c'est-à-dire qu'il est dans leur intersection, respectivement leur réunion. Un terme fréquemment utilisé pour ce genre de démonstration est c'est purement formel (ce qui n'est pas tout à fait pareil que c'est évident ou c'est trivial, mais qu'il n'y a pas à réfléchir pour produire la démonstration).

Les autres démonstrations auront normalement un certain nombre d'idées-clés. L'idéal serait de retenir juste ce qu'il faut d'idées-clés pour arriver à retrouver la démonstration par soi-même. Retenir le nombre minimal de points-étapes du raisonnement pour arriver à reconstituer l'ensemble.

Il faut reconnaître que ce n'est pas toujours facile. Il y a beaucoup de théorèmes dont j'ai compris la démonstration ligne à ligne, mais à la fin je ne peux que dire il s'est passé quelque chose de magique, et je ne sais pas bien où : j'ai compris localement, mais pas globalement — je ne suis pas capable de dégager une idée essentielle — je n'ai pas d'intuition sur pourquoi on a fait ces manipulations dans cet ordre ou pourquoi elles ont marché. Mais quand on a un enseignant, on ne doit pas hésiter à l'interpeller et lui demander d'expliquer les grandes lignes de ce qui s'est passé.

✱ Conseil nº5b : chercher à bannir les « astuces ». Quand j'étais en prépa, un des éléments de culture taupinale (sans doute à prendre comme de l'humour glacé et sophistiqué du 5824e degré) consistait, à chaque fois qu'était présentée une démonstration ou une solution d'exercice faisant intervenir une « astuce », à chuchoter stûûûce sur un ton admiratif (ou faussement admiratif, ce n'est pas clair). Franchement, bof. Une astuce qui ne peut servir que pour un exercice n'a d'intérêt que si on est interrogé sur cet exercice précis !

Je préfère la vision attribuée à Grothendieck d'un problème mathématique comme une noix à casser : on peut attaquer la noix avec force, mais on peut aussi la laisser mariner jusqu'à ce que la coquille se détache toute seule.

Si quelque chose ressemble à une « astuce », c'est probablement qu'on a mal compris les objets en question. L'idéal serait de réviser son intuition jusqu'à ce que l'astuce n'en soit plus une, jusqu'à ce qu'elle paraisse naturelle ; et pour cela, il faut l'analyser de plus près : dans quel cas cette astuce va-t-elle servir ? où est-elle transposable ? que nous apprend-elle ? pourquoi fonctionne-t-elle ?

Il n'est sans doute pas possible d'éliminer totalement toute forme d'astuce dans les démonstrations mathématiques, mais on peut au moins essayer de ne pas leur rendre un culte. (Raison pour laquelle je n'aime pas du tout les exercices du style olympiades internationales de mathématiques, ni même leur variante française qu'est le concours général, et qui ressemblent beaucoup à un culte de l'astuce.)

✱ Conseil nº5c : vérifier où toutes les hypothèses ont été utilisées dans une démonstration. Si une hypothèse n'a pas servi, le théorème doit être valable sans. C'est suspect : pourquoi est-il énoncé avec cette hypothèse, si la démonstration n'en a pas besoin ? (Cela peut avoir un sens si l'hypothèse est incluse dans une définition-paquet, comme groupe : de toute évidence, beaucoup de faits sur les groupes sont valables dans des structures plus faibles, mais on peut quand même avoir envie de les énoncer juste pour les groupes, afin de ne pas obscurcir le propos en introduisant un nom pour ces structures plus faibles.) Si on a un contre-exemple au théorème sans l'hypothèse, évidemment, il faut que celle-ci ait servi quelque part[#3]. C'est un bon exercice pour s'assurer qu'on a au moins minimalement compris une démonstration que de vérifier qu'on sait pointer du doigt où chaque hypothèse est entrée dans la machine déductive.

[#3] Tiens, une petite anecdote à ce sujet. Quand j'étais en sup, un jour, notre prof a énoncé et démontré un premier théorème, puis a fait la remarque on pourrait se demander si <telle généralisation du théorème> est valable : ce n'est pas le cas comme le montre le contre-exemple suivant <blablabla>. Puis il a ajouté : en revanche, on a <telle autre généralisation du premier théorème>. Mon voisin lui a alors signalé qu'il y avait un problème, parce que le contre-exemple qu'il venait de donner s'appliquait réfutait aussi cette autre généralisation. Le prof, qui devait être vraiment fatigué ce jour-là, a regardé le tableau d'un air perplexe, a dit ah oui, c'est vrai, et il a… modifié le contre-exemple.

✱ Conseil nº5d : prendre occasionnellement le temps de contempler ou retrouver le chemin déductif parcouru. Ceci s'applique notamment aux théories où, à partir d'un petit nombre de propriétés sur une classe d'objets, on arrive à en déduire de plus en plus. Cela peut avoir un intérêt de faire une pause sur le chemin déductif et de regarder ce qu'on a fait, et se demander s'il y avait des chemins plus courts.

Je donne un exemple apparenté : quelqu'un me demandait comment, et si possible de façon relativement minimale, en partant de la définition cos(x) := ∑k∈ℕ (−1)k·x2k/(2k)! (série manifestement convergente pour tout x réel), démontrer[#4] que la fonction cos ainsi définie est périodique sur ℝ, et comment faire le lien avec l'abscisse curviligne d'un cercle.

[#4] Pour ce que ça vaut, voici en longue digression la réponse que je lui ai faite (il demandait aussi d'éviter si possible d'utiliser les complexes, ce qui explique certaines remarques de ma réponse) : je ne sais pas si c'est intéressant sur le fond, mais c'est intéressant comme exemple du genre de démarche dont je veux parler :

[On définit cos(x) := ∑k∈ℕ (−1)k·x2k/(2k)! et sin(x) := ∑k∈ℕ (−1)k·x2k+1/(2k+1)!.]

Ne pas introduire les complexes est un peu con dans cette histoire, parce que c'est une façon efficace et peu coûteuse de dire certaines choses. En revanche, ce qui est légitime, c'est de réclamer qu'il n'y ait pas d'arnaque : un complexe est un couple (a,b) de nombres réels, noté a+i·b, ajouté terme à terme et multiplié avec la formule qu'on sait écrire (et qui revient à développer et faire i²=−1), et on ne peut pas introduire d'intuition géométrique à moins de l'avoir justifiée.

Maintenant, pour répondre à ta question, je pense qu'il faut d'abord montrer essentiellement que exp(i(x+y)) = exp(ix)·exp(iy) mais puisque tu veux éviter les complexes ça va correspondre à dire que la matrice 2×2 de coordonnées [[cos(x), −sin(x)], [sin(x), cos(x)]] multipliée par la même matrice avec y à la place du x, vaut la même matrice avec x+y (composition des rotations, donc, mais on fait comme si on ne savait pas ce que c'était qu'une rotation) ; si tu ne veux pas non plus de matrices 2×2, ça revient à montrer les formules usuelles pour cos(x+y) et sin(x+y). Ça ça peut se faire de façon complètement formelle sur le développement en série (le fait que exp(u+v) = exp(u)·exp(v) est essentiellement le développement du binôme, ensuite il faut appliquer ça aux complexes ou, si tu ne veux pas passer par les complexes, le cacher dans la série du cosinus et du sinus qui sont juste les termes pairs et impairs de la même chose).

Ensuite on remarque que cos²+sin²=1 (ça aussi ça doit être facile parce que c'est facile de montrer que exp(i·x) est un complexe de module 1 si x est réel, le module étant a²+b², et ensuite il y a manière de couper les complexes de la démonstration si tu y tiens). Notamment, cos et sin sont des fonctions à valeurs entre −1 et 1, ce qui n'était pas évident a priori.

On a sin′=cos et cos′=−sin (clair sur le développement en série). On peut s'en servir pour faire une étude réelle : comme cos(0)=1, sin est strictement croissante au voisinage de 0, notamment il existe h>0 tel que sin(h)>0 ; en appelant π/2 le premier point ≥0 d'annulation de cos, s'il existe (ou plus l'infini sinon), la fonction sin est croissante jusqu'à π/2, et notamment supérieure ou égale à sin(h) entre h et π/2, mais du coup ça montre que cos(x) ≤ cos(h) − sin(h)·(x−h) (théorème des accroissements finis) pour x entre h et π/2 (ou l'infini), et comme le membre de droite tend vers moins l'infini, la fonction cos finit bien par s'annuler et π/2 existe bien (n'est pas l'infini). Dès lors que cos(π/2)=0, il est clair que sin(π/2)=1. On en déduit d'après les formules sur la somme que cos(π)=−1 et sin(π)=0, puis que cos(2π)=1 et sin(2π)=0, et toujours la formule sur la somme montre alors qu'il y a (2π)-périodicité.

Finalement, je ne sais pas vraiment si j'ai eu besoin de cos²+sin²=1, mais ceci montre au moins qu'on a affaire à un paramétrage du cercle, et les considérations de croissance/décroissance montrent que, quadrant par quadrant, on le parcourt toujours dans le même sens.

Pour relier à l'abscisse curviligne, ça dépend comment tu définis celle-ci. Si tu acceptes la définition « le point M(t)=(x(t),y(t)) paramètre une courbe par son abscisse curviligne ssi la norme de la dérivée de M(t), soit x′(t)²+y′(t)², vaut toujours 1 », alors le cercle est bien paramétré, via (cos(t),sin(t)), par son abscisse curviligne : cela résulte de cos′=−sin, sin′=cos, et cos²+sin²=1 (encore une fois).

✱ Conseil nº6 : ne pas hésiter à poser des questions à l'enseignant. Ça évidemment c'est le genre de conseils que tout le monde donne et que personne ne suit (sauf pour demander qu'est-ce que vous avez écrit en exposant du x ? ou Monsieur, ce sera au partiel, ça ? — justement les questions que je déteste). Je suis bien conscient qu'il y a une barrière psychologique très difficile à franchir pour poser une question. Même dans un séminaire où les mathématiciens sont entre collègues — entre pairs, donc, et en principe pas là pour se juger les uns les autres — beaucoup d'entre eux n'osent pas poser des questions de peur de passer pour des idiots. (Du danger du fameux adage il vaut mieux fermer sa gueule et passer pour un con que l'ouvrir et de le prouver !) Il est quasi impossible de prendre assez de recul en temps réel devant une démonstration qu'on n'a pas comprise pour être sûr qu'on n'a pas simplement raté un point évident. Il est donc encore plus difficile de surmonter la barrière quand on a affaire à un enseignant qui est aussi, à un certain niveau, un juge.

Mais voici une astuce (ah non, pas une astuce, zut… un petit truc) pour surmonter cette barrière :

✱ Conseil nº6b : il y a des questions qui marchent à coup sûr : ne pas hésiter à les poser. (Des questions qui marchent, c'est-à-dire qui feront plaisir à l'enseignant et ne vous feront pas passer pour un con.) Ces questions sont essentiellement celles que j'ai suggérées dans les conseils précédents, du type :

  • Pouvez-vous donner un exemple illustrant cette définition ? (ou un autre exemple ou un exemple significativement différent)
  • Pouvez-vous donner un exemple illustrant la différence entre le concept A et le concept B ? (genre : un exemple d'un foobar globalement bleuté et localement cromulent qui ne soit pas globalement cromulent)
  • Pouvez-vous essayer d'expliquer intuitivement ce que ce concept représente ?
  • Dans quel genre de situation est-ce que ce théorème va servir ?
  • Est-ce que cette implication sert surtout de la gauche vers la droite ou de la droite vers la gauche ?
  • Pouvez-vous donner un contre-exemple montrant que cette hypothèse était nécessaire dans le théorème ?
  • Pouvez-vous résumer les grandes lignes de la démonstration que vous venez de faire ?
  • Comment pouvait-on penser à l'idée de la solution de cet exercice ?
  • J'ai lu [par exemple sur Wikipédia] la définition suivante : pouvez-vous me confirmer qu'elle est équivalente à la vôtre ?[#5]

Ce sont là en gros les questions qu'un prof de maths rêve que ses élèves lui posent (surtout ceux qui ont tout le temps droit à Monsieur, ce sera au partiel, ça ?).

[#5] Une plaie des mathématiques est que le même nom peut recouvrir des concepts subtilement différents selon les auteurs. L'enseignement scolaire protège largement ses élèves de cette plaie en standardisant les définitions, mais ce n'est pas forcément une si bonne idée : après tout, c'est important de comprendre qu'en mathématiques, comme dans le reste des champs du savoir, les gens ne sont pas forcément complètement d'accord sur le sens des mots.

✱ Conseil nº7 : choisir intelligemment ce qu'on va apprendre par cœur et ce qu'on préfère retrouver. Je pense notamment aux formules, pour lesquelles il faut faire un choix entre ce qu'on apprendra par cœur (au risque d'oublier, de se tromper, etc.) et ce qu'on apprendra à retrouver (au risque d'y passer du temps). C'est un choix personnel, et il n'y a pas de bonne réponse, mais il faut y réfléchir : trouver ce qu'on retient le plus facilement et le plus fiablement, et voir ce qu'on peut en dériver et en combien de temps. Parfois on peut trouver des compromis (ne pas retrouver tout complètement, mais se rappeler comment fonctionne la dérivation pour savoir, par exemple, comment apparaissent les signes).

✱ Conseil nº7b : utiliser des moyens mnémotechniques intelligents. Indépendamment de la discipline, je trouve qu'un moyen mnémotechnique est toujours plus efficace (restera plus longtemps dans le cerveau, notamment) s'il est basé sur quelque chose de réel ou d'historique et pas sur un simple jeu de mot (comme le sont beaucoup de moyens mnémotechniques).

Je donne un exemple en-dehors des maths : en chimie j'ai toujours eu beaucoup de mal à retenir ce qu'était un cation et ce qu'était un anion. Un moyen mnémotechnique que je trouve con c'est de dire par exemple les aNions sont chargés Négativement. Un moyen mnémotechnique basés sur des faits réels consiste à savoir que les cations sont ainsi appelés parce qu'ils sont attirés par la cathode lors d'une électrolyse, et pour retenir ce qui est la cathode, je retiens qu'une télé ancienne s'appelle un tube cathodique, et je sais bien que ça balance des électrons : c'est un peu plus long de retrouver que le cation est positif, mais au moins je n'aurai pas le doute de me demander si le moyen mnémotechnique n'est pas peut-être l'aNode est l'électrode Négative.

Comme j'ai tendance à douter de ma mémoire, en plus, j'ai tendance à me donner des moyens mnémotechniques redondants, qui forment une sorte de code correcteur d'erreurs.

✱ Conseil nº8 : en oral, ne pas hésiter à simplifier le problème s'il est trop dur. Un chercheur en maths qui aborde un problème ne sait pas si la solution sera à sa portée, ni même si elle existe. Souvent, il l'aborde en se demandant est-ce que je sais au moins résoudre tel cas particulier ? (ou quel est le cas particulier le plus simple que je sache résoudre ?, ou voyons si j'ajoute telle ou telle hypothèse simplificatrice), puis est-ce que je peux en déduire une intuition qui me servira dans le cas général ? (et pour commencer où est-ce que mon hypothèse simplificatrice m'a aidé ?). Dans un oral, et particulièrement dans un oral comme au concours d'entrée aux ENS, ce genre de démarche sera bien reçu, il ne faut pas hésiter à montrer qu'on peut faire preuve d'initiative devant un problème trop dur (parfois à dessein !).

Ajout () : Comme je me suis ici concentré surtout sur l'étude, la compréhension et l'apprentissage, ceci est le seul conseil que je donne sur la résolution de problèmes, qui en mériterait pourtant à elle toute seule une petite collection. Donner des conseils sur comment résoudre un problème est évidemment beaucoup plus hasardeux que donner des conseils sur comment apprendre un cours, il est certain qu'il faut beaucoup plus de place pour l'entraînement et qu'on ne peut pas donner d'approche clé-en-main, raison supplémentaire pour laquelle je me suis limité au court paragraphe ci-dessus. Mais on peut quand même essayer d'en dégager. Fort heureusement, comme on me le fait remarquer, cette collection de conseils pour la résolution de problèmes mathématiques a déjà été écrite par quelqu'un d'autre : il s'agit du célèbre livre How to Solve It du mathématicien George Pólya (apparemment traduit en français sous le titre Comment poser et résoudre un problème). Je dois avouer que je n'avais qu'entendu parler de ce livre, je ne l'avais jamais ouvert (je pensais juste que c'était une collection d'exercices, mais je confondais avec le non moins célèbre Aufgaben und Lehrsätze aus der Analysis de Pólya et Szegő), mais en consultant le résumé sur Wikipédia et en feuilletant l'ouvrage lui-même, je pense que son excellente réputation n'est pas usurpée (ses conseils sont, en outre, tout à fait dans l'esprit général de ce que j'essaie de dégager dans cette entrée). J'ajoute donc le méta-conseil : lire How to Solve It de Pólya (ou au moins en lire un résumé) et appliquer ses conseils.

✱ Conseil nº9 : chercher à se cultiver. Je ne dis pas ça seulement dans le sens chercher à aller au-delà du programme enseigné (ça ça peut être une bonne idée, mais seulement si c'est mû par une curiosité intellectuelle sincère et pas par volonté de mieux réussir sur le programme qu'on doit connaître). C'est aussi simplement que chaque concept mathématique peut s'enseigner d'une myriade de façons différentes, que chaque étudiant sera plus ou moins réceptif à telle ou telle manière de le présenter, et que par conséquent aucun enseignant, aussi talentueux soit-il, ne peut fournir tout le temps la meilleure approche pour tout le monde : si on ne comprend pas quelque chose, la meilleure approche est parfois d'aller chercher autour de cette chose — comment d'autres enseignants la définissent, l'approchent et l'expliquent, quelle est son histoire, pourquoi on l'a développée et à quoi elle sert, etc. Parfois, apprendre un concept plus général peut s'avérer plus facile, ou plus éclairant pour le concept qu'on cherchait à apprendre. (La même chose vaut d'ailleurs pour les problèmes, et c'est un adage célèbre des mathématiciens : si vous ne savez pas résoudre un problème, essayez de le généraliser.)

✱ Conseil nº9b : utiliser Wikipédia (en français et en anglais, et en toute autre langue qu'on est capable de lire). Wikipédia n'est pas parfait, loin de là, les articles sont d'un niveau extrêmement hétérogène et il faut toujours garder à l'esprit qu'il peut y avoir des erreurs (mais il peut aussi y avoir des erreurs dans n'importe quel livre[#6] ou n'importe quel cours !, ce n'est pas spécifique à Wikipédia). Mais c'est un point de référence incontournable si on veut se cultiver sur n'importe quel sujet ou se faire au moins une première idée de « ce qui existe » ou pour avoir un point de vue différent du cours qu'on utilise comme référence principale. À utiliser avec précaution, mais à utiliser systématiquement, donc.

[#6] Enfin, sauf si l'auteur s'appelle Jean-Pierre Serre, évidemment.

✱ Conseil nº9c (spécifique aux classes prépas françaises) : profiter des colleurs. Comme je l'explique ci-dessus, il est souvent intéressant d'avoir plus d'un point de vue sur un concept difficile à comprendre. Les élèves de classes prépa ont la chance d'avoir accès à un grand nombre d'interrogateurs d'oraux (« colleurs »), d'autant plus que ceux-ci sont parfois doctorants ou chercheurs en maths et peuvent donc offrir une perspective un peu différente de celle de l'enseignant principal de la classe.

✱ Conseil nº10 : ne pas se comparer aux autres. Même si on passe un concours. Cela n'aidera pas à donner le meilleur de soi-même. Les mathématiques, en tant que science, en tant qu'entreprise humaine de recherche du savoir, sont (ou devraient être, parce que l'attitude de certains fait parfois douter…) une collaboration et pas une compétition, et je pense qu'il n'y a que comme ça qu'on peut correctement les concevoir. Les nécessités de l'évaluation, particulièrement dans l'enseignement, imposent parfois une autre façon de faire, mais si on suit sérieusement mon conseil nº1, l'intérêt d'étudier les maths est d'apprendre les maths, pas de se mesurer aux autres, et il est important de ne pas perdre cet aspect-là de vue.

✱ Conseil nº10b : ne pas croire aux génies. Il y a certainement des gens qui réfléchissent plus vite que d'autres, par exemple, mais gardons à l'esprit que, par exemple, David Hilbert, l'un des n plus grands mathématiciens de tous les temps avec n qui se compte sur les doigts d'une main partiellement amputée, était un esprit très lent (sa biographe, Constance Reid[#7], raconte que souvent les séminaires à Göttingen finissaient en une sorte de séance d'explication où tout le monde racontait à Hilbert ce qu'il était le seul à ne pas avoir encore compris). J'ai eu le privilège de croiser, voire de discuter avec, un certain nombre de grands mathématiciens, et à chaque fois je suis arrivé à la conclusion que si ces gens réfléchissent souvent très vite et peuvent avoir une culture sidérante[#8], ils ne réfléchissent pas de façon fondamentalement différente de, disons, moins grands mathématiciens.

(Je dis ça parce que quand j'étais en prépa il circulait tout un tas de légendes urbaines sur toutes sortes de génies passés par là, du genre les plus hauts scores de tous les temps au concours d'entrée à l'École polytechnique sont (1) Henri Poincaré, (2) Jacques Hadamard, et (3) Laurent Lafforgue[#9]. On se demande à quoi ce genre de légendes servent à part intimider celui qui les entend ou faire oublier mon conseil nº10.)

Je pense que ce conseil va de pair avec le nº5b.

[#7] Remarquable biographe de mathématiciens, soit dit en passant, et sœur de la tout aussi remarquable mathématicienne Julia Robinson, laquelle a malheureusement refusé que Constance écrive plus qu'une petite notice biographique de sa sœur.

[#8] Même en matière de culture, d'ailleurs, il faut garder l'esprit que la culture générale a ceci de commun avec un filet qu'elle est un tissu de trous mais qu'on arrive quand même à s'en servir pour retenir des choses, et ceci marche aussi pour la culture mathématique. Je ne veux pas dénoncer qui que ce soit avec des anecdotes comme <tel grand mathématicien> ne connaissait pas <tel concept qui s'enseigne en licence>, mais personne ne sait tout, et c'est normal. (Mais pour ne pas dénoncer un vivant, j'avais lu quelque part que von Neumann, qui était vraiment le genre qu'on a tendance à qualifier de génie hors du commun, et certainement il réfléchissait à une vitesse phénoménale, avait été tout étonné d'apprendre qu'on pouvait fabriquer un tore en recollant les bords opposés d'un carré.)

[#9] Je n'ai aucune idée de si c'est vrai, mais ça m'étonnerait (a) que le concours d'entrée soit resté à ce point constant depuis l'admission de Poincaré qu'on puisse comparer les scores d'alors et de maintenant, et (b) même si c'est le cas, que qui que ce soit ait cette information, en fait (je ne sais pas si et au bout de combien de temps les notes sont rendues publiques, je suppose qu'on doit pouvoir obtenir celles de Poincaré et Hadamard, mais celles de Lafforgue, certainement pas, et le jury n'est sans doute pas du genre à retrouver les notes historiques par comparaison ou faire fuiter celles d'un candidat). Donc le minimum d'esprit critique, que de toute évidence je n'avais pas tellement à l'époque, aurait dû m'amener à répondre reference needed!.

✱ Conseil d'ensemble : privilégier la compréhension à l'apprentissage. Encore une fois, ce n'est pas pour nier que, même en maths, il y a des choses qu'il faut « apprendre bêtement » (au minimum, il faudra apprendre les axiomes et tout ce qui est définition, convention, terminologie ou notation ; en pratique, il faut aussi apprendre les théorèmes qu'on ne va pas raisonnablement pouvoir retrouver en un temps limité). Mais c'est surtout qu'il est facile de penser qu'on a compris alors qu'on n'a fait qu'apprendre mécaniquement.

(J'espère que la porte ouverte est convenablement défoncée, là.)

↑Entry #2549 [older| permalink|newer] / ↑Entrée #2549 [précédente| permalien|suivante] ↑

↓Entry #2548 [older| permalink|newer] / ↓Entrée #2548 [précédente| permalien|suivante] ↓

(jeudi)

Des figures que j'en ai marre de refaire, et des histoires de kaléidoscopes

[Dessins des systèmes de racines de rang 2]Il y a des des figures que je me retrouve à refaire encore et toujours, à chaque fois que je veux réfléchir à un certain sujet. Parmi ceux que je reproduis avec une fréquence qui finit par devenir vraiment pénible, il y a ceux qui apparaissent ci-contre à droite, et que je me suis enfin de sorti les doigts du c** pour produire en PDF avec TikZ (suivez le lien pour le PDF). Comme je ne suis certainement pas le seul trouver ces figures utiles pour réfléchir, je les mets en ligne. Et du coup, je peux en profiter pour faire un peu de vulgarisation sur ce qu'ils représentent.

Je vais essayer d'expliquer ça sous l'angle de la géométrie euclidienne élémentaire, à travers la question de classifier et de comprendre les kaléidoscopes (simpliciaux). L'intérêt, outre que c'est peut-être plus parlant, est ne pas supposer que qui que ce soit ait lu mon récent rant interminable sur les groupes de Lie (mais en même temps, essayer de dire les choses de manière à quand même éclairer le rant en question). En fait, après coup, je ne suis rendu compte que ce n'était pas forcément une très bonne approche, et que cette entrée ressemble beaucoup à une accumulation de faits qui partent dans tous les sens et qui ne reflètent pas bien (pun unintended) l'élégance du sujet. En plus de ça, comme c'est un sujet que j'ai l'habitude de voir abordé autrement que comme de la géométrie euclidienne, je ne suis pas très sûr de l'ordre dans lequel les faits s'agencent logiquement, et je n'ai pas toujours une idée très claire de la difficulté qu'il y aurait à les démontrer dans une telle approche. Et aussi à cause de ça, il faut que j'avertisse que je n'ai pas vérifié très soigneusement (je veux dire, encore moins que d'habitude…) tous les résultats que j'énonce dans cette entrée, et qu'il est fort possible que j'aie oublié une hypothèse ou une autre pour me raccrocher à là où je veux en venir ; notamment, j'ai failli complètement négliger la « condition supplémentaire » que j'ai finalement trouvé utile d'introduire plus bas dans la définition d'un kaléidoscope. Malgré tout ça, j'espère que ce que je raconte est au moins un peu intéressant.

*

Bref, partons d'une question de géométrie euclidienne, celle d'identifier les simplexes kaléidoscopiques (et on peut dire que c'est ce que mes figures illustrent en dimension 2) : je vais expliquer ce que cela signifie.

Un simplexe, c'est la généralisation évidente en dimension n d'un triangle en dimension 2 et d'un tétraèdre en dimension 3 (remarquez, ce que je vais dire est déjà intéressant en dimension 2 et 3). C'est-à-dire qu'un simplexe est la donnée de n+1 points (en position générale), qu'on appelle les sommets du simplexe (le simplexe lui-même est l'enveloppe convexe de ces points, c'est-à-dire tout ce qui est situé « à l'intérieur » au sens large) ; les facettes du simplexe sont les simplexes de dimension n−1 obtenus en prenant n quelconques des n+1 points (c'est-à-dire en en enlevant exactement un : un simplexe de dimension n a donc exactement n+1 facettes) ; et l'hyperplan supportant la facette est l'hyperplan qui passe par les n points en question. (En dimension 2, les facettes sont donc les arêtes du triangle, et on parle des droites les supportant ; et en dimension 3, ce sont les faces du tétraèdre, et les plans les supportant.)

Maintenant, considérons un tel simplexe : on peut effectuer sa réflexion (= symétrie orthogonale) par rapport à une quelconque de ses facettes (c'est-à-dire, plus exactement, par rapport à l'hyperplan la supportant), et on peut répéter l'opération. Que va-t-il se passer ?

Dans certains cas, il se passe quelque chose de fort sympathique, à savoir qu'on obtient des simplexes qui ne se chevauchent jamais mais qui pavent parfaitement l'espace. Si on est parti, par exemple, dans le plan, d'un triangle équilatéral ou d'un triangle rectangle isocèle (=demi-carré), on obient les deux premières figures de mon document (c'est-à-dire un pavage du plan par des triangles équilatéraux ou des demi-pavés ; ignorer les lignes en pointillés sur la première page). La troisième page correspond au cas où on part d'un triangle d'angles 90°, 60° et 30° (i.e, π/2, π/3 et π/6). Ces cas sont très particulier : en général, on n'obtient pas du tout quelque chose qui marche ; par exemple, si on prend un triangle quelconque dans le plan, on se rend vite compte qu'en répétant des symétries par rapport à ses sommets on va retomber sur des triangles qui se chevauchent et on ne va pas fabriquer un pavage.

Si on obtient effectivement un pavage, et sous une petite condition supplémentaire que je vais décrire un peu plus loin, je dirai que le simplexe de départ (ou, du coup, n'importe lequel des simplexes du pavage) est kaléidoscopique, et que ce qu'on obtient est un kaléidoscope simplicial (parfois j'omettrai la précision simplicial parce que, pour simplifier, je ne vais parler essentiellement que de ça).

On peut s'imaginer que ça a un rapport avec la symétrie, et c'est assurément le cas, mais ce n'est pas forcément exactement le rapport qu'on attend. Le tétraèdre (=simplexe) régulier dans l'espace euclidien de dimension 3, notamment, n'est pas kaléidoscopique (cela résulte du fait que ses angles dièdres valent arccos(1/3)≈71°, qui n'est pas un diviseur de 180°, cf. ci-dessous) ; en fait, non seulement le tétraèdre régulier ne pave pas l'espace, mais il y a un résultat rigolo qui dit que si on empile des tétraèdres réguliers face contre face (c'est-à-dire qu'on le réfléchit de façon répétée), on peut reconstituer la succession de tétraèdres suivie (le chemin de réflexions depuis le tétraèdre initial) à partir de la seule donnée du tétraèdre final. J'avais d'ailleurs fait il y a longtemps une vidéo d'un chemin dans un tétraèdre régulier dont les faces sont des miroirs (mais légèrement teintées en rouge, vert, bleu et blanc, pour qu'on y voie quelque chose) quand on rebondit sur les faces du tétraèdre ou, ce qui revient au même, quand on voyage en ligne droite en réfléchissant à chaque fois le tétraèdre contre la face qu'on traverse. Mais ce n'est pas de ça que je veux parler puisque ce cas, justement, n'est pas kaléidoscopique : je l'évoque juste pour signaler qu'être un solide régulier n'a pas vraiment de rapport avec le fait d'être kaléidoscopique, ou en tout cas pas le rapport évident[#].

[#] Le rapport correct est plutôt ceci : si on prend un solide régulier, inscrit dans une sphère, et qu'on le gonfle jusqu'à la sphère pour donner un pavage de la sphère, puis qu'on considère le triangle dont les sommets sont le centre d'une face, le milieu d'une arête de cette face, et une extrémité de cette arête, alors ce triangle sphérique est kaléidoscopique pour la géométrie sphérique. Par exemple, le tétraèdre régulier correspond à un pavage de la sphère par quatre triangles équilatéraux d'angle 120°=2π/3 à chaque sommet (en géométrie sphérique, c'est possible) ; je ne vais pas vouloir dire que ces triangles- sont kaléidoscopiques pour la géométrie sphérique (cf. juste après), mais si on relie le centre d'un tel triangle au milieu d'un de ses côtés et à une des extrémités du côté, on trouve un nouveau triangle d'angles π/3 (au centre), π/2 (au milieu du côté) et π/3 (au sommet), et ce nouveau triangle — qui ne peut pas non plus exister en géométrie euclidienne — est kaléidoscopique pour la géométrie sphérique. De même, dans le pavage de mon labyrinthe hyperbolique, si on relie le centre d'une case « carrée » au milieu d'un de ses côtés et à une extrémité de ce côté, on trouve un triangle d'angles π/4 (au centre d'une case), π/2 (au milieu du côté) et π/5 (au sommet), qui ne peut pas exister en géométrie euclidienne, mais qui est kaléidoscopique pour la géométrie hyperbolique (puisque mon jeu, justement, se déroule sur un pavage !). Mais, à part dans cette note, si je ne précise pas explicitement, je parle toujours de simplexes euclidiens (et, entre autres, la somme des angles d'un triangle vaut 180°).

*

En fait, il y a une condition supplémentaire que je dois peut-être ajouter pour dire qu'un simplexe est kaléidoscopique : je crois que pour un simplexe dans l'espace euclidien, ajouter cette condition n'est pas, en fait, nécessaire (je veux dire, elle est automatiquement vérifiée), mais si je veux généraliser à d'autres polytopes que le simplexe ou à d'autres géométries que l'euclidienne, je veux l'inclure, pour éliminer des choses comme le pavage du plan par des hexagones ou le pavage de la sphère par quatre triangles sphériques équilatéraux qui s'obtient en gonflant un tétraèdre régulier jusqu'à sa sphère circonscrite (cf. la note précédente), choses que je n'ai pas envie de considérer comme des kaléidoscopes. Même pour ne considérer que des kaléidoscopes de simplexes euclidiens, cette condition est intéressante à énoncer, parce qu'elle décrit des propriétés importantes de ces kaléidoscopes. La condition supplémentaire en question peut s'exprimer de différentes manières qui sont, il me semble, équivalentes :

  • Si on colorie chaque simplexe du kaléidoscope soit en « noir » soit en « blanc » en décidant arbitrairement d'une premier pour le premier et en changeant de couleur à chaque fois qu'on fait une symétrie, alors non seulement les simplexes ne se chevaucheront pas (condition déjà exigée) mais, en outre, le coloriage fonctionnera bien, i.e., on n'essaiera jamais de mettre au même endroit deux simplexes de couleurs opposées au même endroit.
  • L'hyperplan supportant chaque facette de chaque simplexe du kaléidoscope doit être lui-même pavé par des facettes, c'est-à-dire, ne doit pas rencontrer l'intérieur d'un simplexe (dont il serait alors un hyperplan de symétrie interne).
  • Si on marque le simplexe initial du kaléidoscope par exemple en faisant un dessin dessus qui n'ait aucune symétrie, ou en affectant à chacun de ses sommets une couleur différente, et qu'on propage ce marquage au fur et à mesure qu'on construit le kaléidoscope par symétries, alors à chaque fois qu'on retombe sur un simplexe déjà rencontré, le marquage sera compatible.

Il doit être assez évident que ces propriétés échouent dans le cas du pavage du plan par les hexagones (ou dans le cas du pavage de la sphère par quatre triangles équilatéraux).

*

Dans le plan, ce n'est pas très difficile de trouver tous les triangles kaléidoscopiques. Pour commencer, l'angle à n'importe quel sommet doit être de la forme π/m pour un certain m entier (≥2), parce que sinon, en reflétant de façon répétée par rapport aux deux côtés qui s'y rencontrent, on ne va pas revenir au triangle de départ. (Remarquons que la première forme de la condition supplémentaire que je viens de décrire donne le π/m au lieu de 2π/m.) Bref, on a donc trois angles π/m₁, π/m₂ et π/m₃, dont la somme doit valoir π, ce qui impose 1/m₁ + 1/m₂ + 1/m₃ = 1 ; or il est facile de résoudre cette équation : on peut sans perte de généralité supposer m₁≤m₂≤m₃, et on ne peut pas avoir m₁≥4 sinon 1/m₁ + 1/m₂ + 1/m₃ serait ≤¾, ce qui ne laisse que les deux cas m₁=3 et m₁=2 à considérer, dans premier on doit visiblement avoir m₁=m₂=m₃=3, et dans le second il reste encore un tout petit peu de discussion à faire sur la valeur de m₂ mais au final, les seules solutions (m₁,m₂,m₃) sont (3,3,3), (2,4,4) et (2,3,6). Or il s'avère que ces trois solutions fonctionnent bien, c'est-à-dire que le triangle (défini à similitude près) d'angles π/m₁, π/m₂ et π/m₃ est effectivement kaléidoscopique dans chacun de ces trois cas, et ceci donne les trois pages de mon document : le premier est le triangle équilatéral et je vais l'appeler simplexe kaléidoscopique de type A₂˜, le second est le triangle rectangle isocèle (= demi-carré) et je vais l'appeler simplexe kaléidoscopique de type B₂˜, et le troisième n'a pas de nom particulier mais je vais l'appeler simplexe kaléidoscopique de type G₂˜. (Même s'il est plus correct d'utiliser la notation A₂˜, B₂˜ et G₂˜, comme je viens de le faire, pour ces simplexes kaléidoscopiques euclidiens, on les désigne parfois abusivement comme A₂, B₂ et G₂.)

Dans l'espace de dimension 3, on peut remarquer que le raisonnement vaut toujours pour dire que l'angle (« dièdre ») entre deux plans du tétraèdre supposé kaléidoscopique doit être de la forme π/m avec m entier ≥2 ; et plus généralement, en toute dimension, c'est vrai pour l'angle dièdre entre deux facettes du simplexe. Il y a ½n(n+1) angles dièdres entre facettes du simplexe de dimension n, mais il n'est pas évident de trouver des contraintes comme la somme des angles d'un triangle vaut π. On est alors tenté de se poser toute une série de questions :

  • Un simplexe est-il caractérisé (à similitude éventuellement indirecte près, c'est-à-dire, sa forme non-orientée est-elle caractérisée) par la donnée de ses ½n(n+1) angles dièdres ? La réponse est oui (ce n'est pas très difficile).
  • Peut-on caractériser à quelle condition un ensemble de ½n(n+1) angles dièdres donne bien naissance à un simplexe de dimension n ? On peut effectivement faire ça[#2], mais c'est un peu une fausse piste (au sens où le travail est plus facile si on se place d'emblée dans le cas kaléidoscopique ; néanmoins, la question suivante mérite quand même d'être posée).
  • En supposant que le simplexe ayant un certain ensemble d'angles dièdres existe bien, et que ces angles sont tous de la forme π/m pour m entier ≥2, le simplexe en question est-il nécessairement kaléidoscopique ? La réponse est oui (il me semble que ce n'est pas complètement évident).
  • Peut-on lister tous les simplexes kaléidoscopiques d'une dimension donnée ? C'est surtout ce problème-là qui m'intéresse.

[#2] Précisément, si θi,j est une collection de ½n(n+1) angles dièdres entre la facette i et la facette j d'un simplexe euclidien putatif, qu'on prolonge en imposant θj,i = θi,j et θi,i = π (ce qui est passablement logique), considérons la matrice (n+1)×(n+1) dont les entrées sont les −cos(θi,j) (elle est donc symétrique avec des 1 sur la diagonale et des entrées négatives ou nulles en-dehors de la diagonale). Alors le simplexe d'angles dièdres θi,j est réalisable dans l'espace euclidien si et seulement si la conjonction des trois affirmations suivantes est vraie : (a) la matrice en question a un déterminant nul [c'est cette condition qui, pour n=2, équivaut essentiellement à dire que la somme des angles vaut π], (b) chacune des n+1 sous-matrices (symétriques !) obtenues en retirant la i-ième ligne et la i-ième colonne (de même numéro, donc) est positive définie, et (c) chacun des cofacteurs (c'est-à-dire (−1)i+j fois le déterminant de la sous-matrice obtenue en retirant la i-ième ligne et la j-ième colonne, le cas j=i étant déjà couvert par (b)) est positif. Je ne sais pas à qui est dû ce résultat : je l'ai trouvé dans l'article de Luo, On a Problem of Fenchel (Geom. Dedicata 64 (1997), 277–282), mais il l'annonce comme étant bien connu (ce que je soupçonnais assurément) sans donner d'historique.

On doit encore pouvoir résoudre le problème « à la main » en dimension 3. J'avoue que je n'y vois déjà plus rien en dimension 3, mais il existe encore exactement trois tétraèdres kaléidoscopiques, et on peut tous les décrire avec des points d'un cube (disons le cube dont les sommets sont les (±1,±1,±1)) :

  • le simplexe kaléidoscopique de type A₃˜ (ou abusivement, A₃) : il s'agit du tétraèdre dont deux sommets (appelons-les P₀=(1,0,0) et P₂=(−1,0,0)) sont les centres de deux faces opposées du cube, et les deux autres sommets (appelons-les P₁=(0,1,1) et P₃=(0,1,−1)) sont les milieux de ces deux côtés d'une quelconque des quatre autres faces qui ne touchent pas les faces où se trouvent les deux sommets P₀ et P₂ ;
  • le simplexe kaléidoscopique de type B₃˜ (ou abusivement, B₃) : il s'agit du tétraèdre dont un sommet (appelons-le P₃=(0,0,0)) est au centre d'un cube, un autre (appelons-le P₂=(0,0,1)) est au centre d'une des faces de ce cube, et les deux autres (appelons-les P₀=(1,1,1) et P₁=(1,−1,1)) sont les deux extrémités d'un quelconque des côtés de la face en question ;
  • le simplexe kaléidoscopique de type C₃˜ (ou abusivement, C₃) : il s'agit du tétraèdre dont deux sommets (appelons-les P₀=(1,1,1) et P₁=(−1,1,1)) sont les deux extrémités d'une des arêtes du cube, et les deux autres (appelons-les P₂=(−1,−1,1) et P₃=(−1,−1,−1)) sont les deux extrémités d'une arête orthogonale mais non coplanaire à celle-ci (avec la convention que P₁ et P₂ sont les points les plus proches).

La numérotation des sommets est un peu bizarre, mais elle est standard (c'est la numérotation de Bourbaki) ; dans tous les cas, P₀ est une « pointe » du simplexe, un concept que je vais expliquer plus loin. Très honnêtement, je n'arrive à visualiser aucun des trois, ni la raison pour laquelle ils sont kaléidoscopiques. Mais le fait est que ce sont les seuls.

*

De façon plus générale, en dimension n, il existe en général exactement quatre simplexes kaléidoscopiques, notés An˜, Bn˜, Cn˜ et Dn˜, sachant que A₁˜, B₁˜ et C₁˜ coïncident (c'est un segment…), B₂˜ et C₂˜ coïncident, Dn˜ n'est défini[#3] que pour n≥3 et coïncide avec A₃˜ pour n=3, mais pour n≥4 on a bien les quatre ; et à ça s'ajoutent encore cinq simplexes kaléidoscopiques exceptionnels, G₂˜ (qui n'est autre que le triangle d'angles π/2, π/3 et π/6), F₄˜, E₆˜, E₇˜ et E₈˜. Ou, pour dire, les choses autrement, les simplexes kaléidoscopiques distincts sont : An˜ pour n≥1, Bn˜ pour n≥2, Cn˜ pour n≥3, Dn˜ pour n≥4, G₂˜, F₄˜, E₆˜, E₇˜ et E₈˜.

[#3] Enfin, D₂˜ n'est pas particulièrement problématique, en fait, c'est un carré (A₁˜×A₁˜), qui est effectivement kaléidoscopique, mais comme je m'en suis tenu aux simplexes dans ce que j'ai raconté, je l'écarte.

Certains ont déjà vu ça quelque part, bien sûr : c'est exactement la classification des groupes de Lie complexes simples simplement connexes (ou des groupes de Lie réels compacts simples simplement connexes, ça revient au même). C'est une de ces surprises qui ponctuent les mathématiques que deux objets qui ont l'air de ne rien avoir à voir sont classifiés exactement de la même manière ; en fait, cette classification ABCDEFG apparaît à toutes sortes d'endroits où on ne l'attend pas forcément (avec des variations : parfois seulement ADE, et parfois il y a H₃ et H₄ qui se glissent aussi dans l'histoire et G₂ se transforme en toute une famille infinie I₂(m) mais en tout cas ça ressemble beaucoup). Ici, ce n'est pas si mystérieux que ça : j'ai essayé d'expliquer dans mon rant interminable passé pourquoi l'ensemble des classes de conjugaison d'un groupe de Lie réel compact simple simplement connexe est précisément décrit par son « alcôve de Weyl » qui a justement la forme du simplexe en question, et il n'est pas terriblement difficile de montrer que la forme de l'alcôve détermine le groupe ; ce qui est un peu plus mystérieux, c'est que, réciproquement, à tout simplexe correspond un groupe (il y a la question des « constantes de structure » qui reste encore un peu subtile malgré tous les travaux faits dessus).

Je ne vais pas raconter comment on obtient ce résultat (correctement exprimé, ce n'est pas vraiment plus étonnant que l'histoire de classifier les solutions de 1/m₁ + 1/m₂ + 1/m₃ = 1). En fait, ce qu'on sait par les travaux de Coxeter, c'est que tout ça s'inscrit dans un formalisme géométrique élégant qui marche à la fois en géométrie sphérique, euclidienne, hyperbolique ou « indéfinie » ; essentiellement, on peut imposer les angles dièdres π/m avec m≥2 arbitraire qu'on veut au simplexe (y compris m=∞, auquel on peut donner un sens, d'ailleurs c'est plus ou moins ce qu'il faut faire pour faire entrer le segment A₁ dans ce cadre), et ensuite il s'agit de trouver ce qui marche en géométrie sphérique, euclidienne et hyperbolique (le reste étant « indéfini »). Les cas sphérique et euclidien sont intimement liés, ce qui explique que l'étiquetage standard des kaléidoscopes euclidiens soit celui de certains kaléidoscopes sphériques avec un petit tilde au-dessus (ou, comme ce n'est pas facile de faire un tilde au-dessus en HTML, après).

Ajout () : Tant qu'à faire, je peux donner les coordonnées explicites d'au moins certains de ces simplexes kaléidoscopiques (à chaque fois, P₀ sera l'origine) :

  • Pour ce qui est de An˜, il vaut mieux travailler dans un système de n+1 coordonnées euclidiennes, dans l'hyperplan « somme de toutes les coordonnées égale zéro » : dans ce système de coordonnées, on peut prendre pour sommets du simplexe le point Pi (pour 0≤in) ayant i coordonnées toutes égales à (n+1−i)/(n+1) suivi de n+1−i coordonnées toutes égales à −i/(n+1) (la somme fait bien 0).
  • Pour Bn˜, Cn˜ et Dn˜, on prendra n coordonnées euclidiennes. Le plus simple à décrire est sans doute Cn˜ : le point Pi (pour 0≤in) a i coordonnées toutes égales à ½, suivi de ni coordonnées nulles (on pourrait évidemment tout doubler, mais ce choix est peut-être un chouïa plus standard). Pour Bn˜, c'est exactement pareil, sauf que le point P₁ vaut (1,0,0,…,0) au lieu de (½,0,0,…,0). Enfin, pour Dn˜, c'est pareil que Bn˜, sauf que le point Pn−1 est (½,½,…,½,−½) au lieu de (½,½,…,½,0).
  • Pour F₄˜, on prendra P₀ = (0, 0, 0, 0) ; P₁ = (½, ½, 0, 0) ; P₂ = (2/3, 1/3, 1/3, 0) ; P₃ = (3/4, 1/4, 1/4, 1/4) et P₄ = (1,0,0,0).
  • Pour E₈˜, on prendra P₀ = (0, 0, 0, 0, 0, 0, 0, 0) ; P₁ = (0, 0, 0, 0, 0, 0, 0, 1) ; P₂ = (1/6, 1/6, 1/6, 1/6, 1/6, 1/6, 1/6, 5/6) ; P₃ = (−1/8, 1/8, 1/8, 1/8, 1/8, 1/8, 1/8, 7/8) ; P₄ = (0, 0, 1/6, 1/6, 1/6, 1/6, 1/6, 5/6) ; P₅ = (0, 0, 0, 1/5, 1/5, 1/5, 1/5, 4/5) ; P₆ = (0, 0, 0, 0, 1/4, 1/4, 1/4, 3/4) ; P₇ = (0, 0, 0, 0, 0, 1/3, 1/3, 2/3) et P₈ = (0, 0, 0, 0, 0, 0, ½, ½).

(Les coordonnées données plus haut pour n=3 étaient choisies pour être plus faciles à visualiser dans ce cas précis, donc elles sont différentes, mais les simplexes sont bien semblables. Je ne donne pas les coordonnées pour G₂˜, E₆˜ et E₇˜ parce que c'est toujours pénible à faire : si on veut des coordonnées rationnelles, comme pour An˜ il faut se placer sur un hyperplan, voire, dans le cas de E₆˜, en codimension 2, et je me tromperais inévitablement en les écrivant.)

*

Pour pouvoir parler plus clairement, il faut que j'introduise un peu de terminologie basique. Les hyperplans supportant une facette quelconque d'un des simplexes du kaléidoscope s'appellent les hyperplans de réflexion ou les miroirs du kaléidoscope : par définition, le kaléidoscope est invariant par réflexion par rapport à chacun de ses miroirs. (Dans mes figures 2D, les miroirs sont ceux qui sont en traits pleins noirs.) Certains miroirs sont parallèles les uns aux autres : j'ai envie de considérer les classes (disons, les familles) de tous les miroirs parallèles à un miroir donné, mais plutôt que faire exactement ça, je vais procéder un tout petit peu différemment. Si H est un miroir, je considère un vecteur α perpendiculaire à H et dont la norme est l'inverse de la distance entre deux miroirs parallèles à H consécutifs (il y a deux tels vecteurs, opposés l'un à l'autre) : un tel vecteur s'appellera une racine, et l'ensemble de toutes les racines s'appelle le système de racines du kaléidoscope. (Dans mes figures, le système de racines est dessiné en bas à gauche, sous le kaléidoscope lui-même, en noir.) J'ai choisi cette description par un vecteur perpendiculaire et de longueur inverse de l'intervalle entre deux miroirs pour utiliser uniquement de la géométrie élémentaire, mais il est sans doute plus satisfaisant, si on préfère, de définir les racines comme les formes linéaires α (sur l'espace vectoriel tangent à l'espace euclidien où vit le kaléidoscope) telles que les hyperplans de réflexion d'une même famille s'écrivent de la forme Hα,k := {x : α(x)=α(o)+k} pour k parcourant ℤ (donc α définit la direction de la famille de miroirs parallèles, et k la position du miroir dans la famille ; ici, o est une origine située sur un quelconque des hyperplans : je vais dire dans un instant qu'on peut choisir une même origine pour toutes les familles).

Un point (forcément un sommet d'un simplexe du kaléidoscope) par lequel passe un hyperplan de chaque famille de miroirs parallèles (i.e., un miroir de chaque direction possible) s'appelle une pointe du kaléidoscope, ou de n'importe quel simplexe dont il est un sommet. (Sur mes figures, les pointes sont marquées par des points rouges.) Un fait crucial est qu'il existe, effectivement, des pointes. En fait, les pointes forment un réseau euclidien, qu'on peut appeler réseau des pointes (le terme standard serait plutôt copoids, mais c'est moche ; le terme de pointe est dû à Conway). Bon, à ce stade-là, il est vraiment utile de choisir une origine : on choisit donc, une fois pour toutes, une pointe o pour origine (ce qui transforme l'espace affine euclidien en un espace vectoriel, et légitime le terme de réseau). Une fois choisie cette origine, si on la marque spécialement et qu'on marque de même tous les sommets qui s'en déduisent par réflexion par les différents miroirs du kaléidoscope, on obtient un nouveau réseau, inclus dans celui des pointes, appelé le réseau des périodes (ou des coracines ; sur mes figures, il est en noir : enfin, comme chaque coracine est en particulier une pointe, il est marqué en entourant en noir les pointes qui sont, en plus, des coracines). L'indice du réseau des périodes dans le réseau des pointes (i.e., le rapport de leurs covolumes, si on veut) est égal au nombre de pointes d'un simplexe (quelconque) du kaléidoscope.

Une fois choisie une origine o (qui soit une pointe), la réunion de tous les simplexes ayant o pour sommet (en marron sur mes figures) forme ce qu'on appelle un domaine fondamental pour le réseau des périodes, c'est-à-dire essentiellement que ce polytope pave l'espace avec exactement une coracine au centre de chaque translaté utilisé pour le pavage.

L'ensemble (infini) de toutes les isométries affines du plan obtenues en composant un nombre quelconque de réflexions par les miroirs du kaléidoscope s'appelle le groupe de Weyl affine (ou de Coxeter-Weyl) du kaléidoscope ; celles qui fixent l'origine o, i.e., les isométries vectorielles parmi elles, et qui peuvent, en fait, s'obtenir en composant un nombre quelconque de réflexions par des miroirs passant par o (ou symétries définies par les racines) s'appelle le groupe de Weyl tout court, ou sphérique s'il faut vraiment lever l'ambiguïté. (Le groupe de Weyl affine est un produit semidirect LW du groupe de Weyl W par le réseau des périodes L.) Le groupe de Weyl affine opère simplement transitivement sur les simplexes du kaléidoscope, c'est-à-dire que donnés deux simplexes, il y a un et un seul élément du groupe de Weyl affine qui envoie l'un sur l'autre ; c'est, en particulier, le cas dans le groupe de Weyl tout court (i.e., pas affine), et le nombre d'éléments de ce dernier est donc égal au nombre de simplexes ayant o pour sommet (sur mes dessins, c'est donc 6, 8 et 12 respectivement).

Je rappelle que j'ai choisi une pointe (= point par lequel passe un miroir de chaque direction possible) o comme origine. Il est aussi utile de choisir un des simplexes ayant o pour sommet et de l'appeler simplexe de référence (ou alcôve de référence ou alcôve de Weyl). Le cône de sommet o engendré par ce simplexe de référence s'appelle la chambre de Weyl (tracée en gris sur mes figures ; le simplexe de référence est celui qui est à la fois dans la chambre de Weyl, en gris, et dans le domaine fondamental, en marron, formé des simplexes ayant o pour sommet).

Je souligne que chaque sommet d'un simplexe quelconque du kaléidoscope est l'image, par une succession de réflexions par des miroirs du kaléidoscope, d'un unique sommet du simplexe de référence. C'est-à-dire que si on étiquette les sommets du simplexe de référence et qu'on propage cet étiquetage par réflexion, alors chaque sommet du kaléidoscope reçoit une étiquette bien définie. (Autrement dit, chaque sommet appartient à l'orbite sous le groupe de Weyl affine d'un unique sommet du simplexe de référence.) C'est quelque chose qui est d'ailleurs un peu contre-intuitif : tous les sommets du kaléidoscope ne se valent pas (je viens d'expliquer qu'il y a autant de « types » de sommets que de sommets du simplexe de référence, i.e., n+1), en revanche, pour ce qui est des miroirs, il est parfaitement possible que tous se valent (c'est ce qui se produit dans les cas A-D-E où il y a un seul « type » de miroirs ; dans les cas B-C-F-G il y en a exactement deux, les « grands » et les « petits », cf. ci-dessous).

*

Pour représenter symboliquement un kaléidoscope, on utilise un diagramme de Dynkin [étendu] (ou diagramme de Dynkin affine, ou diagramme de Coxeter-Dynkin [étendu/affine]) construit de la manière suivante. Ses nœuds correspondent aux sommets du simplexe de référence, et on relie deux nœuds par un nombre d'arête indiquant l'angle dièdre formé entre les facettes opposés à ces deux sommets dans le simplexe : les nœuds ne sont pas reliés lorsque les hyperplans sont perpendiculaires, ils sont reliés par une arête simple lorsque les hyperplans forment un angle de π/3, une arête double pour un angle de π/4, et une arête triple pour un angle de π/6 ; de plus, quand dans une famille de miroirs les miroirs consécutifs sont plus rapprochés que dans une autre, on dit que cela correspond à une grande racine et l'autre à une petite racine (cf. la définition ci-dessus des racines comme ayant pour longueur l'inverse de la distance entre deux hyperplans consécutifs) : en reliant deux nœuds par une arête double ou triple, on fait pointer une flèche de la grande vers la petite racine. (Il se trouve qu'il ne peut y avoir que deux tailles de racines différentes, et que ça se produit exactement lorsqu'il y a une arête double ou triple, celle-celi reliant alors une grande et une petite.) Les diagrammes qu'on obtient sont alors ceux donnés par cette figure, le nœud vert indiquant le choix de l'origine o comme sommet du simplexe (et les autres pointes sont toutes celles qui s'en déduisent par une symétrie du diagramme).

Si j'ai parlé de diagramme de Dynkin étendu, c'est parce qu'il y a des diagrammes de Dynkin ordinaires (i.e., pas étendus), qui s'obtiennent simplement en effaçant le nœud correspondant à une pointe. Ce sont généralement ces diagrammes-là qu'on voit dessinés. Ils correspondent à des kaléidoscopes sphériques. Petite digression à ce sujet :

On peut déduire un kaléidoscope sphérique (de dimension un de moins) à partir d'un kaléidoscope euclidien (=: affine) en considérant une petite sphère de centre o et en intersectant les miroirs avec cette sphère, qui deviennent donc des miroirs sur la sphère. Il se trouve que le kaléidoscope euclidien est « quasiment » caractérisé par le kaléidoscope sphérique, et que la « quasi totalité » des kaléidoscopes sphériques s'obtiennent de la sorte (on les dit cristallographiques). Pour être plus précis, les kaléidoscopes simpliciaux sphériques sont : en dimension 1 une famille infinie I₂(m) où m≥2, s'obtenant en découpant un cercle en 2m intervalles égaux, mais certains ont des noms spéciaux : I₂(3) est aussi appelé A₂, et I₂(4) aussi appelé BC₂, et I₂(5) parfois appelé H₂, et I₂(6) aussi appelé G₂ ; plus trois familles infinies An pour n≥1, BCn pour n≥2 et Dn pour n≥4 (l'indice n étant la dimension plus 1), et six cas exceptionnels F₄, E₆, E₇, E₈, H₃ et H₄. Seuls les kaléidoscopes sphériques BCn correspondent à plusieurs kaléidoscopes euclidiens (à savoir Bn˜ et Cn˜). Seuls I₂(m) (pour m=5 ou m≥7) et H₃ et H₄ ne sont pas cristallographiques, i.e., ne correspondent pas à un kaléidoscope euclidien. (S'agissant de H₃, il s'obtient en considérant les plans de symétrie d'un icosaèdre, et H₄ est un analogue en dimension 4.) Les diagrammes de Coxeter correspondants (indiquant l'angle dièdre entre deux facettes d'un simplexe sphérique du kaléidoscope) à ces kaléidoscopes sphériques sont ceux de cette figure (à ceci près qu'elle note Im ce que j'ai appelé plus logiquement I₂(m)) : l'étiquette m sur une arête indique que l'angle dièdre entre les facettes opposées aux sommets correspondant du simplexe est de π/m (et il n'y a pas de flèches, parce que la notion de grande ou petite racine n'a pas de sens ici). Les diagrammes de Dynkin ordinaires peuvent être vus comme une sorte de compromis entre les diagrammes de Coxeter sphériques et les diagrammes de Coxeter-Dynkin euclidiens : en encodant le système de racine, ils ressemblent plus au diagramme de Coxeter du kaléidoscope sphérique, mais ils donnent toute l'information nécessaire pour retrouver le diagramme du kaléidoscope euclidien.

*

Il y a encore une chose que je veux évoquer à propos des kaléidoscopes euclidiens, ce sont les « coefficients de la plus haute racine ». Il s'agit d'entiers positifs, l'un pour chaque sommet du simplexe de référence (ou, si on préfère, l'un pour chaque nœud du diagramme de Dynkin étendu), qui ont le don d'apparaître tout le temps dans toutes sortes de contextes. Voici une façon de les définir : je rappelle qu'on a fixé une pointe o comme origine, et un simplexe ayant o pour sommet comme simplexe de référence. Maintenant, à partir de l'origine o si v est un autre sommet du simplexe de référence, on prolonge la demi-droite ov jusqu'à rencontrer une nouvelle pointe, et le nombre de fois qu'on doit parcourir la distance ov est le coefficient mv associé à v ; en particulier, il vaut 1 pour n'importe quel sommet v qui est une pointe, et, par cohérence, on donne aussi la valeur 1 à la pointe o choisie pour origine.

De façon équivalente, si on appelle racine simple la racine définie par l'hyperplan supportant une facette passant par o du simplexe de référence, et orientée de façon à pointer vers l'intérieur de ce simplexe de référence (je rappelle qu'une racine est le vecteur orthogonal à un miroir et de longueur inverse de l'espacement entre deux miroirs parallèles consécutifs), et racine minimale la racine définie par l'hyperplan opposé à o du simplexe de référence, et toujours pointant vers l'intérieur, alors les coefficients dont je viens de parler sont les entiers naturels mα premiers entre eux dans leur ensemble tels que la somme des mα·α vaille 0 (où α parcourt les racines simples et la racine minimale, chacune étant mise en correspondance avec le sommet opposé du simplexe de référence).

Ces coefficients se retrouvent facilement à partir du diagramme de Dynkin (je rappelle que je parle toujours du diagramme de Dynkin « étendu », celui qui a n+1 nœuds, un pour chaque sommet du simplexe de référence) :

  • le coefficient d'une pointe vaut 1 (si on ne se rappelle pas quelles sont les pointes, on peut souvent les retrouver par le fait que les symétries du diagramme opèrent simplement transitivement sur les pointes ; on peut aussi simplement retenir que les coefficients sont des entiers de pgcd valant 1, avec la propriété suivante cela suffit à les caractériser et à retrouver les pointes),
  • le coefficient de chaque nœud v est égal à la moitié de la somme des coefficients de tous les nœuds w adjacents, sauf qu'on compte double ou triple le coefficient de w quand on a une arête double ou triple pointant de w vers v (si elle pointe dans l'autre sens ou si l'arête est simple, le coefficient de w compte normalement).

Les coefficients se retrouvent alors très facilement : dans le cas de An˜ (qui est un (n+1)-cycle) ils valent tous 1 (tous les nœuds sont des pointes) ; dans tout autre cas, on écrit 1 sur une pointe, celle-ci est adjacente à un unique autre nœud, dont le coefficient est donc forcément 2, et on procède ainsi de proche en proche. (Tant qu'on ne rencontre pas d'arête multiple ni de bifurcation dans le diagramme, les coefficients suivent des progressions arithmétiques. Par exemple, dans le diagramme de E₈˜, on se retrouve avec 6 pour le nœud ayant trois voisins, avec les progressions arithmétiques 1-2-3-4-5-6 sur la branche longue, 2-4-6 sur la branche moyenne et 3-6 sur la branche courte qui s'y rejoignent.) Inexplicablement, je ne trouve pas d'image facilement disponible en ligne sur laquelle ces coefficients soient marqués dans chaque cas (ah si, il y a celle-ci, mais elle est franchement moche). Mes figures liées en début de cette entrée donnent les coefficients de A₂˜, B₂˜ (qu'il vaut peut-être mieux appeler C₂˜ d'ailleurs) et G₂˜ à l'extrême fin.

Parmi les nombreuses choses que ces coefficients permettent de calculer, il y a la formule magique donnant l'ordre du groupe de Weyl :

L'ordre du groupe de Weyl est égal au produit des coefficients de la plus haute racine, fois n! (où n+1 est le nombre de nœuds du diagramme de Dynkin étendu), multiplié encore par le nombre de pointes (qui est aussi l'ordre du groupe de symétries du diagramme de Dynkin étendu).

Par exemple, dans le cas de E₈ (enfin, E₈˜, mais pour le groupe de Weyl non-affine on dira plutôt que c'est celui de E₈), on trouve (1×2×3×4×5×6×4×2×3)×(8!)×1 = 696 729 600. Dans le cas de An, on trouve (1×⋯×1)×(n!)×(n+1) = (n+1)!. Dans le cas de F₄, on trouve (1×2×3×4×2)×(4!)×1 = 1152. Dans le cas de Dn (qui a quatre pointes aux endroits évidents, et dont tous les autres coefficients de plus haute racine valent 2), on trouve (1×1×2×⋯×2×1×1)×(n!)×4 = 2n−1·n!.

L'ordre du groupe de Weyl donne le nombre de simplexes qui se rencontrent en o, ou, du coup, en n'importe quelle pointe. Si on veut connaître le nombre de simplexes qui se rencontrent en un autre point v, c'est facile : il suffit d'effacer le nœud correspondant à ce point du diagramme de Dynkin étendu, on obtient ainsi un diagramme de Dynkin ordinaire (= non étendu), en général ayant plusieurs composantes connexe, il existe une unique façon de compléter chacune de ses composantes connexes en un diagramme de Dynkin étendu, on calcule l'ordre du groupe de Weyl de chacun et on prend leur produit (en fait cela correspond à un kaléidoscope non simplicial, mais comme je n'ai parlé que de kaléidoscopes simpliciaux, je fais comme ça), et c'est le nombre recherché. Le rapport entre les deux nombres (le nombre de simplexes se rencontrant en o et le nombre de simplexes se rencontrant en v) donne aussi la densité des points de type v, c'est-à-dire combien il y en a par maille du réseau des périodes.

Quant à la somme h des coefficients de la plus haute racine, c'est encore un nombre très important, le nombre de Coxeter. Entre autres propriétés, le produit nh/2 (où, comme toujours, n+1 est le nombre de nœuds du diagramme de Dynkin étendu) est égal au nombre total de miroirs passant par o (de façon équivalente, nh est le nombre de racines ; par exemple, dans le cas de E₈, h=1+2+3+4+5+6+4+2+3=30 donc il y a 30×8=240 racines).

*

Ajout () : Suite à un petit échange sur Twitter, il faut que j'apporte quelques précisions supplémentaires qui peuvent aider à visualiser(?) un peu les choses. • Premièrement, le simplexe kaléidoscopique Cn˜ s'obtient en coupant en deux le simplexe kaléidoscopique Bn˜ (c'est-à-dire qu'un hyperplan qui est hyperplan de symétrie pour Cn˜ devient facette pour Bn˜), et de même Bn˜ s'obtient lui-même en coupant en deux Dn˜. (Sur les coordonnées que j'ai données plus haut, c'est assez évident.) • Deuxièmement, je dois préciser que, si ceci donne l'impression que Bn˜, Cn˜ et Dn˜ sont vaguement pareil, ceci est plus ou moins justifié par le fait qu'il n'y a que deux-trois réseaux des périodes (=coracines) possibles dans l'histoire, à savoir celui de An˜ (qui pour n=2 est aussi celui de G₂˜), celui de Dn˜ (qui est aussi celui de Bn˜ et de Cn˜ et, pour n=4, de F₄˜), et enfin celui de En˜ pour n∈{6,7,8}. (On peut donc dire que ce sont là les kaléidoscopes vraiment différents, et que les différences entre Bn˜, Cn˜ et Dn˜ correspondent juste à différentes façons de découper le même réseau.) Le cas n=3 est dégénéré parce que A₃˜ coïncide avec D₃˜.

*

Bon, j'avoue que je ne suis pas très content de ma façon de raconter tout ça, ça fait un peu trop recettes de cuisine. Mais je n'ai pas le courage de donner des preuves (et, pour commencer, de retrouver l'ordre logique dans lequel les choses s'enchaînent), ni même de faire tous les dessins qui seraient utiles pour bien comprendre les choses. Je vais juste renvoyer ceux qui veulent en savoir plus au très bon livre de Richard Kane, Reflection Groups and Invariant Theory (2001).

Ce qu'il faudrait vraiment faire, en revanche, c'est une représentation des trois kaléidoscopes euclidiens en dimension 3 (c'est-à-dire A₃˜, B₃˜ et C₃˜, cf. ci-dessus), un peu comme j'ai fait mes figures en dimension 2, et de façon à permettre aux gens comme moi incapables de voir dans l'espace de s'y retrouver un peu. Et puis, il faudrait aussi que quelqu'un se sorte les doigts du c** et fasse de vrais beaux dessins, dans le même style, des diagrammes de Coxeter ou Dynkin sous toutes leurs formes (ordinaires, étendus, et aussi les étendus-tordus-à-la-Kac dont je n'ai pas parlé ici ; avec la numérotation à la Bourbaki des racines, et avec les coefficients).

↑Entry #2548 [older| permalink|newer] / ↑Entrée #2548 [précédente| permalien|suivante] ↑

↓Entry #2546 [older| permalink|newer] / ↓Entrée #2546 [précédente| permalien|suivante] ↓

(mercredi)

Quelques points de vue (de matheux) sur les grandeurs physiques et unités de mesure

Dans cette entrée, je voudrais évoquer la question des grandeurs physiques (longueur, durée, vitesse, masse, courant électrique…) et des unités de ces grandeurs. Je vais jeter un regard de matheux sur ce que ces choses sont, proposer quelques points de vue ou (esquisses de) définitions formelles possibles, et m'interroger sur l'utilité et la pertinence de ces points de vue, notamment pédagogiques, mais aussi du point de vue de la question de l'incertitude des mesures.

Je précise que cette entrée part un peu dans tous les sens, parce que j'ai commencé par écrire de la façon dont les idées me venaient (ou me revenaient, parce que ce sont des idées que je rumine depuis longtemps), et j'ai voulu raconter trop de choses à la fois, donc il y a plein de digressions. En plus de ça, j'ai un peu permuté les bouts que j'avais écrits (il en reste certainement des incohérences comme des je vais y revenir alors que les choses sont dans un autre ordre), puis repermuté, puis re-repermuté au fur et à mesure que j'ajoutais des digressions, et finalement je ne sais plus du tout dans quel ordre je dis les choses. Heureusement, il n'y a pas trop de lien logique clair ni de dépendance entre les différents morceaux ce que je raconte, donc on doit pouvoir lire cette entrée dans le désordre puisque c'est comme ça qu'elle a été écrite ! J'ai essayé de marquer par des triples accolades {{{…}}} (cf. ici) les digressions les plus identifiables, dans l'espoir que ça aide à s'y retrouver un peu.

À l'origine je voulais parler de la manière dont un mathématicien peut définir ce que sont les grandeurs physiques et leurs unités. Mais je n'ai pas résisté à parler d'autres choses, à faire un tableau de plein de grandeurs (ci-dessous) et à entrer dans des discussions sur ce que sont les grandeurs dans la pratique, sur les incertitudes et les échelles de masse. J'ai commencé à écrire des choses sur la réforme du SI qui doit avoir lieu d'ici quelques mois, puis je me suis dit que non, ça faisait vraiment trop, mais il en reste quand même des bouts… (Je garde donc pour une entrée ultérieure les explications précises sur la réforme du SI, même si j'y fais allusion à diverses reprises ici.) Bref, voilà pourquoi cette entrée est encore plus désordonnée que d'habitude. J'espère qu'il y a quand même des choses à en tirer !

Pour essayer de fixer la terminologie, j'appellerai grandeur (plutôt que dimension qui peut causer confusion) quelque chose comme « la masse » de façon abstraite ; et j'appellerai quantité [de cette grandeur] une masse particulière (par exemple 70kg), mesurée, donc, dans une unité. Si on veut parler comme un informaticien, donc, la grandeur sera, pour moi, le type (« la masse »), tandis que la quantité sera l'instance de ce type (70kg). Et l'unité est une quantité particulière (de la grandeur) qu'on a choisie pour exprimer toutes les autres. Comme n'importe quelle quantité non nulle (disons peut-être strictement positive) peut servir d'unité, la différence entre « quantité » et « unité » est juste une question de regard qu'on porte dessus.

Je ne sais pas si ce choix terminologique était le meilleur, je conviens que c'est un peu contre-intuitif de dire que la grandeur de [la quantité] 70kg est la masse, mais je ne suis pas certain qu'il existe de choix vraiment bon (et puis, maintenant que c'est fait, je n'ai plus envie de tout rééditer). J'ai essayé de m'y tenir systématiquement, de toujours utiliser le mot grandeur pour le type et quantité pour la valeur dans le type, mais je ne peux pas exclure quelques lapsus occasionnels.

Ajout () : En fait, je ne distingue pas vraiment la grandeur et la dimensionnalité de cette grandeur (définie formellement ci-dessous), par exemple je ne distingue pas les grandeurs « énergie » et « moment d'une force » (tous les deux ayant l'unité SI de kg·m²/s², même si dans un cas on l'appelle plutôt le joule et dans un autre cas plutôt le newton·mètre, la distinction est plus mnémotechnique que fondamentale) ; de même, pour moi, le watt et le volt·ampère sont bien la même chose, nonobstant le fait qu'on ne les utilise pas exactement de la même manière ; je vais faire occasionnellement allusion à ce problème.

Bref, qu'est-ce que c'est que toute cette histoire ?

Pour commencer, une des propriétés des grandeurs et des unités est qu'on peut les multiplier et les inverser (donc, les diviser) ; alors qu'on ne peut ajouter ou soustraire que des quantités de même grandeur, mais ça j'y reviendrai plus loin. Par exemple, une unité de longueur divisée par une unité de durée (=temps) donne une unité de vitesse (mètre par seconde, kilomètre par heure) : et il s'agit bien d'une division des quantités correspondantes (1km=1000m, 1h=3600s donc 1km/h = 1000m/3600s = (1000/3600)m/s = 0.2777…m/s). On peut dire que, indépendamment des unités, la grandeur « vitesse » est le quotient de la grandeur « longueur » par la grandeur « durée ». De même, la grandeur « surface » est le carré de la grandeur « longueur » (son produit par elle-même). Et la grandeur « fréquence » est l'inverse de la grandeur « durée » (l'unité SI de fréquence, le hertz, est l'inverse de l'unité SI de temps, la seconde).

{{{ Une remarque au passage : Je ne sais pas pourquoi, mais pédagogiquement la division des grandeurs (longueur divisée par durée égale vitesse) paraît généralement plus naturelle que le produit ; et il est difficile de donner un exemple de multiplication qui paraisse convaincant à Madame Michu (autre que la multiplication d'une grandeur par elle-même ou autre puissance : longueur fois longueur égale surface). C'est peut-être lié au fait que le produit tensoriel (cf. ci-dessous) est plus difficile à intuiter en algèbre linéaire que l'espace des applications linéaires. En tout cas, c'est certainement pour ça que les journalistes disent souvent watt par heure (comme si c'était un quotient) quand ils veulent évidemment parler des watts·heures (produit des unités). }}}

Parmi les grandeurs, il y en a une qui joue un rôle particulier, c'est la grandeur « nombre sans dimension » : par exemple, un nombre de moutons dans un pré est une quantité sans dimension, i.e., une quantité de cette grandeur ; cette grandeur, et seulement celle-là, a une unité naturelle, à savoir le nombre 1. C'est d'ailleurs bien sûr le sens du mot « unité ». (Ce qui n'interdit pas, à mon avis, qu'on puisse utiliser des préfixes SI dessus : je préconise qu'on dise un méga pour un million, un giga pour un milliard et un téra pour mille milliards, même s'il n'y a pas d'unité SI derrière.) Toute autre grandeur, ou quantité de cette grandeur, est dite dimensionnée.

Comme on peut multiplier et inverser des grandeurs, et que la multiplication est associative et autres propriétés usuelles, on peut dire que les grandeurs forment un groupe (abélien, c'est-à-dire que la multiplication est commutative). Pour des raisons qui n'apparaîtront pas plus loin, je vais avoir envie de l'appeler groupe de Picard des grandeurs physiques.

{{{ Faisons une sorte de digression. Je veins d'expliquer qu'on pouvait multiplier et inverser (donc, du coup, diviser) les grandeurs : par exemple, « longueur » divisé par « durée » égale « vitesse » ; mais on peut aussi, et c'était mon point de départ, multiplier et inverser les quantités, disons les quantités strictement positives, de ces grandeurs : par exemple, 600m divisé par 1min (soit 60s) égale 10m/s. Les quantités strictement positives forment donc aussi un groupe. Et ces deux groupes sont compatibles puisque (trivialement d'après mes définitions) la grandeur du produit de deux quantités est le produit des deux quantités ; mathématiquement, on formule cela en disant que la fonction qui à une quantité associe sa grandeur est un morphisme de groupes.

Poussons cela un peu plus loin. Un système d'unités est un choix d'une ou plusieurs quantités strictement positives servant d'unités pour leurs grandeurs correspondantes. Mais le SI (anciennement système métrique) vérifie bien plus que ça. D'abord, il y a une et une seule unité choisie pour chaque grandeur. Mais aussi, ces unités sont cohérentes les unes avec les autres : l'unité SI de vitesse (=longueur/durée) s'obtient en divisant l'unité SI de longueur (le mètre) par l'unité SI de durée (la seconde) ; ce qui n'est pas le cas, par exemple, du système américain, dont les unités de volume (=longueur³) (le gallon et ses sous-multiples) n'ont pas vraiment de rapport avec le cube des unités de longueur (il y a 576/77 gallons dans un pied cube, cherchez la logique…). Je dirai donc qu'un système d'unités — comme le SI — est cohérent (peut-être que je devrais dire giorgien) lorsqu'il choisit une et une seule unité pour chaque grandeur, et que, de plus, l'unité choisie pour un produit de grandeurs est précisément le produit des unités de ces différentes grandeurs. Mathématiquement, on peut formuler ça en disant qu'il s'agit d'une fonction qui à chaque grandeur associe une unité, et qui est elle aussi un morphisme de groupe (dans le sens contraire de celui du paragraphe précédent).

Je conclus cette digression en reformulant en langage de matheux ce que j'ai dit dans les deux paragraphes précédents :

Le groupe des quantités physiques strictement positives est une extension du groupe « de Picard » des grandeurs physiques par le groupe multiplicatif des nombres réels strictement positifs. Un système d'unités cohérent est une section de cette extension de groupes.

}}}

Mais oublions les quantités et revenons à l'ensemble des grandeurs physiques elles-mêmes (longueur, durée, vitesse, masse, énergie… cf. le tableau plus bas).

Ce « groupe de Picard » des grandeurs a une structure très simple : il existe un certain nombre de grandeurs dites fondamentales, typiquement la longueur [=distance], la durée [de temps], la masse, l'intensité de courant électrique, et peut-être quelques autres (je vais y revenir), mais mettons pour simplifier qu'il y ait juste ces quatre-là, et ensuite toute grandeur s'écrit de façon unique comme la grandeur longueur puissance d₁ fois durée puissance d₂ fois masse puissance d₃ fois intensité électrique puissance d₄ [fois éventuellement d'autres choses], où d₁,d₂,d₃,d₄ [et éventuellement d'autres] sont des entiers relatifs qu'on appelle collectivement la dimensionnalité de la grandeur (mais on pourrait l'identifier avec la grandeur elle-même). Par exemple, la vitesse étant la longueur divisée par la durée, c'est-à-dire longueur puissance +1 fois durée puissance −1, la dimensionnalité de la vitesse sera (+1,−1,0,0). Multiplier les grandeurs revient juste à ajouter les dimensionnalités, et diviser les grandeurs à les soustraire (i.e., inverser une grandeur revient à opposer la dimensionnalité). Pour un matheux, c'est dire que le « groupe de Picard » des grandeurs est un groupe abélien libre, disons (isomorphe à) ℤ⁴ où le 4 est le nombre de grandeurs fondamentales.

Le tableau ci-dessous (que j'ai dû refaire un nombre incalculable de fois, et à chaque fois en m'arrachant les cheveux parce que je me plantais bêtement dans les calculs ou que je retenais mal une formule et que du coup je tombais sur des incohérences) liste la plupart des grandeurs physiques les plus usuelles, i.e., les éléments les plus usuels du groupe de Picard, avec leur dimensionnalité sur les quatre grandeurs fondamentales que sont la longueur, la durée, la masse et l'intensité électrique. Les colonnes L,T,M,I donnent les composantes d₁,d₂,d₃,d₄ de la dimensionalité. Faire défiler :

GrandeurLTMIUnité SI
Longueur+1000m
Surface+2000
Volume+3000
Durée0+100s
Fréquence, vitesse angulaire0−1001/s = Hz, rad/s
Vitesse+1−100m/s
Accélération+1−200m/s²
Masse00+10kg
Moment d'inertie+20+10kg·m²
Masse volumique−30+10kg/m³
Quantité de mouvement+1−1+10kg·m/s
Viscosité [dynamique]−1−1+10kg/m/s = Pa·s
Action, moment cinétique+2−1+10kg·m²/s = J·s
Force+1−2+10kg·m/s² = N
Énergie, moment de force+2−2+10kg·m²/s² = J
Densité d'énergie, pression−1−2+10kg/m/s² = Pa
Flux énergétique0−3+10kg/s³ = W/m²
Puissance+2−3+10kg·m²/s³ = W
Courant électrique000+1A
Charge électrique0+10+1A·s = C
Densité de charge électrique−3+10+1A·s/m³ = C/m³
Induction magnétique (H)−100+1A/m
Densité de courant électrique−200+1A/m²
Induction électrique (D)−2+10+1A·s/m² = C/m²
Flux magnétique+2−2+1−1kg·m²/s²/A = Wb
Potentiel magnétique (A)+1−2+1−1kg·m/s²/A = T·m
Champ magnétique (B)0−2+1−1kg/s²/A = T
Champ électrique (E)+1−3+1−1kg·m/s³/A = V/m
Tension (=potentiel) électrique+2−3+1−1kg·m²/s³/A = V
Capacité électrique−2+4−1+2A²·s⁴/m²/kg = C/V = F
Permittivité diélectrique−3+4−1+2A²·s⁴/m³/kg = F/m
Perméabilité magnétique+1−2+1−2kg·m/s²/A² = H/m
Inductance+2−2+1−2kg·m²/s²/A² = H
Résistance électrique+2−3+1−2kg·m²/s³/A² = Ω
Résistivité électrique+3−3+1−2kg·m³/s³/A² = Ω·m

Ajout () : Je devrais en profiter pour mentionner quelque part le pratique programme units de GNU, fort pratique pour vérifier l'homogénéité et faire des conversions entre unités (notamment les très baroques unités américaines, mais pas uniquement).

{{{ Nouvelle digression : je pense que l'examen, du point de vue statistique, des exposants qui apparaissent ici, serait assez intéressant, et pourrait nous dire des choses sur les lois de la physique et/ou sur les choix plus ou moins naturels d'une « base de grandeurs fondamentales » (je vais y revenir). En tout cas, il y a des choses qu'on peut noter noter. Par exemple, je ne connais aucune grandeur physique pas franchement artificielle qui fasse intervenir la masse à la puissance ±2 ou plus (en valeur absolue). L'intensité éléctrique, elle, se retrouve aux exposants ±1 ou ±2 dans toutes les grandeurs électriques, je ne connais pas plus ; et encore, la somme des exposants de masse et d'intensité vaut toujours 0 ou ±1. Les grandeurs « géométriques » que sont l'espace et le temps apparaissent à des exposants plus variés, mais en remarquant que la somme des deux varie moins que chacun séparément, on pouvait peut-être déjà soupçonner une facette de la relativité, qui est que l'espace et le temps sont deux aspects d'une seule et même chose. }}}

Sous-jacent au tableau ci-dessus, il y a le choix d'une base de grandeurs fondamentales : il y a là deux sous-problèmes. D'abord le problème du nombre de grandeurs fondamentales : je me suis limité à quatre (longueur, durée, masse et intensité électrique), mais le SI en identifie d'autres (température thermodynamique, quantité de matière et intensité lumineuse) ; le nombre est un peu arbitraire, et je vais revenir sur ce problème. Mais il y a une autre question qui est celle, une fois choisi le nombre de grandeurs fondamentales et donc le « groupe de Picard » des grandeurs, de savoir à partir desquelles on exprime toutes les autres : mathématiquement il s'agit du choix d'une base de ce « groupe de Picard ». C'est un choix un peu arbitraire (ℤ⁴ a plein de bases !) mais peut-être pas tant que ça. Par exemple, le SI traite le courant électrique comme grandeur fondamentale permettant de construire toutes les grandeurs électriques (et définit donc une unité de courant électrique, l'ampère) : pourquoi pas la charge électrique, par exemple, ou n'importe quoi d'autre ayant ±1 dans la colonne I du tableau ? (En fait, la redéfinition du SI va, de facto, définir le coulomb, donc traiter la charge comme la grandeur fondamentale, mais en continuant à définir formellement l'ampère, donc utiliser le courant.) Une raison pour laquelle ce n'est pas arbitraire est qu'il y a des questions d'incertitude dans les mesures, je vais y revenir. Une autre raison peut être qu'on veut chercher à minimiser les valeurs absolues des exposants intervenant dans les grandeurs vraiment utilisées (cf. le tableau ci-dessus) : peut-être le fait que les exposants de la durée et du courant électrique sont corrélés dans le tableau ci-dessus suggère que la charge électrique a quelque chose de plus fondamental que le courant électrique. Peut-être même que la grandeur « charge sur masse » doit être considérée comme encore plus fondamentale. Je trouve que c'est une question intéressante, et je n'ai pas les idées aussi claires que je voudrais.

{{{ Il y a encore autre chose qu'il faut que je souligne (ceci est une nouvelle digression) : j'ai dit plus haut que le SI est un système cohérent d'unités : l'unité SI de vitesse est l'unité SI de longueur divisée par l'unité SI de temps, et ainsi de suite. Pas de nombre arbitraire à faire intervenir dans les calculs ! Il faut cependant nuancer cette affirmation. Tout ce que le système fournit, c'est une possibilité de multiplier et diviser les quantités de façon simple (les unités viennent automatiquement si on exprime tout dans le même système) : mais ça ne rend pas triviale la physique, évidemment, et notamment ça ne préjuge pas de ce que ces produits représentent ni des facteurs numériques qui peuvent intervenir dans des formules.

Ce que je veux dire, c'est que même si des extra-terrestres ont la même unité de longueur que nous (le mètre) et la même unité de durée (la seconde), et même s'ils ont eux aussi un système cohérent d'unités, il ne résulte pas forcément pour autant qu'ils seront d'accord avec nous sur une mesure d'accélération, tout simplement parce qu'ils ne sont pas forcément d'accord sur ce qu'ils appelleront l'« accélération » : pour nous, l'accélération est la dérivée de la vitesse, et du coup, si on accélère à un rythme constant a (en partant du repos) pendant une durée t, on parcourt une distance ½a·t² : ce facteur ½ apparaît en intégrant a·t, mais il aurait très bien pu se faire pour des raisons historiques qu'on choisisse comme quantité mesurée principale d'utiliser le ba (appelons ça la miccélération) tel que la distance parcourue en accélérant à rythme constant soit bt². La grandeur (dimensionnalité) de la miccélération est la même que celle de l'accélération, donc elles ont la même unité SI, le mètre par seconde au carré ; mais implicitement, quand nous quantifions un mouvement uniformément accéléré, nous pensons à l'accélération a alors que les extra-terrestres pensent peut-être à la miccélération ba.

Évidemment, comme j'ai pris la peine de bien distinguer les termes en inventant le mot miccélération, il n'y a pas de problème ; mais on s'imagine parfois que la seule donnée de la dimensionnalité donne la bonne définition de la quantité, et ce n'est pas le cas. Nous calculons l'énergie cinétique exprimée en joules avec la formule ½m·v² où m est la masse de l'objet qui se déplace et v sa vitesse, et surtout, nous supposons implicitement qu'un nombre de joules est une énergie, mais peut-être que pour nos extra-terrestres qui n'aiment pas les ½ la formule normale est m·v², et que pour eux, un nombre de joules représente donc ce que nous appellerions le double de l'énergie : il faudra bien faire attention à définir ce qu'on entend par énergie si on communique avec eux, il ne suffit pas de se contenter de la dimensionnalité. Sans faire intervenir d'extra-terrestres, le problème existe déjà plus ou moins entre la notion de fréquence et celle de pulsation (la pulsation étant égale à la fréquence multipliée par 2π), qui relèvent formellement de la même grandeur (dimensionnalité) ; on essaye de lever le problème en exprimant la fréquence en hertz (Hz) alors que la pulsation s'exprime en radians par seconde (rad/s), mais il n'est pas possible d'être systématique (je vais un peu revenir sur le problème du radian).

Tout ça n'a pas vraiment de rapport avec les unités de mesure physiques : c'est quelque chose qui apparaît en maths pures (on mesure les surfaces, par exemple, en les comparant à la surface d'un carré de coté 1, mais on aurait pu imaginer de faire ça en les comparant à la surface d'un disque de diamètre 1, et on dirait alors que 4/π est la constante magique qui calcule l'aire d'un carré…). Simplement, en physique, on s'attend parfois à ce que les unités nous donnent magiquement la bonne constante, or ce n'est juste pas le cas. Ceux qui ont eu le malheur d'être confrontés aux différentes sortes d'unité CGS (électrostatiques, électromagnétiques et gaussiennes) savent le chaos que cela peut engendrer : il n'est pas normal que les équations de Maxwell dépendent du choix du système d'unités (les équations de Maxwell expriment des relations entre quantités physiques, elles ne peuvent pas dépendre des unités choisies pour mesurer ces quantités !), mais accompagnant le choix d'unités il y a le choix de ce qu'on appelle exactement champ électrique, champ magnétique, etc., et des facteurs 4π qui passent d'un côté ou de l'autre.

Fin de la digression. }}}

Bon, mais revenons en arrière d'un cran. Qu'est-ce qu'une grandeur physique et une unité, finalement ? Comme je le suggérais plus haut, un informaticien dirait certainement que les grandeurs sont des types et que les quantités et unités sont des instances de ces types. Voici une réponse possible de matheux, qui est (au moins partiellement) compatible avec cette réponse d'informaticien (note : si ce qui suit vous passe au-dessus de la tête ou simplement vous semble inutilement compliqué, je vais justement faire des commentaires de niveau méta ci-dessous sur la question de savoir si c'est pédagogiquement intéressant ou non) :

  1. Une grandeur physique est un espace vectoriel réel de dimension 1 ; une quantité de cette grandeur est un élément de cet espace vectoriel. (Commentaire : Autrement dit, on peut ajouter, soustraire, et multiplier par un réel les quantités d'une même grandeur ; comme deux vecteurs d'un espace vectoriel de dimension 1 sont toujours colinéaires, on peut aussi diviser entre elles deux quantités d'une même grandeur — si le dénominateur n'est pas nul — et obtenir un nombre sans dimension ; en revanche, on ne peut pas ajouter deux quantités d'une grandeur différente.)
  2. Une unité d'une grandeur physique est une base de l'espace vectoriel de dimension 1 en question, c'est-à-dire simplement un élément non nul, que l'on fixe. (Commentaire : Tout espace vectoriel admet une base, en l'occurrence il suffit de prendre un élément non nul ; mais le point crucial est qu'il n'y a pas ici de base naturelle, il faut en choisir une. Une fois choisie une unité u de la grandeur, toutes les autres quantités de cette grandeur s'expriment comme des multiples réels λu de l'unité : ceci revient à dire que fixer la base d'un espace vectoriel de dimension 1 revient à choisir un isomorphisme avec ℝ.)
  3. Les nombres sans dimension sont simplement la grandeur correspondant à l'espace vectoriel ℝ, qui, lui, a une base naturelle, à savoir 1.
  4. Données deux grandeurs physiques correspondant à des espaces vectoriels U et V de dimension 1, la grandeur quotient de V par U est la grandeur correspondant à l'espace vectoriel L(U,V) des applications linéaires UV ; et si u est une unité (=base) de U et v de V, l'unité quotient v/u de la grandeur quotient est l'application linéaire envoyant u sur v, c'est-à-dire λuλv. (Commentaire : Il est clair que si U et V sont de dimension 1 alors L(U,V) est de dimension 1, et plus précisément, si U = {λu : λ∈ℝ} et V = {λv : λ∈ℝ}, on a L(U,V) = {λ(v/u) : λ∈ℝ} où v/u est l'application linéaire UV donnée par λuλv. À titre d'exemple, le mètre par seconde est une base de l'espace vectoriel L(durées,longueurs) représentée par l'application linéaire qui envoie la durée de λ secondes sur la longueur de λ mètres.)
  5. En particulier, l'inverse d'une grandeur physique correspondant à un espace vectoriel U de dimension 1 est l'espace dual U* := L(U,ℝ) (que dans ce contexte on peut aussi noter U⊗−1) des applications linéaires U→ℝ ; et si u est une unité (=base) de U, l'unité inverse u−1 ou 1/u de la grandeur inverse U* est la base duale de la base u, c'est-à-dire l'application linéaire envoyant u sur 1. (Commentaire : Le bidual d'un espace vectoriel U de dimension finie étant naturellement isomorphe à U lui-même, l'inverse de l'inverse d'une grandeur est la grandeur elle-même ; et de plus, l'inverse de l'inverse d'une unité est l'unité elle-même.)
  6. Données deux grandeurs physiques correspondant à des espaces vectoriels U et V de dimension 1, la grandeur produit de U par V est la grandeur correspondant à l'espace vectoriel produit tensoriel UV. (Note : En général, le produit tensoriel UV est défini avec une application bilnéaire (⊗):U×VUV de telle sorte que les applications linéaires UVW s'identifient naturellement aux applications bilinéaires U×VW par composition avec (⊗) ; mais dans le contexte particulier des espaces vectoriels de dimension finie, on peut définir le produit tensoriel UV plus simplement comme L(U*,V), l'élément uv de UV étant l'application linéaire U*V donnée par φ ↦ φ(uv. Concrètement, si U a une base (ei) et V a une base (fj), alors UV est l'espace vectoriel dont une base est (eifj), et si u = ∑ixiei et v = ∑jyjfj alors uv = ∑i,jxiyj(eifj).) Et si u et v sont des unités (=bases) de U et V respectivement, l'unité produit u·v de la grandeur produit est définie comme la base uv de UV.
  7. Les égalités de grandeurs (« homogénéités » physiques) correspondent à des isomorphismes naturels d'espaces vectoriels. À titre d'exemple, si U et V sont deux grandeurs, on a un isomorphisme naturel U⊗L(U,V)→V donné par uφ ↦ φ(u) (déduite de l'application bilinéaire (u,φ)↦φ(u) de composition), ce qui reflète le fait que diviser une grandeur V par une grandeur U et la remultiplier par elle redonne bien la grandeur V de départ.

Est-ce que dire tout ça éclaire une situation confuse ou bien obscurcit sous du formalisme inutile quelque chose qui était déjà parfaitement clair ? Cela dépend certainement de l'orientation d'esprit du lecteur ! Il y a des gens pour qui ce point de vue est véritablement utile pour comprendre, et des gens pour qui c'est du jargon complètement gratuit ; à tel point que je pense que ça peut servir d'une sorte de « test de personnalité » scientifique. Mais je pense que ça peut être aussi un exemple très utile pour se rappeler la difficulté fondamentale de la pédagogie : il y a plus d'une tournure d'esprit, et ce qui peut être éclairant pour une peut être obscurcissant pour une autre, et il est très difficile pour un enseignant de dire je vais vous donner un autre point de vue : si vous trouvez qu'il vous embrouille, oubliez-le, sinon, retenez-le ou même je vais vous donner plusieurs points de vue sur la même chose, retenez celui que vous préférez, même si, fondamentalement, je pense que c'est ce qu'il faut faire (dans la mesure où le temps le permet).

Évidemment, mon exemple peut aussi servir (et est peut-être plus utile, il faut bien le dire) dans l'autre sens : pour faire comprendre des concepts d'algèbre linéaire à des gens qui ont déjà une idée de ce que c'est qu'une grandeur physique et une unité de mesure (i.e., à peu près tout le monde à part un matheux fou qui aurait vécu depuis son enfance dans une grotte constituée de livres de Bourbaki). Notamment, je pense que cela peut servir à illustrer : (a) le sens du mot canonique[#]/naturel, et le fait que deux objets mathématiques soient isomorphes ne signifie pas qu'il soit opportun de fixer un tel isomorphisme, ou en tout cas, que si on le fait, il peut être important de se rappeler qu'on a fait un choix (tous les espaces vectoriels réels de dimension 1 sont isomorphes, mais les choix qu'on peut faire ont une réelle importance — par exemple les États-Unis n'ont pas fait les mêmes choix que le reste du monde) ; (b) la notion de dual dans un cas très simple (et pourquoi l'isomorphisme d'un espace vectoriel de dimension finie, même de dimension 1, avec son dual n'est pas canonique, tandis que l'isomorphisme avec le bidual, lui, l'est) ; et aussi (c) le concept de produit tensoriel.

[#] J'aime beaucoup la « définition » suivante du mot canonique en mathématiques : un objet d'un certain type est canonique quand, si j'en construit un et que mon voisin de bureau en construit un autre, nous aurons probablement construit le même. Si je dois choisir une base de ℝ, je vais choisir 1 et mon voisin de bureau aussi ; si je dois choisir une base de l'espace vectoriel des masses sans être courant de ce qui existe déjà, il est peu probable que je choisisse pile le même kilogramme que le citoyen Fortin.

*

On peut varier ou modifier le point de vue. En voici un autre, qui est différent mais compatible avec celui donné ci-dessus : il consiste à considérer comme fondamentale l'opération de « transformation homogène » dans une quantité physique ; pour dire les choses de façon simple, il s'agit de multiplier toutes les longueurs par un nombre disons λ₁, toutes les durées par un nombre λ₂, toutes les masses par un nombre λ₃, tous les courants électriques par un nombre λ₄ (et continuer comme ça pour toutes les autres grandeurs fondamentales qu'on peut avoir dégagées) ; évidemment, on va alors multiplier les vitesses par λ₁/λ₂, les accélérations par λ₁/λ₂², et plus généralement toute quantité d'une grandeur qui a la dimensionalité (d₁,d₂,d₃,d₄) (valeur des quatre colonnes numériques du tableau) par λd·λd·λd·λd. Les nombres sans dimension, eux, ne changent pas du tout. Cette opération de transformation homogène peut se voir comme reflétant le caractère arbitraire du choix des unités (i.e., la liberté qu'on avait à les définir) : on peut considérer qu'on est en train de diviser chaque unité fondamentale par le λ correspondant ; on peut aussi prétendre qu'il s'agit d'une symétrie des lois de la physique, même si c'est un petit peu une arnaque de dire ça (parce qu'on doit changer, dans l'histoire, les constantes fondamentales dimensionnées). En tout cas, le point crucial de l(a vérification d)'homogénéité est que quand on effectue cette transformation homogène sur toutes les quantités dimensionnées, toutes les égalités se préservent ; en particulier, si on ajoute, ou si on exprime l'égalité entre, deux quantités, elles doivent avoir la même dimensionnalité, i.e., être de la même grandeur, pour que l'homogénéité fonctionne. Redisons tout ça plus formellement en langage de matheux :

Appelons groupe multiplicatif le groupe des réels non nuls, disons même strictement positifs (je n'ai pas envie de m'embêter avec la question des signes des quantités), pour la multiplication. Si r est le nombre de grandeurs fondamentales (par exemple, r=4 si on compte longueur, durée, masse et intensité électrique), notons G et appelons groupe des homogénéités d'unités le produit de r copies du groupe multiplicatif. Une grandeur physique est alors une façon dont se multiplient les quantités correspondantes sous l'action du groupe des homogénéités : c'est-à-dire que c'est une représentation du groupe G des homogénéités (= un espace vectoriel U, muni d'un morphisme de groupes continu G→GL(U) — définissant donc une action de G sur U — où GL(U) est le groupe des applications linéaires inversibles UU) ; et plus exactement, c'est une représentation irréductible, ce qui, dans ce contexte, veut juste dire, de dimension 1 : du coup, un morphisme de G dans le groupe multiplicatif, ou caractère (abélien) de G (à savoir (λ₁,λ₂,λ₃,λ₄) ↦ λd·λd·λd·λd). Vérifier l'homogénéité d'une égalité, c'est vérifier que le groupe des homogénéités opère de la même façon sur les deux membres, donc qu'ils vivent dans la même représentation.

Bref, une grandeur physique est une représentation irréductible (= de dimension 1) de G, et pour ce qui est des unités et de la manière dont on les multiplie et inverse, le point de vue exposé précédemment s'applique, en remarquant que le dual d'une représentation irréductible de G est une représentation irréductible de G (ceci est un fait général), et que le produit tensoriel de deux représentations irréductibles de G est une représentation irréductible de G (ceci dépend du fait que G est abélien).

Ce que j'ai appelé plus haut groupe de Picard des grandeurs physiques est alors vu comme le groupe des caractères de G (= groupe dual). Et le choix de grandeurs fondamentales revient à choisir une base de celui-ci, i.e., des représentations fondamentales de G.

Je pense que ce point de vue a un intérêt à la fois mathématique et physique. Mathématique parce qu'il « explique » pourquoi les grandeurs physiques forment elles-mêmes un groupe : c'est le groupe des caractères du groupe G des homogénéités physiques ; et il donne un sens plus précis (que le point de vue précédent) à la question de savoir quand deux grandeurs sont ou ne sont pas la même (ci-dessus je parlais d'isomorphismes « naturels » ou « canoniques », mais c'est une question un peu byzantine de savoir quand deux objets sont « naturellement » isomorphes ; alors que savoir si le groupe G agit de par le même caractère est une question bien définie). Physiquement, parce que cela prépare à l'idée de rechercher des symétries de la physique et de faire agir des groupes plus compliqués que juste des homogénéités.

C'est un problème à la fois pédagogique et scientifique que de savoir quelle quantité de formalisme il faut introduire pour exposer une notion, et comme je le disais plus haut, la réponse dépend hautement de la personne à laquelle on s'adresse, c'est-à-dire qu'il n'y a pas de « bonne » réponse. Ce qui peut apporter quelque chose à ceux qui ont l'esprit orienté d'une certaine manière, paraîtra souvent gratuitement compliqués à d'autres. C'est un problème qui revient notamment souvent en théorie des catégories (même s'il n'est pas exclusif à la théorie des catégories !), une branche des mathématiques que certains considèrent comme une façon extraordinairement compliquée de dire des trivialités et d'autres comme une façon extraordinairement puissante d'unifier toutes sortes de choses apparemment disparates.

Si on est, justement, théoricien des catégories, on préférera sans doute voir les grandeurs physiques comme les objets d'une catégorie monoïdale symétrique dont tous les objets sont inversibles. C'est à cause de ça que j'ai choisi le terme de groupe de Picard. Si on est informaticien théoricien, on peut vouloir voir la catégorie monoïdale symétrique en question comme un modèle du fragment multiplicatif de la logique linéaire, ce qui rejoint l'idée de typage évoquée plus haut : les notations sont heureusement cohérentes, et UV (qui coïncide ici avec UV) est le type correspondant au produit des unités tandis que U est le type correspondant à l'inverse d'une unité et UVUV au quotient. Ce n'est certainement pas très utile pour comprendre les unités physiques, mais ça peut aider à se former une intuition de la logique linéaire que de se dire que le type des surfaces peut être vu comme le type longueur⊗longueur.

Mais revenons à des choses plus concrètes. Quelles sont toutes les grandeurs physiques possibles ? Et qu'est-ce que ça signifie, au juste, que deux quantités aient la même grandeur ? En fait, ce n'est pas si clair que ça. (L'approche « groupe d'homogénéités » exposée plus haut devrait fournir une réponse, mais en fait elle demande justement, un choix de groupe d'homogénéités, et on peut avoir des doutes sur ce qu'est le groupe en question.)

Il y a plusieurs choses qui peuvent faire qu'on ne sera pas d'accord sur le nombre de grandeurs (ou du coup, d'unités) fondamentales. D'abord, on peut inventer toutes sortes de grandeurs et d'unités : par exemple, si on fait de l'économie, on peut avoir une grandeur « valeur économique » avec pour unité l'euro ; ou le dollar ; ou en fait, comme c'est déplaisant (et contraire au formalisme ci-dessus) que le rapport entre deux unités varie au cours du temps, une grandeur différente pour chaque sorte de devise ou de commodité sur le marché, ce qui montre que la création d'un nombre gigantesque de grandeurs fondamentales peut avoir un sens. Ensuite, on peut inventer toutes sortes de pseudo-unités : le radian, par exemple, qui sert essentiellement à retenir la position des 2π dans les expressions mathématiques, ou encore les (déci)bel, néper et logon qui servent à mémoriser la base des logarithmes (ils sont dans les rapports respectifs de log(10), log(e) et log(2)). Mais il y a quelque chose de plus intéressant que je veux évoquer, c'est la question du scindage et de l'unification de grandeurs.

Pour expliquer cette histoire de scindage et d'unification, prenons deux exemples qui sont, j'insiste, exactement de la même nature :

  • On considère classiquement les longueurs (dans l'espace) et les durées (de temps) comme deux grandeurs différentes. Mais il y a une constante fondamentale dimensionnée qui les relie : la vitesse de la lumière. Celle-ci vaut (exactement) 299792458m/s en unités SI (avec la grandeur « vitesse », c'est-à-dire « longueur sur durée »).
  • Les Américains ont tendance à mesurer les longueurs (distances horizontales) en miles (mi), et les hauteurs (distances verticales) en pieds (ft). On pourrait donc vouloir considérer qu'il s'agit de deux grandeurs différentes, chacune avec son unité. À ce moment-là, au lieu d'avoir un rapport entre les deux unités, on a une constante fondamentale dimensionnée qui apparaît, la constante qui exprime la hauteur d'un mat qui, posé horizontalement, a une certaine longueur : et cette constante vaut (exactement) 5280ft/mi (avec la grandeur « hauteur sur longueur », qu'on pourrait appeler « pente »).

Unifier deux grandeurs (par exemple les longueurs et les durées), c'est trouver une constante fondamentale qui s'exprime dans le rapport entre ces deux grandeurs et décider qu'elle vaut 1 : cette constante fournit donc un isomorphisme entre les deux grandeurs, c'est-à-dire permet la conversion de l'une à l'autre, et on peut considérer qu'il s'agit d'une seule et même grandeur. La constante fondamentale disparaît alors complètement de l'histoire, puisqu'elle a été remplacée par le nombre 1 : elle survit éventuellement en tant que facteur de conversion entre deux unités de la même grandeur (puisque les grandeurs séparées avant unification avaient chacune son unité, on en a maintenant deux pour la meme grandeur, donc le nombre 1 s'exprime comme un facteur de conversion) : par exemple, une fois qu'on décide que les longueurs et les durées sont la même grandeur, on a deux unités de cette grandeur, la seconde et le mètre, reliées par la conversion 1 seconde(-lumière) = 299792458 mètres, le rapport 1 = (1s)/(1s) = (299792458m)/(1s) = 299792458m/s étant ce qui subsiste de la vitesse de la lumière une fois l'unification faite.

(Il faut faire attention, dans l'histoire, à ce que quand on décide de rendre une constante égale à 1 pour unifier deux grandeurs, on fait un choix de ce qu'est exactement la constante, qui n'est pas forcément toujours évident : le système CGS électrostatique, par exemple, est défini en rendant la permittivité du vide égale non pas à 1, mais à 1/4π, d'où toutes sortes de 4π qui apparaissent ou disparaissent des formules quand on le compare au SI. Cf. ce que je disais plus haut sur le fait que les systèmes cohérents d'unités ne fixent pas magiquement toutes les formules. (En plus de ça, comme la permittivité diélectrique a un exposant +2 dans le tableau ci-dessus, la rendre égale à 1 pour définir les grandeurs électriques fait apparaître des exposants fractionnaires tout à fait désagréables dans l'histoire.))

Dans le sens contraire, scinder une grandeur en deux, c'est créer une constante fondamentale dimensionnée reflétant ce qui était, avant scindage, simplement le nombre 1, et qui devient la base d'une loi de proportionnalité (pour calculer la hauteur d'un mat ayant une certaine longueur horizontale, on multiplie cette longueur par la constante fondamentale valant 5280ft/mi (dont la grandeur est donc une hauteur-par-longueur-horizontale)).

J'insiste sur le fait que, une fois effectué le scindage, la constante 5280ft/mi, dans mon second exemple, est exactement autant une constante fondamentale de la physique que la vitesse de la lumière l'est dans le premier exemple. Je sais bien qu'on a tendance à réagir instinctivement en se disant ce n'est pas possible ! 299792458m/s c'est vraiment une grandeur fondamentale de la physique, c'est la vitesse de la lumière, quelque chose qu'on mesure par l'expérience, alors que 5280ft/mi c'est juste le rapport arbitraire entre deux unités idiotes du système américain, ça ne peut pas être une constante fondamentale de la physique, et pourtant, toutes les constantes fondamentales qui ont des dimensions sont bien de cette sorte. La raison pour laquelle il a fallu mesurer la vitesse de la lumière est que, faute de savoir que les longueurs et les durées étaient fondamentalement la même chose (ou, même en le sachant, faute de pouvoir les mesurer de façon interchangeable, cf. ci-dessous), on a défini des unités différentes pour les deux : la mesure de la vitesse de la lumière est alors la mesure du rapport entre deux unités qui ont été définies de façon complètement indépendante ; si on considère les hauteurs et les longueurs comme des grandeurs différentes et qu'on définit des unités différentes avec des étalons différents, il va falloir faire une expérience consistant à reporter verticalement l'étalon horizontal et le comparer à l'étalon vertical, pour arriver à trouver cette constante de conversion. Laquelle représente bien quelque chose de fondamental (la montée de la pente de 45°).

{{{ Une digression sur les constantes sans dimension : Bien sûr, quand je dis qu'on peut faire apparaître ou disparaître des constantes fondamentales par scindage ou unification de grandeurs, il s'agit uniquement de constantes fondamentales dimensionnées : les constantes fondamentales sans dimension (qui sont les « vraies » constantes fondamentales), elles, ne peuvent pas être absorbées par une redéfinition des unités (ni évidemment quand on a deux constantes fondamentales dimensionnées de même dimension, parce que leur rapport est alors sans dimension ; ni, plus généralement, quand on peut fabriquer une constante sans dimension à partir de plusieurs constantes fondamentales). Il faut noter que la physique classique et la relativité (restreinte ou générale) n'ont aucune constante fondamentale sans dimension. Le modèle standard, lui, en a une vingtaine (j'en ai déjà parlé dans cette entrée) ; il y a un vrai problème philosophique autour de la question de savoir si ces constantes devraient être « prévisibles », et ce que ça signifie (ça impliquerait certainement au moins qu'il s'agisse de nombres réels définissables dans ZFC par opposition à des nombres essentiellement aléatoires), mais je ne veux pas entrer dans ce sujet aujourd'hui. Parmi ces constantes fondamentales, il y en a au moins une qui n'est pas spécialement ésotérique : c'est la constante de structure fine qui est le rapport entre, d'une part, le carré de la charge de l'électron, et, d'autre part, 4π fois la permittivité du vide (ε₀) fois la vitesse de la lumière (c) fois la constante de Planck réduite () : le produit d'autre part définit une charge « naturelle », la charge de Planck (essentiellement la charge q telle qu'en prenant deux telles charges séparées par une distance d quelconque, la longueur d'onde quantique associée à l'énergie électrostatique séparant ces deux charges soit égale à la distance d elle-même ; il y a peut-être moyen de dire ça mieux, mais on voit l'idée). Cela signifie que si on cherche à définir des unités « naturelles » pour l'électromagnétisme, il faut faire un choix : on peut soit absorber la charge de Planck (par exemple en absorbant la vitesse de la lumière, la constante de Planck et la permittivité du vide éventuellement à un facteur 4π), soit absorber la charge de l'électron, mais on ne peut pas faire les deux. La même remarque vaut si, même sans vouloir fixer des constantes à « 1 », on veut s'en servir pour la définition des unités (et ceci est pertinent pour la redéfinition du SI). }}}

Je reviens aux histoires d'unification et de scindage de grandeurs.

La situation n'est évidemment pas toujours totalement claire. En-dessous de la situation « unifiée » où je décide que la longueur et la durée sont exactement la même grandeur (et que la vitesse de la lumière vaut 1, sans dimension, qui disparaît donc du monde des constantes fondamentales [dimensionnées]), il y a la situation « fixée » où je garde la longueur et la durée formellement comme des grandeurs distinctes, mais je fixe la valeur exacte de la constante sans dimension, c'est-à-dire que je m'en sers pour définir l'unité d'une grandeur par rapport à l'autre : c'est l'analyse la plus plausible de la situation du SI pour ce qui est du mètre et de la seconde (considérés comme des unités de grandeurs distinctes, mais dont le rapport est fixé par le fait que la vitesse de la lumière vaille exactement 299792458m/s). Ça peut être une simple question de point de vue de savoir si on a complètement unifié de grandeurs ou simplement fixé la constante. En revanche, si les unités sont définies de façon indépendantes et que la constante fondamentale est encore sujette à détermination expérimentale, alors du point de vue métrologique, on ne peut pas unifier les grandeurs (même si on peut vouloir le faire du point de vue théorique).

L'opération de scindage, quant à elle, peut paraître complètement idiote ! Je l'ai illustrée avec les pieds et les miles, mais même le système américain ne l'envisage pas comme ça : le pied et le mile sont considérés comme deux unités d'une même grandeur (unifiée), la longueur, pas comme des unités de deux grandeurs différentes (même si elles sont vaguement utilisées comme telles). Il y a, cependant, parfois de bonnes raisons de le faire.

Dans le cas des longueurs et des durées, la raison devrait être assez évidente. Dès qu'on fait de la relativité, il devient essentiellement incontournable d'unifier longueurs et durées (distances et temps) : ne pas le faire serait aussi absurde qu'essayer de faire de la géométrie euclidienne en mesurant les distances dans des unités différentes selon deux axes et en insistant que non non non ce n'est pas du tout la même grandeur. Mais quand on vit dans un monde où tout va beaucoup plus lentement que la lumière cela a un sens de séparer les deux, de même que si on vit dans un monde où les reliefs sont très très faibles par rapport aux longueurs horizontales cela peut avoir un sens de scinder la longueur en une double grandeur, longueur horizontale et hauteur. Dans la vie courante, il serait très malcommode d'utiliser la seconde pour mesurer des distances ou le mètre pour mesurer des temps, même si, au niveau métrologique, le mètre est maintenant défini à partir de la seconde (je vais y revenir).

Une autre raison de scinder peut être de retenir des nombres purement mathématiques. La grandeur « angle », notamment, est un scindage de la grandeur triviale (= nombres sans dimension) qui permet d'introduire des unités pour cette grandeur : tours, radians, degrés (ou, si on est un Français fou, grades). Garder le choix de l'unité, notamment entre tours et radians dans l'expression des angles, devrait permettre de conserver la liberté d'où on place des 2π dans certaines expressions mathématiques (par exemple de mettre d'accord ceux qui veulent que la transformée de Fourier de f est l'intégrale de f(x)·exp(−2iπxu) et ceux qui veulent que ce soit l'intégrale de f(x)·exp(−ixu)). En pratique, ça ne marche pas si bien que ça, parce que 2π est une constante purement mathématique, elle peut apparaître toute seule aux dépens de l'homogénéité, on ne peut pas la forcer à apparaître avec les unités « radians » (ou « radians par tour » ou quelque chose comme ça) à chaque fois qu'elle se manifeste (la longueur d'un cercle de rayon 1 mètre est 2π mètres, pas 2π radians·mètres) : bref, il n'y a pas de groupe d'homogénéités sensé capable de changer la valeur de 2π. Mais même si ça ne marche que partiellement et s'il faut parfois tricher avec l'homogénéité, c'est quand même un moyen mnémotechnique qui peut avoir son intérêt.

Encore une autre raison peut être de servir à retenir l'information que la quantité à subi tel ou tel traitement mathématique. C'est un peu comme ça que je considère le lumen (=candela·stéradian) : on peut dire que la grandeur « flux lumineux » du SI, dont le lumen est l'unité, est un scindage de la grandeur « puissance » (dont l'unité est le watt), avec apparition d'une constante « fondamentale » de 683lm/W (l'efficacité-pic) qui est aussi bizarrement « fondamentale » que le 5280ft/mi évoqué plus haut. En fait, le fait d'exprimer la puissance en lumens sert à mémoriser l'information le spectre a été pondéré, fréquence par fréquence, par une fonction simulant la sensibilité de l'œil humain (ce que demande l'unité, c'est que cette courbe de pondération ait son pic à 540×1012 Hz et qu'à ce pic la pondération soit donnée par 683lm/W). Mais en un certain sens, cette valeur de 683lm/W est bien quelque chose qu'il a fallu déterminer expérimentalement (à savoir à partir de la précédente définition de la candela, qui était l'intensité lumineuse, dans la direction perpendiculaire, d'une surface de 1/600 000 mètre carré d'un corps noir à la température de congélation du platine sous la pression de 101 325 newtons par mètre carré).

Mais la raison vraiment sérieuse pour scinder une grandeur (et certainement, pour ne pas en unifier deux), c'est pour des raisons d'incertitude dans les mesures. Même si on savait dès le début du 20e siècle que l'espace et le temps sont un seul et même concept, métrologiquement, ça n'aurait pas eu de sens de les unifier avant que les progrès de l'interférométrie soient suffisants pour permettre de réaliser les distances de façon très précise à partir de fréquences, i.e., tant que la vitesse de la lumière n'était pas connue avec une extrême précision. Je vais évoquer quelques exemples de scindages que le temps et les progrès de la métrologie ont permis (ou sont en train de permettre) de résorber.

En réalité, du point de vue métrologique, ça peut avoir un sens de considérer que des grandeurs sont différentes, même si théoriquement (ou conceptuellement) c'est la même chose, lorsqu'on mesure les quantités en question de façon différente, et surtout, lorsque cette différence de façon de mesurer est associée à une incertitude. Précisément, imaginons le scénario suivant : on a une seule grandeur théorique, appelons-la U, au sein de cette grandeur théorique il y a des quantités qu'on mesure selon un procédé 1 et des quantités qu'on mesure selon un procédé 2 ; on sait calculer avec précision le rapport entre des quantités mesurées selon le même procédé mais qu'il y a beaucoup d'incertitude sur le rapport entre des quantités mesurées selon des procédés différents ; dans ce cas, il y a un sens à scinder la grandeur U en des grandeurs U₁ et U₂, l'une mesurée selon le procédé 1, l'autre selon le procédé 2, chacune ayant son unité, si bien qu'on a deux unités chacune réalisée avec précision et permettant des mesures précises, et une constante « fondamentale » (reflétant l'isomorphisme théorique entre U₁ et U₂) qui est connue avec une mauvaise précision — en fait, on a « versé » toute l'incertitude dans cette unique constante fondamentale.

Je vais essayer d'expliquer cette utilité de scinder les grandeurs sur l'exemple des masses. Typiquement on considère qu'il s'agit d'une seule grandeur physique, mais il pourrait y avoir un sens à distinguer trois grandeurs « masse » :

Il y a trois domaines importants des masses : les masses microscopiques (comparables à la masse d'un atome), les masses mésoscopiques (comparables au kilogramme), et les masses astronomiques (comparables à la masse d'une étoile). Évidemment, il y a des masses intermédiaires, mais ces trois domaines sont importants à cause de la manière dont on mesure les masses : une masse mésoscopique se mesure avec une balance qui la rapporte, moyennant un certain nombre d'étapes intermédiaires, au prototype international du kilogramme (qu'on va prochainement mettre à la retraite, mais ce n'est pas encore fait au moment où j'écris). Une masse astronomique se mesure par la gravitation qu'elle exerce, c'est-à-dire en observant quelque chose qui orbite autour et en appliquant la troisième loi de Kepler. Une masse microscopique se mesure en la comparant à la masse d'un atome connu, par exemple le carbone-12 (il est bien pratique que tous les atomes d'un même isotope soient rigoureusement identiques, et qu'ils aient donc la même masse) ou en mesurant un effet quantique comme la longueur d'onde fondamentale associée à cette masse (via la constante de Planck).

Donc il y a un sens à avoir trois unités différentes de masse : par exemple, l'unité de masse atomique, qui vaut 1/12 de la masse d'un atome de carbone-12, pour les masses microscopiques ; le kilogramme, qui est la masse du prototype stocké dans un coffre-fort au sous-sol de l'observatoire du pavillon de Breteuil à Saint-Cloud, pour les masses mésoscopique ; et la masse solaire, qui est la masse de notre Soleil, pour les masses macroscopiques. Évidemment, on peut convertir entre ces unités, mais le point important est que certaines masses sont connues plus précisément dans l'une de ces unités que dans les autres. Donc, si l'on veut, on peut imaginer scinder la grandeur « masse » en trois grandeurs, « masse-quantique », « masse » et « masse-gravitante », il y aurait des constantes « fondamentales » reliant les trois, mais elles ne sont pas connues avec une précision parfaite (comme je vais l'expliquer, du point de vue incertitude, la constante reliant la masse à la masse-gravitante peut être indifféremment la constante de Newton ou la masse du Soleil ou de la Terre ; et la constante reliant la masse à la masse-quantique peut être indifféremment la constante de Planck ou la masse d'un atome de carbone-12 ou d'un électron).

C'est surtout pour les masses d'ordre astronomique que c'est important, parce que les incertitudes sont énormes. La masse du Soleil, exprimée en kilogrammes, vaut 1.988 48×1030 (c'est-à-dire le rapport entre la masse du Soleil et celle du prototype international du kilogramme), et elle est connue avec une incertitude relative d'environ 5×10−5 ; il en va de même de la masse de la Terre en kilogrammes, 5.972 4×1024 ; mais le rapport entre les deux, c'est-à-dire la masse de la Terre en masses solaires ou vice versa, est connu avec une précision 25000 fois meilleure (environ 2×10−9) que ce que ces chiffres suggèrent : la masse de la Terre vaut 3.003 489 62×10−6 M (où M est le symbole de la masse solaire). Tout simplement parce qu'on arrive très bien à calculer le rapport entre les effets gravitationnels de la Terre et du Soleil, mais très mal à relier ça à la masse du prototype international du kilogramme. C'est le signe que le kilogramme n'est pas approprié pour mesurer les masses astronomiques parce qu'exprimer des masses dans cette unité fait perdre de la précision (calculer le rapport entre les deux grandeurs exprimées en kilogramme ne donne pas la précision voulue), alors que le kilogramme est approprié pour mesurer les objets mésoscopiques (on obtient toute la précision dans un rapport de masses mésoscopiques en se référant au kilogramme) : la manière dont on pèse ces différentes sortes de masses n'est pas la même. C'est précisément le cas de figure où j'explique plus haut qu'il peut y avoir un sens à scinder la grandeur pour gérer l'incertitude.

Imaginons donc que j'introduise la grandeur de « masse-gravitante ». La masse-gravitante est simplement proportionnelle à la masse [inertielle] (du moins si on croit certains principes fondamentaux de nos théories de la gravitation, essentiellement le principe d'équivalence !), mais je veux la traiter comme une grandeur à part parce que cette constante de proportionnalité est mal connue.

On peut mesurer la masse-gravitante en diverses unités : une première approche consiste à utiliser la masse solaire M ; une approche différente consiste à définir la masse-gravitante d'une masse M à travers l'effet gravitationnel 𝒢·M produit par cette masse, où 𝒢 désigne la constante de Newton, et donc unifier plus ou moins la grandeur de masse-gravitante (qu'on vient d'inventer !) avec la grandeur de 𝒢·M, dont l'unité SI est le m³/s² : autrement dit, on peut utiliser l'unité m³/s²/𝒢 (éventuellement en l'appelant directement m³/s² si on veut une unification complète) comme unité de masse gravitante. Ces deux approches (utiliser comme unité la masse solaire M ou via la constante de Newton le m³/s²/𝒢) sont quasiment équivalentes du point de vue métrologique (même si elles ne le sont pas tant du point de vue conceptuel), parce que le rapport entre les deux unités, la masse solaire M, et l'unité m³/s²/𝒢, est bien connue — c'est tout simplement l'effet gravitationnel 𝒢·M du Soleil (cf. ci-dessous). Il y a donc plusieurs façons de dire essentiellement la même chose :

La constante de gravitation de Newton 𝒢, qui a classiquement les dimensions de longueur3·temps−2·masse−1, est connue avec une précision assez mauvaise dans les unités SI de m³/s²/kg (elle vaut 6.674 08×10−11 m³/s²/kg avec une incertitude relative de 4.7×10−5 d'après CODATA2014), alors qu'en unités de m³/s² par masse solaire, elle est connue beaucoup plus précisément (d'après les valeurs 2009 des constantes astronomiques de l'IAU, elle vaut 1.327 124 420 99×1020 m³/s²/M avec une incertitude relative d'environ 10−10) ; c'est parce que le produit 𝒢·M (constante héliocentrique de la gravitation, i.e., effet gravitationnel du soleil) est la valeur qui régit toute la mécanique du système solaire et on la connaît donc très très bien. Si, comme je le propose, on scinde la grandeur de masse en masse et masse-gravitante, et si on exprime cette dernière en masses solaires, la constante fondamentale qui exprime la proportionalité entre masse et masse gravitante, qui vaut 1.988 48×1030 kg/M, n'est pas connue très précisément[#2], tandis que la constante de Newton, elle, est connue très précisément dans la grandeur longueur3·temps−2·masse_gravitante−1, où elle vaut 1.327 124 420 99×1020 m³/s²/M (et a masse gravitante du Soleil est connue exactement, elle vaut 1M puisqu'elle sert à définir l'unité).

[#2] Pour être précis, il faut bien distinguer cette constante, 1.988 48×1030 kg/M (qui est classiquement sans dimension et qu'on a transformé en une constante ayant la grandeur de masse par masse_gravitante), et la masse du Soleil, qui, elle, vaut 1.988 48×1030 kg (le produit de cette constante par la masse gravitante du Soleil qui se trouve valoir 1M).

L'autre approche, toujours en scindant la notion de masse en masse et masse-gravitante, consiste à fixer la valeur de 𝒢 et utiliser comme unité de masse gravitante non pas celle du Soleil, mais une unité plus cohérente avec le SI, à savoir le m³/s²/𝒢 (soit à peu près 15Tg), ce qui revient plus ou moins à poser 𝒢=1 pour unifier la grandeur masse-gravitante avec la grandeur volume/durée² dont l'unité SI est le m³/s². (Si on prend cette approche, 𝒢 devient la constante de proportionalité entre masse et masse gravitante, la constante de Newton dans la grandeur longueur3·temps−2·masse_gravitante−1 devient triviale, et la masse gravitante du Soleil est connue avec une très bonne précision.) Les deux approches (mesurer la masse gravitante en unités de masse solaire ou en multipliant par 𝒢) sont conceptuellement différentes, mais reviennent essentiellement au même pour ce qui est de la précision des mesures. Mais je veux bien souligner le fait suivant : poser 𝒢=1 dans un système d'unités serait catastrophique pour des masses usuelles (à cause de l'imprécision avec laquelle on connaît 𝒢 à l'échelle du kilogramme), mais devient tout à fait sensé si on travaille à l'échelle astronomique, c'est-à-dire si on a scindé la notion de masse en masse et masse-gravitante.

{{{ Tout ceci a d'ailleurs un sens historique : à la fin du 18e siècle, Henry Cavendish a mené une expérience qu'on interprète généralement maintenant en disant qu'il a mesuré la constante 𝒢 de Newton (dans la grandeur longueur3·temps−2·masse−1). Mais le but de Cavendish n'était pas de mesurer la constante de la gravitation, c'était de mesurer la masse de la Terre. Si on utilise l'interprétation proposée plus haut consistant à scinder la grandeur « masse » en « masse » et « masse-gravitante », et qu'on mesure les masses gravitantes en masses(-gravitantes) terrestres, alors la constante de la gravitation vue en la grandeur longueur3·temps−2·masse_gravitante−1 était connue d'après l'accélération de la pesanteur (et le rayon de la Terre), et ce que Cavendish a mesuré est la constante de proportionnalité entre les masses et les masses-gravitantes, ce qui lui donne effectivement la masse de la Terre. Et fondamentalement, c'est toujours le même problème que depuis cette époque : on ne peut pas peser directement un astre en le mettant dans une balance, le mieux qu'on puisse faire est de prendre un objet mésoscopique aussi lourd que possible mais dont on peut connaître la masse, mesurer sa masse gravitante (i.e., l'attraction gravitationnelle qu'il exerce sur une balance de torsion), et en déduire le rapport entre les deux. }}}

Les choses sont analogues dans le domaine microscopique en remplaçant masse du Soleil (ou de la Terre, ou quelque chose comme ça) par douzième de la masse d'un atome de carbone-12 (ou masse de l'électron, ou quelque chose comme ça) et constante de Newton par constante de Planck (enfin, peut-être, inverse de la constante de Planck réduite, mais vous voyez l'idée) : je peux donc être tenté de scinder la grandeur « masse » en « masse » et « masse-quantique », et, pour cette dernière, utiliser une unité qui pourrait être, selon l'approche choisie, le douzième de la masse d'un atome de carbone-12 (unité de mass atomique) ou le ·s/m², le rapport entre ces quantités étant connu avec plus de précision qu'aucune d'elle ne l'est du kilogramme…

…du moins c'était le cas historiquement. Maintenant, l'écart a essentiellement disparu depuis que des efforts énormes ont été faits pour mesurer avec une très grande précision la constante de Planck (dans les unités SI, c'est-à-dire relativement au kilogramme), ou, ce qui revient essentiellement au même d'après ce que je viens de dire, la valeur de l'unité de masse atomique en kilogrammes (ou encore le nombre d'Avogadro, comme je vais le dire), ou encore, dans la perspective où on aurait scindé la grandeur « masse » en « masse » et « masse-quantique », la constante de proportionnalité entre les deux. Ceci va permettre de redéfinir le kilogramme sur la base des unités atomiques, en fixant la valeur de la constante de Planck (il serait revenu quasiment au même de fixer le nombre d'Avogadro). Du coup, mon exemple devient un peu confus. Il est par ailleurs rendu encore plus confus par l'existence d'encore une autre unité couramment utilisée pour les masses de l'ordre atomique, à savoir le MeV/c² (un eV étant l'énergie produit de la [valeur absolue de la] charge de l'électron par la tension de 1V) ; comme le prototype du kilogramme intervient dans la définition du MeV (à travers le volt), le MeV/c² n'est pas indépendant du kilogramme et ne peut donc pas être considéré comme une unité de la grandeur « masse-quantique » qu'on prendrait le soin de distinguer soigneusement de la masse[#3] ; je dis ça parce que j'avais commencé par le penser avant de me rendre compte de mon erreur.

[#3] En fait, il y a une confusion dans la confusion : c'est que le volt de l'électron-volt a sans doute souvent été, dans la pratique, un volt conventionnel 90 : si c'est le cas, en fait, cet « électron-volt-90 » est défini comme la moitié de la constante de Planck h multipliée par la fréquence de 483 597.9 GHz, et donc l'unité redevient indépendante du prototype du kilogramme et redevient une unité de « masse-quantique ». Il faudra que j'essaie d'expliquer correctement ces histoires d'unités conventionnelles 90 quand je parlerai de la réforme du SI.

En fait, la manière dont le SI a approché cette histoire de masses microscopiques est un peu différente : plutôt que de scinder la grandeur « masse » et créer comme je le suggère ci-dessus une nouvelle grandeur pour les masses très petites, le SI a… scindé la grandeur triviale (celle des nombres sans dimension). Et inventé une grandeur bizarre, « quantité de matière », qui résulte de ce scindage, et une « constante fondamentale », le nombre d'Avogadro (dimensionné !, malgré son nom : il a la grandeur de l'inverse d'une quantité de matière, i.e., pour unité l'inverse de la mole), qui convertit cette grandeur en nombre sans dimension.

La définition de la mole (pour encore quelques mois) est qu'il s'agit de la quantité de matière contenue dans 12g de carbone-12 : autrement dit, une mole de foobars signifie un nombre de foobars égal au nombre d'atomes de carbone-12 dans 12g de cette substance. Le nombre d'Avogadro est le rapport de proportionalité entre nombre d'atomes et quantité de matière, et concrètement, exprimé en 1/mol, c'est le nombre d'atomes dans 12g de carbone-12.

Mais du coup, la grandeur « masse par quantité de matière », dont l'unité SI est le kilogramme par mole, peut être considérée comme une mesure de masse microscopique (on mesure la masse de plein de petits foobars identiques pour exprimer la masse microscopique de chacun), avec pour unité 1000/12 fois la masse d'un atome de carbone-12. Plus exactement, le dalton (unité de masse atomique) est un gramme par mole divisé par le nombre d'Avogadro. Mesurer très précisément le nombre d'Avogadro revient exactement à mesurer très précisément la masse d'un atome de carbone-12 (ou l'unité de masse atomique, ou en fait n'importe quel atome, disons, le silicium-28) relativement au prototype international du kilogramme.

{{{ J'en profite pour faire une nouvelle petite digression et signaler une conséquence amusante : comme on connaît déjà très précisément le rapport entre l'unité de masse atomique et la constante de Planck (ou de façon équivalente, la constante de Planck exprimée en unités de masse atomiques fois c² fois la seconde), une façon de mesurer très précisément la constante de Planck consiste à fabriquer une sphère ultra-pure de silicium-28, compter son nombre d'atomes par des techniques d'interférométrie, et la peser par rapport au prototype international du kilogramme ! Je dis ça parce que c'est quelque chose que j'ai mis beaucoup de temps à comprendre dans les histoires de redéfinition du SI : il y a deux approches a priori possibles pour redéfinir le kilogramme, (A) fixer la constante de Planck (qu'il faut ensuite réaliser avec une balace de Watt-Kibble, ce qui nécessite aussi de fixer les unités électriques, c'est compliqué et je ne rentre pas dans le détail aujourd'hui), ou (B) fixer le nombre d'Avogadro en gardant la définition de la mole comme le nombre d'atomes dans 12g de carbone-12 (du coup, le kilogramme devient 1000 fois la masse du gramme tel que ce nombre soit celui qu'on a fixé comme nombre d'Avogadro ; et on réalise ça avec une sphère de silicium-28). En fait, ces deux approches sont essentiellement équivalentes au niveau précision, à cause du fait que la constante de Planck est bien connue relativement à l'unité de masse atomique. Il se trouve qu'on a choisi (A) pour la réforme du SI (et aussi de fixer le nombre d'Avogadro, en abandonnant le lien avec le carbone-12, mais ça ça n'a pas de rapport avec le kilogramme), mais quelle que soit la définition choisie, la réalisation du kilogramme peut se faire soit avec une balance de Watt-Kibble soit avec une sphère ultra-pure de silicium-28, et non seulement peut, mais on a attendu que les deux approches expérimentales concordent avant de procéder à la réforme. J'essaierai de raconter tout ça plus en détails dans une autre entrée. (Symétriquement, au niveau astronomique, notons que pour mesurer la constante de Newton en unités SI, une approche théoriquement possible consisterait à peser directement la Terre ou le Soleil par rapport au prototype du kilogramme ; mais ça, je vois mal comment ce serait possible.) }}}

*

Morale de l'histoire : une définition possible d'une grandeur est un ensemble de quantités entre lesquelles on arrive à mesurer expérimentalement des rapports avec une précision raisonnable. S'il y a des domaines tels que les rapports intradomaine se mesurent beaucoup plus précisément que les rapports interdomaine, ça peut avoir un sens de définir deux grandeurs différentes, comme on l'a fait avec la mole.

Évidemment, le problème est que ces choses peuvent changer avec le temps et les progrès de la métrologie, et qu'on peut se retrouver avec des unités un peu factices. La seconde et le mètre étaient définis indépendamment, parce que la mesure de la vitesse de la lumière n'était pas assez bonne. Mais avec les progrès de l'interférométrie, on a pu redéfinir le mètre à partir de la seconde : la vitesse de la lumière est donc maintenant une valeur exacte (299792458m/s), puisque c'est la définition du mètre d'être la distance que la lumière parcourt dans le vide en (1/299792458) s : on a donc métrologiquement réunifié les distances et les durées, et on se retrouve avec de facto deux unités pour la même chose (enfin, dans la vie courante, c'est quand même sans doute bien pratique d'avoir les deux ; mais les Américains prétendent parfois que leurs pieds et leurs pouces sont bien pratiques, donc bon…). Le kelvin était défini à partir du point triple de l'eau et va être redéfini de manière à fixer la constante de Boltzmann. La mole est encore, au moment où j'écris, définie comme la valeur telle que la masse molaire du carbone-12 soit de 12g/mol ; mais elle va être redéfinie comme un nombre exact d'entités (6.022 140 76×1023, soit 602 214 076 000 000 000 000 000 pour insister sur le fait que c'est un entier exact), donnant un nouveau facteur de conversion un peu bidon.

Il me resterait à discuter de la redéfinition de l'ampère et du kilogramme et des enjeux associés, ce qui est quelque chose que je veux faire depuis longtemps, mais je fatigue, et parler véritablement de métrologie m'écarterait un peu des considérations générales sur ce que sont les unités, donc je vais m'arrêter ici. (J'avais aussi des idées sur la manière de formaliser mathématiquement l'incertitude expérimentale dans un jeu de mesures physiques de différentes quantités et les rapports entre elles, mais ça aussi, je vais passer.)

↑Entry #2546 [older| permalink|newer] / ↑Entrée #2546 [précédente| permalien|suivante] ↑

↓Entry #2537 [older| permalink|newer] / ↓Entrée #2537 [précédente| permalien|suivante] ↓

(dimanche)

Un problème d'algorithmique (en lien secret avec la formule de Weyl)

Méta : Régulièrement je tombe sur des problèmes mathématiques qui me paraissent tellement simples, tellement naturels et/ou tellement évidents (je veux dire évidents à poser, pas forcément évidents à résoudre !) que c'est inconcevable qu'il n'existe pas déjà une littérature abondante à leur sujet. Mais faute de connaître les bons mots-clés ou la bonne façon de formuler le problème (car souvent un même problème admet mille et une reformulations ou réinterprétations), je peux galérer pour mettre le doigt sur cette littérature. C'est extrêmement frustrant. Pour digresser sur ce problème en général, cf. par exemple cette vidéo où le YouTubeur Tom Scott passe la moitié du temps à raconter combien il a eu du mal à trouver le terme Inogon light pour en savoir plus sur un type de signal nautique utilisant intelligemment des effets de moiré pour montrer aux bateaux où aller en fonction de leur position. L'Internet a quelque chose de la Kabbale : quand on connaît le Vrai Nom de quelque chose, on acquiert du pouvoir sur cette chose — en l'occurrence, le pouvoir d'en savoir plus. Le problème que je veux évoquer ici fait partie de ces problèmes qui me semblent tellement « s'imposer » que je suis sûr qu'il a un nom et qu'il y a des chapitres entiers de bouquins d'algorithmiques qui lui sont consacrés ; mais comme je ne le formule pas forcément sous le bon angle, je ne trouve pas.

Il s'agit, donc, de quelque chose que je comprends raisonnablement bien du côté mathématique, mais dont l'algorithmique me laisse passablement perplexe. Ce qui veut dire que j'ai beaucoup de choses à raconter, dont beaucoup ne sont sans doute pas pertinentes pour le problème algorithmique, mais je ne sais pas au juste ce qui l'est et ce qui ne l'est pas.

Voici la première variante du problème algorithmique, qui est la plus simple et élémentaire à énoncer : je vais l'appeler la variante (AS), parce que je vais vouloir en formuler un certain nombre, ce sera plus commode si je leur donne des noms. (Le S signifie symétrique ; le A est là comme dans la classification de Killing-Cartan, mais pour l'instant peu importe.)

(AS) On se donne x et y deux vecteurs (de longueur, disons, n≥1), à coordonnées entières. Je suppose que la somme des coordonnées de x est nulle, et pareil pour y (je ne sais pas si ça sert vraiment à quelque chose).

Problème : trouver tous les produits scalaires possibles σ(xy entre y et un vecteur σ(x) obtenu en permutant les coordonnées de x, avec, pour chacun, son nombre d'occurrences, c'est-à-dire le nombre de permutations σ des coordonnées de x qui conduisent à ce produit scalaire.

Exemple : si x=(−2,−1,0,1,2) et y=(−2,0,0,1,1), la réponse attendue est {−7: 4 fois, −6: 4 fois, −5: 12 fois, −4: 8 fois, −3: 12 fois, −2: 4 fois, −1: 8 fois, 0: 16 fois, 1: 8 fois, 2: 4 fois, 3: 12 fois, 4: 8 fois, 5: 12 fois, 6: 4 fois, 7: 4 fois} (chaque produit scalaire possible σ(xy étant suivi de son nombre d'occurrences : notamment, il y a 16 permutations des coordonnées de x qui donnent un produit scalaire nul avec y). • Autre exemple : si x=y=(−2,−1,0,1,2), la réponse attendue est {−10: 1 fois, −9: 4 fois, −8: 3 fois, −7: 6 fois, −6: 7 fois, −5: 6 fois, −4: 4 fois, −3: 10 fois, −2: 6 fois, −1: 10 fois, 0: 6 fois, 1: 10 fois, 2: 6 fois, 3: 10 fois, 4: 4 fois, 5: 6 fois, 6: 7 fois, 7: 6 fois, 8: 3 fois, 9: 4 fois, 10: 1 fois}.

Il y a évidemment plein de façons de reformuler ça et plein de remarques évidentes à faire. Par exemple, je peux dire qu'il s'agit de considérer toutes les façons d'apparier (bijectivement) les coordonnées de x avec celles de y et de sommer les produits des coordonnées appariées entre elles : sous cette forme, il est évident que le résultat est symétrique entre x et y ; par ailleurs, il est clair que ça ne change rien de permuter les coordonnées de x ou celles de y, donc on peut les supposer triées au départ. Si on veut, je me donne deux paquets (deux « multiensembles ») x et y de nombres, de même taille, mais sans ordre, et je cherche toutes les façons de faire un produit scalaire.

On peut considérer le résultat comme un multiensemble (le multiensemble de tous les produits scalaires σ(xy comptés avec la multiplicité de l'occurrence de chacun). On peut aussi coder le résultat comme un polynôme (de Laurent, c'est-à-dire admettant des puissances négatives de l'indéterminée), en l'indéterminée t disons, c'est-à-dire mettre comme coefficient devant tk le nombre de fois que k apparaît comme produit scalaire σ(xy : autrement dit, il s'agit de calculer la somme S(x,y) des tσ(xyσ parcourt toutes les permutations de n objets. (Et pour reprendre un de mes exemples, si x=y=(−2,−1,0,1,2), on a S(x,y) = t10 + 4·t9 + 3·t8 + 6·t7 + 7·t6 + 6·t5 + 4·t4 + 10·t3 + 6·t2 + 10·t + 6 + 10·t−1 + 6·t−2 + 10·t−3 + 4·t−4 + 6·t−5 + 7·t−6 + 6·t−7 + 3·t−8 + 4·t−9 + t−10.) Il est évident que la taille totale du multiensemble, c'est-à-dire la valeur en t=1 du polynôme S(x,y), vaut n! (soit 120 dans mes exemples) ; si x ou y est nul, alors le la seule valeur d'un produit scalaire est 0 (donc S(x,y) vaut le polynôme constant n!).

Une autre remarque évidente est que si on multiplie ou divise toutes les coordonnées de x ou toutes celles de y par une même constante, le résultat pour les vecteurs ainsi modifiés se déduit trivialement de celui pour les vecteurs de départ (formulé sur S(x,y), cela signifie que S(rx,sy) s'obtient en remplaçant t par trs dans S(x,y)). On peut donc admettre que x et y aient des coordonnées rationnelles (le polynôme S(x,y) est alors possiblement un polynôme de « Laurent-Puiseux »(?), c'est-à-dire une combinaison linéaire formelle de tii parcourt un ensemble fini de rationnels). On pourrait même admettre que x et y aient des coordonnées réelles quelconques, mais je ne vais pas vouloir faire ça.

Il faut que je fasse une remarque plus importante sur ce que je cherche algorithmiquement. L'algorithme naïf consiste juste à énumérer toutes les n! permutations distinctes. Il est clair que sur des vecteurs x et y quelconques, par exemple si on prend des réels vraiment arbitraires (imaginez 2n réels algébriquement indépendants) ou des entiers suffisamment grands, aucun des produits scalaires σ(xy n'aura de multiplicité. C'est-à-dire qu'il y en aura n! distincts. Dans ces conditions, mon problème n'admet visiblement aucune solution intelligente : il faut de toute façon calculer n! valeurs, donc il n'y a rien de mieux à faire qu'énumérer les n! permutations σ. Si j'attends une réponse intéressante, c'est que je m'intéresse à des données contraintes pour que ça ne se produise pas : je vais dire que x et y sont à valeur (entières et) de valeur absolue pas beaucoup plus grande que n. Disons, pour fixer les idées, qu'il y a une constante C telle que chaque coordonnée de x et de y est majorée par Cn en valeur absolue (et je cherche un algorithme ayant une complexité significativement meilleure, lorsque C est fixée, que l'algorithme naïf en nn·log(n) ou quelque chose de ce goût-là). De fait, si chaque coordonnée de x ou de y est majorée par Cn en valeur absolue, chaque produit scalaire sera majoré par au plus Cn³, donc il y en a au plus 2Cn³+1 distincts (car ce sont des entiers), et certainement pas n! : dès lors, il est raisonnable a priori de chercher s'il peut y avoir mieux que l'algorithme naïf, peut-être même quelque chose de polynomial en n (encore une fois : pour C fixé). En revanche, je suis tout à fait susceptible de m'intéresser à des cas où toutes les coordonnées de x, et toutes celles de y, sont distinctes (je précise ça, parce qu'il est évident que s'il y a des répétitions, on peut diviser d'autant le nombre de permutations considéré).

Fondamentalement, je ne sais pas résoudre ce problème algorithmique de façon plus intelligente qu'en énumérant les n! permutations. Pourtant, je sais dire beaucoup de choses dessus (et je vais le faire !), mais peut-être que toutes ces choses sont complètement hors-sujet algorithmiquement. Peut-être que je suis bien naïf d'imaginer qu'on puisse faire fondamentalement mieux que n! pour traiter ce problème. Je n'en sais rien.

Je m'intéresse aussi au problème suivant :

(AA) Pareil que la variante d'origine (AS), mais en alternant les signes selon la signature de la permutation, autrement dit :

On se donne x et y deux vecteurs (de longueur, disons, n), à coordonnées entières. Je suppose que la somme des coordonnées de x est nulle, et de même pour y.

Problème : trouver tous les produits scalaires possibles σ(xy entre y et un vecteur σ(x) obtenu en permutant les coordonnées de x, avec, pour chacun, le nombre de permutations paires moins le nombre de permutations impaires qui donnent ce produit scalaire. C'est-à-dire que chaque permutation compte pour ε(σ), où ε(σ) vaut +1 pour une permutation paire et −1 pour une permutation impaire (et on fait le total de ces ε(σ) pour chaque produit scalaire possible).

Exemple : si x=y=(−2,−1,0,1,2), la réponse attendue est {−10: 1 au total, −9: −4 au total, −8: 3 au total, −7: 6 au total, −6: −7 au total, −5: −2 au total, −4: −4 au total, −3: 10 au total, −2: 6 au total, −1: −10 au total, 0: 2 au total, 1: −10 au total, 2: 6 au total, 3: 10 au total, 4: −4 au total, 5: −2 au total, 6: −7 au total, 7: 6 au total, 8: 3 au total, 9: −4 au total, 10: 1 au total}. Remarquons que mon autre exemple (où y=(−2,0,0,1,1)) donne, dans cette variante du problème, des totaux (multiplicités) tous nuls (cf. ci-dessous).

Il est possible que cette variante (AA), bien que de description plus compliquée, soit finalement algorithmiquement plus simple que la variante (AS) de départ pour la même raison que les déterminants sont plus faciles à calculer que les permanents. Je n'en sais rien. (Par ailleurs, elle va me servir à définir la variante ().) Il est en tout cas clair que les ensembles à parcourir sont les mêmes, seules changent les multiplicités.

Pour cette variante (AA) aussi, on peut coder le résultat sous forme d'un polynôme, appelons-le disons Δ(x,y), c'est-à-dire qu'il s'agit de la somme des ε(σtσ(xyσ parcourt toutes les permutations de n objets. Cette fois, le polynôme prend la valeur 0 en t=1 (pour n≥2, il y a autant de permutations impaires que de permutations paires). Il est, par ailleurs, identiquement nul dès que x ou y a des valeurs répétées.

Ajout important () : J'avais écrit les paragraphes ci-dessus (les déterminants sont plus faciles à calculer que les permanents) sans trop faire attention, mais en fait, c'est exactement ça : Δ(x,y) est le déterminant de la matrice dont les entrées sont les txiyj tandis que S(x,y) est son permanent. (Je ne sais pas pourquoi je ne m'en rends compte que maintenant : je n'avais vraiment pas les yeux en face des trous, d'autant que j'avais explicitement fait la remarque ci-dessus, ainsi que celle, ci-dessous, sur le déterminant de Vandermonde ! J'aurais dû prendre le temps de plus réfléchir avant de ranter dans mon blog — ceci dit, c'est justement le fait de ranter qui m'a aidé à trouver cette solution.) Du coup, ça fournit la réponse à mon problème (AA) et ça suggère que le problème (AS) de départ n'en a probablement pas (puisque les permanents sont notoirement difficiles à calculer) ; il reste encore à voir comment on peut se sortir de () (voir plus bas) dans le cas où la définition donne « 0/0 », et aussi à trouver comment transformer en déterminants les problèmes (BA) et compagnie qui sont exposés plus bas.

Toute la suite de cette entrée est constituée de remarques et commentaires supplémentaires par rapport à ces problèmes, et encore des variantes ; mais essentiellement, il s'agit de diverses digression, peut-être sans pertinence algorithmique par rapport au problème de base.

Pour commencer ces digressions, il faut que je dise quelque chose à propos du vecteur de Weyl : le vecteur de Weyl, dans ce contexte (A), c'est juste le vecteur ρ dont les coordonnées consécutives diffèrent toujours de 1, c'est-à-dire (−½(n−1), −½(n−3), …, ½(n−3), ½(n−1)) ; pour n=5, c'est donc le vecteur (−2, −1, 0, 1, 2) que j'ai utilisé pour mes exemples (ce qui était peut-être une mauvaise idée parce qu'il a des propriétés magiques, mais maintenant je n'ai plus envie de refaire des calculs). Le vecteur de Weyl est à coordonnées entières-et-demi lorsque n est pair (pour n=4 par exemple c'est (−3/2, −1/2, 1/2, 3/2)), mais ce n'est pas grave, j'ai expliqué qu'on pouvait très bien définir S(x,y) et Δ(x,y) dans ce cas. L'intérêt du vecteur ρ est que si l'un de x ou de y vaut ce vecteur très spécial, il y a une formule magique qui permet de calculer Δ(x,y), à savoir que Δ(ρ,y) se factorise (en tant que polynôme en t) comme produit des tyjtyi où (i,j) parcourt les paires d'indices telles que i<j (c'est la formule du dénominateur de Weyl, qui, dans ce cas, est juste la formule de Vandermonde). Maintenant, ce n'est pas si intéressant, eu égard à mon problème (AS) ou même (AA), de savoir calculer Δ(x,y) lorsque x ou y est ce vecteur très particulier, et la formule ne se généralise pas (pour un x et un y arbitraires, Δ(x,y) n'admet pas de factorisation intéressante).

Mais ça peut me servir à introduire une troisième expression et le problème algorithmique de la calculer. J'introduis donc cette expression Χ(x,y), qui est liée à la fois à S(x,y) et à Δ(x,y). Précisément, je vais définir la quantité Χ(x,y) := Δ(ρ+x,y)/Δ(ρ,y) (cette fois, ce n'est plus symétrique en x et y ; et au fait ce n'est pas un X, c'est un Chi, comme l'initiale du mot caractère 😉), où je suppose que x est trié par ordre croissant (je ne définis Χ(x,y) que dans ce cas).

En fait, il y a un problème dans ma définition de Χ(x,y) lorsque y a des coordonnées répétées, parce que ma définition donne 0/0, mais il y a plein de façons naturelles, toutes équivalentes, de quand même donner un sens à Χ(x,y) dans ce cas. Par exemple, on peut ignorer la valeur de y et considérer temporairement les tyi comme n indéterminées, écrire Δ(z,y) comme un polynôme (de Laurent) en ces indéterminées (c'est la somme des ε(σtσ(zytσ(zy s'interprète comme un monôme en les tyi dont les exposants sont les coordonnées de σ(z)), ensuite faire le quotient Δ(ρ+x,y)/Δ(ρ,y) dans l'anneau des polynômes (de Laurent) en n indéterminées tyi, constater que miraculeusement ce quotient est encore un polynôme (de Laurent ; le dénominateur divise exactement le numérateur), et resubstituer les valeurs de yi pour définir Χ(x,y) comme polynôme (de Laurent) en t. Comme je viens de le signaler, ce n'est pas juste une fraction rationnelle, c'est un polynôme (de Laurent).

Par exemple, pour x=y=(−2,−1,0,1,2)=ρ, le dénominateur est Δ(ρ,y) = t10 − 4·t9 + 3·t8 + 6·t7 − 7·t6 − 2·t5 − 4·t4 + 10·t3 + 6·t2 − 10·t + 2 − 10·t−1 + 6·t−2 + 10·t−3 − 4·t−4 − 2·t−5 − 7·t−6 + 6·t−7 + 3·t−8 − 4·t−9 + t−10, le numérateur est Δ(ρ+x,y) = Δ(2ρ,y) = (le même polynôme en remplaçant t par t² partout), et le quotient Χ(x,y) = Δ(ρ+x,y)/Δ(ρ,y) (ici il n'y a pas de problème de 0/0) vaut t10 + 4·t9 + 9·t8 + 18·t7 + 31·t6 + 46·t5 + 64·t4 + 82·t3 + 96·t2 + 106·t + 110 + 106·t−1 + 96·t−2 + 82·t−3 + 64·t−4 + 46·t−5 + 31·t−6 + 18·t−7 + 9·t−8 + 4·t−9 + t−10.

Bref, j'ai le problème algorithmique :

() Donné x et y deux vecteurs à coordonnées entières avec x à coordonnées croissantes, calculer la quantité Χ(x,y) définie ci-dessus.

Pourquoi définir justement ce Χ(x,y)-là ? À vrai dire, c'est surtout lui qui m'intéresse, ou en tout cas, c'est lui qui m'a amené à m'intéresser aux problèmes énoncés ci-dessus. Ce que j'ai écrit comme définition de Χ(x,y), en fait, c'est la formule de caractère de Weyl, un petit peu déguisée (pour les experts, c'est la valeur, sur le groupe à un paramètre engendré par y, du caractère de plus haut poids x de An−1, c'est-à-dire SU(n−1) ; pour les non-experts, les explications sont un peu longues, mais probablement pas vraiment pertinentes pour le problème algorithmique).

Ajout () : Je peux ajouter que Χ(x,y) s'obtient en substituant les monômes tyj dans le polynôme de Schur défini par les xi (auxquels on ajoute une constante pour les rendre tous positifs). Il y a des zillions de formules connues sur les polynômes de Schur, mais ce n'est pas évident de savoir ce qui est pertinent pour faire la substitution.

Il se trouve que ce Χ(x,y) a des propriétés amusantes, par exemple ses coefficients (qui sont symétriques par rapport à 0) sont croissants puis décroissants, et il me semble que c'est un fait essentiellement combinatoire qu'on ne sait prouver que par la théorie de la représentation des groupes de Lie. Calculer la valeur en t=1 de Χ(x,y) n'est pas difficile (c'est la formule de la dimension de Weyl : c'est un polynôme en x, dans ce cas y n'intervient pas). Il est, par ailleurs, possible de relier Χ(x,y) au S(x,y) de départ, ce n'est pas juste qu'il a manifestement le même degré :

En fait, on peut exprimer Χ(x,y), indépendamment de y, comme une combinaison des S(x′,y) à coefficients rationnels positifs (indépendants de y, donc), où x′ parcourt tous les vecteurs à coordonnées entières, croissantes, et dont les sommes partielles sont en tout point inférieures à celles de x (y compris x lui-même) ; et réciproquement, on peut exprimer S(x,y) (en supposant x à coordonnées croissantes) comme combinaison linéaire des Χ(x′,y) à coefficients entiers (indépendants de y), où x′ parcourt les mêmes valeurs qu'on vient de dire. (Si on préfère, les S(x,y) et Χ(x,y) s'expriment les uns en fonction des autres par des combinaisons linéaires triangulaires, « triangulaires » étant comprises par rapport à l'ordre qui rend un vecteur entier croissant inférieur à un autre si les sommes partielles du premier sont en tout point inférieures à celles du second.) On sait d'ailleurs calculer explicitement les coefficients de cette combinaison, mais la pertinence algorithmique de la chose m'échappe un peu. Enfin, à titre d'exemple, pour x=(−2,−1,0,1,2), le polynôme Χ((−2,−1,0,1,2), y) est la combinaison des S(x′,y) suivants et avec les coefficients suivants : (1/5)·S((0,0,0,0,0), y) + (7/3)·S((−1,0,0,0,1), y) + 2·S((−1,−1,0,1,1), y) + S((−1,−1,0,0,2), y) + (1/3)·S((−1,−1,−1,1,2), y) + S((−2,0,0,1,1), y) + (1/3)·S((−2,0,0,0,2), y) + (1/3)·S((−2,−1,1,1,1), y) + S((−2,−1,0,1,2), y). Ou inversement, S((−2,−1,0,1,2), y) vaut −2·Χ((0,0,0,0,0), y) + 2·Χ((−1,0,0,0,1), y) + 2·Χ((−1,−1,0,1,1), y) − 2·Χ((−1,−1,−1,1,2), y) − 2·Χ((−2,0,0,0,2), y) − 2·Χ((−2,−1,1,1,1), y) + Χ((−2,−1,0,1,2), y).

Mais bon, je répète que je n'ai pas les idées bien claires sur la difficulté à calculer les coefficients exprimant les Χ(x,y) comme combinaison linéaire des S(x′,y) ou vice versa. J'étais parti sur l'idée de calculer les Χ(x,y) en les ramenant aux S(x′,y) et donc au problème (AS), mais en fait c'est peut-être exactement le contraire qu'il faut faire.

(Fin de la digression sur les Χ(x,y).)

Une autre chose que je peux dire (et qui est une nouvelle digression), c'est qu'on peut aussi espérer calculer les S(x,y), que je vais noter juste S(x) parce que je fixe provisoirement y, par une sorte de récurrence sur x. L'observation (facile) est la suivante sur le produit de S(x) et S(z) (comme polynômes en t) :

S(xS(z) est la somme des S(x+σ(z)) où σ parcourt toutes les permutations (de n objets).

Évidemment, ce n'est pas très utile si je cherche à éviter une somme sur les n! permutations dans le calcul de S(x) en la remplaçant par une autre somme sur les n! permutations. Mais ce que je peux faire, c'est appliquer cette observation à des vecteurs z particuliers qui n'ont que peu de permutations. Par exemple le vecteur ei qui a les i dernières coordonnées égales à 1 et les ni premières égales à 0 ; enfin, ce vecteur-là il n'est pas de somme nulle, mais si je soustrais i/n à toutes ses coordonnées (donc i coordonnées égales à (ni)/n et ni égales à −i/n), ça ne change rien ; l'emplacement des coordonnées, bien sûr, n'a guère d'importance puisque de toute façon on va sommer sur toutes les permutations. Calculer S(ei) est facile : c'est i!·(ni)! fois la somme des tkk parcourt toutes les sommes d'un sous-ensemble de i parmi n coordonnées de y. Même calculer tous les S(ei) (ce qui demande essentiellement de parcourir les 2n sous-ensembles de coordonnées de y) est moins coûteux que parcourir les n! permutations. L'idée, ensuite, serait de calculer les S(x) par récurrence sur… quelque chose, je ne sais pas bien quoi : comme on connaît les S(ei), on connaît les S(eiS(ej), mais on peut exprimer ceux-ci comme des combinaisons des S(ei) et des S(ei+ej), par exemple S(e₁)·S(e₂) = (n−1)! · (2S(e₁+e₂) + (n−2)·S(e₃)) (se rappeler que S(e₁) énumère toutes les coordonnées yi de y, S(e₂) énumère toutes les sommes de deux coordonnées distinctes de y et S(e₃) les sommes de trois coordonnées distinctes, et enfin S(e₁+e₂) énumère toutes les expressions 2yi+yj avec ij), ce qui peut servir à calculer S(e₁+e₂) connaissant S(e₁), S(e₂) et S(e₃).

Mais au final je m'y perds dans ce qui se récurre, et je n'arrive pas à savoir si cette approche a un intérêt algorithmique ou non. Évidemment elle ne peut pas en avoir en général, mais je rappelle que j'ai fait l'hypothèse que chaque coordonnée de x (et de y) est majorée par Cn en valeur absolue. Tout ça est peut-être idiot.

(Fin de la digression sur cette possible approche de calcul.)

Je peux aussi définir d'autres variantes du problème. Notamment :

(BS)=(CS) On se donne x et y deux vecteurs (de longueur, disons, n), à coordonnées entières. Je ne suppose plus que la somme des coordonnées de x ni de y est nulle.

Problème : trouver tous les produits scalaires possibles σ(xy entre y et un vecteur σ(x) obtenu en permutant les coordonnées de x et en changeant arbitrairement leurs signes (avec, pour chacun, son nombre d'occurrences, c'est-à-dire le nombre de permutations signées σ des coordonnées de x qui conduisent à ce produit scalaire).

(BA)=(CA) Idem mais on veut la somme des ε(σ) défini comme valant la signature (dans ±1) de la permutation multipliée par les différents changements de signes effectués (i.e., ε(σ) est le déterminant de la matrice représentant la permutation signée).

(DS) Comme (BS)/(CS), mais on ne peut effectuer qu'un nombre pair de changements de signes. • (DA) Idem, et on veut la somme des ε(σ), qui sont les signatures des permutations (le produit des changements de signes est de toute façon +1).

Les problèmes (BS) et (CS) sont identiques (et de même (BA) et (CA)), il y a juste une différence dans le vecteur de Weyl (qui de toute façon ne fait pas partie du problème) : pour (CA), ρ vaut (1, 2, 3, …, n), tandis que pour (BA), il vaut (1/2, 3/2, 5/2, …, (2n−1)/2). Quant à (DA), son vecteur de Weyl vaut (0, 1, 2, …, n−1). Dans tous les cas, on a une factorisation de Δ(ρ,y), analogue au cas précédent, mais que je n'écris pas. Et on reprend la définition de Χ(x,y) := Δ(ρ+x,y)/Δ(ρ,y), qui est de nouveau un polynôme (de Laurent), et mes problèmes (), () et () consistent à le calculer. (La contrainte de croissance sur x doit aussi être un peu modifiée : pour () ou (), elle est que x soit à coordonnées croissantes et positives ; pour (), elle est que x soit à coordonnées positives sauf éventuellement la première, et croissantes si on remplace la première par sa valeur absolue.)

Et bien sûr, il y a les cas exceptionnels : dès lors qu'on a un groupe de Weyl opérant sur un réseau de racines, on a les trois problèmes que j'ai évoqués. Par exemple, le problème (E₈S) consiste, donnés deux vecteurs entiers x et y (ou rationnels, enfin, peu importe comme on l'a vu), de longueur 8, à trouver tous les produits scalaires possibles σ(xy, chacun avec ses multiplicités, où σ parcourt les 696 729 600 transformations que j'avais expliquées ici, tandis que le problème (F₄S) concerne des vecteurs de longueur 4, et le groupe de Weyl est décrit ici (mais comme il a juste 1152 éléments, le problème algorithmique n'est pas trop difficile). Pour définir les problèmes (E₈Χ) et (F₄Χ), j'ajoute que les vecteurs de Weyl de E₈ et F₄ sont respectivement (0, 1, 2, 3, 4, 5, 6, 23) et (1/2, 3/2, 5/2, 11/2).

↑Entry #2537 [older| permalink|newer] / ↑Entrée #2537 [précédente| permalien|suivante] ↑

↓Entry #2532 [older| permalink|newer] / ↓Entrée #2532 [précédente| permalien|suivante] ↓

(mercredi)

Petite animation (merdique) d'ondes sur un tore plat

En lien avec l'entrée précédente (que personne n'a lue mais c'est normal), j'ai produit ce petit gadget JavaScript qui (s'il n'est pas complètement cassé) représente une animation de l'équation des ondes sur un tore plat, en l'occurrence le tore plat E/L quotient du plan euclidien E=ℝ² par un réseau L triangulaire équilatéral (i.e., la fonction est périodique par L), à partir d'une condition initiale gaussienne assez piquée (censée donnée une idée d'approximation d'une distribution δ). Si on préfère, cela revient à faire l'équation des ondes dans le plan à partir d'une condition initiale qui est la somme d'une gaussienne centrée sur chaque point de L. Concrètement, il s'agit juste de calculer (la fonction du temps t et du point xE/L) :

αL* cα exp 2 i π αx cos 2 π α t cα = exp α2 / U2

— soit, en plus moche pour les navigateurs cassés qui ne gèrent pas le MathML —

αL* cα·exp(2iπ(α·x))·cos(2π|αt) cα = exp(−|α|²/U²)

U est un paramètre d'étroitesse de la condition initiale, et, histoire de faire le lien avec les notations de l'entrée précédente, Λ(α)=|α|² et m(α)=1 pour le paramétrage par tous les éléments αL*. Ce que fait mon programme est uniquement de calculer cette somme (pour les α pas trop loin de l'origine dans L* ; pour alléger les calculs, il précalcule les fonctions de α et x et se contente ensuite de les sommer).

Commentaire mathématique : Si la dimension d'espace était impaire, l'évolution de l'équation des ondes à partir d'un δ initial se ferait uniquement sur des fronts sphériques centrés sur les points du réseau (imaginez que vous superposez une sphère centrée en chaque point de L, dont le rayon croit linéairement avec le temps, et dont l'amplitude décroît proportionnellement à la surface de façon que la quantité totale reste constante), et l'évolution à partir d'une gaussienne donne la même chose avec des sphères un peu épaissies ; en dimension paire, ce qui est le cas ici, ce « principe de Huygens » ne vaut pas, la fonction de Green de l'équation des ondes n'est pas concentrée sur une sphère[#], il y a une « queue » (négative par rapport au front d'onde, et qui apparaît en bleu sur mon animation). • Par ailleurs, même si le réseau L* ici est le réseau des poids de SU₃ et même si on a symétrie par le groupe de Weyl, il ne s'agit pas de l'équation des ondes sur SU₃ (pour ça il faudrait corriger Λ(α) et m(α)), c'est en gros ce qu'essaie d'expliquer l'interminable entrée qui précède.

[#] Ceci dit, ça doit être aussi assez joli comme dessin, une superposition de cercles de rayon croissant linéairement avec le temps et centrés sur chacun des points d'un réseau L triangulaire équilatéral.

Bon, tout ça fait des images pas trop moches, je dois l'avouer, et l'aspect « kaléidoscopique » apparaît assez clairement. Je pourrais mettre une animation de ce genre sur YouTube.

Ajout () : Voici les vidéos YouTube : pour un réseau triangulaire équilatéral et pour un réseau carré (j'ai eu la folie, dans les deux cas, de calculer ça en 1920×1080, 25fps, pour une vidéo de 3′=180s ; ça m'a pris deux fois 40 minutes de calcul, mais il faut reconnaître que le résultat n'est pas mal).

Ajout 2 : Je recopie le lien fourni dans le commentaire de Benoit qui a écrit une version bien plus efficace de mon animation en utilisant WebGL.

Mais le calcul en direct est péniblement lent. Je pensais que sur un ordinateur moderne je n'aurais même pas besoin d'optimiser et je pouvais calculer la somme de quelques centaines de cosinus par pixel d'une image de taille raisonnable à une vitesse d'animation qui dépasse la perception de l'œil humain, mais apparemment calculer des centaines de millions de cosinus par seconde ça ne se fait pas sur un simple ordinateur de bureau, en tout cas pas en JavaScript.

Comme je déteste optimiser par-dessus tout, et que JavaScript commence à me sortir par les oreilles, je ne touche plus à ce code. Si quelqu'un veut l'améliorer (rendre le truc interactif en ajoutant un bouton pause ou quelque chose comme ça, permettre de bouger, zoomer, ou ce que vous voudrez, ou encore changer le réseau — il y a juste quelques lignes à commenter/décommenter pour faire un réseau carré), envoyez-moi des patchs, mon code est lisible et commenté, mais je ne veux pas de suggestions non codées. Parce que, là, pour le moment, les incantations propitiatoires du JavaScript servant à conjurer des petites crottes de ragondin, elles me gonflent prodigieusement.

Si vous voulez savoir ce que ça donne comme son, voici la conversion directe en onde sonore de la valeur mesurée au point central (l'origine de E/L, celle où est centrée la gaussienne initiale, i.e., mettre x=0 dans les formules ci-dessus), avec exactement les paramètres de l'animation, juste accélérée d'un facteur 8800 par rapport à l'animation affichée par le JavaScript. Mais ça donne juste un bruit strident atroce (moralité, une jolie image ne correspond pas forcément à un joli son, et si je veux transformer des spectres en sons un peu harmonieux, une dissipation dans le temps, dépendant de la fréquence, est indispensable).

↑Entry #2532 [older| permalink|newer] / ↑Entrée #2532 [précédente| permalien|suivante] ↑

↓Entry #2531 [older| permalink|newer] / ↓Entrée #2531 [précédente| permalien|suivante] ↓

(lundi)

Où je commence par penser tout haut toujours à propos de spectres, et finis par ranter de façon interminable sur les caractères des groupes de Lie

Avant-propos : Cette entrée est une sorte de brain-dump, qui finit assez différemment de ce qu'elle commence. J'étais parti sur l'idée, sans avoir forcément pour but d'être compréhensible (en tout cas pas complètement, en tout cas pas par tout le monde), de jeter des réflexions surtout pour moi-même (comme une sorte de sauvegarde de mon état mental) sur des questions autour du spectre du laplacien. Sachant que je n'avais pas les idées complètement claires sur certaines des choses qui suivent, donc je ne peux pas expliquer tout ça parfaitement, encore moins le vulgariser au niveau où j'aimerais idéalement le faire : le but était plutôt de retrouver mes idées éventuellement plus tard, quitte à produire quelque chose d'un peu abscons et pas forcément bien correct mathématiquement ; et je me disais que ça ne ferait pas de mal de les mettre en ligne. Mais en pondant tout ça, je me suis laissé emporter par mon sujet, et la section sur les groupes de Lie compacts a pris une place démesurée, et s'est écartée du point de vue initial (finalement, pour ce que je raconte sur les groupes de Lie, on n'a pas vraiment besoin de savoir ce qu'est un laplacien ni de prononcer son nom, et d'ailleurs comme je prends l'exemple du groupe des rotations, on n'a pas vraiment non plus besoin de savoir ce qu'est un groupe de Lie compact) ; et j'en ai écrit des pages sur l'analyse de Fourier sur un groupe de Lie compact. Chose que je comprends quand même nettement mieux que le problème du spectre du laplacien en général, mais ça ne veut pas forcément dire que je l'explique mieux. Et finalement, je ne sais plus bien de quoi parle cette entrée, il y a plusieurs sujets assez indépendants, et le niveau auquel je place mes explications varie d'un endroit à l'autre. Bref, je ne sais pas ce que tout ça vaut, mais maintenant que c'est écrit, ce serait quand même idiot de ne pas le mettre en ligne. C'est dommage que, comme j'ai fait une énorme moussaka, tout le monde va être rebuté, mais tant pis, je n'ai plus le courage d'essayer de démêler les ingrédients de la moussaka.

Je commence en reprenant la ligne de pensées commencée dans l'entrée précédente (et inspirée par un roman de Connes, Chéreau et Dixmier, donc) : je cherche à produire des sons mathématiques intéressants (et pas déplaisants) à écouter, et une des façons d'y arriver semble être de considérer un spectre, notamment le spectre du laplacien (et donc en pratique, de l'équation des ondes) sur une variété riemannienne (compacte, parce que je ne suis pas analyste ni géomètre, moi, je ne sais pas gérer le cas non-compact[#]) ; plusieurs questions soulevées incidemment : quels objets choisir pour lesquels on sait calculer explicitement le spectre du laplacien (et qu'est-ce que ça signifie au juste) ?, quelles données sont associées au spectre en question ?, comment précisément convertir ce spectre en un son ?, d'ailleurs, comment mener le calcul sur ordinateur ? ; et aussi : comment vulgariser la notion de spectre du laplacien (notamment sur un groupe de Lie, espace riemannien symétrique, etc.) ? (Je ne compte pas tant essayer de faire cette vulgarisation ici et maintenant, mais peut-être donner les pistes par lesquelles je l'aborderais pour pouvoir les retrouver si je devais le faire plus tard.) Je vais évoquer le cas des tores plats (quotients de l'espace euclidien par un réseau) puis, comme expliqué au paragraphe précédent, je vais dévier sur la théorie de Weyl de l'analyse harmonique sur les groupes de Lie compacts, ce qui est largement indépendant de ce que je raconte au début. Et à la fin, je serai trop fatigué pour parler des espaces riemanniens symétriques autrement que pour dire que suis trop fatigué.

[#] Une blague, qui est d'ailleurs peut-être une histoire vraie, qu'on m'avait racontée il y a longtemps, concerne un mathématicien dont la femme… — non, ne soyons pas sexiste comme ceux qui m'ont raconté cette histoire, je vais plutôt dire : — une mathématicienne dont le mari ne connaît absolument rien aux maths ; mais elle lui a donné l'astuce suivante permettant presque à tous les coups de poser une question pertinente lors d'un échange entre matheux : il suffit d'attendre qu'il y ait une petite pause dans la conversation, de prendre un air pensif, et de demander et est-ce que vous avez considéré le cas non-compact ?.

Plan

↑Entry #2531 [older| permalink|newer] / ↑Entrée #2531 [précédente| permalien|suivante] ↑

↓Entry #2528 [older| permalink|newer] / ↓Entrée #2528 [précédente| permalien|suivante] ↓

(lundi)

Le Spectre d'Atacama — et quelques spectres de groupes de Lie à écouter

(La première partie de cette entrée parle d'un roman qui parle de maths, la second parle de maths vaguement inspirées par le roman en question : à part cette proximité d'idées, il n'y a pas vraiment de rapport entre elles. Si les maths vous ennuient, à la fin, il y a des sons bizarres à écouter.)

Je viens de finir de lire le livre Le Spectre d'Atacama d'Alain Connes, Danye Chéreau et Jacques Dixmier, et j'avoue que je ne sais pas bien ce que j'en ai pensé. Pour commencer, c'est un livre assez difficilement classable : une sorte de mélange entre roman de science-fiction, fantaisie poétique, vulgarisation scientifique, plaidoyer sur l'intelligence artificielle, conte philosophique, récit picaresque et transposition en fiction de cet essai sur l'hypothèse de Riemann. Chacun des ingrédients me plaît a priori, et j'aime beaucoup l'idée de faire de la fiction à partir de la science, y compris de façon un peu poétique ; mais je trouve le mélange trop peu homogène… disons qu'il y a des grumeaux.

Le style est souvent un peu faible, mais ça ne me gêne pas tant que ça ; ce qui me gêne nettement plus, en revanche, c'est que l'intrigue part tellement dans tous les sens, accumule tellement d'invraisemblances et de rebondissements en apparence gratuits que ma suspension d'incrédulité, à force d'être tellement secouée, finit par lâcher complètement le coup. Parfois le roman devient didactique, parfois il est humoristique, parfois encore onirique, mais il y a trop de moments où on ne sait pas vraiment à quel degré le lire. L'idée de départ est bonne : un astrophysicien travaillant au réseau d'antennes de l'Atacama détecte un spectre d'absorption qui l'intrigue et fait appel à un ami mathématicien (de l'IHÉS…) pour essayer de le comprendre. Il y a aussi quelques tableaux du milieu académique qui sont plutôt réussis. Mais rapidement, et quitte à divulgâcher jusqu'à la fin de ce paragraphe, il est question d'une physicienne qui a volontairement passé son cerveau dans le rayon du LHC et qui a acquis la conscience quantique de vivre dans un espace de Hilbert et des capacités transhumaines mais seulement quand elle est à proximité d'un certain ordinateur : et là, je trouve que c'est vraiment un peu trop ; en plus de ça, le mathématicien part dans un périple dont on ne comprend pas vraiment le sens, qui l'emmène à Valparaiso puis sur une île perdue au milieu de nulle part puis à Sainte-Hélène, et tout ça ne sert pas vraiment l'intrigue. Et quand il est question d'ordinateurs, on sent que les auteurs ne sont pas du tout dans leur élément.

Ceci étant, je pense que c'est un ouvrage intéressant sur le plan de la communication scientifique : pas tellement d'idées scientifiques (il y a un peu de vulgarisation, mais ce n'est certainement pas l'objet principal du livre, et elle est plutôt light), mais de l'amour de la science et — et c'est important — des liens qui relient mathématiques, physique et informatique, et aussi du fait que la science « dure » peut avoir des aspects poétiques. Sur ce plan-là, je dirais que c'est plutôt une réussite. Peut-être finalement que ce roman, qui ne présuppose pas de connaissances scientifiques ou mathématiques, plaira plus à ceux qui justement l'abordent sans a priori.

J'en viens à des maths : la lecture du roman décrit ci-dessus m'a au moins convaincu (ou rappelé) que « les spectres » c'est important et intéressant. Je sais bien, pour avoir souvent entendu des gens le dire, que le spectre du laplacien (sur une variété riemannienne, disons), par exemple, c'est archi-super-important, mais j'avoue que je ne sais essentiellement rien de ce qu'il y a à dire, justement, sur ce spectre du laplacien, même dans des cas idiots (compacts, agréablement symétriques, tout ça tout ça).

En guise d'exercice, je me suis dit que j'allais calculer le spectre du laplacien pour des groupes de Lie compacts G (ou éventuellement des espaces homogènes G/H, par exemple des espaces riemanniens symétriques ou bien des R-espaces (variétés de drapeaux réelles), choses que je confonds d'ailleurs trop facilement[#]).

[#] Digression : Les espaces riemanniens symétriques irréductibles de type compact et simplement connexes sont (les groupes de Lie compacts simples simplement connexes eux-mêmes ainsi que) les quotients G/KG est un groupe de Lie compact simple simplement connexe et K le sous-groupe compact connexe maximal d'une forme réelle G₀ de G (par exemple, la sphère de dimension n est Spin(n+1)/Spin(n) où Spin(n) est le compact connexe maximal de la forme Spin(n,1) de Spin(n+1)), et on peut aussi voir K comme les points fixes d'une involution de G qui correspond à l'involution de Cartan définissant G₀ ; j'ai certainement commis quelques erreurs en disant ça (notamment dans la connexité et la simple connexité), mais l'idée générale doit être à peu près ce que j'ai dit. Les R-espaces, eux, s'obtiennent sous la forme G₁/PP est un parabolique d'un groupe de Lie réel semisimple G₁, qu'on peut aussi voir comme G/(GP) où G est un sous-groupe compact connexe maximal de G₁ et GP un sous-groupe compact maximal (du facteur de Levi) de P (par exemple, l'espace projectif réel dimension n est défini par le quotient de SL(n+1,ℝ) par son parabolique maximal associé à la première racine simple, i.e., les matrices dont la première colonne n'a que des zéros à partir de la deuxième ligne, et on peut le voir comme le quotient SO(n+1)/S(O(n)×O(1)) du sous-groupe compact connexe maximal SO(n+1) de SL(n+1,ℝ)) ; de nouveau, j'ai certainement commis quelques erreurs en disant ça, mais l'idée générale doit être ça. Je n'ai jamais vraiment compris « pourquoi » il y avait ces deux types de quotients très importants des groupes de Lie réels compacts, comment il faut y penser, par exemple du point de vue de l'analyse harmonique, et, de façon encore plus perturbante, pourquoi certains espaces peuvent se voir à la fois comme un espace riemannien symétrique et comme un R-espace (ou presque : cf. l'exemple que je viens de donner de la sphère et de l'espace projectif réel). Si quelqu'un a des éléments de réponse à m'apporter ou simplement des références où ces deux types de quotients sont discutés côte à côte de manière à me désembrouiller, ça m'intéresse ! (J'ai regardé l'article Geometry of Symmetric R-spaces de Tanaka, et j'ai eu l'impression de comprendre encore moins bien et de confondre encore plus après sa lecture.)

Mais aussi, j'avais (peut-être même que j'ai encore) vaguement l'espoir que des spectres intéressants, comme le spectre du laplacien sur tel ou tel espace bien sympathique, pourrait conduire à des sons harmonieux et donc répondre à ma question de trouver un objet mathématique qui s'« auditorise » de façon intéressante et agréable (plutôt que de se « visualiser ») ; dans cet ordre d'idées j'avais bien produit ceci, mais ce n'était pas du tout agréable à écouter et la construction de ces sons n'était pas franchement des plus naturelles.

L'idée générale, cette fois-ci, est qu'une fois connu le spectre du laplacien on peut s'en servir pour résoudre l'équation des ondes et obtenir les fréquences des vibrations propres de l'objet considéré (comme les racines carrées des opposées des valeurs propres du laplacien). Et donc produire des sons qui correspondraient à la manière dont « vibre » l'objet considéré — un groupe de Lie compact G ou un espace homogène G/H — quand, par exemple, on donne un coup dessus.

J'avoue que l'idée de taper un groupe de Lie pour voir comment il résonne me plaît énormément. (Et si j'en crois la lecture du Spectre d'Atacama, ça a aussi des chances de plaire à Connes et/ou Dixmier.)

Bref. Du peu que je sais de l'analyse harmonique sur les groupes de Lie et du théorème de Peter-Weyl, et si je comprends bien que le Casimir fournit la valeur du laplacien sur ce qui correspond à chaque représentation irréductible, le spectre du laplacien sur un groupe de Lie compact G est donné, à un facteur multiplicatif près (essentiellement arbitraire(?), mais négatif), par l'ensemble des valeurs C(v) := ⟨v,v+2ρ⟩ où v parcourt le réseau des poids dominants pour G. (Si tout ceci est du chinois pour vous, ce n'est pas très important, mais l'idée est qu'à G est associé un réseau euclidien appelé le « réseau des poids » et un cône polyédral de sommet l'origine dans cet espace euclidien appelé la « chambre de Weyl », auquel appartient le vecteur ρ dit « vecteur de Weyl », et les poids dominants sont les éléments de la chambre de Weyl ; chaque tel v, ou plus exactement le « caractère » χv associé, peut se concevoir comme un mode propre — un mode de vibration, si on veut — du groupe G, et la valeur du Casimir C(v) := ⟨v,v+2ρ⟩, est essentiellement l'opposé de la valeur propre du laplacien dont le vecteur propre est le caractère : Δχv = −C(vχv pour une certaine normalisation de Δ. S'il y a dans l'assistance des gens qui s'y connaissent en analyse harmonique et qui pourraient confirmer que j'ai bien compris, et peut-être même recommander un endroit où ce que je viens de dire serait écrit noir sur blanc sous cette forme y compris avec la valeur du Casimir, je leur serais reconnaissant.) Par exemple, pour les groupes de rang 2 : pour A₂ (i.e., SU₃), je trouve des valeurs (proportionnelles à) 8/3, 6, 20/3, 32/3, 12, 16, 50/3, 56/3, 68/3, 24, 80/3, 30… (où seules celles qui sont entières sont possibles pour la forme adjointe PSU₃) ; pour B₂ (i.e., Spin₅), je trouve 5/2, 4, 6, 15/2, 10, 21/2, 12, 29/2, 16, 35/2, 18, 20… (où seules celles que j'ai soulignées sont possibles pour la forme adjointe SO₅) ; et pour G₂, je trouve 12, 24, 28, 42, 48, 60, 64, 72, 84, 90, 100, 108… ; et sinon, pour F₄ : 12, 18, 24, 26, 32, 36, 39, 40, 42, 46, 48, 52… ; et vous devinez évidemment j'ai fait le calcul pour E₈ : 60, 96, 120, 124, 144, 160, 180, 186, 192, 196, 200, 210…

Et pour les espaces homogènes G/H, il doit s'agir de se limiter aux plus hauts poids v qui définissent des représentations de G dont la restriction à H a des points fixes (ou, ce qui revient au même par réciprocité de Frobenius, des représentations qui apparaissent dans l'induite à G de la représentation triviale de H, mais je ne suis pas si ça aide de le dire comme ça). J'arrive (mais laborieusement) à faire les calculs sur des cas particuliers en utilisant l'implémentation des règles de branchement dans Sage. Par exemple, le spectre de G₂/SO₄ (l'espace des sous-algèbres de quaternions dans les octonions) semble être : 28, 60, 72, 112, 132, 168, 180, 208, 244, 264, 300, 324… Mais je comprends trop mal les règles de branchement pour savoir s'il faut chercher une logique d'ensemble ou ce à quoi elle ressemblerait (sur les coordonnées de v dans la base des poids fondamentaux ; ce n'est même pas clair pour moi les v en question forment un sous-réseau du réseau des poids ou quel est son rang). Ajout () : À la réflexion, pour les espaces riemanniens symétriques, je crois que je comprends au moins à peu près la situation (tout est dans la notion de système de racines restreintes) ; je crois même que tout est dit dans le chapitre V (par ex., théorème V.4.1) du livre de 1984 de Sigurður Helgason (Groups and Geometric Analysis), même si j'ai vraiment du mal à le lire ; je crois bien que le rang du réseau des poids v tels que la restriction à H ait des points fixes non triviaux coïncide avec le rang de l'espace symétrique G/H, même si j'aimerais bien voir ça écrit noir sur blanc.

Une chose qui m'étonne beaucoup est que ces suites ne semblent pas être dans l'OEIS. Tout le monde parle de l'importance du spectre du laplacien et personne n'a pris la peine de mettre le résultat, pour les cas les plus évidents que sont les groupes de Lie compacts, dans l'OEIS ‽ Comment est-ce possible ‽ J'hésite cependant à les soumettre moi-même parce que, à vrai dire, je ne suis pas très sûr de bien comprendre ce que je fais. (Et, entre autres choses, je ne sais pas du tout si les valeurs que j'ai listées ci-dessus ont un sens dans l'absolu ou seulement à proportionalité près. La valeur du Casimir semble dépendre d'une normalisation un peu arbitraire sur la longueur des racines ou quelque chose comme ça, et du coup je ne sais pas bien quoi prendre ou quoi soumettre.)

Pour ce qui est de produire des sons à partir de ça, il y a un autre truc sur lequel je n'ai pas des idées claires, c'est quelles amplitudes relatives il serait logique d'utiliser pour ces différentes harmoniques. Si on donne un coup de marteau sur le groupe de Lie G₂ (mais pas assez fort pour le casser !), il va peut-être résonner à des fréquences proportionnelles aux racines carrées de 12, 24, 28, 42, 48, 60, etc., mais avec quelles amplitudes ? Le problème se pose déjà sur une sphère de dimension 2 (SO₃/SO₂, si on veut) : les valeurs propres du laplacien sphérique sont (proportionnelles à) (+1), donc si on fait vibrer une sphère, elle produit des fréquences proportionnelles à 1, √3, √6, √10, etc., mais une fois ce spectre connu, ça ne donne pas pour autant un son (même si ça peut faire de jolies animations). Un bout de la réponse est fourni par la multiplicité des valeurs propres en question (sur la sphère, par exemple, (+1) a la multiplicité +1 parce qu'il y a ce nombre-là d'harmoniques sphériques de niveau  indépendantes) ; s'agissant d'un groupe de Lie G, les multiplicités sont les carrés N(v)² des dimensions N(v) = χv(1) des représentations irréductibles correspondantes (par exemple, s'agisant de G₂, les valeurs propres avec multiplicité sont (12,7²), (24,14²), (28,27²), (42,64²), (48,77²), (60,77²), etc.). Mais ensuite ? Il me semble que, pour parler abusivement, les « coefficients » de la distribution δ (centrée en 1∈G) sur la base des caractères χv sont les N(v) = χv(1) et qu'il serait donc logique de donner à la fréquence √C(v) une amplitude proportionnelle à N(v)² (si on tape un coup sec et très localisé sur notre groupe de Lie), mais évidemment ceci diverge très méchamment. Je peux régulariser en remplaçant δ par une gaussienne, ce qui doit revenir à multiplier les coefficients par exp(−C(vσ²) avec σ une sorte d'écart-type de la gaussienne, mais le choix de σ est complètement arbitraire dans l'histoire. Bref, je peux produire des sons en superposant des fréquences proportionnelles aux √C(v) avec des amplitudes proportionnelles aux N(v)²·exp(−C(vσ²), mais le son en question dépend de façon énorme de σ. Une autre idée est de faire varier l'amplitude avec le temps pour donner une dissipation aux modes de vibration, par exemple en exp(−C(vt) (inspiré de l'équation de la chaleur).

Pour faire quand même des essais, de façon assez arbitraire, j'ai décidé de faire que l'intensité de la fréquence √C(v) décroisse en exp(−(C(v)/C(v₀))·(1+t/3s)) où v₀ est le poids qui correspond à la représentation adjointe de G (c'est-à-dire, la plus haute racine), et j'ai de même normalisé les fréquences pour que la fréquence de v₀ soit à 440Hz. C'est-à-dire que j'ai superposé des sin(2π·440Hz·(C(v)/C(v₀))·t) · N(v)² · exp(−(C(v)/C(v₀))·(1+t/3s)) où t est le temps et v parcourt les poids de G. Je n'aime pas le côté assez arbitraire de tout ça (et en particulier de mon 1+), donc je suis preneur d'idées plus naturelles, mais au moins les sons sont intéressants et, pour une fois, pas du tout désagréables à écouter.

Ceci n'est qu'une première expérience : j'en ferai sans doute d'autres quand j'aurai des idées plus claires sur ce que je veux faire et ce qui est intéressant, mais en attendant, voici quelques essais de ce que ça peut donner comme son de frapper différents groupes de Lie compacts (calibrés pour que leur représentation adjointe sonne le la à 440Hz) : en rang 1 : A₁ (c'est-à-dire SU₂, qui est vraiment une 3-sphère, je voulais vérifier que ça avait un son de cloche plausible et ça a effectivement un son de cloche vaguement plausible, c'est déjà ça) ; en rang 2 : A₂ (c'est-à-dire SU₃), B₂ (c'est-à-dire Spin₅) et G₂ ; en rang 4 : A₄ (c'est-à-dire SU₅), B₄ (c'est-à-dire Spin₉), C₄ (c'est-à-dire Sp₄), D₄ (c'est-à-dire Spin₈) et F₄ ; et bien sûr : E₆ et E₈. Tous ces fichiers sont du FLAC et chacun dure 6 secondes, si votre navigateur ne les ouvre pas spontanément, téléchargez-les et vous trouverez certainement un truc qui les lit. Tous les groupes que je viens de donner sont la forme simplement connexe, mais j'ai aussi produit des essais pour comparer le son de la forme simplement connexe avec la forme adjointe (laquelle a moins d'harmoniques) : Spin₅ versus SO₅ d'une part, et SU₃ versus PSU₃ de l'autre.

↑Entry #2528 [older| permalink|newer] / ↑Entrée #2528 [précédente| permalien|suivante] ↑

↓Entry #2527 [older| permalink|newer] / ↓Entrée #2527 [précédente| permalien|suivante] ↓

(jeudi)

Une conjecture « du dimanche » sur les nombres premiers

Je racontais ici que les « mathématiciens du dimanche » étaient souvent fascinés par les nombres premiers et capables de produire toutes sortes de conjectures fantaisistes à leur sujet ; et aussi, ils sont fascinés par l'écriture en base 10. Voici que je vois passer sur MathOverflow (et précédemment sur Math.StackExchange) la conjecture suivante, qui ressemble beaucoup à la caricature de la « conjecture du mathématicien du dimanche », à ceci près qu'elle conjecture que des nombres ne sont pas premiers :

Soit j≥1 un entier naturel, et Nj le nombre formé de la concaténation des écritures en base 10 des nombres (« de Mersenne » consécutifs) 2j+1−1 et 2j−1 ; c'est-à-dire : Nj = 10m·(2j+1−1) + (2j−1) où m := ⌊log(2j−1)/log(10)⌋+1 est le nombre de chiffres de l'écriture décimale de 2j−1.

(Par exemple, N₁=31 (concaténation de 3 et 1), N₂=73 (concaténation de 7 et 3), N₃=157 (concaténation de 15 et 7), N₄=3115 (concaténation de 31 et 15), etc.)

Conjecture d'Enzo Creti : si Nj≡6 (mod 7), alors Nj n'est pas premier.

(Par exemple : pour j=9, on a N9=1023511, qui est congru à 6 modulo 7, et il n'est pas premier : il vaut 19×103×523 ; pour j=10, on a N10=20471023, qui est congru à 6 modulo 7, et il n'est pas premier : il vaut 479×42737.)

(Je ne sais pas si l'auteur de cette conjecture est un mathématicien « du dimanche », je ne sais rien sur lui, mais l'énoncé, en tout cas, ressemble exactement au type de spéculations sur les nombres premiers et les écritures en base 10 dont je voulais parler.)

Ce genre de problèmes est à la fois agaçant et passablement intéressant au niveau méta.

Expérimentalement, la conjecture est vérifiée jusqu'à des valeurs passablement grandes de j (l'auteur prétend être allé jusqu'à 4×10⁵ ; moi je me suis arrêté à 10⁴) ; et de plus, elle n'est pas vide, c'est-à-dire qu'il y a effectivement une densité significative (en fait, 1 sur 9) de j pour lesquels la prémisse Nj≡6 (mod 7) est vérifiée.

(On peut accessoirement remarquer que dans chacune des autres classes de congruence de Nj modulo 7, exceptée bien sûr la classe 0, on trouve des nombres premiers. C'est la classe 6 qui semble éviter les nombres premiers. À toutes fins utiles, en distinguant les cas de congruence de m modulo 6 et de j modulo 3, on peut remarquer que 10m·(2j+1−1) + (2j−1) est congru à 6 modulo 7 lorsque soit (m≡3 (mod 6) et j≡0 (mod 3)) soit (m≡4 (mod 6) et j≡1 (mod 3)).)

Pourtant, je pense que n'importe quel théoricien des nombres sera d'accord avec moi pour dire qu'il ne croit pas une seule seconde à une telle conjecture. Pourquoi ?

D'abord, on se rappelle que le théorème des nombres premiers peut s'interpréter en disant que la « probabilité d'être premier » empirique d'un entier x tiré au hasard vaut environ 1/log(x) ; ou si le nombre est impair par construction, disons plutôt 2/log(x). En l'occurrence, on a log(Nj) = 2·log(2)·j + O(1), si bien que Nj a empiriquement une « probabilité d'être premier » qui décroît comme une fonction harmonique de j (quelque chose comme 1/(log(2)·j), en tenant compte du fait qu'il est forcément impair). Or la série harmonique diverge, donc il n'est pas vraisemblable que les Nj échouent tous à être premiers « par hasard ». En revanche, comme la série harmonique diverge très lentement (logarithmiquement), cela veut bien dire qu'il peut être nécessaire de pousser très très loin pour trouver un contre-exemple, donc avoir vérifié 10⁴ ou 10⁵ valeurs ne vaut pas grand-chose, et il n'est pas du tout invraisemblable que 10⁴ ou 10⁵ valeurs échouent toutes à être premières « par hasard » (expliquant ainsi la constatation expérimentale).

Il est donc invraisemblable que la conjecture soit vraie « par hasard », mais vraisemblable qu'elle le paraisse quand même jusqu'à 10⁴ ou 10⁵. Maintenant, se peut-il que la conjecture soit vraie autrement que « par hasard » ? Cela voudrait dire qu'il y aurait une « raison » expliquant une factorisation de 10m·(2j+1−1) + (2j−1) à tous les coups (par exemple une identité algébrique, ou une conguence à 0 qui vaut à tous les coups, enfin, une « raison » qui fait qu'il n'est jamais premier). Or, si on met de côté la donnée que m est le nombre de chiffres décimaux de 2j−1, ce n'est pas vrai que 10m·(2j+1−1) + (2j−1) n'est jamais premier. En effet, en changeant un petit peu m, j'ai le contre-exemple de 1070·(2230−1) + (2229−1) (où le nombre 2229−1 a 69 chiffres décimaux, j'ai inséré juste un 0 de plus dans la concaténation) : ce nombre est bien congru à 6 modulo 7, et il est premier (il a 140 chiffres, alors vous m'épargnerez de l'écrire complètement). Bref, si la conjecture était vraie autrement que par hasard, il faudrait avoir une factorisation de 10m·(2j+1−1) + (2j−1) qui dépende du fait que m est précisément le nombre de chiffres décimaux de 2j−1, et ça, ça semble complètement abracadabrant. (Tout ce que je raconte est complètement empirique, bien sûr, je n'ai pas de contre-exemple à la conjecture énoncée plus haut, mais j'explique pourquoi je n'y crois pas.)

Bref, je suis complètement convaincu qu'il y a un contre-exemple, et que ce contre-exemple a un j très grand (donc un Nj gigantesque), et ce n'est pas très surprenant qu'il soit difficile à trouver. Pour être un peu plus précis dans la quantification de la vraisemblance, numériquement, le produit des 1−(2/log(Nj)) (i.e., leur probabilité empirique de ne pas être premiers, le 2 étant là parce qu'ils sont impairs) parcourant ceux des Nj qui sont congrus à 6 modulo 7 vaut environ 0.25 pour j allant jusqu'à 10⁴, c'est-à-dire qu'il y avait a priori environ 25% de chances pour qu'aucun de ces nombres ne soit premier compte tenu de leurs tailles (et du fait qu'ils sont impairs) ; si on monte jusqu'à 4×10⁵, cela doit tomber à environ 18%. Bref, ce n'est pas du tout invraisemblable que la conjecture soit vraie jusqu'à ce point-là « par hasard ». Il suffit qu'il y ait une dizaine de mathématiciens du dimanche qui essaient des conjectures de ce genre, et il y en aura bien un qui tombera sur une qui marche sur toutes les valeurs que sa patience lui permettra de tester ; en fait, il suffit même qu'un seul mathématicien du dimanche ait testé la restriction des Nj à suffisamment de classes de congruence modulo des petits nombres pour tomber sur une qui semble ne contenir que des nombres composés.

Il n'est cependant pas exclu à mes yeux qu'il y ait une « raison » un peu plus précise que le hasard pour laquelle la conjecture soit vraie pour des « assez petites » valeurs de j, et c'est un problème possiblement intéressant. Il est par exemple possible que plein de cas de congruence de j et de m excluent la primalité. (Un exemple idiot est que si j est congru à 0 modulo 4, sans aucune discussion sur m, alors Nj est multiple de 5 — parce que 2j−1 l'est — et donc Nj n'est certainement pas premier ; donc déjà il n'y a plus que les quatre cinquièmes des j qui jouent vraiment, et cela contribue à rendre encore moins invraisemblable que la conjecture soit vraie « par hasard » pour des petites valeurs de j. Mais il y a peut-être des choses plus intelligentes à dire.)

Il y a notamment une chose qu'on peut voir, c'est que m := ⌊log(2j−1)/log(10)⌋+1 (le nombre de chiffres décimaux de 2j−1) vaut en fait ⌊j·ξ⌋+1 où ξ := log(2)/log(10) ≈ 0.301. Les réduites du développement en fraction continue de ξ sont 1/3, 3/10, 28/93, 59/196, etc. Si je remplace m=⌊j·ξ⌋+1 par m=⌊j·x⌋+1 où x est une de ces réduites, j'obtiens d'autres suites de nombres Nj (dépendant de x que j'omets abusivement dans la notation), à savoir Nj := 10(⌊j·x⌋+1)·(2j+1−1) + (2j−1), qui coïncident avec Nj au début (et d'autant plus loin que la réduite est bonne), et je peux poser la question de la conjecture analogue pour ces suites-là. Pour x=1/3, la conjecture sur les N′ ne vaut pas, car pour j=330, le nombre N330 = 10111·(2331−1) + (2330−1) est congru à 6 modulo 7 et est premier ; pour x=3/10, la conjecture sur les N′ ne vaut pas non plus, car pour j=849, le nombre N849 = 10255·(2850−1) + (2849−1) est congru à 6 modulo 7 et est premier. Mais pour x=28/93 (autrement dit, avec Nj := 10(⌊j·28/93⌋+1)·(2j+1−1) + (2j−1)), je n'ai pas trouvé de contre-exemple : au moins jusqu'à j=10⁴, les Nj qui sont congrus à 6 modulo 7 ne sont jamais premiers. C'est déjà moins invraisembable d'imaginer que tous ces Nj-là soient premiers que pour les Nj de la conjecture de départ : on peut tout à fait imaginer qu'il y ait une distinction de quelque chose comme 93 cas selon la valeur de j qui permette, dans chacun des cas (ou simplement dans un grand nombre de ces cas, diminuant d'autant le hasard !), de montrer que Nj serait divisible par quelque chose. Du coup, si Nj n'est jamais premier, cela expliquerait que plein de petites valeurs de Nj soient composées, et il est encore moins surprenant qu'ensuite on tombe par hasard sur des nombres composés.

Mise à jour (avant publication) : bon, en fait, pour j=14058, le nombre N14058 = 104233·(214059−1) + (214058−1) est congru à 6 modulo 7 et semble être premier (en tout cas il passe des tests de pseudo-primalité), donc mon explication n'est pas la bonne, mais je la laisse parce qu'on voit que ce genre de choses est tout à fait imaginable.

Laissant de côté la question mathématique proprement dite, il reste la question de savoir comment un mathématicien (au hasard, féru de vulgarisation) doit réagir face à ce genre de conjectures. C'est toujours un peu délicat d'expliquer je n'y crois pas du tout malgré vos constatations expérimentales, et même si on peut expliquer tout ce que je viens d'expliquer sur les probabilités, il reste quand même un certain acte de foi, quand je dis qu'il est « complètement abracadabrant » qu'il y ait un phénomène de ce genre sur les nombres premiers qui fasse intervenir de façon cruciale le nombre de chiffres décimaux du nombre 2j−1 (même si on le revoit comme ⌊j·ξ⌋+1 avec ξ = log(2)/log(10)).

↑Entry #2527 [older| permalink|newer] / ↑Entrée #2527 [précédente| permalien|suivante] ↑

↓Entry #2522 [older| permalink|newer] / ↓Entrée #2522 [précédente| permalien|suivante] ↓

(mercredi)

Les revêtements doubles du groupe symétrique sont pénibles

Écrire l'entrée récente sur la vulgarisation des mathématiques m'a motivé a essayer d'écrire un morceau de vulgarisation sur la symétrie, les groupes finis et (l'histoire de) la classification des groupes simples finis. Comme c'était évidemment prévisible, ce texte est en train de grandir jusqu'à une taille démesurée, et comme d'habitude le risque commence à devenir sérieux que je finisse par en avoir marre et que je laisse tomber ; j'essaierai, le cas échéant, de m'efforcer de publier ce que j'aurai déjà écrit même si c'est inachevé plutôt que le garder indéfiniment dans mes cartons en pensant je finirai peut-être un jour. Ceci n'est pas le texte en question : c'est une tangente qui est déjà insupportablement longue en elle-même. Mais ceci est une illustration de ce que je disais dans l'entrée récente liée ci-dessus : on apprend toujours quelque chose en faisant de la vulgarisation, même quand on croit se placer à un niveau où on sait déjà tout ; et aussi que ça peut être un problème mathématiquement difficile de trouver comment bien expliquer ceci ou cela.

Puisqu'il s'agit de raconter mes difficultés, je m'adresse dans ce qui suit à des lecteurs qui sont déjà familiers avec la notion de groupe (et de sous-groupe, de quotient, de permutations, de signature (=parité) d'une permutation, et quelques choses à peu près à ce niveau-là). Normalement le contenu de l'entrée interminable que je viens de promettre pour un lendemain rieur devrait suffire à comprendre celle-ci (mais bon, c'est la théorie ; pour la pratique, je ne sais pas bien). Bref.

Remarque informatique : J'utilise la notation 𝔖 pour le groupe symétrique et 𝔄 pour le groupe alterné. Vous devriez voir une ‘S’ gothique (enfin, fraktur) pour le premier et un ‘A’ gothique pour le second. Mais on me souffle que dans certaines contrées reculées où la totalité d'Unicode ne baigne pas encore le monde de sa lumière bienfaisante et où les polices sont incomplètes, ces deux symboles pourraient apparaître comme des simples carrés (sans même un numéro hexadécimal à l'intérieur permettant de les distinguer simplement), ce qui est un peu fâcheux si je cherche à dire que 𝔄n est simple (pour n≥5) alors que 𝔖n n'est que « presque simple », par exemple. Pour toucher aussi ces provinces reculées (ainsi que les gens qui font une allergie à l'écriture gothique), j'ai prévu un peu de magie en JavaScript qui remplacera en un seul clic tous ces symboles par des identifiants plus explicites Sym et Alt : cliquez ici pour activer ce remplacement.

Je commence par expliquer le contexte (même si ce n'est pas vraiment important pour ce que je veux raconter ci-dessous, et c'est un peu plus technique, donc on peut ignorer), une des idées que je veux évoquer, au moins rapidement et en petits caractères, même si c'est un peu technique, est le fait qu'un groupe simple fini non abélien G apparaît souvent, dans la nature, « étendu » par des petits groupes (résolubles, souvent cycliques), de l'une ou l'autre, ou les deux, de manières (que, à ma grande honte, j'ai beaucoup tendance à confondre). À savoir : (1) « par la droite » par des automorphismes extérieurs, c'est-à-dire sous la forme d'un groupe E (dit presque simple) intermédiaire entre G et le groupe Aut(G) des automorphismes de G, si bien que G est un sous-groupe distingué de E avec un « petit » quotient (le plus gros possible étant le groupe Out(G)=Aut(G)/Int(G) des automorphismes extérieurs de G) ; ou bien (2) « par la gauche » par un sous-groupe central, c'est-à-dire sous la forme d'un groupe G˜ (dit quasisimple), parfait (= sans quotient abélien), ayant cette fois G comme quotient par un noyau contenu dans le centre de G˜ (et de nouveau il y a un plus gros revêtement possible, donné par le multiplicateur de Schur) ; et on peut avoir les deux à la fois, ce qui complique encore les définitions (je n'en connais d'ailleurs pas qui ne soient pas passablement pénibles à donner, donc si quelqu'un a ça, ça m'intéresse), et en plus on se perd dans les marais de l'« isoclinisme ». Je voudrais donner des exemples des deux phénomènes, voire des deux à la fois. Ne voulant pas supposer que mon lecteur est familier avec l'algèbre linéaire, je voudrais donner l'exemple du groupe alterné G = 𝔄n des permutations paires sur n objets. À ce moment-là, l'exemple de la situation (1) est facile à donner, c'est le groupe symétrique E = G:2 = 𝔖n de toutes les permutations sur n objets (et il n'est pas difficile d'expliquer que l'automorphisme intérieur défini par une permutation impaire devient, quand on le restreint au groupe alterné G = 𝔄n, un automorphisme extérieur). La situation (2) se produit aussi, et il existe un revêtement double G˜ = 2·G = 2·𝔄n, et deux revêtements doubles (« isoclinaux ») 2·𝔖n⁺ et 2·𝔖n⁻. J'ai donc bien envie d'essayer de décrire à quoi ressemblent ces groupes. L'ennui, c'est qu'ils ne sont vraiment pas commodes à décrire.

Ce dont il est question, ce sont deux groupes 2·𝔖n⁺ et 2·𝔖n⁻ qui sont des « revêtements doubles » du groupe symétrique 𝔖n sur n objets, et qu'on peut considérer comme des sortes de « permutations avec un signe »[#].

[#] (Ajout)Il vaut mieux éviter de dire permutations signées, parce que le groupe des permutations signées est encore autre chose (que les quatre groupes de permutations-avec-un-signé décrits ci-dessous, et qui ont tous 2·n! éléments) : le groupe des permutations signés, ou « produit en couronne » {±1} ≀ 𝔖n, lui, a 2n·n! éléments : on peut le décrire comme les permutations de l'ensemble {±1}×{1,…,n} qui, si elles envoient (+1,x) sur (±1,y) doivent alors nécessairement envoyer (−1,x) sur (∓1,y) (autrement dit, changer la première coordonnée de la source change la première coordonnée de la cible) ; on peut aussi voir ça comme des matrices dont toutes les entrées sont nulles sauf qu'il y a des ±1 sur le graphe d'une permutation (entre lignes et colonnes). Ce groupe {±1} ≀ 𝔖n, bien que plus gros, est assez simple à manipuler, et malheureusement il ne contient pas (sauf pour n très petit) les groupes 2·𝔖n⁺ et 2·𝔖n⁻ dont je veux parler ici. Je vais y revenir.

L'idée est la suivante : je vais chercher des groupes G˜ ayant 2n! éléments, à savoir deux pour chaque permutation σ dans G := 𝔖n ; disons qu'on va noter +[σ] (ou simplement [σ]) et −[σ] les deux éléments de G˜ correspondant à une permutation σ, mais attention, le choix de qui est +[σ] et qui est −[σ] est dans une certaine mesure arbitraire, c'est bien ça qui va poser problème. Je vais maintenant imposer plusieurs choses : d'abord, si 1 désigne la permutation triviale (l'identité : celle qui envoie chaque objet sur lui-même), alors +[1], qu'on va juste noter +1 ou 1 sera l'élément neutre de mon groupe ; quant à −[1], qu'on va simplement noter −1, il aura la propriété que le produit (−1)·[σ] sera −[σ] et le produit (−1)·(−[σ]) sera +[σ] comme on s'y attend, autrement dit, −1 est « central » (il commute à tout) et échange +[σ] et −[σ] ; enfin, je vais vouloir que [σ]·[τ] soit ±[σ·τ] où σ·τ désigne le produit dans 𝔖n et ± signifie qu'il y a peut-être un signe (cela dépend de σ et τ : on pourrait le noter c(σ,τ)) mais je n'impose rien à son sujet (c'est-à-dire, rien que ce qui est nécessaire pour obtenir un groupe).

Il se trouve qu'il y a (pour n≥4) exactement quatre groupes qui répondent aux contraintes que je viens d'énoncer : deux sont sans intérêt (mais il est pertinent de les décrire pour expliquer un peu comment les choses peuvent fonctionner) et les deux autres sont ces fameux revêtements doubles 2·𝔖n⁺ et 2·𝔖n⁻ dus à Issai Schur :

  1. Le plus évident est le groupe produit direct {±1}×𝔖n (ou 2×𝔖n étant entendu que 2 désigne abusivement le groupe cyclique Z₂={+1,−1} à deux éléments) ; c'est-à-dire qu'ici le signe et la permutation n'interagissent pas du tout. Autrement dit, dans ce groupe-là, on a [σ]·[τ] = [σ·τ] (toujours avec un signe ‘+’), et il n'y a vraiment rien d'intéressant à en dire. Remarquons que si σ est une transposition (= permutation d'ordre 2 échangeant deux éléments et laissant fixes tous les autres), alors ±[σ] est d'ordre 2 dans ce groupe, et que si σ est le produit de deux transpositions de support disjoints (= permutation d'ordre 2 échangeant deux paires d'éléments et laissant fixes tous les autres), alors ±[σ] est encore d'ordre 2.
  2. Un groupe un petit peu moins évident est celui dans lequel [σ]·[τ] = [σ·τ] sauf lorsque σ et τ sont toutes les deux impaires, auquel cas [σ]·[τ] = −[σ·τ]. Faute d'idée de meilleure notation, je vais le noter 2⊙𝔖n pour y faire référence plus tard. En fait, il est peut-être plus parlant pour y penser de modifier la notation et, lorsque σ est une permutation impaire, de noter (ou en tout cas de penser comme) +i[σ] et −i[σ] plutôt que +[σ] et −[σ] les deux éléments du groupe qui relèvent σ, où i est la racine carrée complexe standard de −1, auquel cas la règle des signes que je viens de donner est assez logique. (Je répète que je ne change pas du tout le groupe, là, je change juste la manière de noter ses éléments ou simplement d'y penser.) Ce groupe a la propriété que si σ est une transposition, alors ±[σ] est d'ordre 4 dans ce groupe (puisque son carré va être −1 d'après la règle de signe), et que si σ est le produit de deux transpositions de support disjoints, alors ±[σ] est d'ordre 2.
  3. On a le groupe 2·𝔖n⁺ que je vais essayer (sans grand succès) de décrire : il a la propriété que si σ est une transposition, alors ±[σ] est d'ordre 2 dans ce groupe (son carré vaut 1), et que si σ est le produit de deux transpositions de support disjoints, alors ±[σ] est d'ordre 4 (son carré vaut −1).
  4. Enfin, on a le groupe 2·𝔖n⁻ : il a la propriété que si σ est une transposition, alors ±[σ] est d'ordre 4 dans ce groupe (son carré vaut −1), et que si σ est le produit de deux transpositions de support disjoints, alors ±[σ] est également d'ordre 4 (son carré vaut −1).

Les deux premiers groupes dont je viens de parler (2×𝔖n et 2⊙𝔖n) deviennent identiques si on se limite aux permutations paires (et c'est toujours aussi inintéressant : c'est {±1}×𝔄n qu'on peut aussi noter 2×𝔄n) ; il en va de même des deux derniers : on note 2·𝔄n (groupe d'ordre n!) la restriction de l'un ou l'autre de 2·𝔖n⁺ ou 2·𝔖n⁻ aux permutations ±[σ] avec σ paire.

↑Entry #2522 [older| permalink|newer] / ↑Entrée #2522 [précédente| permalien|suivante] ↑

↓Entry #2520 [older| permalink|newer] / ↓Entrée #2520 [précédente| permalien|suivante] ↓

(mardi)

Mathématiques discrètes et continues

(Pour l'explication du titre, voir cette vieille entrée.)

J'assistais tout à l'heure à une séance de présentation, pour les élèves de Télécom ParisPloum où j'enseigne, des différentes filières (=spécialisations) entre lesquelles ils doivent piocher pour leur deuxième année. (La première année est généraliste, et en seconde année ils doivent choisir essentiellement deux-parmi-N spécialisations.) À vrai dire, j'étais plus là pour écouter les questions des élèves et les réponses faites par mes collègues, qui s'en sortaient très bien et n'avaient pas trop besoin de mon aide ; mais c'est intéressant, ne serait-ce que sociologiquement, de savoir ce que nos élèves ont comme questions à poser, et éventuellement comme préconceptions, sur les enseignements qu'on leur propose.

L'une des filières où j'enseigne s'appelle MITRO comme Mathématiques, Informatique Théorique, et Recherche Opérationnelle : c'est un rassemblement légèrement hétéroclite de cours à dominance plus théorique ayant pour but de donner une culture générale utile, soit en complément d'autres filières, soit pour entrer dans un master en informatique ou en recherche opérationnelle ; j'y fais un cours de théorie des jeux dont j'ai déjà parlé. (J'enseigne aussi un cours sur les courbes algébriques dans une filière AC2Q comme Algèbre, Codage, Crypto, Quantique, et les deux filières ont une intersection assez importante dans leur population d'élèves.)

Et une des questions qui m'a frappée à laquelle mon collègue présentant MITRO a dû répondre à un bon nombre de reprises, portait sur le contenu des mathématiques. Ça ne m'avait pas tellement frappé les années précédentes, ou peut-être que je n'avais juste pas fait attention :

En fait, nos élèves ont une vision très étroite de ce que sont les mathématiques. Et on ne peut pas leur en vouloir : ils sortent (pour l'essentiel) des classes prépa françaises, où on leur a enseigné, au moins sous l'étiquette mathématiques, des maths qui se limitent essentiellement à deux choses, (1) de l'algèbre linéaire, (2) de l'analyse réelle classique, et depuis récemment un peu de (3) probabilités. En première année à Télécom, ils ont des cours de maths qui couvrent les probabilités et encore plus d'analyse (un peu d'analyse fonctionnelle, cette fois ; j'enseigne aussi dans le cadre de ce cours-là). Donc au final, pour eux, les maths, c'est des espaces vectoriels (réels ou complexes), des intégrales et des probas (essentiellement). Et ils nous demandent, soit en l'espérant soit en le craignant, s'il y a des choses comme ça dans la filière MITRO. La notion de maths discrètes leur est largement inconnue.

Mais ce qui est un peu ironique, c'est qu'en fait ils ont déjà fait des maths discrètes (par exemple, ils savent ce que c'est qu'un graphe, un arbre, ce genre de choses) : simplement, ils en ont fait, en prépa ou après, dans des cours étiquetés informatique. Et j'enseigne moi-même un cours sur les langages formels (cf. ici) qui, dans mon esprit, est clairement un cours de maths, mais qui est étiqueté informatique (ceci provoque d'ailleurs des malentendus dans l'autre sens, parce que j'en ai qui se plaignent qu'on ait besoin de raisonner).

Je suis de l'avis que l'informatique théorique, ainsi qu'une bonne partie de la physique théorique, fait partie des mathématiques. En fait, pour moi, les mathématiques ne se définissent pas par leur objet d'étude mais par leur méthode, c'est-à-dire le fait qu'on arrive à la vérité par un raisonnement déductif dont la rigueur se cherche dans l'aspect formel ou du moins formalisable ; par opposition, essentiellement, aux sciences expérimentales dont la méthode est inductive et la rigueur se cherche dans l'application méticuleuse d'un protocole expérimental. Il se trouve que cette distinction — qui n'exclut pas qu'il y ait des régions intermédiaires où on combine un raisonnement partiellement heuristique et des constatations expérimentales — est largement transverse à un domaine comme l'informatique, la physique ou l'astronomie, et je classifie donc l'informatique théorique comme étant à la fois des maths (pour la méthode) et de l'informatique (pour la finalité).

Mais peu importent les classifications. (Si vous trouvez que je dis des conneries ci-dessus, je n'ai pas vraiment l'intention de défendre ma position, je dis comment je pense spontanément les choses, mais fondamentalement je me fous un peu de savoir comment on place les frontières entre les domaines d'investigation du savoir humain.) Ce qui m'inquiète, c'est l'effet de myopie disciplinaire.

Que les classes prépa françaises n'enseignent essentiellement que de l'algèbre linéaire, de l'analyse réelle classique et des probabilités, je ne me sens pas spécialement fondé à le critiquer. À un certain niveau, j'aimerais bien qu'on y rencontre la notion de corps fini, mais je comprends qu'il y a plein de choix à faire, que tout le monde tire la couverture à soi, que c'est très politique, etc.

Mais ce que je trouve vraiment regrettable, quand je repense à l'entrée que je viens d'écrire où j'évoque l'idée que le grand public se fait des mathématiques (manipuler des gros nombres ou manipuler des grosses formules), c'est que des élèves qui en ont quand même avalé nettement plus que le grand public aient toujours une idée finalement toujours aussi étroite de ce que sont les mathématiques. C'est-à-dire que je trouve que, même si on n'a pas le temps d'enseigner ceci ou cela de précis, et même si « ça ne sert à rien » (or je ne crois pas que ça ne serve à rien), on doit quand même pouvoir trouver le moyen de faire un survol de ce que sont les branches, et comment elles se nomment, des mathématiques, toutes les mathématiques. (Disons au moins en se donnant comme but que ce ne soit pas une surprise d'apprendre qu'il y a des mathématiciens qui étudient les graphes et qui n'ont qu'un rapport extrêmement lointain avec l'informatique. Mais aussi pour pouvoir leur dire, voyez, ce qu'on va vous enseigner, c'est les parties anciennes de ce tout petit bout-là.) Je pense bien sûr la même chose des autres sciences qu'ils peuvent être amenés à étudier, même si j'ai l'impression — peut-être effet de ma propre myopie — que la « cartographie » des mathématiques est particulièrement mal connue.

↑Entry #2520 [older| permalink|newer] / ↑Entrée #2520 [précédente| permalien|suivante] ↑

↓Entry #2519 [older| permalink|newer] / ↓Entrée #2519 [précédente| permalien|suivante] ↓

(dimanche)

Réflexions décousues sur la vulgarisation mathématique

Bon, il faut peut-être que j'arrête d'intituler mes entrées quelques réflexions sur… ou réflexions décousues sur…, parce qu'à peu près tout ce que j'écris finit par rentrer dans cette forme. Mais j'aime bien me retrancher derrière cette sorte d'excuse quand je ne sais pas très bien à l'avance ce que je vais raconter et/ou que je n'ai pas envie d'essayer d'élaborer un plan. [Ajout : J'ai essayé de faire un plan a posteriori en insérant des intertitres à certains points dans cette entrée, peut-être que ça aide à la lire.]

☞ Vulgarisation à différents niveaux

La vulgarisation mathématique (et occasionnellement, physique) occupe une grande place dans ce blog. Enfin, déjà, il faut se demander ce que le terme vulgarisation recouvre au juste, vu que je parle rarement en faisant l'effort d'être compréhensible par un public complètement non-initié (i.e., Madame Michu — parce que ma maman en a marre d'être prise en exemple de la-personne-qui-ne-connaît-rien-aux-maths), mais je pense qu'il y a justement une place intéressante, et trop peu exploitée, pour toute forme de communication qui s'adresse à un public plus large que les spécialistes mais néanmoins plus étroit que le vulgum pecus, par exemple un scientifique d'un autre domaine, ou un enseignant du secondaire. (Le monde scientifique est tellement cloisonné[#] que les initiatives par lesquelles les biologistes et les informaticiens se tiendraient mutuellement au courant de leurs recherches, hors d'un cadre d'applications directes, sont extrêmement rares, et c'est même le cas entre algébristes et analystes ; et il en va semblablement entre enseignants-chercheurs dans le supérieur et enseignants du secondaire. Tout cela est vraiment triste.) Convenons d'appeler encore ça de la vulgarisation. Je ne sais pas si c'est exactement ça que j'essaie de faire, le niveau auquel je place mon exposition de tel ou tel concept mathématique dépend plus de mon inspiration du moment et de la difficulté du concept lui-même que de l'intention de viser tel ou tel public que je cerne, de toute façon, assez mal. Mais il est certain que j'écris des explications à ces niveaux assez variés[#2], et j'ose espérer qu'au moins une partie de ce que j'ai pu écrire au chapitre vulgarisation mathématique a été compréhensible par le très grand public et qu'au moins une partie a pu être intéressante pour d'autres matheux (et peut-être même que ces parties ont une intersection non-triviale, ce qui serait formidable). Bref.

[#] J'ai déjà plusieurs fois cité Giancarlo Rota à ce sujet : A leader in the theory of pseudo-parabolic partial differential equations in quasi-convex domains will not stoop to being understood by specialists in quasi-parabolic partial differential equations in pseudo-convex domains.

[#2] Enfin, j'ai toujours considéré ça comme évident, mais au moins une personne lisant mon blog (et que je ne dénoncerai pas) ne s'en était pas aperçu. Dès qu'il est question de maths, je ne comprends plus rien… — D'accord, mais est-ce que tu avais bien compris que parfois quand je parle de maths ce n'est pas censé être compréhensible par le grand public et parfois si ? — Hum… Là on peut vraiment considérer que c'est un échec.

☞ Mon intérêt pour la vulgarisation

Bref, je fais souvent de la vulgarisation mathématique, mais je n'ai jamais vraiment parlé de vulgarisation mathématique : pourquoi ça m'intéresse, pourquoi j'en lis, pourquoi j'en fais, etc.

Je suis tombé dans la marmite de la vulgarisation scientifique quand j'étais petit (avouons que mon papa m'a un peu poussé dans la marmite en question), par exemple à travers le livre Cosmos de Carl Sagan (tiré de la série du même nom), ou de One, Two, Three… Infinity de George Gamow (ça fait plus de trente ans que je ne l'ai pas lu, celui-là, je devrais sans doute y jeter à nouveau un œil pour voir ce qu'il contenait), ou encore The Emperor's New Mind de Penrose ainsi que (plus tard) Gödel, Escher, Bach de Hofstadter auquel le livre de Penrose est plus ou moins une réponse, ou enfin Les Trous noirs de Jean-Pierre Luminet.

Et je continue à apprécier la vulgarisation scientifique (en tout cas quand elle est bonne) à différents niveaux. Même quand je n'apprends rien sur le fond, ce qui est rarement le cas ne serait-ce que parce que les vulgarisateurs racontent de l'histoire des sciences en même temps que la science elle-même, j'apprends quelque chose de très important, qui est comment communiquer, justement, avec le grand public, ce qui est loin d'être évident, et d'autant moins évident qu'on parle d'un sujet abstrait comme la physique théorique ou les mathématiques. Une des difficultés de l'exercice est de trouver des analogies ou des images qui respectent le double impératif largement contradictoire d'être parlantes (c'est-à-dire compréhensibles mais aussi éclairantes) et correctes (c'est-à-dire qui évitent de simplifier tellement les choses que ça devient une bouillie de mots qui ne veulent plus rien dire) : c'est quelque chose de véritablement difficile, et j'essaie de retenir les bonnes analogies que je trouve pour pouvoir les resservir éventuellement. Et même quand il s'agit de quelque chose que je connais très bien, il y a toujours quelque chose à apprendre sur comment bien le résumer, comment souligner ce qui est le plus important, quoi mettre en lumière et quoi passer sous silence, etc. À titre d'exemple, le cosmologiste Sean Carroll est, à mon avis, un vulgarisateur extraordinaire, et cette petite série de cinq épisodes de trois ou quatre minutes chacun sur la direction du temps (s'adressant à des gens qui, quand même, ont une certaine culture scientifique générale) est un modèle à suivre de comment expliquer les choses clairement bien que rapidement (ou cet exposé, plus long et sans doute plus élémentaire, sur le même sujet).

Inversement, quand on écrit de la vulgarisation, on apprend toujours quelque chose sur ce sur quoi on écrit. Même quand on pense exposer quelque chose qu'on connaît parfaitement, et quel que soit le niveau auquel on se place, il y aura toujours quelque chose à apprendre, ou au moins à mieux comprendre, dans le processus d'explication. C'est une des raisons qui me pousse à me prêter à l'exercice (et plus généralement, à aimer enseigner), et je pense que cela devrait faire partie de n'importe quel travail de recherche.

☞ Pourquoi j'aime parler de trucs « vieux »

Il y a quand même une chose qui m'agace dans la vulgarisation, en tout cas comme certains la pratiquent, c'est la tendance à surreprésenter les progrès récents (dans le domaine scientifique considéré), voire, la recherche personnelle du vulgarisateur. Je comprends évidemment les raisons qui poussent à ça : il est gratifiant de parler de ce qu'on fait soi-même, et on a envie de montrer au grand public qu'on fait avancer la science, et ce qui se passe « sur le front ». Et inversement, le grand public a sans doute plus envie qu'on lui parle de la physique toute récente que de celle de Newton. L'ennui, c'est que pour bien faire comprendre la physique toute récente, il faut sans doute commencer par bien faire comprendre celle de Newton (puis celle de Maxwell, puis celle d'Einstein et celle de Schrödinger et Heisenberg… enfin, vous voyez l'idée). Forcément, dans le cadre de la vulgarisation, on va sauter des étapes, commettre des approximations, passer des choses sous silence, et peut-être ne faire qu'évoquer Newton pour dire directement des choses sur le boson de Higgs ou les ondes gravitationnelles ou la théorie des cordes ou que sais-je encore. C'est bien, et c'est normal. Mais il est quand même utile qu'il y ait aussi des gens qui vulgarisent Newton, et ce n'est pas forcément si évident que ça, et c'est vraiment utile parce que Newton est quand même bigrement pertinent dans la vie de tous les jours (certainement plus que les ondes gravitationnelles), et d'ailleurs ce serait sacrément utile dans le débat politique si le grand public connaissait un peu mieux la physique, disons, de Boltzmann (par exemple ce que j'en racontais ici). Mais je m'écarte un peu de la question de la vulgarisation pour m'aventurer dans celle de la culture générale scientifique (question sur laquelle j'aurais beaucoup à dire, mais je vais essayer de garder ça pour une autre fois).

Je ne suis pas spécialement tenté, moi, de vulgariser ma propre recherche[#3] (même en mettant de côté le fait que ma propre recherche papillonne dans tous les sens plutôt qu'elle ne progresse dans une direction bien définie). J'en ai déjà déçu plus d'un, comme ça, qui m'invitait à parler devant telle ou telle assistance (par exemple ici) et qui espérait plus ou moins que je parlerais de quelque chose d'un peu actuel : non, j'ai plutôt envie de parler d'objets ou de théories mathématiques qui sont bien connues depuis des dizaines et des dizaines d'années. Ne serait-ce que parce que plus c'est vieux, mieux c'est compris, et mieux on sait, entre autres, quelle est la bonne façon de voir et de présenter les choses. J'aime comparer les maths à un palais magnifique et incompréhensiblement gigantesque, à la structure à la fois labyrinthique et extraordinairement belle, — palais qu'on visite en étant totalement aveugle, si bien qu'on ne peut que tâtonner pour comprendre comment les salles sont agencées et quels bibelots précieux elles contiennent : si je dois emmener un groupe de touristes faire un tout petit tour du palais, je vais plutôt les emmener visiter les salles bien cartographiées que celles qu'on ne sait atteindre que par un chemin compliqué et qui sont peut-être encore en train d'être déterrées par les archéologues (hum, mes métaphores sont un peu mélangées, mais vous voyez l'idée).

[#3] Plus généralement, d'ailleurs, je constate empiriquement que les exposés scientifiques sont d'autant plus intéressants et agréables à écouter (à mon avis personnel à moi que j'ai) que l'orateur ne parle pas de ses propres travaux (c'est la règle au séminaire Bourbaki, mais j'aimerais que plus de séminaires adoptassent le même principe).

☞ Comment communiquer la beauté des mathématiques ?

C'est indiscutablement la beauté des mathématiques, et plus précisément la beauté de certains objets mathématiques, qui me motive à la fois pour faire des maths et pour communiquer autour des maths. La physique m'intéresse mais les maths font bien plus, elles m'émerveillent. J'ai déjà parlé ici et de deux de mes fascinations mathématiques les plus profondes (la symétrie et la « grandeur »), j'ai déjà plein de fois fait références à ces entrées, donc je ne vais pas revenir dessus. Mais étant moi-même envoûté par l'élégance de telle ou telle structure mathématique, j'ai envie de partager cette fascination, pas seulement à mes collègues mais aussi au grand public.

Et la frustration, quand on essaie de communiquer la beauté d'un objet mathématique, est à peu près celle qu'un musicien sourd aurait à essayer d'expliquer à un autre sourd (mais non musicien) la beauté d'une symphonie de Beethoven (compositeur lui-même sourd), qu'il aurait appris à « comprendre » en lisant la partition, mais que personne ne l'aurait jamais entendue jouée. Mes métaphores sont décidément pourries, mais vous voyez l'idée. Mes métaphores sont notamment pourries parce que je suis fermement dans le camp « platonicien » s'agissant des structures mathématique (au moins celles qui sont finitaires), c'est-à-dire convaincu que ces structures préexistent à leur découverte, existent indépendamment du monde matériel ou des lois de la physique (ou de la neurologie du cerveau du mathématicien), et notamment que leur beauté est telle qu'aucun humain n'aurait jamais pu la créer. (Je sais que tout cela peut sembler un tantinet religieux — et je vais revenir là-dessus au sujet d'un chauffeur de taxi. De nouveau, je m'écarte un peu de la question de la vulgarisation, cette fois vers celle de la philosophie des mathématiques, et de nouveau j'aurais beaucoup à dire mais je vais efforcer de garder ça pour une autre fois.) Bref, une meilleure comparaison serait peut-être d'essayer de décrire la beauté de la planète Jupiter dans un monde où tout le monde est aveugle.

Alors on peut faire quelques images. Je fais des choses comme ça sur YouTube et vous en avez vu passer d'autres sur ce blog (comme récemment ici) ou sur des pages web spécifiques (genre ici ou ). Ces images peuvent peut-être aider à commencer de convaincre qu'il y a une forme de beauté dans les mathématiques, mais pour l'essentiel, il ne s'agit que de pâles reflets des objets représentés. L'ensemble de Mandelbrot, on aura peut-être une toute petite idée de sa richesse en jouant à zoomer dessus de façon interactive, en prenant vraiment le temps d'explorer ses recoins, certainement pas en regardant une seule vidéo de zoom. S'agissant de E₈, cette vidéo est jolie et a eu un certain succès (49k vues, quand même !), mais on est littéralement dans la situation de l'allégorie de la caverne de Platon, on regarde la projection en deux dimensions d'un objet plus riche, sauf que cet objet est de dimension 8 (et encore, l'objet de dimension 8, ce n'est que le système de racines de E₈, qui n'est qu'une sorte d'empreinte à partir de laquelle le vrai E₈, le groupe algébrique, est fabriqué, et lui il est de dimension 248). S'agissant des ordinaux, je peux bien représenter ε₀ par des petits bâtons, mais on n'y voit franchement pas grand-chose, et ça ne donne aucune idée de comment « fonctionne » cet ordinal, sans parler d'ordinaux beaucoup plus grands. Pour ce qui est du groupe de Mathieu sur 24 objets, vous pouvez jouer à ce petit puzzle tant que vous voudrez (cf. ici pour les explications), je doute que ça permette de visualiser vraiment le groupe. Quant à ceci, c'est une représentation à peu près fidèle du graphe de Higman-Sims (si tant est qu'on arrive à distinguer les sommets, mais bon, j'ai mis sur Wikipédia les vues les plus importantes), mais ça ne montre pas vraiment ce qui le rend remarquable, on ne peut certainement pas voir le groupe de Higman-Sims là-dedans, et je ne vous parle pas du réseau de Leech dont il s'agit d'un bout vraiment minuscule. (S'il y a un objet mathématique que je donnerais mon âme pour pouvoir « voir » directement, c'est probablement le réseau de Leech. Ce truc est… C'est juste… Comment dire… Aaaah, mais pourquoi 24 ?) Et encore, le réseau de Leech, on peut au moins vaguement imaginer faire quelque chose pour des petits bouts (comme E₈ ou le graphe de Higman-Sims, justement), mais s'agissant de quelque chose comme le groupe monstre (voyez ici pour une tentative de vulgarisation par Numberphile de ce dont il s'agit), c'est peine perdue ; c'est cependant intéressant que Conway, dans la vidéo de Numberphile, compare les groupes simples en général, et le monstre en particulier, à une décoration de Noël et ensuite à une gemme, et semble aussi contrarié que moi de ne pas pouvoir le « voir ». (Il est aussi intéressant qu'il se plaigne de ne pas comprendre pourquoi le monstre existe, mais ça aussi c'est un problème philosophique dont je voudrais parler une autre fois.) Et je ne dis rien des objets fondamentalement infinis dont les mathématiques regorgent. Comment diable pourrait-on représenter βℕ, la Longue Droite ou un cardinal inaccessible ? Tout ça est, je répète, extrêmement frustrant.

Un des buts de la vulgarisation, comme je la comprends, est donc d'essayer de faire comprendre, même en l'absence d'images — ou en présence d'images qui ne sont que des ombres sur le mur de la caverne —, que les mathématiques en général, et certains objets mathématiques en particulier, sont beaux. Et je cherche encore à explorer les manières d'y arriver. Parfois on peut décrire l'objet assez précisément, mais ce n'est pas forcément la bonne façon de communiquer sa beauté (le réseau E₈ peut se décrire comme l'ensemble des octuplets de nombres, qui sont soit tous entiers soit tous entiers-et-demi, et dont la somme est paire, ce n'est vraiment pas compliqué à dire ni à comprendre ; le réseau de Leech a une description un chouïa plus compliquée, mais qu'on peut quand même rendre très terre-à-terre, avec 24 nombres : mais dans un cas comme dans l'autre, ça ne vous donne aucune idée de pourquoi c'est intéressant ou beau, ni pourquoi 8 et 24 sont si remarquables). Une autre approche possible est d'énumérer quelques propriétés remarquables[#4] (par exemple, je peux dire que si vous prenez des boules toutes de même taille en dimension 8 et que vous cherchez à en placer le plus grand nombre possible en contact d'une centrale, sans qu'elles se chevauchent, vous arriverez à en mettre 240 et pas plus, et la manière dont vous aurez placé 240 boules autour d'une centrale sera rigide et les centres formeront le système de racines de E₈ ; et en dimension 24, vous arriverez à en placer 196560 et la configuration sera à symétrie près celle des vecteurs de plus petite norme dans le réseau de Leech ; et je crois qu'il n'y a qu'en dimensions 1, 2, 8 et 24 qu'il y a une telle unicité, en tout cas, elle n'a pas lieu en d'autres dimensions ≤24). Encore une autre approche consiste à décrire les connexions entre différents objets mathématiques, même si on ne les décrit pas précisément (par exemple, si on raconte un peu l'histoire de la classification des groupes simples finis, qui est en quelque sorte l'histoire de la classification de toutes les sortes de symétries finies possibles, on va évoquer les groupes sporadiques, on peut expliquer qu'au sein même de ceux-ci, à part quelques « parias », forment une « famille heureuse » qui compte trois générations, les groupes de Mathieu qui sont essentiellement des symétries sur un ensemble de (12 ou) 24 objets, les groupes qu'on peut voir comme des symétries du réseau de Leech en 24 dimensions, et la troisième génération, dont le monstre, symétries d'un « module de Moonshine », mais ce n'est peut-être pas la bonne façon de voir les choses).

[#4] Reste à savoir dans quelle mesure beau, remarquable et exceptionnel sont synonymes en mathématiques (sans doute pas complètement, c'est sûr). J'avais essayé dans cette entrée de décrire précisément un objet remarquable pas trop compliqué (l'automorphisme exceptionnel du groupe symétrique sur six objets) et d'énoncer — sans démonstration — le fait, qui le rend remarquable, que ça n'est possible que pour six objets et pas un autre nombre (et aussi ses liens avec d'autres objets exceptionnels). Est-ce que ce fait est beau ? J'ai tendance à le trouver.

☞ L'« interaction » avec les objets mathématiques

J'ai tendance à penser que le mieux est que la vulgarisation s'accompagne d'une possibilité d'« interagir » avec l'objet (c'est-à-dire l'explorer de façon interactive, naviguer dedans, jouer avec, quelque chose comme ça). L'informatique ouvre un certain nombre de possibilités dans ce sens. C'est la raison pour laquelle j'ai essayé de faire des pages Web interactives comme mon labyrinthe hyperbolique pour visualiser le (ou plus exactement, un quotient fini du) plan hyperbolique, et — je les ai déjà mentionnés ci-dessus — ce puzzle basé sur le groupe de Mathieu sur 24 objets pour essayer de comprendre ce dernier ainsi que ce navigateur d'ordinaux qui permet de zoomer sur telle ou telle partie de l'ordinal ; et en-dehors des pages Web en JavaScript, j'ai aussi fait (et je suis le zillionième à avoir fait) un programme pour calculer l'ensemble de Mandelbrot qui permet de zoomer de façon interactive. Inspiré de jeux commerciaux tels que Set et Dobble, j'ai aussi fait imprimer des jeux de cartes (voir ici et pour des exemples, j'en ai encore un basé sur la combinatoire des 27 droites sur une surface cubique) autour de structures combinatoires finies, mais le jeu à faire avec ces cartes reste à trouver. Je reviendrai plus bas sur l'idée d'un musée des mathématiques. Mais ce qui est sûr, c'est que cette idée d'interactivité, si elle demande plus d'efforts (de programmation) à déployer, multiplie les possibilités de « représenter » un objet mathématique et de le faire comprendre, ou au moins d'en faire comprendre quelques facettes, par le grand public. Je pense qu'il y a vraiment un terrain de recherche, je veux dire de recherche en vulgarisation, à mener pour trouver toutes sortes de façons de rendre « interactifs » toutes sortes d'objets mathématiques, et qui n'a été que très peu exploré. (Je considère comme un problème ouvert, par exemple, la question de savoir si on peut trouver un puzzle dont le groupe des transformations soit le groupe de Mathieu sur 24 objets, et qui soit réellement jouable et intéressant — ce que ne sont pas mes différentes tentatives dans ce sens. Et je précise que j'ai beaucoup joué avec Gap pour trouver des systèmes de générateurs qui tentent de résoudre ce « problème ouvert ».)

Une autre possibilité d'interaction, d'ailleurs, serait d'utiliser les maths pour faire des tours de magie (de cartes, par exemple) ou des choses de ce genre. On peut dire que la stratégie gagnante du jeu de nim est une forme d'interaction avec les mathématiques, il y en aurait d'autres à chercher dans le domaine de la théorie des jeux (combinatoire ou classique). Ou dans le domaine des codes correcteur (du genre choisissez un nombre entre 0 et 4000 [en fait, 4095], je vais maintenant vous poser 24 questions auxquelles vous répondrez par oui ou non pour essayer de deviner ce nombre, mais pour me compliquer la tâche vous aurez le droit de mentir à jusqu'à trois questions et je devrai quand même retrouver votre nombre (ou même, vous pouvez mentir quatre fois, mais dans ce cas ma seule obligation est de détecter le fait que vous aurez menti quatre fois) ; l'astuce est d'utiliser un bon code correcteur ; les questions prendront toutes la forme de votre nombre est-il dans la liste des 2048 suivants ?, ce qui n'est pas très drôle, mais on peut facilement mettre ça dans un ordinateur).

Après, pour revenir à la question de la beauté, je ne sais pas si l'interactivité permet vraiment de faire passer ce concept : cela permet de mieux faire comprendre l'objet, sans doute, et certainement de mieux faire comprendre qu'il y a un objet à faire comprendre (si je gagne systématiquement au jeu de nim, cela démontre — au sens usuel et pas mathématique — que j'ai bien une forme de stratégie qui me permet d'y arriver), mais la beauté, je ne sais pas vraiment.

☞ Vulgarisation des objets, ou vulgarisation des histoires

Ma conception de la vulgarisation, qui se concentre sur les objets mathématiques, n'est pas forcément bien partagée, même par ceux qui essaient d'en faire. Il y a d'autres approches que d'essayer de décrire / présenter / visualiser / rendre interactifs des objets mathématiques : on peut vulgariser en racontant l'histoire des mathématiques ou en racontant des histoires des mathématiques (vu de haut, par exemple, quelles sont les principales branches des mathématiques et comment elles interagissent et interagissent avec d'autres sciences ou disciplines ; ou l'histoire de telle ou telle aventure mathématique, comme la classification des groupes simples finis[#5]). J'aime à croire qu'il faut mélanger les approches, mais que la présentation d'objets mathématiques précis est importante et qu'il ne faut pas trop céder à la facilité de « raconter des histoires ».

[#5] Dans le genre de la vidéo de Numberphile que j'ai déjà liée ci-dessus, ou, en plus sérieux, du livre Symmetry and the Monster de Mark Ronan, que je recommande (malgré sa façon un peu agaçante d'utiliser le terme atom of symmetry pour désigner les groupes simples finis parce qu'il pense que ce sera plus parlant pour le grand public — je comprends l'idée, la comparaison est bonne, mais utiliser ce terme dout du long est tout de même un peu abusif).

☞ Que pense l'homme de la rue des mathématiques ?

En un certain sens, il me semble que les maths sont très en retard sur d'autres sciences dans le domaine de la vulgarisation, et peut-être même simplement au niveau de la culture générale : les termes d'ADN ou de trou noir sont devenus familiers au grand public, je ne suis pas certain qu'on puisse trouver un concept mathématique de découverte à peu près aussi récente et qui soit à peu près aussi connu. La notion même de cryptographie (et ne serait-ce que le terme cryptographie), alors qu'elle a un impact concret dans la vie quotidienne de n'importe qui va sur Internet, n'a franchement pas l'air connu du grand public comme je m'en suis aperçu en en parlant à des gens comme mon coiffeur.

Il faut dire que l'exposition principale qu'a le grand public avec les mathématiques, c'est-à-dire ce qu'on lui en a enseigné à l'école, est incroyablement rébarbative. Donc j'imagine que beaucoup de gens pensent que les mathématiciens passent leur temps à faire de gros calculs : soit avec des nombres soit, pour ceux qui sont allés un peu plus loin dans l'enseignement secondaire, avec des formules symboliques (c'est un petit peu moins faux, et il y a assurément des mathématiciens qui manipulent des formules compliquées, peut-être même des nombres, mais c'est tout de même extraordinairement réducteur). La notion de raisonnement déductif étant, je crois, devenue presque obscène dans les programmes scolaires français jusqu'au bac, l'activité principale du mathématicien, la démonstration, devient complètement étrangère[#6] à ceux qui ont suivi cet enseignement. (Bon, là aussi, je me mets à digresser, et j'aurais sans doute beaucoup à dire sur le sujet de l'enseignement scolaire, mais pour ça je veux d'abord trouver le temps de lire le rapport Villani-Torossian.) Et en tout cas, sauf travail intensif de vulgarisation, je ne vois pas ce qui pourrait, a priori, donner la moindre idée au grand public que les mathématiques (ou des objets mathématiques particuliers) puissent être belles. Utile, il doit en avoir quelque idée, mais là aussi je veux m'interdire de trop digresser sur la question de comment on doit essayer de justifier, auprès du grand public et dans le débat politique, la science pure (non appliquée) et son financement.

[#6] J'ai essayé dans cette entrée de faire de la vulgarisation consistant à donner une démonstration complète, à un niveau complètement élémentaire, d'un énoncé mathématique non-trivial (et vaguement récent). Et à travers certaines des questions qu'on m'a posées dans les commentaires, j'ai pu me rendre compte qu'il y a beaucoup d'éléments du raisonnement mathématique (que ce soit des techniques de démonstration ou simplement des conventions sur la manière dont on les écrit en français) qui sont problématiques à expliquer.

Peut-être que je me trompe. Un jour il y a longtemps, j'ai pris un taxi pour une course assez longue, le chauffeur s'est mis à bavarder avec moi, il m'a demandé ce que je faisais, j'ai dit que j'étais mathématicien, je m'attendais à une des réactions habituelles comme oh j'ai toujours été nul en maths (ou au contraire j'étais plutôt bon en maths mais j'ai arrêté), mais il m'a dit quelque chose qui m'a beaucoup surpris, c'est qu'il était persuadé que faire des mathématiques était comme lire l'esprit de Dieu. (Il était musulman : peut-être cela joue que l'islam enseigne que la divinité est parfaite et ne peut être représentée que de façon symbolique — il y a plus d'un mathématicien « platonicien » qui pense ce genre de choses de l'univers mathématique ou de tel ou tel de ses habitants.) J'aurais dû lui demander ce qui lui avait donné une telle perspicacité, en tout cas je trouve que c'est une façon vraiment intéressante de penser les choses.

Comme prévu, je pars un peu dans tous les sens et tout ceci est assez décousu. Mais pour revenir à l'intérêt et à l'importance de la vulgarisation, il faut sans doute que je cite Hilbert :

Ein alter französischer Mathematiker hat gesagt: Eine mathematische Theorie ist nicht eher als vollkommen anzusehen, als bis du sie so klar gemacht hast, daß du sie dem ersten Manne erklären könntest, den du auf der Straße triffst.

(Un vieux mathématicien français a dit: Une théorie mathématique ne doit pas être considérée comme complète tant qu'on ne l'a pas rendue si claire qu'on puisse l'expliquer au premier homme qu'on croise dans la rue.)

— Mathematische Probleme (exposé au congrès international des mathématiciens, Paris 1900)

(Je n'ai pas réussi à retrouver qui est le mathématicien français en question, peut-être que Hilbert l'a plus ou moins inventé.)

☞ Sur les fascinations des « mathématiciens du dimanche »

Un autre point sur lequel je devrais dire un mot concerne la manière dont les mathématiciens amateurs se fascinent pour tel ou tel type de mathématiques. Les nombres premiers, par exemple, ou les décimales de π en base 10. Et s'évertuent à chercher de l'ordre dedans, ou quelque chose de ce genre. Je suis sûr (je préfère ne pas chercher, ce genre de choses m'énerve) qu'il y a plein de gens qui ont fait de la musique composée à partir des décimales de π (et que la plupart de ceux qui ont fait ça n'ont même pas, au minimum, écrit π en base 12 s'il s'agit de jouer sur la gamme tempérée dodécaphonique usuelle). C'est un peu ironique parce que (a) toutes les conjectures vont dans le sens que les décimales de π se comportent essentiellement comme du pur hasard, c'est-à-dire comme la chose la plus chiante et inintéressante à écouter en musique et dans laquelle on ne trouvera aucun ordre intéressant (s'agissant des nombres premiers, c'est un peu plus compliqué parce que leur proportion décroît — logarithmiquement — mais l'idée est vaguement la même), et (b) on ne sait d'ailleurs essentiellement rien prouver d'intéressant dans le sens de telles conjectures (ni même vraiment formaliser autre chose que des variantes très faibles comme conjecturer que toute suite finie de chiffres se trouvera dans les décimales de π en n'importe quelle base fixée avec la même fréquence asymptotique que dans une suite aléatoire de chiffres de cette base, ce qui est certainement vrai mais qu'on est à des années-lumières de savoir prouver). Bon, tant mieux pour eux si les mathématiciens du dimanche ont envie d'accumuler les questions du genre il existe une infinité de nombres premiers p tels que les nombres p−6 et (2p)−1 soient également premiers (conjecture de Tartempion Dugenou : je ne sais pas si quelqu'un a déjà sorti celle-là précisément, mais on peut facilement générer une infinité de telles conjectures sur lesquelles personne ne saura rien dire), mais j'ai l'impression qu'à se focaliser sur des bouts des maths qui sont faciles à comprendre mais sur lesquels il n'y ait finalement pas grand-chose à dire en tout cas dans cette ligne d'idée, ils passent à la fois à côté de la beauté plus profonde des mathématiques et à côté de domaines où ils (des amateurs) pourraient faire des contributions utiles. Un des buts de la vulgarisation devrait être, selon moi, de montrer aux passionnés de ce genre qu'ils peuvent se passionner pour quantité d'autres choses que les nombres premiers et les décimales de π.

☞ Sur un musée des mathématiques

J'ai entendu des rumeurs autour de la possibilité de créer à Paris un musée des mathématiques. Je sais que Cédric Villani était enthousiaste de cette idée, maintenant qu'il s'est lancé en politique j'ai peur qu'il y ait une équation de conservation qui fait que s'il a plus de pouvoir pour faire avancer les choses il a aussi moins de temps à y consacrer, donc je ne sais pas si ce projet verra vraiment le jour. (J'ai trouvé ceci, qui est récent et sans doute en rapport, donc je suis plutôt optimiste.) Cela sera peut-être l'occasion de réfléchir à comment rendre les mathématiques interactives (parce que l'interactivité est particulièrement importante dans le cadre d'un musée où, contrairement à un musée d'histoire ou d'histoire naturelle, on n'a pas de choses uniques à mettre dans des vitrines) ; la principale difficulté que je vois dans un musée est que le visiteur n'a sans doute pas envie de lire de longues explications, et que si on veut dépasser le stade ah, c'est joli, il est difficile de faire l'économie d'explications. Je ne sais pas ce que valent les quelques musées des maths qui existent déjà dans le monde (la seule fois où je suis allé à New York j'ai appris trop tard l'existence du MoMath), mais les quelques salles consacrées aux maths dans des musées de sciences que j'ai pu visiter m'ont souvent semblé assez décevantes (surtout par leur caractère hétéroclite et désorganisé : on rassemble au même endroit un tas de trucs qui n'ont guère de rapport entre eux, et on laisse le spectateur sans fil directeur, sans idée de quelles maths exposées sont vieilles ou récentes, faciles ou difficiles…).

Ajout () : Je suis tombé sur cette vidéo de vulgarisation mathématique ou peut-être, plutôt, de méta-vulgarisation, qui insiste sur l'importance du choix des bonnes analogies. Je ne suis pas forcément d'accord avec la qualité des analogies qu'il décrit, ou surtout, avec l'idée que l'une doit remplacer l'autre (elles doivent plutôt s'additionner), mais la vidéo est intéressante au moins dans le contexte de cette entrée.

↑Entry #2519 [older| permalink|newer] / ↑Entrée #2519 [précédente| permalien|suivante] ↑

↓Entry #2518 [older| permalink|newer] / ↓Entrée #2518 [précédente| permalien|suivante] ↓

(vendredi)

Quelques notes sur la factorisation des entiers

J'ai donné mardi un exposé à des professeurs de classes préparatoires, dans le cadre d'un journée Télécom-UPS, sur la factorisation des entiers (l'idée était que je fisse un exposé général introductif sur le problème, qu'un de mes collègues donnât un exposé sur les courbes elliptiques et qu'un autre organisât un TP sur l'algorithme de Lenstra). Mes transparents ne sont sans doute pas très intéressants parce que je les ai écrits à la quatrième vitesse (quoi, le 15 mai c'est demain ? mais j'étais persuadé que c'était mercredi !), ils contiennent d'ailleurs du coup sans doute beaucoup d'erreurs ou d'approximations, et je les ai accompagnés d'énormément d'explications à l'oral ; mais à tout hasard, les voici.

↑Entry #2518 [older| permalink|newer] / ↑Entrée #2518 [précédente| permalien|suivante] ↑

↓Entry #2512 [older| permalink|newer] / ↓Entrée #2512 [précédente| permalien|suivante] ↓

(mardi)

Encore de jolies images quasipériodiques

Encore un peu d'art mathématique construit autour de l'élégance du nombre 7 et de la quasipériodicité. Cette fois-ci, je vais faire travailler votre navigateur plutôt que calculer les images moi-même (l'image qui suit, normalement, est animée et change de temps en temps ; sa périodicité est d'une semaine de 10 minutes et 04.8 secondes [correction () j'avais fait une erreur d'un facteur 1000 parce que JavaScript renvoie le temps en millisecondes et pas en secondes]) :

Jeu de couleurs : Échelle :

M'étant fatigué à programmer ça, j'avoue que j'ai maintenant un peu la flemme d'expliquer de quoi il s'agit (surtout que je ne suis pas sûr d'en avoir une idée si précise moi-même), et je suis un peu tenté de dire vous n'avez qu'à lire le source JavaScript, il n'est pas obfusqué. Mais pour dire quand même un peu d'où ça sort, je suis parti d'une jolie construction de pavages de Penrose décrite dans un article de Nicolaas Govert de Bruijn, Algebraic theory of Penrose's non-periodic tilings of the plane, I, Nederl. Akad. Wetensch. (=Indag. Math.) 43 (1981), 39–42 (notamment §4), et j'ai remplacé 5 par 7 un peu partout (on peut d'ailleurs changer seven = 7 par d'autres valeurs dans mon code et voir ce que ça fait, ça devrait marcher ou au moins marchouiller) et supprimé une hypothèse qui a sans doute un intérêt pour cet article mais pas vraiment s'il s'agit juste de faire de « jolies images ». (Cet article m'avait été présenté par un candidat au moment où j'étais examinateur aux TIPE à l'ENS. J'avais écrit du code à ce moment-là, mais je n'avais pas bien compris comment fabriquer quelque chose de symétrique, et par ailleurs je coloriais les morceaux de façon bizarre, donc ça ne donnait pas un résultat très beau ; j'y ai repensé en écrivant l'entrée précédente.)

Très sommairement, la construction est la suivante : on part de sept familles de droites parallèles régulièrement espacées dont les directions sont séparées des multiples de 2π/7 (dans un premier temps, on pourra imaginer que l'origine du plan est à mi-chemin entre deux droites dans chaque famille) : appelons ça une heptagrille. On fait l'hypothèse qu'il n'y a pas de points où trois droites différentes de l'heptagrille se coupent. Le pavage sera en quelque sorte dual de l'heptagrille, au sens où à chaque intersection de deux droites de l'heptagrille on va associer un losange du pavage (et chaque sommet du pavage est associé à une composante connexe du complémentaire de la réunion des droites de l'heptagrille). Pour calculer les coordonnées d'un point du pavage, on commence par attribuer des valeurs entières aux bandes délimitées par les droites de chaque famille de l'heptagrille, disons de façon que l'origine ait la valeur 0 : pour un point P « général » du plan où vit l'heptagrille (« général » c'est-à-dire non situé sur une droite) on a ainsi sept valeurs entières k₀,…,k₆, selon les bandes où il se situe, et on associe à P le point Φ(P) du plan complexe somme des kj·ζjζ=exp(2iπ/7) est une racine septième de l'unité ; si le point P est sur une droite, l'un des kj va prendre deux valeurs entières adjacentes au voisinage de P, et s'il est sur deux droites à la fois, on va avoir deux des kj qui prennent deux valeurs adjacentes : les quatre points associés par Φ (i.e., sommes des kj·ζj) sont alors les quatre sommets d'un losange du pavage. Ceci définit le pavage, qu'il est facile de construire en énumérant tous les points de croisement de droites de deux familles de l'heptagrille. (La forme du losange est déterminée par l'écart entre les angles des deux droites qui s'intersectent au point auquel il est associé.) Pour muter le pavage, on peut décaler les différentes familles de droites constituant l'heptagrille (si le décalage est le même pour chaque famille, la symétrie est conservée).

Bon, la description ci-dessus est certainement assez obscure, mais je n'ai pas le temps d'expliquer mieux. Par ailleurs, il y a certainement quelque chose d'intelligent à dire qui fait intervenir les mots système de racines de type A et plan de Coxeter, mais là, tout de suite, comme ça, je ne vois pas bien.

Ajout () : J'ai ajouté un sélecteur pour afficher ça en couleurs (les couleurs sont choisies d'après l'orientation des losanges). Mais je continue à préférer nettement la version en teintes de gris (choisies d'après la forme des losanges). Nouveaux ajouts : J'ai aussi ajouté de quoi changer l'échelle, et de quoi se déplacer (cliquer+déplacer la souris), voir aussi l'entrée suivante.

↑Entry #2512 [older| permalink|newer] / ↑Entrée #2512 [précédente| permalien|suivante] ↑

↓Entry #2511 [older| permalink|newer] / ↓Entrée #2511 [précédente| permalien|suivante] ↓

(lundi)

Je fais de jolies images avec la transformée de Fourier

[Transformée de Fourier d'un carré]

[Transformée de Fourier d'un hexagone]

[Transformée de Fourier d'un octogone]

[Transformée de Fourier d'un décagone]

[Transformée de Fourier d'un dodécagone]

[Transformée de Fourier d'un tétradécagone]

[Transformée de Fourier d'un hexadécagone]

[Transformée de Fourier d'un octadécagone]

[Transformée de Fourier d'un icosagone]

[Transformée de Fourier d'un doicosagone]

[Transformée de Fourier d'un tétraicosagone]

Pour une fois, cette entrée mathématique n'a aucun autre but que de « faire joli ». Il y a peut-être des choses intéressantes à dire à ce sujet (et ces choses intéressantes font peut-être intervenir des mots comme quasi-cristal ou pavage de Penrose), mais je n'ai pas vraiment envie d'y réfléchir.

Les images ci-contre à droite (faites défiler vers le haut et vers le bas, ou voyez ici sur Imgur) représentent les transformée de Fourier de polygones réguliers, et plus exactement des n-gones réguliers pour n pair allant de 4 à 24. Elles sont représentées par des nuances de gris pour les valeurs positives (où 0=noir et n=blanc) et des nuances de bleu pour les valeurs négatives (où 0=noir et −n=bleu intense). Ce que j'appelle transformée de Fourier d'un n-gone régulier (ou plus exactement, des sommets du polygone — je ne trouve pas de tournure qui ne soit pas invraisemblablement lourde), c'est la transformée de Fourier d'une somme de n distributions δ, l'une centrée en chaque sommet du n-gone (le n-gone étant lui-même centré à l'origine). Plus concrètement, la fonction tracée est donc la somme de n ondes planes (toutes en phase à l'origine) partant dans chacune des n directions régulièrement espacées autour de l'origine :

k=0n1 exp 2iπ cos2kπn x + sin2kπn y

(Ou, pour les navigateurs pourris qui ne gèrent pas le MathML : ∑k=0n−1exp(2iπ·(cos(2kπ/nx+sin(2kπ/ny)).) Pour n pair, ceci est bien une fonction réelle, et elle possède une symétrie de rotation d'ordre n autour de l'origine. Contrairement à l'impression qu'on peut avoir, elle n'est pas périodique (sauf dans les cas « cristallographiques » n=4 et n=6, qui ne sont pas franchement passionnants), seulement quasi-périodique. Il n'est pas concevable une seule seconde que je sois le premier à mettre de telles images en ligne mais, bizarrement, je ne trouve pas comment d'autres gens ont pu les appeler.

On pourra noter que quand n tend vers l'infini, la fonction (correctement renormalisée) tend (en un certain sens, que je n'ai vraiment pas envie de chercher à préciser) vers une fonction de Bessel de première espèce J de la distance à l'origine : c'est ce qu'on commence à voir par le jeu d'anneaux concentriques autour de l'origine pour n grands.

Bon, enfin, ce qui importe surtout c'est que ce soit visuellement plaisant, et je trouve que ça l'est.

Comme la fonction n'est pas périodique, ça pourrait être intéressant (surtout pour n modérément grand) d'en faire un « explorateur » interactif en JavaScript, où on pourrait se déplacer dessus, zoomer ou dézoomer, et ce serait calculé en temps réel. Mais j'avoue que je n'ai pas la patience de programmer ça.

En revanche, pour ceux qui trouvent que mes images 2D ci-dessus sont trop statiques, je peux vous proposer une version 3D, qui consiste à faire la transformée de Fourier d'un polyèdre régulier et de la « trancher » en tranches 2D (c'est-à-dire, d'afficher des valeurs dans des plans parallèles les uns aux autres) selon une direction de plan qui présente une symétrie maximale (plan de Coxeter) : j'ai mis ça sur YouTube, et vous pouvez voir la transformée de Fourier d'un icosaèdre régulier et celle d'un dodécaèdre régulier (le plan de Coxeter fournit une symétrie d'ordre 10 : c'est la direction de plan parallèle à deux faces opposées quelconques du dodécaèdre). Là aussi, j'ai du mal à comprendre pourquoi une recherche Google de Fourier transform of dodecahedron ou variantes ne donne essentiellement rien (à part des choses que j'ai moi-même calculées, dont une vieille version des mêmes vidéos) : même si ça ne doit servir qu'à « faire joli », c'est pourtant quelque chose d'éminemment naturel à regarder, il me semble.

(J'ai vaguement imaginé, aussi, calculer la transformée de Fourier de polygones et polyèdres pleins, et aussi de leurs facettes et arêtes, mais outre que ce serait excessivement pénible à calculer, je pense que ce serait très décevant, en fait : ça ressemblerait sans doute à peu près la même chose mais en s'atténuant très vite quand on s'écarte de l'origine.)

↑Entry #2511 [older| permalink|newer] / ↑Entrée #2511 [précédente| permalien|suivante] ↑

↓Entry #2507 [older| permalink|newer] / ↓Entrée #2507 [précédente| permalien|suivante] ↓

(mercredi)

Le progrès récent sur le problème de Hadwiger-Nelson

J'ai déjà parlé à plusieurs reprises du problème de Hadwiger-Nelson sur ce blog (ici en général, et ici pour mes malheurs personnels liés à ce problème), et il faut que j'en reparle puisqu'il y a eu un progrès considérable. Le problème de Hadwiger-Nelson a ceci de sympathique que c'est un problème de mathématique de niveau recherche (au sens empirique où il y a, effectivement, des mathématiciens professionnels qui ont fait de la recherche dessus et publié des choses à son sujet) dont un bon élève de primaire peut comprendre l'énoncé, un bon collégien peut comprendre les meilleures bornes connues jusqu'à la semaine dernière, et un bon lycéen peut les trouver lui-même. (Enfin, quelque chose comme ça.) Je rappelle l'énoncé :

Trouver le plus petit nombre χ de couleurs nécessaires pour colorier le plan de manière à ce qu'il n'y ait jamais deux points situés à distance 1 l'un de l'autre et qui aient la même couleur.

Ce χ s'appelle le nombre chromatique du plan ou nombre [chromatique] de Hadwiger-Nelson. Jusqu'à la semaine dernière, tout ce qu'on savait était que 4≤χ≤7.

Le fait que χ≤7, c'est-à-dire que sept couleurs suffisent, est montré par un coloriage explicite (d'un pavage du plan par des hexagones) avec 7 couleurs, coloriage qui est représenté par le dessin ci-contre à droite que je recopie de ma précédente entrée sur le sujet ; l'unité de longueur est figurée par le trait noir dans le coin en haut à gauche de la figure : quel que soit l'endroit où on le place et la manière dont on le tourne, les deux extrémités tombent toujours sur deux couleurs différentes ; et le problème est, donc, de savoir si on peut faire ça avec strictement moins de sept couleurs.

La minoration χ≥4 (c'est-à-dire qu'au moins quatre couleurs sont nécessaires), elle, est démontrée par un graphe fini tout à fait explicite, appelé Moser's spindle (fuseau de Moser ?) : je le recopie lui aussi de mon entrée précédente (ci-contre à gauche), toutes les arêtes représentées ont la même longueur (l'unité de longueur), et il n'est pas possible de colorier ses sommets avec seulement trois couleurs de façon que deux sommets reliés par une arête ne soient jamais de la même couleur. (En effet, si on ne dispose que de trois couleurs, chaque triangle équilatéral de côté 1 [du graphe] doit avoir un sommet de chaque couleur, du coup, dans le graphe représenté à gauche, chacun des deux sommets en haut à droite a la même couleur que celui en bas à gauche, donc ils ont la même couleur l'un que l'autre, or ils sont reliés par une arête.) Bref, dans tout coloriage du plan avec 3 couleurs, il y en a deux situés à distance 1 qui ont la même couleur.

Si vous n'aimez pas le fuseau de Moser, vous pouvez aussi utiliser le graphe de Golomb, représenté ci-contre à gauche (lui n'était pas dans l'entrée précédente, il faut bien que je m'embête un peu à faire du SVG et à calculer que les coordonnées d'un point valent (1,√11)/6), qui est plus joli et plus symétrique. Comme le fuseau de Moser, il n'est pas coloriable avec trois couleurs : si on a seulement trois couleurs, une fois qu'on en donne une au point central, les six points à distance 1 de lui doivent partager les deux autres couleurs en alternance, et notamment les trois qui sont reliés au triangle « oblique » sont de la même couleur, ce qui ne laisse que deux couleurs pour colorier ce dernier.

Bref, la minoration vient de graphes finis tout à fait explicites.

En fait, on sait à cause d'un théorème de compacité (que les théoriciens des graphes appellent le théorème d'Erdős et de Bruijn, et que les logiciens considèrent comme une conséquence immédiate du théorème de compacité du calcul propositionnel) que toute minoration sur χ s'obtient par un graphe fini, c'est-à-dire que χ est aussi la plus grande valeur possible du nombre de couleurs d'un graphe de ce genre. Donc on peut reformuler le problème de Hadwiger-Nelson de la façon suivante :

Trouver le plus petit nombre χ de couleurs nécessaires pour colorier un nombre fini quelconque de points du plan de manière à ce qu'il n'y ait jamais deux points situés à distance 1 l'un de l'autre et qui aient la même couleur.

(Le « fuseau de Moser » ci-dessus étant à comprendre comme l'ensemble de sept points qui sont les sommets tracés : on ne peut pas colorier cet ensemble de sept points avec trois couleurs donc χ≥4.)

Jusqu'à la semaine dernière, donc, c'est tout ce qu'on savait. Toute recherche sur ce problème a porté sur des analogues ou des généralisations (nombre chromatique de l'espace, nombre chromatique du plan à coordonnées dans ceci-cela, nombre chromatique fractionnaire, ce genre de choses).

Voilà que, dimanche, un certain Aubrey (David Nicholas Jasper) de Grey a mis un papier sur l'arXiv prouvant que χ≥5 : i.e., dans tout coloriage du plan avec 4 couleurs, il y en a deux situés à distance 1 qui ont la même couleur. (Je l'ai appris par un commentaire sur ma première entrée au sujet du problème.)

C'est assez sidérant pour plusieurs raisons. D'abord parce que c'est quand même un problème sur lequel on est restés coincés pendant environ 50 ou 60 ans (l'histoire du problème est elle-même assez tarabiscotée, mais il semble que Nelson l'ait imaginé dans les années '50 et qu'il — le problème — soit devenu célèbre une petite dizaine d'années plus tard). Mais aussi parce le de Grey auteur du papier n'est pas mathématicien (ou en tout cas, pour éviter de se mouiller sur ce que mathématicien veut dire, il n'est pas mathématicien de profession, et ne semble pas avoir fait de contributions aux mathématiques avant ça) ; il est « biogérontologue », connu pour ses positions contre le vieillissement, et considéré par certains comme un gourou voire un crackpot (le fait qu'il ressemble à Gandalf doit aider ce genre de préjugés). Il ne faut pas croire sur parole n'importe quel papier mis sur l'arXiv surtout quand il annonce un résultat « spectaculaire », mais, en l'occurrence, (1) le papier est bien écrit (les arguments sont rapides mais clairs et écrits dans le style habituel dans lequel on écrit les mathématiques), et de toute façon (2) une fois connu le graphe construit, il est modérément facile de vérifier le résultat par ordinateur, des gens ont déjà vérifié qu'un des graphes décrits par de Grey est réalisable avec distance 1[#] et (au moyen d'un SAT-solver) n'est pas 4-coloriable[#2], donc le résultat principal est certifié valable (nonobstant d'éventuelles erreurs très mineures dans la description).

[#] Ici et dans la suite, j'emploie le terme réalisable avec distance 1 pour dire que le graphe est réalisable comme un ensemble de points dans le plan de sorte que toutes les arêtes aient longueur 1. (On peut éventuellement demander que, réciproquement, chaque paire de points à distance 1 donne effectivement une arête du graphe ça ne changera rien puisque ajouter des arêtes ne peut qu'augmenter le nombre chromatique.)

[#2] Ici et dans la suite, j'emploie le terme k-coloriage pour signifier, bien sûr, un coloriage avec k couleurs de façon que deux sommets reliés par une arête (i.e. à distance 1) ne soient jamais de la même couleur ; et k-coloriable pour dire qu'un k-coloriage existe.

Mais pour être épatant, ce résultat est aussi un peu frustrant, je vais essayer de dire pourquoi.

Quand j'avais commencé à réfléchir au problème de Hadwiger-Nelson, ma première intuition était que χ=7 était sans l'ombre d'un doute la bonne valeur, et qu'il s'agissait juste de trouver de bons graphes, et que, si on ne les connaissait pas, c'était juste qu'on n'avait pas cherché assez fort, notamment avec des ordinateurs. (Cette intuition initiale est donc confirmée par le résultat de de Grey, mais je ne vais pas dire ha ha, j'avais raison, puisque, comme je vais l'expliquer, j'ai ensuite changé d'avis.) En gros, ce qui fait « marcher » le « fuseau de Moser » représenté ci-dessus est qu'on a le triangle équilatéral dont les 3-coloriages sont très peu nombreux, donc suffisamment rigides pour qu'on arrive à les combiner pour fabriquer un graphe plus gros qui n'est pas 3-coloriable. L'espoir, ensuite, serait que les 4-coloriages du fuseau (ou du graphe de Golomb) soient assez rigides pour qu'on arrive à combiner plusieurs fuseaux pour former un graphe qui ne soit pas 4-coloriable. Et qu'on puisse monter encore un coup pour former un graphe qui ne soit pas 5-coloriable, puis un qui ne soit pas 6-coloriable, ce qui démontrerait χ=7.

Plus tard, j'étais beaucoup moins convaincu de χ=7 : la raison est que j'ai essayé de réfléchir à comment on pourrait construire des graphes réalisable avec distance 1 et qui ne soient pas 4-coloriables, et j'ai eu l'impression de buter contre des problèmes insurmontables. Comme je le dis au paragraphe précédent, on peut essayer de combiner des fuseaux de Moser (ou des graphes de Golomb) et essayer de limiter leurs possibilités de 4-coloriages jusqu'à toutes les tuer. Mais j'ai un peu essayé et je m'y suis salement cassé les dents : tout me semblait suggérer que plus on augmente le nombre de sommets plus les possibilités de 4-coloriages se multiplient, plus vite qu'on arrive à les tuer en ajoutant des arêtes. Pour être un peu moins vague, j'ai eu l'impression que la seule façon exploitable de fabriquer des graphes réalisables avec distance 1 dans le plan est de prendre deux graphes G₁,G₂ déjà réalisés avec distance 1 et utiliser une isométrie plane sur G₂ (en faixant G₁) pour imposer des identifications de sommets ou fabriquer des arêtes, mais pour ça, on n'a que très peu de degrés de liberté (le groupe des isométries planes est de dimension 3), donc, sauf coïncidences, on ne peut ajouter essentiellement que trois arêtes (ou une identification de sommet et une arête) ; j'ai eu l'impression que « sauf coïncidence », tout ceci devrait conduire à une borne sévère sur la dégénérescence des graphes réalisables avec distance 1, donc sur leur nombre chromatique ; en fait, qu'ils devaient être des graphes de Laman — « sauf coïncidence », donc, mais je ne voyais pas comment fabriquer des « coïncidences » intéressantes. Bref, tout ça pour dire que j'ai essayé justement l'approche que de Grey fait marcher, que je n'ai pas du tout réussi à en faire quoi que ce soit, et que je me suis même mis à penser que ça ne pouvait pas marcher « sauf coïncidence » mais que ce serait extraordinairement difficile de prouver l'inexistence de telles « coïncidences » ou, a contrario, d'en fabriquer. Du coup, j'ai commencé à douter que χ=7 soit la bonne valeur (je ne prétends pas que j'étais convaincu que χ=4, mais que ma foi dans le fait que χ=7 s'était envolée jusqu'à ce qu'on me signale la trouvaille de de Grey).

Ajout : Un autre de mes espoirs était qu'on puisse chercher à extraire un graphe de nombre chromatique au moins 5 (voire 6, voire 7) comme un sous-graphe de l'analogue de Hadwiger-Nelson sur un corps fini, disons le graphe (ℤ/pℤ)² avec une arête entre (x₁,y₁) et (x₂,y₂) lorsque (x₂−x₁)² − (y₂−y₁)² = 1. (La motivation étant que si un graphe plan est réalisable avec distance 1, il est aussi réalisable à coordonnées algébriques, ces coordonnées de scindent modulo un ensemble de densité >0 de nombres premiers p, donc imposent la même inégalité sur les nombres chromatiques des (ℤ/pℤ)² pour la relation que je viens de dire.) Évidemment, cet espoir était naïf — mais vu que les coordonnées du graphe calculé par de Grey sont dans des extensions assez petites de ℚ comme je le soupçonnais, ce n'était pas complètement stupide non plus.

C'est dire que je suis surpris par le tour de force. La lecture du papier lui-même est un peu décevante, cependant : il y a un mélange de raisonnements « à la main » sur les 4-coloriages de graphes de plus en plus grands réalisables avec distance 1, et de vérifications par ordinateur (avec différentes astuces pour rendre la vérification plus gérable), mais au final je ne suis pas vraiment Éclairé sur la manière dont il arrive à obtenir suffisamment d'arêtes eu égart au nombre de sommets (le graphe réalisable avec distance 1 et non 4-coloriable dont Dustin Mixon publie le fichier de données sur son blog — revoici le lien — a 1585 sommets et 7909 arêtes), ou sur la raison pour laquelle je m'étais trompé en pensant qu'il était très difficile d'obtenir une grande dégénérescence.

Ce qui est frustrant, c'est que ce progrès rend le problème de Hadwiger-Nelson beaucoup moins intéressant. Peut-être que la presse généraliste va s'en emparer (et raconter des conneries), et il va sans doute y avoir des efforts renouvelés pour construire des graphes plus simples prouvant χ≥5 (cf. ici) ou pour pousser jusqu'à χ≥6 voire χ=7, mais mathématiquement, le problème a un peu perdu de sa beauté. Pourquoi ? Déjà parce qu'on ne peut plus donner ça comme un exemple de problème où l'état de l'art correspond à ce qu'un lycéen peut trouver tout seul. Mais surtout je suis maintenant revenu à mon intuition première, et complètement convaincu d'une part que χ=7 et d'autre part que des graphes le démontrant peuvent se construire avec des techniques de type « dupliquer et identifier » et des recherches sur ordinateur (à supposer qu'ils ne soient pas trop grands). Il aurait été beaucoup plus intéressant de chercher à montrer que certains graphes ne peuvent pas exister que de chercher à les exhiber.

Après, on peut s'intéresser à toutes sortes de problèmes adjacents. Je soumets notamment la question suivante, ou problème de Hadwiger-Nelson lorentzien (que j'espérais rendre publique via cette note, mais comme cette dernière est partie à la poubelle, personne n'est au courant de ce problème) :

Trouver le plus petit nombre χL de couleurs nécessaires (ou bien ∞ si aucun nombre fini ne suffit) pour colorier le plan de manière à ce qu'il n'y ait jamais deux points (t₁,x₁) et (t₂,x₂) situés à intervalle de Lorentz 1 l'un de l'autre, c'est-à-dire (t₂−t₁)² − (x₂−x₁)² = 1, et qui aient la même couleur.

(Autrement dit, on remplace les cercles de rayon 1 — translatés de {x²+y²=1} — dans le problème de Hadwiger-Nelson par des hyperboles translatées de {t²−x²=1}, représentant, si on veut, un intervalle d'espace-temps. Il y a beaucoup de similarités, parce que le groupe des isométries lorentziennes, comme le groupe des isométries euclidiennes, et de dimension 3. À la différence du problème de Hadwiger-Nelson euclidien, dans le problème lorentzien les graphes réalisables avec intervalle 1 sont naturellement orientés, par la valeur de la coordonnée t ; et on peut se convaincre qu'il n'existe pas de triangle ; comme il existe néanmoins des cycles d'ordre impair, on a quand même χL≥3.)

Je conjecture que χL=∞ (en tout cas, je ne sais montrer aucune borne supérieure sur χL). Le problème semble plus dur que Hadwiger-Nelson euclidien, car il ne semble pas exister de coloriage évident avec un nombre fini de couleurs, mais a contrario, si on veut prouver χL=∞, il faudra construire toute une famille de graphes finis.

Ajout : Je devrais mentionner qu'une des raisons de s'intéresser à χL est que l'analogue complexe du nombre de Hadwiger-Nelson, c'est-à-dire le nombre chromatique χC du graphe ℂ² avec une arête entre (x₁,y₁) et (x₂,y₂) lorsque (x₂−x₁)² − (y₂−y₁)² = 1, majore à la fois χ (euclidien) et χL (lorentzien), et qu'il est lui-même majoré par le χ de ℝ⁴ pour la métrique de signature indéfinie (++−−) (c'est-à-dire le nombre chromatique du graphe ℝ⁴ avec des arêtes définies par des hyperboloïdes translatés de {t²+u²−v²−w²=1}). Je conjecture à plus forte raison que χC=∞, et en fait c'est surtout ça que je trouve intéressant (parce que c'est un problème purement algébrique).

↑Entry #2507 [older| permalink|newer] / ↑Entrée #2507 [précédente| permalien|suivante] ↑

↓Entry #2503 [older| permalink|newer] / ↓Entrée #2503 [précédente| permalien|suivante] ↓

(vendredi)

Jouons maintenant avec le groupe de Weyl de F₄ parce que c'est plus facile

Cette entrée est la petite sœur de la précédente : après avoir écrit cette dernière, je me suis rendu compte (et on me l'a par ailleurs fait remarquer dans les commentaires) qu'il y a une version plus simple de ce dont j'y parlais et que j'aurais pu évoquer. Du coup, je vais essayer de le faire ici, en utilisant massivement le copier-coller et le recherche-remplacement. Ce que je ne sais pas, c'est s'il vaut mieux lire cette entrée-ci, ou la précédente, ou les deux en parallèle ou dans un certain ordre (bon, la réponse est peut-être bien « aucune des deux »).

Note : Principales modifications systématiques par rapport à l'entrée précédente : 8→4, E₈→F₄, D₈→B₄, 696 729 600 → 1152, et (0,1,2,3,4,5,6,23) → (½,3⁄2,5⁄2,11/2) ; il n'y a que trois vecteurs dans ma liste finale au lieu de 135 ; les contraintes de parité de changements de signes disparaissent (et du coup trouver un représentant dominaint pour W(B₄) consiste juste à passer aux valeurs absolues et à trier) ; l'opération de soustraire à chacune des huit composantes le quart de la somme de toutes devient soustraire à chacune des quatre composantes la moitié de la somme de toutes. Mais il y a quelques autres différences par ci par là, comme le fait que le système de racines est un tout petit peu plus compliqué à définir (c'est bien la seule chose qui se complique). ⁂ Ah, et puis sinon j'ai un problème typographique, qui est de savoir comment représenter agréablement des demi-entiers : il y a un symbole magique ½ pour un demi, qui est bien pratique parce que ça apparaît souvent, pour trois demis et cinq demis on peut utiliser le U+2044 FRACTION SLASH et écrire 3⁄2 et 5⁄2 ce qui si vous avez la bonne police apparaîtra peut-être comme une jolie fraction ; mais pour 11/2 je ne peux pas vraiment faire mieux qu'avec un bête U+002F SOLIDUS, parce que si je mets U+2044 FRACTION SLASH à la place, la sémantique est celle de (et ça apparaîtra exactement comme ça sous certaines polices), soit un-et-demi. Du coup, j'ai le choix entre cette écriture (½, 3⁄2, 5⁄2, 11/2) qui est bien moche, ou bien écrire (1/2, 3/2, 5/2, 11/2) mais alors il y a à la fois du ½ et du 1/2 pour le même nombre, c'est bizarre ; et si j'écris 1/2 partout, le vecteur (1/2, 1/2, 1/2, 1/2) est quand même moins lisible que (½, ½, ½, ½). Remarquez, je pourrais écrire 1½ pour trois demis et 2½ pour cinq demis, mais les matheux détestent ça en général (vu que 2·½ c'est 1 et pas 5/2). Pfff, que c'est pénible, les petites crottes de ragondin.

Partons de quatre nombres (= un élément de ℝ⁴) ; pour que ce que je raconte ne suppose aucune connaissance mathématique particulière, je précise que j'appellerai ça un vecteur et j'appellerai composantes du vecteur les quatre nombres en question. Par exemple (1, 0, 0, 0), ou bien (½, 3⁄2, 5⁄2, 11/2) sont des vecteurs avec lesquels on va pouvoir jouer (ces exemples vont être intéressants pour la suite ; et oui, c'est bien un 11/2 que j'ai écrit à la fin, bear with me, ce n'est pas une blague dans le style quel est le quatrième nombre qui complète la suite : ½, 3⁄2, 5⁄2… ?c'est évidemment 11/2). Maintenant, à partir de ce vecteur, imaginons qu'on ait le droit de faire, autant de fois qu'on veut, et dans n'importe quel ordre, les opérations très simples suivantes :

  • permuter ses composantes — c'est-à-dire les réordonner — de n'importe quelle manière (par exemple, on peut transformer (½, 3⁄2, 5⁄2, 11/2) en (3⁄2, 11/2, 5⁄2, ½), ce sont les mêmes nombres écrits dans un ordre différent),
  • changer le signe — c'est-à-dire transformer en leur opposé, remplacer moins par plus et vice versa — d'un nombre quelconque des composantes (par exemple, on peut transformer (½, 3⁄2, 5⁄2, 11/2) en (½, −3⁄2, −5⁄2, −11/2), j'ai changé le signe de trois composantes),
  • soustraire à chacune des quatre composantes la moitié de la somme de toutes (par exemple, ceci transforme (½, 3⁄2, 5⁄2, 11/2) en (−9⁄2, −7⁄2, −5⁄2, ½) : la somme des nombres était (½)+(3⁄2)+(5⁄2)+(11/2)=10 donc j'ai soustrait 5 à chacun).

Voilà qui n'est pas bien compliqué. Pour fixer la terminologie les opérations des deux premiers types que je viens de dire seront appelées opérations de W(B₄) tandis que les opérations des trois types seront dites opérations de W(F₄) (je n'essaye pas du tout de définir ce que c'est que W(B₄) ou W(F₄), en tout cas pas pour le moment, ce sont juste des termes à considérer comme un bloc).

Les opérations de W(B₄) sont assez faciles à comprendre, en réfléchissant un peu on arrive assez facilement à voir ce qu'on peut faire avec (une description plus précise sera donnée plus bas, notamment, de quand on peut passer d'un vecteur à un autre par ces opérations). Celles de W(F₄), c'est-à-dire si on permet la troisième opération que j'ai dite, sont déjà plus mystérieuses mystérieuses : je vais donner quelques exemples ci-dessous ce qu'on peut faire avec.

La question générale est, que peut-on atteindre en appliquant les règles qui viennent d'être dites ? Autrement dit, partant d'un certain vecteur initial, quels vecteurs va-t-on pouvoir fabriquer avec les opérations qui viennent d'être dites (et combien y en a-t-il) ?

Pour prendre un exemple vraiment idiot, si le vecteur d'origine était (0, 0, 0, 0), on ne va pas très loin, il reste identique à lui-même sous l'effet de n'importe laquelle des opérations que j'ai décrites, et donc c'est la seule chose qu'on pourra atteindre.

Si le vecteur de départ est (1, 0, 0, 0), les opérations de W(B₄) (i.e., celles les deux premiers types) permettent de le transformer en n'importe quel vecteur ayant une composante égale à +1 ou −1 et les trois autres nulles, ou en abrégé un vecteur du type (±1, 0, 0, 0) (cela fait 4×2=8 vecteurs si on compte bien) ; la troisième opération transforme (1, 0, 0, 0) en (½, −½, −½, −½), et de là avec les opérations de W(B₄) on peut fabriquer les différents vecteurs (±½, ±½, ±½, ±½) dont toutes les composantes valent +½ ou −½ ; cela fait 2⁴=16 vecteurs de cette forme, soit 8+16=24 vecteurs : il se trouve (il faut le vérifier mais ce n'est pas difficile) que c'est tout ce qu'on obtient de la sorte : 24 vecteurs et pas plus. Ces 24 vecteurs portent le nom de racines courtes de F₄ (là aussi, je ne vais pas chercher à définir ce que ça veut dire, en tout cas pas aujourd'hui).

Pour donner un autre exemple, si le vecteur de départ est (1, 1, 0, 0), les opérations de W(B₄) permettent de le transformer en n'importe quel vecteur du type (±1, ±1, 0, 0) (deux composantes égales à +1 ou −1, les deux autres nulles : cela fait 6×4=24 vecteurs), et la troisième opération ne fait, cette fois, rien de nouveau. Ces 24 vecteurs portent le nom de racines longues de F₄ ; et réunies aux 24 vecteurs définis au paragraphe précédent, on obtient 48 vecteurs appelés système de racines de F₄ (c'est là essentiellement le seul point sur lequel F₄ est plus compliqué que E₈ défini à l'entrée précédente : il y a des racines courtes et longues alors que dans E₈ il n'y a qu'une seule longueur).

Je peux donner d'autres exemples. Si on part de (1, 1, 1, 0), on va pouvoir atteindre 96 vecteurs différents par les opérations de W(F₄) : il y a les 32 vecteurs du type (±1, ±1, ±1, 0) avec des signes quelconques (et un emplacement quelconque du 0), et les 64 vecteurs du type (±3⁄2, ±½, ±½, ±½) avec des signes quelconques (et un emplacement quelconque du 3⁄2), ce qui fait 32+64=96 vecteurs au total. Si on part de (2, 1, 1, 0), on peut aussi atteindre 96 vecteurs différents (ce sont juste ceux qui s'obtiennent déjà par les opérations de W(B₄), c'est-à-dire (±2, ±1, ±1, 0) avec des signes quelconques et une permutation quelconque des composantes). Si on part de (2, 1, 0, 0), on peut atteindre 144 vecteurs différents (les 48 du type (±2, ±1, 0, 0) et les 96 du type (±3⁄2, ±3⁄2, ±½, ±½)).

Mais dans le « cas général » (disons, celui qui se produit avec probabilité 1 si notre vecteur initial a été tiré au hasard, ou bien si on est parti de (½, 3⁄2, 5⁄2, 11/2)), on va atteindre exactement 1152 vecteurs. (En fait, la condition pour que ça soit le cas n'est pas très compliqué : il est nécessaire et suffisant, pour que cela se produise, que les quatre composantes du vecteur initial soient toutes non nulles, deux à deux distinctes, qu'il n'y en ait pas deux qui soient opposées, et qu'il n'y en ait pas non plus un certain nombre dont la somme soit égale à la somme des autres.) Et dans absolument tous les cas, le nombre de vecteurs qu'on peut atteindre sera fini, et sera même un diviseur de ce nombre maximal qu'est 1152.

(Il y a d'ailleurs exactement 16 cas possibles entre le cas le plus spécial qu'est (0, 0, 0, 0) et qui donne un seul vecteur atteignable et le cas le plus général qui en donne 1152. Mais je préfère rester vague sur ce que j'entends par un cas possible, parce que ce n'est pas vrai que chacun de ces cas donne forcément un nombre de vecteurs atteints différents. Les nombres de vecteurs atteignables possibles sont : 1, 24, 96, 144, 192, 288, 576 et 1152)

Pour y voir plus clair, je vais appeler orbite sous W(F₄) l'ensemble de tous les vecteurs qu'on peut atteindre à partir d'un vecteur donné par les opérations de W(F₄) (toutes celles que j'ai décrites), et orbite sous W(B₄) la chose analogue avec les opérations de W(B₄) (c'est-à-dire celles qui n'autorisent qu'à permuter les composantes et à changer le signe d'un nombre quelconques d'entre elles). Par exemple, (½, ½, ½, ½) est dans l'orbite sous W(F₄) de (1, 0, 0, 0), mais pas dans son orbite sous W(B₄).

Il sera utile de faire l'observation suivante : toutes les opérations que j'ai décrites peuvent se faire à l'envers. S'agissant des opérations de W(B₄) c'est évident (une permutation des composantes a pour inverse une autre permutation des composantes, et changer les signes deux fois revient au vecteur de départ) ; s'agissant de W(F₄), il suffit de remarquer que la troisième opération que j'ai décrite retourne sur le vecteur dont on est parti quand on l'applique deux fois (c'est un petit exercice que je laisse au lecteur). Par conséquent, si un vecteur v est dans l'orbite d'un vecteur w (que ce soit sous W(B₄) ou sous W(F₄)), alors réciproquement, w est dans l'orbite de v, et, en fait, ils ont exactement la même orbite : a contrario, deux orbites distinctes sont forcément disjointes (c'est-à-dire, sans élément commun).

Il est facile de reconnaître à quelle condition deux vecteurs définissent la même orbite sous W(B₄) : c'est-à-dire qu'on peut passer de l'un à l'autre en permutant les composantes et en changeant le signe d'un nombre quelconque d'entre elles. Pour ce faire, le mieux est de rendre toutes les composantes positives, puis de les trier par ordre croissant : on obtient ainsi un représentant de l'orbite du vecteur sous W(B₄) que je vais appeler le représentant dominant ou vecteur dominant pour W(B₄) (il faut que je souligne, cependant, que c'est un choix que j'ai fait : j'aurais pu trier par ordre décroissant, ou mettre autant de signes moins que possible ou ce genre de choses). Par exemple, le représentant dominant de (−3, −2, 5, −1) est (1, 2, 3, 5) (on passe bien d'un vecteur à l'autre par les opérations de W(B₄), et les composantes du second sont bien triées, et toutes positives). Il est très facile de calculer le représentant dominant d'un vecteur, et deux vecteurs ont la même orbite sous W(B₄) exactement lorsqu'ils ont le même représentant dominant (il y a un représentant dominant par orbite).

Il est par ailleurs aussi facile, avec un peu de dénombrement, de calculer le nombre de vecteurs dans une orbite sous W(B₄) : dans tous les cas, c'est un diviseur de 4!×2⁴ (où 4! := 1×2×3×4 = 24), soit 384, ce nombre correspondant au cas « général » qui est, par exemple, le cas pour (1, 2, 3, 4) : je détaille ça dans le paragraphe suivant en petits caractères parce que ce n'est pas important pour ce que je veux raconter.

Pour dénombrer l'orbite d'un vecteur sous W(B₄), ce qui importe est, premièrement, le nombre r de composantes qui valent 0, et, deuxièmement, les nombres s1,…,sk de composantes qui sont égales en valeur absolue. Le premier détermine le nombre de changements de signes sur un nombre de composantes qui ne change rien au vecteur : il vaut 2r ; les si, eux, déterminent le nombre de permutations des valeurs absolues des composantes qui ne changent rien : il vaut s1!⋯sk! ; donc finalement, la taille de l'orbite sous W(B₄) vaut 384/(2r·s1!⋯sk!). Par exemple, (−1, 1, 3, 3) a une orbite sous W(B₄) de taille 384/(2!·2!) (comptez un 2! pour chacune des valeurs absolues 1 et 3 qui sont répétées deux fois), soit 96, tandis que (0, 0, 0, 1) en a une de taille 384/(2³·3!) = 8, un nombre déjà signalé ci-dessus.

On peut chercher à dire des choses analogues avec les orbites sous W(F₄). À la limite ce n'est pas tellement ça qui m'intéresse ici, mais il faut quand même que j'en dise un mot, par souci de cohérence. Je vais appeler représentant dominant d'une orbite sous W(F₄), ou vecteur dominant pour W(F₄), un vecteur qui vérifie déjà toutes les conditions pour être dominant pour W(B₄) (c'est-à-dire trié par ordre croissant, avec des composantes positives), et qui vérifie, en outre, la condition suivante : la dernière composante est supérieure ou égale à la somme des trois autres (si on veut : − v₀ − v₁ − v₂ + v₃ ≥ 0, où les composantes du vecteur ont été notées v₀ à v₃). (Là aussi, c'est un choix que je fais, on pourrait en faire d'autres ; ce choix précis a une certaine logique, et comme pour le choix que j'ai fait pour W(B₄) il est vaguement « standard », mais il n'est pas forcément le plus opportun eu égard à la description que j'ai donnée des opérations de W(F₄) : peu importe.) Par exemple, (½, 3⁄2, 5⁄2, 11/2) est dominant pour W(F₄) parce que, outre qu'il l'est déjà pour W(B₄), on a 11/2≥½+3⁄2+5⁄2 ; il en va de même de (0, 0, 0, 1) (ou, d'ailleurs, de (0, 0, 0, 0)) ; en revanche, (½, ½, ½, ½) n'est pas dominant pour W(F₄) (il l'est pour W(B₄)) parce que ½ est strictement plus petit que ½+½+½. Chaque orbite sous W(F₄) possède un unique représentant dominant ; et un algorithme pour le calculer consiste à alterner les deux étapes suivantes (qui effectuent bien des opérations de W(F₄)) :

  • calculer un représentant dominant pour W(B₄) (c'est-à-dire trier les valeurs absolues, et retirer les signes moins),
  • calculer ½·(− v₀ − v₁ − v₂ + v₃) où les composantes du vecteur ont été notées v₀ à v₃ et, si ce nombre est négatif, le soustraire à v₃ tandis qu'on l'ajoute à v₀ à v₂ (il revient au même de : changer le signe des composantes v₀ à v₂, soustraire à chacune des quatre composantes la moitié de la somme de toutes, ce qui est l'opération spécifique avec laquelle j'ai définie W(F₄), et changer de nouveau le signe des composantes v₀ à v₂).

Il s'agit de répéter jusqu'à ce que le vecteur ne change plus, mais, en fait, il me semble que deux itérations suffiront toujours. À titre d'exemple, si je pars de (9⁄2, −7⁄2, −5⁄2, ½), son représentant dominant pour W(B₄) est (½, 5⁄2, 7⁄2, 9⁄2), l'étape suivante soustrait ½(−½−5⁄2−7⁄2+9⁄2)=−1 (c'est-à-dire, ajoute 1) à la dernière composante tandis qu'elle l'ajoute (c'est-à-dire, retire 1) aux autres, ce qui donne (−½, 3⁄2, 5⁄2, 11/2), dont le représentant dominant pour W(B₄) est (½, 3⁄2, 5⁄2, 11/2), et l'algorithme s'arrête là. On est donc passé de (9⁄2, −7⁄2, −5⁄2, ½) à son représentant dominant (½, 3⁄2, 5⁄2, 11/2) par des opérations de W(F₄), et bien sûr, si on inverse les opérations, on peut passer dans l'autre sens : ces deux vecteurs sont dans une même orbite sous W(F₄).

Ajout/digression : Pour dénombrer l'orbite d'un vecteur sous W(F₄), il y a une méthode, mais elle est plus compliquée que celle que j'ai donnée plus haut pour W(B₄). (Le présent paragraphe n'est inséré ici que pour être un peu complet, et il est recommandé de ne pas le lire.) On commence par remplacer le vecteur par le représentant dominant de son orbite pour W(F₄), qu'on peut calculer comme on l'a expliqué ci-dessus. Maintenant, on trace le diagramme de Dynkin de F₄, qui est représenté sur cette page. Pour chacun des quatre nœuds qui sont alignés sur ce diagramme, dans l'ordre (en suivant l'ordre indiqué par la flèche), on va l'effacer si l'une des sept quantités suivantes est non nulle : v₂ − v₁, v₁ − v₀, v₀ et ½·(− v₀ − v₁ − v₂ + v₃). (Remarquer que, par la définition d'un représentant dominant pour W(F₄), toutes les quantités qu'on vient de tester sont positives ou nulles : on efface le nœud quand la quantité est strictement positive.) À la fin du processus, il reste entre 0 et 4 nœuds (à savoir 4 si le vecteur était identiquement nul, et 0 si c'était par exemple (½, 3⁄2, 5⁄2, 11/2)) ; on efface aussi toutes les arêtes du diagramme reliant des nœuds dont au moins l'un a été effacé. Il reste une réunion disjointe de diagrammes de Dynkin (de nouveau, consulter la page Wikipédia que j'ai indiquée) : on considère l'ordre du groupe de Weyl de chacun, sachant que l'ordre du groupe de Weyl de An vaut (n+1)!, et celui de Bn ou Cn vaut 2n·n! (ce sont les seuls qui peuvent apparaître) ; on fait le produit de tous ces ordres, et on divise 1152 par le produit en question : le quotient est un entier, qui est la taille de l'orbite. Par exemple, si le vecteur était (0, 0, 0, 1), qui est bien un représentant dominant sous W(F₄), la seule quantité non nulle parmi celles testées est ½·(− v₀ − v₁ − v₂ + v₃) (qui vaut ½), donc on efface le quatrième nœud de la chaîne de quatre, ce qui reste est le diagramme de Dynkin de B₃, et on effectue donc le rapport 1152 / 48 = 24. L'orbite est donc de cardinal 24.

Maintenant, quand on a une orbite sous W(F₄), pour mieux la comprendre, on peut essayer de la décomposer en orbites sous W(B₄). C'est ce que j'ai fait plus haut : l'orbite de (0, 0, 0, 1) sous W(F₄) est la réunion de deux orbites sous W(B₄), à savoir celle de (0, 0, 0, 1) lui-même, qui a 8 éléments, et celle de (½, ½, ½, ½), qui en a 16. De même, l'orbite de (0, 0, 1, 2) sous W(F₄) est réunion de deux orbites sous W(B₄), à savoir celle de (0, 0, 1, 2) (qui a 48 éléments), celle de (½, ½, 3⁄2, 3⁄2) (qui en a 96). Ce que j'ai écrit, ici, colle avec ce que j'ai déjà écrit plus haut, si ce n'est que j'ai systématiquement utilisé les représentants dominants, à la fois pour les orbites sous W(F₄) et sous W(B₄).

Mais le cas qui m'intéresse le plus est le cas général, celui des orbites sous W(F₄) de taille 1152 (le maximum) : elles se décomposent en exactement trois orbites sous W(B₄), toutes également de taille maximale 384. La liste complète des 3 représentants des orbites pour W(B₄) constituant l'orbite pour W(F₄) de (½, 3⁄2, 5⁄2, 11/2) est la suivante :

(1/2, 3/2, 5/2, 11/2)
(1, 2, 3, 5)
(1/2, 5/2, 7/2, 9/2)

(Ils sont ici triés par ordre lexicographique inverse donnant le poids le plus fort aux dernières composantes. Mais ce n'est peut-être pas l'ordre le plus logique ici.)

Autrement dit, les vecteurs qu'on peut atteindre à partir de (½, 3⁄2, 5⁄2, 11/2) par application des opérations de W(F₄) sont exactement les vecteurs qu'on peut atteindre à partir de l'un des trois vecteurs ci-dessus par application des opérations de W(B₄) (384 vecteurs atteignables par permutation des coordonnées et changement de signes sur chacun des trois listés, soit 1152 au total). C'est d'ailleurs un exercice de programmation assez simple de vérifier la liste en question.

Voici maintenant la question à 3 zorkmids : y a-t-il une description élémentaire de la liste ci-dessus ? Euh, non, là, franchement, le copier-coller de l'entrée sur E₈ échoue un peu : autant chercher la logique dans une liste de 135×8 nombres se tient assez, autant la chercher dans une liste de 3×4 nombres aussi petits semble un peu idiot. Mais quand même, en supposant que je donne juste cette liste (en précisant éventuellement que l'ordre des entrées n'a pas d'importance, que l'ordre des composantes de chaque ligne n'en a pas non plus, et qu'on peut changer arbitrairement les signes) et que je demande trouvez la logique, y a-t-il quelque chose qui évite de parler de F₄ ?

Je subodore que la réponse est oui dans le cas de E₈, mais j'avoue que le cas de F₄ me fait un peu douter.

Il faut que j'explique cependant en quoi cela peut avoir un intérêt d'en chercher une. Dans mes explications (peut-être irritantes) ci-dessus, j'ai soigneusement omis d'expliquer ce qu'est, au juste, W(F₄), j'ai juste défini les opérations de W(F₄) et les orbites sous W(F₄). Ceux qui en savent un peu plus que le niveau élémentaire où je me suis placé auront bien sûr deviné que W(F₄) est censé être un groupe, que 1152 est son ordre, et que les 1152 vecteurs atteignables à partir de (½, 3⁄2, 5⁄2, 11/2) sont une orbite régulière (= un espace principal homogène) pour ce groupe, qui, du coup, peut servir à représenter le groupe si on choisit une origine. Pour éviter de supposer qu'on sait ce qu'est un groupe, je peux dire les choses ainsi : si je prend deux vecteurs v et w quelconques de l'orbite de (½, 3⁄2, 5⁄2, 11/2) sous W(F₄), et si j'appelle u le vecteur (½, 3⁄2, 5⁄2, 11/2) lui-même (le représentant qu'on a choisi d'appeler « dominant »), quelle que soit la succession d'opérations de W(F₄) amenant u en v, on peut appliquer la même suite d'opérations sur w, et on obtient un nouveau vecteur de l'orbite, que je vais noter vw : il se trouve qu'il ne dépend pas des opérations choisies pour amener u en v (ce n'est pas du tout évident, et c'est là qu'intervient le fait que l'orbite a 1152 éléments et pas moins). Ceci constitue une « loi de composition » sur mes 1152 éléments ; cette loi est, de plus, associative (on a x•(yz) = (xy)•z quels que soient x,y,z) et elle a u pour élément neutre (c'est-à-dire que uv=vu=v quel que soit v, ce qui est évident sur la définition), et chaque élément v a un inverse v′ (c'est-à-dire que vv′=v′•v=u). C'est ça qu'on appelle un groupe, et c'est ce groupe-là qui s'appelle W(F₄) (même si ce n'est pas vraiment la façon la plus naturelle de le définir : on a plutôt envie de le voir comme les transformations elles-mêmes plutôt que leur effet sur le vecteur particulier (½, 3⁄2, 5⁄2, 11/2)). Si on faisait pareil pour W(B₄) sur l'orbite de (1, 2, 3, 4), la loi de composition ainsi fabriquée serait la composition des permutations signées ; dans le cadre de W(Ar), que je n'ai pas défini, on obtient la composition des permutations sur r+1 objets. Représenter les éléments de W(F₄) par des quadruplets de nombres est possiblement plus sympathique que de le représenter comme on le fait habituellement (par des matrices 4×4, pour ceux qui savent ce que c'est, correspondant à la transformation linéaire effectuée) ; la description que j'ai faite est en principe algorithmique puisque j'ai donné ci-dessus un algorithme pour envoyer u = (½, 3⁄2, 5⁄2, 11/2) sur un vecteur v quelconque de l'orbite (ce qui permet, du coup, de refaire les mêmes opérations sur w), mais en pratique ce n'est pas très commode. J'aimerais croire qu'il y a une description plus élémentaire et plus sympathique comme il y a pour la composition des permutations ou des permutations signées. Ou en tout cas qui permette de calculer différentes choses sur un élément de W(F₄), par exemple son ordre ou son inverse.

Ajout/éclaircissement : Le paragraphe précédent est assez confus, mais l'idée générale est que W(F₄) est, de beaucoup de point de vues, très semblable à un groupe de permutations ou de permutations signées ; or il est facile et courant de représenter les éléments d'un groupe de permutations (éventuellement signées) par des listes d'entiers : il est possible d'en faire autant pour W(F₄), et c'est essentiellement ce que j'ai expliqué jusqu'ici, mais ce qui n'est pas très clair c'est ce que sont, au juste, les listes d'entiers en question (ou, à plus forte raison, comment fonctionne au juste l'opération de composition — ce que j'ai présenté est algorithmique, mais l'algorithme n'est vraiment pas très parlant).

J'ai posé la question sur MathOverflow pour le cas de E₈, mais pour l'instant sans grand succès.

Ajout/exemple : Avec la description que j'ai choisie, L'élément (2, 3, −1, 5) est un élément d'ordre 12 du groupe W(F₄), c'est-à-dire que c'est ce nombre de fois qu'il faut le composer avec lui-même pour retomber sur l'élément unité (½, 3⁄2, 5⁄2, 11/2). (C'est, en fait, un élément dit de Coxeter, ils jouent un rôle assez important.) Ses puissances successives sont les suivantes :

0	(1/2, 3/2, 5/2, 11/2)
1	(2, 3, -1, 5)
2	(7/2, -1/2, -5/2, 9/2)
3	(3/2, -1/2, -11/2, 5/2)
4	(3, -2, -5, -1)
5	(-1/2, -7/2, -9/2, -5/2)
6	(-1/2, -3/2, -5/2, -11/2)
7	(-2, -3, 1, -5)
8	(-7/2, 1/2, 5/2, -9/2)
9	(-3/2, 1/2, 11/2, -5/2)
10	(-3, 2, 5, 1)
11	(1/2, 7/2, 9/2, 5/2)
12	(1/2, 3/2, 5/2, 11/2)

J'avoue que tout ça a l'air assez aléatoire (à part la puissance sixième, mais ce n'est pas difficile à comprendre), et c'est sans doute de mauvais augure pour trouver une logique dans ce foutoir.

Il faut que je précise encore une chose : pourquoi précisément (½, 3⁄2, 5⁄2, 11/2) ? On pourrait chercher à représenter le groupe W(F₄) à partir de n'importe quel vecteur ayant une orbite de taille 1152, mais (½, 3⁄2, 5⁄2, 11/2) est ce qu'on appelle un vecteur de Weyl, et je soupçonne que c'est ce qui a le plus de chances de donner une réponse simple à ma question s'il peut y en avoir une (dans le cas de W(B₄), le vecteur de Weyl dominant est (1, 2, 3, 4), ce qui est quand même bien sympathique pour représenter les permutations signées). Définir exactement ce qu'est un vecteur de Weyl n'est pas tout à fait évident : je peux par exemple proposer la façon suivante, mais ce n'est pas forcément clair que ce soit intéressant : considérons un vecteur dominant u général pour W(F₄), et maintenant considérons parmi les 48 vecteurs que j'ai appelés système de racines de F₄ ci-dessus, ceux dont le produit scalaire avec u (c'est-à-dire la somme des produits des coordonnées correspondantes) est positif (sachant qu'il ne peut pas être nul) ; il se trouve que ce sont les 24 vecteurs (sur les 24 du système de racines) dont la dernière coordonnée non nulle est strictement positive ; maintenant, faisons la demi-somme de tous ces vecteurs : cela donne (½, 3⁄2, 5⁄2, 11/2) ; et en fait, si j'étais parti d'un vecteur u général quelconque (général voulant dire que son orbite a 1152 éléments, ou, ce qui revient au même, que les quatre composantes du vecteur u soient toutes non nulles et deux à deux distinctes, qu'il n'y en ait pas deux qui soient opposées, et qu'il n'y en ait pas non plus un certain nombre dont la somme soit égale à la somme des autres), alors la même procédure (faire la demi-somme des 120 vecteurs du système de racine ayant un produit scalaire positif avec u) donnerait un des 1152 vecteurs de l'orbite de (½, 3⁄2, 5⁄2, 11/2) sous W(F₄), que je cherche justement à identifier. Mais bon, cette description n'est pas franchement éclairante. Il faut plutôt se dire, moralement, que (½, 3⁄2, 5⁄2, 11/2) est, en un certain sens, le vecteur « le plus petit et le plus simple » (mais je ne veux pas chercher à définir exactement ce que cela signifie) qui ait une orbite sous W(F₄) de taille 1152.

↑Entry #2503 [older| permalink|newer] / ↑Entrée #2503 [précédente| permalien|suivante] ↑

↓Entry #2502 [older| permalink|newer] / ↓Entrée #2502 [précédente| permalien|suivante] ↓

(mercredi)

Jouons avec le groupe de Weyl de E₈ et cherchons la logique

J'ai raconté plein de fois dans ce blog (généralement je fais référence à cette entrée-là, mais c'est un thème récurrent, et de toute façon je radote) à quel point je suis fasciné par la symétrie et les structures combinatoires et toujours à la recherche de nouvelles façons de faire apparaître ou de représenter des objets mathématiques que je trouve remarquables. (Tiens, je n'ai pas encore parlé de mon jeu de cartes faussement divinatoires basé sur la combinatoire des 27 droites sur une surface cubique ? Faites-moi penser à vous montrer ça, un jour.) Je voudrais essayer ici de parler de façon extrêmement élémentaire un de mes objets préférés (il s'agit du groupe de Weyl de E₈, mais chut ! je veux éviter les mots barbares) pour arriver à une sorte de petite devinette, dont je n'ai pas la réponse, sur le mode « quelle est la logique dans les nombres suivants ? ».

Avertissement : La présentation qui suit risque d'être un peu irritante pour les mathématiciens — ou d'ailleurs pour des non-mathématiciens — parce que je vais faire tout un tas d'affirmations sans aucune sorte de justification, ce qui est normal pour de la vulgarisation, mais, pire, de façon peut-être gratuitement mystifiante ou à l'encontre de l'ordre et de la présentation logiques des choses. Désolé pour ceux que ça agacera, mais cette approche a un certain mérite pour là où je veux en venir. • Pour ceux qui veulent jouer, vous pouvez sauter toutes les explications, aller voir directement la liste de nombres donnée ci-dessus, et chercher une logique élémentaire : je pense qu'il y en a une, mais je ne la trouve pas.

Ajout : Voir aussi l'entrée suivante (qui est en bonne partie un copier-coller de celle-ci) pour le cas de F₄, qui est plus simple et donc peut-être pédagogiquement préférable.

Partons de huit nombres (= un élément de ℝ⁸) ; pour que ce que je raconte ne suppose aucune connaissance mathématique particulière, je précise que j'appellerai ça un vecteur et j'appellerai composantes du vecteur les huit nombres en question. Par exemple (1, 1, 0, 0, 0, 0, 0, 0), ou bien (0, 1, 2, 3, 4, 5, 6, 23) sont des vecteurs avec lesquels on va pouvoir jouer (ces exemples vont être intéressants pour la suite ; et oui, c'est bien un 23 que j'ai écrit à la fin, bear with me, ce n'est pas une blague dans le style quel est le huitième nombre qui complète la suite : 0, 1, 2, 3, 4, 5, 6… ?c'est évidemment 23). Maintenant, à partir de ce vecteur, imaginons qu'on ait le droit de faire, autant de fois qu'on veut, et dans n'importe quel ordre, les opérations très simples suivantes :

  • permuter ses composantes — c'est-à-dire les réordonner — de n'importe quelle manière (par exemple, on peut transformer (0, 1, 2, 3, 4, 5, 6, 23) en (0, 4, 3, 6, 1, 23, 5, 2), ce sont les mêmes nombres écrits dans un ordre différent),
  • changer le signe — c'est-à-dire transformer en leur opposé, remplacer moins par plus et vice versa — d'un nombre pair quelconque des composantes (par exemple, on peut transformer (5, 6, 7, 8, 9, 10, 11, −12) en (−5, −6, 7, −8, 9, −10, −11, 12), j'ai changé le signe de six composantes, et six est bien pair),
  • soustraire à chacune des huit composantes le quart de la somme de toutes (par exemple, ceci transforme (0, 1, 2, 3, 4, 5, 6, 23) en (−11, −10, −9, −8, −7, −6, −5, 12) : la somme des nombres était 0+1+2+3+4+5+6+23=44 donc j'ai soustrait 11 à chacun).

Voilà qui n'est pas bien compliqué. Pour fixer la terminologie les opérations des deux premiers types que je viens de dire seront appelées opérations de W(D₈) tandis que les opérations des trois types seront dites opérations de W(E₈) (je n'essaye pas du tout de définir ce que c'est que W(D₈) ou W(E₈), en tout cas pas pour le moment, ce sont juste des termes à considérer comme un bloc).

Les opérations de W(D₈) sont assez faciles à comprendre, en réfléchissant un peu on arrive assez facilement à voir ce qu'on peut faire avec (une description plus précise sera donnée plus bas, notamment, de quand on peut passer d'un vecteur à un autre par ces opérations). Celles de W(E₈), c'est-à-dire si on permet la troisième opération que j'ai dite, sont déjà plus mystérieuses mystérieuses : je vais donner quelques exemples ci-dessous ce qu'on peut faire avec.

La question générale est, que peut-on atteindre en appliquant les règles qui viennent d'être dites ? Autrement dit, partant d'un certain vecteur initial, quels vecteurs va-t-on pouvoir fabriquer avec les opérations qui viennent d'être dites (et combien y en a-t-il) ?

Pour prendre un exemple vraiment idiot, si le vecteur d'origine était (0, 0, 0, 0, 0, 0, 0, 0), on ne va pas très loin, il reste identique à lui-même sous l'effet de n'importe laquelle des opérations que j'ai décrites, et donc c'est la seule chose qu'on pourra atteindre.

Si le vecteur de départ est (1, 1, 0, 0, 0, 0, 0, 0), les opérations de W(D₈) (i.e., celles les deux premiers types) permettent de le transformer en n'importe quel vecteur ayant deux composantes égales à +1 ou −1 et les six autres nulles, ou en abrégé un vecteur du type (±1, ±1, 0, 0, 0, 0, 0, 0) (cela fait 8×7×2=112 vecteurs si on compte bien) ; la troisième opération transforme (1, 1, 0, 0, 0, 0, 0, 0) en (½, ½, −½, −½, −½, −½, −½, −½), et de là avec les opérations de W(D₈) on peut fabriquer les différents vecteurs (±½, ±½, ±½, ±½, ±½, ±½, ±½, ±½) dont toutes les composantes valent ±½ avec un nombre pair de signes moins (ou, ce qui revient au même, de signes plus ; cela fait 2⁷=128 vecteurs de cette forme), soit 112+128=240 vecteurs : il se trouve (il faut le vérifier mais ce n'est pas très difficile) que c'est tout ce qu'on obtient de la sorte : 240 vecteurs et pas plus. Ces 240 vecteurs forment d'ailleurs ce qui s'appelle le système de racines de E₈ (là aussi, je ne vais pas chercher à définir ce que ça veut dire, en tout cas pas aujourd'hui).

Je peux donner d'autres exemples. Si on part de (2, 0, 0, 0, 0, 0, 0, 0) (ou de (1, 0, 0, 0, 0, 0, 0, 0), cela revient évidemment au même quitte à tout diviser par deux, mais j'ai des raisons de préférer (2, 0, 0, 0, 0, 0, 0, 0)), on va pouvoir atteindre 2160 vecteurs différents par les opérations de W(E₈) ; c'est un peu plus fastidieux à compter : pour ceux qui veulent les détails, il y a les 16 vecteurs du type (±2, 0, 0, 0, 0, 0, 0, 0), les 1024 du type (∓3⁄2, ±½, ±½, ±½, ±½, ±½, ±½, ±½) avec un nombre pair de signes d'en bas, et les 1120 du type (±1, ±1, ±1, ±1, 0, 0, 0, 0) avec des signes quelconques. Si on part de (2, 1, 1, 0, 0, 0, 0, 0), on peut atteindre 6720 vecteurs différents (c'est encore plus pénible à compter). Si on part de (5⁄2, ½, ½, ½, ½, ½, ½, ½), on peut atteindre 17 280 vecteurs différents. Si on part de (3, 1, 0, 0, 0, 0, 0, 0) on peut atteindre 30 240 vecteurs différents.

Mais dans le « cas général » (disons, celui qui se produit avec probabilité 1 si notre vecteur initial a été tiré au hasard, ou bien si on est parti de (0, 1, 2, 3, 4, 5, 6, 23)), on va atteindre exactement 696 729 600 vecteurs. (En fait, la condition pour que ça soit le cas n'est pas très compliqué : il est nécessaire et suffisant, pour que cela se produise, que les huit composantes du vecteur initial soient deux à deux distinctes, qu'il n'y en ait pas deux qui soient opposées, et qu'il n'y ait pas non plus un nombre pair d'entre elles dont la somme soit égale à la somme des autres.) Et dans absolument tous les cas, le nombre de vecteurs qu'on peut atteindre sera fini, et sera même un diviseur de ce nombre maximal qu'est 696 729 600.

(Il y a d'ailleurs exactement 256 cas possibles entre le cas le plus spécial qu'est (0, 0, 0, 0, 0, 0, 0, 0) et qui donne un seul vecteur atteignable et le cas le plus général qui en donne 696 729 600. Mais je préfère rester vague sur ce que j'entends par un cas possible, parce que je ne crois pas que chacun de ces cas donne forcément un nombre de vecteurs atteints différents. En tout cas, les plus petits nombres possibles de vecteurs qu'on peut atteindre à partir d'un vecteur donné sont essentiellement ceux que j'ai listés ci-dessus : 1, 240, 2160, 6720, 13 440 et 17 280.)

☞ Il faut que je souligne que le fait qu'on obtienne un nombre fini de vecteurs est tout à fait remarquable. Si je faisais juste une toute petite modification à mes règles ci-dessus en autorisant, dans la deuxième opération, de changer le signe d'un nombre quelconque de composantes (au lieu d'exiger un nombre pair), alors n'importe quel vecteur non nul permettrait d'atteindre un nombre infini d'autres vecteurs avec les règles ainsi modifiées. La situation que je décris est véritablement exceptionnelle au sens où les « choses de ce genre » (en fait, les groupes finis de réflexions dans un espace euclidien) se rangent en un certain nombre de familles infinies plus une poignée d'exceptions, et W(E₈) fait partie de ces exceptions. Mais revenons à la situation bien particulière que j'ai considérée.

Pour y voir plus clair, je vais appeler orbite sous W(E₈) l'ensemble de tous les vecteurs qu'on peut atteindre à partir d'un vecteur donné par les opérations de W(E₈) (toutes celles que j'ai décrites), et orbite sous W(D₈) la chose analogue avec les opérations de W(D₈) (c'est-à-dire celles qui n'autorisent qu'à permuter les composantes et à changer le signe d'un nombre pair quelconques d'entre elles). Par exemple, (½, ½, ½, ½, ½, ½, ½, ½) est dans l'orbite sous W(E₈) de (1, 1, 0, 0, 0, 0, 0, 0), mais pas dans son orbite sous W(D₈).

Il sera utile de faire l'observation suivante : toutes les opérations que j'ai décrites peuvent se faire à l'envers. S'agissant des opérations de W(D₈) c'est évident (une permutation des composantes a pour inverse une autre permutation des composantes, et changer les signes deux fois revient au vecteur de départ) ; s'agissant de W(E₈), il suffit de remarquer que la troisième opération que j'ai décrite retourne sur le vecteur dont on est parti quand on l'applique deux fois (c'est un petit exercice que je laisse au lecteur). Par conséquent, si un vecteur v est dans l'orbite d'un vecteur w (que ce soit sous W(D₈) ou sous W(E₈)), alors réciproquement, w est dans l'orbite de v, et, en fait, ils ont exactement la même orbite : a contrario, deux orbites distinctes sont forcément disjointes (c'est-à-dire, sans élément commun).

Il est facile de reconnaître à quelle condition deux vecteurs définissent la même orbite sous W(D₈) : c'est-à-dire qu'on peut passer de l'un à l'autre en permutant les composantes et en changeant le signe d'un nombre pair d'entre elles. Pour ce faire, le mieux est de rendre toutes les composantes positives sauf éventuellement la plus petite en valeur absolue (lorsqu'il y avait initialement un nombre impair de composantes négatives), puis de les trier par ordre croissant : on obtient ainsi un représentant de l'orbite du vecteur sous W(D₈) que je vais appeler le représentant dominant ou vecteur dominant pour W(D₈) (il faut que je souligne, cependant, que c'est un choix que j'ai fait : j'aurais pu trier par ordre décroissant, ou mettre autant de signes moins que possible ou ce genre de choses). Par exemple, le représentant dominant de (−6, 3, −2, 1, 5, 5, −3, 1) est (−1, 1, 2, 3, 3, 5, 5, 6) (on passe bien d'un vecteur à l'autre par les opérations de W(D₈), et les composantes du second sont bien triées, et toutes positives sauf éventuellement la plus petite en valeur absolue). Il est très facile de calculer le représentant dominant d'un vecteur, et deux vecteurs ont la même orbite sous W(D₈) exactement lorsqu'ils ont le même représentant dominant (il y a un représentant dominant par orbite).

Il est par ailleurs aussi facile, avec un peu de dénombrement, de calculer le nombre de vecteurs dans une orbite sous W(D₈) : dans tous les cas, c'est un diviseur de 8!×2⁷ (où 8! := 1×2×⋯×8 = 40 320), soit 5 160 960, ce nombre correspondant au cas « général » qui est, par exemple, le cas pour (0, 1, 2, 3, 4, 5, 6, 7) : je détaille ça dans le paragraphe suivant en petits caractères parce que ce n'est pas important pour ce que je veux raconter.

Pour dénombrer l'orbite d'un vecteur sous W(D₈), ce qui importe est, premièrement, le nombre r de composantes qui valent 0, et, deuxièmement, les nombres s1,…,sk de composantes qui sont égales en valeur absolue. Le premier détermine le nombre de changements de signes sur un nombre pair de composantes qui ne change rien au vecteur : il vaut 2r−1 si r≥1 (ou bien 1 si r=0, soit 2max(r,1)−1) ; les si, eux, déterminent le nombre de permutations des valeurs absolues des composantes qui ne changent rien : il vaut s1!⋯sk! ; donc finalement, la taille de l'orbite sous W(D₈) vaut 5 160 960/(2max(r,1)−1·s1!⋯sk!). Par exemple, (−1, 1, 2, 3, 3, 5, 5, 6) a une orbite sous W(D₈) de taille 5 160 960/(2!·2!·2!) (comptez un 2! pour chacune des valeurs absolues 1, 3 et 5 qui sont répétées deux fois), soit 645 120, tandis que (0, 0, 0, 0, 0, 0, 1, 1) en a une de taille 5 160 960/(2⁵·6!·2!) = 112, un nombre déjà signalé ci-dessus.

On peut chercher à dire des choses analogues avec les orbites sous W(E₈). À la limite ce n'est pas tellement ça qui m'intéresse ici, mais il faut quand même que j'en dise un mot, par souci de cohérence. Je vais appeler représentant dominant d'une orbite sous W(E₈), ou vecteur dominant pour W(E₈), un vecteur qui vérifie déjà toutes les conditions pour être dominant pour W(D₈) (c'est-à-dire trié par ordre croissant, avec au plus une composante de signe négatif, qui est alors la première et qui est inférieure ou égale à la suivante en valeur absolue), et qui vérifie, en outre, la condition suivante : la somme de la première et de la dernière composante est supérieure ou égale à la somme des six autres (si on veut : v₀ − v₁ − v₂ − v₃ − v₄ − v₅ − v₆ + v₇ ≥ 0, où les composantes du vecteur ont été notées v₀ à v₇). (Là aussi, c'est un choix que je fais, on pourrait en faire d'autres ; ce choix précis a une certaine logique, et comme pour le choix que j'ai fait pour W(D₈) il est vaguement « standard », mais il n'est pas forcément le plus opportun eu égard à la description que j'ai donnée des opérations de W(E₈) : peu importe.) Par exemple, (0, 1, 2, 3, 4, 5, 6, 23) est dominant pour W(E₈) parce que, outre qu'il l'est déjà pour W(D₈), on a 0+23≥1+2+3+4+5+6 ; il en va de même de (0, 0, 0, 0, 0, 0, 1, 1) (ou, d'ailleurs, de (0, 0, 0, 0, 0, 0, 0, 0)) ; en revanche, (½, ½, ½, ½, ½, ½, ½, ½) n'est pas dominant pour W(E₈) (il l'est pour W(D₈)) parce que ½+½ est strictement plus petit que ½+½+½+½+½+½. Chaque orbite sous W(E₈) possède un unique représentant dominant ; et un algorithme pour le calculer consiste à alterner les deux étapes suivantes (qui effectuent bien des opérations de W(E₈)) :

  • calculer un représentant dominant pour W(D₈) (c'est-à-dire trier les valeurs absolues, et placer un signe moins sur la première composante s'il y a un nombre impair de signes moins),
  • calculer ¼·(v₀ − v₁ − v₂ − v₃ − v₄ − v₅ − v₆ + v₇) où les composantes du vecteur ont été notées v₀ à v₇ et, si ce nombre est négatif, le soustraire à v₀ et v₇ tandis qu'on l'ajoute à v₁ à v₆ (il revient au même de : changer le signe des composantes v₁ à v₆, soustraire à chacune des huit composantes le quart de la somme de toutes, ce qui est l'opération spécifique avec laquelle j'ai définie W(E₈), et changer de nouveau le signe des composantes v₁ à v₆).

Il s'agit de répéter jusqu'à ce que le vecteur ne change plus, mais, en fait, il me semble que trois itérations suffiront toujours. À titre d'exemple, si je pars de (0, 10, 11, 12, 13, −9, 1, 2), son représentant dominant pour W(D₈) est (0, 1, 2, 9, 10, 11, 12, 13), l'étape suivante soustrait ¼(0−1−2−9−10−11−12+13)=−8 (c'est-à-dire, ajoute 8) à la première et dernière composante tandis qu'elle l'ajoute (c'est-à-dire, retire 8) aux autres, ce qui donne (8, −7, −6, 1, 2, 3, 4, 21), dont le représentant dominant pour W(D₈) est (1, 2, 3, 4, 6, 7, 8, 21), l'étape suivante (en notant que ¼(1−2−3−4−6−7−8+21)=−8) donne (3, 0, 1, 2, 4, 5, 6, 23), dont le représentant dominant pour W(D₈) est (0, 1, 2, 3, 4, 5, 6, 23), et l'algorithme s'arrête là. On est donc passé de (0, 10, 11, 12, 13, −9, 1, 2) à son représentant dominant (0, 1, 2, 3, 4, 5, 6, 23) par des opérations de W(E₈), et bien sûr, si on inverse les opérations, on peut passer dans l'autre sens : ces deux vecteurs sont dans une même orbite sous W(E₈).

Ajout/digression : Pour dénombrer l'orbite d'un vecteur sous W(E₈), il y a une méthode, mais elle est plus compliquée que celle que j'ai donnée plus haut pour W(D₈). (Le présent paragraphe n'est inséré ici que pour être un peu complet, et il est recommandé de ne pas le lire.) On commence par remplacer le vecteur par le représentant dominant de son orbite pour W(E₈), qu'on peut calculer comme on l'a expliqué ci-dessus. Maintenant, on trace le diagramme de Dynkin de E₈, qui est représenté sur cette page. Pour chacun des sept nœuds qui sont alignés sur ce diagramme, dans l'ordre (sachant que le troisième des sept porte trois voisins), on va l'effacer si l'une des sept quantités suivantes est non nulle : ½·(v₀ − v₁ − v₂ − v₃ − v₄ − v₅ − v₆ + v₇), v₁ − v₀, v₂ − v₁, v₃ − v₂, v₄ − v₃, v₅ − v₄, v₆ − v₅ ; et pour le dernier nœud (celui qui est attaché au troisième des sept alignés) : v₀ + v₁. (Remarquer que, par la définition d'un représentant dominant pour W(E₈), toutes les quantités qu'on vient de tester sont positives ou nulles : on efface le nœud quand la quantité est strictement positive.) À la fin du processus, il reste entre 0 et 8 nœuds (à savoir 8 si le vecteur était identiquement nul, et 0 si c'était par exemple (0, 1, 2, 3, 4, 5, 6, 23)) ; on efface aussi toutes les arêtes du diagramme reliant des nœuds dont au moins l'un a été effacé. Il reste une réunion disjointe de diagrammes de Dynkin (de nouveau, consulter la page Wikipédia que j'ai indiquée) : on considère l'ordre du groupe de Weyl de chacun, sachant que le groupe de Weyl de E₇ vaut 2 903 040, celui de E₆ vaut 51 840, celui de An vaut (n+1)!, et celui de Dn vaut 2n−1·n! (ce sont les seuls qui peuvent apparaître) ; on fait le produit de tous ces ordres, et on divise 696 729 600 par le produit en question : le quotient est un entier, qui est la taille de l'orbite. Par exemple, si le vecteur était (0, 0, 0, 0, 0, 0, 1, 1), qui est bien un représentant dominant sous W(E₈), la seule quantité non nulle parmi celles testées est v₆−v₅ (qui vaut 1), donc on efface le septième nœud de la chaîne de sept, ce qui reste est le diagramme de Dynkin de E₇, et on effectue donc le rapport 696 729 600 / 2 903 040 = 240. L'orbite est donc de cardinal 240.

Maintenant, quand on a une orbite sous W(E₈), pour mieux la comprendre, on peut essayer de la décomposer en orbites sous W(D₈). C'est ce que j'ai fait plus haut : l'orbite de (0, 0, 0, 0, 0, 0, 1, 1) sous W(E₈) est la réunion de deux orbites sous W(D₈), à savoir celle de (0, 0, 0, 0, 0, 0, 1, 1) lui-même, qui a 112 éléments, et celle de (½, ½, ½, ½, ½, ½, ½, ½), qui en a 128. De même, l'orbite de (0, 0, 0, 0, 0, 0, 0, 2) sous W(E₈) est réunion de trois orbites sous W(D₈), à savoir celle de (0, 0, 0, 0, 0, 0, 0, 2) (qui a 16 éléments), celle de (−½, ½, ½, ½, ½, ½, ½, 3⁄2) (qui en a 1024), et celle de (0, 0, 0, 0, 1, 1, 1, 1) (qui en a 1120). Ce que j'ai écrit, ici, colle avec ce que j'ai déjà écrit plus haut, si ce n'est que j'ai systématiquement utilisé les représentants dominants, à la fois pour les orbites sous W(E₈) et sous W(D₈).

Mais le cas qui m'intéresse le plus est le cas général, celui des orbites sous W(E₈) de taille 696 729 600 (le maximum) : elles se décomposent en exactement 135 orbites sous W(D₈), toutes également de taille maximale 5 160 960. La liste complète des 135 représentants des orbites pour W(D₈) constituant l'orbite pour W(E₈) de (0, 1, 2, 3, 4, 5, 6, 23) est la suivante :

(0, 1, 2, 3, 4, 5, 6, 23)
(-1/2, 3/2, 5/2, 7/2, 9/2, 11/2, 13/2, 45/2)
(0, 1, 3, 4, 5, 6, 7, 22)
(1/2, 3/2, 5/2, 9/2, 11/2, 13/2, 15/2, 43/2)
(0, 1, 2, 5, 6, 7, 8, 21)
(1, 2, 3, 4, 6, 7, 8, 21)
(1/2, 3/2, 5/2, 9/2, 13/2, 15/2, 17/2, 41/2)
(3/2, 5/2, 7/2, 9/2, 11/2, 15/2, 17/2, 41/2)
(0, 1, 3, 4, 7, 8, 9, 20)
(1, 2, 3, 5, 6, 8, 9, 20)
(2, 3, 4, 5, 6, 7, 9, 20)
(-1/2, 3/2, 5/2, 7/2, 15/2, 17/2, 19/2, 39/2)
(1/2, 3/2, 7/2, 9/2, 13/2, 17/2, 19/2, 39/2)
(3/2, 5/2, 7/2, 11/2, 13/2, 15/2, 19/2, 39/2)
(5/2, 7/2, 9/2, 11/2, 13/2, 15/2, 17/2, 39/2)
(0, 1, 2, 3, 8, 9, 10, 19)
(0, 2, 3, 4, 7, 9, 10, 19)
(0, 1, 4, 5, 6, 9, 10, 19)
(1, 2, 4, 5, 7, 8, 10, 19)
(2, 3, 4, 6, 7, 8, 9, 19)
(1/2, 3/2, 5/2, 7/2, 15/2, 19/2, 21/2, 37/2)
(-1/2, 3/2, 7/2, 9/2, 13/2, 19/2, 21/2, 37/2)
(1/2, 5/2, 7/2, 9/2, 15/2, 17/2, 21/2, 37/2)
(1/2, 3/2, 9/2, 11/2, 13/2, 17/2, 21/2, 37/2)
(3/2, 5/2, 9/2, 11/2, 15/2, 17/2, 19/2, 37/2)
(0, 1, 3, 4, 7, 10, 11, 18)
(-1, 2, 3, 5, 6, 10, 11, 18)
(1, 2, 3, 4, 8, 9, 11, 18)
(0, 2, 4, 5, 7, 9, 11, 18)
(0, 1, 5, 6, 7, 8, 11, 18)
(1, 3, 4, 5, 8, 9, 10, 18)
(1, 2, 5, 6, 7, 9, 10, 18)
(-1/2, 3/2, 5/2, 9/2, 13/2, 21/2, 23/2, 35/2)
(-3/2, 5/2, 7/2, 9/2, 11/2, 21/2, 23/2, 35/2)
(1/2, 3/2, 7/2, 9/2, 15/2, 19/2, 23/2, 35/2)
(-1/2, 5/2, 7/2, 11/2, 13/2, 19/2, 23/2, 35/2)
(-1/2, 3/2, 9/2, 11/2, 15/2, 17/2, 23/2, 35/2)
(3/2, 5/2, 7/2, 9/2, 17/2, 19/2, 21/2, 35/2)
(1/2, 5/2, 9/2, 11/2, 15/2, 19/2, 21/2, 35/2)
(1/2, 3/2, 11/2, 13/2, 15/2, 17/2, 21/2, 35/2)
(0, 1, 2, 5, 6, 11, 12, 17)
(-1, 2, 3, 4, 6, 11, 12, 17)
(0, 2, 3, 5, 7, 10, 12, 17)
(-1, 3, 4, 5, 6, 10, 12, 17)
(0, 1, 4, 5, 8, 9, 12, 17)
(-1, 2, 4, 6, 7, 9, 12, 17)
(1, 2, 4, 5, 8, 10, 11, 17)
(0, 3, 4, 6, 7, 10, 11, 17)
(0, 2, 5, 6, 8, 9, 11, 17)
(0, 1, 6, 7, 8, 9, 10, 17)
(-1/2, 3/2, 5/2, 9/2, 11/2, 23/2, 25/2, 33/2)
(1/2, 3/2, 5/2, 11/2, 13/2, 21/2, 25/2, 33/2)
(-1/2, 5/2, 7/2, 9/2, 13/2, 21/2, 25/2, 33/2)
(-1/2, 3/2, 7/2, 11/2, 15/2, 19/2, 25/2, 33/2)
(-3/2, 5/2, 9/2, 11/2, 13/2, 19/2, 25/2, 33/2)
(-3/2, 5/2, 7/2, 13/2, 15/2, 17/2, 25/2, 33/2)
(1/2, 5/2, 7/2, 11/2, 15/2, 21/2, 23/2, 33/2)
(-1/2, 7/2, 9/2, 11/2, 13/2, 21/2, 23/2, 33/2)
(1/2, 3/2, 9/2, 11/2, 17/2, 19/2, 23/2, 33/2)
(-1/2, 5/2, 9/2, 13/2, 15/2, 19/2, 23/2, 33/2)
(-1/2, 3/2, 11/2, 13/2, 17/2, 19/2, 21/2, 33/2)
(0, 1, 3, 4, 5, 12, 13, 16)
(0, 2, 3, 5, 6, 11, 13, 16)
(0, 1, 3, 6, 7, 10, 13, 16)
(-1, 2, 4, 5, 7, 10, 13, 16)
(-1, 2, 3, 6, 8, 9, 13, 16)
(-2, 3, 4, 6, 7, 9, 13, 16)
(1, 2, 3, 6, 7, 11, 12, 16)
(0, 3, 4, 5, 7, 11, 12, 16)
(0, 2, 4, 6, 8, 10, 12, 16)
(-1, 3, 5, 6, 7, 10, 12, 16)
(-1, 3, 4, 7, 8, 9, 12, 16)
(0, 1, 5, 6, 9, 10, 11, 16)
(-1, 2, 5, 7, 8, 10, 11, 16)
(1/2, 3/2, 5/2, 7/2, 9/2, 25/2, 27/2, 31/2)
(1/2, 3/2, 7/2, 9/2, 11/2, 23/2, 27/2, 31/2)
(-1/2, 3/2, 7/2, 11/2, 13/2, 21/2, 27/2, 31/2)
(-1/2, 3/2, 5/2, 13/2, 15/2, 19/2, 27/2, 31/2)
(-3/2, 5/2, 7/2, 11/2, 15/2, 19/2, 27/2, 31/2)
(-5/2, 7/2, 9/2, 11/2, 15/2, 17/2, 27/2, 31/2)
(1/2, 5/2, 7/2, 11/2, 13/2, 23/2, 25/2, 31/2)
(1/2, 3/2, 7/2, 13/2, 15/2, 21/2, 25/2, 31/2)
(-1/2, 5/2, 9/2, 11/2, 15/2, 21/2, 25/2, 31/2)
(-1/2, 5/2, 7/2, 13/2, 17/2, 19/2, 25/2, 31/2)
(-3/2, 7/2, 9/2, 13/2, 15/2, 19/2, 25/2, 31/2)
(-1/2, 3/2, 9/2, 13/2, 17/2, 21/2, 23/2, 31/2)
(-3/2, 5/2, 11/2, 13/2, 15/2, 21/2, 23/2, 31/2)
(-3/2, 5/2, 9/2, 15/2, 17/2, 19/2, 23/2, 31/2)
(0, 1, 2, 3, 4, 13, 14, 15)
(1, 2, 3, 4, 5, 12, 14, 15)
(0, 1, 4, 5, 6, 11, 14, 15)
(-1, 2, 3, 6, 7, 10, 14, 15)
(0, 1, 2, 7, 8, 9, 14, 15)
(-2, 3, 4, 5, 8, 9, 14, 15)
(-3, 4, 5, 6, 7, 8, 14, 15)
(1, 2, 4, 5, 6, 12, 13, 15)
(0, 2, 4, 6, 7, 11, 13, 15)
(0, 2, 3, 7, 8, 10, 13, 15)
(-1, 3, 4, 6, 8, 10, 13, 15)
(-2, 4, 5, 6, 8, 9, 13, 15)
(0, 1, 4, 7, 8, 11, 12, 15)
(-1, 2, 5, 6, 8, 11, 12, 15)
(-1, 2, 4, 7, 9, 10, 12, 15)
(-2, 3, 5, 7, 8, 10, 12, 15)
(-2, 3, 4, 8, 9, 10, 11, 15)
(3/2, 5/2, 7/2, 9/2, 11/2, 25/2, 27/2, 29/2)
(1/2, 3/2, 9/2, 11/2, 13/2, 23/2, 27/2, 29/2)
(-1/2, 5/2, 7/2, 13/2, 15/2, 21/2, 27/2, 29/2)
(1/2, 3/2, 5/2, 15/2, 17/2, 19/2, 27/2, 29/2)
(-3/2, 7/2, 9/2, 11/2, 17/2, 19/2, 27/2, 29/2)
(-5/2, 9/2, 11/2, 13/2, 15/2, 17/2, 27/2, 29/2)
(-1/2, 3/2, 9/2, 13/2, 15/2, 23/2, 25/2, 29/2)
(-1/2, 3/2, 7/2, 15/2, 17/2, 21/2, 25/2, 29/2)
(-3/2, 5/2, 9/2, 13/2, 17/2, 21/2, 25/2, 29/2)
(-5/2, 7/2, 11/2, 13/2, 17/2, 19/2, 25/2, 29/2)
(-3/2, 5/2, 7/2, 15/2, 19/2, 21/2, 23/2, 29/2)
(-5/2, 7/2, 9/2, 15/2, 17/2, 21/2, 23/2, 29/2)
(0, 1, 5, 6, 7, 12, 13, 14)
(-1, 2, 4, 7, 8, 11, 13, 14)
(0, 1, 3, 8, 9, 10, 13, 14)
(-2, 3, 5, 6, 9, 10, 13, 14)
(-3, 4, 6, 7, 8, 9, 13, 14)
(-1, 2, 3, 8, 9, 11, 12, 14)
(-2, 3, 4, 7, 9, 11, 12, 14)
(-3, 4, 5, 7, 9, 10, 12, 14)
(-3/2, 5/2, 7/2, 15/2, 17/2, 23/2, 25/2, 27/2)
(-1/2, 3/2, 5/2, 17/2, 19/2, 21/2, 25/2, 27/2)
(-5/2, 7/2, 9/2, 13/2, 19/2, 21/2, 25/2, 27/2)
(-7/2, 9/2, 11/2, 15/2, 17/2, 19/2, 25/2, 27/2)
(-7/2, 9/2, 11/2, 13/2, 19/2, 21/2, 23/2, 27/2)
(0, 1, 2, 9, 10, 11, 12, 13)
(-3, 4, 5, 6, 10, 11, 12, 13)
(-4, 5, 6, 7, 9, 10, 12, 13)
(-9/2, 11/2, 13/2, 15/2, 17/2, 21/2, 23/2, 25/2)
(-5, 6, 7, 8, 9, 10, 11, 12)

(Ils sont ici triés par ordre lexicographique inverse donnant le poids le plus fort aux dernières composantes. Mais ce n'est peut-être pas l'ordre le plus logique ici.)

Autrement dit, les vecteurs qu'on peut atteindre à partir de (0, 1, 2, 3, 4, 5, 6, 23) par application des opérations de W(E₈) sont exactement les vecteurs qu'on peut atteindre à partir de l'un des 135 vecteurs ci-dessus par application des opérations de W(D₈) (5 160 960 vecteurs atteignables par permutation des coordonnées et changement d'un nombre pair de signes sur chacun des 135 listés, soit 696 729 600 au total). C'est d'ailleurs un exercice de programmation assez simple mais possiblement rigolo de générer ou vérifier la liste en question (si possible sans utiliser de tableau de taille 696 729 600).

Voici maintenant la question à 135 zorkmids : y a-t-il une description élémentaire de la liste ci-dessus ? Autrement dit, en supposant que je donne juste cette liste (en précisant éventuellement que l'ordre des entrées n'a pas d'importance, que l'ordre des composantes de chaque ligne n'en a pas non plus, et que pour ce qui est des signes seule leur parité importe) et que je demande trouvez la logique, y a-t-il quelque chose qui évite de parler de E₈ ?

Je subodore que la réponse est oui, mais j'avoue que je n'ai pas vraiment de raison de le croire à part une sorte de foi inébranlable en l'harmonie des mathématiques.

Il faut que j'explique cependant en quoi cela peut avoir un intérêt d'en chercher une. Dans mes explications (peut-être irritantes) ci-dessus, j'ai soigneusement omis d'expliquer ce qu'est, au juste, W(E₈), j'ai juste défini les opérations de W(E₈) et les orbites sous W(E₈). Ceux qui en savent un peu plus que le niveau élémentaire où je me suis placé auront bien sûr deviné que W(E₈) est censé être un groupe, que 696 729 600 est son ordre, et que les 696 729 600 vecteurs atteignables à partir de (0, 1, 2, 3, 4, 5, 6, 23) sont une orbite régulière (= un espace principal homogène) pour ce groupe, qui, du coup, peut servir à représenter le groupe si on choisit une origine. Pour éviter de supposer qu'on sait ce qu'est un groupe, je peux dire les choses ainsi : si je prend deux vecteurs v et w quelconques de l'orbite de (0, 1, 2, 3, 4, 5, 6, 23) sous W(E₈), et si j'appelle u le vecteur (0, 1, 2, 3, 4, 5, 6, 23) lui-même (le représentant qu'on a choisi d'appeler « dominant »), quelle que soit la succession d'opérations de W(E₈) amenant u en v, on peut appliquer la même suite d'opérations sur w, et on obtient un nouveau vecteur de l'orbite, que je vais noter vw : il se trouve qu'il ne dépend pas des opérations choisies pour amener u en v (ce n'est pas du tout évident, et c'est là qu'intervient le fait que l'orbite a 696 729 600 éléments et pas moins). Ceci constitue une « loi de composition » sur mes 696 729 600 éléments ; cette loi est, de plus, associative (on a x•(yz) = (xy)•z quels que soient x,y,z) et elle a u pour élément neutre (c'est-à-dire que uv=vu=v quel que soit v, ce qui est évident sur la définition), et chaque élément v a un inverse v′ (c'est-à-dire que vv′=v′•v=u). C'est ça qu'on appelle un groupe, et c'est ce groupe-là qui s'appelle W(E₈) (même si ce n'est pas vraiment la façon la plus naturelle de le définir : on a plutôt envie de le voir comme les transformations elles-mêmes plutôt que leur effet sur le vecteur particulier (0, 1, 2, 3, 4, 5, 6, 23)). Si on faisait pareil pour W(D₈) sur l'orbite de (0, 1, 2, 3, 4, 5, 6, 7), la loi de composition ainsi fabriquée serait la composition des permutations signées-avec-un-nombre-pair-de-signes-moins ; dans le cadre de W(Ar), que je n'ai pas défini, on obtient la composition des permutations sur r+1 objets. Représenter les éléments de W(E₈) par des octuplets de nombres est possiblement plus sympathique que de le représenter comme on le fait habituellement (par des matrices 8×8, pour ceux qui savent ce que c'est, correspondant à la transformation linéaire effectuée) ; la description que j'ai faite est en principe algorithmique puisque j'ai donné ci-dessus un algorithme pour envoyer u = (0, 1, 2, 3, 4, 5, 6, 23) sur un vecteur v quelconque de l'orbite (ce qui permet, du coup, de refaire les mêmes opérations sur w), mais en pratique ce n'est pas très commode. J'aimerais croire qu'il y a une description plus élémentaire et plus sympathique comme il y a pour la composition des permutations ou des permutations signées. Ou en tout cas qui permette de calculer différentes choses sur un élément de W(E₈), par exemple son ordre ou son inverse.

Ajout/éclaircissement : Le paragraphe précédent est assez confus, mais l'idée générale est que W(E₈) est, de beaucoup de point de vues, très semblable à un groupe de permutations ou de permutations signées ; or il est facile et courant de représenter les éléments d'un groupe de permutations (éventuellement signées) par des listes d'entiers : il est possible d'en faire autant pour W(E₈), et c'est essentiellement ce que j'ai expliqué jusqu'ici, mais ce qui n'est pas très clair c'est ce que sont, au juste, les listes d'entiers en question (ou, à plus forte raison, comment fonctionne au juste l'opération de composition — ce que j'ai présenté est algorithmique, mais l'algorithme n'est vraiment pas très parlant).

J'ai posé la question sur MathOverflow, mais pour l'instant sans grand succès.

Ajout/exemple : Avec la description que j'ai choisie, L'élément (−1, 3, 4, 5, 6, 7, 0, 22) est un élément d'ordre 30 du groupe W(E₈), c'est-à-dire que c'est ce nombre de fois qu'il faut le composer avec lui-même pour retomber sur l'élément unité (0, 1, 2, 3, 4, 5, 6, 23). (C'est, en fait, un élément dit de Coxeter, ils jouent un rôle assez important.) Ses puissances successives sont les suivantes :

0	(0, 1, 2, 3, 4, 5, 6, 23)
1	(-1, 3, 4, 5, 6, 7, 0, 22)
2	(0, 5, 6, 7, 8, 1, -2, 21)
3	(-3/2, 15/2, 17/2, 19/2, 5/2, -1/2, -7/2, 39/2)
4	(-3/2, 23/2, 25/2, 11/2, 5/2, -1/2, -9/2, 33/2)
5	(-2, 16, 9, 6, 3, -1, -8, 13)
6	(-7/2, 29/2, 23/2, 17/2, 9/2, -5/2, -21/2, 15/2)
7	(0, 15, 12, 8, 1, -7, -11, 4)
8	(-4, 16, 12, 5, -3, -7, -11, 0)
9	(-2, 18, 11, 3, -1, -5, -10, -6)
10	(-2, 15, 7, 3, -1, -6, -14, -10)
11	(-5/2, 23/2, 15/2, 7/2, -3/2, -19/2, -21/2, -29/2)
12	(0, 10, 6, 1, -7, -8, -9, -17)
13	(-5/2, 17/2, 7/2, -9/2, -11/2, -13/2, -15/2, -39/2)
14	(-1/2, 13/2, -3/2, -5/2, -7/2, -9/2, -11/2, -45/2)
15	(0, -1, -2, -3, -4, -5, -6, -23)
16	(1, -3, -4, -5, -6, -7, 0, -22)
17	(0, -5, -6, -7, -8, -1, 2, -21)
18	(3/2, -15/2, -17/2, -19/2, -5/2, 1/2, 7/2, -39/2)
19	(3/2, -23/2, -25/2, -11/2, -5/2, 1/2, 9/2, -33/2)
20	(2, -16, -9, -6, -3, 1, 8, -13)
21	(7/2, -29/2, -23/2, -17/2, -9/2, 5/2, 21/2, -15/2)
22	(0, -15, -12, -8, -1, 7, 11, -4)
23	(4, -16, -12, -5, 3, 7, 11, 0)
24	(2, -18, -11, -3, 1, 5, 10, 6)
25	(2, -15, -7, -3, 1, 6, 14, 10)
26	(5/2, -23/2, -15/2, -7/2, 3/2, 19/2, 21/2, 29/2)
27	(0, -10, -6, -1, 7, 8, 9, 17)
28	(5/2, -17/2, -7/2, 9/2, 11/2, 13/2, 15/2, 39/2)
29	(1/2, -13/2, 3/2, 5/2, 7/2, 9/2, 11/2, 45/2)
30	(0, 1, 2, 3, 4, 5, 6, 23)

J'avoue que tout ça a l'air assez aléatoire (à part la puissance quinzième, mais ce n'est pas difficile à comprendre), et c'est sans doute de mauvais augure pour trouver une logique dans ce foutoir.

Il faut que je précise encore une chose : pourquoi précisément (0, 1, 2, 3, 4, 5, 6, 23) ? On pourrait chercher à représenter le groupe W(E₈) à partir de n'importe quel vecteur ayant une orbite de taille 696 729 600, mais (0, 1, 2, 3, 4, 5, 6, 23) est ce qu'on appelle un vecteur de Weyl, et je soupçonne que c'est ce qui a le plus de chances de donner une réponse simple à ma question s'il peut y en avoir une (dans le cas de W(D₈), le vecteur de Weyl dominant est (0, 1, 2, 3, 4, 5, 6, 7), ce qui est quand même bien sympathique pour représenter les permutations signées). Définir exactement ce qu'est un vecteur de Weyl n'est pas tout à fait évident : je peux par exemple proposer la façon suivante, mais ce n'est pas forcément clair que ce soit intéressant : considérons un vecteur dominant u général pour W(E₈), et maintenant considérons parmi les 240 vecteurs que j'ai appelés système de racines de E₈ ci-dessus, ceux dont le produit scalaire avec u (c'est-à-dire la somme des produits des coordonnées correspondantes) est positif (sachant qu'il ne peut pas être nul) ; il se trouve que ce sont les 120 vecteurs (sur les 240 du système de racines) dont la dernière coordonnée non nulle est strictement positive ; maintenant, faisons la demi-somme de tous ces vecteurs : cela donne (0, 1, 2, 3, 4, 5, 6, 23) ; et en fait, si j'étais parti d'un vecteur u général quelconque (général voulant dire que son orbite a 696 729 600 éléments, ou, ce qui revient au même, que les huit composantes du vecteur u soient deux à deux distinctes, qu'il n'y en ait pas deux qui soient opposées, et qu'il n'y ait pas non plus un nombre pair d'entre elles dont la somme soit égale à la somme des autres), alors la même procédure (faire la demi-somme des 120 vecteurs du système de racine ayant un produit scalaire positif avec u) donnerait un des 696 729 600 vecteurs de l'orbite de (0, 1, 2, 3, 4, 5, 6, 23) sous W(E₈), que je cherche justement à identifier. Mais bon, cette description n'est pas franchement éclairante. Il faut plutôt se dire, moralement, que (0, 1, 2, 3, 4, 5, 6, 23) est, en un certain sens, le vecteur « le plus petit et le plus simple » (mais je ne veux pas chercher à définir exactement ce que cela signifie) qui ait une orbite sous W(E₈) de taille 696 729 600.

↑Entry #2502 [older| permalink|newer] / ↑Entrée #2502 [précédente| permalien|suivante] ↑

↓Entry #2492 [older| permalink|newer] / ↓Entrée #2492 [précédente| permalien|suivante] ↓

(samedi)

Approximation diophantienne ; et une bizarrerie mathématique : la constante de Freiman

Il est bien connu que l'ensemble ℚ des rationnels, que je noterai ici p/q sous forme irréductible, est dense dans les réels ℝ, c'est-à-dire que si x∈ℝ, on peut trouver p/q aussi proche qu'on veut de x, ou encore : (pour tout ε>0, il existe p/q tel que) |xp/q| < ε. Là où les choses deviennent plus intéressantes, c'est quand on commence à se demander, donné x∈ℝ, combien il faut payer pour l'approcher par p/q rationnel : autrement dit, si je veux une approximation de qualité ε>0, combien je dois le payer en utilisant un rationnel compliqué, le « compliqué » en question se mesurant par le dénominateur q>0 utilisé (on pourrait prendre la « hauteur » max(|p|,q), ou peut-être |p|+q, mais ça ne changerait pas grand-chose). Le sujet général s'appelle l'approximation diophantienne, et je n'y connais pas grand-chose, mais rappelons quand même les résultats les plus standards à ce sujet.

Si h est une fonction croissante des entiers naturels non nuls vers les réels strictement positifs, je peux dire qu'un réel x est h-approchable par les rationnels (ou simplement h-approchable) lorsqu'il existe des rationnels p/q de dénominateur q arbitrairement élevé tels que |xp/q| < 1/h(q) (formellement : pour tout n entier naturel non nul, il existe p et q entiers premiers entre eux avec qn tels que |xp/q| < 1/h(q)). Il faut y penser comme : en payant avec un dénominateur q j'obtiens une qualité d'approximation h(q). Plus la fonction h grandit vite, plus je demande une bonne approximation, donc plus il est difficile de trouver de tels x. Si h′≥h, ou même simplement si cette inégalité vaut à partir d'un certain rang, alors tout réel h′-approchable est, en particulier, h-approchable. Si h est constante (je demande une qualité d'approximation constante, et je suis prêt à payer arbitrairement cher pour l'avoir) ou simplement bornée, tout réel x est approchable, c'est ce que j'ai rappelé ci-dessus, mais on va voir ci-dessous qu'on peut faire mieux. Dans la pratique, on prendra donc une fonction h de limite ∞ en ∞, sinon la définition n'a guère d'intérêt.

Si h est quelconque (croissante des entiers naturels non nuls vers les réels strictement positifs), il existe toujours des réels h-approchables au sens ci-dessus : c'est une conséquence du théorème de Baire : quel que soit n>0, l'ensemble des x pour lesquels il existe p/q avec qn vérifiant |xp/q| < 1/h(q) est ouvert (puisque c'est une réunion d'intervalles ouverts de largeur 2/h(q) centrés en les p/q) et dense (puisqu'il contient l'ensemble dense des rationnels p/q de dénominateur qn) ; donc (le théorème de Baire assure que) leur intersection est non vide, c'est-à-dire qu'il existe des réels x, et même qu'il existe un ensemble dense, pour lesquels il existent des p/q avec q arbitrairement grand vérifiant |xp/q| < 1/h(q), ce qui signifie exactement qu'ils (les x en question) sont h-approchables. Bref, on peut trouver des réels approchés arbitrairement bien par des rationnels, quelle que soit la qualité h de l'approximation qu'on demande pour un dénominateur donné.

Un autre résultat, dit théorème d'approximation de Dirichlet, est que quel que soit x irrationnel, il existe des p/q de dénominateur q arbitrairement élevé tels que |xp/q| < 1/q² (c'est-à-dire que x est q²-approchable, ceci étant une écriture abusive pour dire h-approchable pour h(q)=q²). La démonstration est vraiment facile mais astucieuse : on considère les parties fractionnaires zk := yk−⌊yk⌋ (entre 0 inclus et 1 exclu) des réels yk := k·x pour 0≤kN entier ; ceci fait N+1 nombres zk, qu'on répartit en les N intervalles de largeur 1/N partitionnant [0;1[ (je veux dire : l'intervalle entre 0 inclus et 1/N exclu, l'intervalle entre 1/N inclus et 2/N exclu, et ainsi de suite jusqu'à l'intervalle entre (N−1)/N inclus et 1 exclu) ; comme il y a plus de réels que d'intervalles, deux d'entre eux, disons zk et z avec k<, qui tombent dans le même intervalle de largeur 1/N, donc ils vérifient |zzk| < 1/N, c'est-à-dire |·x − ⌊·x⌋ − k·x + ⌊k·x⌋| < 1/N, ce qui donne |q·xp| < 1/Nq = k et p = ⌊·x⌋−⌊k·x⌋, et comme 0<q<N (puisque 0≤k<N), on a du coup |xp/q| < 1/(N·q) < 1/q² comme annoncé ; quant au fait qu'on puisse trouver des q arbitrairement grands vérifiant ça, c'est simplement parce que (tant que x est irrationnel !, ce qui n'a pas encore été utilisé), chaque q donné ne peut vérifier |xp/q| < 1/(N·q) que jusqu'à un certain N (à savoir la partie entière de |q·xp|), et donc en prenant un N plus grand que ça, on obtient un p/q forcément différent (je laisse le lecteur remplir les détails).

↑Entry #2492 [older| permalink|newer] / ↑Entrée #2492 [précédente| permalien|suivante] ↑

↓Entry #2477 [older| permalink|newer] / ↓Entrée #2477 [précédente| permalien|suivante] ↓

(vendredi)

Notes de cours de théorie des langages formels

Un des cours (de première année) dont je suis responsable à l'ENST Télécom ParisTech ParisSaclay NewUni l'école où j'enseigne concerne la théorie des langages [formels], c'est-à-dire les langages rationnels, expressions rationnelles et automates finis, les langages algébriques et grammaires hors-contexte, et pour finir une toute petite introduction à la calculabilité (sujet dont je me suis déjà plaint, et plus d'une fois, de la difficulté à l'enseigner proprement). J'ai tout juste fini d'en réécrire le poly, complètement en retard puisque le cours a déjà commencé et qu'il va falloir du temps pour l'impression.

Comme je suis partisan de l'ouverture et de la disponibilité des documents d'enseignement, voici les notes en question. Si certains de mes lecteurs sont intéressés par ce sujet, ou veulent m'aider à traquer les erreurs qui demeurent certainement nombreuses, n'hésitez pas à me faire parvenir vos commentaires (mais comme je mets à jour ce lien régulièrement, pensez à recopier la ligne Git de la première page pour que je sache à quelle version vous faites référence).

(Il va de soi que le contenu lui-même, qui est le résultat de divers compromis, que ce soit sur le temps imparti ou sur l'équilibre entre mathématiques et informatique pratique, est souvent boiteux. Ce n'est pas la peine de me faire des remarques à ce sujet ; enfin, ce n'est pas qu'elles soient mal venues, c'est juste qu'elles ne seront pas suivies d'effets.)

↑Entry #2477 [older| permalink|newer] / ↑Entrée #2477 [précédente| permalien|suivante] ↑

↓Entry #2462 [older| permalink|newer] / ↓Entrée #2462 [précédente| permalien|suivante] ↓

(jeudi)

Petit guide bordélique de quelques ordinaux intéressants

Méta / avant-propos

L'écriture de cette entrée aura été assez chaotique, et un peu un échec : j'ai changé plusieurs fois d'avis sur ce que je voulais y mettre, et du coup le résultat est parti un peu dans tous les sens. Cela faisait longtemps que je me disais que je devrais écrire quelque chose sur des ordinaux remarquables (comme une suite de l'entrée d'introduction à leur sujet), j'y ai repensé en écrivant l'entrée sur la programmation transfinie, je m'y suis remis en reprenant (et en copiant-collant) des bouts de choses que j'avais écrites antérieurement et laissées de côté, mais ça s'est enlisé. Je commence par expliquer pourquoi — et dans une certaine mesure, comment lire cette entrée.

Mon idée initiale était d'aider le lecteur à situer un certain nombre d'ordinaux intéressants (dont j'ai pu parler par le passé ou dont je pourrais parler ultérieurement) en les classant dans l'ordre (ce qui est bien avec les ordinaux, c'est qu'ils sont, justement, bien ordonnés) : j'ai déjà écrit cet autre texte à ce sujet (lié depuis l'entrée précédente), mais il est un plutôt technique, son but étant surtout de rassembler des pointeurs vers la littérature mathématique publiée, alors qu'ici je voulais donner un aperçu plus intuitif de (certains de) ces ordinaux intéressants.

Je me suis dit que j'allais faire un plan en trois parties, que j'appellerai domaines : (1) les ordinaux calculables (et a fortiori dénombrables), c'est-à-dire les ordinaux strictement inférieurs à l'ordinal de Church-Kleene ω₁CK, (2) les ordinaux non calculables mais néanmoins dénombrables, c'est-à-dire ≥ω₁CK mais néanmoins <ω₁ (qui, en gros, ne sont intéressants que s'ils sont « admissibles »), et (3) les ordinaux non dénombrables (qui, en gros, ne sont intéressants que s'ils sont des cardinaux). Ce plan a le bon goût de permettre d'insister sur le fait que, par exemple, certains ordinaux, bien que monstrueusement grands et complexes à définir, sont néanmoins encore calculables (domaine (1), c'est-à-dire <ω₁CK), ce qui donne une petite idée de combien ω₁CK est gigantesque.

Mais ce plan a aussi l'inconvénient que l'ordre naturel sur les ordinaux (la taille, quoi) n'est pas du tout la même chose que l'ordre d'importance, d'intérêt, ou de difficulté à les définir (je peux définir ω₁ en disant que c'est le plus petit ordinal indénombrable, ou que c'est l'ensemble des ordinaux dénombrables triés par ordre de taille : ça ne laisse peut-être pas comprendre à quel point il est riche et complexe, mais au moins, c'est une définition nette et précise, alors que certains ordinaux beaucoup plus petits, quoique structuralement moins riches, sont beaucoup plus subtils à définir, puisqu'on veut les définir, justement, de façon beaucoup plus précise et complète). Plus subtilement, d'ailleurs, mon plan par taille des ordinaux a aussi l'inconvénient que l'ordre de taille n'est même pas l'ordre de dépendance logique des ordinaux : c'est ce phénomène qu'on appelle imprédicativité qui veut qu'on fasse appel, pour construire certains ordinaux, à des ordinaux encore plus grands ; ainsi, la construction de l'ordinal de Bachmann-Howard (qui est <ω₁CK, donc dans le domaine (1) de mon plan) fait appel à une « fonction d'écrasement », qui présuppose de savoir ce que c'est que ω₁CK ou peut-être ω₁ (l'un ou l'autre peut servir, et on lui donne le nom de Ω dans les notations), et c'est encore pire dans la construction d'ordinaux calculables encore plus grands, qui nécessitent d'invoquer des ordinaux récursivement grands ou de grands cardinaux.

Je le savais, bien sûr, mais je pensais pouvoir contourner ces difficultés en fournissant au fur et à mesure des informations minimales sur les grands ordinaux des domaines (2) et (3) alors que je décrivais le domaine (1), quitte à y revenir plus tard. Finalement, c'est une très mauvaise idée, et cette partie (1) a beaucoup trop gonflé et est devenue, du même coup, assez illisible. (Un autre problème est que ce qui rend les ordinaux calculables vraiment intéressants est leur lien avec certaines théories logiques, et il faudrait vraiment beaucoup de place pour expliquer ce que sont exactement des théories telles que la « théorie des ensembles de Kripke-Platek », l'« arithmétique du second ordre limitée à la Δ¹₂-compréhension », la « théorie des définitions inductives ».) En même temps que ça, j'ai commencé à en avoir vraiment marre d'écrire sur des ordinaux de plus en plus techniques à expliquer. Du coup, j'ai calé sur la partie (1), ce qui casse vraiment l'intention initiale, puisque j'avais surtout envie (pour rester sur la lancée de la programmation transfinie) d'essayer de dire des choses sur les ordinaux nonprojectibles, stables et compagnie, qui sont résolument dans la partie (2).

Au final, c'est un peu n'importe quoi : cette entrée me fait l'effet d'une moussaka géante où on ne comprend plus rien. Mais je pense qu'il y a quand même un certain intérêt à ce que je publie ce « n'importe quoi » plutôt que de le ranger dans mes cartons, c'est-à-dire dans le vaste cimetière des entrées que j'ai commencées et jamais publiées. Car après tout, ce que j'écris est correct (enfin, je crois), et même si vers la fin je lance dans l'air de plus en plus de termes non définis faute de patience pour les définir, ou que je pars complètement dans l'agitage de mains, certains en tireront quand même quelque chose.

Finalement, les différentes sous-parties de cette entrée sont, je l'espère, assez indépendantes les unes des autres, donc comme d'habitude, et même plus encore que d'habitude, j'encourage à sauter les passages qu'on trouve incompréhensibles ou trop techniques (beaucoup d'entre eux ne servent, finalement, à rien).

Comme expliqué ci-dessus, je vais d'abord faire quelques remarques générales sur les ordinaux intéressants, expliquer plus précisément le plan que j'avais en tête, puis parler d'ordinaux calculables (i.e., <ω₁CK, le domaine (1)), et m'arrêter en queue de poisson.

↑Entry #2462 [older| permalink|newer] / ↑Entrée #2462 [précédente| permalien|suivante] ↑

↓Entry #2460 [older| permalink|newer] / ↓Entrée #2460 [précédente| permalien|suivante] ↓

(vendredi)

Un peu de programmation transfinie

Ça fait très longtemps que j'ai envie d'écrire cette entrée, parce que je trouve le sujet extrêmement rigolo : en gros, ce dont je veux parler, c'est comment définir et programmer un ordinateur transfini ? (comment concevoir un langage de programmation considérablement plus puissant qu'une machine de Turing parce qu'il est capable de manipuler directement des — certains — ordinaux ?). Techniquement, ce dont je veux parler ici, c'est de la théorie de la α-récursion (une branche de la calculabilité supérieure qui a fleuri dans les années '70 et qui semble un peu moribonde depuis) ; sauf que la α-récursion n'est jamais présentée comme je le fais ici, c'est-à-dire en décrivant vraiment un langage assez précis dans lequel on peut écrire des programmes pour certains ordinateurs transfinis. Ces ordinateurs ont le malheur de ne pas pouvoir exister dans notre Univers (encore que, si on croit certaines théories complètement fumeuses que j'avais imaginées… ?) ; mais même s'ils n'existent pas, je pense que le fait d'écrire les choses dans un style « informatique » aide à rendre la théorie mathématique plus palpable et plus compréhensible (en tout cas, c'est comme ça que, personnellement, j'aime m'en faire une intuition).

Bref, ce que je voudrais, c'est que cette entrée puisse plaire à la fois à ceux qui aiment la programmation et à ceux qui aiment les ordinaux ; ce que je crains, c'est qu'en fait elle déplaise à la fois à ceux qui n'aiment pas la programmation et à ceux qui n'aiment pas les ordinaux — ce qui est logiquement différent. On verra bien.

Il faut que je précise que tout ce que je raconte est un territoire relativement mal couvert par la littérature mathématique (il y a certainement des gens qui trouveraient tout ça complètement évident, mais je n'en fais pas partie, et comme je le disais, je soupçonne que la plupart étaient surtout actifs vers '70 et sont maintenant un peu âgés ou sont passés à autre chose), et jamais de la manière dont je le fais (comme un vrai langage de programmation : il y a des gens qui ont « redécouvert » des domaines proches comme avec les machines de Turing infinies ou les machines ordinales de Koepke, mais c'est un peu différent). Du coup, il faut prendre tout ce que je raconte avec un grain de sel : je n'ai pas vérifié chaque affirmation avec le soin que j'aurais fait si j'étais en train d'écrire un article à publier dans un journal de recherche.

Une autre remarque : cette entrée contient un certain nombre de digressions, notamment parce que je pars dans plusieurs directions un peu orthogonales. Je n'ai pas voulu les mettre en petits caractères comme je le fais souvent, pour ne pas préjuger de ce qui est important et ce qui ne l'est pas, et je n'ai pas eu le courage de tracer un leitfaden, mais tout ne dépend pas de tout : donc, si on trouve un passage particulièrement obscur ou inintéressant, on peut raisonnablement espérer(!) qu'il ne soit pas vraiment important pour la suite.

*

Pour faire une sorte de plan ce dont je veux parler, je vais décrire un langage de programmation assez simple (dont la syntaxe sera imitée de celle du C/JavaScript) et différentes variantes autour de ce langage. Plus exactement, je vais définir quatre langages : un langage (0) « de base » et deux extensions qu'on peut appliquer à ce langage (les extensions « forward » et « uloop », qui seront définies après), de sorte qu'à côté du langage (0) de base, il y aura le langage (1) avec extension « forward », le langage (2) avec extension « uloop », et le langage (3) avec les deux extensions à la fois ; tout ça peut encore être multiplié par deux si j'autorise les tableaux dans le langage, ce qui, finalement, ne changera rien à son pouvoir d'expression, et c'est peut-être surprenant.

Chacun de ces langages pourra servir dans le « cas fini » (le langage manipule des entiers naturels, et chacun des langages (0)–(3) peut être implémenté sur un vrai ordinateur et servir de vrai langage de programmation) ou dans le « cas transfini » (le langage manipule des ordinaux). J'expliquerai plus précisément en quoi consiste ce cas transfini, mais je veux insister dès à présent sur le fait que les langages de programmation (0)–(3) seront exactement les mêmes dans ce cas transfini que dans le cas fini (plus exactement, leur syntaxe sera exactement la même ; la sémantique pour les langages (0)&(1) sera prolongée, tandis que pour les langages (2)&(3) elle sera raffinée et dépendra d'un « ordinal de boucle » λ).

↑Entry #2460 [older| permalink|newer] / ↑Entrée #2460 [précédente| permalien|suivante] ↑

↓Entry #2447 [older| permalink|newer] / ↓Entrée #2447 [précédente| permalien|suivante] ↓

(lundi)

Sons et graphes de caractères de groupes de Lie

Il y a quelque temps, je me désolais de ne jamais avoir réussi à trouver un objet mathématique dont je pourrais faire une représentation sous forme auditive — plutôt que visuelle — et qui serait mélodieux à entendre.

Or ces derniers temps, je réfléchissais à des problèmes — et globalement, à essayer de comprendre plus précisément des choses — autour de caractères de groupes de Lie, et j'ai été amené à tracer des fonctions qui ressemblent à ceci (cliquez pour agrandir) :

[Caractères fondamentaux du groupe de Lie F₄ restreintes au tore du SU₂ principal de Kostant]

Là, je devrais essayer de dire de quoi il s'agit. L'ennui, c'est que ce n'est pas facile. Je peux donner une explication pour les experts, mais elle n'éclairera pas du tout le grand public (ni même le public moyennement averti) ; je l'écris surtout pour m'en souvenir moi-même :

(Pour les experts, donc.)

Il s'agit des caractères fondamentaux d'un groupe de Lie (réel compact) simple (dans la figure ci-dessus, il s'agit de F₄), restreints au tore du SU₂ principal de Kostant, c'est-à-dire, plus concrètement, le groupe à un paramètre engendré par la demi-somme des coracines positives. Autrement dit, si ρ# est la demi-somme des coracines positives (ou somme des copoids fondamentaux), donnée une représentation définie par son système de poids, on applique ρ# aux poids en question, ce qui donne des demi-entiers (les multiplicités étant sommées), à interpréter comme les poids d'une représentation de SU₂, ou comme définissant un polynôme trigonométrique. Une façon de calculer en pratique consiste à appliquer la formule de caractère de Weyl avec une petite astuce (cf. §3.1 de cet article) : si ρ est la demi-somme des racines positives et λ un poids dominant, on calcule le produit des tλ+ρ,α#⟩−1 où t est une indéterminée et α# parcourt les coracines positives, et on divise ce polynôme par le produit des tρ,α#⟩−1 ; ceci donne un polynôme en t (dont la valeur en 1 est précisément la dimension de la représentation de poids dominant λ, c'est la formule de dimension de Weyl ; quant au degré, il vaut 2⟨λ,ρ#⟩, c'est-à-dire la somme des coefficients de λ sur la base des racines simples) : les coefficients de ce polynôme sont ceux recherchés : si on les décale (i.e. on divise encore par tλ,ρ#⟩) et qu'on lit comme un polynôme trigonométrique, c'est la fonction recherchée. Voici par exemple le calcul en Sage dans le cas de F₄ :

sage: WCR = WeylCharacterRing("F4", style="coroots")
sage: weylvec = sum([rt for rt in WCR.positive_roots()])/2
sage: R.<t> = PolynomialRing(QQ,1)
sage: weyldenom = prod([t^weylvec.scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer1 = prod([t^(weylvec+WCR.fundamental_weights()[1]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer2 = prod([t^(weylvec+WCR.fundamental_weights()[2]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer3 = prod([t^(weylvec+WCR.fundamental_weights()[3]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer4 = prod([t^(weylvec+WCR.fundamental_weights()[4]).scalar(rt.associated_coroot())-1 for rt in WCR.positive_roots()])
sage: weylnumer1/weyldenom
t^22 + t^21 + t^20 + t^19 + 2*t^18 + 2*t^17 + 3*t^16 + 3*t^15 + 3*t^14 + 3*t^13 + 4*t^12 + 4*t^11 + 4*t^10 + 3*t^9 + 3*t^8 + 3*t^7 + 3*t^6 + 2*t^5 + 2*t^4 + t^3 + t^2 + t + 1
sage: weylnumer2/weyldenom
t^42 + t^41 + 2*t^40 + 3*t^39 + 5*t^38 + 7*t^37 + 10*t^36 + 12*t^35 + 16*t^34 + 20*t^33 + 25*t^32 + 29*t^31 + 35*t^30 + 39*t^29 + 45*t^28 + 50*t^27 + 55*t^26 + 58*t^25 + 62*t^24 + 63*t^23 + 66*t^22 + 66*t^21 + 66*t^20 + 63*t^19 + 62*t^18 + 58*t^17 + 55*t^16 + 50*t^15 + 45*t^14 + 39*t^13 + 35*t^12 + 29*t^11 + 25*t^10 + 20*t^9 + 16*t^8 + 12*t^7 + 10*t^6 + 7*t^5 + 5*t^4 + 3*t^3 + 2*t^2 + t + 1
sage: weylnumer3/weyldenom
t^30 + t^29 + 2*t^28 + 3*t^27 + 4*t^26 + 5*t^25 + 7*t^24 + 8*t^23 + 10*t^22 + 11*t^21 + 13*t^20 + 14*t^19 + 16*t^18 + 16*t^17 + 17*t^16 + 17*t^15 + 17*t^14 + 16*t^13 + 16*t^12 + 14*t^11 + 13*t^10 + 11*t^9 + 10*t^8 + 8*t^7 + 7*t^6 + 5*t^5 + 4*t^4 + 3*t^3 + 2*t^2 + t + 1
sage: weylnumer4/weyldenom
t^16 + t^15 + t^14 + t^13 + 2*t^12 + 2*t^11 + 2*t^10 + 2*t^9 + 2*t^8 + 2*t^7 + 2*t^6 + 2*t^5 + 2*t^4 + t^3 + t^2 + t + 1

Le polynôme en question doit d'ailleurs avoir un rapport très fort avec les crystal graphs de Kashiwara et Littelmann (les coefficients énumèrent le nombre de nœuds à chaque hauteur du graphe) ; et sans doute avec les groupes quantiques : je n'y connais rien, mais dans le cas de Ar, on obtient exactement le coefficient binomial gaussien (r+1,i) pour la i-ième représentation fondamentale. • Par ailleurs, il y a une grande similarité avec un autre polynôme important, à savoir le produit des tα,ρ#⟩+1−1 où t est une indéterminée et α parcourt les racines positives, divisé par le produit des tα,ρ#⟩−1 : ce polynôme-là énumère les éléments du groupe de Weyl par leur longueur (Carter, Simple Groups of Lie Type (1972/1989), théorème 10.2.2 page 153), par exemple pour F₄ on trouve t^24 + 4*t^23 + 9*t^22 + 16*t^21 + 25*t^20 + 36*t^19 + 48*t^18 + 60*t^17 + 71*t^16 + 80*t^15 + 87*t^14 + 92*t^13 + 94*t^12 + 92*t^11 + 87*t^10 + 80*t^9 + 71*t^8 + 60*t^7 + 48*t^6 + 36*t^5 + 25*t^4 + 16*t^3 + 9*t^2 + 4*t + 1, il est en lien avec les exposants du groupe de Weyl (id, théorème 10.2.3 page 155), et à très peu de choses près donne la fonction zêta du groupe algébrique, c'est-à-dire compte ses points sur les corps fini (id, proposition 8.6.1 page 122), ou de façon sans doute plus pertinente, les points de la variété de drapeau associée. Je ne comprends pas bien le rapport précis entre tous ces polynômes (notons que j'ai écrit le dernier pour coller avec ce que je trouve dans Carter, mais si je ne m'abuse, c'est aussi le produit des tρ,α#⟩+1−1 où t est une indéterminée et α parcourt les racines positives, divisé par le produit des tρ,α#⟩−1, ce qui le fait ressembler encore plus à ce que j'ai écrit ci-dessus). [Ajout : ce dernier polynôme est appelé q-polynomial ici. Je devrais ajouter, pour reproduire ce qui est mentionné sur cette page, que pour obtenir le polynôme donnant nombre de points de la variété de drapeau partielle définie par un ensemble S de nœuds du diagramme de Dynkin, on fait le produit des tα,ρ#⟩+1−1 divisé par le produit des tα,ρ#⟩−1, où cette fois α parcourt seulement les racines ayant au moins un coefficient strictement positif devant une racine simple omise de S.]

Il faudrait essayer de vulgariser tout ça, mais ce n'est pas évident : pas tellement parce que les objets en question sont compliqués (fondamentalement, le calcul final est un petit calcul combinatoire, assez facile, même si évidemment le présenter comme tel ne fournit aucune motivation), mais surtout parce que, comme c'est souvent le cas dans ce domaine entre la théorie des groupes algébriques, la théorie de la représentation, et la combinatoire algébrique, chaque objet peut se voir d'une multitude de manières différentes (ce qui est d'ailleurs la source d'incompréhensions diverses et variées). J'avais commencé à essayer d'écrire quelque chose, non pas vraiment pour expliquer mais juste pour donner une idée de ce dont il est question (en agitant énormément les mains), mais même comme ça, ça partait tellement dans tous les sens que c'est incompréhensible : je le recopie quand même ici (comme un gros bloc de texte), mais je ne recommande de le lire que pour rigoler :

↑Entry #2447 [older| permalink|newer] / ↑Entrée #2447 [précédente| permalien|suivante] ↑

↓Entry #2433 [older| permalink|newer] / ↓Entrée #2433 [précédente| permalien|suivante] ↓

(dimanche)

Sections du diagramme de Voronoï du réseau E₈

Je ne savais pas bien à quoi m'attendre quand j'ai calculé cette image, mais probablement pas à ça :

[Section plane aléatoire du diagramme de Voronoï de E₈]

(Cliquez pour une vue plus large.)

De quoi s'agit-il ? C'est une section plane aléatoire du diagramme de Voronoï du réseau E₈ : il faut que j'explique ces termes (mais is ça ne vous intéresse pas, il y a d'autres images, et des liens vers des vidéos, plus bas).

Le réseau E₈ est un arrangement régulier de points en dimension 8, qui a toutes sortes de propriétés remarquables. En fait, il n'est pas difficile de le définir concrètement : il s'agit des octuplets (x₀,x₁,…,x₇) de nombres réels tels que :

  • les coordonnées x₀,x₁,…,x₇ sont soit toutes entières soit toutes entières-et-demi (par entier-et-demi je veux évidemment dire un nombre qui vaut un entier plus ½, par exemple 5/2),
  • la somme x₀+x₁+⋯+x₇ de toutes les coordonnées (qui est forcément un entier d'après le point précédent) est paire.

À titre d'exemple, (0, 0, 0, −1, 2, −1, 1, −1) et (−1.5, 2.5, −0.5, 1.5, −1.5, −0.5, −2.5, 0.5) sont dans le réseau E₈ ; en revanche, (0, 0, 0, −1, 2, −1, 1.5, −1.5) n'y sont pas (les coordonnées ne sont ni toutes entières ni toutes entières-et-demi), et (−1.5, 2.5, −0.5, 1.5, −1.5, −0.5, −2.5, 0.5) non plus (la somme n'est pas paire).

La somme ou différence de deux points du réseau E₈ est encore dedans : c'est là la propriété essentielle d'être un réseau (et ce qu'un non-mathématicien qualifierait de points régulièrement espacés). Les points du réseau E₈ les plus proches de l'origine (0,0,0,0,0,0,0,0) sont d'une part ceux de la forme (±1,±1,0,0,0,0,0,0) (où exactement deux coordonnées, quelconques, valent soit 1 soit −1 : ceci fait 28×4=112 possibilités — 28 choix de deux coordonnées et 4 choix de leurs signes), et d'autre part ceux de la forme (±½,±½,±½,±½,±½,±½,±½,±½) (où chaque coordonnée vaut ½ ou −½, et où il y a un nombre pair de valeurs −½ : ceci fait 2⁸/2=128 possibilités) : au total, 112+128=240 points tous à distance √2 de l'origine ; ces 240 points sont ce qu'on appelle les racines du système E₈ et ils engendrent le réseau, mais ici c'est le réseau plus que ses racines qui m'intéresse. Entre autres propriétés remarquables, c'est le réseau E₈ qui réalise l'empilement optimal de boules identiques en dimension 8 (mettre une boule de rayon (√2)/2 autour de chaque point du réseau : elles se touchent sans se chevaucher et remplissent 25.367% de l'espace, ce qui ne paraît peut-être pas impressionnant, mais en dimension 8 on ne peut pas faire mieux).

Donné un ensemble (discret) de points dans l'espace euclidien, le diagramme de Voronoï associé est la division de l'espace en cellules de Voronoï, la cellule de Voronoï d'un point étant la région des points de l'espace qui sont plus proches de ce point-là que de tout autre point de l'ensemble. En général, un diagramme de Voronoï ressemble à ce que Google images vous montrera (il est formé de cellules qui sont des polytopes convexes dont les facettes sont hyperplans médiateurs entre le point définissant la cellule et un autre point). Lorsque l'ensemble des points est un réseau, toutes les cellules ont la même forme : la cellule de Voronoï de l'origine est l'ensemble des points plus proches de l'origine que de tout autre point du réseau, elle est d'ailleurs symétrique, et toutes les autres cellules sont identiques autour d'un autre point, elles sont translatées les unes des autres. S'agissant du réseau E₈ précisément, la cellule de Voronoï de l'origine est un polytope convexe ayant 240 facettes[#], une par racine du système de racines, chaque facette étant un morceau de l'hyperplan médiateur entre l'origine et la racine en question. (Il n'est pas vrai dans un réseau en général que les facettes de la cellule de Voronoï de l'origine soient ainsi définies uniquement par les points les plus proches de l'origine. Mais c'est vrai pour ce qu'on appelle un réseau de racines, et notamment E₈.)

[#] Il a aussi 19440 sommets : 2160 sont les points à distance 1 de l'origine ainsi que de quinze autres points du réseau, on les appelle les trous profonds du réseau E₈ (un exemple d'un tel point est (1,0,0,0,0,0,0,0)), et 17280 sont les points à distance (2√2)/3≈0.943 de l'origine ainsi que de sept autres et ce sont les trous superficiels (un exemple d'un tel point est (−5/6, 1/6, 1/6, 1/6, 1/6, 1/6, 1/6, 1/6)).

Bref, le diagramme de Voronoï du réseau E₈ est un pavage de l'espace de dimension 8 par des copies (translatées) de ce polytope à 240 facettes, chacune étant centrée sur un point du réseau. Il y a un algorithme assez simple[#2] pour décider, quand on se donne un point de l'espace, à quelle cellule de Voronoï il appartient, c'est-à-dire, trouver le point du réseau le plus proche (on parle aussi d'algorithme de décodage pour ce réseau).

[#2] En voici une description. Commençons par expliquer comment trouver le point du réseau D₈ le plus proche d'un point donné, où le réseau D₈ est le réseau formé des points de coordonnées toutes entières de somme paire (c'est-à-dire les points du réseau E₈ dont toutes les coordonnées sont entièrs). Donné (z₀,z₁,…,z₇) un point à approcher, on appelle x₀ l'entier le plus proche de z₀ et de même pour les autres : ceci fournit le point (x₀,x₁,…,x₇) à coordonnées entières le plus proche de (z₀,z₁,…,z₇). Si la somme x₀+x₁+⋯+x₇ des coordonnées est paire, c'est le point de D₈ recherché. Sinon, l'astuce suivante permet de le trouver : parmi les coordonnées x, prendre celle qui est le plus loin du z correspondant, et la remplacer par l'arrondi de ce z dans l'autre sens. À titre d'exemple, si on part du point (0.3, −0.1, 0.1, −1.0, 2.0, −0.4, 0.9, −0.7), l'arrondi des coordonnées à l'entier le plus proche donne (0, 0, 0, −1, 2, 0, 1, −1), la somme est impaire, donc on corrige le plus mauvais arrondi, à savoir −0.4 transformé en 0, en prenant l'entier de l'autre côté, donc −1, ce qui donne le point (0, 0, 0, −1, 2, −1, 1, −1) qui est le point du réseau D₈ le plus proche du point initial. S'agissant du réseau E₈, maintenant, on peut faire ce calcul une fois pour trouver le point de D₈ le plus proche, puis soustraire ½ toutes les coordonnées, refaire le calcul pour trouver le point de D₈ le plus proche du point ainsi modifié et rajouter ½ à toutes les coordonnées : on obtient ainsi deux points de E₈ (l'un dans D₈ et l'autre dans D₈+(½,½,½,½,½,½,½,½)) ; il n'y a plus qu'à comparer la distance de ces deux points au point d'origine et choisir le plus proche (soit en comparant les distances soit en calculant l'équation de l'hyperplan médiateur, ce qui revient essentiellement au même). Il existe des algorithmes légèrement plus efficaces que ce que je viens de décrire, mais en contrepartie ils sont plus fastidieux à implémenter et je pense que ça n'en vaut pas la peine.

Maintenant, ce que j'ai fait pour calculer l'image ci-dessus est de prendre un plan aléatoire dans l'espace euclidien de dimension 8 (plus exactement, la direction du plan est définie par deux vecteurs unitaires orthogonaux, tirés uniformément pour cette propriété, et l'origine est tirée uniformément modulo le réseau), et tracer l'intersection de ce plan avec les cellules de Voronoï du réseau E₈. Bien que le diagramme de Voronoï de E₈ soit complètement régulier, le fait de l'intersecter avec un plan aléatoire fournit quelque chose d'assez irrégulier comme on le voit, mais où on peut discerner, si on regarde bien (et surtout sur la vue plus complète), une forme de quasipériodicité. Je ne suis pas sûr d'avoir une description ni une explication complète de tout ce qu'il y a à remarquer sur l'image.

Pour information, l'échelle de l'image est de 10 pixels pour 1 unité (l'« unité » en question étant celle des coordonnées que j'ai exposées ci-dessus, c'est-à-dire que la distance entre deux points les plus proches du réseau vaut √2, ou encore que l'unité est le rayon de la sphère circonscrite à une cellule de Voronoï, ou encore que la cellule a un volume de 1 unité⁸), ce qui veut dire que l'image fait 136.6 unités en largeur et 76.8 en hauteur pour les images larges (la moitié pour les images plus étroites reproduites ci-dessus).

Pour ce qui est du coloriage des cellules de Voronoï, j'ai tiré aléatoirement trois directions orthogonales au plan et orthogonales entre elles, et les composantes rouge, verte et bleue donnent la distance au point du réseau (le centre de la cellule de Voronoï) selon ces trois directions, le gris étant le zéro.

J'ai aussi calculé des images selon des plans ayant des directions particulières : on appelle plan de Coxeter du réseau E₈ un plan tel que la projection (orthogonale) du système de racines sur ce plan présente une symétrie d'ordre maximal, en l'occurrence 30. (Le dessin le plus courant du système de racines de E₈ est généralement choisi projeté selon un tel plan : par exemple, cette image Wikimédia Commons est une projection sur un plan de Coxeter, aussi appelé dans ce contexte plan de Petrie.) Le résultat est le suivant :

[Section plane de Coxeter du diagramme de Voronoï de E₈]

(Cliquez pour une vue plus large.)

De nouveau, l'origine de projection est aléatoire modulo le réseau, et les directions choisies pour définir les couleurs des cellules sont aléatoires sujettes à la contrainte d'être perpendiculaires au plan de projection. Ce qui est intéressant est qu'on voit apparaître des symétries d'ordre 30 approximatives autour de différents points : ce sont ceux qui sont les plus proches d'un point du réseau. Si ça ne vous frappe pas, regardez attentivement la vue plus large, éventuellement depuis une certaine distance : on voit apparaître toutes sortes de figures en cercles concentriques, un peu comme des ondes de gravité circulaires à la surface de l'eau quand on y fait tomber quelque chose (des encyclies si on veut faire chic, des ronds dans l'eau si on veut faire moins chic) ; je suppose que le cortex visuel détecte quelque chose de cette symétrie localte approximative d'ordre 30, mais je ne sais pas exactement ce qu'il détecte.

J'ai aussi fait le calcul pour un plan la projection sur lequel présente une symétrie d'ordre 24 du système de racines :

[Section plane symétrique d'ordre 24 du diagramme de Voronoï de E₈]

L'effet est à peu près le même, peut-être encore plus fort.

J'ai aussi calculé et mis sur YouTube des vidéos de sections tridimensionnelles (ou (2+1)-dimensionnelles) du même diagramme de Voronoï : tridimensionnelles, c'est-à-dire que le temps est la troisième dimension, ou plus exactement, qu'il s'agit de sections planes se déplaçant dans une direction aléatoire orthogonale au plan (et orthogonale aux trois directions servant à définir les couleurs comme expliqué ci-dessus) : celle-ci montre une section aléatoire et celle-ci une section dont le plan 2D est un plan de Coxeter. Les deux sont assez envoutantes à regarder, mais la seconde l'est particulièrement à cause de la manière dont apparaissent puis disparaissent des symétries approximatives d'ordre 30. Les vidéos sont cadrées plus serré que les images fixes : l'image est large de 16 unités et haute de 9, et dans le temps le plan parcourt 40 unités en 48 secondes.

J'hésite à refaire des calculs analogues pour le réseau de Leech, qui est un réseau peut-être encore plus remarquable en dimension 24. Mais l'algorithme pour retrouver « décoder » le réseau de Leech (c'est-à-dire en trouver le point le plus proche d'un point donné, autrement dit, pour calculer les cellules de Voronoï) est un peu pénible à écrire, et j'ai peur que le résultat soit décevant parce que autant 2 dimensions (voire 2+3 en comptant les couleurs, voire 2+1+3 pour les vidéos) sur 8, ce n'est pas complètement négligeable, autant 2 dimensions, ou même 2+3 ou 2+1+3, sur 24, ça ne fait vraiment pas beaucoup, et j'ai peur qu'il ne subsiste absolument rien de la très extraordinaire symétrie du réseau de Leech.

A contrario, je pourrais peut-être baisser la dimension et regarder ce qui se passe dans des réseaux comme A₄ à A₆, D₄ à D₆ et E₆. S'agissant de A₄, par exemple, si on le regarde selon un plan de Coxeter, cela fera apparaître une symétrie d'ordre 5 qui ne manque sans doute pas d'intérêt (je crois qu'il y a des liens avec les quasi-cristaux et les pavages de Penrose à symétrie pentagonale, mais je ne connais pas les détails). D'un autre côté, j'ai une certaine flemme, parce que calculer les plans de Coxeter est assez fastidieux, et je ne sais plus bien comment il faut faire (dans le cas de E₈ j'avais les résultats sous la main, mais je me souviens m'être battu contre Sage et Gap pour les obtenir). Quant au réseau An, il est pénible parce que son système de coordonnées le plus naturel utilise n+1 coordonnées entières à somme nulle, certes il rend le plan de Coxeter évident, mais il est plus délicat à manier (sinon, pour A₄, exactement la même définition que j'ai donnée de E₈ doit marcher avec 4 coordonnées, mais alors de nouveau le plan de Coxeter n'est pas évident).

Ajout () : Finalement, j'ai fait les calculs pour A₈ et D₈ (ainsi que ℤ⁸, qui n'est pas très intéressant). L'algorithme pour trouver le point de D₈ le plus proche d'un point de ℝ⁸ est expliqué au passage quand j'explique celui de E₈ ci-dessus ; s'agissant de A₈ (qui est l'ensemble des 9-uples d'entiers de somme nulle), l'algorithme pour décoder (z₀,z₁,…,z₈) consiste à considérer (x₀,x₁,…,x₈) les entiers les plus proches, puis, si la somme x₀+x₁+⋯+x₈ est strictement positive, soustraire 1 aux x qui tels que l'erreur xz correspondante est la plus grande pour l'amener à 0, tandis que si elle est strictement négative, ajouter 1 aux x qui tels que l'erreur xz correspondante est la plus négative. Le plan de Coxeter de D₈ présente une symétrie d'ordre 14 (correspondant à une rotation cyclique des 7 premières coordonnées en même temps qu'on change le signe des deux dernières), tandis que pour A₈ elle est d'ordre 9 (correspondant à une rotation cyclique des 9 coordonnées). Voici les images : section plane aléatoire de D₈, section plane de Coxeter de D₈, section plane aléatoire de A₈, section plane de Coxeter de A₈, section plane aléatoire de ℤ⁸. J'ai aussi calculé une section de E₈ selon le plan de Coxeter de D₈, pour mieux comparer les deux. (J'ai aussi rassemblé ces images ici sur imgur.) Je vais peut-être produire aussi quelques vidéos.

Ajout 2 () : Comme on m'y a incité en commentaire, j'ai aussi calculé des images où ce qui est représenté est la distance (au carré) au point du réseau le plus proche (avec 0=noir et 1=blanc). C'est effectivement beaucoup plus joli à voir, et peut-être encore plus parlant visuellement (même s'il y a, techniquement, plutôt moins d'information) ; et je dois dire qu'artistiquement je trouve ça absolument époustouflant (quoique légèrement déconseillé aux trypophobes), ça fait penser à quelque chose en train de bouillonner ou aux cellules de convexion dans le soleil. Bref, merci à Fab pour la suggestion. Voici donc une vidéo noir et blanc selon un plan aléatoire et selon un plan de Coxeter, et en bonus selon un plan présentant une symétrie d'ordre 24.

Code source : Il est ici pour la version originale, et ici pour la version mentionnée dans le deuxième ajout ci-dessus. Quelques explications (et les instructions sur comment compiler) sont en commentaire au début du code lui-même.

↑Entry #2433 [older| permalink|newer] / ↑Entrée #2433 [précédente| permalien|suivante] ↑

↓Entry #2430 [older| permalink|newer] / ↓Entrée #2430 [précédente| permalien|suivante] ↓

(mercredi)

Exposé pour Math en Jeans : les slides

J'ai mis en ligne ici le support que je compte utiliser pour mon exposé devant des lycéens samedi après-midi à Math en Jeans, intitulé Le jeu de nim : thème et variations.

Soit dit en passant, je ne suis pas spécialement hostile aux anglicismes, mais celui-là m'agace — en fait, le terme anglais n'est pas terrible pour commencer : qu'est-ce qu'on peut dire en français, plutôt que slide, pour parler d'une image projetée, de nos jours, par vidéoprojecteur, et servant à illustrer un exposé ?

Il manque, évidemment, l'accompagnement audio (si je suis très motivé, je ferai une vidéo sur YouTube), mais je me dis que si je n'ai pas trop mal réussi mon coup, on doit pouvoir à peu près comprendre même sans les explications orales. (Évidemment, il y a des endroits où elles sont quand même utiles à la clarté des choses ! Je pense par exemple au calcul des valeurs de Grundy dans l'exemple slide 18, qui est très facile à expliquer de vive voix avec un pointeur laser mais franchement laborieux si on veut l'écrire.)

Je précise que je n'ai pas l'intention de tout présenter : il y en a sans toute trop, peut-être même beaucoup trop (combien n'est pas clair). J'essaierai de m'adapter en fonction de la manière dont mon auditoire réagit. Disons que le minimum est le contenu des slides 3 à 14, ce qui suit contient plusieurs sujets de difficulté inégale, donc j'en traiterai un sous-ensemble, quelque part entre « rien » et « tout », selon le temps disponible et la manière dont j'ai l'impression qu'ils comprennent. (Exemple de parcours possible : 1–16,20–22,29.)

Les commentaires sont bienvenus ; mais ce n'est pas la peine de me dire que j'aurais dû m'y prendre complètement autrement, ou traiter un autre sujet : il est trop tard pour ça ; et ce n'est pas non plus la peine de me suggérer d'ajouter une figure, j'ai suffisamment souffert avec TikZ comme ça. Les suggestions locales d'amélioration/reformulation (surtout en nombre de mots constant !) seront appréciées. Mais ce qui est particulièrement bienvenu est un avis sur la difficulté relative des différentes slides pour des lycéens (motivés), ainsi que leur attrait, ou le temps qu'il faudrait y passer pour les expliquer : relatif, parce que si ça ne sert pas à grand-chose de dire que tout est trop dur, ça a un intérêt de se demander si la slide 30 est plus ou moins difficile à comprendre que la 23 (par exemple), dans la mesure où je devrai certainement faire des choix sur quoi présenter (modulo un hypothétique director's cut sur YouTube).

Bilan : voir l'entrée suivante.

↑Entry #2430 [older| permalink|newer] / ↑Entrée #2430 [précédente| permalien|suivante] ↑

↓Entry #2429 [older| permalink|newer] / ↓Entrée #2429 [précédente| permalien|suivante] ↓

(dimanche)

Hidden Figures

Mon poussinet et moi sommes allés voir le film Hidden Figures (le titre français — Les Figures de l'ombre — ne rend pas vraiment le jeu de mot le jeu de mot entre une personne et un chiffre dans un calcul), et je voudrais vraiment le recommander.

Il s'agit de l'histoire, vraie mais bien sûr partiellement romancée, de trois femmes noires « calculatrices » à la NASA au début des années 1960 (plus exactement, au centre de recherches Langley en Virginie, entre le premier vol dans l'espace de Ûrij [=Yuri] Gagarin en 1961 et celui de John Glenn en 1962). La manière dont elles sont confrontées à la fois à la discrimination raciale et au sexisme, et leurs différentes façons d'y faire face, sont montrées avec une certaine subtilité, de même que l'atmosphère côté américain de la « course à l'espace ». L'histoire suit une trame hollywoodienne bien formatée et qu'on peut trouver un peu trop schématique, mais les actrices jouent très bien (Taraji Henson, qui interprète Katherine Goble, Janelle Monáe qui joue Mary Jackson, et surtout Octavia Spencer — que je connaissais par un autre film remarquable, The Help — dans le rôle de Dorothy Vaughan), et pour une fois qu'on voit un film dont les personnages principaux sont des femmes noires, et mathématiciennes qui plus est, ne boudons pas notre plaisir. (Et puis j'ai un faible pour l'ambiance course à l'espace, l'ambiance « atompunk », ici illustrée avec une certaine sympathie sans excès.)

Scientifiquement, le film ne commet pas de bourde majeure, en tout cas pas que j'en aie repérée : le moment le plus faux sur ce plan-là est celui où l'héroïne principale, Katherine Goble, effectue au tableau, devant une salle de généraux un peu médusés, un calcul de paramètres de réentrée orbitale avec une précision dont il devrait être à peu près évident pour n'importe qui ayant un chouïa de culture scientifique, qu'il n'est pas atteignable de tête, en tout cas pas un temps tel que présenté ; je suis prêt à ne pas faire mon grincheux pour quelque chose du genre. Il y a aussi un certain nombre de modifications du tempo par rapport à la réalité, imposées pour s'adapter au rythme cinématographique, que je suis également prêt à pardonner.

Il est vrai que j'aurais aimé voir un peu de considération pour la différence entre la notion de calcul symbolique et celle de calcul numérique, choses que le grand public ne doit pas vraiment apprécier, mais qui n'est certainement pas impossible à faire passer. Les équations qu'on entr'aperçoit dans différents plans ont l'air superficiellement sensées, mais mélangent inexplicablement des valeurs numériques à virgules dans des expressions par ailleurs symboliques ; et de façon plus profonde, je n'ai pas vraiment idée de quel genre de calculs on faisait faire à ces « calculatrices », soit en général, soit précisément celles qui sont les héroïnes de ce film.

Et on ne peut pas dire que les répliques m'aident à deviner. À un moment, le chef d'équipe joué par Kevin Costner demande à Katherine Goble si elle sait calculer un repère de Frénet — et elle complète : par le procédé d'orthogonalisation de Schmidt. C'est vraiment amusant comme effet Zahir, parce que je discutais du repère de Frénet avec mon poussinet un quart d'heure avant d'aller voir le film (à propos du tome 5, particulièrement poussiéreux, du Cours de Mathématiques spéciales de MM. Ramis-Deschamps-Odoux), et je mentionnais justement qu'il s'agissait précisément du résultat d'un Gram-Schmidt sur les dérivées successives du mouvement : j'ai eu du mal à ne pas éclater de rire à la coïncidence. Mais même si vois le lien avec des trajectoires dans l'espace, je ne sais vraiment pas précisément dans quel genre de calcul, symbolique ou numérique, on utilise le repère de Frénet.

En vérité, même si je connais ma mécanique orbitale et lagrangienne, je n'ai aucune idée précise du genre de calculs qu'il faut réellement mener pour envoyer un homme dans l'espace. (Bon, je dois dire, je n'ai même pas d'idée précise sur le genre de calculs qu'il faut mener pour construire un pont ou un moteur à explosion. Je suis un peu comme le matheux d'une blague générique sur les ingénieurs, physiciens et mathématiciens, qui démontrerait que le pont, le moteur à explosion ou le vol orbital sont possibles — par une démonstration non-constructibe qui ferait appel à l'axiome du choix.)

Sur la précision scientifique des films hollywoodiens de façon plus générale, j'étais tombé il y a un certain temps sur cette vidéo qui explique que des gens ont mis en place une hotline permettant à l'industrie du cinéma d'être mis en contact avec des scientifiques de tel ou tel domaine quand ils veulent des conseils ou des éléments (phrases, équations à mettre sur un tableau, etc.) pour rendre leurs films scientiquement plus crédibles. Ça expliquerait un certain progrès que j'ai cru constater dans le domaine depuis les années '90 (même si ce progrès est souvent bien superficiel, il faut l'admettre : le fait de prononcer une phrase techniquement sensée à tel ou tel moment ne va pas compenser une absurdité fondamentale de principe ; il y a toujours très peu de films qui, comme The Martian, se donnent pour mission d'être véritablement réalistes scientifiquement, d'un bout à l'autre, ce qui implique d'aller plus loin qu'appeler une hotline de temps à autre).

À part ça, je me rends compte que je ne remplis pas vraiment consciencieusement la catégorie cinema de ce blog : ces derniers temps, j'ai vu en salles, entre autres, Manchester by the Sea et 君の名は (traduit en « français »(?!) par Your Name), et j'ai trouvé que les deux étaient vraiment des chefs d'œuvre. Je n'ai pas le temps d'en faire une critique maintenant (et ce serait un peu du réchauffé), mais je les recommande tous les deux très vivement, ce sont des films d'une très grande subtilité humaine et psychologique.

↑Entry #2429 [older| permalink|newer] / ↑Entrée #2429 [précédente| permalien|suivante] ↑

↓Entry #2427 [older| permalink|newer] / ↓Entrée #2427 [précédente| permalien|suivante] ↓

(mercredi)

Sujet d'exposé pour Math en Jeans

Je me suis engagé à donner un exposé (quelque part entre le 24 et le 27 mars) dans le cadre de l'événement Math en Jeans : c'est-à-dire qu'il s'agit de vulgarisation adressée à des lycéens motivés (a priori de seconde).

J'ai toute latitude pour choisir le sujet, donc je vais sans doute choisir un des trucs sur lesquels j'ai déjà fait de la vulgarisation, soit sur ce blog soit ailleurs : la contrainte est que je dois pouvoir raconter ça en une heure (en prévoyant des probables interruptions par des questions) et que ça soit accessible à des lycéens. Et, bien sûr, que ce soit susceptible de les intéresser.

Je n'ai pas une idée très précise de ce qu'un lycéen (motivé !) connaît en maths ni de ce qui l'intéressera : peut-être que certains lecteurs (par exemple s'il y en a qui enseignent en lycée ou qui sont ou out été lycéens il n'y a pas trop longtemps) peuvent m'éclairer un peu.

Globalement, j'ai plutôt trop d'idées que pas assez, donc je me demande si vous avez des conseils sur ce qui passerait plus ou moins bien parmi les thèmes suivants (j'essaie de mettre à chaque fois un lien vers une entrée de ce blog qui raconte de quoi il s'agit, mais il ne s'agit pas forcément de raconter exactement la même chose, notamment quand il s'agit de choses un peu techniques : c'est plus pour donner une idée) :

[Ajout : quelques arguments pour/contre ces différents sujets.]

  • Les (très très) grands nombres et/ou les ordinaux infinis. (On peut donner un côté ludique à la chose avec le jeu de l'hydre. Pour : ça intéresse facilement, voire, ça impressionne ; ça ne dépend pas trop de connaissances qu'ils pourraient avoir ou ne pas avoir. Contre : ça peut donner l'impression d'être peu rigoureux, et on peut facilement larguer les gens dans les définitions sans leur donner de moyen de se rattraper ; certains risquent d'avoir déjà entendu de la vulgarisation à ce sujet.)
  • La géométrie sphérique et la géométrie hyperbolique (voir cette entrée et les quelques suivantes). (On peut donner un côté ludique à la chose en montrant mes différents labyrinthes hyperboliques. Pour : c'est visuel et ça accroche facilement. Contre : ils ne connaissent pas forcément grand-chose en trigonométrie, donc difficile d'introduire la formule fondamentale qui permet de faire plein de calculs réels. Autre problème pratique : les illustrations sont très fastidieuses à réaliser pour moi.)
  • Quelques notions de théorie combinatoire des jeux et notamment comment gagner au jeu de nim (un peu comme ici mais sans les trucs infinis). (Pour : ils ressortent avec quelque chose de vraiment utilisable — à savoir la stratégie gagnante de jeux comme nim, des jeux de retournement de pièces, voir nim⊗nim ; sur les jeux de retournement de pièces, je peux introduire des codes correcteurs ; le tout serait sans doute facile à comprendre et ils n'auront sans doute pas vu avant. Contre : ça peut donner l'impression d'être très anecdotique.)
  • Quelques notions de géométrie finie (voir ici et pour des illustrations). (Contre : n'ayant pas vu de géométrie projective avant, l'élégance de l'idée de construire des structures combinatoires à partir de notions géométriques risque de leur échapper complètement.)
  • …et sans doute plein d'autres choses dont j'ai parlé à l'occasion sur mon blog, comme le problème de Hadwiger-Nelson (pas sûr qu'on puisse tenir une heure avec ça), le lemme de Higman (ça fait une démonstration complète et très accessible, mais c'est sans doute très peu vendeur), l'automorphisme exceptionnel de 𝔖₆ (peut-être pas très motivant).
  • Les cardinaux infinis. (Pour : ça a l'avantage de permettre de faire des vraies démonstrations : argument diagonal de Cantor et/ou théorème de Cantor-Bernstein. Contre : c'est peut-être aride ; et comme pour les ordinaux, ça peut donner l'impression d'être peu rigoureux.)
  • Les groupes finis, vus comme des groupes de permutations, et présentés comme des puzzles (cf. ceci).
  • Une introduction à la géométrie projective.
  • …et encore plein d'autres choses.

(Sujets triés par ordre approximatif d'intérêt/faisabilité a priori.)

PS : Je dois fournir un titre rapidement, donc c'est plutôt pressé !

PPS : Idéalement, j'aimerais arriver à faire au moins une « vraie » démonstration pendant mon exposé, mais je me rends compte que c'est mal parti. Certains sujets le permettent quand même mieux que d'autres.

Fin : Finalement, j'ai choisi de faire un exposé sur la théorie des jeux, dont le titre sera Jeu de nim : thème et variations. (Comme je l'explique en commentaires, les géométries sphérique et hyperbolique m'ont paru trop difficiles à présenter à des élèves qui connaissent a priori très peu de trigonométrie et pas la fonction exponentielle — ni à plus forte raison les lignes trigonométriques hyperboliques. Quant aux grands nombres et ordinaux, c'est sans doute plus facile de trouver en ligne de la vulgarisation à ce sujet, et j'avais peur par ailleurs que ça puisse en perdre rapidement plus d'un, et/ou que ça donne l'impression d'être peu rigoureux, foire fumeux. Les jeux dont je vais parler, au contraire, sont quelque chose de bien concret et sur quoi on peut « mettre les mains ».) • Je parlerai au moins du jeu de nim, de ses différentes variations et déguisements, et de jeux de retournement de pièces (ce que Berlekamp, Conway et Guy appellent, avec leur terminologie inimitablement baroque, Moebius, Mogul et Gold Moidores, et peut-être leurs liens avec les codes correcteurs ; ou de façon générale, de certaines choses qu'on trouve au tout début du volume ♣ de Winning Ways).

Ajout : voir une entrée ultérieure.

↑Entry #2427 [older| permalink|newer] / ↑Entrée #2427 [précédente| permalien|suivante] ↑

↓Entry #2425 [older| permalink|newer] / ↓Entrée #2425 [précédente| permalien|suivante] ↓

(mercredi)

La magie du nombre six redessinée sous forme pentagonale

L'avant-dernière entrée était consacrée au commentaire mathématique d'un dessin illustrant une propriété magique du nombre six : l'existence de six « pentades » (c'est-à-dire six façons de regrouper trois par trois les doublets sur six objets de manière que deux doublets regroupés ne partagent jamais un objet) ; ce dessin était présenté sous forme « hexagonale », c'est-à-dire que chacune des pentades montrait les six objets sous la forme des six sommets d'un hexagone régulier, ce qui à son tour suggérait une certaine disposition des pentades elles-mêmes (comme la permutation cyclique de l'hexagone fixe une pentade, en échange deux, et permute cycliquement les trois dernières, j'avais choisi une disposition et un coloriage qui mettait en évidence ces transformations). On m'a convaincu de refaire le même dessin sous forme « pentagonale », c'est-à-dire en disposant les six objets sous la forme des cinq sommets d'un pentagone régulier plus son centre. Voici le résultat (il s'agit donc, conceptuellement, du même dessin, mais où les objets ont été disposés différemment, les pentades aussi, et les couleurs sont différentes) :

Cette fois, la disposition pentagonale suggère de s'intéresser à la permutation cyclique des cinq objets disposés selon les sommets du pentagone : ce 5-cycle permute aussi les pentades selon un 5-cycle, ce qui suggère de les disposer elles aussi de façon pentagonale, avec au centre celle qui est fixée par le cycle, et en pentagone autour celles qui sont permutées cycliquement. J'ai donc choisi comme couleurs le noir et cinq couleurs maximalement saturées disposées régulièrement sur le cercle chromatique (bon, c'est plutôt un hexagone chromatique, mais peu importe). Du coup, tout le dessin est laissé invariant si on effectue une rotation de 2π/5 (=un cinquième de tour) en permutant aussi cycliquement les couleurs.

En plus de cela, le choix de la disposition définit ce que j'aime appeler une polarité symétrique sur l'ensemble à six objets : cela signifie que si on met en correspondance chaque objet avec la pentade qui occupe « la même place » dans la disposition graphique, alors l'automorphisme qui en résulte est involutif, au sens où une pentade de pentades va reprendre la place de l'objet qui lui correspond naturellement (on pourrait, du coup, se figurer ce dessin comme une structure fractale où le petit disque représentant chaque objet est remplacé par le dessin de la pentade correspondante, et ainsi de suite à l'infini). J'ai essayé de donner aux objets les mêmes couleur que les pentades, mais j'ai trouvé que ça embrouillait plutôt qu'autre chose.

Je n'arrive pas vraiment à décider, mais je crois quand même que je préfère la forme hexagonale du dessin. La forme pentagonale est peut-être un chouïa plus symétrique, mais c'est une symétrie moins bonne, parce qu'elle donne un rôle particulier à un des objets (en le plaçant au centre du pentagone) ; et, de façon plus grave, elle donne l'impression que la correspondance objets↔pentades que j'appelle polarité symétrique ci-dessus est naturelle alors qu'elle résulte de la disposition pentagonale (or tout l'intérêt de l'automorphisme extérieur de 𝔖₆ est justement que les pentades ne sont pas en correspondance naturelle avec les objets). Mais ça a certainement un intérêt de voir ces deux dessins (et d'essayer de se convaincre que c'est bien la même chose).

(Pour aller un cran plus loin, ça peut être intéressant de se convaincre que quelle que soit la manière dont on décide d'identifier les objets du dessin « pentagonal » avec les objets du dessin « hexagonal », il en découle une identification des pentades, et inversement, quelle que soit la manière dont on décide d'identifier les pentades, il en découle une identification des objets.)

Ajout () :

On me fait la remarque suivante : plutôt que disposer mes six objets selon un pentagone régulier plus son centre, ce qui en distingue un, j'aurais pu les disposer selon les sommets d'un icosaèdre régulier modulo antipodie (c'est-à-dire, en identifiant deux sommets opposés ; ou si on préfère, selon les six diagonales centrales d'un icosaèdre régulier). Je ne vais pas faire la représentation graphique parce que ce serait trop pénible, mais en fait c'est très intéressant : cette disposition icosaédrale évite de distinguer un objet, mais elle distingue toujours une pentade privilégiée, et c'est presque exactement ce qu'elle fait.

Plus exactement : le groupe des isométries directes de l'icosaèdre est isomorphe au groupe alterné (=groupe des permutations paires) 𝔄₅ sur cinq objets, et l'automorphisme extérieur de 𝔖₆ est justement une façon de se représenter les choses. Placer les six objets aux sommets d'un icosaèdre modulo antipodie définit une pentade privilégiée (à savoir, l'unique pentade laissée fixée par la rotation d'angle 2π/5 autour d'un sommet quelconque de l'icosaèdre) ; et les isométries directes de l'icosaèdre sont précisément les permutations paires sur les 5 pentades restantes (i.e., fixant cette pentade privilégiée). Les 5 synthèmes de la pentade privilégiée peuvent se voir comme 5 sextuplets d'arêtes de l'icosaèdre (sextuplets parce que ce sont des triplets d'arêtes opposées) dont les milieux forment un octaèdre, ce qui permet de retrouver une description classique du groupe des isométries de l'icosaèdre comme les permutations paires sur cinq octaèdres inscrits dans l'icosaèdre. (Il est pertinent de remarquer au passage qu'un permutation sur six objets est paire si et seulement si la permutation correspondante sur les pentades l'est.)

On doit aussi pouvoir faire le lien avec des structures de droite projective sur le corps à cinq éléments : comme les pentades sur six objets sont aussi en bijection avec toutes les façons de voir les six objets comme la droite projective sur 𝔽₅, ça veut dire qu'il y a une structure de droite projective sur 𝔽₅ « naturelle » (privilégiée) sur les sommets d'un icosaèdre modulo antipodie. Je soupçonne qu'il y a une jolie façon de la voir en réduisant modulo 5 les birapports des sommets de l'icosaèdre dans quelque chose, mais les détails m'échappent.

↑Entry #2425 [older| permalink|newer] / ↑Entrée #2425 [précédente| permalien|suivante] ↑

↓Entry #2423 [older| permalink|newer] / ↓Entrée #2423 [précédente| permalien|suivante] ↓

(lundi)

Sur la magie du nombre six (l'automorphisme exceptionnel de 𝔖₆)

J'ai posté dans une entrée récente le dessin suivant, avec la devinette d'essayer de trouver ce qu'il représente et ce qu'il nous apprend :

Les réponses dans les commentaires ont été intéressantes (et j'ai bien fait de proposer cette devinette), parce que plusieurs personnes ont remarqué des aspects différents du dessin, et ont fait des observations justes et pertinentes. La réponse mathématique que je vais tenter d'expliquer tourne autour du fait que les matheux énoncent classiquement en disant que le groupe des permutations sur six objets (et uniquement sur six objets) possède un « automorphisme extérieur non-trivial » ; mais cette formulation n'a aucun sens pour les non matheux, et même pour les matheux je trouve qu'elle ne fait pas vraiment ressortir pourquoi ce fait est remarquable et exceptionnel. Donc le mieux est peut-être de formuler le fait remarquable sous la forme suivante (qui est certes un peu de l'agitage de mains, mais qu'on peut rendre rigoureux, et que je trouve en tout cas plus parlant), et c'est ça que je vais essayer d'expliquer :

À partir de six objets, il est possible de construire, de façon systématique, de nouvelles « choses », également au nombre de six, tout aussi interchangeables que les objets de départ, mais qui ne peuvent pas être mis en correspondance systématique avec eux.

De plus, ceci n'est possible pour aucun autre nombre que six.

Pour les mathématiciens qui aiment la théorie des catégories, ce qui précède est censé signifier la chose suivante : le groupoïde formé des ensembles de cardinal 6 avec les bijections pour morphismes admet un endofoncteur fidèle (donc automatiquement une autoéquivalence) mais qui n'est pas naturellement isomorphe à l'identité ; et ce n'est vrai pour aucun autre entier naturel que 6.

C'est un exemple d'un de ces phénomènes exceptionnels en mathématiques, comme on nomme des structures intéressantes qui apparaissent uniquement dans un petit nombre de cas : en l'occurrence, cet « automorphisme exceptionnel de 𝔖₆ » fait partie d'une sorte de chemin magique d'objets exceptionnels, qui le relie aussi aux groupes de Mathieu ou au système de racines de E₆ et aux vingt-sept droites sur la surface cubique. Mais celui-ci a l'intérêt d'être raisonnablement facile à expliquer, surtout avec mon (j'espère) zouli dessin (censé représenter ces six « choses » qui, plus bas, s'appellent des pentades).

Au passage : la notation 𝔖₆ (vous devriez voir une S gothique avec un 6 en indice) désigne le groupe des permutations sur 6 objets, c'est-à-dire l'ensemble des façons de leur faire changer de place (ou pas) ; voir aussi cette entrée antérieure et cette vidéo YouTube pour une description animée des différents sous-groupes transitifs de 𝔖₆ (c'est-à-dire, toutes les façons de permuter six objets qui sont capables de placer n'importe quel objet à n'importe quel endroit).

Après, je dois avertir que, si je suis parti pour expliquer ça, mon enthousiasme s'est un peu atténué en chemin, et la fin de cette entrée est sans doute un peu bâclée (j'avoue que j'ai passé tellement de temps à trouver le bon chemin pour expliquer proprement la combinatoire des synthèmes et pentades ci-dessous qu'à la fin j'en avais marre, et j'ai plutôt traîné des pieds pour la finir). Je la publie telle quelle en espérant qu'elle ait un certain intérêt, même si je me rends compte qu'elle est bancale et un peu décousue. (Par ailleurs, si on n'est pas intéressé par les détails, ne pas hésiter à sauter les démonstrations, qui ne sont pas franchement indispensables pour la compréhension de l'ensemble.)

Partons, donc de six objets. On pourra imaginer si on veut qu'ils sont placés aux six sommets d'un hexagone, comme dans chacun des hexagrammes ci-dessus ; ou bien qu'ils sont numérotés 0,1,2,3,4,5 : ça n'a aucune importance (et je vais tâcher de préciser cette absence d'importance plus loin). Je vais introduire quatre termes désignant des structures de complexité croissante fabriqués sur ces six objets : outre les 6 objets eux-mêmes, je vais définir les 15 doublets, les 15 synthèmes et les 6 pentades (ces dernières étant, essentiellement, ce que j'ai représenté ci-dessus). Précisément :

  • Les objets sont ces six choses dont je suis parti. Il y a donc 6 objets.
  • Les doublets sont les paires d'objets : par « paire » j'entends la donnée de deux objets (différents) sans qu'il y ait un ordre particulier entre les deux. Ainsi, si mes objets sont représentés comme les six sommets d'un hexagone, les doublets sont toutes les arêtes et diagonales de l'hexagone (tous les segments représentés sur l'un des dessins ci-dessus). Si les objets sont numérotés 0,1,2,3,4,5, alors les doublets peuvent être numérotés 01,02,03,04,05,12,13,14,15,23,24,25,34,35,45 : remarquez qu'il n'y a pas de 21, par exemple, dans ma liste, parce que c'est la même chose que 12 (c'est en ce sens que je dis qu'il s'agit de paires sans ordre ou non ordonnées).

    Il y a 15 doublets : ceci peut se voir soit en comptant l'énumération que je viens de faire (et en se convainquant qu'il n'y a ni omission ni répétition), soit en faisant le raisonnement que pour choisir un doublet, on choisit un premier objet parmi 6, puis un second parmi 5, et on doit ensuite diviser par deux parce qu'on a obtenu chaque doublet deux fois (selon que l'un ou l'autre objet a été choisi en premier) ; bref, il y a 6×5÷2=15 doublets.

    Je dirai par ailleurs que deux doublets distincts sont enlacés (c'est moi qui invente le mot, il n'est pas standard) lorsqu'ils ont un objet en commun : par exemple, si j'ai numéroté les objets, les doublets 02 et 23 sont enlacés (ils ont l'objet 2 en commun), tandis que 02 et 13 ne sont pas enlacés.

  • Maintenant, ça se complique. Un synthème est la donnée de trois doublets (distincts, sans ordre) dont aucun n'est enlacé avec un autre, c'est-à-dire, ne faisant intervenir aucun objet en commun ; autrement dit, il s'agit d'une façon de regrouper mes six objets en trois doublets, l'ordre n'ayant pas d'importance. Si on préfère, c'est une façon d'apparier (« marier ») les objets deux par deux. Par exemple, si je numérote mes objets, 01/23/45 est un synthème (formé des doublets 01, 23 et 45 : on apparie 0 avec 1, et 2 avec 3, et 4 avec 5) ; de même, 03/14/25 est un synthème. Sur les dessins ci-dessus, si vous regardez un quelconque des hexagones et une couleur particulière, il y trois segments de cette couleur, c'est-à-dire trois doublets, qui constituent un synthème (autrement dit, ils n'ont aucun objet/sommet en commun).

    Combien y a-t-il de synthèmes ? On peut faire le raisonnement suivant : pour construire un synthème, je choisis un parmi les 15 doublets ; puis je dois en choisir un autre qui ne fait intervenir aucun des objets du premier doublet, ce qui me laisse 4×3÷2=6 possibilités pour le second doublet ; puis je choisis le troisième, et là, je n'ai plus du tout de possibilité ; et en faisant tout ça, j'ai compté six fois chaque synthème puisque j'ai pu prendre ses trois doublets dans n'importe quel ordre, et il y a six ordres possibles : je me retrouve donc avec 15×6÷6=15 synthèmes. Voici un raisonnement peut-être plus simple : pour construire un synthème, je choisis l'objet que je vais apparier avec l'objet 0, j'ai donc 5 possibilités de choix (tous les objets sauf 0), puis je considère le premier objet non encore apparié et je choisis avec quel objet je vais l'apparier, ce qui me laisse 3 choix possibles (à savoir, n'importe quel objet autre que les 2 déjà appariés et l'objet que je cherche à apparier), et une fois ces choix faits, le synthème est complètement déterminé (car il ne reste que deux objets à apparier, et on ne peut donc que les mettre ensemble), donc j'ai 5×3=15 synthèmes.

    On peut aussi les énumérer exhaustivement : visuellement, cela se fait très bien, et voici les 15 synthèmes représentés graphiquement (faites défiler horizontalement) :

    Ou si on préfère numéroter les objets, ils sont (dans l'ordre utilisé ci-dessus si les objets sont numérotés de 0 à 5 dans le sens contraire des aiguilles d'une montre à partir de celui qui est à droite) : 03/14/25, 01/23/45, 05/12/34, 03/15/24, 02/14/35, 04/13/25, 03/12/45, 05/14/23, 01/25/34, 04/12/35, 04/15/23, 02/15/34, 02/13/45, 05/13/24, 01/24/35.

    Je dirai par ailleurs que deux synthèmes distincts sont enlacés lorsqu'ils n'ont pas de doublet en commun. (Je sais, ça peut sembler inversé : j'ai défini deux doublets comme enlacés lorsqu'ils ont un objet en commun ; mais on va voir que c'est logique.) Par exemple, 03/14/25 et 01/23/45 sont enlacés, tandis que 03/14/25 et 03/15/24 ne le sont pas (ils ont le doublet 03 en commun).

  • Quatrième et dernière définition : une pentade (également appelée pentade synthématique ou total synthématique) est formée de cinq synthèmes (distincts, sans ordre) qui sont tous enlacés les uns avec les autres : autrement dit, c'est une façon de répartir les quinze doublets trois par trois pour former cinq synthèmes.

    Pour dire les choses de façon un peu différente : une pentade est une manière de colorier les quinze doublets avec cinq couleurs de façon que deux doublets distincts enlacés (=ayant un objet commun) ne soient jamais de la même couleur (il est facile de se convaincre qu'il y aura alors forcément trois doublets, donc un synthème, de chaque couleur) ; je souligne que l'identité des couleurs n'a aucune importance (si on échange deux couleurs, la pentade reste la même), seul compte le fait que deux doublets aient ou n'aient pas la même couleur.

    Chacun des six hexagones de mon dessin initial représente une pentade, figurée par un coloriage des segments : si on se concentre sur un des hexagones, chacune des couleurs représente un synthème de la pentade, et la pentade est la répartition des doublets en ces cinq synthèmes. On peut se convaincre que les six pentades dessinées sont toutes distinctes (j'insiste : il ne s'agit pas simplement de voir que les couleurs sont différentes, mais que la répartition des doublets entre les synthèmes est différente).

    On pourrait s'imaginer qu'il y a beaucoup de pentades, mais en fait, il y en a a exactement six (i.e., je les ai toutes dessinées, chacune une seule fois, ci-dessus). Je démontrerai plus loin ce fait qui rend toute l'histoire intéressante.

Pour résumer tout ce qui précède, les 6 objets définissent 15 doublets (chacun formé de 2 objets distincts) ; on a aussi défini 15 synthèmes (chacun formé de 3 doublets distincts mutuellement non enlacés), et enfin des pentades (au nombre de 6 mais on ne le sait pas encore, chacune formée de 5 synthèmes distincts mutuellement enlacés). Mon but est d'expliquer qu'il y a une forme de « symétrie » qui échange objets et pentades en même temps qu'elle échange doublets et synthèmes.

↑Entry #2423 [older| permalink|newer] / ↑Entrée #2423 [précédente| permalien|suivante] ↑

↓Entry #2418 [older| permalink|newer] / ↓Entrée #2418 [précédente| permalien|suivante] ↓

(dimanche)

Sur les adjectifs qui élargissent le nom qu'ils qualifient

Le point de grammaire(?) que je veux évoquer ici concerne surtout la terminologie scientifique, notamment mathématique, même s'il est a priori complètement général.

Normalement, quand on accole une épithète à un nom, ou en fait n'importe quelle sorte de complément, le sens devrait être de préciser, c'est-à-dire de restreindre, l'ensemble des entités possiblement désignées. Par exemple, même si vous ne savez pas ce que c'est qu'un foobar (c'est normal !), ni ce que signifie l'adjectif cromulent (idem), si je parle d'un foobar cromulent, vous pouvez conclure qu'il s'agit d'une sorte particulière de foobar, qui a une propriété additionnelle (être cromulent) par rapport à celle d'être un foobar. De même, un bazqux roncible frobnicable devrait être un type spécial de bazqux roncible, qui est lui-même une sorte de bazqux ; et le groupe des ptérodoncles mouffetés de Linné devrait être un ensemble (d'animaux ?) plus restreint que celui des ptérodoncles.

Je suis sûr que les grammairiens ou les linguistes ont un terme précis pour ce phénomène, mais je ne le connais pas ; ou peut-être, au contraire, un terme pour les exceptions. Car il y a bien sûr des exceptions. Dans le langage courant, elles abondent. Un secrétaire général n'est pas vraiment un secrétaire (et pas du tout un général, mais ça c'est plutôt une blague). Un procureur adjoint n'est pas un procureur, puisqu'il n'est qu'adjoint (et il en va de même d'adjectifs comme délégué). Un faux bourdon n'est évidemment pas un bourdon, comme un faux acacia n'est pas un acacia : on peut s'attendre à ce qu'un faux foobar ne soit pas un foobar, d'un autre côté, une fausse bonne idée est quand même une idée, même si elle n'est pas une bonne idée. Il y a aussi tout ce qui est nommé par métonymie ou par métaphore : un blouson noir n'est pas une sorte de blouson et un visage pâle n'est pas une sorte de visage ; une peau de chagrin était bien ce que ça dit jusqu'à ce qu'un roman de Balzac donne un sens très particulier à cette expression. Et ainsi de suite. Évidemment, les frontières des mots dans le langage non-technique ne sont pas rigoureusement définies, donc il n'est pas toujours possible de décider avec certitude si un adjectif est ou n'est pas restrictif au sens du paragraphe précédent : un tableau noir est-il un type particulier de tableau, par exemple ? certainement si on prend tableau au sens le plus large, mais ce n'est pas ce qu'on entend normalement par ce mot. Un hôtel de ville est un hôtel pour une certaine définition d'hôtel, mais ce n'est plus vraiment le sens courant de ce mot. Et je ne saurais pas vraiment dire si un coup de soleil est une sorte de coup, ou si le clair de lune est une sorte de clair (whatever that may be).

Dans le vocabulaire technique, on pourrait espérer que les mots aient un sens suffisamment précis pour pouvoir éviter ces gags, mais ce n'est pas le cas. En mathématiques, un faisceau pervers n'est pas un faisceau et en physique, un champ quantique n'est pas un type particulier de champ [classique] mais un concept parallèle dans un cadre adjacent (la théorie quantique des champs), et il est discutable qu'une étoile à neutrons soit une étoile. Sans compter, bien sûr, les cas où le terme technique est une locution indivisible : un trou noir (terme technique) n'est pas une sorte particulière de trou (terme non technique). La situation reste beaucoup plus rare que dans le langage courant.

Il y a cependant une situation importante où un foobar cromulent n'est pas une sorte particulière de foobar, et dont les matheux ont assez souvent besoin, et peut-être aussi d'autres sciences (les exemples ne me viennent pas trop à l'esprit, mais je suppose qu'ils doivent exister), ce sont les cas où on veut au contraire élargir le sens d'un mot. Autant la situation normale est que l'adjectif restreint le sens d'un mot, et les diverses situations évoquées jusqu'ici sont des cas où il déplace (comme faux, adjoint, etc.) ou bien le transforme de façon complètement imprévisible et figée par l'usage (blouson noir), la situation d'élargissement est encore un peu autre chose.

Le cas d'usage typique pour les maths est qu'un foobar est défini par différentes propriétés, et on veut désigner un objet qui vérifie toutes les propriétés du foobar sauf une. On peut bien sûr appeler ça un quasi-foobar ou un pseudo-foobar ou un presque foobar (near foobar en anglais ; certains grammairiens grincheux pourraient râler de voir un adverbe — presque — qualifier un nom), ou ce genre de choses, mais on aura peut-être envie de parler de foobar généralisé, et là, l'adjectif généralisé élargit le sens du mot.

Mais je pense que la situation la plus fréquente est celle, très proche, où on fait tout un traité sur les foobars bleutés, alors par flemme d'écrire bleuté à chaque fois, on convient dans l'en-tête du traité : le terme foobar désignera ci-après, sauf précision du contraire, un foobar bleuté. Une fois cette convention faite, pour parler d'un foobar en général, on doit écrire foobar non nécessairement bleuté, et non nécessairement bleuté est une locution adjectivale qui a cette propriété d'élargir le sens du mot foobar (en retirant la restriction bleuté). Et comme le mot nécessairement est lui-même long à dire, on écrit le plus souvent foobar non bleuté, ce qui est un abus de langage ou de logique parce qu'on veut, en fait, dire non nécessairement bleuté (i.e., foobar dans le sens où on retire la convention faite initialement qu'il est sous-entendu bleuté, mais il se pourrait qu'il soit quand même bleuté quand même). Il faut admettre que cela cause une certaine confusion, mais je ne connais aucune façon agréable de se sortir de ce problème de rédaction.

Le cas d'école est celui de la commutativité (et éventuellement de l'unitarité ou de l'associativité) des anneaux : en algèbre, un anneau est défini comme un ensemble muni d'opérations (l'addition et la multiplication) vérifiant un certain nombre de propriétés (l'associativité de l'addition, la commutativité de celle-ci, l'existence d'un neutre et de symétriques pour l'addition, la distributivité de la multiplication sur l'addition, l'associativité de la multiplication et l'existence d'un neutre pour la multiplication ; la dernière, voire les deux dernières n'étant pas systématiquement incluses dans la définition) ; et les gens qui font de l'algèbre commutative vont avoir envie d'ajouter une propriété supplémentaire, la commutativité de la multiplication, ce qui donne la notion d'anneau commutatif (commutatif étant ici un adjectif régulier, c'est-à-dire restrictif). C'est pénible d'écrire anneau commutatif trente-six fois par page, alors on fait souvent la convention que anneau signifiera désormais anneau commutatif (typiquement sous la forme : tous les anneaux considérés ici seront, sauf précision du contraire, supposés commutatifs, et peut-être, pour qu'il n'y ait aucun doute sur la définition utilisée, unitaires [i.e., possédant un élément neutre pour la multiplication] et associatifs). Mais on a quand même envie de temps en temps de dire quelque chose sur les anneaux plus généraux, alors on devrait écrire anneau non nécessairement commutatif en utilisant un adjectif qui élargit le sens du mot. Sauf qu'en fait, il n'est quasiment jamais intéressant de parler spécifiquement d'anneaux non nécessairement commutatifs qui ne sont effectivement pas commutatifs (au sens où il existe vraiment x et y tels que x·yy·x), donc on dit simplement non commutatif pour non nécessairement commutatif ; ce qui conduit à la situation absurde qu'un anneau commutatif est un cas particulier d'un anneau non commutatif (puisque ce dernier terme signifie en fait non nécessairement commutatif). C'est agaçant, j'en conviens, mais je ne connais pas de façon agréable de s'en sortir.

En fait, c'est très souvent le cas avec les adjectifs en non en mathématiques : de la même manière, un automate fini déterministe est un cas particulier d'un automate fini non déterministe (puisque ce dernier terme signifie en fait non nécessairement déterministe).

Le terme d'algèbre est particulièrement merdique parce qu'il signifie plein de choses selon le contexte : la multiplication peut être commutative et associative, ou seulement associative, ou même pas ; si on la suppose associative par défaut (ce qui est quand même le plus courant), ça n'empêchera pas d'écrire algèbre de Lie alors que le crochet de Lie n'est pas associatif (on a une autre hypothèse à la place, l'identité de Jacobi) ; de même, si on écrit algèbre alternative, il faut comprendre que l'hypothèse d'associativité a été remplacée par quelque chose de plus faible (l'hypothèse d'alternativité / de Moufang) ; et c'est pareil pour les algèbres de Jordan. Donc une algèbre de Lie, une algèbre alternative et une algèbre de Jordan ne sont (en général) pas des algèbres [associatives], ce sont des algèbres non [nécessairement] associatives, en revanche toute algèbre [associative] est une algèbre alternative. Et c'est sans compter la notion très générale d'algèbre sur une monade ! Pour le mathématicien habitué, tout ça ne pose pas trop de problème, à part un énervement certain quand on tient à la logique, mais quand il s'agit d'enseigner, c'est vraiment embêtant.

Certains proposent parfois des adjectifs différents pour rendre la terminologie moins incohérente : par exemple, si on convient qu'un corps est nécessairement commutatif (ce qui, n'en déplaise à Bourbaki, est quasiment universellement admis), lorsqu'on veut parler de corps non nécessairement commutatif, plutôt que d'écrire la longue expression corps non nécessairement commutatif ou l'abus de langage corps non commutatif, certains aiment écrire algèbre à division (avantage : c'est bien une algèbre ; inconvénient : personne ne sait au juste ce que c'est qu'une algèbre), ou corps gauche (avantage : c'est relativement court et agréable à écrire ; mais il reste que ce n'est pas un corps, et le terme n'est pas ultra standard), voire corps-gauche (le trait d'union permet de faire comme si ce n'était pas un adjectif et de prétendre qu'il est complètement normal qu'un corps-gauche ne soit pas un corps). Ça peut marcher pour des cas précis, mais ce n'est pas une solution universelle.

On pourrait aussi se demander ce qu'un adverbe est censé avoir comme effet général sur un adjectif (qui lui-même qualifie un nom) : si les foobars orgnesquement cromulents sont censés être des foobars, comment se situent-ils par rapport aux foobars cromulents ? Je ne crois pas vraiment qu'il y ait de convention absolue en mathématiques : parfois localement cromulent implique cromulent, parfois c'est la réciproque qui vaut, parfois ni l'un ni l'autre.

↑Entry #2418 [older| permalink|newer] / ↑Entrée #2418 [précédente| permalien|suivante] ↑

↓Entry #2410 [older| permalink|newer] / ↓Entrée #2410 [précédente| permalien|suivante] ↓

(mardi)

Une version de Gödel sur l'inséparabilité des théorèmes et antithéorèmes

(Le mot antithéorème, dans le titre et dans ce qui suit, désigne un énoncé P dont la négation logique, que je note ¬P, est un théorème, i.e., un énoncé réfutable alors qu'un théorème désigne un énoncé démontrable. Si vous avez du mal à distinguer vrai/faux de théorème/antithéorème, vous pouvez réviser ici.)

Je fais de temps en temps des remarques sur le théorème de Gödel (par exemple ici), il semble que ce soit un sujet dont on n'arrête pas d'extraire du jus. J'ai fait une remarque à ce sujet récemment sur MathOverflow, je me dis qu'elle pourrait intéresser mes lecteurs, donc je vais tenter de l'expliquer. Je vais essayer de reléguer les détails ou les complément un peu plus techniques à plein de notes : ceux qui veulent juste the big picture peuvent ignorer ces notes (et, dans tous les cas, il vaut peut-être mieux les garder pour une seconde lecture). Pour ceux qui veulent vraiment juste the bottom line, j'explique ici, en utilisant un tout petit peu de calculabilité, pourquoi il existe non seulement des énoncés indémontrables et irréfutables (i.e., « logiquement indécidables »), mais même de tels énoncés dont l'indémontrabilité et l'irréfutabilité sont elles-mêmes indémontrables (i.e., « logiquement indécidablement indécidables »). J'avoue qu'il y a un peu plus de subtilités dans tous les sens que ce que je pensais (i.e., beaucoup de notes), mais j'espère qu'on peut quand même en retenir quelque chose sans comprendre tous les détails.

La clé de tout ça, c'est de méditer sur la manière dont un algorithme (i.e., une machine de Turing) peut séparer les théorèmes et les antithéorèmes, ou le vrai et le faux — en gros, montrer qu'il ne peut pas, même pas en un sens assez faible.

Voici un premier fait : il est possible de produire un algorithme (i.e., une machine de Turing) qui, quand on lui donne un énoncé mathématique P, termine en répondant oui lorsque P est un théorème, et termine en répondant non lorsque P est un antithéorème (i.e., ¬P est un théorème). Il suffit, pour cela, d'énumérer toutes les démonstrations mathématiques possibles (par exemple en énumérant toutes les suites de symboles possibles, en vérifiant pour chacune s'il s'agit d'une démonstration conforme aux règles de la logique, tout ceci étant faisable algorithmiquement), et si on tombe sur une démonstration de P, on s'arrête et on répond oui, tandis que si on tombe sur une démonstration de ¬P, on s'arrête et on répond non. Je n'ai pas précisé dans quel système axiomatique je me place, cela pourrait être, par exemple, l'arithmétique de Peano [du premier ordre] PA ou la théorie des ensembles ZFC (mais dans ce cas, il faudra la supposer cohérente, ce que ZFC lui-même ne peut pas prouver, sans quoi tout énoncé serait à la fois théorème et antithéorème ce qui n'est pas bien intéressant). Bien sûr, tout cela est complètement théorique (dans la vraie vie, la démonstration automatisée ne sert que dans des théories extrêmement étroites, pas pour des énoncés mathématiques « généraux »). Mais le point théorique à souligner, c'est que l'algorithme que je viens de décrire ne termine pas si P n'est ni un théorème ni un antithéorème (i.e., s'il est logiquement indécidable dans la théorie considérée) : la contrainte est seulement que si P est un théorème, l'algorithme termine en répondant oui, et si ¬P est un théorème, l'algorithme termine en répondant non.

Voici un deuxième fait : il n'est pas possible de faire un algorithme (i.e., une machine de Turing) qui, quand on lui donne un énoncé mathématique P, termine en répondant oui lorsque P est vrai, et termine en répondant non lorsque P est faux (i.e., ¬P est vrai). En fait, ce n'est même pas possible si on se limite[#] à ce que P soit un énoncé arithmétique (c'est-à-dire, qui ne parle que d'entiers : voir ici pour une petite discussion) ; ni même si on se limite encore plus à ce que P soit un énoncé arithmétique Π₁ (c'est-à-dire un énoncé de la forme pour tout entier naturel n, on a Q(n), où Q, lui, est arithmétique et algorithmiquement testable en temps fini pour chaque n donné ; voir ici pour une discussion). La démonstration de ce deuxième fait est facile si on connaît un tout petit peu de calculabilité, plus exactement, l'indécidabilité algorithmique du problème de l'arrêt : si un algorithme comme je décrit ci-dessus (i.e., capable de dire si un énoncé est vrai ou faux) existait, il serait notamment capable de dire si l'énoncé <tel algorithme> ne termine pas quand on le lance sur <telle entrée> est vrai ou faux (ceci est bien un énoncé arithmétique, et il est même arithmétique Π₁), et du coup, de résoudre algorithmiquement le problème de l'arrêt.

[#] À vrai dire, si je ne mets pas une restriction de ce genre, c'est encore pire : on ne peut même pas énoncer formellement ce que ça voudrait dire d'avoir un algorithme qui répond oui ou non selon que l'énoncé est vrai ou faux.

Quand on met ensemble les deux faits que je viens de dire, on obtient le théorème de Gödel : en effet, s'il est possible de faire un algorithme qui répond oui sur les théorèmes et non sur les antithéorème, et impossible de faire un algorithme qui répond oui sur les énoncés vrais et non sur les énoncés faux, c'est forcément que les deux concepts ne sont pas identiques !, et donc, si tant est que tous les théorèmes de la théorie sont bien vrais (ou au moins les théorèmes arithmétiques, ou au moins[#2] les théorèmes arithmétiques Σ₁), il y a forcément des énoncés vrais, et même forcément des énoncés arithmétiques Π₁ vrais[#3], mais qui ne sont pas des théorèmes. C'est le théorème de Gödel, et c'est d'ailleurs peut-être la manière la plus simple de le voir. La construction peut être rendue explicite (car l'indécidabilité du problème de l'arrêt l'est). Je crois que cette façon de démontrer le théorème de Gödel était une motivation importante pour Turing dans l'étude du problème de l'arrêt.

↑Entry #2410 [older| permalink|newer] / ↑Entrée #2410 [précédente| permalien|suivante] ↑

↓Entry #2408 [older| permalink|newer] / ↓Entrée #2408 [précédente| permalien|suivante] ↓

(dimanche)

La forme élégante du plan projectif complexe

Je ressors ici de mes cartons une vieille entrée commencée il y a très longtemps, et plusieurs fois reprises, abandonnée, re-reprise, re-abandonnée, etc. Il s'agit d'essayer d'expliquer ce que c'est, et dans une certaine mesure comment visualiser, le plan projectif complexe[#] et sa géométrie. (Sauf qu'à cause de l'histoire compliquée de la rédaction de ce texte, qui s'étale sur des années, j'ai changé plusieurs fois d'avis sur ce que je voulais raconter, et il ne faut pas s'attendre à une grande cohérence. Mais j'espère au moins que les différents bouts seront intéressants.)

Le plan projectif complexe est intéressant parce qu'il appartient à la liste des espaces homogènes et isotropes (ou : deux points homogènes), ce que j'avais évoqué dans mon entrée sur les octonions (plus précisément, ici ; je voulais en parler depuis longtemps), et il est le plus simple/petit parmi eux qui ne soit pas maximalement symétrique, c'est-à-dire, qui ne soit pas un espace euclidien, une sphère (ou espace projectif réel) ou un espace hyperbolique : si on veut essayer d'imaginer ce que la notion d'espace homogène et isotrope signifie, et pourquoi ce n'est pas pareil que maximalement symétrique, il est donc bon de commencer par là ; d'autant plus qu'il n'est que de dimension (réelle) 4, ce qui n'est pas totalement hors de portée de l'imagination, et de toute façon tous ceux qui sont plus compliqués vont le contenir (ou bien contenir son dual, le plan hyperbolique complexe).

Mais il y a une raison supplémentaire d'en parler, c'est que le plan projectif complexe est une sorte d'amalgame entre le plan projectif réel (qui n'est autre que la sphère ordinaire, après identification des points antipodaux) et la droite projective complexe (a.k.a., sphère de Riemann, qui est elle aussi la sphère ordinaire, cette fois sans identification des antipodes, mais qu'il sera pertinent d'imaginer de rayon deux fois plus petit) : ces deux espaces-là sont faciles à comprendre, et sont aussi l'occasion de parler de deux projections particulières de la sphère, à savoir la projection gnomonique et la projection stéréographique. Car le plan projectif réel est fortement lié à la projection gnomonique de la sphère, et la droite projective complexe à la projection stéréographique. • Toutes les deux fonctionnent en projetant la sphère sur un plan tangent à elle et en projetant depuis un point appelé centre de projection (c'est-à-dire que pour projeter un point de la sphère, on trace la droite ou demi-droite partant de ce centre de projetant et reliant le point à projeter, et son intersection avec le plan choisi définit la projection) : la différence est que dans le cas de la projection gnomonique on projette depuis le centre de la sphère tandis que dans le cas de la stéréographique on projette depuis le point antipodal du point de tangence du plan choisi. La projection gnomonique préserve l'alignement (i.e., envoie les grands cercles sur des droites) et c'est d'ailleurs la seule à le faire, tandis que la stéréographique préserve les angles. (Voir aussi mes explications sur les projections de la sphère et l'application au cas de la Terre, ou encore le texte que j'avais écrit il y a bien longtemps sur le sujet de la cartographie.)

[#] Plus exactement : le plan projectif complexe muni de sa métrique/distance de Fubini-Study, qui est alors une variété riemannienne de dimension 4 ; peut-être que je devrais dire plan elliptique complexe (ou plan projectif hermitien ?) — la terminologie n'est pas totalement claire.

Table des matières

Définition rapide et résumé pour les gens pressés

Pour les lecteurs qui veulent tout de suite une définition, le plan projectif complexe est l'ensemble des triplets (u,v,w) de nombres complexes non tous les trois nuls, dans lesquels on identifie (u′,v′,w′) avec (u,v,w) lorsqu'il existe λ complexe non nul tel que (u′,v′,w′) = λ·(u,v,w) (et pour marquer cette identification, on note (u:v:w) la classe de (u,v,w), c'est-à-dire l'ensemble {(λu,λv,λw) | λ∈ℂ×}). Autrement dit, on identifie (u,v,w) et (u′,v′,w′) lorsque les trois rapports u/u′, v/v′ et w/w′ sont tous les trois égaux (plus exactement, les coordonnées nulles doivent être les mêmes d'un côté et de l'autre, et les rapports entre coordonnées non nulles de part et d'autres doivent être les mêmes). On dit que u, v, w sont les coordonnées homogènes du point (définies à un facteur multiplicatif λ commun, donc). Souvent on les prendra normalisées, c'est-à-dire que |u|²+|v|²+|w|²=1 (mais ceci ne définit toujours pas les coordonnées uniquement, car on peut encore multiplier par un complexe λ de module 1).

Pour définir le plan projectif réel, on imposera bien sûr à u,v,w d'être réels (non tous nuls) ; et pour la droite projective réelle, on imposera à w d'être nul (i.e., on n'utilise que deux coordonnées). On pourrait bien sûr définir l'espace projectif de dimension n quelconque en utilisant n+1 coordonnées homogènes. Et on peut faire la même définition avec les quaternions qu'avec les réels ou les complexes (il faut juste faire attention dans ce cas à bien fixer le sens de la multiplication : disons qu'on identifie (u,v,w) avec (λu,λv,λw) pour λ un quaternion non nul : cela revient à identifier (u,v,w) et (u′,v′,w′) lorsque u·u−1, v·v−1 et w·w−1 sont égaux ou, ce qui revient au même, que u−1·v=u−1·v′ et v−1·w=v−1·w′ et w−1·u=w−1·u′, avec les conventions évidentes lorsque des coordonnées sont nulles). Pour les octonions, en revanche, on ne peut fabriquer que la droite et le plan projectifs, et les définitions sont plus délicates.

Mais ce dont je veux surtout parler, ce n'est pas juste le plan projectif complexe, c'est aussi la distance qu'on met dessus (et que je vais motiver en commençant par le cas du plan projectif réel et de la droite projective complexe), qu'on appelle la métrique de Fubini-Study, et qui vaut dist((u:v:w), (u′:v′:w′)) = Arccos(|u·u*+v·v*+w·w*| / √((|u|²+|v|²+|w|²)·(|u′|²+|v′|²+|w′|²))) où z* désigne le conjugué complexe de z ; donc, pour des coordonnées normalisées, c'est dist((u:v:w), (u′:v′:w′)) = Arccos(|u·u*+v·v*+w·w*|), autrement dit l'arc-cosinus du module du produit scalaire hermitien entre les coordonnées normalisées. Il est facile de vérifier que cette distance ne dépend pas des coordonnées homogènes choisies.

Cette distance fait du plan projectif réel une sphère de dimension 2 et rayon 1 où les points antipodaux sont identifiés (l'identification étant par la projection gnomonique), et de la droite projective complexe une sphère de dimension 2 et rayon ½ (l'identification étant par la projection stéréographique) dite « sphère de Riemann ». Quant au plan projectif complexe, de dimension 4, il a une forme où ces deux sortes de sphères jouent un rôle important, et que j'ai tendance à décrire intuitivement comme un « tissu de sphères » (les sphères en question sont les droites projectives complexes du plan projectif complexe : il en passe exactement une par deux points distincts quelconques, et deux d'entre elles se coupent toujours en un point unique). Ce plan projectif complexe, par ailleurs, possède énormément de symétrie, puisqu'elle est homogène et isotrope (« tous les points sont interchangeables, ainsi que toutes les directions à partir d'un point »).

Je dirai encore un mot sur les plans projectifs réels contenus dans le plan projectif complexe, sur les symétries de ce dernier, et sur différentes sortes d'angles qu'on peut définir (car si tous les points se valent et que toutes les distances égales se valent, en revanche, la situation des angles est plus compliquée).

↑Entry #2408 [older| permalink|newer] / ↑Entrée #2408 [précédente| permalien|suivante] ↑

↓Entry #2386 [older| permalink|newer] / ↓Entrée #2386 [précédente| permalien|suivante] ↓

(mercredi)

Hadwiger-Nelson et autres malheurs

Les oulipiens ont inventé le concept du plagiat par anticipation, il faut peut-être que j'explore la manière dont il s'applique aux mathématiques. Pour une fois je vais raconter mes malheurs à ce sujet. Mais il faut d'abord que je donne le contexte.

J'ai déjà parlé du problème de Hadwiger-Nelson, cette question ouverte célèbre qui consiste à déterminer le nombre minimum de couleurs qu'il faut pour colorier le plan de façon que deux points situés à distance 1 (unité fixée quelconque) n'aient jamais la même couleur : on sait seulement que la réponse (i.e., le nombre chromatique du plan pour la relation être-à-distance-un) est entre 4 et 7 ; et je qualifie volontiers ça de problème ouvert le plus embarrassant des mathématiques, parce que vraiment tout le monde peut comprendre l'énoncé, un lycéen peut retrouver les bornes que je viens de donner et on n'a pas fait de progrès par rapport à ça. On peut, en revanche, essayer de changer un peu la question pour faire du progrès sur un terrain adjacent.

Vers avril 2012, j'ai réfléchi avec quelques collègues à de telles questions adjacentes (par exemple, savoir si on peut calculer d'autres invariants intéressants du graphe des points du plan avec la relation être-à-distance-un, comme sa capacité de Shannon — enfin, celle de son complémentaire, parce qu'un des collègues en question a des conventions opposées à tout le monde, et des bons arguments pour les défendre), mais nous n'avons pas trouvé grand-chose d'intéressant. • Comme je parlais du problème en question à mon poussinet, il m'a demandé ce qu'on savait du nombre chromatique pour des points à coordonnées rationnelles (i.e., le nombre minimum de couleurs qu'il faut pour colorier l'ensemble ℚ² des points à coordonnées rationnelles du plan, de façon que deux points situés à distance 1 n'aient jamais la même couleur). J'ai trouvé la solution à cette question-là (2 couleurs sont suffisantes — et évidemment nécessaires), et je l'ai exposée à mes collègues ; l'un d'eux a rapidement repéré que ce fait était déjà bien connu (le résultat est dû à un Douglas Woodall, en 1973). J'ai fait remarquer que les mêmes techniques permettaient de montrer des choses sur d'autres corps, par exemple ℚ(√3) (le corps des nombres de la forme a+b√3, où a et b sont rationnels) pour lesquel le nombre chromatique du plan vaut exactement 3, et cela a suscité un intérêt modéré.

Je suis alors tombé sur le livre d'Alexander Soifer, The Mathematical Coloring Book (publié en 2009), presque entièrement consacré au problème de Hadwiger-Nelson. Ce livre signale le résultat de Woodall (le nombre chromatique du plan à coordonnées dans ℚ vaut 2) et quelques unes de ses variations, et mentionne explicitement comme problème ouvert de trouver des nombres chromatiques d'autres corps, par exemple ℚ(√2). Je me suis rendu compte que je savais aussi calculer la réponse pour ℚ(√2) (c'est un peu plus compliqué que pour ℚ(√3)), et du coup que ça valait peut-être la peine de rédiger tout ça.

Les choses ont un peu traîné, mais j'ai mis sur l'arXiv une petite note contenant ces résultats et quelques faits liés que j'ai trouvé à dire sur le problème. Je pense qu'elle est facile à lire.

Je pense que les trois angoisses majeures du mathématicien quand il a obtenu son résultat sont : (1) de trouver une erreur dans sa démonstration, voire un contre-exemple à l'énoncé, (2) de trouver que le résultat est, en fait, quasiment trivial (i.e., au contraire du (1), trouver une démonstration « trop simple » de l'énoncé), et (3) d'apprendre que tout a déjà été fait avant. S'agissant du (1), j'ai passé (je passe toujours) un temps fou à relire, re-relire, et re-re-relire mes démonstrations, et j'ai atteint un niveau raisonnable de certitude qu'elles étaient correctes, même si je n'ai pas pu persuader qui que ce soit d'y jeter un coup d'œil. S'agissant du (2), l'angoisse est largement neutralisée quand il s'agit d'un problème ouvert répertorié (c'est notamment à ça qu'il sert de répertorier les problèmes ouverts). Restait l'angoisse numéro (3). J'ai écrit à Soifer (l'auteur du bouquin sur le sujet) pour lui demander si la question était toujours ouverte depuis 2009, mais il ne m'a pas répondu (je ne peux pas lui en tenir rigueur, je suis le premier à ne pas répondre à mes mails). J'ai cherché comme j'ai pu dans les bases de données de publications mathématiques et dans Google tout ce qui pouvait tourner autour de Hadwiger-Nelson ou tout ce qui citait le livre de Soifer ou quelques publications-clés, et je n'ai rien trouvé. En fait, presque personne ne semble faire quoi que ce soit au sujet du problème de Hadwiger-Nelson, donc je me suis dit que c'était certainement bon.

Finalement, j'ai soumis ma note à un journal en octobre dernier. Ils l'ont gardé plutôt longtemps (octobre à juillet), et je me suis dit que c'était sans doute un bon signe : si on rejette un article par manque d'intérêt, d'habitude, on le fait rapidement, alors que si on prend le temps de rentrer dans les détails mathématiques, c'est certainement que l'article est jugé assez intéressant, or je ne craignais pas trop qu'on y trouvât des fautes.

J'ai reçu hier le rapport : il commence plutôt bien, mais in cauda venenum : il m'apprend à la fin que l'immense majorité des résultats que je croyais avoir obtenus figurent déjà dans une note non publiée (et pas non plus mise sur l'arXiv, seulement sur la page personnelle de son auteur) d'un certain Eric Moorhouse de l'Université du Wyoming. Et ce Moorhouse a une très nette antériorité, puisque la version actuelle de sa note est datée de 2010 et qu'on trouve même des traces d'une version de 1999 qui contient aussi les résultats essentiels. Cette note m'avait échappé sans doute parce qu'elle n'utilise nulle part le terme Hadwiger-Nelson, et apparemment elle (ou en tout cas, sa version de 1999) avait aussi échappé à Soifer quand il a écrit son livre.

Et il n'y a pas que les résultats qui sont proches : les techniques que j'ai mises en œuvre sont quasiment identiques à celles de Moorhouse (je ne peux même pas espérer parler de démonstrations alternatives). Même la question que je soulève de savoir si le nombre chromatique de ℂ² pour la relation (xx′)² + (yy′)² = 1 est finie, est déjà dans l'article antérieur. J'ai bel et bien été « plagié par anticipation » ! Plus sérieusement, je suis dans une situation vraiment embarrassante, parce qu'on pourrait m'accuser de plagiat ; le rapporteur qui a lu ma note a eu l'intelligence de deviner que ce n'était pas le cas (et il l'écrit clairement à l'éditeur), mais je me méfierai à l'avenir avant d'accuser qui que ce soit de plagiat, parce que je me rends compte à quel point ça peut arriver facilement.

Il y a bien quelques bouts restants dans ma note qui ne sont pas contenus dans ce qu'a fait Moorhouse (pour ceux qui veulent regarder, les §2–4 sont essentiellement incluses dans son travail, sauf peut-être la borne inférieure de la proposition 4.6, mais ce n'est pas franchement passionnant, et les §5–7 partent un peu dans une autre direction), mais je vois mal comment ils pourraient être publiés, ne serait-ce que par manque de cohérence : ce sont des petites remarques éparses qui n'ont plus aucun fil conducteur. (La réponse de l'éditeur du journal auquel j'avais soumis l'article ne ferme pas complètement la porte à cette possibilité, mais il demande des révisions substantielles qui ont l'air difficiles à mener.) À vrai dire, j'espérais beaucoup pouvoir profiter de la publication de cette note pour attirer l'attention sur le problème de Hadwiger-Nelson minkowskien (=lorentzien), i.e., pour la métrique de Minkowski (ℝ² pour la relation (tt′)² − (zz′)² = 1), et sur le fait que je ne sais même pas si le nombre chromatique est fini. Mais ça ne se fait pas de publier un article avec des questions, il faut qu'il y ait des résultats nouveaux pour servir de prétexte à poser des questions. C'est vraiment triste.

En fait, je suis même assez effondré, parce que j'avais investi pas mal de temps, pas tant dans les résultats eux-mêmes mais dans la rédaction de cette note, que j'espérais rendre aussi jolie que possible.

J'ai écrit à Moorhouse pour lui faire part de mon embarras, lui présenter mes excuses d'avoir mis sur l'arXiv comme mien des résultats qu'il avait obtenus avant, et demander s'il accepterait de faire une publication jointe, mais je ne vois pas vraiment pourquoi il accepterait (par ailleurs, je ne sais pas s'il est encore actif, ou s'il lit son mail, ou s'il y répond).

Ce n'est pas la première fois que ça m'arrive de retomber sur des résultats déjà connus, en fait, ou quelque mésaventure du genre — même si c'est la première fois que c'est aussi flagrant. Deux fois pendant ma thèse, d'autres mathématiciens ont obtenu des résultats beaucoup plus forts que les miens et quasiment simultanément (là, j'avais techniquement l'antériorité, mais quand elle se joue à très très peu, ce n'est pas forcément évident pour les journaux et relecteurs, et ça a quelque chose d'un peu absurde de se retrouver à citer un article postérieur qui fait que l'article qu'on écrit n'a déjà plus aucun intérêt). Et je ne compte pas le nombre de concepts que j'ai « découverts » pour apprendre que j'étais né trop tard dans un monde déjà trop vieux : par exemple, en 2001, j'ai « découvert » les séries de Hahn, j'étais tout excité de comprendre qu'elles formaient un corps algébriquement clos, et on m'a fait savoir que j'arrivais à peu près un siècle trop tard. J'ai aussi trouvé plein de choses sur la multiplication de nim avant de découvrir que Lenstra était passé avant, etc. Ce genre de choses arrive à tout mathématicien, mais la multiplicité des cas qui m'ont touché commence à me rendre parano. Pourtant, je cherche à m'écarter des sentiers battus.

↑Entry #2386 [older| permalink|newer] / ↑Entrée #2386 [précédente| permalien|suivante] ↑

↓Entry #2368 [older| permalink|newer] / ↓Entrée #2368 [précédente| permalien|suivante] ↓

(mardi)

Le lemme de Higman expliqué aux enfants

Ceci est un peu une expérience de vulgarisation scientifique : je voudrais essayer d'expliquer et de démontrer un résultat mathématique non-trivial en m'adressant aux gens n'ayant aucune connaissance mathématique particulière (même pas, en principe, ce qu'est un nombre), mais seulement un peu de patience pour lire des explications plutôt verbeuses (bon, OK, si je demande de la patience, ce n'est pas vraiment pour les enfants, mais je ne sais pas quoi dire d'autre). Je pense que cela peut servir d'exemple pour illustrer ce à quoi peut ressembler le travail d'un mathématicien et les raisonnements qu'il fait, et surtout, pourquoi il peut s'agir de tout autre chose que de formules et de calculs. (Ceci étant, la vulgarisation mathématique est quelque chose de difficile parce qu'en plus de chercher à expliquer les concepts ou les outils eux-mêmes, il faut trouver quelque chose à répondre aux gens qui demanderont des choses comme à quoi ça sert de se poser ce genre de question ? de façon plus ou moins agressive.) Ai-je réussi à rendre les choses compréhensibles ? À vous de me le dire — enfin, à ceux d'entre vous qui ne sont pas déjà mathématiciens.

C'est aussi un petit exercice un peu oulipien : expliquer une démonstration mathématique sans utiliser de « variables » (je veux dire des choses comme le nombre n, le mot w, le langage L, l'ensemble S, etc., ou a fortiori la suite (vi)) pour désigner les objets, puisque je ne suppose pas mon lecteur familier avec cette façon de désigner les choses. (Ce petit exercice est peut-être complètement stupide, d'ailleurs, parce qu'il n'est pas clair que m'obliger à utiliser des périphrases comme le mot qu'on considérait ou le langage dont on était parti aide vraiment à comprendre, et je pense même le contraire : mais cet exercice à l'intérêt de m'obliger à limiter le nombre d'objets manipulés dans une phrase donnée, à donner des exemples, etc., donc je pense qu'il a du bon.) J'ai quand même réécrit la démonstration une deuxième fois avec ce genre de langage, pour comparer (là aussi, aux non-mathématiciens de me dire si c'est plus ou moins clair).

J'ai choisi pour l'exercice un théorème de combinatoire : le lemme de Higman. Pourquoi précisément le lemme de Higman ? Parce que c'est un résultat important, relativement récent (1952), que je trouve très joli, et dont la démonstration, simple, élégante et pas trop longue, ne fait appel à aucun concept sophistiqué, mais est un bon exemple de raisonnement pas du tout trivial aboutissant à une conclusion peut-être surprenante. Mais aussi parce que cette démonstration contient des idées mathématiques importantes (un raisonnement par l'absurde qui est une forme de descente infinie), et parce que le résultat lui-même admet des myriades d'applications et de généralisations dans toutes sortes de directions, dont certaines sont des sujets de recherche actifs, et dont certaines utilisent une démonstration relativement proche de celle que je vais présenter.

Alors, de quoi s'agit-il ?

Je commence par présenter le contexte.

On va d'abord parler de mots, et je vais expliquer exactement ce que j'entends par là. Un mot est une succession (finie) de lettres de l'alphabet. Par exemple : abracadabra est un mot (d'une longueur de 11 lettres, mais peu importe, j'ai dit qu'il n'était pas nécessaire de savoir compter). Un mot n'est pas obligé d'avoir un sens en français ou dans une quelconque autre langue : kvtyeohegwnfth est un mot valable. Un mot peut être arbitrairement long : anticonstitutionnellementologiepouettruc est un mot valable. Il peut aussi être arbitrairement court : a est un mot. On va même autoriser le mot, appelé mot vide, qui n'a aucune lettre dedans (de longueur zéro) : il y a juste un petit problème pour l'écrire parce qu'il ne se voit pas, d'où l'intérêt de mettre des guillemets autour pour qu'on le voie quand même : (est le mot vide). Une lettre peut être répétée autant de fois qu'on veut : aaaaaaaaaaaaaa est un mot parfaitement valable (et différent de aaaaaaaaaaaaa).

En revanche, on n'a pas le droit à autre chose que des lettres : pouet42truc n'est pas autorisé. Ou du moins il ne l'est pas si on est convenu à l'avance que l'alphabet est formé des lettres ‘a’, ‘b’, ‘c’, ‘d’, ‘e’, ‘f’, ‘g’, ‘h’, ‘i’, ‘j’, ‘k’, ‘l’, ‘m’, ‘n’, ‘o’, ‘p’, ‘q’, ‘r’, ‘s’, ‘t’, ‘u’, ‘v’, ‘w’, ‘x’, ‘y’ et ‘z’ à l'exclusion de toute autre : en fait, le lemme de Higman marchera tout aussi bien si je veux ajouter les chiffres dans l'alphabet, ou les caractères accentués, ou les majuscules ; ou si je prends l'alphabet grec, ou russe, ou sanskrit, ou tous les caractères chinois : la seule chose qui importe est que l'alphabet soit fini et décidé à l'avance et qu'on n'y touche plus (et on pourra toujours appeler lettres les choses qu'on a mises dans l'alphabet) ; mais pour fixer les idées dans cette explication, on va dire qu'il s'agit de l'alphabet latin minuscule, c'est-à-dire exactement des — 26 mais peu importe — caractères que je viens d'énumérer.

Ce concept étant (j'espère) clair, on va jouer à un petit jeu (à seul ou à plusieurs) consistant à écrire des mots les uns à la suite des autres.

La seule règle du jeu est la suivante : une fois qu'un mot a été écrit, il n'est plus autorisé d'écrire un mot qui s'obtient en ajoutant des lettres dans le mot en question (au début, à la fin, n'importe où au milieu, ou tout ça à la fois). Par exemple, si le mot truc a été joué, on ne peut plus jouer trucage, mais pas non plus trouc ni structure ni autruche ni tirebouchon (eh oui, dans tirebouchon il y a truc, voyez : tirebouchon) ni introductif (idem : introductif), ni cturtutrcu (cherchez bien, il y a moyen de retrouver truc dans cet ordre en retirant les bonnes lettres : cturtutrcu). Et, bien sûr, on ne peut pas rejouer truc lui-même. Si le mot a a été joué, on ne peut plus jouer aucun mot comportant un ‘a’ n'importe où. (Et si le mot vide a été joué, plus aucun mot n'est jouable et le jeu doit s'arrêter.) • Pour parler de façon plus concise, un mot qui s'obtient à partir d'un autre en ajoutant des lettres s'appellera un sur-mot, et inversement, l'autre (qui s'obtient en retirant des lettres n'importe où) s'appellera un sous-mot : donc truc est un sous-mot de tirebouchon et tirebouchon est un sur-mot de truc (et tout mot contenant la lettre ‘a’ est un sur-mot de a, et tout mot est un sur-mot du mot vide). On convient que tout mot est un sur-mot et un sous-mot de lui-même. La règle du jeu est donc : on ne peut pas jouer un mot dont un sous-mot a déjà été joué, ou encore, jouer un mot « grille » (consomme, interdit, bannit) définitivement tous ses sur-mots. C'est là la seule règle.

Évidemment, si on veut vraiment faire un jeu intéressant à partir de l'histoire, il faudra ajouter des règles décidant qui gagne (par exemple, en disant que celui qui joue le mot vide perd — si on décide qu'il gagne, le jeu n'est vraiment pas bien palpitant ; en fait, même si on décide qu'il perd, il y a une stratégie gagnante très facile). Mais ce n'est pas tellement ça qui va m'intéresser.

↑Entry #2368 [older| permalink|newer] / ↑Entrée #2368 [précédente| permalien|suivante] ↑

↓Entry #2356 [older| permalink|newer] / ↓Entrée #2356 [précédente| permalien|suivante] ↓

(mardi)

Une question d'Analyse (moyenner une fonction), et de pourquoi elle m'intéresse

Commençons tout de suite par la question qui m'intéresse (je précise que je n'en connais pas la réponse), que je vais faire suivre de commentaires mathématiques, puis métamathématico-psychologiques :

Soit f une fonction réelle 1-périodique, et L¹ sur une période (ou, si ça ne suffit pas : mesurable et bornée). Est-il vrai que pour presque tout x, la moyenne arithmétique de f(x), f(x+1/n), f(x+2/n), f(x+3/n), …, f(x−1/n), converge vers l'intégrale de f (sur une période) ?

Cette question peut se voir comme la suite d'une question que j'avais proposée en exercice : si j'appelle (n(f))(x) la moyenne dont il est question ci-dessus, je sais montrer un certain nombre de choses, par exemple que n(f) tend dans Lp vers (la fonction constante égale à) l'intégrale de f si f est Lp et p<∞, ou qu'il y a convergence uniforme si f est Riemann-intégrable. Je signale quelques autres faits apparentés (ainsi qu'une esquisse de démonstration de ce que je viens de dire) dans cette question sur math.stackexchange, où je pose la question recopiée ci-dessus et je demande aussi s'il y a convergence dans L (lorsque f est L). Au moment où j'écris, je n'ai pas eu de réponse (et la question n'a suscité que très peu d'intérêt, ouin ☹).

Mise à jour () : Comme on me le signale en commentaire, la réponse est non : même pour f mesurable et bornée (en fait, même pour la fonction indicatrice d'une partie de ℝ/ℤ), il n'y a pas forcément convergence presque partout, ni même « quelque part », de n(f) vers f. C'est l'objet de l'article de Walter Rudin, An Arithmetic Property of Riemann Sums, Proc. Amer. Math. Soc. 15 (1964), 321–324. La démonstration de Rudin est courte et a l'air assez jolie et arithmétique. • Par ailleurs, auparavant, Marcinkiewicz et Zygmund, dans Mean values of trigonometrical polynomials, Fund. Math. 28 (1937), chapitre II, théorème 3 p. 157, avaient déjà montré que pour la fonction précise −log(|x|)/√|x| sur [−½,½], prolongée par périodicité, qui est L¹ sur une période mais non bornée, on n'a convergence nulle part. • Par ailleurs, ces articles montrent que d'autres que moi ont pensé que la question était naturelle, et d'autre part, qu'elle n'était pas triviale. (Le terme qui me manquait pour chercher était somme de Riemann : je pensais qu'une somme de Riemann était le cas associé à une subdivision quelconque, pas spécialement régulière, et qu'on n'allait donc pas trouver grand-chose de plus en cherchant ce terme que la construction de l'intégrale de Riemann.)

Mais une méta-question que je trouve aussi intéressante, c'est : pourquoi est-ce que je trouve la question ci-dessus extrêmement intéressante, importante et naturelle ? (Peut-être que je ne serai plus de cet avis si j'obtiens la réponse, mais au minimum je la trouve intéressante au sens où j'ai vraiment envie d'avoir la réponse.) Ce n'est pas juste que moyenner une fonction comme ça est une opération qui me semble très naturelle (et assez élégante) et qu'on a envie de savoir si ça converge vers l'intégrale voire, si ça donnerait une « définition » de l'intégrale de Lebesgue. L'Analyse n'est pas un sujet dont je suis un grand fan, mais à partir du moment où on me présente une « situation » mathématique (ici, le fait de moyenner une fonction 1-périodique par ses n translatés par 1/n, et de considérer la limite quand n→+∞) sur laquelle j'arrive à dire des choses, j'ai naturellement envie de me poser toutes les questions « adjacentes » à la situation : si j'ai un résultat de convergence dans Lp pour p<∞, j'ai naturellement envie de poser la question de la convergence L et de la convergence presque partout. (D'ailleurs, le mystère c'est pourquoi j'ai mis plus d'un an à me rendre compte que ces questions étaient naturelles et que je ne savais pas les résoudre !) En plus de cela, il y a toujours un degré de frustration à penser : bon sang, mais une question aussi simple et naturelle que ça, je devrais savoir y répondre !, ou au moins, trouver la réponse dans un livre/article.

J'ai souligné le mot naturel dans le paragraphe précédent, parce que c'est un aspect psychologique fondamental dans la manière dont je conçois les mathématiques : il n'y a pas que le fait que les objets soient élégamment symétriques et beaux par leur grandeur qui me motive, il y aussi le caractère naturel des questions qu'on se pose. Je me considère comme un mathématicien pur non pas parce que je ferais des choses qui ne servent à rien, mais parce que ce qui me motive quand je me pose une question de maths n'est pas qu'elle serve à quelque chose (même à l'intérieur des mathématiques), mais qu'elle soit naturelle dans le contexte. Et c'est une qualité que je ne sais pas définir (même si cela a certainement un rapport avec la simplicité) et dont je me demande à quel point elle est personnelle, voire complètement illusoire. Un autre mathématicien sera-t-il convaincu que la question ci-dessus est intéressante ? Je ne sais pas. (Pas plus que pour les questions de l'entrée précédente. En revanche, une question telle que est-il vraie que pour toute fonction réelle f il existe une partie dense à laquelle la restriction de f est continue ? est probablement « naturelle » si j'en crois les réactions que j'ai eues.)

Toujours est-il que je n'ai pas le temps d'y réfléchir sérieusement (et je ne suis pas sûr d'y connaître assez en Analyse pour avoir une chance sérieuse de savoir résoudre le problème), donc j'essaie insidieusement de convaincre d'autres gens d'y faire attention et d'y réfléchir à ma place. Wir müssen wissen — wir werden wissen! 😉

↑Entry #2356 [older| permalink|newer] / ↑Entrée #2356 [précédente| permalien|suivante] ↑

↓Entry #2355 [older| permalink|newer] / ↓Entrée #2355 [précédente| permalien|suivante] ↓

(dimanche)

Quelques théorèmes de points fixes

Je suis un peu débordé en ce moment par la préparation de deux cours[#] qui commencent dans deux semaines et dont je n'ai pour l'instant que des notes très éparses et inachevées, d'autant plus que j'enseigne autre chose en ce moment. Mais pendant la préparation d'un de ces cours, je suis tombé sur une difficulté mathématique au sujet de laquelle j'aimerais l'avis de mes lecteurs mathématiciens (il doit bien y en avoir) ou amateurs de mathématiques : ce n'est pas que je ne sache pas démontrer quelque chose, mais que je m'étonne de la façon dont je le démontre, et je trouve qu'il y a quelque chose de surprenant dans toute l'histoire. Bref, je vais commenter les ressemblances et différences entre quelques énoncés apparemment très semblables et surtout différentes démonstrations des énoncés en question.

[#] L'un de ces cours concerne la théorie des jeux ; ou plutôt les théories des jeux, parce qu'il y a plusieurs domaines que leurs spécialistes appellent théorie des jeux, selon le type de jeux étudiés, et dont l'intersection est relativement faible : pensez à celle (que je ne sais pas nommer plus précisément) qui cherche des équilibres de Nash et celle (en gros, la théorie combinatoire des jeux) qui cherche à calculer des valeurs de Sprague-Grundy, par exemple, chacune a tendance à se définir comme « la » théorie des jeux, et d'ailleurs ça m'énerve, en tout cas je voudrais parler des deux et de quelques autres encore. Mes notes en cours d'écriture sont ici. L'autre cours concerne les courbes algébriques, pour lequel il va s'agir de remanier profondément un cours de géométrie algébrique (anciennes notes ici) que je donnais déjà.

Voici quatre énoncés mathématiques très simples, en théorie élémentaire des ensembles, que je pourrais regrouper sous le label général de théorèmes de points fixes, et que je vais appeler successivement (P), (P$), (F) et (F$) :

(P) Soit X un ensemble : on note 𝒫(X) son ensemble des parties. Soit Ψ:𝒫(X)→𝒫(X) une application vérifiant les deux propriétés suivantes : (i) Ψ est progressive, c'est-à-dire que Ψ(A)⊇A pour tout A∈𝒫(X), et (ii) Ψ est croissante, c'est-à-dire que si AB alors Ψ(A)⊇Ψ(B). Alors il existe un plus petit A∈𝒫(X) tel que Ψ(A)=A (c'est-à-dire un A tel que Ψ(A)=A et que si A′ vérifie aussi Ψ(A′)=A′ alors AA′).

(P$) [Exactement le même énoncé que (P) sans supposer (i).] Soit X un ensemble : on note 𝒫(X) son ensemble des parties. Soit Ψ:𝒫(X)→𝒫(X) une application vérifiant la propriété suivante : Ψ est croissante, c'est-à-dire que si AB alors Ψ(A)⊇Ψ(B). Alors il existe un plus petit A∈𝒫(X) tel que Ψ(A)=A. [Un peu mieux : il existe un plus petit A tel que Ψ(A)⊆A, et ce A vérifie Ψ(A)=A.]

Pour les deux énoncés suivants, j'ai besoin de rappeler la notion de fonction partielle : si X et Z sont deux ensembles, une fonction partielle XZ est une fonction définie sur une partie de X et à valeurs dans Z ; on peut aussi la voir comme une partie de X×Z (à savoir, le graphe de la fonction) qui soit fonctionnelle au sens où si elle contient à la fois (x,z₁) et (x,z₂) pour le même xX alors forcément z₁=z₂. La relation fg entre fonctions partielles signifie alors que la fonction f prolonge la fonction g (i.e., que f est définie partout où g l'est, et qu'alors leurs valeurs coïncident).

(F) [Exactement le même énoncé que (P) avec des fonctions partielles XZ au lieu de parties de X.] Soient X et Z deux ensembles : on note 𝒟 l'ensemble des fonctions partielles XZ. Soit Ψ:𝒟→𝒟 une application vérifiant les deux propriétés suivantes : (i) Ψ est progressive, c'est-à-dire que Ψ(f)⊇f pour tout f∈𝒟, et (ii) Ψ est croissante, c'est-à-dire que si fg alors Ψ(f)⊇Ψ(g). Alors il existe une plus petite f∈𝒟 telle que Ψ(f)=f (c'est-à-dire un f tel que Ψ(f)=f et que si f′ vérifie aussi Ψ(f′)=f′ alors ff′). [Précision : on me fait remarquer à juste titre que cet énoncé est en fait totalement creux (cf. la mise à jour ci-dessous).]

(F$) [Exactement le même énoncé que (F) sans supposer (i), donc exactement le même que (P$) avec des fonctions partielles au lieu de parties.] Soient X et Z deux ensembles : on note 𝒟 l'ensemble des fonctions partielles XZ. Soit Ψ:𝒟→𝒟 une application vérifiant la propriété suivante : Ψ est croissante, c'est-à-dire que si fg alors Ψ(f)⊇Ψ(g). Alors il existe une plus petite f∈𝒟 telle que Ψ(f)=f. [Un peu mieux : il existe un plus petit f tel que Ψ(f)⊆f, et ce f vérifie Ψ(f)=f.]

(Nomenclature : j'appelle (P) et (P$) les énoncés sur les Parties, (F) et (F$) ceux sur les Fonctions partielles, et (P$) et (F$) les énoncés qui vous en donnent plus pour votre argent.) J'espère que j'ai écrit ces énoncés de façon à ce qu'il n'y ait pas le moindre doute sur leur signification formelle. L'objet dont chacun de ces énoncés affirme l'existence peut être qualifié de plus petit point fixe de Ψ.

Commentaires : Le sens intuitif de ces résultats est quelque chose comme le suivant : on a une opération Ψ qui, pour prendre l'exemple de l'énoncé (F), prend une fonction f et l'étend en une fonction peut-être définie sur un peu plus de points, et par ailleurs, Ψ possède une propriété de cohérence, à savoir que si on étend f, on étend aussi le résultat de l'opération Ψ(f) ; alors il existe une « clôture du vide » pour l'opération Ψ, c'est-à-dire qu'en partant de rien, l'opération Ψ vous permet d'arriver à une certaine fonction f à partir de laquelle l'opération Ψ ne la fait plus grandir. Pour donner un exemple d'application de (P$), considérer l'ensemble X=ℕ des entiers naturels, et l'opération Ψ qui à un ensemble A de naturels associe l'ensemble formé des entiers 2, 3 et tous les produits de deux éléments de A : le plus petit point fixe sera alors l'ensemble de tous les entiers qu'on peut fabriquer en multipliant 2 et 3 autant qu'on veut ensemble (à savoir l'ensemble des 2i·3j avec au moins un de i et j non-nul, mais peu importe) ; plus généralement, (P) ou (P$) peut servir à montrer l'existence de toutes sortes de « clôtures » sous des opérations variées. Généralement parlant, le concept de plus petit point fixe (ou de point fixe en général) apparaît très souvent en mathématiques, et il existe tout un labyrinthe — mais je crois vraiment que les énoncés que j'ai cités ci-dessus sont parmi les plus naturels.

↑Entry #2355 [older| permalink|newer] / ↑Entrée #2355 [précédente| permalien|suivante] ↑

↓Entry #2353 [older| permalink|newer] / ↓Entrée #2353 [précédente| permalien|suivante] ↓

(samedi)

Petites notes sur la calculabilité, et quelques remarques à ce sujet

Je donnais jeudi matin une très courte[#] introduction à la calculabilité, dans le cadre d'un cours intitulé Théorie des Langages (donc un sujet plutôt connexe que contenant) dont j'enseigne à un groupe ; des circonstances anecdotiques (des feutres manquants[#2] au début de la séance, les élèves qui filent pour aller à un partiel à la fin) ont fait que je n'ai pas pu la finir correctement. J'ai donc envoyé des notes écrites[#3] aux élèves, auxquelles je n'ai pas résisté à la tentation d'ajouter quelques compléments en petits caractères. Comme ces notes (qui sont très basiques et passablement informelles même par rapport à ce que j'ai pu raconter sur le sujet sur ce blog) peuvent peut-être intéresser d'autres gens, je les mets en ligne ici. L'approche choisie consiste à ne pas chercher à définir formellement ce qu'est un algorithme (que ce soit par une machine de Turing ou autrement), vu que de toute façon on ne demandera à personne de programmer une machine de Turing, et pédagogiquement il semble que si on formalise un modèle de calcul, cela paralyse les étudiants au point qu'ils ne comprennent plus la notion d'algorithme alors qu'en entrant ils savaient.

[#] Et je trouve véritablement triste que dans une grande école dont l'informatique est une des spécialités, le seul contact que tous les élèves auront avec des notions aussi fondamentales que le problème de l'arrêt ou la notion de problèmes décidable et semi-décidable, c'est une séance d'une heure et demie dans le cadre d'un cours plutôt consacré à autre chose (et sur laquelle il est donc difficile de les interroger à l'examen).

[#2] Obtenir des feutres qui marchent au début de chaque cours peut être une véritable quête du graal.

[#3] Ils ont aussi un poly de cours (il n'a pas l'air d'être disponible publiquement), mais j'ai suivi une présentation différente dans mon exposé, suivant le principe qu'on comprend parfois mieux quand les choses sont expliquées deux fois de façon différente, et du coup j'ai repris mes notations dans ces notes.

Mais même en racontant des choses très basiques, on peut apprendre des choses ou s'éclaircir les idées. Notamment sur deux points, tous deux plus ou moins liés à l'énumération φ0,φ1,φ2,… des fonctions calculables partielles ℕ⇢ℕ. Il faut comprendre qu'on numéroté les programmes, par exemple par taille puis par ordre lexicographique, et que φe(n1,…,nk) est le résultat de l'exécution du e-ième programme auquel on fournit les arguments n1,…,nk, la valeur étant indéfinie si le programme ne (s'exécute pas correctement ou) ne termine pas. Un point important est qu'il existe un programme universel, c'est-à-dire que la fonction (e,n) ↦ φe(n) est elle-même calculable (informatiquement, cela signifie qu'on peut écrire un « interpréteur », qui prend un programme e et un paramètre n et exécute le programme sur cette entrée ; philosophiquement, cela signifie que le fait d'exécuter un algorithme est lui-même algorithmique). Les deux points qui m'avaient un peu échappés sont les suivants :

✱ Le premier point concerne le théorème s-m-n de Kleene. Si h(m,n)=φe(m,n) est une fonction calculable des deux variables m,n, alors pour chaque valeur de m elle est calculable dans la variable n : ça c'est plus ou moins une évidence ; mais ce qui l'est moins, c'est qu'on peut algorithmiquement fabriquer un indice s(e,m) pour cette fonction, au sens où φs(e,m)(n) = φe(m,n) avec s une fonction calculable — c'est ça que dit le théorème s-m-n. Informatiquement, cela signifie qu'il y a une transformation algorithmique (le s en question) qui prend un programme e prenant deux arguments m et n (ou en fait, deux jeux d'arguments), et une valeur à donner au premier, et qui renvoie un nouveau programme s(e,m) où ces arguments ont été fixés à cette valeur. Dans toute formalisme de calcul précis (que ce soit les machines de Turing, ou un langage de programmation réel), c'est plus ou moins évident — dans un langage de programmation fonctionnel, par exemple, cela signifie curryfier la fonction et appliquer à une constante — et la fonction s sera mieux que calculable (elle sera primitive récursive, et certainement beaucoup mieux que ça, parce que ce n'est pas un problème algorithmiquement difficile de substituer une valeur dans un programme !). Mais comme je n'introduisais pas de modèle de calcul précis, je me suis demandé si ça pouvait se démontrer in abstracto, à partir de la simple existence de l'énumération des fonctions calculables partielles et l'existence d'un programme universel.

La réponse est non, il existe des numérotations des fonctions calculables partielles qui vérifient le théorème d'universalité mais pas le théorème s-m-n. Un contre-exemple est fourni en définissant à partir d'une numérotation standard φe une nouvelle numérotation ψv+1,e(0)=v (et ψv,e(0) non définie), et sinon, ψv,e(n)=φe(n) (dans tout ça, ‹x,y› désigne un codage quelconque des couples d'entiers naturels par des entiers naturels) : autrement dit, dans la numérotation ψ, on précise séparément la valeur en 0 de la fonction (y compris « non définie ») et ses autres valeurs via une numérotation standard. Sur cet exemple, toute fonction calculable partielle apparaît bien dans les ψ, mais on ne peut pas calculer, à partir de d'un indice e d'une fonction calculable partielle h parmi les ψ, un tel indice pour la fonction constante de valeur h(1), car il faudrait pour cela déterminer si h(1) est défini (i.e., termine), donc résoudre le problème de l'arrêt. Donc on ne peut pas faire de substitution dans les ψ de façon algorithmique.

Pour raconter ce contre-exemple dans des termes informatiques, imaginons un langage de programmation permettant de coder des fonctions ℕ⇢ℕ (ou ℕk⇢ℕ, enfin peu importe) et qui est un langage tout à fait banal à une particularité près : la valeur en 0 de la fonction (qu'il s'agisse d'un entier ou du fait de partir en boucle infinie) doit être précisée par une instruction spéciale au début du programme, la seule instruction qui sera lue pour calculer cette valeur en 0, les autres valeurs étant calculées par un programme « normal » (par ailleurs, cette bizarrerie ne s'applique qu'à la fonction main, si j'ose dire, du programme). Interpréter ce langage, ou le compiler vers un autre, ne pose pas de problème particulier, et ce langage permet de représenter toutes les fonctions calculables partielles, ou d'ailleurs d'écrire un interpréteur pour un langage standard (une machine de Turing, disons) ou quelque chose comme ça. Mais il ne vérifie pas le théorème s-m-n, et ceci cause des bizarreries : on ne peut pas, par exemple, compiler un programme vers ce langage sauf à calculer à la compilation la valeur de la fonction en 0, ce qui risque de provoquer une boucle infinie ; et on ne peut pas algorithmiquement remplacer un programme dans ce langage par le programme qui calcule la (fonction constante égale à la) valeur en 1 de cette fonction. Ceci suggère que le terme Turing-complet est défini de façon un peu trop vague : à mon avis, ce qui importe est que l'énumération des fonctions partielles calculées par le langage considéré soit non seulement l'ensemble de toutes les fonctions calculables partielles, mais aussi que la numérotation soit acceptable au sens où on peut de façon calculable convertir une machine de Turing en le langage en question, et on peut montrer que cela revient exactement à vérifier le théorème s-m-n (avec une fonction s calculable).

(Référence pour tout ça : Soare, Recursively Enumerable Sets and Degrees, 1987, chapitre I, exercices 5.9 à 5.11. C'est de là que je tire le contre-exemple au théorème s-m-n.)

✱ Le second point concerne la fonction « castor affairé », qui à n associe le plus long temps d'exécution possible d'une machine de Turing à ≤n états et qui termine effectivement (en partant d'un ruban vide). Il est facile de voir que fonction, appelons-la h, dépasse infiniment souvent n'importe quelle fonction calculable [totale] f, au sens où, quelle que soit f calculable, il existe une infinité de n tels que h(n)≥f(n). (En effet si ce n'est pas le cas pour une certaine fonction f, quitte à modifier un nombre fini de valeurs de celle-ci, on a h(n)≤f(n) pour tout n, et on peut alors résoudre le problème de l'arrêt pour une machine de Turing — partant d'un ruban vide — en attendant f(n) étapes où n est son nombre d'états : si la machine ne s'est pas arrêtée au bout de ce temps-là, elle ne s'arrêtera jamais.) Mais le résultat classique dû à Tibor Radó est plus fort : la fonction h du « castor affairé » finit par dominer n'importe quelle fonction calculable f, au sens où, quelle que soit f calculable, l'inégalité h(n)≥f(n) est toujours vraie à partir d'un certain point, et je n'avais pas vraiment fait attention au fait que ce n'est pas trivial de passer de l'un à l'autre.

La démonstration d'origine de ce résultat (trouvable ici) est d'une part assez peu lisible (j'arrive à la suivre pas à pas, mais l'idée générale m'échappait) et d'autre part très spécifique au cas de la fonction « castor affairé » sur les machines de Turing en comptant leurs états. Par exemple, si on définit la fonction h en appelant h(n) la plus grande des valeurs φe(0) (ou φe(e), peu importe) qui soient définies pour 0≤en (l'argument montrant qu'elle dépasse infiniment souvent toute fonction calculable marche essentiellement pareil), alors est-il encore vrai que h finit par dominer n'importe quelle fonction calculable ? La réponse est oui, comme il résulte d'un échange sur math.stackexchange (je n'ai pas osé aller sur MathOverflow pour cette question), où on a pu m'expliquer beaucoup plus clairement l'argument de Radó, ce qui m'a permis de le généraliser facilement.

(J'en ai profité pour apprendre ce qu'est un degré de Turing hyperimmune, à savoir qu'il calcule une fonction qui dépasse infiniment souvent n'importe quelle fonction calculable, ce qui n'implique pas automatiquement qu'il calcule une fonction qui finit par dominer n'importe quelle fonction calculable.)

✱ Sinon, de fil en aiguille, je suis tombé par accident sur la relation suivante : pour A et B deux ensembles d'entiers naturels, notons AB lorsqu'il existe deux fonctions calculables partielles ℕ⇢ℕ qui se restreignent en des bijections réciproques entre ces deux ensembles. C'est une notion qui me semble extrêmement naturelle, mais qui n'est pas ce qu'on appelle de façon standard un isomorphisme calculable entre les deux ensembles. Mais ce qui me frappe, c'est que je n'ai réussi à en trouver aucune mention dans la littérature. [Mise à jour : il s'agit de la relation d'équivalence calculable (ou équivalence récursive), dont les types ont été, en fait, largement étudiés, notamment ceux qui s'appellent les isols ; voir pour commencer le livre de Dekker et Myhill de 1960, Recursive Equivalence Types, ainsi que le survey par Dekker et Ellentuck, Myhill's work in recursion theory, Ann. Pure Appl. Logic 56 (1992), 43–71, et les références qu'il contient.]

↑Entry #2353 [older| permalink|newer] / ↑Entrée #2353 [précédente| permalien|suivante] ↑

↓Entry #2349 [older| permalink|newer] / ↓Entrée #2349 [précédente| permalien|suivante] ↓

(mercredi)

Quelques clarifications sur l'intuitionnisme et l'ultrafinitisme

En relisant l'entrée précédente que j'ai écrite et un ou deux commentaires qui ont été postés dessus, j'ai peur d'avoir pu laisser imaginer que je considérais les mathématiques intuitionnistes/constructives comme aussi farfelues que l'existence d'un entier strictement compris entre 3 et 4, ou même, qu'un nombre non-négligeable de mathématiciens pourraient le considérer. Ce n'est certainement pas le cas : la seule chose que je compare, c'est la frustration que peut ressentir (superficiellement) un mathématicien classique devant ces mondes étranges (comment ça, il n'est pas toujours vrai que tout nombre réel x vérifie x≥0 ou x≤0 ???). Mais il vaut la peine de se demander pourquoi, au juste, parmi les trois « abandons » suivants,

  • abandonner l'idée que toute affirmation soit vraie ou fausse (le principe du tiers exclu),
  • abandonner l'idée qu'un nombre comme 10↑(10↑100) ait un sens,
  • abandonner l'idée que 4 soit le plus petit entier après 3,

la première donne indiscutablement lieu à des mathématiques sérieuses, la seconde peut-être mais peut-être pas, et la troisième certainement pas.

Ce que veut avant tout le mathématicien, c'est que les règles du jeu soient claires. Même si on ne prend pas la position formaliste extrême qui considère les maths comme un jeu typographique formel consistant à manipuler des successions de symboles dénués de sens selon des règles arbitraires mais relativement simples[#], les mathématiciens seront sans doute unanimes pour dire qu'il est essentiel dans la pratique des mathématiques qu'il existe des règles objectives et inambiguës sur les manipulations autorisées dans l'écriture d'une démonstration, suffisamment claires pour qu'on puisse toujours, avec assez de patience, trancher un différend sur la validité d'une démonstration en détaillant n'importe quel passage incriminé jusqu'à l'application mécanique de ces règles.

Or les mathématiques intuitionnistes/constructives ont des règles claires : ce ne sont pas les mêmes que les mathématiques classiques (plus exactement ce sont un sous-ensemble, ou une restriction, selon la présentation exacte choisie ; mais du coup, on peut ajouter des axiomes supplémentaires pour compenser qui contrediraient les mathématiques classiques), mais au moins — dans leur formulation moderne[#2] — ce sont des règles indiscutablement bien formulées et objectives. Plus exactement, le mathématicien classique peut comprendre les règles des mathématiques intuitionnistes/constructives par plusieurs mécanismes :

  • syntaxiquement : même si les démonstrations intuitionnistes ne sont pas les mêmes que les démonstrations classiques, l'objet « démonstration » (obéissant aux règles intuitionnistes) peut lui-même être considéré comme un objet des mathématiques classiques (que ce soit comme un entier par un codage de Gödel ou comme une flèche dans une catégorie, ou autre chose du genre), étudié et analysé par elles ;
  • sémantiquement : le(s) monde(s) des mathématiques intuitionnistes peuvent se « plonger » dans le monde des mathématiques classiques, c'est-à-dire que toute affirmation des mathématiques intuitionnistes peut se décoder comme une affirmation classique portant sur des objets particuliers (vivant dans un « modèle de Kripke », un topos, une structure de réalisabilité, un univers à valeurs dans une algèbre de Heyting ou quelque chose comme ça).

(Ces deux approches sont elles-mêmes reliées par des théorèmes de validité et de complétude : je ne rentre pas dans les détails.) On peut par ailleurs relier la logique intuitionniste à d'autres logiques alternatives mais classiques et bien comprises (par des procédés comme ci-dessus), par exemple la logique modale S4.

[Ajout ] Je peux au moins donner une idée de ce dont je parle sous la forme suivante. En mathématiques classiques, si on décide d'interpréter les connecteurs logiques PQ, PQ et ¬P comme décrivant l'intersection, la réunion, et le complémentaire de parties P et Q d'un ensemble T fixé, alors certainement on a ¬¬P=P (le complémentaire du complémentaire d'une partie est la partie elle-même, justement parce qu'on travaille en logique classique) et ¬(PQ)=(¬P)∨(¬Q) ; maintenant, changeons un peu le contexte, et considérons T un espace topologique, imaginons que P et Q sont des ouverts de T, que PQ et PQ désignent l'intersection et la réunion de deux ouverts, mais maintenant ¬P désigne l'intérieur du complémentaire de P (=le plus grand ouvert disjoint de P ; et plus généralement, on peut noter PQ pour l'intérieur de la réunion de Q avec le complémentaire de P, c'est-à-dire l'ouvert des points au voisinage desquels P est inclus dans Q) : alors ¬¬P ne coïncide plus forcément avec P, c'est le « régularisé » de P (=l'intérieur de son adhérence), et de même ¬(PQ) ne coïncide plus forcément avec (¬P)∨(¬Q) (alors que ¬(PQ), lui, coïncide toujours avec (¬P)∧(¬Q)) ; en fait, les règles valables en général dans cette interprétation sont précisément celles du calcul propositionnel intuitionniste, et sont une manière dont le mathématicien classique peut les comprendre (sémantiquement) : comme des affirmations sur les ouverts d'un espace topologique (classique).

D'autre part, les mêmes choses sont valables dans l'autre sens, c'est-à-dire que si on peut « expliquer » les mathématiques intuitionnistes aux mathématiciens classiques comme ci-dessus, on peut aussi « expliquer » les mathématiques classiques aux mathématiciens intuitionnistes (par exemple par l'insertion de doubles négations à des endroits stratégiques). Du coup, les mathématiciens classiques et intuitionnistes ne seront peut-être pas d'accord sur l'intérêt ou la signification des énoncés qu'ils démontrent, mais au moins chacun peut-il expliquer son travail aux autres. (Dans la pratique, bien entendu, les « mathématiciens classiques » et à plus forte raison les « mathématiciens intuitionnistes » ne sont que des archétypes idéalisés : tout le monde est capable de faire sa traduction mentale dans un sens ou dans l'autre, quelle que soit sa représentation préférée de l'Univers.)

Pour dire les choses de façon plus concise : les mathématiques classiques et intuitionnistes sont peut-être différentes, mais leur métamathématique est compatible.

Il en va tout autrement de l'idée qu'il existerait un entier strictement entre 3 et 4 : cette idée fictionnelle est présentée sans être accompagnée de règles permettant de travailler avec et de lui donner un sens. Il n'est pas exclu que de telles règles puissent exister (par exemple : en fait, ce qu'on appelle entier ici est un élément de ℕ[√13] = {u+v·√13 : u,v∈ℕ} (approche sémantique), et il faudrait remplacer les axiomes de Peano par une axiomatisation des faits les plus évidents de la théorie du premier ordre de ℕ[√13] (approche syntaxique)), et qui du coup ferait disparaître le mystère de cette idée (à défaut de lui donner un intérêt…). Mais telle quelle, l'idée est dépourvue de sens aux yeux des mathématiciens parce qu'elle est dépourvue de règles précises.

L'idée intermédiaire (l'ultrafinitisme, j'en ai déjà parlé) occupe une position intermédiaire : on peut peut-être donner un sens à l'ultrafinitisme, mais l'idée est radicale en ce sens qu'elle nécessite de changer non seulement les mathématiques mais aussi les métamathématiques. Notamment, pour refuser l'existence du nombre 10↑(10↑100), il faut refuser l'idée qu'une démonstration puisse occuper un tel nombre de symboles — or les métamathématiques classiques l'admettent (certes, on ne va pas l'écrire explicitement, mais les métamathématiques classiques admettent de considérer comme démonstrations valables des objets qui ne pourraient pas être écrits en pratique, au moins si on en a une description raisonnablement (méta)manipulable) ; pire, il faut probablement refuser l'idée qu'une démonstration puisse occuper seulement 10↑100 symboles (parce qu'en environ ce nombre là de symboles, je peux démontrer l'existence de 10↑(10↑100) à quelqu'un qui admet que la multiplication sur les entiers est totale, ce que de nombreux ultrafinitistes admettent, ce qui permet d'écrire des choses comme 10×10×10×⋯×10), et il faut donc probablement refuser l'idée même d'utiliser « librement » l'arithmétique pour faire des métamathématiques. Je ne suis moi-même pas à l'aise avec l'ultrafinitisme (j'ai vraiment du mal à ne pas considérer la position comme simplement ridicule), mais voici ce qu'écrivent Cherubin & Mannucci dans A very short history of ultrafinitism (in : Kennedy & Kossak (eds.), Set Theory, Arithmetic, and Foundations of Mathematics (Cambridge 2011)) :

First, the rejection of infinitary methods, even the ones based on the so-called potential infinite, must be applied at all levels, including that of the meta-mathematics and that of the logical rules. Both syntax and semantics must fit the ultrafinitistic paradigm. Approaches such as Finite Model Theory are simply not radical enough for the task at hand, as they are still grounded in a semantics and syntax that are saturated with infinite concepts.

Second, barring one term in the dichotomy finite-infinite, is, paradoxically, an admission of guilt: the denier implicitly agrees that the dichotomy itself is valid. But is it? Perhaps what is here black and white should be replaced with various shades of grey.

Bref, même si le programme ultrafinitiste peut sembler à quelqu'un comme moi aussi fantaisiste que l'idée qu'il y aurait peut-être un entier à découvrir strictement entre 3 et 4, il faut avoir la modestie d'admettre que peut-être des règles du jeu précises peuvent en être données, fussent-elles des règles qui imposent de réévaluer aussi les métamathématiques : peut-être le programme peut-il être éclairci comme l'intuitionnisme l'a été, et peut-être sera-t-il possible aux mathématiciens « idéalistes » de comprendre précisément les ultrafinitistes (à défaut d'être d'accord avec eux).

[#] Je ne vais pas faire l'exercice ici et maintenant, mais il est parfaitement possible de présenter un ensemble des « règles du jeu » qui soit compréhensible par à peu près n'importe qui (disons, pas plus compliqué que les règles des échecs ou du tarot) et qui, appliquées mécaniquement, permette de démontrer tous les théorèmes des mathématiques « standard » (ZFC) et uniquement ceux-ci. En ce sens, donc, n'importe qui peut faire des maths formelles : la difficulté du travail du mathématicien est de se faire une idée d'où on va dans ce jeu et comment on peut atteindre un but, et communiquer à d'autres le fait qu'on l'a atteint, sans écrire toutes les étapes intermédiaires.

[#2] Dans leur formulation moderne, c'est-à-dire, je crois, depuis les travaux de Gödel, Heyting, Kolmogorov et d'autres. Lorsque Brouwer a initialement introduit ses idées, il n'était probablement pas clair qu'elles pouvaient être rigoureusement formalisées, d'autant qu'il était lui-même profondément hostile à l'idée de formaliser les mathématiques, de les priver de leur aspect créatif/intuitif ou de les réduire à un jeu typographique ; et c'est peut-être pour ça que ces idées ont d'abord suscité une telle hostilité (non seulement elles étaient radicales, mais en outre elles n'étaient sans doute pas bien définies aux yeux de mathématiciens comme Hilbert).

↑Entry #2349 [older| permalink|newer] / ↑Entrée #2349 [précédente| permalien|suivante] ↑

↓Entry #2347 [older| permalink|newer] / ↓Entrée #2347 [précédente| permalien|suivante] ↓

(lundi)

Comment utiliser les points comme parenthèses ?

Dans une expression mathématique comme

(2+2+2)×(3+4)

les parenthèses servent à indiquer quelles sous-expressions doivent être calculées en premier (la convention, en leur absence, étant qu'on évalue les multiplications avant les additions, si bien que 2+2+2×3+4 sans parenthèses se comprend comme 2+2+(2×3)+4). Mais il existe d'autres manières possibles d'indiquer l'ordre des opérations sans utiliser de parenthèses — ou en tout cas pas sous cette forme. Une possibilité consisterait à utiliser la notation préfixe (où le symbole d'une opération binaire précède les deux quantités sur lesquelles elles s'applique, ce qui donne dans ce cas : × + + 2 2 2 + 3 4) ou bien postfixe (où l'opération binaire suit les deux quantités sur lesquelles elle s'applique, donc 2 2 + 2 + 3 4 + × comme on le taperait sur une calculatrice à notation polonaise inversée), mais ces conventions sont extrêmement peu lisibles pour un humain.

Une autre façon de noter les choses, qui me semble assez intéressante ou en tout cas instructive, même si elle n'a jamais vraiment été utilisée en-dehors de la logique, consiste à utiliser les points comme parenthèses, que je veux présenter et discuter un peu. Sur mon exemple, cette notation donnerait :

2+2+2.×.3+4

avec des points autour du symbole de multiplication pour marquer qu'il doit être effectué après les additions. (On va supposer que le point n'est pas utilisé comme séparateur décimal, ou qu'il y a quelque magie typographique qui évite l'ambiguïté : ni ici ni ailleurs dans cette entrée il n'y a de nombres fractionnaires.)

La manière dont on lit une telle expression est la suivante : on commence par la séparer aux endroits où se trouve des points, on évalue tous les morceaux qui ont un sens en tant qu'expression (en l'occurrence, 2+2+2 et 3+4), puis on réattache les morceaux remplacés par leur valeur (ce qui donne 6×7).

Lorsqu'il y a plusieurs niveaux d'imbrications, on utilise des groupes formés d'un nombre de points croissant pour séparer les niveaux : la règle est alors qu'on commence par regrouper les morceaux séparés par un seul point, puis par un groupe de deux, puis de trois, et ainsi de suite. (Ainsi, un groupe d'un plus grand nombre de points correspond à un niveau de parenthésage plus « extérieur ».) Par exemple,

(14/(1+1))×(6+7)×(30−(6+5))

peut se réécrire dans la notation « ponctuée » comme

14/.1+1:×.6+7.×:30−.6+5

et pour l'évaluer, on commence par calculer les morceaux séparés par des points qui ont un sens tout seuls (1+1, 6+7 et 6+5), puis on regroupe les morceaux séparés par de simples points (14/.1+1 soit 14/2, et 30−.6+5 soit 30−11), et enfin on regroupe les morceaux séparés par deux points. Pour plus de symétrie quant au niveau d'opération × dans le facteur central, on peut préférer écrire

14/.1+1:×:6+7:×:30−.6+5

ce qui est peut-être plus lisible, surtout si on reflète le nombre de points dans l'espacement de la formule :

14/.1+1 :×: 6+7 :×: 30−.6+5

On peut bien sûr utiliser des symboles pour les groupes de deux, trois, quatre points et ainsi de suite : si je récupère des symboles Unicode pas vraiment fait pour, l'expression 6−(5−(4−(3−(2−1)))) peut se ponctuer en 6−∷5−∴4−:3−.2−1, mais généralement on se contente de mettre plusieurs caractères ‘.’ ou ‘:’ d'affilée pour représenter un groupe, comme 6−::5−:.4−:3−.2−1 (il faut traiter ces deux écritures comme parfaitement synonymes).

Les points servent donc à la fois de parenthèses ouvrantes et fermantes : il n'y a en fait pas d'ambiguïté car la directionalité est indiquée par la position par rapport aux symboles d'opérations (si je vois 20−.1+1, cela ne peut signifier que 20−(1+1) car (20−)1+1 n'a pas de sens) ; plus exactement, chaque groupe de points doit être adjacent à un symbole d'opération (sauf si on omet la multiplication, cf. ci-dessous), et correspond à une parenthèse soit ouvrante soit fermante selon qu'il est immédiatement après ou avant l'opération. Et la parenthèse court jusqu'au prochain groupe de points (vers la droite ou vers la gauche, selon le cas évoqué) dont le nombre de points est supérieur ou égal à celui considéré, ou à l'extrémité de l'expression (où se sous-entend un nombre infini de points, si on veut ; ainsi, sur mon premier exemple, on écrit 2+2+2.×.3+4 et non .2+2+2.×.3+4.).

Pour ceux qui veulent des règles plus formelles, je propose les suivantes. En écriture, si on a un arbre d'analyse formé d'opérations possiblement associatives, disons x1x2⋆…⋆xk (pour une certaine opération ici notée ⋆, et avec k=2 si l'opération ⋆ n'est pas supposée avoir d'association par défaut), pour la transformer en « expression ponctuée », on écrit de façon récursive chacun des sous-arbres x1,x2,…,xk comme expression ponctuée, et on concatène ces écritures en plaçant à gauche de chaque symbole ⋆ un groupe de points dont le nombre est strictement supérieur au nombre de points de n'importe quel groupe apparaissant dans l'écriture de la sous-expression gauche (si celle-ci est un atome = une feuille de l'arbre, c'est-à-dire un nombre ou une variable, on peut ne mettre aucun point) ; et de même à droite. Il est admissible de mettre plus de points que nécessaire, par exemple si on veut mettre le même nombre à gauche et à droite de chaque ⋆ intervenant à un niveau donné. On peut, bien sûr, avoir des règles supplémentaires lorsqu'on suppose une certaine priorité des opérations (par exemple, (3×2)+1 peut être noté 3×2+1 si on admet que la multiplication est prioritaire sur l'addition ; toutefois, ceci ne s'applique essentiellement qu'au niveau le plus bas : (3×(1+1))+1 devra certainement être noté 3×.1+1:+1, parce qu'on ne gagnerait rien que de la confusion à le noter 3×.1+1.+1). • Inversement, pour décoder une telle expression, on va, pour n allant de 0 au nombre maximum de points dans un groupe, remplacer chaque expression maximale de la forme x1x2⋆…⋆xk avec les xi des sous-arbres déjà constitués (ou des atomes), en ignorant les groupes de ≤n points pouvant intervenir à gauche ou à droite de l'opération ⋆, par un sous-arbre (ou un bloc parenthésé, si on préfère).

Ce système de notations ne recouvre pas tous les cas possibles d'usage des parenthèses. Disons qu'il nécessite plus ou moins qu'il y ait des symboles d'opérations dans l'histoire : si on a affaire à un contexte mathématique dans lequel on donne un sens différent aux notations u(v) et (u)v (ce qui, honnêtement, ressemble à une très mauvaise idée), ou à u et (u) (même remarque), alors on ne peut pas utiliser des points à la place des parenthèses.

Néanmoins, il marche dans des situations un peu plus générales que ce que j'ai présenté ci-dessus. Par exemple, il continue de fonctionner même si on décide de ne pas écrire le symbole × de multiplication : notamment, si dans la version parenthésée, au lieu de (14/(1+1))×(6+7)×(30−(6+5)) je décide d'écrire (14/(1+1))(6+7)(30−(6+5)), alors de même dans la version ponctuée, au lieu de 14/.1+1:×.6+7.×:30−.6+5 j'écris 14/.1+1:6+7:30−.6+5 et il n'y a pas d'ambiguïté dans le fait que quand un groupe de points apparaît directement entre deux atomes (nombres ou variables), il représente une multiplication (et comme 6.7 représente 6×7, de même 2+2+2.3+4 représente (2+2+2)×(3+4) ; tandis que 2+2+(2×3)+4 s'écrira 2+2+:2.3:+4 ou même, un peu audacieusement, 2.+.2.+.2.3.+.4 si on décide que la multiplication est prioritaire sur l'addition). Ceci fonctionne encore même si on suppose que la multiplication omise n'est pas associative : on distingue bien u(vw) de (uv)w comme u.vw et uv.w respectivement.

Par rapport aux règles formelles que j'ai proposées ci-dessus, l'omission du symbole de multiplication se traite ainsi lors de l'écriture : (a) on écrit toujours au moins un point pour la multiplication quand elle est entre deux chiffres, et (b) au lieu de mettre un groupe de points à gauche et à droite du symbole ⋆ (qui doit être omis), on en met un seul, avec un nombre de points commun, supérieur à celui de tout groupe intervenant dans n'importe quelle sous-expression parmi les x1,x2,…,xk (avec cette règle, 2(x+y)(t⋆(u+v)) s'écrit 2:x+y:t⋆.u+v plutôt que 2.x+y:t⋆.u+v si on veut vraiment placer les trois facteurs 2, x+y et t⋆(u+v) au même niveau).

Il n'y a pas non plus de problème avec les opérations unaires, qu'elles soient écrites de façon préfixe ou postfixe. Il y a, cependant, un problème si on a une opération qui peut être aussi bien unaire que binaire et que le symbole de multiplication est omis : c'est le cas avec le signe moins si on veut pouvoir écrire (2/3)(−3) (qui vaudrait −2 par multiplication implicite) et le distinguer de (2/3)−3 (qui vaut −7/3), les deux étant a priori ponctués comme 2/3.−3 ; on peut résoudre ce problème de différentes façons, par exemple en imposant que pour les opérations binaires qui peuvent aussi être unaires, le nombre de points à gauche et à droite soit égal quand elles fonctionnent comme opérations binaires (donc (2/3)−3 se ponctuerait comme 2/3.−.3, qui se lit sans ambiguïté), et/ou que le signe de multiplication ne peut pas être omis devant une opération unaire (donc (2/3)(−3) devrait s'écrire 2/3.×.−3).

Il me semble par ailleurs qu'il n'y a pas de problème particulier avec une opération ternaire (par exemple si je décide que t?u!v signifie si t=0 alors v et sinon u — je change légèrement la notation du C parce que les deux points sont pris par le sujet de cette entrée — alors il n'y a pas de problème à écrire de façon ponctuée des expressions contenant cette expression imbriquée en elle-même de façon arbitraire). Ceci étant, je n'ai pas forcément pensé à toutes les bizarreries des notations mathématiques, peut-être qu'il y a des cas où le système de points ne fonctionnera pas alors que les parenthèses fonctionnent (outre ceux que j'ai déjà mentionnés).

Il faut que j'en profite pour signaler qu'il y a toutes sortes de petites variations possibles dans le système, j'en ai déjà implicitement signalé quelques unes. Je mentionne notamment la suivante, qui est plus économique dans le nombre de points utilisés, au détriment de la lisibilité de l'ensemble, et qui me semble plutôt une mauvaise idée. Plus haut j'ai signalé que 6−(5−(4−(3−(2−1)))) s'écrit 6−::5−:.4−:3−.2−1 (et c'est ce qui résulte des règles formelles que j'ai proposées), mais on peut aussi imaginer l'écrire simplement come 6−.5−.4−.3−.2−1 ce qui est après tout inambigu vu que chaque ‘.’ suivant immédiatement un symbole d'opération doit représenter une parenthèse ouvrante. (La modification des règles formelles que j'ai proposées doit être quelque chose comme ceci. En écriture, on place à gauche de chaque symbole ⋆ un groupe de points dont le nombre est immédiatement strictement supérieur au plus grand nombre de points de n'importe quel groupe qui apparaît, dans l'écriture de la sous-expression gauche, immédiatement à droite d'un symbole d'opération — ou comme symbole de multiplication omis — en ignorant donc les groupes de points qui apparaissent immédiatement à gauche d'un symbole d'opération ; et symétriquement pour la droite. Et en lecture, pour chaque niveau n de points, on doit grosso modo répéter tant que possible la recherche d'une expression x1x2⋆…⋆xk avec les xi des sous-arbres déjà constitués, la remplacer par un sous-arbre, et retirer les éventuels groupes de n points — mais pas plus — qui seraient adjacents à l'expression.)

Comme je l'ai dit plus haut, je crois que les points comme parenthèses n'ont été véritablement employés que dans des textes de logique (et uniquement entre les connecteurs logiques, pas dans les expressions arithmétiques comme sur les exemples que j'ai pris), même s'il n'y a pas de raison de la lier à ce contexte précis. Je ne sais pas exactement qui a inventé cette notation : peut-être Peano dans ses Arithmetices principia: nova methodo ; mais je sais surtout qu'elle est utilisée dans les Principia Mathematica de Russell et Whitehead dont elle contribue à la réputation d'illisibilité même si je crois que c'est loin d'être ce qui les rend le plus difficile (on pourra jeter un coup d'œil à la page des Principia que j'ai déjà évoquée sur ce blog, et utiliser cette page pour quelques indications sur comment décoder tout ça). J'ai d'ailleurs l'impression que les philosophes qui s'intéressent à la logique mathématique ont, plus que les logiciens vraiment matheux, tendance à utiliser des notations vieillotes (il y a peut-être une raison sociologique à creuser), et en particulier ces points-comme-parenthèses. Il y a aussi l'épouvantable symbole ‘⊃’ utilisé à la place de ‘⇒’ pour l'implication, que la grande majorité des matheux ont abandonné il y a belle lurette, et que des philosophes s'obstinent, Apollon sait pourquoi, à utiliser.

Mais l'autre question à se poser, bien sûr, c'est : ce système de notation avec des points à la place des parenthèses a-t-il des avantages ? Je sais qu'a priori il semble plus compliqué que les parenthèses. Peut-être l'est-il intrinsèquement, mais je crois que c'est essentiellement une question d'habitude (c'est difficile d'être sûr vu que je n'en ai moi-même guère la pratique). Je vois trois principaux arguments qu'on peut avancer pour défendre le système de points : (1) il est légèrement plus compact (quand on discute une opération non associative, il est plus léger d'écrire uv.w que (uv)w, par exemple), (2) on repère plus rapidement le niveau d'imbrication des choses (qui n'a jamais peiné, dans une expression parenthésée, à retrouver où chaque parenthèse se ferme ?), et (3) il est, finalement, relativement analogue à la ponctuation d'un texte en langage naturel (où, grossièrement parlant, on regroupe d'abord les mots non séparés par une ponctuation, puis les groupes séparés par des virgules, puis ceux séparés par des points-virgules, et enfin ceux séparés par des points), rendu plus logique. Le principal inconvénient que je lui vois, c'est que si on veut remplacer, dans une expression, une valeur par une autre expression, on va possiblement devoir incrémenter le nombre de points partout dans l'expression, alors que les parenthèses assurent que tout se passe forcément bien.

Bien entendu, je ne propose pas de changer une notation mathématique bien établie (les parenthèses sont quand même pratiques, finalement), mais il peut être intéressant de se rappeler qu'il y a, ou qu'il y avait a priori, d'autres notations possibles et pas forcément idiotes. Se le rappeler peut aider à mieux comprendre l'analyse syntaxique, à la fois des expressions mathématiques et des phrases ponctuées en langage naturel (cf. mon point (3) ci-dessus) ; et cela peut aussi suggérer comment faciliter la lecture d'une expression mathématique par des enrichissements typographiques (typiquement : mettre à chaque endroit possible un espacement proportionnel au nombre de points qu'on aurait dans la notation avec les points comme parenthèses).

↑Entry #2347 [older| permalink|newer] / ↑Entrée #2347 [précédente| permalien|suivante] ↑

↓Entry #2345 [older| permalink|newer] / ↓Entrée #2345 [précédente| permalien|suivante] ↓

(mardi)

Deux remarques sur l'intuition du théorème de Gödel

C'est un théorème bien connu, et que j'ai expliqué il y a quelques années dans cette longue entrée, que ZFC (:= le système d'axiomes standard de la théorie des ensembles), s'il est consistant, ne peut pas démontrer que ZFC est consistant. C'est là le « second » théorème d'incomplétude de Gödel dans le cas particulier de ZFC. De même, PA (:= l'arithmétique de Peano du premier ordre) ne peut pas démontrer que PA est consistant. (Dans les deux cas, l'affirmation que le système est consistant signifie qu'il n'existe pas de suite finie de symboles partant des axiomes et suivant les règles de la logique pour arriver à la conclusion absurde 0=1 : et on a le droit de parler de suites finies de symboles parce qu'elles peuvent se remplacer par des entiers grâce à ce qu'on appelle le codage de Gödel. Je ne rentre pas dans les détails puisque j'ai déjà expliqué ça et qu'il y a déjà quantité de bonne vulgarisation sur le sujet.)

Du coup, on peut être tenté d'ajouter à ZFC un nouvel axiome Consis(ZFC), qui affirme ZFC est consistant, formant un nouveau système ZFC₁ ; puis, comme le théorème de Gödel s'applique aussi à lui, on peut encore ajouter un nouvel axiome Consis(ZFC₁) qui affirme que celui-là est consistant, formant un nouveau système ZFC₂ ; « et ainsi de suite ». (En réalité, il y a beaucoup de subtilités ici dans le ainsi de suite, et de toute façon ce n'est pas une bonne façon d'enrichir ZFC, ces axiomes étant à la fois beaucoup moins forts, moins maniables et moins intéressants, que les axiomes de grands cardinaux par lesquels on l'étend usuellement. S'agissant de PA, on peut aussi faire cette construction, en gardant à l'esprit que PA, PA₁, PA₂, etc., et leurs consistance, sont de toute façon des conséquences (théorèmes) de ZFC.)

Ce point est bien connu, donc, et peut-être même trop connu, à tel point qu'on fait dire à ce théorème de Gödel un peu n'importe quoi. Les deux faits suivants, en revanche, sont bien moins connus, et mériteraient pourtant de l'être autant, parce qu'ils invitent à reconsidérer la manière dont on interprète (au moins sur le plan intuitif ou philosophique) ce théorème d'incomplétude. J'ai mentionné ces faits en passant lors de l'entrée passée vers laquelle je viens de faire un lien, mais je pense que je n'ai pas assez attiré l'attention dessus, ce qui est dommage.

(Les deux points suivants sont indépendants l'un de l'autre.)

✱ Le premier fait, c'est qu'on peut tout à fait fabriquer une théorie ZFC† dont les axiomes sont ceux de ZFC plus un axiome supplémentaire qui dit ZFC† est consistant. Oui, c'est circulaire (la théorie affirme sa propre consistance), mais ce n'est pas très difficile d'arriver à formaliser ça en utilisant les astuces de points fixes habituelles. Et de même, on peut former PA† dont les axiomes sont ceux de PA (Peano) plus un axiome supplémentaire qui dit que PA† est consistant. Il s'agit d'une façon assez naturelle d'essayer de contourner le théorème d'incomplétude (au moins quand on a mal compris celui-ci), en se disant puisque je ne peux pas démontrer que mon système formel est consistant, je vais l'ajouter comme axiome (et affirmer directement que l'ensemble est consistant plutôt qu'ajouter un axiome qui dit que la théorie de départ est consistante, puis un autre qui dit que cette nouvelle théorie est encore consistante, et encore un autre qui dit que celle-ci est consistante « et ainsi de suite »).

Bref, on peut fabriquer cette théorie ZFC† ou PA†, mais le problème c'est elle est inconsistante (elle démontre 0=1). Parce que le théorème de Gödel s'applique à elle aussi, et comme il affirme que si la théorie est consistante elle ne peut pas démontrer sa consistance, et qu'elle démontre effectivement sa consistance (puisque c'est un axiome, et qu'un axiome compte bien comme une démonstration), du coup, elle n'est pas consistante.

Alors voilà, ce n'est pas bien passionnant, certes : j'ai construit une théorie et j'ai expliqué qu'elle ne marchait pas — mais je pense que c'est quand même instructif, au moins sur le plan de l'intuition. Quand on présente le théorème d'incomplétude de Gödel, que ce soit au grand public, à des mathématiciens non-spécialistes, ou à des débutants en logique, l'idée qui en résulte typiquement — et je ne prétends pas qu'elle soit fausse — est qu'un système formel consistant T (récursivement axiomatisable, et contenant un fragment suffisant de l'arithmétique) n'est jamais assez « puissant » pour démontrer sa propre consistance, mais que (a) il s'agit d'une notion un peu constructive de démonstration, et (b) la raison pour laquelle on est conduit à ajouter des axiomes qui disent T est consistant et cette théorie-là est consistance et cette théorie- est consistante, « et ainsi de suite », est qu'on ne peut jamais tout faire d'un coup. Or l'exemple de la construction que je viens de donner montre qu'il faut se méfier de cette intuition : (b) on peut tout à fait écrire une théorie qui affirme sa propre consistance, et (a) cette théorie est forcément inconsistante parce que le théorème de Gödel interdit à une théorie consistante (récursivement axiomatisable, et contenant un fragment suffisant de l'arithmétique) non seulement démontre sa propre consistance, mais même simplement qu'il l'affirme (un axiome compte bien comme une démonstration). Je vais citer la présentation de Torkel Franzén (Inexhaustibility, 2004, chap. 12) parce que je trouve qu'il est particulièrement clair :

It is often emphasized that the resources of a theory T do not themselves suffice to enable a proof of the consistency of T. Again it is only by “going outside the system” than one can prove that T is consistent.

A weakness of this emphasis is that it doesn't take into account that the relevant concept of proof is a very liberal one. The consistency of T is provable in the theory T+Consis(T). This is not because any new fundamental principle has been introduced or because the theory T+Consis(T) incorporates any new insight that goes beyond those expressed in T, but simply because the consistency of T has been postulated. We don't require any more of a proof, as the term is used in logic. Accordingly, the second incompleteness theorem makes a stronger statement than one might naturally suppose. The consistency of T not only cannot be derived from the basic principles embodied in T, it cannot even be consistently asserted in T. A theory cannot consistently postulate its own consistency. By the diagonal lemma, we can produce a formula φ formalizing This sentence is consistent with T, but since T+φ then proves its own consistency, we know that in fact it is inconsistent.

Why is it impossible for T to consistently postulate Consis(T)? Because a paradox results from such a postulate, or so Gödel's proof of the second theorem suggests. If T asserts its own consistency, it must both assert and deny the provability of the sentence formalizing This sentence is not provable in T. It's not just a matter of T lacking the resources to establish a particular truth (that T is consistent) but of it being impossible to consistently sneak in this truth as an assertion or postulate in the theory itself. Saying that one must go outside the system to prove the consistency of T conveys the suggestion that T metaphorically speaking has a kind of “blind spot”, that it cannot reflect on or understand or inspect itself sufficiently to establish its own consistency—and indeed in extrapolations from the incompleteness theorem to other fields (religion, physics, psychology) this suggestion is frequently made explicit. The fact that T cannot even consistently assert its own consistency, without attempting any inspection or justification whatever, would seem to indicate that this suggestion is a bit of a red herring.

Je trouve que cela illustre très bien la manière dont on a tendance à mal se représenter le théorème d'incomplétude comme traduisant un problème profond de « manque de force » — alors qu'il s'agit de quelque chose d'à la fois plus trivial et plus profond. (Bien sûr, tout ceci est juste une question d'interprétation intuitive : il n'y a aucune difficulté ou subtilité mathématique dans tout ce que j'ai écrit.)

Mais si ce point est un peu trivial et en quelque sorte négatif, le suivant est beaucoup plus intéressant mathématiquement, et il est plutôt positif. Par ailleurs, il concerne spécifiquement ZFC et PA (pas que ce soient les seules théories auxquelles il s'applique, mais il ne s'applique pas à « à peu près n'importe quoi » comme le point que je viens de faire).

✱ J'en viens donc au second fait que je voulais signaler. Il faut d'abord que je rappelle que ZFC et PA ont un nombre infini d'axiomes : ils comportent en effet des schémas d'axiomes (le principe de récurrence dans le cas de PA, et pour ce qui est de ZFC, les schémas de séparation (=compréhension, =sélection) et ceux de remplacement). Ces axiomes veulent affirmer certains faits pour toute propriété P (des entiers naturels dans le cas de PA, ou des ensembles dans le cas de ZFC) : comme la logique du premier ordre ne permet pas de quantifier sur les propriétés, on s'en tire en postulant tous les énoncés dans lesquels P est remplacé par n'importe quelle formule explicitement écrite dans le langage où on se place — ce qui fait donc une infinité d'axiomes.

(Digression : Il y a d'autres façons de faire, consistant plus ou moins à faire de la logique du second ordre, et qui permettent de ramener cette infinité d'axiomes à un nombre fini au prix d'une complication de la logique, et parfois un renforcement du système : ce sont par exemple la théorie des ensembles de Gödel-Bernays, essentiellement aussi forte que ZFC, ou celle, strictement plus forte, de Morse-Kelley, les deux permettant de parler de classes, ce qui revient à permettre de quantifier sur les propriétés, et, s'agissant de l'arithmétique, le système ACA qui est exactement parallèle de Gödel-Bernays et l'arithmétique du second ordre Z₂=PA² qui est exactement parallèle de Morse-Kelley. Mais je vais m'abstenir de plus parler de toutes ces théories, d'autant que ça devient vite technique quand il s'agit de distinguer la vraie logique du second ordre de la logique du second ordre « réifiée » au premier ordre au sens où on a une logique du premier ordre à deux types d'objets qui fait semblant d'être une logique du second ordre en décrétant que l'un de ces types est le type des « classes » ou « propriétés » de l'autre type, ce qui revient finalement au même sauf que la notion de modèle et toute la sémantique qui va avec est différente.)

Un point qui me semble très important, et qui est rarement suffisamment souligné dans les cours élémentaires de logique, est le suivant :

Chacun de ZFC et de PA prouve la consistance de tous ses sous-ensembles finis d'axiomes.

Autrement dit, ZFC ne prouve pas la consistance de ZFC (c'est ce par quoi j'ai commencé : le second théorème d'incomplétude), mais ZFC prouve la consistance de n'importe quel ensemble fini d'axiomes de ZFC. Et la même chose vaut pour PA. On dit que ce sont des théories réflexives. En fait, il y a mieux : n'importe quelle extension de l'une ou l'autre de ces théories, écrite dans le même langage, est elle-même réflexive (on dit que ZFC et PA sont essentiellement réflexives : dans le cas de PA, c'est un théorème de 1952 dû à Andrzej Mostowski, et dans le cas de ZFC, je crois que le résultat est dû à Richard Montague et/ou Azriel Lévy vers 1960).

Une des conséquences de ce théorème est que ni ZFC ni PA, s'ils sont consistants, ne peut pas être axiomatisé par un nombre fini d'axiomes (si un ensemble fini T₀ de théorèmes de ZFC, ou du coup, d'axiomes de ZFC, suffisait à impliquer tous les axiomes de ZFC, alors ZFC prouverait la consistance de T₀, donc T₀ prouverait la consistance de T₀, et en prenant T₀ assez fort pour faire de l'arithmétique basique — je ne rentre pas dans les détails — ceci contredit le théorème de Gödel appliqué à la théorie T₀ ; et exactement le même raisonnement vaut pour PA). Mieux : comme ZFC et PA sont essentiellement réflexifs, aucune théorie consistante contenant ZFC ou PA et écrite dans le même langage ne peut être axiomatisée par un nombre fini d'axiomes. Mais ce n'est pas vraiment de ça que je veux parler.

Le résultat ci-dessus doit surprendre, parce qu'il paraît contredire le théorème de Gödel. L'argument serait le suivant : s'il y avait une contradiction dans ZFC, la démonstration de cette contradiction n'utiliserait qu'un nombre fini d'axiomes de ZFC (si on veut, c'est le théorème de compacité syntaxique, mais c'est une trivialité : une démonstration, étant de longueur finie, ne peut faire appel qu'à un nombre fini d'axiomes !) ; mais d'après ce que j'ai dit, ZFC prouve que ceci ne peut pas se produire (tout ensemble fini d'axiomes de ZFC est consistant) — du coup, ZFC est consistant, et on semble avoir prouvé ce fait dans ZFC ! Quelle est l'arnaque ?

L'arnaque est que le théorème de réflexivité ci-dessus est un métathéorème ; plus exactement, donné un ensemble T₀ quelconque d'axiomes de ZFC, on a une recette tout à fait explicite qui fabrique une démonstration à partir des axiomes de ZFC dont la conclusion est T₀ est consistant, et c'est un théorème (de ZFC, PA ou de systèmes encore plus faibles) que cette recette marche, i.e., l'énoncé encadré ci-dessus est bien un théorème. Mais, s'il est vrai que pour tout T₀ fini ⊆ZFC, T₀ est consistant est un théorème de ZFC, et que ceci est aussi un théorème de ZFC ou PA (i.e., pour tout T₀ fini ⊆ZFC, T₀ est consistant est un théorème de ZFC), en revanche, l'affirmation pour tout T₀ fini ⊆ZFC, T₀ est consistant, elle, n'est pas un théorème de ZFC (si ce dernier est consistant), car elle implique la consistance de ZFC d'après le raisonnement que j'ai fait au paragraphe ci-dessus.

Je répète : pour tout ensemble fini T₀ d'axiomes de ZFC, on sait fabriquer une démonstration dans ZFC que cet ensemble T₀ est consistant, et on sait montrer dans ZFC (ou PA ou moins) que ce procédé marche bien, mais on ne peut pas en conclure dans ZFC que tout ensemble fini T₀ d'axiomes de ZFC est consistant. On peut résumer cette situation ainsi : il est vrai que pour tout ensemble fini T₀ d'axiomes de ZFC, ZFC démontre la consistance de T₀, mais il ne le fait pas uniformément en T₀. C'est un cas du phénomène appelé la ω-incomplétude : pour tout n on démontre P(n) selon une recette générale et explicite, mais on ne peut pas démontrer ∀n.P(n) (ici, s'imaginer que n est un codage de T₀ et P(n) est l'affirmation que ce T₀ est consistant).

Absolument tout ceci vaut en remplaçant ZFC par PA partout (i.e., pour tout sous-système fini T₀ de PA, PA démontre que T₀ est consistant, mais ne le fait pas de façon uniforme). Ce fait est, d'ailleurs, étonnamment difficile à trouver écrit dans des bouquins de logique arithmétique.

Pour autant, pour tout usage philosophique ou épistémologique, je suis tenté de dire que ce qui précède (je veux dire, le résultat encadré ci-dessus) est exactement aussi bien qu'une démonstration de la consistance de ZFC dans ZFC, resp. de PA dans PA. Je ne sais pas au juste ce qu'on espérerait accomplir à avoir une démonstration de la consistance de ZFC dans ZFC ou de celle de PA dans PA (le projet de Hilbert était plutôt d'avoir une démonstration de la consistance d'un système fort dans un système faible, donc disons quelque chose comme celle de ZFC dans PA, or ça c'est vraiment hors de question). Mais je suppose que l'idée serait quelque chose comme je suis prêt à admettre comme mathématiquement vrais et certains les résultats — au moins arithmétiques — dont j'ai une démonstration dans ZFC, et je me sentirais plus rassuré si j'étais certain qu'il n'y a pas de démonstration de résultats absurdes dans ZFC, ce qui n'est pas si idiot que ça même si c'est circulaire (admettre que ZFC est vrai — ne serait-ce qu'arithmétiquement — est beaucoup plus fort qu'admettre qu'il est consistant, donc à partir du moment où on l'admet comme vrai, l'étape épistémologique à l'admettre comme consistant devrait être gratuite). Le principe de réflexion que j'ai encadré ci-dessus rend la réticence à admettre que ZFC est consistant encore plus bizarre dans ce contexte : si je suis prêt à admettre la consistance de tous ses sous-systèmes finis, je devrais bien admettre la consistance de la théorie tout entière ; plus exactement, si on me fournit un modèle simple permettant de construire, pour tout ensemble fini T₀ d'axiomes de ZFC, une preuve du fait que T₀ est consistant (et en outre, une méta-preuve du fait, d'ailleurs plus ou moins évident, que ce procédé fonctionne bien), il serait extrêmement bizarre de ne pas en admettre la conclusion, à savoir que tout ensemble fini T₀ d'axiomes de ZFC est consistant.

↑Entry #2345 [older| permalink|newer] / ↑Entrée #2345 [précédente| permalien|suivante] ↑

↓Entry #2337 [older| permalink|newer] / ↓Entrée #2337 [précédente| permalien|suivante] ↓

(lundi)

Qu'est-ce qu'une machine hyperarithmétique ?

Voici un concept mathématique (voire, informatique ?) dont je suis tout étonné de découvrir que je ne l'ai jamais encore proprement défini sur ce blog, alors même que ça aurait été logique et pertinent de le faire dans différentes entrées que j'ai déjà écrites. (Par exemple, j'y fais explicitement référence dans cette entrée, et il aurait été logique d'en parler dans celle-ci ; et au sujet de cette entrée récente, je pourrais dire qu'il s'agit exactement de la puissance de calcul du niveau ωCK de la « Théorie de la Totalité Transfinie de Turing ».) Je voudrais donc réparer ce manque, d'autant plus que je trouve que le sujet devrait être standard, et connu, notamment, de tous les informaticiens théoriciens vaguement préoccupés de calculabilité ou de complexité (or je suis sûr que ce n'est pas le cas[#]) : une machine hyperarithmétique est un type d'ordinateur théorique strictement plus puissant que les machines de Turing, et il me semble qu'avoir en tête à la fois la notion de fonctions hyperarithmétiques (plus générales que les fonctions calculables au sens de Church-Turing, donc) et la notion de fonctions primitives récursives (plus restreintes) aide à mieux comprendre les contours de la calculabilité (y compris si on ne s'intéresse, in fine, qu'aux machines de Turing). Il me semble par ailleurs qu'il s'agit d'une notion relativement intuitive (je vais donc essayer de la présenter comme telle), qu'il est donc dommage de laisser cachée dans des textes de calculabilité supérieure un peu oubliés et au formalisme souvent obscur.

Je commence par rappeler[#2] ce que c'est que la calculabilité au sens habituel, i.e., de Church-Turing : les lecteurs pour lesquels ce concept est familier peuvent sauter jusqu'au symbole ♠ plus bas.

En bref, [une fonction] calculable (sous-entendu : au sens de Church-Turing) signifie [une fonction] qui pourrait être calculé(e), en principe, par un algorithme tournant sur un ordinateur — sachant que cet ordinateur n'a aucune limite sur la quantité de mémoire qu'il peut utiliser, ni sur le temps qu'il peut prendre, à part que le temps doit être fini (et la mémoire, du coup, automatiquement aussi).

Pour donner une définition plus précise, il y a plein de possibilités : la première qui ait été introduite historiquement, vers 1930, est le lambda-calcul de Church, mais même si elle est utile pour modéliser les langages de programmation fonctionnels, elle n'est pas très parlante intuitivement ; la seconde définition est venue par les fonctions générales récursives (je n'ai pas réussi à comprendre exactement quelle en était l'histoire, mais elles doivent être associées à un ensemble intersectant les noms suivants : Herbrand, Gödel, et Kleene) ; mais la définition de la calculabilité qui a vraiment achevé de convaincre le monde des mathématiciens qu'il s'agissait de la bonne notion est venue en 1936 quand Turing a défini la machine qui porte maintenant son nom. Quantité d'autres définitions ont été données depuis (par exemple avec des machines à registres). J'en donnerai moi-même une (illisible) ci-dessous comme produit dérivé d'une définition rigoureuse du sujet principal de cette entrée (pour les fonctions calculables, retirer la clause (vii) qui me sert à définir les fonctions hyperarithmétiques). Le point important est que toutes ces définitions sont équivalentes au sens où elles conduisent à la même classe de fonctions « calculables » : la fameuse thèse de Church-Turing affirme que n'importe quelle tentative pour définir la notion de « fonction calculable par un algorithme » aboutira, in fine, à cette même classe des fonctions calculables (au sens de Church-Turing, donc), étant bien entendu que l'« algorithme » doit manipuler à tout instant des données finies, et terminer en temps fini (et, par ailleurs, ne peut pas faire appel au hasard, ou en tout cas le résultat final ne doit pas en dépendre).

↑Entry #2337 [older| permalink|newer] / ↑Entrée #2337 [précédente| permalien|suivante] ↑

↓Entry #2335 [older| permalink|newer] / ↓Entrée #2335 [précédente| permalien|suivante] ↓

(lundi)

Comment écrire les nombres en base 5×6

Nous écrivons les nombres en base 10 (c'est-à-dire que pour compter des billes, nous faisons des tas de 10, puis des tas de 10 de ces tas, puis des tas de 10 de ceux-là, etc., et nous indiquons par un chiffre le nombre de chaque type de tas) : heureusement, de la Chine à la Patagonie, tout le monde est d'accord là-dessus, y compris les pays reculés qui continuent à diviser leurs unités de longueur en 1760 et leurs unités de poids en 16. On voit parfois avancée çà ou là l'idée qu'on ferait mieux de compter en une autre base (typiquement 12). Le choix de 10 n'est peut-être pas idéal, mais l'intérêt d'avoir un standard commun à tout le monde est infiniment supérieur à l'avantage d'avoir telle ou telle autre base peut-être préférable dans l'absolu : même si nous utilisions une base franchement merdique, comme 11, il vaudrait mieux rester sur un standard merdique mais commun que de chercher à créer de la confusion en en changeant (c'est d'ailleurs pour le même genre de raison que je ne pense pas qu'il soit une bonne idée d'essayer de changer d'autres choses qui ont été adoptées universellement, comme le calendrier grégorien et ses bizarreries bêtement baroques). Tout ça pour dire que je ne propose certainement pas une seule seconde de changer de système d'écriture des nombres (même si j'avais le pouvoir de motiver des gens à initier un tel changement, je ne voudrais en aucun cas m'en servir). J'espère que j'ai bien enfoncé la porte ouverte, et que je peux maintenant aborder la question purement théorique de ce que pourrait être une bonne base si on devait repartir de zéro.

L'intérêt d'avoir une base b divisible par des petits nombres (premiers) est principalement que les fractions simples vont pouvoir s'écrire en base b de façon simple : le fait que 10=2×5 fait que les rationnels 1/2 et 1/5 s'écrivent respectivement 0.5 et 0.2 en cette base, tandis que le fait que 3 ne divise aucune puissance de 10 est responsable du fait que 1/3 s'écrit 0.333333…, ce qui est un peu agaçant dès qu'on veut manipuler des tiers (notamment à cause des arrondis : si on arrondi 1/3 à 0.333, alors dès qu'on en met trois, on tombe sur 0.999 et il y a un millième qui est tombé à l'eau). L'argument en faveur de la base b=12 est que comme il est divisible par 2, 3 et 4, il simplifie l'écriture des fractions de petit dénominateur (1/2 s'y écrit 0.6, 1/3 s'y écrit 0.4, et 1/4 s'y écrit 0.3), mais évidemment, on perd le 1/5, qui devient 0.24972497…, ce qui n'est pas franchement plaisant. • L'intérêt d'avoir une base b petite est, quant à lui, que les tables d'addition et de multiplication sont d'autant plus courtes à apprendre : la base 2 est bien sûr particulièrement simple de ce point de vue-là, et il est naturel qu'on s'en serve dans circuits électroniques (je veux dire : outre le fait qu'il est naturel de représenter 0 et 1 par l'absence et la présence d'un signal, l'addition et la multiplication se calculent de façon particulièrement simple), même si elle est peu appropriée au calcul humain à cause de la longueur de la représentation des nombres.

D'un autre côté, les choix sont apparemment limités : si la base est trop petite, les nombres sont trop longs à écrire, si elle est trop grande, les tables d'opération sont trop complexes à mémoriser, et si on cherche à avoir autant de divisibilités que possible, il semble que 6 ou 12 soient peut-être les choix les plus sensés, et en tout cas 10 n'est pas du tout mauvais.

(À ce propos, j'espère enfoncer de nouveau des portes grandes ouvertes, mais quand j'écris par exemple la base 12, il va de soi que ce 12 est lui-même écrit de la manière dont nous écrivons habituellement les nombres, c'est-à-dire dans la base dont la valeur est [le nombre de ‘I’ dans ce qui suit] IIIIIIIIII. C'est complètement idiot, mais si on n'éclaircit pas ce point, certains sont capables de s'imaginer que le nombre 10 est magique.)

La discussion ci-dessus, cependant, néglige le fait qu'il y a toutes sortes de variations possibles sur l'écriture en base b, qui peuvent être utiles dans différents sens, ou qui pourraient arriver pour des raisons essentiellement historiques. Les mayas, et les aztèques à leur suite, par exemple, pour autant que je comprenne, écrivaient les nombres en base 20, sauf que le chiffre des vingtaines était exceptionnel et n'allait que jusqu'à 18 : i.e., ils faisaient des paquets de 20 unités, puis des paquets de 18 paquets, puis des paquets de 20 de ces paquets, et de même de 20 à tous les niveaux suivants ; ceci fournissait une correspondance avec leur calendrier de 18 mois de 20 jours. Par ailleurs, même l'écriture des chiffres de 0 à 19 était plus ou moins faite en base 5 (ils utilisaient un bâton pour le nombre 5, un point pour le nombre 1, et donc par exemple trois bâtons et deux points pour le chiffre 17 — je dis bien chiffre, parce que 17 était un chiffre de leur écriture en base à-peu-près-20 ; le zéro était noté spécialement, pour ne pas laisser un vide disgracieux dans l'écriture).

Pour donner un exemple d'écriture qui n'est pas tout à fait une base b entière mais qui s'y rapproche beaucoup, on peut écrire les entiers en « base Fibonacci » : cette représentation n'utilise que les chiffres 0 et 1 et interdit à deux ‘1’ d'être consécutifs, la valeur des positions étant donnée par les termes de la suite de Fibonacci ((1,)1,2,3,5,8,13,21… chacun étant la somme des deux précédents). Ainsi, comme 17=13+3+1, le nombre 17 s'écrira 100101 : et les premiers entiers s'écrivent 0, 1, 10, 100, 101, 1000, 1001, 1010, 10000, 10001, 10010, 10100, 10101, 100000, etc. Ce mécanisme d'écriture (dont il existe d'ailleurs un certain nombre de variations) peut avoir un intérêt dans certaines circonstances, et il est possible d'y mener des calculs, mais évidemment, il est encore plus encombrant que la base 2 (et l'écriture fractionnaire n'est pas du tout claire). Je l'évoque surtout pour montrer qu'il n'y a pas que les écritures en base b qui peuvent avoir un sens ou un intérêt. (D'ailleurs, mon voisin de bureau est spécialiste de ce genre de questions.)

⁂ Bon, alors, si je devais absolument choisir un système d'écriture des nombres de novo, qui soit relativement aisément manipulable à la main si on oublie l'héritage de la base 10, je crois que je choisirais la base 30 écrite sous la forme 5×6, c'est-à-dire une base alternée 5 et 6.

Autrement dit, l'idée est de faire des paquets de 6, puis de faire des paquets de 5 de ces paquets, puis des paquets de 6 de ces paquets-là, puis des paquets de 5 de ceux-là, et ainsi de suite en alternant 6 et 5 : comme les paquets de paquets sont toujours de 30, on peut dire qu'on travaille en base 30, mais on le fait en n'utilisant que des paquets de 6 ou 5, ce qui garde des chiffres petits et manipulables, et des tables d'opérations facilement mémorisables.

Concrètement, on utiliserait deux séries de chiffres, disons 0,1,2,3,4,5 pour les chiffres en base 6, et Z,A,B,C,D pour ceux en base 5 ; ces deux séries alterneraient systématiquement (en terminant par la série 0…5 pour le chiffre des unités). Le fait d'avoir deux séries de chiffres qui alternent peut d'ailleurs avoir un intérêt en lui-même : il évite certaines erreurs de décalage d'une colonne (à la fois à la lecture, et lorsqu'on effectue les opérations). • Les premiers entiers s'écrivent donc 0, 1, 2, 3, 4, 5, A0, A1, A2, A3, A4, A5, B0, B1, B2, B3, B4, B5, C0, C1, C2, C3, C4, C5, D0, D1, D2, D3, D4, D5, 1Z0, 1Z1, 1Z2, 1Z3, 1Z4, 1Z5, 1A0, etc. Le nombre décimal 1760 s'écrirait, par exemple, 1D4C2 dans ce système, parce qu'il vaut 1×30² + 4×6×30 + 4×30 + 3×6 + 2 (le 2 est le chiffre des unités, le C est le chiffre des sixaines, le 4 est le chiffre des groupes de 5×6=30, le D est le chiffre des groupes de 6×5×6 = 6×30 = 180, et le 1 est le chiffre des groupes de 5×6×5×6 = 30² = 900) : cette conversion est, bien sûr, fastidieuse, mais ça ne dit rien sur cette base spécialement parce que la conversion d'une base à une autre est toujours fastidieuse (enfin, sauf entre puissances d'un même nombre).

L'addition en base mixte 5×6 se fait exactement comme en base (pure) quelconque, et notamment comme en base 10 : il faut retenir deux tables d'addition, l'une de taille 6 et l'autre de taille 5, mais leur taille combinée est plus petite qu'une table de taille 10 (très nettement, même, si on compte que la table des zéros est vraiment triviale) :

+012345
0012345
112345A0
22345A0A1
3345A0A1A2
445A0A1A2A3
55A0A1A2A3A4
+ZABCD
ZZABCD
AABCD1Z
BBCD1Z1A
CCD1Z1A1B
DD1Z1A1B1C

Les chiffres (A ou 1) soulignés indiquent qu'il s'agit là de retenues à faire sur la colonne suivante. À titre d'exemple, C3 plus C3 vaut 1B0 : on commence par faire 3+3, ce qui donne A0 d'après la table de gauche, c'est-à-dire 0 avec une retenue de A, puis on effectue C+C dans la table de droite, ce qui donne 1A, auquel il faut encore ajouter la retenue, donc 1B. L'algorithme est donc exactement le même que celui qu'on apprend à l'école primaire, il y a juste deux séries de chiffres, mais on ne peut pas se tromper de table ou de colonne parce que les chiffres d'une série donnée ne peuvent que s'ajouter ensemble. • Il faut quand même que je souligne qu'une écriture comme 1B n'est pas un nombre valable (un nombre entier doit toujours se terminer par un chiffre de la série 0…5) : quand la table de droite donne une écriture comme C+D=1B, il faut en fait comprendre qu'elle signifie C0 + D0 = 1B0, les 0 étant omis (ce n'est pas important pour appliquer l'algorithme d'addition, mais c'est important pour ne pas s'embrouiller sur la signification de ce qu'on fait).

Pour la multiplication, les choses sont un tout petit peu plus compliquées : on a trois tables de multiplication à retenir, dont la taille totale est encore inférieure à l'unique table de la multiplication en base 10, mais dont le mode d'emploi est un chouïa plus délicat. Voici ces trois tables :

×012345
0000000
1012345
2024A0A2A4
303A0A3B0B3
404A2B0B4C2
505A4B3C2D1
×ZABCD
0ZZZZZ
1ZABCD
2ZBD1A1C
3ZC1A1D2B
4ZD1C2B3A
5Z1Z2Z3Z4Z
×ZABCD
Z0Z0Z0Z0Z0Z
A0Z1A2B3C4D
B0Z2B4DA1AA3C
C0Z3CA1AA4DB2B
D0Z4DA3CB2BC1A

La table de gauche ne pose aucune difficulté particulière : on a, par exemple, 4×5=C2, écriture tout à fait normale et qui n'appelle pas à un commentaire particulier ; la table du milieu est utilisée normalement quand on multiplie ensemble un chiffre de la série 0…5 et un chiffre de la série Z…D, et il faut comprendre qu'il y a un 0 implicite après chaque lettre de la table (par exemple, 3×D=2B signifie en fait 3×D0=2B0, parce que 2B n'est pas un nombre valable) ; c'est surtout la troisième table qui est un tout petit peu subtile à utiliser, parce que le décalage des chiffres est un peu modifié : il y a de nouveau un 0 à comprendre implicitement à la fin de chaque entrée, mais il n'y a pas en plus un Z implicite comme on pourrait l'imaginer — par exemple, l'entrée B×D=A3C signifie en fait B0×D0=A3C0 et ce dernier ‘C’ peut surprendre parce qu'on s'attendrait à avoir un ‘Z’ si l'algorithme était exactement le même qu'en base 10 (où le produit de deux nombres se terminant par un chiffre zéro se termine par deux zéros). [Ajout La raison est qu'un nombre finissant par un ‘0’ signifie qu'il est multiple de 6 (i.e., de A0), et quand on multiplie deux tels nombres, on obtient un multiple de 6×6=36 (i.e., de 1A0), et pas forcément de 30 (i.e., 1Z0). Voir aussi le commentaire de JML sur cette entrée.] J'ai donc écrit en italiques le dernier chiffre (de la série Z…D) de chaque entrée de cette troisième table, pour rappeler qu'il est décalé d'un cran par rapport à ce qu'on peut imaginer — on peut par exemple le voir comme une retenue à droite. (Remarquons que sa valeur est complètement prévisible : c'est Z,A,B,C,D selon que le chiffre juste avant vaut 0,1,2,3,4, et il ne peut pas être 5, donc l'effort de mémoire n'est pas considérablement alourdi ! Accessoirement, dans chacune des trois tables ci-dessus on peut faire différents commentaires pour aider à la mémorisation.)

Voici comment faire une multiplication en base 5×6 avec ces tables : comme en base 10, on va multiplier le premier nombre dont on veut faire le produit (appelons-le le multiplicande) par chacun des chiffres de l'autre nombre (appelons-le le multiplicateur). Lorsque le chiffre du multiplicateur par lequel on multiplie est un chiffre de la série 0…5, pas de difficulté, on utilise les deux tables de gauche ci-dessus, et on traite les retenues comme on le fait en base 10, c'est-à-dire en en mémorisant une de chaque colonne à la suivante (on peut aussi, si on trouve fastidieux d'ajouter les retenues à la volée, les écrire explicitement comme une ligne supplémentaire qu'il faudra incorporer dans l'addition finale). En revanche, quand le chiffre du multiplicateur par lequel on multiplie est un chiffre de la série Z…D, on utilise les deux tables de droite, et la table la plus à droite va donner, à chaque fois qu'on l'utilise, un chiffre (de la série Z…D, en italique dans la table) à ajouter sur la colonne un cran à droite de celle qu'on serait normalement en train d'écrire : pour ne pas avoir à s'arracher les cheveux à faire plein d'additions à la volée, il est plus simple d'écrire en fait deux lignes, l'une pour les produits donnés par la table du milieu et l'autre pour ceux donnés par la table de droite (l'addition finale sera plus complexe, du coup, mais en contrepartie, les retenues sont beaucoup plus faciles à faire) ; ou, si on préfère la variante suivante, on se réserve une ligne pour les calculs « normaux » donnés par les deux tables, et une ligne uniquement pour les chiffres de la série Z…D qui sont en italiques dans la troisième table.

À titre d'exemple, si je veux calculer C3×C3, je commence par effectuer le produit du multiplicande par le dernier chiffre, 3, du multiplicateur : comme 3×3=A3, j'écris un 3 et je retiens A, puis C×3=1D, auquel j'ajoute mentalement la retenue de A donne 2Z, et j'écris donc finalement 2Z3 comme première ligne intermédiaire ; puis je dois multiplier C3 par C : une possibilité est d'écrire les deux produits 3×C=1D et C×C=A4D sur deux lignes différentes (les D finaux étant bien sûr alignés avec le Z de la ligne déjà écrite), l'autre variante est de se dire qu'on fait 3×C=1D donc on écrit D et on retient 1, puis C×C=A4D, donc on écrit A5, à cause de la retenue, devant le D déjà écrit, et le D italique de cette dernière multiplication est écrit sur une autre ligne. Dans un cas, on doit finalement ajouter 2Z3 + 1D□ + A4D□ (où j'ai noté □ pour un emplacement laissé vierge : c'est bien sûr la même chose qu'un zéro), dans l'autre on doit ajouter 2Z3 + A5D□ + D□, ce qui ne fait bien sûr aucune différence, seulement de ce qu'on a choisi de mettre dans une ligne ou l'autre, et la somme finale vaut B2C3.

Mes descriptions sont un peu fastidieuses parce que j'ai la flemme de faire des images ou une vidéo montrant clairement le processus (et aussi parce que j'ai décrit ci-dessus deux petites variantes de l'algorithme), mais il n'est vraiment qu'à peine plus compliqué que ce qu'on fait en base 10 : en pratique, j'ai fait quelques essais, et mis à part que je ne connais pas par cœur les tables ci-dessus et que j'ai toujours envie de convertir en base 10 pour vérifier mes calculs, je crois que ça va aussi vite et on pourrait tout à fait apprendre ce système de numération à des enfants à la place de la base 10. (Je répète que je ne propose surtout pas de le faire dans le monde actuel !, je dis juste que si on n'avait pas l'héritage culturel de la base 10, il serait aussi utilisable.) Les tables d'opérations étant plus faciles à apprendre, on y gagne un petit peu : d'un autre côté, les nombres sont 35% plus longs en moyenne (parce que 2×log(10)/log(30) vaut environ 1.35).

Je ne décris pas l'algorithme de division, mais il ne présente pas de difficulté particulière (de toute façon, une division façon école primaire se fait essentiellement par multiplication : on teste juste les chiffres qu'on peut placer au quotient) ; de même, la soustraction se fait sans problème. On peut aussi se dire qu'on fait les opérations en base 30, les chiffres en base 30 étant eux-mêmes écrits en base 6 (avec la convention que le premier chiffre est pris dans la série Z…D, le E étant impossible, et le second dans la série 0…5, pour aider à s'y retrouver) : dans ce cas, il n'y a pas de surprise à ce que les opérations soient faisables. (Ceci s'applique notamment à un algorithme classique de calcul à la main des racines carrées ; mais cet algorithme demande de traiter deux chiffres du radicande d'un coup, et du coup ici il faudra traiter deux chiffres en base 30, c'est-à-dire quatre chiffres en base mixte 5×6.)

Bien sûr, le système que je viens de décrire permet aussi de manipuler des nombres à virgule : immédiatement après la virgule, on a un chiffre de la série Z…D qui représente des cinquièmes, ensuite un chiffre de la série 0…5 qui représente des trentièmes (des sixièmes de cinquièmes), etc. Par exemple, 1/2 s'écrit 0.B3 (calculer B3×2 pour s'en convaincre), 1/3 s'écrit 0.A4, 1/4 s'écrit 0.A1B3, 1/5 s'écrit 0.A0 (qu'on peut noter simplement 0.A si on n'a pas peur de causer une confusion), et 1/6 (enfin, 1/A0) s'écrit 0.Z5. C'était bien tout l'intérêt du choix de la base 5×6 que les fractions de dénominateur ≤6 s'écrivent toutes de façon exacte avec un nombre fini de chiffres. Le nombre 1/7 (i.e., 1/A1), lui, s'écrit 0.Z4A2B5Z4A2B5… ; ensuite, 1/8 (i.e. 1/A2) vaut 0.Z3C4B3 et 1/9 (i.e., 1/A3) vaut 0.Z3A4, et quant à 1/10 (i.e. 1/A4), il vaut 0.Z3. Enfin, je signalerai que 1/11 (i.e., 1/A5) s'écrit 0.Z2C3D0B4A4D3A2Z5B1C1Z2C3D0B4… (Et pour lister un irrationnel, √2 vaut 1.B0B0C5C4D5B4D5Z2D5C0D2D1D0D3Z5D2C5C1B4C5…) Tous les nombres qui s'écrivent en décimal de façon exacte avec un nombre fini de chiffres (i.e., toutes les fractions qui admettent une puissance de 10 comme dénominateur) s'écrivent aussi de façon exacte en base 5×6 (mais il faudra, dans le pire des cas, deux fois plus de chiffres pour les écrire).

Bon, tout ceci était vraiment de la plus haute trivialité mathématique, et d'un intérêt infinitésimal puisque je répète que je ne propose pas une seule seconde d'adopter ce système (sauf peut-être si l'humanité perdait toutes ses connaissances antérieures et devait tout reconstruire de zéro) : j'ai donc consacré à ce sujet beaucoup plus d'espace qu'il ne le méritait. Mais si par hasard vous croisez un jour un de ces huluberlus qui font la pub de la base 12, vous pourrez lui répondre avec la base 5×6.

Et je laisse en exercice au lecteur de trouver les raisons (essentiellement anecdotiques) pour lesquelles la base 5×6 m'a semblé très légèrement préférable à la base 6×5.

↑Entry #2335 [older| permalink|newer] / ↑Entrée #2335 [précédente| permalien|suivante] ↑

↓Entry #2323 [older| permalink|newer] / ↓Entrée #2323 [précédente| permalien|suivante] ↓

(jeudi)

Analysons le mécanisme de vote du Conseil de l'UE

Le Conseil de l'Union européenne, dont le nom officiel est juste le Conseil, et qu'on appelle parfois aussi informellement Conseil des ministres parce qu'il réunit les ministres des 28 états membres sur un sujet donné, est en quelque sorte la chambre haute de la législature de l'Union européenne (dont le Parlement européen serait la chambre basse), représentant les intérêts des États membres tandis que le Parlement européen représente la population de l'Union : il est donc vaguement analogue au Sénat des États-Unis ou au Bundesrat allemand (représentant, dans les deux cas, les entités fédérées). Si je simplifie en passant sous silence un nombre incroyable de cas particuliers, subtilités, astérisques et autres exceptions, une directive européenne (l'équivalent d'une loi) doit, pour être adoptée (selon la procédure législative ordinaire) être proposée par la Commission, et adoptée dans les mêmes termes par le Parlement et le Conseil. Je me propose d'analyser un peu la manière dont ce Conseil vote.

Les gens qui n'aiment pas lire des logorrhées (mais que faites-vous sur mon blog, aussi ?) peuvent sauter plus bas où il y a des jolis graphiques.

La petite minute nécessaire du Club Contexte : il y a aussi un Conseil européen, terminologie épouvantablement idiote parce qu'il n'est pas plus européen que l'autre, qui ressemble beaucoup au Conseil [des ministres] en ce qu'il est formé des représentants des 28 États membres, mais qui diffère en ce qu'il est formé des chefs d'État ou de gouvernement au lieu des ministres, et dont les fonctions ne sont pas tout à fait claires au niveau institutionnel (il « dirige », donne des « impulsions », etc.). Du coup, le Conseil européen a très rarement l'occasion de procéder à des votes, à part pour des cas très précis comme quand il s'agit de nommer le président de la Commission et qu'il n'y a pas de consensus. Les deux conseils (Conseil européen et Conseil [des ministres]) se ressemblent par certains points : dans les rares cas où le Conseil européen effectue un vote, c'est le même mécanisme de vote que pour le Conseil, et les deux Conseils ont, par exemple, le même logo représentant le futur bâtiment qu'ils auront aussi en commun (parfois l'un des deux ajoute au logo le mot latin Consilium, mais je n'ai pas compris lequel, ça a l'air de changer, et c'est peut-être obsolète), et ils ont le même site Web. Il y a aussi des différences : notamment, contrairement au Conseil [des ministres], qui est présidé par un État tournant tous les six mois [subtilité : sauf quand il est en formation affaires étrangères], le Conseil européen est présidé par une personne stable, en l'occurrence l'ancien Premier ministre polonais Donald Tusk. Je pense que l'idée est que si on considère l'UE comme un État fédéral ou confédéral, le Conseil européen en est une sorte de chef d'État collégial : il nomme le chef du gouvernement, c'est-à-dire de la Commission, et il a la main sur les grandes lignes de la politique étrangère. (Il n'est pas rare dans les dispositions constitutionnelles qu'il y ait une certaine porosité ou proximité entre le chef de l'État et la chambre haute du parlement : par exemple, le vice-président des États-Unis est ex officio président du Sénat, tandis que le président du Sénat français devient président par intérim si le président décède, et on peut certainement citer d'autres exemples ; la confusion entre les deux Conseils se comprend donc un peu dans cette logique.) • Par ailleurs, il ne faut pas confondre l'un ou l'autre de ces Conseils, qui sont des institutions de l'Union européenne, avec le Conseil de l'Europe, qui est une autre institution internationale, strictement plus grande que l'Union européenne (et dont, par exemple, la Norvège, la Suisse et la Russie sont membres). Pour tout arranger au niveau confusion, le Conseil de l'Europe a le même drapeau que l'Union européenne (c'est même lui qui l'a utilisé en premier), et aussi le même hymne.

Généralités : La plupart des décisions du Conseil [de l'UE, i.e., Conseil des ministres] se prennent, dans la pratique, sur la base du consensus : un vote a lieu formellement, mais il est précédé de beaucoup de négociations, voire de marchandages, menées informellement (par courrier électronique, par l'intermédiaire des représentants permanents à Bruxelles, ou au cours de réunion officieuses du Conseil), surtout par la présidence tournante du Conseil : lorsque la présidence annonce qu'elle dispose d'une majorité suffisante pour approuver la proposition, les éventuels pays minoritaires préfèrent négocier leur ralliement au vote en échange de quelques concessions plutôt que d'enregistrer une « contestation publique », i.e., de figurer sur le papier final comme votant contre (ce qui peut être embarrassant, diplomatiquement ou politiquement, sauf s'il s'agit d'enregistrer un point vis-à-vis de leur opinion publique nationale). Ce n'est pas pour autant que les détails du mécanisme de vote n'ont pas d'importance ! Car ce sont tout de même eux qui définissent le pouvoir des différents pays dans les négociations informelles, et même si le vote formel apparaît comme unanime — même si on cherche le compromis pour arriver à l'unanimité — l'avis d'un petit pays sera évidemment d'autant plus écouté s'il a le moyen de tout bloquer que si on sait qu'on peut toujours se passer de son accord. (Une analyse précise de la dynamique de vote pour ce qui est de la contestation publique, sur la période 1995–2010, est menée dans ce rapport de Wim van Aken, Voting in the Council of the European Union.)

Le mécanisme de vote dans toute sa subtilité juridique est assez complexe. D'abord, il y a plusieurs mécanismes différents selon le type de motion soumise au vote, et qui exigent des majorités différentes : majorité simple (principalement pour des questions de procédure ou des résolutions sans valeur légale), majorité qualifiée (la procédure ordinaire), ou unanimité (essentiellement pour tout ce qui est conçu comme une coopération intergouvernementale : par exemple, en matière fiscale). Même au sein de la majorité qualifiée, une des conditions demandées est différente selon que le Conseil vote sur une proposition de la Commission ou non (il y a donc, en quelque sorte, deux majorités qualifiées différentes : la normale, pour voter sur une proposition de la Commission, et la renforcée, pour les cas où le Conseil agit de sa propre initiative, essentiellement en matière de politique étrangère). • Pour compliquer encore les choses, pendant une période transitoire qui dure de novembre 2014 à mars 2017, les règles de vote actuelles, entérinées dans le traité de Lisbonne de 2007 (qu'on appellera donc en abrégé règles de Lisbonne, en gros : 55% des états membres représentant 65% de la population), peuvent parfois — à la demande d'un membre du Conseil — être remplacées par les règles antérieures, contenues dans le traité de Nice de 2001 (règles de Nice, en gros : >50% des états membres, et 73.8% des voix pondérées). • Pour compliquer encore un peu plus les choses, une déclaration annexée aux traités (parfois appelée « compromis de Ioannina », ) veut que si un groupe d'états n'est pas suffisant pour constituer une minorité de blocage (c'est-à-dire, une minorité capable d'empêcher un vote de passer, donc, avec les règles de Lisbonne, 45% des états membres ou représentant 35% de la population de l'Union) mais n'est « pas trop loin » d'en constituer une, alors la présidence du Conseil et l'ensemble de ses membres s'engagent à faire des efforts pour trouver une solution tenant compte de leurs objections. • Pour compliquer la complication, la définition de pas trop loin dans la phrase précédente sera abaissée en avril 2017 (pour compenser le fait qu'on ne pourra plus invoquer les règles de Nice ; jusqu'à mars 2017, il suffit de représenter 3/4 du nombre de membres ou de la population nécessaires à constituer une minorité de blocage, tandis qu'à partir d'avril 2017, elle est abaissée à 55% sur ces deux critères). Ouf ! On comprend que les choses ne soient pas aisées à décrire.

Mon but est ici, en oubliant un peu les subtilités de la négociation et de la culture du compromis, de faire quelques points plutôt d'ordre mathématique, mais à un niveau assez simple, sur le mécanisme de vote du Conseil à la majorité qualifiée (« normale »), à la fois dans les règles de Lisbonne et dans les règles de Nice. Et d'en profiter pour faire quelques remarques plus générales sur l'analyse du pouvoir dans un système de vote de ce genre.

[J'avais déjà écrit un billet sur le sujet ici, au moment où le mécanisme de vote était en train d'être débattu (et en écrivant par erreur Conseil européen au lieu de Conseil [de l'Union européenne ou des ministres]). J'y proposais un mécanisme de vote particulier. Ici, je vais plutôt me pencher sur la question de comment analyser un mécanisme de vote existant.]

↑Entry #2323 [older| permalink|newer] / ↑Entrée #2323 [précédente| permalien|suivante] ↑

↓Entry #2321 [older| permalink|newer] / ↓Entrée #2321 [précédente| permalien|suivante] ↓

(mercredi)

Jouons à analyser la forme des continents

[Sommes partielles d'harmoniques sphériques pour la forme des continents] [Niveau 0] [Niveau 1] [Niveau 2] [Niveau 3] [Niveau 4] [Niveau 5] [Niveau 6] [Niveau 7] [Niveau 8] [Niveau 9] [Niveau 10] [Niveau 11] [Niveau 12] [Niveau 13] [Niveau 14] [Niveau 15] [Niveau 16] [Niveau 17] [Niveau 18] [Niveau 19] [Niveau 20] [Niveau 21] [Niveau 22] [Niveau 23] [Niveau 24] [Niveau 25] [Niveau 26] [Niveau 27] [Niveau 28] [Niveau 29] [Niveau 30] [Niveau 31] [Niveau 32] [Niveau 33] [Niveau 34] [Niveau 35] [Niveau 36] [Harmoniques sphériques pour la forme des continents] [Niveau 0] [Niveau 1] [Niveau 2] [Niveau 3] [Niveau 4] [Niveau 5] [Niveau 6] [Niveau 7] [Niveau 8] [Niveau 9] [Niveau 10] [Niveau 11] [Niveau 12] [Niveau 13] [Niveau 14] [Niveau 15] [Niveau 16] [Niveau 17] [Niveau 18] [Niveau 19] [Niveau 20] [Niveau 21] [Niveau 22] [Niveau 23] [Niveau 24] [Niveau 25] [Niveau 26] [Niveau 27] [Niveau 28] [Niveau 29] [Niveau 30] [Niveau 31] [Niveau 32] [Niveau 33] [Niveau 34] [Niveau 35] [Niveau 36]

Je cherchais à me faire une idée intuitive un peu plus claire de la notion mathématique de décomposition en harmoniques sphériques (voir ici pour une explication très sommaire) : or la meilleure façon de comprendre une notion mathématique est probablement de s'amuser avec — je me suis dit que pour avoir une fonction raisonnablement « parlante » sur la sphère avec laquelle faire joujou, un candidat assez naturel est la forme des continents. J'ai donc analysé cette fonction en harmoniques sphériques ; plus exactement, j'ai pris la fonction qui vaut −1 sur la terre et +1 sur la mer, histoire d'être mieux centré vers 0, mais c'est peu important (ça va juste introduire des facteurs ½ pénibles un peu partout dans la suite), et en faisant semblant que la Terre est une sphère. Ce calcul n'a, bien sûr, rien d'original, même si le genre de fonction qu'on analyse pour des applications plus sérieuses seraient plutôt l'altitude, le champ de gravité ou quelque chose de ce goût. Je tire mes données géographiques de cette page (Earth Specular Map 8K). J'ai utilisé la bibliothèque SHTns pour faire les calculs (après une tentative pitoyable pour les faire moi-même, cf. ci-dessous).

L'image à gauche de ce texte montre les sommes partielles de cette décomposition en harmoniques sphériques : en haut, le niveau =0, en-dessous la somme des niveaux =0 et =1, puis la somme des niveaux ≤2, et ainsi de suite (à chaque fois, toutes les valeurs de m, c'est-à-dire −m, sont mises pour chaque , donc si on veut, la première ligne montre 1 terme, le suivant la somme de 4 termes, puis la somme de 9 et ainsi de suite). La Terre est vue en double projection orthographique, c'est-à-dire comme si elle était vue de l'infini : hémisphère nord à gauche, hémisphère sud à droite, le pôle correspondant au centre de chaque disque, le méridien de Greenwich comme le segment horizontal reliant les pôles — tout ceci devrait être assez clair sur les dernières images où on commence vraiment à voir la forme des continents ; mais bien sûr, cette façon de projeter n'a vraiment rien à voir avec le calcul lui-même, qui est porte sur la sphère. L'image de droite montre chaque niveau d'harmoniques séparément (si on veut, chaque ligne de l'image de droite est donc la différence entre la ligne correspondante de l'image de gauche et la précédente : elle montre donc ce qui a changé ; de nouveau, à chaque fois, toutes les valeurs de m, c'est-à-dire −m, sont sommées pour le correspondant). On peut cliquer sur chacune des lignes de l'image pour la voir en plus gros. Sur l'image de gauche (sommes partielles), même si j'ai tronqué la fonction à −1 et +1, on voit assez nettement les artefacts classiques qui résultent d'une troncature de la transformée de Fourier (ici sphérique mais peu importe).

L'intérêt de cette décomposition en harmoniques sphériques est qu'elle est naturelle pour la sphère : ce que je veux dire, c'est qu'elle ne dépend pas du choix des coordonnées — de la position des pôles. Pour dire les choses autrement, si on fait tourner la sphère n'importe comment, chacun des niveaux de la décomposition (et, a fortiori, la somme des niveaux ≤) tourne de la même façon. (Il est essentiel ici de sommer tous les m : si on ne prenait que les termes avec m=0, par exemple, on obtiendrait une moyenne selon les cercles de latitude, et ça, ça dépend du choix des pôles.) Pour dire les choses encore autrement, et de façon un peu plus savante, quand on applique une rotation de la sphère, chaque harmonique sphérique Y[,m] est transformé en une combinaison linéaire des Y[,m′] pour le même (mais pour l'ensemble des −m′≤) : l'espace vectoriel engendré par les Y de niveau (exactement) est stable par rotations (c'est une représentation de SO(3), et c'est même, pour ceux qui savent ce que ça veut dire, la représentation irréductible de plus haut poids ).

En fait, pour un algébriste, la meilleure façon de présenter les choses est certainement la suivante : l'espace vectoriel engendré par les Y de niveau ≤ est tout simplement l'espace vectoriel des polynômes sur la sphère de degré ≤. (Attention cependant, comme x²+y²+z²=1 sur la sphère, le degré d'un polynôme y est mal défini ; je parle ici de l'espace, qui est de dimension (+1)², des restrictions à la sphère de l'espace — lui-même de dimension (+1)(+2)(+3)/6 — des polynômes de degré ≤ en x,y,z. On peut aussi préférer utiliser les polynômes harmoniques, c'est-à-dire dont le laplacien 3D est nul : pour ceux-là, la restriction à la sphère est une bijection, le degré est bien défini et coïncide avec la graduation par .) On peut même dire mieux : si on introduit le produit scalaire défini par l'intégration sur la sphère (normalisée pour avoir surface 1), alors la composante en harmoniques de niveau ≤ d'une fonction f est la projection orthogonale, pour ce produit scalaire, de f sur l'espace vectoriel des polynômes sur la sphère de degré ≤. Quant aux harmoniques sphériques réelles Y elles-mêmes, si je ne m'abuse, on peut dire que Y[0,0], Y[1,0], Y[1,1], Y[1,−1], Y[2,0], Y[2,1], Y[2,2], Y[2,−1], Y[2,−2], Y[3,0], etc. (ordonnées par puis par m en mettant les valeurs négatives après les positives), s'obtiennent par orthonormalisation de Gram-Schmidt à partir des polynômes 1, z, x, y, z², xz, x², yz, xy, z³, xz², x²z, x³, yz², xyz, x²y, etc. (ordonnés par degré total, puis par degré ≤1 en y, puis par degré en x). On obtient ainsi : Y[0,0] = 1 ; Y[1,0] = √3·z ; Y[1,1] = √3·x ; Y[1,−1] = √3·y ; Y[2,0] = √5·(z²−½x²−½y²) ; Y[2,1] = √15·xz ; Y[2,2] = √15·(½x²−½y²) ; Y[2,−1] = √15·yz ; Y[2,−2] = √15·xy ; Y[3,0] = √7·(z³−(3/2)x²z−(3/2)y²z) ; Y[3,1] = √42·(xz²−¼x³−¼xy²) ; etc.

Encore une autre façon de voir le niveau de la décomposition en harmoniques sphériques d'une fonction f est, peut-être à une constante près dont je ne suis pas très sûr, comme la convolée de cette fonction avec Y[,0] (j'insiste : convoler avec Y[,0] donne la projection sur tous les Y[,m] de ce niveau) : en général, la convolution de deux fonctions sur la sphère n'a pas de sens (on ne peut pas ajouter deux points sur la sphère), mais elle en a quand l'une des fonctions convolées est zonale, c'est-à-dire qu'elle ne dépend que de la latitude. En l'occurrence, Y[,0] vaut, à un coefficient de normalisation près, P[](cos(θ)) où P[] est un polynôme de Legendre et θ désigne la colatitude (=π/2 moins la latitude).

Du coup, les niveaux de la décomposition en harmoniques sphériques ont donc une vraie signification par rapport à la fonction sommée.

Le terme =0, ou ce que les physiciens appellent le terme monopôle, est simplement la moyenne de la fonction : dans l'exemple que j'ai pris, il nous renseigne donc sur la proportion de terre et de mer. Je trouve une moyenne de 0.4283, ce qui, compte tenu du fait que j'ai mis la terre à −1 et la mer à +1, signifie qu'il y aurait (1+0.4283)/2 soit 71.41% de mer, et 28.59% de terre ferme, sur la Terre. Je suppose que les mesures peuvent varier selon ce qu'on compte exactement comme terre et mer, notamment dans les régions polaires — je donne ici simplement ce qui résulte de l'image dont je suis partie, et je ne sais pas vraiment quelle est sa source — et peut-être quand on tient compte de l'aplatissement de la Terre, mais cette valeur est au moins réaliste. Pour dire les choses autrement, si on imagine que les terres émergées ont une densité surfacique constante égale à 1 sur la surface de la sphère (et que la mer a une densité nulle), ce qu'on mesure ici est la masse totale (c'est une façon bizarre de formuler les choses, mais la comparaison à la masse va être utile pour comprendre les deux termes suivants comme un terme de barycentre et un terme de moment d'inertie).

Le terme =1, ou terme dipôle, calcule la somme (ou la moyenne) des coordonnées x, y et z contre la fonction, donc donne aussi une information sur la Terre qui a un sens intuitif assez clair : sa direction correspond au barycentre des terres émergées, ce qui se rapporte au genre de problème dont je parlais ici. Mon calcul place ce barycentre à 44.4° de latitude (nord) et 29.0° de longitude (est), du côté de Constanța en Roumanie. Ceci colle au moins grossièrement avec ce qu'on trouve sur Wikipédia, mais celle-ci a l'air surtout de citer des crackpots qui veulent plus ou moins que ce centre ait un rapport avec la Grande Pyramide, et je ne vois pas de raison de penser que mon calcul serait moins bon que le leur (de nouveau, ça dépend sans doute surtout de ce qu'on compte comme terres émergées dans les régions arctiques).

Maintenant, il faut souligner ceci : ce dont je parle ci-dessus est la notion bien définie (en général) de barycentre sphérique, qui est tout simplement la projection sur la sphère (depuis son centre) du barycentre calculé en 3D (j'ai déjà dû citer le joli article de Galperin, A concept of the mass center of a system of material points in the constant curvature spaces, Comm. Math. Phys. 154 (1993) 63–84) ; mais dans le terme dipôle, il a bien trois composantes réelles (puisqu'il y a trois harmoniques sphériques au niveau 1, Y[1,0], Y[1,1] et Y[1,−1]), i.e., ce terme dipôle a une amplitude et pas juste une direction. Il donne donc aussi la profondeur du barycentre 3D. Mon calcul donne un moment dipolaire de la terre émergée de norme 0.0996, c'est-à-dire 34.83% du moment monopolaire (0.2859, la proportion de terre émergée, cf. ci-dessus), c'est-à-dire qu'il place le barycentre des terres émergées à 34.83% du rayon de la Terre à partir de son centre (soit à (x,y,z)=(0.2176,0.1205,0.2439) si z est orienté du centre vers le pôle nord, et x du centre vers le point de longitude 0 sur l'équateur).

(J'espère ne pas avoir mal placé un √3 ou ½ quelque part dans ce calcul : les harmoniques sphériques de niveau 1 avec la convention de normalisation que j'utilise sont Y[1,0]=√3·z, Y[1,1]=√3·x et Y[1,−1]=√3·y, du coup il y a des √3 qui se promènent ; il y a aussi un −2 à cause de ma convention sur les valeurs de la fonction, et il faut encore diviser par la valeur 0.2859 du terme monopôle si on veut obtenir la position du barycentre 3D.)

↑Entry #2321 [older| permalink|newer] / ↑Entrée #2321 [précédente| permalien|suivante] ↑

↓Entry #2320 [older| permalink|newer] / ↓Entrée #2320 [précédente| permalien|suivante] ↓

(mardi)

X+Y (=Le Monde de Nathan =A Brilliant Young Mind)

Je ne sais pas pourquoi ce film a plusieurs noms en anglais, et je ne sais pas non plus pourquoi ils ont décidé de l'appeler Le Monde de Nathan pour sa sortie en France (le 10 juin dernier ; sortie DVD le 21 octobre prochain), alors que X+Y passe très bien dans beaucoup de langues (en contrepartie du fait qu'il est pénible à rechercher sur Internet).

Je racontais il y a quelques mois que j'avais trouvé un peu agaçant que les scénaristes de The Imitation Game fassent passer Alan Turing pour un autiste alors qu'il ne l'était pas, et alimentent ainsi le cliché qui veut que les mathématiciens dans la fiction soient toujours au minimum socialement incompétents quand ils ne sont pas carrément mentalement atteints. Ici, le héros est un jeune autiste anglais doué pour les mathématiques et qui participe aux olympiades internationales de cette discipline. Comme les exercices des olympiades de mathématiques m'agacent[#] autant que le cliché dont je viens de parler, on peut dire que le film ne partait pas avec un a priori très favorable de ma part.

Pourtant, il m'a assez plu pour que je le recommande. D'abord, parce qu'il a réussi à éviter le cliché que je craignais : le héros est autiste et doué pour les mathématiques, et c'est clairement et pas donc ou car, et il y a d'autres personnages qui montrent assez nettement que les scénaristes ne confondent pas les deux. Ils évitent aussi le cliché apparenté (I'm looking at you, Good Will Hunting) du jeune prodige qui est forcément tellement fort en maths qu'il résout tout immédiatement[#2] et fait passer tous les autres pour des nuls — ici, sans vouloir spoiler, le héros est doué, mais il l'est de façon réaliste. C'est sans doute parce que le film est basé sur un documentaire, donc sur des faits réels, qu'il réussit à éviter l'hyperbole, mais c'est assez rare pour être souligné.

(Je ne dis pas que le film évite tous les clichés ou invraisemblances. Par exemple, on laisse beaucoup trop peu de temps à ceux qui préparent les olympiades pour réfléchir sur un problème donné : or absolument personne ne résout ce genre de problème en quelques secondes ; mais on peut justifier ce choix pour des raisons de rythme.)

Ensuite, je trouve assez rare de voir un film qui montre des mathématiques, fussent-elles des mathématiques d'olympiades (voir ma note ci-dessous pour la nuance), sans faire n'importe quoi : on ne nous montre pas seulement des gribouillis ressemblant vaguement à des formules et qui ne veulent rien dire : plusieurs problèmes d'olympiades (ou en tout cas tout à fait dans le genre des problèmes d'olympiades) sont posés, les réflexions sont plausibles, et il y a même une question pour laquelle la démonstration est faite au tableau, de façon correcte et complète (bon, c'est une question à mon avis trop facile pour être d'olympiades, et ce n'est pas très réaliste qu'on applaudisse le héros pour l'avoir trouvée, mais au moins un nombre non négligeable de spectateurs pourra comprendre).

Enfin, l'acteur principal, Asa Butterfield, est remarquable de justesse, dans un rôle pourtant difficile. (On l'avait déjà vu dans Hugo Cabret et Ender's Game, où il était également bon, mais le scénario de ces deux films à gros budget laissait à mon avis moins place à la subtilité des émotions.) L'actrice qui joue sa mère, en revanche, m'a semblé beaucoup moins bonne, mais peut-être que je me laisse influencer par le fait que le personnage m'agaçait.

Sinon, je trouve amusante la coïncidence suivante : j'ai fait référence à l'entrée de blog que j'ai écrite sur le biopic de Turing, qui y est présenté à tort comme autiste, et dans cette même entrée j'évoquais aussi le film, sorti au même moment, sur la vie de Hawking, qui lui a (vraiment) une maladie neurodégénerative. Or le film dont je parle ici met en scène à la fois un personnage autiste et un autre qui a une maladie neurodégénerative (et il est explicitement comparé à Hawking, d'ailleurs). Enfin, peut-être que ce n'est pas une coïncidence mais une sorte de référence.

[#] Pour essentiellement deux raisons. Primo, je trouve que ça a peu de rapport avec les mathématiques : il s'agit de problèmes généralement atrocement astucieux et ne faisant appel à aucune théorie générale, alors que, à mon sens, les mathématiques consistent justement à trouver des théories générales pour éviter les astuces. Bon, pour leur défense, certains problèmes d'olympiades sont au moins assez jolis, ce qui est aussi une caractéristique importante des bonnes mathématiques à mes yeux — mais seulement certains, parce qu'il y en a beaucoup qui sont non seulement difficiles et astucieux mais aussi fondamentalement moches et sans intérêt. (Je précise que je ne suis pas vexé d'y être mauvais : je crois même que je m'en sors honorablement, ou en tout cas que je m'en sortais honorablement quand j'avais l'âge. On m'a d'ailleurs demandé, comme j'avais eu un prix au Concours général de maths, de participer à l'équipe française de la 35e olympiade à Hong Kong — mais comme j'avais aussi un autre prix en physique pour lequel j'étais invité aux États-Unis au même moment, je n'y suis pas allé.) Secundo, et sans doute le plus important : je trouve que l'idée de compétition, que ce soit entre les individus ou les pays, va complètement à l'encontre de l'esprit de la science qui est — ou devrait être — collaboratif et non compétitif.

[#2] Hint : dans la réalité, les maths sont dures pour tout le monde. Si elles ne l'étaient pas, l'hypothèse de Riemann serait décidée à l'heure qu'il est. (En fait, on peut même défendre l'idée que c'est une conséquence d'un théorème et d'un postulat physico-philosophique de Church et Turing que : les mathématiques ne peuvent pas être triviales pour aucun habitant de cet Univers, humain, extra-terrestre ou ordinateur.)

↑Entry #2320 [older| permalink|newer] / ↑Entrée #2320 [précédente| permalien|suivante] ↑

↓Entry #2317 [older| permalink|newer] / ↓Entrée #2317 [précédente| permalien|suivante] ↓

(mercredi)

Petit supplément à ma page d'ondes sur la sphère

J'ai présenté avant-hier une page en JavaScript (enfin, deux : avec WebGL ou sans) qui affiche une animation d'ondes sur une sphère (un peu plus précisément, une solution de l'équation des ondes (∂²/∂t²−c²Δ)φ=0, où Δ est le laplacien sphérique ; ou en fait, trois solutions à la fois, une pour chaque composante de couleur RGB). J'ai ajouté un bouton pause, mais ce n'est pas le plus intéressant : j'ai surtout ajouté toutes sortes de modes spéciaux.

(Si la description qui suit ne vous intéresse pas, sautez directement jusqu'au dernier paragraphe.)

On m'avait demandé si je pouvais permettre un choix de la condition initiale (pour les non-mathématiciens : la configuration à partir de laquelle l'onde évolue) : ce serait assez compliqué de fournir une façon de faire ça en général, mais on peut quand même permettre de choisir une configuration qui a des symétries particulières (qui se conserveront avec l'évolution dans le temps). C'est ce que ma page JavaScript permet maintenant. Un exemple de tel cas est la situation où il y a symétrie par rapport au centre de la sphère : l'état est en permanence le même en deux points antipodaux l'un de l'autre (i.e., φ(−x,−y,−z) = φ(x,y,z)) ; si on veut, on peut considérer qu'il s'agit alors d'une équation des ondes sur le plan projectif réel (qui est la sphère où on a identifié les paires de points antipodaux) ; ceci a l'intérêt qu'on voit alors la totalité de la configuration (puisque le programme n'affiche qu'un hémisphère, mais l'autre s'en déduit par symétrie). On peut imaginer d'autres symétries de ce genre, évidemment : par rapport à un plan (si c'est le plan parallèle au plan de projection — que j'appelle z=0 — alors on voit de nouveau toute la configuration, puisque de nouveau l'autre hémisphère est symétrique, mais cette fois par rapport à un plan, ce qui est donc subtilement différent) ; ou par rapport à un axe, et dans ce cas, à différents niveaux. (Je me suis limité à une symétrie d'ordre 2 ou 3 par rapport à l'axe de vision, parce que je ne calcule pas assez d'harmoniques pour qu'une symétrie d'ordre supérieur puisse être intéressante à voir, déjà 3 est limite. C'est dommage, parce qu'en général on pouvait demander des groupes de symétrie plus intéressants, à savoir les symétries d'un des solides réguliers. Mais bon, même dans le cas de la symétrie cubique/octaédrale, je n'ai pas le courage de calculer l'action sur les harmoniques sphériques.)

Mais j'ai un autre type de configuration particulière à proposer : il s'agit des cas où l'équation des ondes conserve la « masse totale », c'est-à-dire techniquement la norme L² (en l'occurrence, sur chacun des canaux de couleur) : pour parler grossièrement, des creux et des bosses peuvent se déplacer, mais leur quantité totale doit rester inchangée (note : la moyenne reste de toute façon constante — dans mon cas, à 0 que je représente par le gris intermédiaire qui sert aussi de fond — et c'est ici de la moyenne quadratique que je parle). Je ne sais pas quel est le terme standard (il y en a probablement un) pour désigner ce genre de configurations de l'équation des ondes. La situation complètement opposée est celle d'une onde stationnaire : très grossièrement parlant, dans une onde stationnaire, les creux et les bosses apparaissent et disparaissent, mais ne changent pas de place. Comme ce n'est pas terriblement intéressant, j'ai défini les configurations « stationnaires par niveau », qui sont celles où chaque niveau d'harmoniques sphériques (et chaque canal RGB) définit une onde stationnaire. Ces deux conditions se combinent d'ailleurs agréablement avec la condition d'être symétrique par rapport au centre de la sphère (« projectif », cf. ci-dessus), donc j'ai aussi mis les conjonctions en question.

Pour ceux qui connaissent un peu plus de maths, voici une explication plus claire sur ces deux conditions de conserver la masse L² et d'être stationnaire par niveau : en général, on peut écrire φ = ∑u,m(tY[,m] (pour −m, et parcourant les entiers naturels — même si mon JavaScript ne monte que jusqu'à 8), où les Y[,m] sont les harmoniques sphériques (réelles), qui vérifient (ΔY[,m] = −(+1)·Y[,m]) et sont orthogonaux au sens L² et u,m(t) est une sinusoïde de fréquence (c/2π)·√((+1)) (c'est ça qui assure qu'on vérifie l'équation des ondes). Cette dernière condition peut s'écrire u,m(t) = Re(Z,m·exp[i·c·√((+1))·t]) avec Z,m un nombre complexe (dont le module et l'argument déterminent l'amplitude et la phase de cette sinsuoïde). La condition de conserver la masse L² signifie que la somme des carrés de ces parties rélles ne dépend pas de t, ce qui revient en fait à ce que la somme des carrés des complexes Z,m (pour −m) s'annulle pour cha