David Madore's WebLog

This WebLog is bilingual, some entries are in English and others are in French. A few of them have a version in either language. Other than that, the French entries are not translations of the English ones or vice versa. Of course, if you understand only English, the English entries ought to be quite understandable without reading the French ones.

Ce WebLog est bilingue, certaines entrées sont en anglais et d'autres sont en français. Quelques-unes ont une version dans chaque langue. À part ça, les entrées en français ne sont pas des traductions de celles en anglais ou vice versa. Bien sûr, si vous ne comprenez que le français, les entrées en français devraient être assez compréhensibles sans lire celles en anglais.

Note that the first entry comes last! Notez que la première entrée vient en dernier !

Index of all entries / Index de toutes les entréesXML (RSS 1.0) • Recent comments / Commentaires récents

↓Entry #2554 [older| permalink|newer] / ↓Entrée #2554 [précédente| permalien|suivante] ↓

(dimanche)

Sur l'éclectisme (et sur ce blog)

Le mot éclectique vient du verbe grec ἐκλέγω (ἐκ+λέγω) dont le sens est quelque chose comme choisir parmi (extraire de, prendre en-dehors) : on remarquera que le mot élire vient du latin eligo (ex+lego) qui est le calque du mot grec en question. (J'ai toujours été fasciné de découvrir des parallèles comme ça, depuis que j'avais cru comprendre, quand j'étais petit, que atome et insecte, signifiaient tous les deux indécoupable : en fait, s'agissant du second, c'est une erreur, insecte signifie au contraire plutôt divisé en morceaux, segmenté, mais si ce n'était vrai, c'était au moins bien trouvé. Cf. aussi ce que je racontais ici au sujet du fait que composition, en grec, se dit synthèse. Zut, je veux parler d'éclectisme, et je suis déjà en train de digresser sur tout et n'importe quoi. 😉)

En fait, je considère que l'éclectisme est une de mes principales caractéristiques, mais je ne sais pas si j'utilise ce mot correctement. Le TLF définit le mot comme suit (j'abrège un peu) :

A. (Philos.) Méthode intellectuelle consistant à emprunter à différents systèmes pour retenir ce qui paraît le plus vraisemblable et le plus positif dans chacun, et à fondre en un nouveau système cohérent les éléments ainsi empruntés.

B. (P. anal.) Attitude, disposition d'esprit portant à choisir sans exclusive parmi des catégories de choses ou de personnes très diverses ; qualité d'un ensemble de choses révélant cette disposition.

Je l'utilise par extension dans un sens qui doit être quelque chose comme : Attitude, disposition d'esprit consistant à s'intéresser à tout et à n'importe quoi, sans souci particulier de cohérence. Mais du coup, qui prend tout et n'importe quoi, cela commence à devenir un auto-antonyme par rapport au sens étymologique qui était qui prend le meilleur : la célèbre phrase biblique il y a beaucoup d'appelés, mais peu d'élus (Matthieu 22:14) est, dans l'original, πολλοὶ γάρ εἰσιν κλητοὶ ὀλίγοι δὲ ἐκλεκτοί (littéralement quelque chose comme beaucoup en-effet sont appelés peu-nombreux cependant élus, ἐκλεκτός étant un pseudo-participe passé, je ne sais pas comment les grammairiens appellent ça, du verbe ἐκλέγω), le sens est clairement que Dieu prend les heureux élus, pas tout et n'importe qu(o)i. Dieu est éclectique dans le sens original, pas dans le mien.

Enfin bref.

Je m'intéresse à tout et n'importe quoi. Mais là aussi les mots sont trompeurs : tout et n'importe quoi, en français, ça veut vraiment dire un peu de tout, sans logique particulière, pas tout. Je ne m'intéresse pas à tout (personne ne s'intéresse à tout), il y a évidemment plein de choses qui ne m'intéressent pas spécialement (parmi les choses qui semblent motiver beaucoup de gens : les voyages, le sport professionnel, le dessin, les voitures/avions/bateaux, la cuisine quand il s'agit de la faire au lieu de la manger, le vin et les autres alcools… ; parmi les choses qui semblent motiver les geeks : les jeux vidéos, les séries télé, les romans de SF ou heroic fantasy en 42 volumes de 1729 pages, etc.). Après, les choses méritent une certaine nuance, parce que parfois, même si je ne m'intéresse pas à quelque chose, je peux m'intéresser au fait que des gens s'y intéressent (la religion, par exemple), et les limites ne sont pas toujours claires, et puis il y a des exceptions (il y a des jeux vidéos que j'ai aimés, des séries télé que j'ai aimés, etc.) ; il y a des choses qui m'intéressent mais pas pour en parler (le sexe ?), des choses qui m'intéressent pour en parler mais pas pour en faire (la politique ?) ; il y a évidemment plein de choses où il m'intéresse d'écouter quelqu'un parler mais où je n'ai personnellement rien d'intéressant à dire (la musique ?). Bref, le découpage du monde en zones d'intérêts et de non-intérêts est plus complexe qu'un découpage binaire. Mais ce qui est sûr, c'est qu'il n'est pas particulièrement cohérent, en ce qui me concerne, et je n'ai pas un petit nombre bien délimité de centres d'intérêts.

Je crois quand même avoir au moins une qualité, c'est que j'arrive à trouver un centre d'intérêt commun avec à peu près n'importe qui, et je suis prêt à faire des efforts pour m'intéresser à quelque chose qui ne me passionne pas a priori si ça promet une conversation fructueuse. Comme je le remarque ci-dessus, même si je ne m'intéresse pas à X, en fait, écouter quelqu'un parler de X et m'intéresser à son intérêt pour X est souvent possible : je peux souvent embrayer en lui demandant comment il en est venu à cet intérêt, combien il y passe de temps, ce genre de choses — les gens, en fait, sont toujours intéressants quand ils sont eux-mêmes intéressés.

Tout ça pour dire que je parle de beaucoup de choses sur ce blog, qu'il s'agisse de choses dont je suis « spécialiste »[#] (les maths, dans une certaine mesure l'informatique et peut-être la physique), de choses sur lesquelles j'ai acquis un petite expertise à force de m'y plonger (quelques aspects de la linguistique), des choses sur lesquelles je vient ponctuellement de me documenter assez précisément, de choses sur lesquelles je n'ai pas de connaissance particulière mais j'espère apporter un point de vue un petit peu nouveau ou différent (la philo, le droit, la politique), des points précis sur lesquels je veux émettre un avis, ou de choses sur lesquelles j'ai simplement envie de parler (ma vie, les films que je vois, les livres que je lis, les fragments littéraires que j'écris). Là aussi, les frontières entre ces domaines sont floues.

[#] Je n'aime pas ce terme, en fait, spécialiste, ou alors je ne me considère comme spécialiste de rien. (J'adore la phrase suivante de Heinlein : A human being should be able to change a diaper, plan an invasion, butcher a hog, conn a ship, design a building, write a sonnet, balance accounts, build a wall, set a bone, comfort the dying, take orders, give orders, cooperate, act alone, solve equations, analyze a new problem, pitch manure, program a computer, cook a tasty meal, fight efficiently, die gallantly. Specialization is for insects. Je ne suis probablement pas un être humain compétent selon cette liste d'exigences, mais j'espère au moins ne pas être un insecte.) Je ne sais plus où, j'avais lu André Weil expliquer qu'il s'était donné pour but, en mathématiques, d'en savoir sur tout domaine un peu moins que le spécialiste mais un peu plus que le non-spécialiste (et qu'il avait « évidemment » échoué), mais j'aime bien cet état d'esprit.

Et justement, il y a une chose que je veux souligner : mes centres d'intérêts sont peut-être nombreux et difficiles à cerner, mais ils sont connexes au sens où je pense qu'il est impossible de les séparer en deux domaines généraux sans qu'il y ait plein de sujets qui prennent un malin plaisir à se rattacher aux deux.

Et c'est notamment pour expliquer ça que j'écris cette entrée. « On » m'a plusieurs fois demandé : pourquoi ne sépares-tu pas ce blog entre un blog mathématique et un blog non-mathématique ? On, dans l'histoire, n'est pas du tout intéressé par les maths mais intéressé par le reste ; mais je conçois que pour d'autres valeurs de on, ce serait le contraire : j'imagine qu'il y a plein de mes lecteurs qui n'ont absolument rien à b****er des histoires des jardins que je visite en Île-de-France ou de quand je parle de linguistique ou de mes délires philosophiques, et ça ne me vexe pas du tout, c'est normal, j'ai moi-même plein d'amis aux goûts tout aussi éclectiques que les miens, et évidemment ils ne sont jamais identiques aux miens, donc certaines des choses qui les passionnent m'emmerdent plus ou moins.

Mais ce que je prétends, c'est qu'un tel découpage est impossible à faire. Je peux imaginer que chacun de mes lecteurs aurait envie que je fasse un découpage de ce blog en les bouts qui l'intéressent et les bouts qui ne l'intéressent pas, mais il y aurait autant de découpages que de lecteurs. Moi, je perçois une profonde unité entre toutes les choses que l'on peut savoir (et peut-être même quelques autres), et une profonde unité au sein de ce qui m'intéresse.

Concrètement, si je faisais un blog de maths et un blog de non-maths, où est-ce que ça laisserait la physique, par exemple ? Si je fais un blog scientifique et un blog non-scientifique, l'informatique serait coupée en deux entre sa partie science et sa partie technique (d'ailleurs, je pense que on ne s'intéresse pas trop à cette dernière). Quand je parle de la différence entre ‘A’, ‘Α’ et ‘А’ dans les systèmes d'écriture en général et dans Unicode en particulier est-ce que ça rentre dans la partie science et techniques ? Et la linguistique, est-ce que je range ça dans les sciences ? Et quand je parle de vulgarisation mathématique, est-ce que c'est encore des maths ? D'enseignement des mathématiques ? Quand j'écris des fragments littéraires qui s'appuient sur les maths ? Quand je décris mon propre ressenti personnel devant tel ou tel aspect des maths (la symétrie, les ordinaux…) ?

Je suppose que la plupart des mathématiciens sont, à différents degrés, comme moi, c'est-à-dire qu'ils tendent à voir l'ensemble du monde à travers le prisme des mathématiques (ne serait-ce que pour des choses idiotes : par exemple, dès que des types ou catégories — j'emploie ici ces mots au sens courant, pas au sens mathématique — s'intersectent, commencer à penser leur diagramme de Venn, se demander ce qu'il y a dans chaque case ou combinaison booléenne ; ou encore, veiller scrupuleusement à comprendre les modalités et l'ordre des quantifications dans n'importe quel énoncé). Donc à la limite, ma pensée est complètement impossible à séparer des mathématiques : je suis incapable de penser autrement que comme ça. S'il y a des gens pour s'imaginer que ça me rend incapable d'apprécier la poésie ou la musique, de faire preuve d'empathie ou de discernement psychologique, ou encore de comprendre que le monde n'est pas toujours logique, je ne sais pas bien quoi répondre à part que c'est idiot (par contre, m'intéresser aux mécanismes qui font que les gens pensent ça, c'est fascinant ☺). Mais c'est pour dire que tout ce que je raconte a toujours un certain lien, à un certain niveau, avec les maths, simplement parce que c'est comme ça que je pense : par exemple, quand je dis que mes centres d'intérêts sont connexes, je pense vraiment à la définition d'un espace topologique connexe en mathématiques (qu'on ne peut pas partitionner en deux ouverts).

J'ai essayé d'introduire des catégories pour les entrées dans ce blog, mais c'est un peu un échec (il y a plein de choses qui rentrent mal dans les catégories, et la catégorie maths est trop énorme, je devrais la subdiviser mais je ne sais pas bien comment m'y prendre concrètement). Cela fait partie, aussi, de ma façon de penser, que j'aime bien faire des typologies et des classifications, mais qu'en même temps j'ai du mal parce qu'à chaque fois que je le fais je me rends compte que toutes les frontières sont floues et que tout est à cheval sur tout (ce n'est pas de ma faute, évidemment, le monde est comme ça).

Bref, pour mes lecteurs qui s'intéressent à certaines des choses que je raconte mais pas à toutes, et de loin, je peux simplement dire que c'est normal, je conçois difficilement qu'il en soit autrement, je suis conscient du « problème », j'en suis navré, mais je pense qu'il est structuralement insoluble. (Par contre, ça ne sert vraiment à rien de poster un commentaire sur une entrée pour dire tout ça n'avait aucun intérêt comme il m'arrive — rarement — d'en recevoir.)

↑Entry #2554 [older| permalink|newer] / ↑Entrée #2554 [précédente| permalien|suivante] ↑

↓Entry #2553 [older| permalink|newer] / ↓Entrée #2553 [précédente| permalien|suivante] ↓

(mardi)

Typologie des risques de l'Internet des Objets

L'Internet des Objets, ou en anglais Internet of Things (IoT), désigne l'ensemble des objets parfois qualifiés d'intelligents (et qui, fort logiquement, brillent souvent par leur stupidité) ou de connectés : de la smartwatch à la voiture autonome en passant par l'assistant électronique et la maison dont on peut contrôler les alarmes à distance, c'est une nébuleuse d'objets censément intelligents et qui deviennent vite un champ de mines pour la sécurité informatique.

Il n'aura pas échappé aux lecteurs réguliers de ce blog que je me méfie — et c'est un euphémisme — de l'Internet des Objets. Je ne vais pas essayer de développer longuement tous les problèmes qu'il peut poser (pour une approche humoristique, voir l'excellent compte Twitter Internet of Shit (@internetofshit) ; voir aussi cette entrée passée et les commentaires dessus). Mais il est utile d'essayer de faire une petite typologie des problèmes qui se posent, parce qu'il ne faut pas tous les confondre. Je distingue trois grands domaines de problèmes, que je divise ensuite en sous-problèmes :

  • La sécurité informatique épouvantablement pourrie.

    Ceci résulte d'une combinaison de facteurs. Les programmeurs sont généralement mauvais et mal formés, le public n'est pas conscient du problème et/ou ne juge pas les objets sur leur sécurité si bien que le constructeur n'a que très peu d'intérêt économique à améliorer la situation, et il est légalement difficile de le faire tenir pour responsable des problèmes qui peuvent survenir (quand un pont s'effondre, on peut au moins s'attendre à ce qu'un architecte ou un ingénieur, quelque part, perde son travail — en informatique, la culture de la responsabilité n'existe pas) ; et au niveau des mises à jour de sécurité : leur validation est problématique et peut être elle-même source de trous de sécurité, le public les voit comme un emmerdement (apportant parfois des bugs et rarement des fonctionnalités utiles à ses yeux), la pratique du logiciel propriétaire empêche qui que ce soit d'autre que le constructeur de faire des mises à jour (et donc qui que ce soit si le constructeur fait faillite), et les systèmes embarqués compliquent encore la chose.

    Bref, un terreau fertile pour les pires problèmes : on doit malheureusement considérer que quasiment tout objet connecté à Internet peut être contrôlé à distance par des personnes malveillantes. Je vois deux principales sortes de problèmes avec les objets ainsi piratables :

    • L'objet (contrôlé en masse, sous forme de botnet de millions d'objets identiques) peut servir comme point de relais pour monter d'autres attaques, pas spécialement liées à l'Internet des Objets : typiquement des attaques déni de service distribué (DDoS) sur des services Internet cruciaux, l'Internet des Objets fournissant la bande passante de l'attaque. (Explication pour Madame Michu : imaginez par exemple que votre frigo connecté, comme cent millions d'autres dans le monde, contrôlés par un même pirate, se mette à saturer un site Web en le submergeant de requêtes, et le rende ainsi inutilisable.)

      Pour moi, ce risque-là est le plus sérieux et le plus problématique ; je n'écarte pas la possibilité que, par ce mécanisme, l'Internet des Objets mette en péril la civilisation (par exemple en cas d'attaques contre le réseau électrique). Et c'est entre autres à cause du fait que le grand public n'a aucune conscience de cette catégorie de risques (ou, même s'il en a conscience, s'en moque ; c'est un peu comme la pollution : même si on est conscient que la voiture pollue et contribue à un changement climatique mettant possiblement en danger la survie même de l'humanité, on n'est pas prêt à renoncer au confort qu'elle apporte). Les pirates qui constituent des botnets sont assez malins pour faire en sorte que leur action soit aussi transparente que possible pour le propriétaire de l'objet qu'ils piratent.

    • L'objet peut servir pour monter une attaque directe contre son propriétaire, sa vie privée ou son environnement : pensez à une télé qui peut vous filmer (parce que, évidemment, elle a une caméra, on ne sait pas trop pourquoi).

      Comme cas un peu hybride entre cet item et le précédent, je pense à la possibilité d'une attaque terroriste par les voitures autonomes : le jour où il y aura des centaines de milliers de voitures autonomes sur les routes et où quelqu'un les reprogrammera pour, à partir du même moment, chercher à heurter les passants au lieu de chercher à les éviter et qu'on aura des centaines de milliers de fois l'attentat de Nice simultanément, peut-être qu'on prendra ce problème au sérieux — mais ce serait bien si on pouvait le prendre au sérieux avant.

      Indépendamment de la possibilité d'une attaque de grande ampleur, je ne comprends pas qu'on envisage sérieusement d'autoriser les voitures autonomes (l'argument statistique selon lequel elles causent moins d'accidents que les conducteurs humains est valable et sérieux quand on l'applique aux bugs qui se produisent aléatoirement, mais il ne vaut rien quand on l'applique aux possibilités de piratage qui sont des grandes déviations non étudiables statistiquement).

  • Les pannes logicielles diverses ne se rapportant pas à la sécurité.

    Autrement dit, des objets tout le temps en panne pour des raisons stupides, si bien qu'on se retrouve à avoir des problèmes logiciels sur des objets (voitures, frigos, ampoules(!)) qui auparavant ne connaissaient aucun concept de logiciel. On peut subdiviser en deux sortes de problèmes :

    • les objets momentanément indisponibles pour une raison idiote, les plus fréquentes étant un problème Internet (exemple aléatoire) ou une mise à jour logicielle (veuillez ne pas tenter d'éteindre votre ampoule, une mise à jour est en cours(!!!), je ne plaisante pas ; l'ironie est qu'il s'agit précisément du genre de problèmes qui donnent une mauvaise image aux mises à jour de sécurité et encouragent les utilisateurs à chercher à les éviter, aggravant d'autant le problème du grand point précédent),
    • les objets définitivement cassés (bricked : pétrifiés ?) parce que, par exemple, une mise à jour a échoué, un bug ridicule empêche de s'en servir, parce qu'ils ont subi une attaque (soit ayant pour but délibéré de casser soit ayant mal fonctionné), ou parce que le constructeur a fait faillite et arrêté de faire tourner un service vital (voir plus bas sur l'obsolescence logicielle).

    C'est ce type de problèmes que le compte Twitter @internetofshit signale le plus souvent. À un certain niveau on peut dire tant pis pour les gens qui choisissent d'acheter de telles merdes, mais dans certains domaines devient de plus en plus difficile d'acheter des objets qui ne soient pas des merdes connectées.

  • Le fait que le constructeur conserve un pouvoir à distance sur l'objet, dont on n'est donc jamais vraiment propriétaire.

    (Disons qu'il s'agit là de tous les problèmes qui n'ont pas trait aux bugs ou aux problèmes de sécurité mais à la malice ou à l'incurie générale du constructeur.)

    Il s'agit là d'un problème d'érosion du droit de propriété et du droit à la vie privée. Je vois un certain nombre d'exemples, que je ne sais pas très bien organiser (et qui souvent débordent de l'Internet des Objets vers les questions de propriété intellectuelle) :

    • Le constructeur peut contrôler quand et comment on peut se servir de l'objet dans sa fonction primaire. Il peut limiter son usage, y compris en ajoutant des limitations plus tard dans le temps. Il peut utiliser son pouvoir pour verrouiller des marchés (par exemple ne permettre l'usage de l'objet qu'avec d'autres objets de sa gamme — mais là on s'écarte des problèmes particuliers de l'Internet des Objets).
    • Le constructeur peut utiliser son pouvoir pour limiter des droits secondaires. Par exemple, il peut empêcher qu'on prête ou revende l'objet (tuer le marché de la seconde main) en liant l'objet à un compte informatique.
    • Le constructeur peut cesser de maintenir l'objet (soit volontairement parce qu'il ne commercialise plus ce modèle, soit simplement parce qu'il fait faillite) et le rendre ainsi inutilisable parce que l'objet a besoin d'accéder à un service en ligne chez ce constructeur. (À titre d'exemple, beaucoup de liseuses électroniques cesseront de fonctionner le jour où leur constructeur fera faillite. Ce fait n'est généralement pas clair pour qui les achète.) Il s'agit donc d'une forme d'obsolescence programmée (je n'aime pas trop insister sur l'obsolescence programmée, qui est réelle mais touche parfois à la théorie du complot chez ceux qui veulent la voir partout et à tout propos — mais dans le cas de l'Internet des Objets, c'est une évidence).
    • Le constructeur peut obtenir des informations personnelles sur l'utilisateur ou ses habitudes, et les monétariser ou même s'en servir pour espionner. Ici, on rejoint mon premier point, mais avec le constructeur lui-même à la place d'un pirate. (Dans les petites anecdotes, on peut mentionner le gode vibrant qui vous espionne.)

Je ne sais pas si ma typologie est très bonne. Si vous avez une meilleure classification à proposer, n'hésitez pas. Il y a aussi sans doute toutes sortes de grandes catégories de problèmes que je n'ai pas évoquées : par exemple, le genre de choses qu'on pourrait espérer que l'Internet des Objets permît (du genre, pouvoir programmer soi-même n'importe quel objet connecté de façon Turing-complète et l'interfacer avec n'importe quel autre objet connecté), mais qu'il ne permet pas parce que les interfaces sont propriétaires et limitées (et parce que la possibilité de faire n'importe quoi ou de tout interfacer avec tout est souvent antagoniste de la sécurité).

Je suis pessimiste quant à l'avenir. Le grand public semble avoir un tout petit peu conscience des problèmes touchant à la vie privée, mais presque aucune des problèmes liés à la sécurité, et même les quelques problèmes dont il a conscience, il est généralement prêt à les ignorer complètement en échange de la promesse de n'importe quelle fonctionnalité luisante. Je n'ai même pas réussi à persuader mes propres parents de ne pas donner le mot de passe du wifi à leur télé[#]. C'est déprimant.

Ajout () :

On me signale que la RTBF a publié sur son site Web () une sorte de réponse à ce billet. Il aurait été sympa de leur part de me contacter avant, au moins pour me le dire, et peut-être pour me demander si je voulais être signalé autrement que comme un internaute, ce qui donne l'impression que je suis moins qualifié que le spécialiste, […] directeur technique chez […] une entreprise spécialisée dans la sécurité informatique qu'ils ont appelé pour me donner réponse, alors que, bon, si on veut jouer des titres, je suis maître de conférence chez une grande école spécialisée dans le monde numérique. Passons.

Disons surtout que c'est un peu dommage d'attirer l'attention sur ce billet qui ne prétendait être qu'une typologie (quels types de problèmes faut-il considérer) et pas une argumentation détaillant les problèmes eux-mêmes, sur lesquels je n'ai été qu'assez allusif (en tout cas par rapport aux tartines de mots que j'écris normalement sur de blog !) ; mais c'est la loi d'Internet, et une fois que je mets quelque chose en ligne, je ne peux pas me plaindre que ça soit lu.

Sur le fond, je n'ai pas trop de désaccord majeur avec l'article de la RTBF (je suis certainement d'accord avec le fait de ne pas accuser Linux !). Je reconnais que le manque de fiabilité des objets connectés peut avoir été compensé par d'autres avancées de la technique, et que la Tesla est sans doute plus fiable qu'une 2CV : mais la plupart des progrès de la technologie (certes pas tous) sont indépendants de l'aspect connecté, donc il est légitime de demander ces progrès sans les soucis qui vont avec ce mot. Je trouve cependant assez trompeuse la comparaison avec les avions (la phrase est : Si tout ce qui est connecté peut être piraté, l'exemple de l'aéronautique devrait nous rassurer), donc il est utile que je développe ce point :

Un avion n'est pas vraiment un objet connecté (en tout cas certainement pas au sens de l'Internet des Objets) : l'Internet n'y joue un rôle que pour le confort des passagers, pas pour le pilotage ni même pour l'assistance des pilotes, et l'industrie aéronautique a appris à séparer strictement les différents niveaux de criticités (même si je me suis inquiété par le passé qu'ils ne le fassent pas forcément au niveau des câbles, ils le font au moins strictement au niveau de la commutation : il ne doit y avoir aucune interaction entre le système de pilotage et le on-flight entertainment). C'est justement largement cette bonne pratique de faire que l'avion ne soit pas un objet connecté qui a permis d'assurer la sécurité (et de certifier des choses qui seraient, sinon, impossibles à certifier).

Comme je le dis dans un commentaire de cette entrée, sans doute que notre société dans son ensemble est beaucoup moins tolérante aux morts dus à l'aviation qu'aux morts dus à l'automobile (il y a plusieurs dizaines de milliers de fois plus de morts dus à la circulation automobile et pourtant on ne relâche pas la pression sur les constructeurs d'avions). Sans doute que l'industrie de l'aviation a acquis une attitude de saine méfiance vis-à-vis du logiciel et de ses failles (et de conservatisme prudent en général) que l'industrie automobile n'a pas. Toujours est-il que les voitures actuelles sont des passoires à sécurité, les avions ne le sont pas.

On peut évidemment espérer un progrès. Mais le bon niveau de la sécurité aérienne s'est construit par une forte réticence dès les origines par rapport à toute forme de « connexion » et certainement à Internet ; et il s'est construit sous l'effet d'une constante pression de la société, des pouvoirs publics et des organismes de certification ; il sera beaucoup plus difficile de revenir sur les mauvaises habitudes prises par l'industrie automobile. Personne n'imaginerait une seule seconde qu'un avion mette à jour son logiciel de vol par Internet : apparemment, pour une voiture, c'est « normal » !

[#] Mais ça permet de regarder des émissions en replay.Certes, mais si la télé peut le faire, l'ordinateur doit pouvoir le faire aussi, et sa sécurité est peut-être un peu moins épouvantable.Mais l'écran de l'ordinateur est moins commode. — Là j'aimerais bien répondre qu'il suffit alors de mettre le contenu sur clé USB et de la connecter à la télé, mais c'est vrai que c'est assez malcommode, surtout que tout va probablement être fait pour empêcher le replay d'être sauvegardé. Ceci dit, j'aimerais bien savoir ce que fait exactement la télé en question pour aller chercher le replay automagiquement.

↑Entry #2553 [older| permalink|newer] / ↑Entrée #2553 [précédente| permalien|suivante] ↑

↓Entry #2552 [older| permalink|newer] / ↓Entrée #2552 [précédente| permalien|suivante] ↓

(lundi)

Des vacances, et encore des jardins et châteaux (Fontainebleau et Maintenon)

Il faut peut-être que je crée une nouvelle catégorie dans ce blog pour les visites de jardins et de châteaux et pour les entrées où je m'amuse avec la fonction « panorama » de mon Android : après Vaux-le-Vicomte, Champs-sur-Marne et Villarceaux, Chantilly et Provins, nos visites périfanciliennes ont été mises en pause parce que le poussinet est allé visiter la montagne magique du côté de Crans-Montana (dans le Valais, en Suisse), où je l'ai brièvement rejoint dans un chalet (appartenant à une amie de sa grand-tante) dont la vue depuis notre chambre sur la vallée du Rhône, il faut l'admettre, portait assez loin :

[Panorama depuis Crans-Montana]

Nous avons aussi eu l'occasion de visiter Lausanne sur le chemin de mon retour à Paris :

[Panorama de Lausanne]

(Décidément, je ne me lasse pas de la géométrie escherienne que crée cette fonction panorama.)

Ensuite, mon poussinet est rentré à son tour, et nous avons visité le parc du château de Breteuil (Yvelines, Île-de-France), qui contient un certain nombre de beaux arbres, tels ce magnifique Fraxinus excelsior dont la hauteur gigantesque (qui dépassait le champ vertical de mon appareil photo quelle que fût la manière dont je le tinsse) m'a fait comprendre pourquoi les anciens scandinaves pensaient qu'Yggdrasil reliait le ciel et la terre :

[Panorama du parc du château de Breteuil]

(Ça ne se voit pas sur la photo, mais il y a une belle pente entre le point d'où la photo est prise et la base de l'arbre.)

Puis mon poussinet a de nouveau fui dans les Alpes, cette fois-ci près du col du Mont-Cenis :

[Panorama du lac du Mont-Cenis]

Il a essayé de me faire faire le tour du lac quand je suis venu le voir, mais j'ai eu le vertige alors nous avons abandonné (et sommes allés, à la place, prendre une glace en Italie en voiture). Il faut dire que je ne suis vraiment pas fait pour la montagne : quand ça monte, je fatigue, quand ça descend, mes articulations se plaignent, et quand on suit une ligne de niveau, j'ai le vertige. Mais on a quand même trouvé une promenade en forêt qui ne m'a pas trop déplu, celle que j'ai mentionnée ici, et dont les passages dégagés avaient une belle vue :

[Panorama depuis Extravache]

Puis le poussinet est de nouveau rentré sur Paris et nous avons pu reprendre nos explorations de parcs et jardins.

*

La semaine dernière, nous avons visité Fontainebleau. C'était un peu un échec : nous sommes arrivés à pour nous entendre dire qu'il était trop tard pour visiter le château ; du coup nous nous sommes rabattus sur les jardins, dont mon poussinet a vérifié sur le site web qu'ils fermaient à 19h. Mais en fait, il y a trois jardins (le jardin anglais, le jardin de Diane et le grand parterre) sans compter le parc[#] et, bien sûr, la forêt autour ; nous avons gardé le jardin anglais pour la fin sans raison particulière, et nous sommes rendus compte trop tard qu'il y avait une petite note qui disait que les jardins fermaient à 19h mais que le jardin anglais fermait une heure plus tôt. (Je déteste les horaires qui écrivent quelque chose comme fermeture à 22h, dernière entrée 30min plus tôt au lieu d'être honnête et de dire fermeture 21h30, possibilité de rester encore 30min pour ceux qui sont déjà entrés ; en l'occurrence, ils auraient dû dire que les jardins fermaient à 18h et le grand parterre une heure plus tard.) Heureusement, le parc, lui, ne fermait pas, pas plus que la forêt :

[Panorama depuis Fontainebleau]

[#] La distinction entre parc et jardin n'était pas claire pour moi, mais apparemment les gens utilisent parc pour quelque chose de moins soigné qu'un jardin et dont l'entrée est souvent moins contrôlée.

Hier, nous sommes allés au château de Maintenon (en Eure-et-Loire, un tout petit peu au-delà de l'Île-de-France). Les jardins sont petits mais c'est impressionnant à quel point ils sont manucurés :

[Panorama des jardins du château de Maintenon]

Tout autour du parterre il y avait de la sauge bleue (Salvia farinacea) qui avait un succès incroyable auprès des bourdons en tous genres, et même quelques xylocopes violets (Xylocopa violacea — bon, je ne suis pas certain de l'espèce, ils ne restaient pas longtemps au même endroit, mais au moins des abeilles charpentières), une bestiole vraiment impressionnante par sa taille.

Au fond, il y a les ruines de l'aqueduc de Maintenon qui, si ce n'était le temps ensoleillé, auraient semblé tout droit sorties d'un tableau de Caspar David Friedrich.

Enfin, hier, nous nous sommes promenés dans la forêt de Meudon, en finissant par la terrasse juste en-dessous de l'observatoire, d'où on a une très jolie vue sur Paris :

[Panorama depuis la terrasse de Meudon]

(Cliquez sur n'importe laquelle des images précédentes pour zoomer un peu. Seulement un peu parce que, de toute façon, l'optique de mon téléphone n'est pas terrible, donc ça n'aurait pas beaucoup de sens de mettre une haute résolution. A priori j'avais l'intention de faire un peu de magie HTML/CSS/JavaScript qui charge initialement l'image en basse résolution en taille doublée puis, dès que l'image devient visible, charge l'image plus grande, mais j'ai reculé d'horreur devant la difficulté d'accomplir quelque chose d'aussi simple avec les technologies Web qui comme d'habitude ont l'air de permettre de faire tout et n'importe quoi sauf la chose évidente que tout le monde va vouloir faire — donc j'ai renoncé et il faut cliquer comme au bon vieux temps du Web 0.01.)

↑Entry #2552 [older| permalink|newer] / ↑Entrée #2552 [précédente| permalien|suivante] ↑

↓Entry #2551 [older| permalink|newer] / ↓Entrée #2551 [précédente| permalien|suivante] ↓

(jeudi)

Le corps à un élément, et autres licornes mathématiques

Les chasseurs-prouveurs se rassemblaient comme chaque soir autour de l'équation de la chaleur et se racontaient les histoires de leurs aventures. Joueur-Atlas, qui était célèbre pour avoir autrefois attrapé un groupe parfait à 8 315 553 613 086 720 000 éléments évoqua le fils de « son » groupe, dont il avait aperçu la silhouette monstrueuse, à la lumière de la lune, en train de remuer près du nombre 196 883, et qu'il espérait voir un jour capturé. Mais ce soir, c'était au tour du vieux Bâtisseur-Alternatif de prendre la parole.

— Un jour, j'ai vu un corps comme je n'en avais jamais vu auparavant.

Il désigna une figure rupestre qu'il avait exécutée il y a longtemps, à la craie sur le tableau noir du Hilbertraum : un F pas tout à fait gras finissant par un 1 plutôt bas. Et il conclut théâtralement :

— Figurez-vous que ce corps n'avait qu'un seul élément.

Certains soupiraient d'entendre Bâtisseur-Atlernatif raconter toujours la même histoire à dormir debout, mais les jeunes chasseurs-prouveurs étaient fascinés :

— Un corps à un seul élément ? Mais ce n'est pas possible, grand-père !

— Pourtant je l'ai bien vu. Et attendez, ce n'est pas le plus incroyable… il était… sous l'anneau des entiers !

Cette révélation fit place à un silence choqué de la part de ceux qui n'avaient pas encore entendu cette légende. Un corps caché sous l'anneau des entiers ! Cela semblait si impossible — et en même temps si prometteur !

Bon, trêve d'humour à 1/1728 zorkmids.

Ce que j'appelle licorne mathématique, c'est un objet mathématique dont on aimerait croire à l'existence, un objet dont on a une certaine intuition et même des indices suggérant sa présence, qui, naïvement envisagé tel quel, n'existe pas, n'est pas possible, conduit à des paradoxes et des contradictions. On peut démontrer qu'il n'existe pas, que les propriétés qu'on lui attribue sont impossibles, et pourtant, on cherche quand même un moyen de le faire exister.

Ce qui fait que les licornes sont des licornes, c'est qu'on n'a pas trouvé la bonne définition ou la bonne théorie-cadre. Chasser la licorne, c'est donc chasser la définition ou la théorie qui lui permettra d'exister et de faire disparaître les paradoxes. Cela peut sembler bizarre : si on s'imagine qu'on donne naissance à un objet mathématique en le définissant, comment peut-il y avoir des objets qu'on poursuive sans parvenir à les définir ? Pourtant, cela se produit assez souvent (et je prends même ça pour un indice — certes pas terriblement concluant — dans le sens que les mathématiques existent indépendamment de l'homme).

*

L'exemple le plus simple est sans doute celui des nombres complexes. La manière dont je vais l'évoquer prend des libertés avec l'Histoire, qu'on m'en pardonne, mais mon but n'est past de raconter l'histoire des maths mais d'expliquer le concept d'une licorne. La racine carrée de −1, donc, était une licorne : un nombre qui, multiplié par lui-même, donne −1, c'est impossible a priori. Et on a une preuve de cette impossibilité : à savoir, que x soit positif ou négatif, son carré x² = x·x est forcément positif, donc ne peut jamais valoir −1. Bref, √(−1) est une licorne. Pourtant, quelqu'un prétend avoir vu des traces de la licorne : si on fait comme si elle existait, si on oublie cette impossibilité, si on mène les calculs comme si la racine carrée des nombres négatifs avait un sens, on arrive à résoudre des équations du troisième degré qu'on ne savait pas résoudre autrement (celles qui ont trois racines). Comment expliquer que quelque chose d'impossible conduise à une conclusion heureuse ? C'est cela qui fait soupçonner que la licorne existe vraiment, et qui donne envie de la capturer.

Maintenant on ne voit plus du tout que cette histoire a été une licorne : maintenant, √(−1) est un nombre complexe, quelque chose de tellement banal qu'on en oublie trop facilement que cela a pu représenter un paradoxe, une licorne. Pourtant, pour capturer cette licorne, il a fallu faire un saut conceptuel : abandonner l'idée que les nombres soient ordonnés, c'est un saut conceptuel gigantesque (les nombres ont été faits pour être ordonnés, pourrait-on dire ; les opérations algébriques sont une sophistication ajoutée sur le concept de comparaison). Mais une fois fait le saut conceptuel, une fois définie la notion de nombre complexe, la licorne est capturée, elle perd tout son mystère, on s'aperçoit que la définition antérieure de nombre était restrictive (ce qui ne signifie pas qu'elle n'ait pas de valeur !, il n'est pas question de remplacer systématiquement les nombres réels par des nombres complexes en mathématiques ou ailleurs).

Ce qui m'intéresse dans cette histoire, c'est la démarche où d'abord on aperçoit des traces de pas qui semblent paradoxales (cette bestiole marche comme un cheval, pourtant elle semble avoir une corne !), on traque le concept, et on finit par capturer la licorne, c'est-à-dire résoudre le paradoxe, rendre possible ce qu'on avait démontré impossible, en contournant l'impossibilité par une définition élargie. La licorne se capture par la définition. C'est inhabituel par rapport à la pratique générale des mathématiques qui consiste à chasser les preuves, pas les définitions (ni les licornes).

Méta : Dans la suite, je vais évoquer quelques autres licornes. Ne sachant pas à quel niveau de vulgarisation me placer, je n'ai pas vraiment pris de décision cohérente à ce sujet, et je suppose donc de la part de mon lecteur des connaissances variables de paragraphe en paragraphe : j'espère néanmoins avoir fait en sorte qu'on puisse comprendre un petit peu l'idée générale même si on ne comprend pas tel ou tel passage. D'autre part, comme mon but était de raconter une histoire plus que d'exposer des maths, il se peut que je dise des choses un peu abusées ici ou là (j'espère quand même avoir toujours été assez vague pour qu'on ne puisse pas m'accuser d'avoir écrit un énoncé indiscutablement faux, mais si c'est le cas, je mettrai la faute sur les licornes qui m'ont poussé).

*

Un autre exemple que je trouve assez convainquant de licorne qui a été capturée (beaucoup plus récemment que √(−1)) est la « fonction δ » de Dirac. Naïvement, c'est une fonction qui vaut zéro partout sauf en zéro, où elle prend une valeur infinie, et même tellement infinie que l'intégrale de la fonction vaut 1. Sauf que, dit comme ça, ça n'a pas de sens : l'intégrale de Lebesgue ne permet pas une telle chose. Ça n'a pas empêché Dirac d'introduire cette « fonction », et de se rendre compte que c'était bien utile de s'en servir (dans son cas, en mécanique quantique ; mais elle sert aussi en traitement du signal ou dans toutes sortes d'autres contextes). Le sens intuitif est clair : on concentre une fonction positive sur une région infinitésimale autour de 0 en gardant l'intégrale constante ; mais la difficulté est de formaliser la chose. Il y a toutes sortes de propriétés « impossibles » qui viennent naturellement avec : par exemple, sa transformée de Fourier est la fonction constante égale à 1 (contredisant notamment le théorème de Riemann-Lebesgue qui assure que la transformée de Fourier d'une fonction intégrable doit tendre vers zéro à l'infini) ; on peut aussi écrire cette licornesque fonction δ comme une limite de densités de probabilités gaussiennes centrées en 0 et dont l'écart-type tend vers 0 (et vérifier que cette limite, en fait, n'existe pas en tant que fonction). Et si on commence à considérer δ² les choses ne tiennent vraiment plus guère debout. Par contre, si on introduit la dérivée δ′ de δ, les choses se passent nettement moins mal, mais c'est encore plus difficile à justifier formellement.

Bref, une licorne : un objet dont on voudrait bien qu'il existât, mais qu'on n'arrive pas à faire entrer dans le formalisme de la théorie dont on dispose. Ce n'est pas que la théorie est « fausse », bien sûr : c'est que les définitions sont trop étroites pour encadrer l'objet qu'on voudrait. C'est le signe qu'il doit y avoir une théorie plus générale à découvrir.

Dans le cas de la « fonction δ », la théorie en question est celle des distributions, développée en 1945 par Laurent Schwartz. et on peut presque dire qu'il a obtenu la médaille Fields (en 1950) non pas pour un théorème mais pour une définition. L'idée qui permet de formaliser la fonction « fonction δ », donc, c'est de la considérer non pas comme une fonction numérique (de ℝ vers ℝ), mais à travers son intégrale : une distribution f n'est pas quelque chose qui à un réel x associe un autre réel f(x) mais qui à une « fonction-test » φ associe un réel ⟨f,φ⟩ qui correspond intuitivement à ∫(f·φ) = ∫f(xφ(x)·dx (et généralise cette construction pour une fonction) ; en choisissant correctement quel espace de fonctions-test on prend et quelle condition de continuité on exige sur φ ↦ ⟨f,φ⟩, on arrive à définir une notion de distribution qui se comporte de façon agréable. (La distribution δ est alors simplement définie par le fait que ⟨δ,φ⟩ = φ(0), et sa dérivée δ′ par le fait que ⟨δ′,φ⟩ = −φ′(0).)

La théorie des distributions ne vient évidemment pas contredire les théorèmes d'impossibilité selon lesquels la « fonction δ » ne pouvait pas être une fonction : elle passe à côté, définit une nouvelle sorte d'objets pour attraper la licorne. Il n'y a pas forcément qu'une seule possibilité. Heaviside en 1893 (donc bien avant Dirac) avait inventé une forme de « calcul symbolique » qui donnait un sens à la fonction δ (pas encore nommée ainsi), même si ce sens était très peu satisfaisant : on ne peut pas considérer qu'il ait attrapé la licorne, simplement qu'il l'avait aperçue ; Bochner en 1932 avait introduit un notion de « fonctions formelles » (dérivables à volonté) qui, en fait, recouvrait partiellement la théorie des distributions et aurait permis de définir la fonction δ, mais personne ne s'en est rendu compte : il a frôlé la licorne sans le savoir. En 1958, Mikio Satō a introduit les hyperfonctions, généralisant encore plus les distributions — il aurait été parfaitement possible qu'elles fussent définies en premier. La théorie des distributions ouvrait elle-même des quêtes de nouvelles licornes : on ne peut pas multiplier les distributions (par exemple définir δ²), il y a un théorème d'impossibilité de Schwartz à ce sujet ; mais dans les années '80, on a attrapé cette licorne-là, quand Colombeau a défini les algèbres qui portent son nom.

*

Évidemment, la chasse aux licornes a un coût : les licornes ne sont pas des animaux comme les autres, donc ne se comportent pas comme les autres : même une fois qu'on les a attrapées par une définition, il faut les apprivoiser, et ce n'est pas forcément facile. Les nombres complexes n'ont pas toutes les propriétés des nombres réels (avoir dû abandonner la possibilité de les ordonner est un gros sacrifice). Les distributions de Schwartz ne se comportent pas comme des fonctions, elles ont des propriétés qui peuvent être déplaisantes, voire vraiment pénibles, et ne sont pas adaptées à tout et n'importe quoi ; les éléments des algèbres de Colombeau sont encore plus désagréables, et on ne s'en sert pas tant que ça. Mais il est quand même utile d'avoir attrapé la licorne pour comprendre comment elle fonctionne, pour savoir comment on peut formaliser une notion qu'on avait envisagée intuitivement.

Distinguons la chasse aux licornes de celle de l'éléphant blanc. La licorne a ceci de particulier qu'on « sait » qu'elle ne peut pas exister : toute la difficulté est de trouver la définition qui lui permet quand même d'exister. L'éléphant blanc, lui, on ne sait pas s'il existe ou on ne sait pas le construire, mais c'est un animal normal. Celui qui réussit à le capturer a droit à la gloire, mais il n'a pas accompli quelque chose qui semblait carrément impossible. Un exemple d'éléphant blanc, c'est le groupe Monstre (ou le groupe J₄ de Janko) : on a vu les traces du Monstre avant de l'attraper, c'est-à-dire qu'on soupçonnait sa présence, on savait plein de choses sur lui[#], sans avoir de construction ou de preuve de son existence — mais il n'y avait pas de doute que c'était un groupe, qu'on n'avait aucun besoin d'étendre la définition de « groupe » pour lui faire plaisir. Une licorne, c'est autre chose.

[#] En l'occurrence, la « table de caractères », qu'on peut comparer à une empreinte extrêmement précise que l'éléphant a laissé sur le monde mathématique. Un squelette, peut-être ? Une fois qu'on a vu le squelette, l'existence de l'animal ne fait vraiment plus guère de doute, même s'il reste à attraper.

Je ne prétends pas que ma classification des objets hypothétiques en licornes et éléphants blancs soit toujours parfaitement claire, cependant. La définition mathématiquement précise d'une théorie quantique des champs est quelque part entre les deux (ou peut-être que c'était une licorne jusqu'à ce que les axiomes de Wightman la transforment en éléphant blanc ; mais les intégrales de chemin sont probablement encore plutôt du côté des licornes).

En matière d'analyse, il y a une autre licorne (ou en tout cas une bestiole apparentée) que je pourrais mentionner, et qui a été au moins partiellement domestiquée, c'est la sommation des séries divergentes. La somme (0+1+2+3+4+⋯), par exemple, vaut classiquement l'infini, mais si on chevauche la bonne licorne, elle peut valoir −1/12 (tandis que (1+1+1+1+1+⋯) vaut −1/2). Quand on manipule les séries divergentes, on aboutit facilement à toutes sortes de paradoxes (du genre, (1+1+1+1+1+⋯) = (1+(1+1+1+1+⋯)) donc (−1/2) devrait valoir 1+(−1/2), ce qui manifestement n'est pas le cas), mais il y a quand même toutes sortes de manipulations qui favorisent la valeur −1/12 pour (0+1+2+3+4+⋯) (disons) : une théorie de la sommation des séries divergentes doit rendre rigoureuse l'explication de quelles séries elle permet de sommer, avec quelles valeurs et pourquoi, et quelles manipulations sont légitimes ou non ; par exemple, la sommation de (0+1+2+3+4+⋯) en −1/12 est justifiée par la régularisation par fonction zêta. On est un peu à la limite de ce que j'appelle une licorne, parce que le problème n'est pas tellement de définir un objet, mais comme il s'agit de justifier rigoureusement des calculs qu'Euler faisait sans s'embarrasser, cela rentre au moins dans le même coin du bestiaire.

Une licorne particulièrement célèbre auprès des algébristes est le corps à un élément (parfois noté 𝔽₁). Je ne vais pas définir ce que c'est que le corps à un élément puisque, justement, c'est une licorne — il n'existe pas. Un corps a forcément au moins deux éléments (0 et 1, qui doivent être distincts ; il y a bien un anneau appelé l'anneau nul, qui a un seul élément et où 0=1, mais cet anneau est prodigieusement inintéressant, et ce n'est pas le mythique corps à un élément). Il s'agirait donc de définir une notion plus générale de corps, dans laquelle le « corps à un élément » existerait ; mais en fait, il est à peu près acquis que ce n'est pas tellement la notion de corps elle-même qu'il faut généraliser (on ne va pas arriver à capturer la licorne en recherchant un ensemble muni d'une structure algébrique quelconque, et surtout pas un singleton muni d'une structure algébrique quelconque, forcément inintéressante), c'est plutôt la notion de « variété algébrique sur un corps » ou quelque chose comme ça. Certains ont l'intuition que le corps à un élément a l'élément 1 mais pas l'élément 0, d'autres ont l'intuition qu'il a l'élément 0 et seulement une « trace infinitésimale » d'élément 1, mais tout ça n'a pas de sens précis : il ne faut pas prendre l'idée que ce corps a « un élément » trop au sérieux, et peut-être qu'il vaudrait mieux l'appeler le corps fondamental ou le corps absolu ou le corps-base ultime ; la seule raison pour laquelle on dit qu'il a « un élément », c'est que certaines formules le concernant s'obtiennent en substituant q=1 (parfois après quelques modifications préalables) dans une formule concernant les corps finis à q éléments.

Bref, je ne peux pas expliquer ce que c'est que le corps à un élément puisque personne ne sait, mais je peux au moins donner quelques indications sur les endroits où on a observé les traces de cette licorne.

*

Le premier à avoir aperçu la licorne « corps à un élément », c'est Jacques Tits, dans le cadre de l'étude de la théorie des groupes algébriques réductifs.

Comme je ne veux pas trop entrer dans les explications techniques, juste raconter un peu l'histoire, je ne vais pas vraiment tenter de dire ce que c'est que les groupes algébriques réductifs, mais disons qu'on peut faire comme si c'était pareil que les groupes de Lie réductifs complexes dont j'ai parlé ici, et en tout cas il y a par exemple le groupe général linéaire GLn, le groupe spécial linéaire SLn, le groupe spécial orthogonal SOn, le groupe symplectique Spn, les groupes exceptionnels G₂, F₄, E₆, E₇, E₈… chacun de ces groupes peut être considéré sur un corps k particulier (ou même sur un anneau commutatif, mais c'est un petit peu plus délicat) : si G est un groupe algébrique et k un corps ou simplement un anneau commutatif, G(k) est un groupe au sens ordinaire appelé ensemble des points de G à valeurs dans k. Par exemple, GLn(k) est le groupe des matrices n×n inversibles à coefficients dans k, comme on s'y attend, le groupe SLn(k) est formé de celles de déterminant 1, et Spn(k) est formé des matrices 2n×2n qui sont symplectiques (préservent une forme bilinéaire alternée non-dégénérée)[#2]. La fonction qui à k associe G(k) est un foncteur, et est même un schéma au sens où je le définis dans cette entrée.

[#2] Par contre, SOn(k) n'est pas ce qu'on imagine naïvement, d'une part parce que la forme quadratique standard (x1² + ⋯ + xn²) utilisée pour définir SOn sur les réels n'est pas celle qui va me fournir un groupe algébrique réductif déployé comme ce que j'ai envie de considérer ici, et d'autre part parce qu'il y a toujours des épines en caractéristique 2 ; voir ici. Enfin, si k est un corps de caractéristique ≠2 et dans lequel −1 est un carré, alors SOn(k) est bien ce que tout le monde entendra par là (mais sur les réels, par exemple, ce que je veux noter SOn(ℝ) est ce qu'on note classiquement SO(⌊n/2⌋,⌈n/2⌉)).

Mais par ailleurs, à tout groupe algébrique réductif G la théorie associe aussi un autre groupe W(G) appelé son groupe de Weyl : ceux qui ont lu ce rant-ci ou celui-là ont au moins une petite idée de quoi il s'agit ; mais sinon, par exemple, le groupe de Weyl de GLn ou SLn est le groupe symétrique sur n objets, et celui de SO2n+1 ou Spn est le groupe des permutations signées sur n objets (= produit d'une matrice de permutation de taille n×n par une matrice diagonale à valeurs diagonales dans {±1}) ; les groupes de Weyl de F₄, E₆, E₇ et E₈ ne sont pas si faciles à décrire mais j'en ai dit un mot ici et (celui de G₂ est juste le groupe diédral du triangle de l'hexagone).

Quel est le rapport entre ces groupes G(k) des points de G à valeurs dans k et ce groupe de Weyl W(G) ? A priori, pas grand-chose. Mais c'est là que Tits fait une observation intéressante : si k est un corps fini 𝔽q à q éléments, il y a une formule permettant de calculer l'ordre (= le nombre d'éléments) de G(𝔽q), et c'est un polynôme en q. Par exemple, pour E₈, c'est q120·(q30−1)·(q24−1)·(q20−1)·(q18−1)·(q14−1)·(q12−1)·(q8−1)·(q2−1) ; or on peut calculer l'ordre de W(G) en prenant ce polynôme, en jetant tous les facteurs q−1 dedans, et en substituant ensuite q=1 (par exemple, pour E₈, cela donne 30×24×20×18×14×12×8×2 = 696 729 600). Les choses se passent donc un peu comme si W(G) était le groupe des points de G à valeurs dans un corps à q=1 élément ! (Enfin, pas tout à fait, puisqu'on jette le facteur q−1 avec lequel on obtient simplement zéro.)

Mais Tits ne s'arrête pas là. Il a défini une structure combinatoiro-géométrique appelée les immeubles, je ne vais pas essayer d'expliquer de quoi il s'agit, mais cette structure admet une variante dégénérée (les immeubles minces ou complexes de Coxeter) qui se comporte comme s'il s'agissait d'immeubles sur le corps à un élément. D'autre part, les groupes algébriques ont des sous-groupes particulièrement importants appelés les paraboliques, et leurs groupes de Weyl ont aussi des paraboliques qui se comportent de façon tout à fait analogue. Et le nombre d'éléments du quotient d'un groupe algébrique par un sous-groupe parabolique, sur un corps fini à q éléments, devient, quand on fait q=1, le nombre d'éléments du quotient du groupe de Weyl par son sous-groupe parabolique correspondant ; et ceci fournit tout un jeu d'analogies entre des données d'algèbre linéaire et des données combinatoires (on appelle ça les q-analogies).

Je peux au moins donner un tout petit exemple de ce genre de ressemblance combinatoire. Si k est un corps et 0≤rn deux entiers naturels, la grassmannienne Gr(r,n,k) est l'ensemble des sous-k-espaces vectoriels de dimension r de kn. On peut aussi la voir comme le quotient (ensemble des classes à gauche) du groupe général linéaire G := GLn(k) des matrices n×n inversibles sur k par son sous-groupe « parabolique » H formé des matrices triangulaires supérieures par blocs de forme (r+(nr))×(r+(nr)) (je veux dire, n'ayant que des 0 à l'intersection des nr dernières lignes et des r premières colonnes) ; l'identification envoie une classe à gauche g·H sur le sous-espace vectoriel g·U de knU est le sous-espace vectoriel engendré par les r premiers vecteurs de la base canonique de kn de sorte que H est justement le stabilisateur {g∈G : g·U=U} de U dans G = GLn(k). Si k est le corps fini 𝔽q à q éléments, alors le cardinal de cette grassmannienne Gr(r,n,𝔽q) = G/H est donné par le coefficient binomial gaussien Binom(n,r,q) := [n]q!/([r]q!·[nr]q!) où [s]q! est défini comme le produit [1]q · [2]q · [3]q ⋯ [s−1]q · [s]q et où [s]q désigne le polynôme (qs−1)/(q−1) = qs−1 + ⋯ + q² + q + 1. Ces dernières formules et notations suggèrent une analogie évidente : quand q=1, le polynôme [s]q vaut simplement s, donc le polynôme [s]q! vaut s! et le polynôme Binom(n,r,q) vaut le coefficient binomial usuel Binom(n,r) = n!/(r!·(nr)!). Mais ce Binom(n,r) dénombre bien quelque chose : c'est l'ensemble, notons-le Gr₁(r,n) des parties à r éléments d'un ensemble à n éléments, disons {1,…,n}, et ce Gr₁(r,n) peut se voir comme le quotient (ensemble des classes à gauche) du groupe symétrique G₁ := 𝔖n par son sous-groupe « parabolique » H₁ formé des permutations qui stabilisent l'ensemble U={1,…,r}. Et justement, le groupe symétrique G₁ = 𝔖n est le groupe de Weyl de GLn. Tout ceci suggère que :

Un espace vectoriel de dimension n sur le « corps à un élément » est simplement un ensemble fini de cardinal n. Un sous-espace vectoriel de dimension r est simplement un sous-ensemble de cardinal r. Une matrice inversible n×n sur le « corps à un élément » est simplement une permutation de n objets.

Cette analogie est donc appuyée à la fois sur le groupe de Weyl et sur l'observation combinatoire que le nombre Binom(n,r,q) = #Gr(r,n,𝔽q) de sous-espaces vectoriels de dimension r d'un espace vectoriel de dimension n sur le corps à q éléments est un polynôme en q qui devient, quand on fait q=1 (cette fois il n'y a rien à changer) le nombre Binom(n,r) de parties à r éléments d'un ensemble de cardinal n. Mais c'est encore plus intéressant quand on permet à r de varier ou quand on considère des « drapeaux » de plusieurs sous-espaces vectoriels imbriqués : c'est essentiellement cette combinatoire-là l'« immeuble » associé à GLn sur un corps k, et l'« immeuble mince » est la combinatoire des parties à r éléments de {1,…,n} et de leurs drapeaux (qui sont juste des suites finies de parties incluses les unes dans les autres).

Et le même genre de choses est possible pour tous les autres groupes algébriques réductifs. Ceci permet de « définir » d'autres structures d'algèbre linéaire sur le corps à un élément. Par exemple, étant acquis qu'un espace vectoriel de dimension n sur le « corps à un élément » est simplement un ensemble fini à n éléments, une forme bilinéaire alternée non-dégénérée dessus est un appariement de ces éléments en n/2 paires (ce qui exige évidemment que n soit pair…) ; un sous-espace lagrangien[#3] (= totalement isotrope maximal) est un choix d'un élément de chaque paire ; et une matrice n×n symplectique est une permutation qui stabilise l'appariement (ce qui peut s'identifier à une permutation signée des n/2 paires, et c'est cohérent avec le fait que le groupe de Weyl de Spn est l'ensemble des permutations signées).

[#3] Le nombre de sous-espaces vectoriels lagrangiens d'un espace vectoriel symplectique (= muni d'une forme bilinéaire alternée non-dégénérée) de dimension n=2m sur le corps fini à q éléments vaut ∏1≤rm ([2r]q/[r]q) (où toujours [s]q = (qs−1)/(q−1) = qs−1 + ⋯ + q² + q + 1) ; pour q=1, ceci donne bien 2m, le nombre de façons de choisir un élément dans chacune des m paires.

Bref, il y a tout un ensemble d'indices quant à l'existence de la licorne « corps à un élément » qui viennent de la théorie des groupes algébriques et des analogies (q-analogies) entre des structures d'algèbre linéaire et des structures combinatoires.

*

Mais il y a d'autres traces de la licorne, ou en tout cas, d'une licorne, qui viennent, cette fois, de la théorie des nombres. Beaucoup de résultats de théorie des nombres (les fondements de la théorie des anneaux d'entiers, la théorie du corps de classes, les lois de réciprocité, les propriétés basiques des fonctions zêta, ce genre de choses) peuvent se formuler dans deux contextes, les « corps de nombres » (c'est-à-dire les extensions finies de ℚ) et les « corps de fonctions » (c'est-à-dire les corps de fonctions rationnelles de courbes algébriques sur les corps finis), et il y a une grande analogie entre ces deux contextes, le cas des « corps de fonctions » étant, généralement parlant, plus simple à traiter. (Je vais donner un tout petit bout d'exemple plus loin, mais pour une introduction générale à la théorie des nombres dans le contexte des « corps de fonctions », on pourra consulter le livre de Michael Rosen, Number Theory in Function Fields, Springer GTM 210 (2002), qui est assez pédagogique.) Ceci suggère qu'on doive visualiser un anneau comme ℤ comme l'anneau des fonctions régulières (≈ polynomiales) sur un objet géométrique qui serait une sorte de courbe, et le corps ℚ comme le corps des fonctions rationnelles sur cette courbe ; cet objet géométrique n'est pas spécialement une licorne, la théorie des schémas de Grothendieck le définit correctement (il s'agit de Spec(ℤ), et en gros on peut imaginer que c'est l'ensemble des nombres premiers), mais on a l'impression qu'il manque quand même quelque chose à l'analogie. Notamment, alors que côté « corps de fonctions » les anneaux et corps de fonctions sont des algèbres sur un corps fini, côté « corps de nombres », il manque un corps de base, un corps sur lequel ℤ serait une algèbre. (Il manque aussi un « point à l'infini » à Spec(ℤ) pour être une bonne courbe, et je vais revenir là-dessus plus bas en essayant d'expliquer un petit peu de quoi il s'agit.)

À ce niveau-là, donc, le « corps à un élément » serait quelque chose qui rendrait plus satisfaisante l'analogie entre « corps de fonctions » et « corps de nombres » en théorie des nombres. Arriver à le définir correctement semble devoir promettre des retombées spectaculaires. Notamment, comme l'hypothèse de Riemann est démontrée côté « corps de fonctions », si ℤ peut être vu comme l'anneau des fonctions d'une courbe sur ce corps licornesque, on devrait pouvoir prendre le produit de deux copies de cette courbe pour définir une sorte de surface, et former quelque chose qu'on doit pouvoir noter ℤ ⊗𝔽₁ ℤ (l'anneau des fonctions sur la surface en question, anneau tout aussi licornesque que le corps à un élément 𝔽₁ lui-même) qui serait une des clés pour une éventuelle démonstration de l'hypothèse de Riemann. On pourrait aussi imaginer des retombées algorithmiques comme une méthode efficace de factorisation des entiers. (Tout cela, évidemment, est totalement spéculatif, et il n'y a rien d'obligatoire à ce qu'une théorie même parfaitement satisfaisante du corps à un élément ait de telles conséquences.)

Il faut garder une possibilité à l'esprit, cependant, c'est que non seulement il n'est pas du tout certain que le « corps à un élément » qu'on soupçonne pour des raisons de groupes algébriques (évoquées plus haut) et le « corps à un élément » qu'on soupçonne à cause d'analogies en théorie des nombres (que je viens d'esquisser) existent l'un ou l'autre, mais même s'ils existent, rien ne dit qu'ils soient nécessairement identiques. Peut-être qu'une théorie permettra de définir l'un et pas l'autre, ou l'autre et pas l'un, peut-être que deux théories différentes et incompatibles permettront de définir chacun d'ente eux, ou qu'une théorie permettra de définir les deux sans qu'ils soient le même objet. Il ne faut pas trop présupposer au sujet des licornes.

*

Néanmoins, il y a un certain nombre de choses qu'on pense savoir sur le corps à un élément et qui semblent assez cohérentes entre les différentes traces de pas laissées par la licorne.

Par exemple, il semble que le corps à un élément ait une unique extension de degré d pour chaque entier naturel d, et qu'on appelle… le corps à 1d éléments. Oui, c'est un peu ridicule, dit comme ça. Peut-être qu'il vaut mieux imaginer, en fait, que le corps à 1 élément a en fait (1+ε) éléments avec ε infinitésimal, si bien que son extension de degré d serait le corps à (1+ε)d≈(1+dε) éléments. Ce corps à 1d (ou (1+ε)d) éléments est, bien sûr, tout autant une licorne que celui à 1 élément, mais on sait quelques choses sur lui : le groupe de Galois de l'extension est le groupe cyclique à d éléments ; au moins pour d impair, un corps est une algèbre sur le corps à 1d éléments si et seulement si il contient les racines d-ièmes de l'unité ; un espace vectoriel de dimension finie sur le corps à 1d éléments est un ensemble fini muni d'une permutation qui soit un produit de d-cycles disjoints et recouvrant l'ensemble (et la restriction des scalaires au corps à 1 élément consiste à oublier cette permutation, tandis que l'extension des scalaires d'un ensemble X du corps à 1 élément à celui à 1d éléments consiste à prendre le produit X×(ℤ/dℤ) avec la translation de 1 sur la seconde composante) ; le groupe des matrices n×n inversibles à valeurs dans le corps à 1d éléments a l'air d'être le groupe des permutations de {1,…,n}×(ℤ/dℤ) commutant à la translation de 1 sur la seconde composante (c'est le « produit en couronne » (ℤ/dℤ) ≀ 𝔖n ou de façon équivalente, le groupe des matrices complexes qui sont produit d'une matrice de permutation par une matrice diagonale ayant des racines d-ièmes de l'unité sur la diagonale).

Tout n'est pas toujours très cohérent (par exemple, le corps à q éléments, qui pour sa part n'est pas du tout une licorne, semble être une extension de degré 1 (???) du corps à 1(q−1) éléments, et ils ont le même groupe multiplicatif, mais ils sont quand même censés être différents — c'est louche et perturbant). Mais il y a suffisamment de cohérence et de choses qui se rejoignent pour qu'on soupçonne qu'il y ait quelque chose à trouver.

*

Il y a toutes sortes de gens qui ont développé des théories censées définir le corps à un élément. En fait, il y a beaucoup plus de théories du corps à un élément qu'il n'y a d'éléments dans le corps à un élément : Soulé, Toën & Vaquie, Connes & Consani (cf. aussi ici), Deitmar (cf. ici), Durov, Borger, Lorscheid, etc. Il y a même une étude comparative des approches possibles du corps à un élément. Et voir aussi ce texte de Manin. (Pour ma part, je n'ai que très peu lu de tout ça, donc je ne peux rien en dire d'intelligent.) Si on est un chouïa peu charitable, on peut penser que tous ces gens ont pris un cheval, leur ont mis une corne sur le front et appellent ça une licorne, mais en fait, si ça ne chie pas des arcs-en-ciel, ce n'est pas une licorne. Plus sérieusement, il y a certainement des idées intéressantes dans chacune de ces approches, on peut dire qu'on a des signes plus précis de l'existence de la licorne et de comment on pourrait peut-être imaginer l'attraper, mais on ne peut pas encore dire qu'elle est au zoo.

Je veux évoquer encore une autre licorne que j'affectionne assez, et qui a l'air de vivre assez près de la licorne « corps à un élément », c'est le corps résiduel des réels. Cette licorne-là est basée sur l'idée que si on considère Spec(ℤ), que le lecteur non familier avec le sujet peut imaginer comme l'ensemble des nombres premiers, comme un objet géométrique, on a l'impression qu'il lui manque un point. Un nombre premier manquant, un nombre premier « à l'infini » (qui est aux nombres réels ce que les nombres premiers ordinaires sont aux nombres p-adiques). Je voudrais essayer d'expliquer un peu ça : pour ça, je dois d'abord expliquer rapidement ce que sont les valeurs absolues p-adiques et les nombres p-adiques.

Si p est un nombre premier (usuel) et n un entier non nul, on appelle valuation p-adique et on note vp(n) l'exposant de la plus grande puissance de p qui divise n, c'est-à-dire l'exposant qui apparaît sur p dans la décomposition de n en facteurs premiers (ou 0 si p n'apparaît pas du tout, i.e., ne divise pas n). Par exemple, comme 1400 = 2³×5²×7, on a v₂(1400)=3, v₃(1400)=0, v₅(1400)=2, v₇(1400)=1 et vp(1400)=0 pour tout nombre premier p∉{2,5,7}. Si on préfère, vp(n) compte le nombre de 0 à la fin (= en « poids faible ») du nombre n quand on écrit ce dernier en base p (par exemple, v₂(n) compte le nombre de 0 à la fin de l'écriture binaire de n). Par convention, on pose vp(0) = +∞ pour tout p premier. Cette valuation p-adique s'étend aux rationnels en définissant vp(a/b) = vp(a) − vp(b). Enfin, on définit la valeur absolue p-adique |x|p d'un rationnel x∈ℚ comme pvp(x) (où vp(x) est la valuation p-adique que je viens de définir) : essentiellement, c'est l'inverse de la puissance de p qui apparaît dans la décomposition en facteurs premiers de x (étendue de façon évidente aux rationnels). Par exemple |2/45|₂ = 1/2 et |2/45|₃ = 9 et |2/45|₅ = 5 (et |2/45|p = 1 si p∉{2,3,5}). Intuitivement, plus la valeur absolue p-adique est petite, plus le nombre est divisible par p. On convient aussi que |0|p = 0 pour tout p premier.

Ces valeurs absolues p-adiques, de même que la valeur absolue usuelle que je vais noter |x| (c'est-à-dire x si x≥0 et −x si x≤0), vérifient les propriétés suivantes :

  • |x|≥0 quel que soit x,
  • |x|=0 si et seulement si x=0,
  • |x+y| ≤ |x| + |y| (en fait, pour une valeur absolue p-adique, on a même |x+y| ≤ max(|x|,|y|)),
  • |1| = 1 [ceci découle du point suivant, mais je trouve que ce serait idiot de ne pas l'inclure],
  • |x·y| = |x|·|y|,
  • il existe des x tels que |x| ne soit ni 0 ni 1.

À ces valeurs absolues est associée une notion de distance : la distance p-adique entre deux rationnels x et y est la valeur absolue p-adique |xy|p de la différence, de même que la distance usuelle entre x et y est la valeur absolue usuelle |xy| de leur différence. Intuitivement, la distance p-adique mesure à quel point les nombres diffèrent par (quelque chose divisible par) une grande puissance de p, de façon que les grandes puissances de p soient très proches de zéro (p-adiquement « petites »). Pour des entiers naturels au moins, dire que deux entiers sont p-adiquement très proches signifie que leurs derniers chiffres (= chiffres de poids faibles) coïncident quand on écrit ces entiers en base p.

Maintenant, le même procédé qui permet de construire les nombres réels ℝ comme « complétion » des rationnels pour la distance usuelle (intuitivement, ℚ a des « trous » parce qu'il y a des suites qui « visiblement » devraient converger et qui n'admettent pas de limite rationnelle, et on fabrique ℝ en bouchant tous ces trous) fonctionne aussi pour toutes ces autres distances que j'ai définies : les corps qu'on obtient s'appellent les corps des nombres p-adiques (un pour chaque nombre premier p) et se notent ℚp. Une définition plus terre-à-terre des nombres p-adiques consiste à définir d'abord les entiers p-adiques ℤp comme les écritures en base p infinies à gauche (par exemple pour p=2, l'écriture binaire …1010101010101011 définit un entier 2-adique, qui s'avèrera être 1/3), l'addition et la multiplication se calculant exactement comme on le fait pour les entiers naturels écrits en base p (mêmes tables d'addition et de multplication, même système de reports ; l'opération est infinie, mais chaque chiffre donné se calcule en un nombre fini d'étapes : par exemple, un petit exercice consiste à vérifier que si on ajoute le 2-adique …1010101010101011 à lui-même deux fois, ou qu'on le multiplie par trois (11), on obtient bien 1) ; la valuation p-adique sur ℤp consiste simplement à compter le nombre de 0 à la fin de l'écriture, et la valeur absolue p-adique se définit comme on l'a fait plus haut. Quant à l'ensemble ℚp des nombres p-adiques, c'est pareil mais cette fois on autorise aussi un nombre fini de chiffres à droite de la virgule/point, ce qui revient à autoriser à diviser par p (0.1 représente le rationnel 1/p, de valuation p-adique −1, et 0.01 le rationnel 1/p², de valuation p-adique −2, et ainsi de suite). On peut montrer que le ℚp que je viens de définir est un corps, complet pour la distance p-adique, et dans lequel ℚ est dense (il est donc le complété de ce dernier pour la distance p-adique).

*

Avec les définitions que j'ai faites, il est logique de noter ℚ = ℝ. Mais pour que ce soit plus qu'une vague notation, il est pertinent que je signale le fait suivant : on peut montrer que les valeurs absolues (usuelle et p-adiques) que j'ai définies sont toutes les valeurs absolues possibles sur les rationnels (essentiellement toutes celles qui vérifient les propriétés que j'ai listées, en convenant d'identifier une valeur absolue avec sa puissance par n'importe quel exposant strictement positif) ; et il y a des résultats du même genre qui disent que les complétés ℝ et ℚp qu'on a construits sont toutes les façons de compléter ℚ (je n'ai pas envie de donner un résultat précis, mais disons qu'il y a des résultats de ce genre). Il est donc raisonnable de tous les mettre ensemble. Comme indication du fait que tous ces objets vivent harmonieusement ensemble, on peut aussi signaler la formule du produit, qui dit que si x est un rationnel non nul, le produit des |x|ww parcourt tous les nombres premiers ainsi que le symbole spécial ∞, vaut toujours 1.

On utilise généralement le terme de place de ℚ pour désigner un nombre premier p ou le symbole spécial ∞, cette dernière s'appelant la place archimédienne. (On peut aussi définir tout ça pour d'autres corps de nombres, ce qui renforce la cohérence de l'histoire.)

Cela m'emporterait trop loin d'essayer d'expliquer pourquoi on a envie de ranger la place archimédienne ∞ avec les autres : mais disons au moins que toutes sortes de résultats de théorie des nombres s'énoncent plus commodément de la sorte. Donnons juste un petit exemple d'indice :

J'ai évoqué plus haut l'analogie entre « corps de fonctions » et « corps de nombres » (servant à expliquer qu'on veuille chasser la licorne 𝔽₁) : un des aspects les plus simples de cette analogie est que le corps 𝔽p(t) des fractions rationnelles en une indéterminée t sur le corps fini 𝔽p = ℤ/pℤ a lui aussi des « places », en l'occurrence une pour chaque polynôme f∈𝔽p[t] unitaire irréductible (la valeur absolue f-adique |x|f de x∈𝔽p(t) est définie comme p puissance −deg(fvf(x) où vf(x) est l'exposant de f dans la décomposition de x en facteurs irréductibles, exactement comme pour les rationnels) plus une « à l'infini » (la valeur absolue |x| de x∈𝔽p(t) étant égale à p puissance le degré de x, c'est-à-dire le degré du polynôme au numérateur moins le degré du polynôme au dénominateur). Dans le cas de 𝔽p(t), cette place « à l'infini » se comporte tout à fait comme les autres, géométriquement on la comprend très bien (les places de 𝔽p(t) sont essentiellement la droite projective sur 𝔽p quotientée par l'action de Galois, i.e., du Frobenius), la formule du produit marche sans problème (∏w |x|w = 1 pour tout x≠0 dans 𝔽p(t) où w parcourt toutes les places, aussi bien celles données par f unitaire irréductible que celle « à l'infini »). Donc on a envie que pour le cas de ℚ il y ait aussi une place « à l'infini ».

Je devrais aussi glisser quelque part les mots théorie d'Arakelov, parce que, de façon très très simplifiée et abusée, c'est toute une théorie autour de comment faire que la place ∞ de ℚ joue avec ses petites copines.

Maintenant, cette place archimédienne ∞ de ℚ se comporte quand même différemment des autres, et c'est franchement désagréable. Par exemple, la boule unité fermée {x∈ℚw : |x|w ≤ 1} est stable par addition et multiplication pour toute place w=p non-archimédienne (c'est ℤp), mais pour w=∞ (c'est l'intervalle [−1;1] de ℝ) elle n'est stable que par multiplication. En fait, si la boule unité fermée {x∈ℚp : |x|p ≤ 1} de ℚp est l'anneau ℤp des entiers p-adiques (fermeture/complétion de ℤ pour la distance p-adique), la boule unité ouverte {x∈ℚp : |x|p < 1} est pp, l'idéal des multiples de p. Le quotient des deux ℤp/pp est simplement le corps ℤ/pℤ des entiers modulo p (on garde juste le dernier chiffre de l'écriture en base p) : on l'appelle corps résiduel 𝔽p de ℚp, ou bien de ℚ à la place p.

La licorne, maintenant, c'est le corps résiduel de ℚ à la place ∞ : ce 𝔽 est quelque chose comme le quotient de l'intervalle fermé [−1;1] par l'intervalle ouvert ]−1;1[ (qui serait sensé être un idéal du précédent, ça n'a pas de sens parce que [−1;1] n'est pas un anneau, il n'est clos par addition, mais on remarque quand même que le produit d'un élément de l'intervalle ouvert par un élément quelconque de l'intervalle fermé est bien dans l'intervalle ouvert comme on l'attend d'un idéal). Tout ça est dénué de sens comme je l'ai écrit, mais on aimerait bien que ça en ait un.

L'intuition que je me fais de ce « corps résiduel de ℝ », que je dois logiquement noter 𝔽, est que c'est un corps ayant un élément, mais ce n'est pas « le » corps à un élément (l'autre licorne dont j'ai parlé avant), parce que « le » corps à un élément (𝔽₁) a un seul élément non nul (cela découle de ce que j'ai dit sur les matrices n×n inversibles, dans le cas n=1), tandis que 𝔽 a deux éléments non nuls, qu'on peut appeler « strictement positif » et « strictement négatif » (avec la table de multiplication qu'on pense). Donc 𝔽 a « un élément parmi lequel deux sont non nuls », c'est très licornesque, comme comportement. (Ça évoque aussi vaguement le genre de choses que je racontais ici !) Plus généralement, je pense qu'il y a toujours exactement deux matrices n×n inversibles sur 𝔽, à savoir celle qui a le déterminant strictement positif et celle qui a le déterminant strictement négatif, c'est différent de 𝔽₁ qui a n! matrices n×n inversibles. (Encore plus généralement, j'ai tendance à dire que si V est une variété algébrique réelle, son nombre de points sur 𝔽 est son nombre de composantes connexes[#4] pour la topologie réelle : l'affirmation de la phrase précédente en découle.)

[#4] Ou peut-être la caractéristique d'Euler-Poincaré ? À voir.

Mais le reste est tout à fait obscur. Le lien entre les deux licornes l'est tout autant. Faut-il considérer que 𝔽 est la réelle-clôture de 𝔽₁ ? Dans ce cas, y a-t-il un « corps résiduel de ℂ » (quotient du disque unité fermé par le disque unité ouvert ?), 𝔽∞², qui serait à la fois la clôture algébrique de 𝔽 et celle de 𝔽₁ (peut-être avec une complétion dans l'histoire ?), et qui aurait un seul élément mais un groupe d'éléments non-nul égal au groupe des complexes de module 1 ? (cela colle vaguement avec le fait que 𝔽1n a apparemment le groupe des racines n-ièmes de l'unité comme groupe des éléments non nuls). Plus on pousse les raisonnements, bien sûr, plus on se heurte à des apories dans tous les sens, et c'est normal, mais on arrive quand même à avancer assez pour se dire qu'il y a peut-être bien quelque chose à attraper.

(La chasse à la licorne « corps résiduel de ℝ » a l'air moins développée que la chasse à la licorne « corps à un élément », mais au moins le texte de Durov que j'ai lié plus haut part un peu dans cette direction en définissant quelque chose qu'il appelle ℤ et qui est apparenté à l'intervalle [−1;1].)

Ajout () : le corps résiduel de ℝ, 𝔽, devrait certainement être une algèbre sur le corps à un élément, 𝔽1, mais même aussi sur le corps à 1² éléments, 𝔽 (puisque +1 et −1 sont les racines de l'unité définies dans ℝ) ; le morphisme correspondant GLn(𝔽)→GLn(𝔽) semble être celui qui envoie une permutation signée de n objets sur le produit des signes.

Terminons par une petite anecdote. Quand j'étais agrégé-préparateur à l'ENS, il y avait quelqu'un (je ne le dénoncerai pas) qui préparait l'agrégation en même temps qu'il passait le concours de recrutement du CNRS. Ayant été pris au CNRS, il n'était plus intéressé par l'agrégation (qu'il présentait comme une sécurité éventuelle). Plutôt que de démissionner ou d'être simplement absent aux oraux de l'agreg, il avait préparé des leçons humoristiques (mais scientifiquement sérieuses) corps à un élément : exemple et applications pour l'algèbre et corps résiduel de ℝ : exemple et contre-exemple pour l'analyse (ces titres sont des parodies des titres typiques des leçons d'agreg) et a proposé au jury de présenter une de ces leçons pour passer le temps (étant bien entendu qu'il aurait de toute façon zéro à l'épreuve). Le jury a froidement refusé (et les gens du département de maths de l'ENS, quand ils ont entendu l'histoire, ont été partagés entre ceux qui trouvaient que c'était une idée rigolote et ceux qui estimaient que c'était un peu insulter le jury de l'agreg et manquer de respect envers les autres candidats que de proposer cette blague).

↑Entry #2551 [older| permalink|newer] / ↑Entrée #2551 [précédente| permalien|suivante] ↑

↓Entry #2550 [older| permalink|newer] / ↓Entrée #2550 [précédente| permalien|suivante] ↓

(lundi)

La nostalgie douce-amère des petits moments de bonheur passés

Il y a certainement une place dans le merveilleusement poétique Dictionary of Obscure Sorrows pour ce dont je veux parler — en fait, il est même possible qu'il y figure déjà, ou au moins que ses proches voisins dans la gégraphie compliquée des émotions humaines soient répertoriées.

Chaque rentrée qui arrive, chaque été qui se finit, est pour moi l'occasion d'une forme particulière d'anxiété — parfois légère, diffuse, éthérée, presque clémente, mais toujours palpable. L'incertitude quant aux changements que l'année va apporter. L'inquiétude de me voir rappeler par le cycle des saisons que la roue du temps tourne inexorablement. Or l'appréhension de l'avenir m'amène à contempler le passé.

De ces minutes de contemplation, des souvenirs émergent spontanément, et avec eux une sensation douce-amère : la nostalgie de certains instants du bonheur passé. Le désir de les revivre, de replonger dans la fraîcheur sucrée de ces moments trop vite vécus et pas assez appréciés. Comme si je voulais dire à mon moi d'hier : savoure cette seconde ! prends conscience que tu es heureux — comme si j'étais jaloux de ne plus être à sa place, de ne pas être plus jeune d'un jour, d'une semaine, d'un mois, d'un an, ou d'un quart de siècle. L'image que recrée ma mémoire m'apaise en même temps qu'elle me moque. À la manière d'une carte postale que je me serais envoyée : ici il fait très beau – dommage que tu ne sois pas là – bisous de jadis – signé : toi-même. Est-ce que je ne pourrais pas profiter de nouveau de ce nectar-là, ô dieux du temps ?

Les cartes postales se mélangent, elles ne sont même pas triées. Je regrette déjà l'après-midi ensoleillée que j'ai passée avant-hier à Fontainebleau avec mon poussinet, ou une balade en montagne il y a quelques semaines que, sur le moment, je n'ai pas vraiment aimée. Mais je me revois aussi petit, visitant le zoo de Toronto en suivant les grosses traces de pattes colorées qu'ils utilisaient pour baliser les parcours. Je repense à toutes ces promenades dans la vallée de Chevreuse avec mon père (qui maintenant ne peut presque plus marcher) pendant lesquelles il tâchait de m'intéresser à la physique. Je me remémore des heures passées à l'ENS à refaire le monde avec des copains (avec lesquels j'ai souvent perdu le contact). Il me revient aussi tout ce temps passé, quand j'étais ado, à jouer à des jeux d'aventure sur ordinateur[#] ou à programmer moi-même le jeu Légendes avec mes copains Laurent et Philippe (qui habitent tous les deux loin). Et il y a le jour où mon poussinet est devenu mon poussinet ; et cet autre jour, pas longtemps après, où nous avons déjeuné dans l'enceinte presque féérique du Petit Palais et je l'ai présenté à ma maman et à une amie de longue date de mes parents (maintenant décédée).

Les souvenirs qui me reviennent ainsi sont pour la plupart ceux d'un beau temps. Peut-être que la pluie délave la mémoire alors que le soleil la fige à la manière d'une plaque photographique. Peut-être n'envoie-t-on de cartes postales que d'un ciel serein.

L'utilisation du mot nostalgie est peut-être douteuse. Mais la limite des sentiments n'est pas claire entre le regret des temps que j'ai vécus et ceux de temps qui m'ont seulement été contés, peut-être faussement, ou que j'ai complètement inventés. Même les années que j'ai vécues sont en partie fausses, car j'ai sans doute écarté de ma mémoire les jours tristes — pluvieux — ennuyeux ; et parce que les souvenirs que je garde peuvent avoir été déformés. À force, tout se confond : j'étais heureux quand je sauvais des demoiselles en détresse.

Je suppose qu'il faut considérer les souvenirs non pas comme des cartes postales mais comme des sortes d'œuvres d'arts antiques — telle celle le poète écrit :

Le temps passe. Tout meurt. Le marbre même s'use.
Agrigente n'est plus qu'une ombre, et Syracuse
Dort sous le bleu liceul de son ciel indulgent ;

Et seul le dur métal que l'amour fit docile
Garde encore en sa fleur, aux médailles d'argent,
L'immortelle beauté des vierges de Sicile.

— José-Maria de Heredia, Les Trophées (Médaille antique)

Je retourne donc contempler ma collection de camées.

[#] Si vous avez mon âge plus ou moins quelques années, et si ce type de nostalgie peut vous atteindre, regardez les images de cette page et de celle-ci, c'est exactement le type d'art qui va bien avec le sentiment dont je parle dans cette entrée.

↑Entry #2550 [older| permalink|newer] / ↑Entrée #2550 [précédente| permalien|suivante] ↑

↓Entry #2549 [older| permalink|newer] / ↓Entrée #2549 [précédente| permalien|suivante] ↓

(samedi)

Quelques conseils pour les étudiants en maths

À l'approche de la rentrée, je me dis qu'il peut être utile que je publie quelques conseils pour les étudiants en maths. Ceux-ci sont inspirés à la fois de ce que j'ai écrit dans ce fil Twitter et de ce que j'ai expliqué de vive voix à un élève de prépa qui me demandait de tels conseils : ayant ainsi un peu réfléchi à ce que j'avais à dire, autant le mettre sur ce blog.

Il s'agit là de conseils généraux (et sans doute d'une bonne dose de proverbial enfonçage de portes ouvertes à ma fidèle hache bénie +2 trempée dans la potion de banalités), s'adressant plutôt à des étudiants entre approximativement ce qui correspond, dans le système éducatif français, aux niveaux bac à bac+5 (disons) : grosso modo, avant ça, on ne fait pas tellement de maths au sens « raisonnement déductif » (ayant la démonstration comme méthode essentielle) ; et après, si vous en êtes arrivé là, vous avez assez de familiarité avec les mathématiques pour ne pas avoir besoin de mes conseils. Certaines des choses que je vais dire s'appliquent à d'autres disciplines adjacentes, comme la physique ou l'informatique (pour ce qui est de l'informatique théorique, mon avis est qu'il s'agit de toute façon d'une branche des mathématiques, même si elle ne s'assume pas toujours comme telle) ; quelques uns s'appliquent sans doute à n'importe quelle discipline, mais je me focalise quand même sur les maths.

On doit pouvoir tirer de ces conseils aux étudiants quelques conseils pour les enseignants (en appliquant la dualité étudiant-enseignant et le foncteur de réduction des platitudes), mais comme je n'aime pas donner des leçons à ce sujet, je vais laisser ça en exercice au lecteur.

✱ Conseil nº1 : aimer ce que l'on fait. C'est peut-être un peu idiot de dire ça, mais je suis persuadé qu'on ne peut correctement faire des maths que si on les trouve un minimum belles et intéressantes. Si on les conçoit comme une corvée, elles le resteront. Si on les conçoit comme (la métaphore que j'aime bien utiliser) l'exploration d'un palais magnifique et incompréhensiblement gigantesque, à la structure à la fois labyrinthique et élégante, on peut arriver à comprendre que ce soit à la fois excitant et séduisant, et en tirer la motivation nécessaire à leur étude.

Je ne peux évidemment pas donner de recette magique pour comprendre que les maths sont belles. C'est quelque chose que j'essaie de communiquer, mais il est évident que je ne vais pas transformer tout le monde en matheux. Mais, même si on a un a priori négatif (et certaines formes d'enseignement des mathématiques laissent hélas place à bien peu d'autre que la corvée rébarbative), il est au moins essentiel de garder l'esprit ouvert à cette possibilité, que les maths puissent être fascinantes. Je pense qu'il est au moins utile, même si on est réfractaire, de chercher les sous-domaines sur lesquels on accroche un peu plus, et de peut-être chercher à se renseigner sur l'allure générale du paysage mathématique, méditer sur la question de pourquoi certaines personnes y trouvent goût (est-ce qu'on a reçu une image déformée par un enseignement rébarbatif ou est-ce qu'on est véritablement hostile aux mathématiques ? dans ce dernier cas, il vaut certainement mieux arrêter de les étudier le plus rapidement possible et ne pas céder aux sirènes qui promettent une meilleure carrière ou quelque chose de ce genre). L'histoire des sciences peut aussi être une passerelle vers un intérêt pour les mathématiques elles-mêmes.

✱ Conseil nº1b : faire preuve de curiosité intellectuelle, et questionner ce que l'on fait. Apprendre le cours pour le cours est la meilleure garantie d'en rester là. Pour comprendre un cours de maths, il faut plutôt le questionner[#], le décortiquer, essayer de prendre du recul. Pour ça, le mieux est de garder à l'esprit toutes sortes de questions (pourquoi fait-on ça ?, où veut-on en venir ?, comment fonctionne cet objet ?) ; je vais donner des exemples plus précis de telles questions (à se poser à soi-même ou à poser à l'enseignant) dans les conseils suivants, mais le message plus général est que tout questionnement est bienvenu (voir aussi les conseils nº6 et 6b ci-dessous).

[#] Dans un cours de langue, si un étudiant demande pourquoi 95 en français de France se dit-il quatre-vingt-quinze ?, on ne peut pas vraiment lui donner de réponse sauf des choses comme c'est comme ça ou c'est un accident historique, peut-être accompagnées d'une histoire du phénomène (mais c'est déjà empiéter des langues sur la linguistique, et ça n'aidera pas tellement à l'apprentissage du français). L'enseignant en maths, lui, doit être prêt à se justifier de plus près que ça.

✱ Conseil nº2 : travailler sans se noyer dans le travail. Les effets suivent une loi des rendements décroissants avec le travail fourni ; pire encore, le rendement marginal peut être négatif si on travaille à tel point qu'on se dégoûte de ce qu'on fait et que cela se transforme en corvée. Certaines filières peuvent encourager les étudiants à trop travailler (au hasard, les prépas en France, parce qu'il y a des concours à la fin), et c'est évidemment à ces étudiants-là que je m'adresse avant tout si je dis de ne pas se rendre malade en travaillant ; d'autres filières, au contraire, n'y encouragent pas assez (au hasard, ce qui vient après les concours en question, par contrecoup et à cause de l'effet maintenant que j'ai été admis, c'est bon, mon avenir est assuré) : mais dans les deux cas, ce sont des mirages. Il s'agit de trouver un point de bon rendement du travail.

La quantité d'effort à fournir est quelque chose de profondément personnel. Il ne faut pas chercher à l'évaluer en nombre d'heures passées, mais (1) à l'impression de familiarité avec le sujet qui doit s'en dégager, et (2) à la sensation de lassitude si on pousse trop. On peut néanmoins estimer que si on en perd le sommeil ou toute vie personnelle en-dehors des études (vie sentimentale, famille, amis, loisirs), c'est qu'on travaille trop (a contrario, si on passe sa vie à enchaîner les soirées étudiantes, on ne travaille sûrement pas trop).

✱ Conseil nº2b : préférer approfondir les exercices que les multiplier. Traiter 696729600 exercices dans l'espoir de les avoir tous faits est une approche idiote. (Elle est même dangereuse, parce que si on est interrogé sur un exercice qu'on a déjà vu, fatalement, on essaie de se rappeler ce qu'on a déjà vu plutôt que d'y réfléchir avec un esprit frais, et si on n'a pas parfaitement retenu ce qu'on avait vu, on risque de faire encore pire que si on n'avait jamais vu l'exercice. En plus de cela, l'examinateur détectera souvent ce qui se passe et pourra décider de ne pas compter cet exercice.) L'idée de bien travailler est de se familiariser avec les sortes d'exercices qui peuvent tomber, et pour ça, il vaut mieux tirer tous les enseignements qu'on peut d'un nombre plus restreint d'exercices choisis pour leur diversité.

✱ Conseil nº3 : chercher d'abord à comprendre la logique générale du cours. Il peut y avoir des choses à apprendre par cœur ou presque par cœur dans un cours de maths, je ne le nie pas, mais la première chose à aborder, c'est le plan général, le message d'ensemble, la structure, le leitfaden. Ce n'est qu'une fois qu'on a une idée d'ensemble qu'on peut envisager d'apprendre telle ou telle chose plus précisément, peut-être même par cœur.

✱ Conseil nº3b : chercher le sens des définitions et le message général des théorèmes. Pour un « platoniste » comme moi, le monde mathématique existe indépendamment des hommes ; mais les définitions qu'on met dessus pour le structurer, et les théorèmes qu'on recherche pour le comprendre, eux, sont des créations humaines. On peut donc s'interroger, devant une définition : pourquoi définir ce concept ? en quoi est-il naturel ou intéressant ? qu'est-ce que son étude va apporter ? pourquoi le définir précisément de cette manière ? Et devant un théorème : pourquoi cette propriété est-elle pertinente ? en quoi me renseigne-t-elle sur l'objet dont elle parle ? dans quel cas le résultat va-t-il servir ou apporter quelque chose ?

Un angle de questionnement qui peut être fécond consiste à se demander (ou à demander à l'enseignement !) comment, historiquement, telle ou telle notion a été dégagée, et quelle est l'histoire de tel ou tel théorème. Ne pas hésiter à l'employer !

✱ Conseil nº4 : comprendre les objets qu'on manipule, et se familiariser avec eux. Je pense que le cœur de toute théorie mathématique ce ne sont pas les théorèmes, ce sont les définitions. Poser une définition, c'est se donner pour but d'étudier tel objet mathématique et ses propriétés ; comprendre la théorie, c'est avant tout se former une représentation mentale des objets en question. Si la représentation mentale est assez bonne, les théorèmes ne doivent pas paraître surprenants ; s'ils le sont, il faut essayer de les réconcilier avec cette représentation mentale.

La première étape pour comprendre, donc, je pense, c'est de bien examiner les définitions, de voir comment elle s'articule et ce qu'on peut en tirer immédiatement. Si on s'est interrogé sur les raisons des définitions (conseil nº3b), cela peut aider, sinon, c'est le moment de le faire. Ensuite, il faut sans doute chercher deux choses liées : se constituer une intuition des objets (conseil nº4b), et appuyer cette intuition sur un stock d'exemples et de contre-exemples (conseil nº4c).

✱ Conseil nº4b : forger son intuition. Les mathématiciens sont malheureusement assez timides quand il s'agit de communiquer l'intuition. On se sent plus à l'aise à donner une définition bourbachique (un foobar localement cromulent est un foobar au sens de la définition 8.24 qui vérifie de plus les propriétés (a), (b) et (c) suivantes) qu'une explication intuitive (alors il faut imaginer un foobar localement cromulent comme un foobar qui a l'air cromulent quand on le regarde de près à n'importe quel endroit, mais en fait, cette apparence de cromulence n'est pas forcément cohérente sur l'ensemble du foobar). Il y a une raison légitime à ça : l'intuition est quelque chose d'assez personnel, et une image qui aidera un étudiant pourra en déstabiliser un autre ; et on a rarement le temps de donner cinq ou six intuitions différentes du même concept pour dire essayez de garder en tête celle qui vous semble la plus parlante. Donc le travail de se forger une intuition est largement laissée au lecteur, c'est-à-dire, dans le cas d'un enseignement, à l'étudiant.

Je pense que c'est un travail vraiment fondamental. On ne peut pas se contenter d'avoir compris logiquement la définition, il est impératif d'avoir une certaine « vision » de l'objet mathématique qui est derrière.

À titre d'exemple, la notion de groupe a une définition formelle (avec une loi de composition interne associative gnagnagna) que je ne vais pas recopier ici, mais il y a aussi une intuition qui va avec. Cela pourrait être quelque chose comme :

Un groupe, c'est une forme de symétrie qu'un objet (notamment un objet mathématique) peut avoir.

Je ne dis pas que c'est parfait ni idéal ni que ça conviendra à tout le monde, mais je dis que pour comprendre une notion comme celle de groupe il est essentiel d'avoir quelque chose comme ça à l'esprit, c'est-à-dire à la fois la définition formelle, la version intuitive (du genre ci-dessus), et aussi la manière dont l'une et l'autre se correspondent. On doit pouvoir jongler avec les deux. Autre exemple : la notion de déterminant en algèbre linéaire doit être reliée à la notion intuitive de volume.

Tous les objets mathématiques n'admettent pas forcément une description intuitive très claire, mais à part peut-être pour un concept technique utilisé ponctuellement dans le cadre d'une démonstration, il faut au moins quelque chose, un dessin, une vague idée.

On peut demander à un autre (par exemple à un prof) de suggérer une intuition, et c'est généralement une bonne idée de le faire, mais le travail de se l'approprier est forcément personnel. En revanche, pour ça, on peut s'appuyer sur :

✱ Conseil nº4c : se constituer un stock d'exemples et de contre-exemples. Les exemples servent à asseoir l'intuition et à lui donner corps, les contre-exemples servent à la cadrer et à éviter les erreurs. Les deux sont indispensables. Ils doivent être nombreux, aussi variés et représentatifs que possible, et assez simples pour permettre de démarrer l'intuition. À chaque fois qu'on s'interroge sur la véracité d'une idée (par exemple comme étape intermédiaire d'un raisonnement), on doit pouvoir ressortir quelques exemples et contre-exemples de son bagage pour la tester avant d'aller plus loin. (Les exemples « dégénérés » peuvent aussi avoir leur propre intérêt pour aiguiller l'intuition sur le terrain glissant des raisonnements sur l'ensemble vide ou autres objets « difficiles car triviaux ».)

À chaque fois que deux définitions mathématiques se ressemblent ou se rapprochent, on doit se demander si on sait donner un exemple d'un objet vérifiant l'une et pas l'autre, et l'autre mais pas l'une (ou alors démontrer qu'il y a implication). De même, dans l'énoncé d'un théorème, comme généralement toutes les hypothèses sont essentielles, on doit pouvoir fournir un contre-exemple au théorème en retirant n'importe laquelle d'entre elles. Il est vraiment utile de vérifier que c'est le cas. L'enseignant doit pouvoir fournir tous les contre-exemples idoines.

✱ Conseil nº4d : expérimenter et chercher l'algorithmique. On a parfois l'idée que les mathématiques expérimentales seraient un oxymore. C'est faux (il y a même au moins un journal entièrement consacré aux mathématiques expérimentales). Beaucoup d'objets mathématiques peuvent être représentés par un ordinateur, et manipulés par lui : utiliser cette possibilité est une façon de se familiariser avec les objets en question, de « jouer avec » pour mieux les comprendre.

Parallèlement, il est souvent pertinent et intellectuellement utile, dans toutes sortes de branches des mathématiques, de se demander ce qui est algorithmiquement faisable : est-ce que je sais représenter tel objet (qui vient de m'être défini) informatiquement ? est-ce que je sais algorithmiquement tester telle propriété ? est-ce que telle construction dont un théorème m'affirme l'existence est explicitée par la démonstration et en principe implémentable ? Se poser régulièrement ces questions aide à comprendre en profondeur les objets auxquels on a affaire.

Pour donner un exemple très simple de ce que je veux dire, quiconque a appris les bases du calcul des dérivées et des intégrales (comme on les apprend, en France, au niveau du bac) devrait comprendre que calculer la dérivée d'une expression symbolique (techniquement, disons, d'une fonction élémentaire) est mécanique/algorithmique, alors que le calcul des intégrales est plus problématique (en fait, il y a un algorithme, mais on ne l'enseigne jamais, et de toute façon, il n'y a pas forcément de réponse en forme élémentaire).

✱ Conseil nº5 : rechercher les idées-clés des démonstrations. Pour comprendre une démonstration, je pense que la meilleure approche est de commencer par ne pas la lire, et ne surtout pas de l'apprendre par cœur. Il vaut mieux partir de l'énoncé, et se demander est-ce que je sais démontrer ça ?. Beaucoup de démonstrations doivent se dérouler toutes seules, c'est-à-dire qu'on les produit sans réfléchir : il n'y a presque pas de choix de quoi faire à chaque moment, les étapes s'enchaînent presque inévitablement[#2] ; on doit savoir produire de telles démonstrations les yeux fermés, sans réfléchir.

[#2] Je pense à des choses comme : l'image réciproque par une fonction de l'intersection ou la réunion de deux ensembles est l'intersection ou la réunion des images réciproques ; démonstration : soient U et V deux ensembles et f une fonction ; dire que x est dans l'image réciproque de UV respectivement UV signifie que f(x) est dans UV respectivement UV, c'est-à-dire à la fois dans U et dans V, respectivement dans l'un des deux, et cela signifie que x est dans les deux images réciproques de U et V, respectivement dans l'une des deux, c'est-à-dire qu'il est dans leur intersection, respectivement leur réunion. Un terme fréquemment utilisé pour ce genre de démonstration est c'est purement formel (ce qui n'est pas tout à fait pareil que c'est évident ou c'est trivial, mais qu'il n'y a pas à réfléchir pour produire la démonstration).

Les autres démonstrations auront normalement un certain nombre d'idées-clés. L'idéal serait de retenir juste ce qu'il faut d'idées-clés pour arriver à retrouver la démonstration par soi-même. Retenir le nombre minimal de points-étapes du raisonnement pour arriver à reconstituer l'ensemble.

Il faut reconnaître que ce n'est pas toujours facile. Il y a beaucoup de théorèmes dont j'ai compris la démonstration ligne à ligne, mais à la fin je ne peux que dire il s'est passé quelque chose de magique, et je ne sais pas bien où : j'ai compris localement, mais pas globalement — je ne suis pas capable de dégager une idée essentielle — je n'ai pas d'intuition sur pourquoi on a fait ces manipulations dans cet ordre ou pourquoi elles ont marché. Mais quand on a un enseignant, on ne doit pas hésiter à l'interpeller et lui demander d'expliquer les grandes lignes de ce qui s'est passé.

✱ Conseil nº5b : chercher à bannir les « astuces ». Quand j'étais en prépa, un des éléments de culture taupinale (sans doute à prendre comme de l'humour glacé et sophistiqué du 5824e degré) consistait, à chaque fois qu'était présentée une démonstration ou une solution d'exercice faisant intervenir une « astuce », à chuchoter stûûûce sur un ton admiratif (ou faussement admiratif, ce n'est pas clair). Franchement, bof. Une astuce qui ne peut servir que pour un exercice n'a d'intérêt que si on est interrogé sur cet exercice précis !

Je préfère la vision attribuée à Grothendieck d'un problème mathématique comme une noix à casser : on peut attaquer la noix avec force, mais on peut aussi la laisser mariner jusqu'à ce que la coquille se détache toute seule.

Si quelque chose ressemble à une « astuce », c'est probablement qu'on a mal compris les objets en question. L'idéal serait de réviser son intuition jusqu'à ce que l'astuce n'en soit plus une, jusqu'à ce qu'elle paraisse naturelle ; et pour cela, il faut l'analyser de plus près : dans quel cas cette astuce va-t-elle servir ? où est-elle transposable ? que nous apprend-elle ? pourquoi fonctionne-t-elle ?

Il n'est sans doute pas possible d'éliminer totalement toute forme d'astuce dans les démonstrations mathématiques, mais on peut au moins essayer de ne pas leur rendre un culte. (Raison pour laquelle je n'aime pas du tout les exercices du style olympiades internationales de mathématiques, ni même leur variante française qu'est le concours général, et qui ressemblent beaucoup à un culte de l'astuce.)

✱ Conseil nº5c : vérifier où toutes les hypothèses ont été utilisées dans une démonstration. Si une hypothèse n'a pas servi, le théorème doit être valable sans. C'est suspect : pourquoi est-il énoncé avec cette hypothèse, si la démonstration n'en a pas besoin ? (Cela peut avoir un sens si l'hypothèse est incluse dans une définition-paquet, comme groupe : de toute évidence, beaucoup de faits sur les groupes sont valables dans des structures plus faibles, mais on peut quand même avoir envie de les énoncer juste pour les groupes, afin de ne pas obscurcir le propos en introduisant un nom pour ces structures plus faibles.) Si on a un contre-exemple au théorème sans l'hypothèse, évidemment, il faut que celle-ci ait servi quelque part[#3]. C'est un bon exercice pour s'assurer qu'on a au moins minimalement compris une démonstration que de vérifier qu'on sait pointer du doigt où chaque hypothèse est entrée dans la machine déductive.

[#3] Tiens, une petite anecdote à ce sujet. Quand j'étais en sup, un jour, notre prof a énoncé et démontré un premier théorème, puis a fait la remarque on pourrait se demander si <telle généralisation du théorème> est valable : ce n'est pas le cas comme le montre le contre-exemple suivant <blablabla>. Puis il a ajouté : en revanche, on a <telle autre généralisation du premier théorème>. Mon voisin lui a alors signalé qu'il y avait un problème, parce que le contre-exemple qu'il venait de donner s'appliquait réfutait aussi cette autre généralisation. Le prof, qui devait être vraiment fatigué ce jour-là, a regardé le tableau d'un air perplexe, a dit ah oui, c'est vrai, et il a… modifié le contre-exemple.

✱ Conseil nº5d : prendre occasionnellement le temps de contempler ou retrouver le chemin déductif parcouru. Ceci s'applique notamment aux théories où, à partir d'un petit nombre de propriétés sur une classe d'objets, on arrive à en déduire de plus en plus. Cela peut avoir un intérêt de faire une pause sur le chemin déductif et de regarder ce qu'on a fait, et se demander s'il y avait des chemins plus courts.

Je donne un exemple apparenté : quelqu'un me demandait comment, et si possible de façon relativement minimale, en partant de la définition cos(x) := ∑k∈ℕ (−1)k·x2k/(2k)! (série manifestement convergente pour tout x réel), démontrer[#4] que la fonction cos ainsi définie est périodique sur ℝ, et comment faire le lien avec l'abscisse curviligne d'un cercle.

[#4] Pour ce que ça vaut, voici en longue digression la réponse que je lui ai faite (il demandait aussi d'éviter si possible d'utiliser les complexes, ce qui explique certaines remarques de ma réponse) : je ne sais pas si c'est intéressant sur le fond, mais c'est intéressant comme exemple du genre de démarche dont je veux parler :

[On définit cos(x) := ∑k∈ℕ (−1)k·x2k/(2k)! et sin(x) := ∑k∈ℕ (−1)k·x2k+1/(2k+1)!.]

Ne pas introduire les complexes est un peu con dans cette histoire, parce que c'est une façon efficace et peu coûteuse de dire certaines choses. En revanche, ce qui est légitime, c'est de réclamer qu'il n'y ait pas d'arnaque : un complexe est un couple (a,b) de nombres réels, noté a+i·b, ajouté terme à terme et multiplié avec la formule qu'on sait écrire (et qui revient à développer et faire i²=−1), et on ne peut pas introduire d'intuition géométrique à moins de l'avoir justifiée.

Maintenant, pour répondre à ta question, je pense qu'il faut d'abord montrer essentiellement que exp(i(x+y)) = exp(ix)·exp(iy) mais puisque tu veux éviter les complexes ça va correspondre à dire que la matrice 2×2 de coordonnées [[cos(x), −sin(x)], [sin(x), cos(x)]] multipliée par la même matrice avec y à la place du x, vaut la même matrice avec x+y (composition des rotations, donc, mais on fait comme si on ne savait pas ce que c'était qu'une rotation) ; si tu ne veux pas non plus de matrices 2×2, ça revient à montrer les formules usuelles pour cos(x+y) et sin(x+y). Ça ça peut se faire de façon complètement formelle sur le développement en série (le fait que exp(u+v) = exp(u)·exp(v) est essentiellement le développement du binôme, ensuite il faut appliquer ça aux complexes ou, si tu ne veux pas passer par les complexes, le cacher dans la série du cosinus et du sinus qui sont juste les termes pairs et impairs de la même chose).

Ensuite on remarque que cos²+sin²=1 (ça aussi ça doit être facile parce que c'est facile de montrer que exp(i·x) est un complexe de module 1 si x est réel, le module étant a²+b², et ensuite il y a manière de couper les complexes de la démonstration si tu y tiens). Notamment, cos et sin sont des fonctions à valeurs entre −1 et 1, ce qui n'était pas évident a priori.

On a sin′=cos et cos′=−sin (clair sur le développement en série). On peut s'en servir pour faire une étude réelle : comme cos(0)=1, sin est strictement croissante au voisinage de 0, notamment il existe h>0 tel que sin(h)>0 ; en appelant π/2 le premier point ≥0 d'annulation de cos, s'il existe (ou plus l'infini sinon), la fonction sin est croissante jusqu'à π/2, et notamment supérieure ou égale à sin(h) entre h et π/2, mais du coup ça montre que cos(x) ≤ cos(h) − sin(h)·(x−h) (théorème des accroissements finis) pour x entre h et π/2 (ou l'infini), et comme le membre de droite tend vers moins l'infini, la fonction cos finit bien par s'annuler et π/2 existe bien (n'est pas l'infini). Dès lors que cos(π/2)=0, il est clair que sin(π/2)=1. On en déduit d'après les formules sur la somme que cos(π)=−1 et sin(π)=0, puis que cos(2π)=1 et sin(2π)=0, et toujours la formule sur la somme montre alors qu'il y a (2π)-périodicité.

Finalement, je ne sais pas vraiment si j'ai eu besoin de cos²+sin²=1, mais ceci montre au moins qu'on a affaire à un paramétrage du cercle, et les considérations de croissance/décroissance montrent que, quadrant par quadrant, on le parcourt toujours dans le même sens.

Pour relier à l'abscisse curviligne, ça dépend comment tu définis celle-ci. Si tu acceptes la définition « le point M(t)=(x(t),y(t)) paramètre une courbe par son abscisse curviligne ssi la norme de la dérivée de M(t), soit x′(t)²+y′(t)², vaut toujours 1 », alors le cercle est bien paramétré, via (cos(t),sin(t)), par son abscisse curviligne : cela résulte de cos′=−sin, sin′=cos, et cos²+sin²=1 (encore une fois).

✱ Conseil nº6 : ne pas hésiter à poser des questions à l'enseignant. Ça évidemment c'est le genre de conseils que tout le monde donne et que personne ne suit (sauf pour demander qu'est-ce que vous avez écrit en exposant du x ? ou Monsieur, ce sera au partiel, ça ? — justement les questions que je déteste). Je suis bien conscient qu'il y a une barrière psychologique très difficile à franchir pour poser une question. Même dans un séminaire où les mathématiciens sont entre collègues — entre pairs, donc, et en principe pas là pour se juger les uns les autres — beaucoup d'entre eux n'osent pas poser des questions de peur de passer pour des idiots. (Du danger du fameux adage il vaut mieux fermer sa gueule et passer pour un con que l'ouvrir et de le prouver !) Il est quasi impossible de prendre assez de recul en temps réel devant une démonstration qu'on n'a pas comprise pour être sûr qu'on n'a pas simplement raté un point évident. Il est donc encore plus difficile de surmonter la barrière quand on a affaire à un enseignant qui est aussi, à un certain niveau, un juge.

Mais voici une astuce (ah non, pas une astuce, zut… un petit truc) pour surmonter cette barrière :

✱ Conseil nº6b : il y a des questions qui marchent à coup sûr : ne pas hésiter à les poser. (Des questions qui marchent, c'est-à-dire qui feront plaisir à l'enseignant et ne vous feront pas passer pour un con.) Ces questions sont essentiellement celles que j'ai suggérées dans les conseils précédents, du type :

  • Pouvez-vous donner un exemple illustrant cette définition ? (ou un autre exemple ou un exemple significativement différent)
  • Pouvez-vous donner un exemple illustrant la différence entre le concept A et le concept B ? (genre : un exemple d'un foobar globalement bleuté et localement cromulent qui ne soit pas globalement cromulent)
  • Pouvez-vous essayer d'expliquer intuitivement ce que ce concept représente ?
  • Dans quel genre de situation est-ce que ce théorème va servir ?
  • Est-ce que cette implication sert surtout de la gauche vers la droite ou de la droite vers la gauche ?
  • Pouvez-vous donner un contre-exemple montrant que cette hypothèse était nécessaire dans le théorème ?
  • Pouvez-vous résumer les grandes lignes de la démonstration que vous venez de faire ?
  • Comment pouvait-on penser à l'idée de la solution de cet exercice ?
  • J'ai lu [par exemple sur Wikipédia] la définition suivante : pouvez-vous me confirmer qu'elle est équivalente à la vôtre ?[#5]

Ce sont là en gros les questions qu'un prof de maths rêve que ses élèves lui posent (surtout ceux qui ont tout le temps droit à Monsieur, ce sera au partiel, ça ?).

[#5] Une plaie des mathématiques est que le même nom peut recouvrir des concepts subtilement différents selon les auteurs. L'enseignement scolaire protège largement ses élèves de cette plaie en standardisant les définitions, mais ce n'est pas forcément une si bonne idée : après tout, c'est important de comprendre qu'en mathématiques, comme dans le reste des champs du savoir, les gens ne sont pas forcément complètement d'accord sur le sens des mots.

✱ Conseil nº7 : choisir intelligemment ce qu'on va apprendre par cœur et ce qu'on préfère retrouver. Je pense notamment aux formules, pour lesquelles il faut faire un choix entre ce qu'on apprendra par cœur (au risque d'oublier, de se tromper, etc.) et ce qu'on apprendra à retrouver (au risque d'y passer du temps). C'est un choix personnel, et il n'y a pas de bonne réponse, mais il faut y réfléchir : trouver ce qu'on retient le plus facilement et le plus fiablement, et voir ce qu'on peut en dériver et en combien de temps. Parfois on peut trouver des compromis (ne pas retrouver tout complètement, mais se rappeler comment fonctionne la dérivation pour savoir, par exemple, comment apparaissent les signes).

✱ Conseil nº7b : utiliser des moyens mnémotechniques intelligents. Indépendamment de la discipline, je trouve qu'un moyen mnémotechnique est toujours plus efficace (restera plus longtemps dans le cerveau, notamment) s'il est basé sur quelque chose de réel ou d'historique et pas sur un simple jeu de mot (comme le sont beaucoup de moyens mnémotechniques).

Je donne un exemple en-dehors des maths : en chimie j'ai toujours eu beaucoup de mal à retenir ce qu'était un cation et ce qu'était un anion. Un moyen mnémotechnique que je trouve con c'est de dire par exemple les aNions sont chargés Négativement. Un moyen mnémotechnique basés sur des faits réels consiste à savoir que les cations sont ainsi appelés parce qu'ils sont attirés par la cathode lors d'une électrolyse, et pour retenir ce qui est la cathode, je retiens qu'une télé ancienne s'appelle un tube cathodique, et je sais bien que ça balance des électrons : c'est un peu plus long de retrouver que le cation est positif, mais au moins je n'aurai pas le doute de me demander si le moyen mnémotechnique n'est pas peut-être l'aNode est l'électrode Négative.

Comme j'ai tendance à douter de ma mémoire, en plus, j'ai tendance à me donner des moyens mnémotechniques redondants, qui forment une sorte de code correcteur d'erreurs.

✱ Conseil nº8 : en oral, ne pas hésiter à simplifier le problème s'il est trop dur. Un chercheur en maths qui aborde un problème ne sait pas si la solution sera à sa portée, ni même si elle existe. Souvent, il l'aborde en se demandant est-ce que je sais au moins résoudre tel cas particulier ? (ou quel est le cas particulier le plus simple que je sache résoudre ?, ou voyons si j'ajoute telle ou telle hypothèse simplificatrice), puis est-ce que je peux en déduire une intuition qui me servira dans le cas général ? (et pour commencer où est-ce que mon hypothèse simplificatrice m'a aidé ?). Dans un oral, et particulièrement dans un oral comme au concours d'entrée aux ENS, ce genre de démarche sera bien reçu, il ne faut pas hésiter à montrer qu'on peut faire preuve d'initiative devant un problème trop dur (parfois à dessein !).

Ajout () : Comme je me suis ici concentré surtout sur l'étude, la compréhension et l'apprentissage, ceci est le seul conseil que je donne sur la résolution de problèmes, qui en mériterait pourtant à elle toute seule une petite collection. Donner des conseils sur comment résoudre un problème est évidemment beaucoup plus hasardeux que donner des conseils sur comment apprendre un cours, il est certain qu'il faut beaucoup plus de place pour l'entraînement et qu'on ne peut pas donner d'approche clé-en-main, raison supplémentaire pour laquelle je me suis limité au court paragraphe ci-dessus. Mais on peut quand même essayer d'en dégager. Fort heureusement, comme on me le fait remarquer, cette collection de conseils pour la résolution de problèmes mathématiques a déjà été écrite par quelqu'un d'autre : il s'agit du célèbre livre How to Solve It du mathématicien George Pólya (apparemment traduit en français sous le titre Comment poser et résoudre un problème). Je dois avouer que je n'avais qu'entendu parler de ce livre, je ne l'avais jamais ouvert (je pensais juste que c'était une collection d'exercices, mais je confondais avec le non moins célèbre Aufgaben und Lehrsätze aus der Analysis de Pólya et Szegő), mais en consultant le résumé sur Wikipédia et en feuilletant l'ouvrage lui-même, je pense que son excellente réputation n'est pas usurpée (ses conseils sont, en outre, tout à fait dans l'esprit général de ce que j'essaie de dégager dans cette entrée). J'ajoute donc le méta-conseil : lire How to Solve It de Pólya (ou au moins en lire un résumé) et appliquer ses conseils.

✱ Conseil nº9 : chercher à se cultiver. Je ne dis pas ça seulement dans le sens chercher à aller au-delà du programme enseigné (ça ça peut être une bonne idée, mais seulement si c'est mû par une curiosité intellectuelle sincère et pas par volonté de mieux réussir sur le programme qu'on doit connaître). C'est aussi simplement que chaque concept mathématique peut s'enseigner d'une myriade de façons différentes, que chaque étudiant sera plus ou moins réceptif à telle ou telle manière de le présenter, et que par conséquent aucun enseignant, aussi talentueux soit-il, ne peut fournir tout le temps la meilleure approche pour tout le monde : si on ne comprend pas quelque chose, la meilleure approche est parfois d'aller chercher autour de cette chose — comment d'autres enseignants la définissent, l'approchent et l'expliquent, quelle est son histoire, pourquoi on l'a développée et à quoi elle sert, etc. Parfois, apprendre un concept plus général peut s'avérer plus facile, ou plus éclairant pour le concept qu'on cherchait à apprendre. (La même chose vaut d'ailleurs pour les problèmes, et c'est un adage célèbre des mathématiciens : si vous ne savez pas résoudre un problème, essayez de le généraliser.)

✱ Conseil nº9b : utiliser Wikipédia (en français et en anglais, et en toute autre langue qu'on est capable de lire). Wikipédia n'est pas parfait, loin de là, les articles sont d'un niveau extrêmement hétérogène et il faut toujours garder à l'esprit qu'il peut y avoir des erreurs (mais il peut aussi y avoir des erreurs dans n'importe quel livre[#6] ou n'importe quel cours !, ce n'est pas spécifique à Wikipédia). Mais c'est un point de référence incontournable si on veut se cultiver sur n'importe quel sujet ou se faire au moins une première idée de « ce qui existe » ou pour avoir un point de vue différent du cours qu'on utilise comme référence principale. À utiliser avec précaution, mais à utiliser systématiquement, donc.

[#6] Enfin, sauf si l'auteur s'appelle Jean-Pierre Serre, évidemment.

✱ Conseil nº9c (spécifique aux classes prépas françaises) : profiter des colleurs. Comme je l'explique ci-dessus, il est souvent intéressant d'avoir plus d'un point de vue sur un concept difficile à comprendre. Les élèves de classes prépa ont la chance d'avoir accès à un grand nombre d'interrogateurs d'oraux (« colleurs »), d'autant plus que ceux-ci sont parfois doctorants ou chercheurs en maths et peuvent donc offrir une perspective un peu différente de celle de l'enseignant principal de la classe.

✱ Conseil nº10 : ne pas se comparer aux autres. Même si on passe un concours. Cela n'aidera pas à donner le meilleur de soi-même. Les mathématiques, en tant que science, en tant qu'entreprise humaine de recherche du savoir, sont (ou devraient être, parce que l'attitude de certains fait parfois douter…) une collaboration et pas une compétition, et je pense qu'il n'y a que comme ça qu'on peut correctement les concevoir. Les nécessités de l'évaluation, particulièrement dans l'enseignement, imposent parfois une autre façon de faire, mais si on suit sérieusement mon conseil nº1, l'intérêt d'étudier les maths est d'apprendre les maths, pas de se mesurer aux autres, et il est important de ne pas perdre cet aspect-là de vue.

✱ Conseil nº10b : ne pas croire aux génies. Il y a certainement des gens qui réfléchissent plus vite que d'autres, par exemple, mais gardons à l'esprit que, par exemple, David Hilbert, l'un des n plus grands mathématiciens de tous les temps avec n qui se compte sur les doigts d'une main partiellement amputée, était un esprit très lent (sa biographe, Constance Reid[#7], raconte que souvent les séminaires à Göttingen finissaient en une sorte de séance d'explication où tout le monde racontait à Hilbert ce qu'il était le seul à ne pas avoir encore compris). J'ai eu le privilège de croiser, voire de discuter avec, un certain nombre de grands mathématiciens, et à chaque fois je suis arrivé à la conclusion que si ces gens réfléchissent souvent très vite et peuvent avoir une culture sidérante[#8], ils ne réfléchissent pas de façon fondamentalement différente de, disons, moins grands mathématiciens.

(Je dis ça parce que quand j'étais en prépa il circulait tout un tas de légendes urbaines sur toutes sortes de génies passés par là, du genre les plus hauts scores de tous les temps au concours d'entrée à l'École polytechnique sont (1) Henri Poincaré, (2) Jacques Hadamard, et (3) Laurent Lafforgue[#9]. On se demande à quoi ce genre de légendes servent à part intimider celui qui les entend ou faire oublier mon conseil nº10.)

Je pense que ce conseil va de pair avec le nº5b.

[#7] Remarquable biographe de mathématiciens, soit dit en passant, et sœur de la tout aussi remarquable mathématicienne Julia Robinson, laquelle a malheureusement refusé que Constance écrive plus qu'une petite notice biographique de sa sœur.

[#8] Même en matière de culture, d'ailleurs, il faut garder l'esprit que la culture générale a ceci de commun avec un filet qu'elle est un tissu de trous mais qu'on arrive quand même à s'en servir pour retenir des choses, et ceci marche aussi pour la culture mathématique. Je ne veux pas dénoncer qui que ce soit avec des anecdotes comme <tel grand mathématicien> ne connaissait pas <tel concept qui s'enseigne en licence>, mais personne ne sait tout, et c'est normal. (Mais pour ne pas dénoncer un vivant, j'avais lu quelque part que von Neumann, qui était vraiment le genre qu'on a tendance à qualifier de génie hors du commun, et certainement il réfléchissait à une vitesse phénoménale, avait été tout étonné d'apprendre qu'on pouvait fabriquer un tore en recollant les bords opposés d'un carré.)

[#9] Je n'ai aucune idée de si c'est vrai, mais ça m'étonnerait (a) que le concours d'entrée soit resté à ce point constant depuis l'admission de Poincaré qu'on puisse comparer les scores d'alors et de maintenant, et (b) même si c'est le cas, que qui que ce soit ait cette information, en fait (je ne sais pas si et au bout de combien de temps les notes sont rendues publiques, je suppose qu'on doit pouvoir obtenir celles de Poincaré et Hadamard, mais celles de Lafforgue, certainement pas, et le jury n'est sans doute pas du genre à retrouver les notes historiques par comparaison ou faire fuiter celles d'un candidat). Donc le minimum d'esprit critique, que de toute évidence je n'avais pas tellement à l'époque, aurait dû m'amener à répondre reference needed!.

✱ Conseil d'ensemble : privilégier la compréhension à l'apprentissage. Encore une fois, ce n'est pas pour nier que, même en maths, il y a des choses qu'il faut « apprendre bêtement » (au minimum, il faudra apprendre les axiomes et tout ce qui est définition, convention, terminologie ou notation ; en pratique, il faut aussi apprendre les théorèmes qu'on ne va pas raisonnablement pouvoir retrouver en un temps limité). Mais c'est surtout qu'il est facile de penser qu'on a compris alors qu'on n'a fait qu'apprendre mécaniquement.

(J'espère que la porte ouverte est convenablement défoncée, là.)

↑Entry #2549 [older| permalink|newer] / ↑Entrée #2549 [précédente| permalien|suivante] ↑

↓Entry #2548 [older| permalink|newer] / ↓Entrée #2548 [précédente| permalien|suivante] ↓

(jeudi)

Des figures que j'en ai marre de refaire, et des histoires de kaléidoscopes

[Dessins des systèmes de racines de rang 2]Il y a des des figures que je me retrouve à refaire encore et toujours, à chaque fois que je veux réfléchir à un certain sujet. Parmi ceux que je reproduis avec une fréquence qui finit par devenir vraiment pénible, il y a ceux qui apparaissent ci-contre à droite, et que je me suis enfin de sorti les doigts du c** pour produire en PDF avec TikZ (suivez le lien pour le PDF). Comme je ne suis certainement pas le seul trouver ces figures utiles pour réfléchir, je les mets en ligne. Et du coup, je peux en profiter pour faire un peu de vulgarisation sur ce qu'ils représentent.

Je vais essayer d'expliquer ça sous l'angle de la géométrie euclidienne élémentaire, à travers la question de classifier et de comprendre les kaléidoscopes (simpliciaux). L'intérêt, outre que c'est peut-être plus parlant, est ne pas supposer que qui que ce soit ait lu mon récent rant interminable sur les groupes de Lie (mais en même temps, essayer de dire les choses de manière à quand même éclairer le rant en question). En fait, après coup, je ne suis rendu compte que ce n'était pas forcément une très bonne approche, et que cette entrée ressemble beaucoup à une accumulation de faits qui partent dans tous les sens et qui ne reflètent pas bien (pun unintended) l'élégance du sujet. En plus de ça, comme c'est un sujet que j'ai l'habitude de voir abordé autrement que comme de la géométrie euclidienne, je ne suis pas très sûr de l'ordre dans lequel les faits s'agencent logiquement, et je n'ai pas toujours une idée très claire de la difficulté qu'il y aurait à les démontrer dans une telle approche. Et aussi à cause de ça, il faut que j'avertisse que je n'ai pas vérifié très soigneusement (je veux dire, encore moins que d'habitude…) tous les résultats que j'énonce dans cette entrée, et qu'il est fort possible que j'aie oublié une hypothèse ou une autre pour me raccrocher à là où je veux en venir ; notamment, j'ai failli complètement négliger la « condition supplémentaire » que j'ai finalement trouvé utile d'introduire plus bas dans la définition d'un kaléidoscope. Malgré tout ça, j'espère que ce que je raconte est au moins un peu intéressant.

*

Bref, partons d'une question de géométrie euclidienne, celle d'identifier les simplexes kaléidoscopiques (et on peut dire que c'est ce que mes figures illustrent en dimension 2) : je vais expliquer ce que cela signifie.

Un simplexe, c'est la généralisation évidente en dimension n d'un triangle en dimension 2 et d'un tétraèdre en dimension 3 (remarquez, ce que je vais dire est déjà intéressant en dimension 2 et 3). C'est-à-dire qu'un simplexe est la donnée de n+1 points (en position générale), qu'on appelle les sommets du simplexe (le simplexe lui-même est l'enveloppe convexe de ces points, c'est-à-dire tout ce qui est situé « à l'intérieur » au sens large) ; les facettes du simplexe sont les simplexes de dimension n−1 obtenus en prenant n quelconques des n+1 points (c'est-à-dire en en enlevant exactement un : un simplexe de dimension n a donc exactement n+1 facettes) ; et l'hyperplan supportant la facette est l'hyperplan qui passe par les n points en question. (En dimension 2, les facettes sont donc les arêtes du triangle, et on parle des droites les supportant ; et en dimension 3, ce sont les faces du tétraèdre, et les plans les supportant.)

Maintenant, considérons un tel simplexe : on peut effectuer sa réflexion (= symétrie orthogonale) par rapport à une quelconque de ses facettes (c'est-à-dire, plus exactement, par rapport à l'hyperplan la supportant), et on peut répéter l'opération. Que va-t-il se passer ?

Dans certains cas, il se passe quelque chose de fort sympathique, à savoir qu'on obtient des simplexes qui ne se chevauchent jamais mais qui pavent parfaitement l'espace. Si on est parti, par exemple, dans le plan, d'un triangle équilatéral ou d'un triangle rectangle isocèle (=demi-carré), on obient les deux premières figures de mon document (c'est-à-dire un pavage du plan par des triangles équilatéraux ou des demi-pavés ; ignorer les lignes en pointillés sur la première page). La troisième page correspond au cas où on part d'un triangle d'angles 90°, 60° et 30° (i.e, π/2, π/3 et π/6). Ces cas sont très particulier : en général, on n'obtient pas du tout quelque chose qui marche ; par exemple, si on prend un triangle quelconque dans le plan, on se rend vite compte qu'en répétant des symétries par rapport à ses sommets on va retomber sur des triangles qui se chevauchent et on ne va pas fabriquer un pavage.

Si on obtient effectivement un pavage, et sous une petite condition supplémentaire que je vais décrire un peu plus loin, je dirai que le simplexe de départ (ou, du coup, n'importe lequel des simplexes du pavage) est kaléidoscopique, et que ce qu'on obtient est un kaléidoscope simplicial (parfois j'omettrai la précision simplicial parce que, pour simplifier, je ne vais parler essentiellement que de ça).

On peut s'imaginer que ça a un rapport avec la symétrie, et c'est assurément le cas, mais ce n'est pas forcément exactement le rapport qu'on attend. Le tétraèdre (=simplexe) régulier dans l'espace euclidien de dimension 3, notamment, n'est pas kaléidoscopique (cela résulte du fait que ses angles dièdres valent arccos(1/3)≈71°, qui n'est pas un diviseur de 180°, cf. ci-dessous) ; en fait, non seulement le tétraèdre régulier ne pave pas l'espace, mais il y a un résultat rigolo qui dit que si on empile des tétraèdres réguliers face contre face (c'est-à-dire qu'on le réfléchit de façon répétée), on peut reconstituer la succession de tétraèdres suivie (le chemin de réflexions depuis le tétraèdre initial) à partir de la seule donnée du tétraèdre final. J'avais d'ailleurs fait il y a longtemps une vidéo d'un chemin dans un tétraèdre régulier dont les faces sont des miroirs (mais légèrement teintées en rouge, vert, bleu et blanc, pour qu'on y voie quelque chose) quand on rebondit sur les faces du tétraèdre ou, ce qui revient au même, quand on voyage en ligne droite en réfléchissant à chaque fois le tétraèdre contre la face qu'on traverse. Mais ce n'est pas de ça que je veux parler puisque ce cas, justement, n'est pas kaléidoscopique : je l'évoque juste pour signaler qu'être un solide régulier n'a pas vraiment de rapport avec le fait d'être kaléidoscopique, ou en tout cas pas le rapport évident[#].

[#] Le rapport correct est plutôt ceci : si on prend un solide régulier, inscrit dans une sphère, et qu'on le gonfle jusqu'à la sphère pour donner un pavage de la sphère, puis qu'on considère le triangle dont les sommets sont le centre d'une face, le milieu d'une arête de cette face, et une extrémité de cette arête, alors ce triangle sphérique est kaléidoscopique pour la géométrie sphérique. Par exemple, le tétraèdre régulier correspond à un pavage de la sphère par quatre triangles équilatéraux d'angle 120°=2π/3 à chaque sommet (en géométrie sphérique, c'est possible) ; je ne vais pas vouloir dire que ces triangles- sont kaléidoscopiques pour la géométrie sphérique (cf. juste après), mais si on relie le centre d'un tel triangle au milieu d'un de ses côtés et à une des extrémités du côté, on trouve un nouveau triangle d'angles π/3 (au centre), π/2 (au milieu du côté) et π/3 (au sommet), et ce nouveau triangle — qui ne peut pas non plus exister en géométrie euclidienne — est kaléidoscopique pour la géométrie sphérique. De même, dans le pavage de mon labyrinthe hyperbolique, si on relie le centre d'une case « carrée » au milieu d'un de ses côtés et à une extrémité de ce côté, on trouve un triangle d'angles π/4 (au centre d'une case), π/2 (au milieu du côté) et π/5 (au sommet), qui ne peut pas exister en géométrie euclidienne, mais qui est kaléidoscopique pour la géométrie hyperbolique (puisque mon jeu, justement, se déroule sur un pavage !). Mais, à part dans cette note, si je ne précise pas explicitement, je parle toujours de simplexes euclidiens (et, entre autres, la somme des angles d'un triangle vaut 180°).

*

En fait, il y a une condition supplémentaire que je dois peut-être ajouter pour dire qu'un simplexe est kaléidoscopique : je crois que pour un simplexe dans l'espace euclidien, ajouter cette condition n'est pas, en fait, nécessaire (je veux dire, elle est automatiquement vérifiée), mais si je veux généraliser à d'autres polytopes que le simplexe ou à d'autres géométries que l'euclidienne, je veux l'inclure, pour éliminer des choses comme le pavage du plan par des hexagones ou le pavage de la sphère par quatre triangles sphériques équilatéraux qui s'obtient en gonflant un tétraèdre régulier jusqu'à sa sphère circonscrite (cf. la note précédente), choses que je n'ai pas envie de considérer comme des kaléidoscopes. Même pour ne considérer que des kaléidoscopes de simplexes euclidiens, cette condition est intéressante à énoncer, parce qu'elle décrit des propriétés importantes de ces kaléidoscopes. La condition supplémentaire en question peut s'exprimer de différentes manières qui sont, il me semble, équivalentes :

  • Si on colorie chaque simplexe du kaléidoscope soit en « noir » soit en « blanc » en décidant arbitrairement d'une premier pour le premier et en changeant de couleur à chaque fois qu'on fait une symétrie, alors non seulement les simplexes ne se chevaucheront pas (condition déjà exigée) mais, en outre, le coloriage fonctionnera bien, i.e., on n'essaiera jamais de mettre au même endroit deux simplexes de couleurs opposées au même endroit.
  • L'hyperplan supportant chaque facette de chaque simplexe du kaléidoscope doit être lui-même pavé par des facettes, c'est-à-dire, ne doit pas rencontrer l'intérieur d'un simplexe (dont il serait alors un hyperplan de symétrie interne).
  • Si on marque le simplexe initial du kaléidoscope par exemple en faisant un dessin dessus qui n'ait aucune symétrie, ou en affectant à chacun de ses sommets une couleur différente, et qu'on propage ce marquage au fur et à mesure qu'on construit le kaléidoscope par symétries, alors à chaque fois qu'on retombe sur un simplexe déjà rencontré, le marquage sera compatible.

Il doit être assez évident que ces propriétés échouent dans le cas du pavage du plan par les hexagones (ou dans le cas du pavage de la sphère par quatre triangles équilatéraux).

*

Dans le plan, ce n'est pas très difficile de trouver tous les triangles kaléidoscopiques. Pour commencer, l'angle à n'importe quel sommet doit être de la forme π/m pour un certain m entier (≥2), parce que sinon, en reflétant de façon répétée par rapport aux deux côtés qui s'y rencontrent, on ne va pas revenir au triangle de départ. (Remarquons que la première forme de la condition supplémentaire que je viens de décrire donne le π/m au lieu de 2π/m.) Bref, on a donc trois angles π/m₁, π/m₂ et π/m₃, dont la somme doit valoir π, ce qui impose 1/m₁ + 1/m₂ + 1/m₃ = 1 ; or il est facile de résoudre cette équation : on peut sans perte de généralité supposer m₁≤m₂≤m₃, et on ne peut pas avoir m₁≥4 sinon 1/m₁ + 1/m₂ + 1/m₃ serait ≤¾, ce qui ne laisse que les deux cas m₁=3 et m₁=2 à considérer, dans premier on doit visiblement avoir m₁=m₂=m₃=3, et dans le second il reste encore un tout petit peu de discussion à faire sur la valeur de m₂ mais au final, les seules solutions (m₁,m₂,m₃) sont (3,3,3), (2,4,4) et (2,3,6). Or il s'avère que ces trois solutions fonctionnent bien, c'est-à-dire que le triangle (défini à similitude près) d'angles π/m₁, π/m₂ et π/m₃ est effectivement kaléidoscopique dans chacun de ces trois cas, et ceci donne les trois pages de mon document : le premier est le triangle équilatéral et je vais l'appeler simplexe kaléidoscopique de type A₂˜, le second est le triangle rectangle isocèle (= demi-carré) et je vais l'appeler simplexe kaléidoscopique de type B₂˜, et le troisième n'a pas de nom particulier mais je vais l'appeler simplexe kaléidoscopique de type G₂˜. (Même s'il est plus correct d'utiliser la notation A₂˜, B₂˜ et G₂˜, comme je viens de le faire, pour ces simplexes kaléidoscopiques euclidiens, on les désigne parfois abusivement comme A₂, B₂ et G₂.)

Dans l'espace de dimension 3, on peut remarquer que le raisonnement vaut toujours pour dire que l'angle (« dièdre ») entre deux plans du tétraèdre supposé kaléidoscopique doit être de la forme π/m avec m entier ≥2 ; et plus généralement, en toute dimension, c'est vrai pour l'angle dièdre entre deux facettes du simplexe. Il y a ½n(n+1) angles dièdres entre facettes du simplexe de dimension n, mais il n'est pas évident de trouver des contraintes comme la somme des angles d'un triangle vaut π. On est alors tenté de se poser toute une série de questions :

  • Un simplexe est-il caractérisé (à similitude éventuellement indirecte près, c'est-à-dire, sa forme non-orientée est-elle caractérisée) par la donnée de ses ½n(n+1) angles dièdres ? La réponse est oui (ce n'est pas très difficile).
  • Peut-on caractériser à quelle condition un ensemble de ½n(n+1) angles dièdres donne bien naissance à un simplexe de dimension n ? On peut effectivement faire ça[#2], mais c'est un peu une fausse piste (au sens où le travail est plus facile si on se place d'emblée dans le cas kaléidoscopique ; néanmoins, la question suivante mérite quand même d'être posée).
  • En supposant que le simplexe ayant un certain ensemble d'angles dièdres existe bien, et que ces angles sont tous de la forme π/m pour m entier ≥2, le simplexe en question est-il nécessairement kaléidoscopique ? La réponse est oui (il me semble que ce n'est pas complètement évident).
  • Peut-on lister tous les simplexes kaléidoscopiques d'une dimension donnée ? C'est surtout ce problème-là qui m'intéresse.

[#2] Précisément, si θi,j est une collection de ½n(n+1) angles dièdres entre la facette i et la facette j d'un simplexe euclidien putatif, qu'on prolonge en imposant θj,i = θi,j et θi,i = π (ce qui est passablement logique), considérons la matrice (n+1)×(n+1) dont les entrées sont les −cos(θi,j) (elle est donc symétrique avec des 1 sur la diagonale et des entrées négatives ou nulles en-dehors de la diagonale). Alors le simplexe d'angles dièdres θi,j est réalisable dans l'espace euclidien si et seulement si la conjonction des trois affirmations suivantes est vraie : (a) la matrice en question a un déterminant nul [c'est cette condition qui, pour n=2, équivaut essentiellement à dire que la somme des angles vaut π], (b) chacune des n+1 sous-matrices (symétriques !) obtenues en retirant la i-ième ligne et la i-ième colonne (de même numéro, donc) est positive définie, et (c) chacun des cofacteurs (c'est-à-dire (−1)i+j fois le déterminant de la sous-matrice obtenue en retirant la i-ième ligne et la j-ième colonne, le cas j=i étant déjà couvert par (b)) est positif. Je ne sais pas à qui est dû ce résultat : je l'ai trouvé dans l'article de Luo, On a Problem of Fenchel (Geom. Dedicata 64 (1997), 277–282), mais il l'annonce comme étant bien connu (ce que je soupçonnais assurément) sans donner d'historique.

On doit encore pouvoir résoudre le problème « à la main » en dimension 3. J'avoue que je n'y vois déjà plus rien en dimension 3, mais il existe encore exactement trois tétraèdres kaléidoscopiques, et on peut tous les décrire avec des points d'un cube (disons le cube dont les sommets sont les (±1,±1,±1)) :

  • le simplexe kaléidoscopique de type A₃˜ (ou abusivement, A₃) : il s'agit du tétraèdre dont deux sommets (appelons-les P₀=(1,0,0) et P₂=(−1,0,0)) sont les centres de deux faces opposées du cube, et les deux autres sommets (appelons-les P₁=(0,1,1) et P₃=(0,1,−1)) sont les milieux de ces deux côtés d'une quelconque des quatre autres faces qui ne touchent pas les faces où se trouvent les deux sommets P₀ et P₂ ;
  • le simplexe kaléidoscopique de type B₃˜ (ou abusivement, B₃) : il s'agit du tétraèdre dont un sommet (appelons-le P₃=(0,0,0)) est au centre d'un cube, un autre (appelons-le P₂=(0,0,1)) est au centre d'une des faces de ce cube, et les deux autres (appelons-les P₀=(1,1,1) et P₁=(1,−1,1)) sont les deux extrémités d'un quelconque des côtés de la face en question ;
  • le simplexe kaléidoscopique de type C₃˜ (ou abusivement, C₃) : il s'agit du tétraèdre dont deux sommets (appelons-les P₀=(1,1,1) et P₁=(−1,1,1)) sont les deux extrémités d'une des arêtes du cube, et les deux autres (appelons-les P₂=(−1,−1,1) et P₃=(−1,−1,−1)) sont les deux extrémités d'une arête orthogonale mais non coplanaire à celle-ci (avec la convention que P₁ et P₂ sont les points les plus proches).

La numérotation des sommets est un peu bizarre, mais elle est standard (c'est la numérotation de Bourbaki) ; dans tous les cas, P₀ est une « pointe » du simplexe, un concept que je vais expliquer plus loin. Très honnêtement, je n'arrive à visualiser aucun des trois, ni la raison pour laquelle ils sont kaléidoscopiques. Mais le fait est que ce sont les seuls.

*

De façon plus générale, en dimension n, il existe en général exactement quatre simplexes kaléidoscopiques, notés An˜, Bn˜, Cn˜ et Dn˜, sachant que A₁˜, B₁˜ et C₁˜ coïncident (c'est un segment…), B₂˜ et C₂˜ coïncident, Dn˜ n'est défini[#3] que pour n≥3 et coïncide avec A₃˜ pour n=3, mais pour n≥4 on a bien les quatre ; et à ça s'ajoutent encore cinq simplexes kaléidoscopiques exceptionnels, G₂˜ (qui n'est autre que le triangle d'angles π/2, π/3 et π/6), F₄˜, E₆˜, E₇˜ et E₈˜. Ou, pour dire, les choses autrement, les simplexes kaléidoscopiques distincts sont : An˜ pour n≥1, Bn˜ pour n≥2, Cn˜ pour n≥3, Dn˜ pour n≥4, G₂˜, F₄˜, E₆˜, E₇˜ et E₈˜.

[#3] Enfin, D₂˜ n'est pas particulièrement problématique, en fait, c'est un carré (A₁˜×A₁˜), qui est effectivement kaléidoscopique, mais comme je m'en suis tenu aux simplexes dans ce que j'ai raconté, je l'écarte.

Certains ont déjà vu ça quelque part, bien sûr : c'est exactement la classification des groupes de Lie complexes simples simplement connexes (ou des groupes de Lie réels compacts simples simplement connexes, ça revient au même). C'est une de ces surprises qui ponctuent les mathématiques que deux objets qui ont l'air de ne rien avoir à voir sont classifiés exactement de la même manière ; en fait, cette classification ABCDEFG apparaît à toutes sortes d'endroits où on ne l'attend pas forcément (avec des variations : parfois seulement ADE, et parfois il y a H₃ et H₄ qui se glissent aussi dans l'histoire et G₂ se transforme en toute une famille infinie I₂(m) mais en tout cas ça ressemble beaucoup). Ici, ce n'est pas si mystérieux que ça : j'ai essayé d'expliquer dans mon rant interminable passé pourquoi l'ensemble des classes de conjugaison d'un groupe de Lie réel compact simple simplement connexe est précisément décrit par son « alcôve de Weyl » qui a justement la forme du simplexe en question, et il n'est pas terriblement difficile de montrer que la forme de l'alcôve détermine le groupe ; ce qui est un peu plus mystérieux, c'est que, réciproquement, à tout simplexe correspond un groupe (il y a la question des « constantes de structure » qui reste encore un peu subtile malgré tous les travaux faits dessus).

Je ne vais pas raconter comment on obtient ce résultat (correctement exprimé, ce n'est pas vraiment plus étonnant que l'histoire de classifier les solutions de 1/m₁ + 1/m₂ + 1/m₃ = 1). En fait, ce qu'on sait par les travaux de Coxeter, c'est que tout ça s'inscrit dans un formalisme géométrique élégant qui marche à la fois en géométrie sphérique, euclidienne, hyperbolique ou « indéfinie » ; essentiellement, on peut imposer les angles dièdres π/m avec m≥2 arbitraire qu'on veut au simplexe (y compris m=∞, auquel on peut donner un sens, d'ailleurs c'est plus ou moins ce qu'il faut faire pour faire entrer le segment A₁ dans ce cadre), et ensuite il s'agit de trouver ce qui marche en géométrie sphérique, euclidienne et hyperbolique (le reste étant « indéfini »). Les cas sphérique et euclidien sont intimement liés, ce qui explique que l'étiquetage standard des kaléidoscopes euclidiens soit celui de certains kaléidoscopes sphériques avec un petit tilde au-dessus (ou, comme ce n'est pas facile de faire un tilde au-dessus en HTML, après).

Ajout () : Tant qu'à faire, je peux donner les coordonnées explicites d'au moins certains de ces simplexes kaléidoscopiques (à chaque fois, P₀ sera l'origine) :

  • Pour ce qui est de An˜, il vaut mieux travailler dans un système de n+1 coordonnées euclidiennes, dans l'hyperplan « somme de toutes les coordonnées égale zéro » : dans ce système de coordonnées, on peut prendre pour sommets du simplexe le point Pi (pour 0≤in) ayant i coordonnées toutes égales à (n+1−i)/(n+1) suivi de n+1−i coordonnées toutes égales à −i/(n+1) (la somme fait bien 0).
  • Pour Bn˜, Cn˜ et Dn˜, on prendra n coordonnées euclidiennes. Le plus simple à décrire est sans doute Cn˜ : le point Pi (pour 0≤in) a i coordonnées toutes égales à ½, suivi de ni coordonnées nulles (on pourrait évidemment tout doubler, mais ce choix est peut-être un chouïa plus standard). Pour Bn˜, c'est exactement pareil, sauf que le point P₁ vaut (1,0,0,…,0) au lieu de (½,0,0,…,0). Enfin, pour Dn˜, c'est pareil que Bn˜, sauf que le point Pn−1 est (½,½,…,½,−½) au lieu de (½,½,…,½,0).
  • Pour F₄˜, on prendra P₀ = (0, 0, 0, 0) ; P₁ = (½, ½, 0, 0) ; P₂ = (2/3, 1/3, 1/3, 0) ; P₃ = (3/4, 1/4, 1/4, 1/4) et P₄ = (1,0,0,0).
  • Pour E₈˜, on prendra P₀ = (0, 0, 0, 0, 0, 0, 0, 0) ; P₁ = (0, 0, 0, 0, 0, 0, 0, 1) ; P₂ = (1/6, 1/6, 1/6, 1/6, 1/6, 1/6, 1/6, 5/6) ; P₃ = (−1/8, 1/8, 1/8, 1/8, 1/8, 1/8, 1/8, 7/8) ; P₄ = (0, 0, 1/6, 1/6, 1/6, 1/6, 1/6, 5/6) ; P₅ = (0, 0, 0, 1/5, 1/5, 1/5, 1/5, 4/5) ; P₆ = (0, 0, 0, 0, 1/4, 1/4, 1/4, 3/4) ; P₇ = (0, 0, 0, 0, 0, 1/3, 1/3, 2/3) et P₈ = (0, 0, 0, 0, 0, 0, ½, ½).

(Les coordonnées données plus haut pour n=3 étaient choisies pour être plus faciles à visualiser dans ce cas précis, donc elles sont différentes, mais les simplexes sont bien semblables. Je ne donne pas les coordonnées pour G₂˜, E₆˜ et E₇˜ parce que c'est toujours pénible à faire : si on veut des coordonnées rationnelles, comme pour An˜ il faut se placer sur un hyperplan, voire, dans le cas de E₆˜, en codimension 2, et je me tromperais inévitablement en les écrivant.)

*

Pour pouvoir parler plus clairement, il faut que j'introduise un peu de terminologie basique. Les hyperplans supportant une facette quelconque d'un des simplexes du kaléidoscope s'appellent les hyperplans de réflexion ou les miroirs du kaléidoscope : par définition, le kaléidoscope est invariant par réflexion par rapport à chacun de ses miroirs. (Dans mes figures 2D, les miroirs sont ceux qui sont en traits pleins noirs.) Certains miroirs sont parallèles les uns aux autres : j'ai envie de considérer les classes (disons, les familles) de tous les miroirs parallèles à un miroir donné, mais plutôt que faire exactement ça, je vais procéder un tout petit peu différemment. Si H est un miroir, je considère un vecteur α perpendiculaire à H et dont la norme est l'inverse de la distance entre deux miroirs parallèles à H consécutifs (il y a deux tels vecteurs, opposés l'un à l'autre) : un tel vecteur s'appellera une racine, et l'ensemble de toutes les racines s'appelle le système de racines du kaléidoscope. (Dans mes figures, le système de racines est dessiné en bas à gauche, sous le kaléidoscope lui-même, en noir.) J'ai choisi cette description par un vecteur perpendiculaire et de longueur inverse de l'intervalle entre deux miroirs pour utiliser uniquement de la géométrie élémentaire, mais il est sans doute plus satisfaisant, si on préfère, de définir les racines comme les formes linéaires α (sur l'espace vectoriel tangent à l'espace euclidien où vit le kaléidoscope) telles que les hyperplans de réflexion d'une même famille s'écrivent de la forme Hα,k := {x : α(x)=α(o)+k} pour k parcourant ℤ (donc α définit la direction de la famille de miroirs parallèles, et k la position du miroir dans la famille ; ici, o est une origine située sur un quelconque des hyperplans : je vais dire dans un instant qu'on peut choisir une même origine pour toutes les familles).

Un point (forcément un sommet d'un simplexe du kaléidoscope) par lequel passe un hyperplan de chaque famille de miroirs parallèles (i.e., un miroir de chaque direction possible) s'appelle une pointe du kaléidoscope, ou de n'importe quel simplexe dont il est un sommet. (Sur mes figures, les pointes sont marquées par des points rouges.) Un fait crucial est qu'il existe, effectivement, des pointes. En fait, les pointes forment un réseau euclidien, qu'on peut appeler réseau des pointes (le terme standard serait plutôt copoids, mais c'est moche ; le terme de pointe est dû à Conway). Bon, à ce stade-là, il est vraiment utile de choisir une origine : on choisit donc, une fois pour toutes, une pointe o pour origine (ce qui transforme l'espace affine euclidien en un espace vectoriel, et légitime le terme de réseau). Une fois choisie cette origine, si on la marque spécialement et qu'on marque de même tous les sommets qui s'en déduisent par réflexion par les différents miroirs du kaléidoscope, on obtient un nouveau réseau, inclus dans celui des pointes, appelé le réseau des périodes (ou des coracines ; sur mes figures, il est en noir : enfin, comme chaque coracine est en particulier une pointe, il est marqué en entourant en noir les pointes qui sont, en plus, des coracines). L'indice du réseau des périodes dans le réseau des pointes (i.e., le rapport de leurs covolumes, si on veut) est égal au nombre de pointes d'un simplexe (quelconque) du kaléidoscope.

Une fois choisie une origine o (qui soit une pointe), la réunion de tous les simplexes ayant o pour sommet (en marron sur mes figures) forme ce qu'on appelle un domaine fondamental pour le réseau des périodes, c'est-à-dire essentiellement que ce polytope pave l'espace avec exactement une coracine au centre de chaque translaté utilisé pour le pavage.

L'ensemble (infini) de toutes les isométries affines du plan obtenues en composant un nombre quelconque de réflexions par les miroirs du kaléidoscope s'appelle le groupe de Weyl affine (ou de Coxeter-Weyl) du kaléidoscope ; celles qui fixent l'origine o, i.e., les isométries vectorielles parmi elles, et qui peuvent, en fait, s'obtenir en composant un nombre quelconque de réflexions par des miroirs passant par o (ou symétries définies par les racines) s'appelle le groupe de Weyl tout court, ou sphérique s'il faut vraiment lever l'ambiguïté. (Le groupe de Weyl affine est un produit semidirect LW du groupe de Weyl W par le réseau des périodes L.) Le groupe de Weyl affine opère simplement transitivement sur les simplexes du kaléidoscope, c'est-à-dire que donnés deux simplexes, il y a un et un seul élément du groupe de Weyl affine qui envoie l'un sur l'autre ; c'est, en particulier, le cas dans le groupe de Weyl tout court (i.e., pas affine), et le nombre d'éléments de ce dernier est donc égal au nombre de simplexes ayant o pour sommet (sur mes dessins, c'est donc 6, 8 et 12 respectivement).

Je rappelle que j'ai choisi une pointe (= point par lequel passe un miroir de chaque direction possible) o comme origine. Il est aussi utile de choisir un des simplexes ayant o pour sommet et de l'appeler simplexe de référence (ou alcôve de référence ou alcôve de Weyl). Le cône de sommet o engendré par ce simplexe de référence s'appelle la chambre de Weyl (tracée en gris sur mes figures ; le simplexe de référence est celui qui est à la fois dans la chambre de Weyl, en gris, et dans le domaine fondamental, en marron, formé des simplexes ayant o pour sommet).

Je souligne que chaque sommet d'un simplexe quelconque du kaléidoscope est l'image, par une succession de réflexions par des miroirs du kaléidoscope, d'un unique sommet du simplexe de référence. C'est-à-dire que si on étiquette les sommets du simplexe de référence et qu'on propage cet étiquetage par réflexion, alors chaque sommet du kaléidoscope reçoit une étiquette bien définie. (Autrement dit, chaque sommet appartient à l'orbite sous le groupe de Weyl affine d'un unique sommet du simplexe de référence.) C'est quelque chose qui est d'ailleurs un peu contre-intuitif : tous les sommets du kaléidoscope ne se valent pas (je viens d'expliquer qu'il y a autant de « types » de sommets que de sommets du simplexe de référence, i.e., n+1), en revanche, pour ce qui est des miroirs, il est parfaitement possible que tous se valent (c'est ce qui se produit dans les cas A-D-E où il y a un seul « type » de miroirs ; dans les cas B-C-F-G il y en a exactement deux, les « grands » et les « petits », cf. ci-dessous).

*

Pour représenter symboliquement un kaléidoscope, on utilise un diagramme de Dynkin [étendu] (ou diagramme de Dynkin affine, ou diagramme de Coxeter-Dynkin [étendu/affine]) construit de la manière suivante. Ses nœuds correspondent aux sommets du simplexe de référence, et on relie deux nœuds par un nombre d'arête indiquant l'angle dièdre formé entre les facettes opposés à ces deux sommets dans le simplexe : les nœuds ne sont pas reliés lorsque les hyperplans sont perpendiculaires, ils sont reliés par une arête simple lorsque les hyperplans forment un angle de π/3, une arête double pour un angle de π/4, et une arête triple pour un angle de π/6 ; de plus, quand dans une famille de miroirs les miroirs consécutifs sont plus rapprochés que dans une autre, on dit que cela correspond à une grande racine et l'autre à une petite racine (cf. la définition ci-dessus des racines comme ayant pour longueur l'inverse de la distance entre deux hyperplans consécutifs) : en reliant deux nœuds par une arête double ou triple, on fait pointer une flèche de la grande vers la petite racine. (Il se trouve qu'il ne peut y avoir que deux tailles de racines différentes, et que ça se produit exactement lorsqu'il y a une arête double ou triple, celle-celi reliant alors une grande et une petite.) Les diagrammes qu'on obtient sont alors ceux donnés par cette figure, le nœud vert indiquant le choix de l'origine o comme sommet du simplexe (et les autres pointes sont toutes celles qui s'en déduisent par une symétrie du diagramme).

Si j'ai parlé de diagramme de Dynkin étendu, c'est parce qu'il y a des diagrammes de Dynkin ordinaires (i.e., pas étendus), qui s'obtiennent simplement en effaçant le nœud correspondant à une pointe. Ce sont généralement ces diagrammes-là qu'on voit dessinés. Ils correspondent à des kaléidoscopes sphériques. Petite digression à ce sujet :

On peut déduire un kaléidoscope sphérique (de dimension un de moins) à partir d'un kaléidoscope euclidien (=: affine) en considérant une petite sphère de centre o et en intersectant les miroirs avec cette sphère, qui deviennent donc des miroirs sur la sphère. Il se trouve que le kaléidoscope euclidien est « quasiment » caractérisé par le kaléidoscope sphérique, et que la « quasi totalité » des kaléidoscopes sphériques s'obtiennent de la sorte (on les dit cristallographiques). Pour être plus précis, les kaléidoscopes simpliciaux sphériques sont : en dimension 1 une famille infinie I₂(m) où m≥2, s'obtenant en découpant un cercle en 2m intervalles égaux, mais certains ont des noms spéciaux : I₂(3) est aussi appelé A₂, et I₂(4) aussi appelé BC₂, et I₂(5) parfois appelé H₂, et I₂(6) aussi appelé G₂ ; plus trois familles infinies An pour n≥1, BCn pour n≥2 et Dn pour n≥4 (l'indice n étant la dimension plus 1), et six cas exceptionnels F₄, E₆, E₇, E₈, H₃ et H₄. Seuls les kaléidoscopes sphériques BCn correspondent à plusieurs kaléidoscopes euclidiens (à savoir Bn˜ et Cn˜). Seuls I₂(m) (pour m=5 ou m≥7) et H₃ et H₄ ne sont pas cristallographiques, i.e., ne correspondent pas à un kaléidoscope euclidien. (S'agissant de H₃, il s'obtient en considérant les plans de symétrie d'un icosaèdre, et H₄ est un analogue en dimension 4.) Les diagrammes de Coxeter correspondants (indiquant l'angle dièdre entre deux facettes d'un simplexe sphérique du kaléidoscope) à ces kaléidoscopes sphériques sont ceux de cette figure (à ceci près qu'elle note Im ce que j'ai appelé plus logiquement I₂(m)) : l'étiquette m sur une arête indique que l'angle dièdre entre les facettes opposées aux sommets correspondant du simplexe est de π/m (et il n'y a pas de flèches, parce que la notion de grande ou petite racine n'a pas de sens ici). Les diagrammes de Dynkin ordinaires peuvent être vus comme une sorte de compromis entre les diagrammes de Coxeter sphériques et les diagrammes de Coxeter-Dynkin euclidiens : en encodant le système de racine, ils ressemblent plus au diagramme de Coxeter du kaléidoscope sphérique, mais ils donnent toute l'information nécessaire pour retrouver le diagramme du kaléidoscope euclidien.

*

Il y a encore une chose que je veux évoquer à propos des kaléidoscopes euclidiens, ce sont les « coefficients de la plus haute racine ». Il s'agit d'entiers positifs, l'un pour chaque sommet du simplexe de référence (ou, si on préfère, l'un pour chaque nœud du diagramme de Dynkin étendu), qui ont le don d'apparaître tout le temps dans toutes sortes de contextes. Voici une façon de les définir : je rappelle qu'on a fixé une pointe o comme origine, et un simplexe ayant o pour sommet comme simplexe de référence. Maintenant, à partir de l'origine o si v est un autre sommet du simplexe de référence, on prolonge la demi-droite ov jusqu'à rencontrer une nouvelle pointe, et le nombre de fois qu'on doit parcourir la distance ov est le coefficient mv associé à v ; en particulier, il vaut 1 pour n'importe quel sommet v qui est une pointe, et, par cohérence, on donne aussi la valeur 1 à la pointe o choisie pour origine.

De façon équivalente, si on appelle racine simple la racine définie par l'hyperplan supportant une facette passant par o du simplexe de référence, et orientée de façon à pointer vers l'intérieur de ce simplexe de référence (je rappelle qu'une racine est le vecteur orthogonal à un miroir et de longueur inverse de l'espacement entre deux miroirs parallèles consécutifs), et racine minimale la racine définie par l'hyperplan opposé à o du simplexe de référence, et toujours pointant vers l'intérieur, alors les coefficients dont je viens de parler sont les entiers naturels mα premiers entre eux dans leur ensemble tels que la somme des mα·α vaille 0 (où α parcourt les racines simples et la racine minimale, chacune étant mise en correspondance avec le sommet opposé du simplexe de référence).

Ces coefficients se retrouvent facilement à partir du diagramme de Dynkin (je rappelle que je parle toujours du diagramme de Dynkin « étendu », celui qui a n+1 nœuds, un pour chaque sommet du simplexe de référence) :

  • le coefficient d'une pointe vaut 1 (si on ne se rappelle pas quelles sont les pointes, on peut souvent les retrouver par le fait que les symétries du diagramme opèrent simplement transitivement sur les pointes ; on peut aussi simplement retenir que les coefficients sont des entiers de pgcd valant 1, avec la propriété suivante cela suffit à les caractériser et à retrouver les pointes),
  • le coefficient de chaque nœud v est égal à la moitié de la somme des coefficients de tous les nœuds w adjacents, sauf qu'on compte double ou triple le coefficient de w quand on a une arête double ou triple pointant de w vers v (si elle pointe dans l'autre sens ou si l'arête est simple, le coefficient de w compte normalement).

Les coefficients se retrouvent alors très facilement : dans le cas de An˜ (qui est un (n+1)-cycle) ils valent tous 1 (tous les nœuds sont des pointes) ; dans tout autre cas, on écrit 1 sur une pointe, celle-ci est adjacente à un unique autre nœud, dont le coefficient est donc forcément 2, et on procède ainsi de proche en proche. (Tant qu'on ne rencontre pas d'arête multiple ni de bifurcation dans le diagramme, les coefficients suivent des progressions arithmétiques. Par exemple, dans le diagramme de E₈˜, on se retrouve avec 6 pour le nœud ayant trois voisins, avec les progressions arithmétiques 1-2-3-4-5-6 sur la branche longue, 2-4-6 sur la branche moyenne et 3-6 sur la branche courte qui s'y rejoignent.) Inexplicablement, je ne trouve pas d'image facilement disponible en ligne sur laquelle ces coefficients soient marqués dans chaque cas (ah si, il y a celle-ci, mais elle est franchement moche). Mes figures liées en début de cette entrée donnent les coefficients de A₂˜, B₂˜ (qu'il vaut peut-être mieux appeler C₂˜ d'ailleurs) et G₂˜ à l'extrême fin.

Parmi les nombreuses choses que ces coefficients permettent de calculer, il y a la formule magique donnant l'ordre du groupe de Weyl :

L'ordre du groupe de Weyl est égal au produit des coefficients de la plus haute racine, fois n! (où n+1 est le nombre de nœuds du diagramme de Dynkin étendu), multiplié encore par le nombre de pointes (qui est aussi l'ordre du groupe de symétries du diagramme de Dynkin étendu).

Par exemple, dans le cas de E₈ (enfin, E₈˜, mais pour le groupe de Weyl non-affine on dira plutôt que c'est celui de E₈), on trouve (1×2×3×4×5×6×4×2×3)×(8!)×1 = 696 729 600. Dans le cas de An, on trouve (1×⋯×1)×(n!)×(n+1) = (n+1)!. Dans le cas de F₄, on trouve (1×2×3×4×2)×(4!)×1 = 1152. Dans le cas de Dn (qui a quatre pointes aux endroits évidents, et dont tous les autres coefficients de plus haute racine valent 2), on trouve (1×1×2×⋯×2×1×1)×(n!)×4 = 2n−1·n!.

L'ordre du groupe de Weyl donne le nombre de simplexes qui se rencontrent en o, ou, du coup, en n'importe quelle pointe. Si on veut connaître le nombre de simplexes qui se rencontrent en un autre point v, c'est facile : il suffit d'effacer le nœud correspondant à ce point du diagramme de Dynkin étendu, on obtient ainsi un diagramme de Dynkin ordinaire (= non étendu), en général ayant plusieurs composantes connexe, il existe une unique façon de compléter chacune de ses composantes connexes en un diagramme de Dynkin étendu, on calcule l'ordre du groupe de Weyl de chacun et on prend leur produit (en fait cela correspond à un kaléidoscope non simplicial, mais comme je n'ai parlé que de kaléidoscopes simpliciaux, je fais comme ça), et c'est le nombre recherché. Le rapport entre les deux nombres (le nombre de simplexes se rencontrant en o et le nombre de simplexes se rencontrant en v) donne aussi la densité des points de type v, c'est-à-dire combien il y en a par maille du réseau des périodes.

Quant à la somme h des coefficients de la plus haute racine, c'est encore un nombre très important, le nombre de Coxeter. Entre autres propriétés, le produit nh/2 (où, comme toujours, n+1 est le nombre de nœuds du diagramme de Dynkin étendu) est égal au nombre total de miroirs passant par o (de façon équivalente, nh est le nombre de racines ; par exemple, dans le cas de E₈, h=1+2+3+4+5+6+4+2+3=30 donc il y a 30×8=240 racines).

*

Ajout () : Suite à un petit échange sur Twitter, il faut que j'apporte quelques précisions supplémentaires qui peuvent aider à visualiser(?) un peu les choses. • Premièrement, le simplexe kaléidoscopique Cn˜ s'obtient en coupant en deux le simplexe kaléidoscopique Bn˜ (c'est-à-dire qu'un hyperplan qui est hyperplan de symétrie pour Cn˜ devient facette pour Bn˜), et de même Bn˜ s'obtient lui-même en coupant en deux Dn˜. (Sur les coordonnées que j'ai données plus haut, c'est assez évident.) • Deuxièmement, je dois préciser que, si ceci donne l'impression que Bn˜, Cn˜ et Dn˜ sont vaguement pareil, ceci est plus ou moins justifié par le fait qu'il n'y a que deux-trois réseaux des périodes (=coracines) possibles dans l'histoire, à savoir celui de An˜ (qui pour n=2 est aussi celui de G₂˜), celui de Dn˜ (qui est aussi celui de Bn˜ et de Cn˜ et, pour n=4, de F₄˜), et enfin celui de En˜ pour n∈{6,7,8}. (On peut donc dire que ce sont là les kaléidoscopes vraiment différents, et que les différences entre Bn˜, Cn˜ et Dn˜ correspondent juste à différentes façons de découper le même réseau.) Le cas n=3 est dégénéré parce que A₃˜ coïncide avec D₃˜.

*

Bon, j'avoue que je ne suis pas très content de ma façon de raconter tout ça, ça fait un peu trop recettes de cuisine. Mais je n'ai pas le courage de donner des preuves (et, pour commencer, de retrouver l'ordre logique dans lequel les choses s'enchaînent), ni même de faire tous les dessins qui seraient utiles pour bien comprendre les choses. Je vais juste renvoyer ceux qui veulent en savoir plus au très bon livre de Richard Kane, Reflection Groups and Invariant Theory (2001).

Ce qu'il faudrait vraiment faire, en revanche, c'est une représentation des trois kaléidoscopes euclidiens en dimension 3 (c'est-à-dire A₃˜, B₃˜ et C₃˜, cf. ci-dessus), un peu comme j'ai fait mes figures en dimension 2, et de façon à permettre aux gens comme moi incapables de voir dans l'espace de s'y retrouver un peu. Et puis, il faudrait aussi que quelqu'un se sorte les doigts du c** et fasse de vrais beaux dessins, dans le même style, des diagrammes de Coxeter ou Dynkin sous toutes leurs formes (ordinaires, étendus, et aussi les étendus-tordus-à-la-Kac dont je n'ai pas parlé ici ; avec la numérotation à la Bourbaki des racines, et avec les coefficients).

↑Entry #2548 [older| permalink|newer] / ↑Entrée #2548 [précédente| permalien|suivante] ↑

↓Entry #2547 [older| permalink|newer] / ↓Entrée #2547 [précédente| permalien|suivante] ↓

(dimanche)

La mort comme construction sociale

Récemment j'ai parlé de l'apocalypse, et mes lecteurs ont, enfin, avez, été particulièrement nuls pour ce qui est de proposer ne serait-ce qu'un grain d'optimisme en contrepoint aux inquiétudes que je formulais. (Coucou !) Je donc évoquer aujourd'hui vais un sujet plus joyeux : la mort (individuelle).

J'ai donné à cette entrée un titre un peu clickbaity[#]… J'ai failli faire encore pire : la mort comme construction sociale, et comment l'éviter. Parce que je vais expliquer comment vous pouvez ne pas mourir, même si, évidemment, il y a un truc, du coup les grincheux ne seront pas d'accord et diront que c'est une arnaque :

I don't want to achieve immortality through my work; I want to achieve immortality through not dying. I don't want to live on in the hearts of my countrymen; I want to live on in my apartment.

— Woody Allen

[#] Tiens, j'ai appris cette traduction rigolote — quoiqu'un peu vulgaire, mais c'est de bonne guerre — de clickbait en français : putaclic. Un titre un peu putacliquesque, donc.

Bon, en fait, non seulement c'est une arnaque, mais en plus, je ne vais rien dire que je n'aie déjà dit. J'avais essayé de raconter essentiellement ce que je vais dire ici dans cette vieille entrée, mais je pense que je m'y suis très mal pris (évoquer Kant, notamment, était une erreur de tout point de vue). Puis je l'avais dit de façon complètement différente, et beaucoup plus pragmatique, ici, en inventant une peuplade appelée les Qriqrx[#2] constituée de gens qui s'arrangent, de façon tout à fait pragmatique et sans magie aucune (ni contorsion philosophique particulière) pour être immortels, en pratiquant la réincarnation. Mais comme c'était dans un fragment littéraire gratuit, du coup, je n'ai pas eu l'occasion d'insister sur le message qui me semble important, à savoir que non, ce n'est pas une arnaque, les Qriqrx sont vraiment immortels (enfin, le seraient s'ils existaient et faisaient comme je le décris ; au moins tant que la tribu se maintient), et il n'y a donc pas besoin de technologie médicale extraordinaire[#3] pour rendre les humains immortels, il suffit d'un peu d'organisation sociale. La mauvaise nouvelle, c'est que nous ne pouvons pas simplement appliquer la technique des Qriqrx parce que, ni socialement ni personnellement, nous ne concevons pas notre identité comme éternelle.

[#2] Si certains se demandent comment ce mot doit se prononcer, dans mon esprit c'est quelque chose comme [qʁɪqʁʂ̩] (si vous ne savez pas lire l'alphabet phonétique, cricrich sera une approximation passable).

[#3] Maintenant, je n'ai rien contre le fait qu'on développe quand même une telle technologie (surtout si elle lutte principalement contre le vieillissement, ce qui est un problème assez différent de la mort). ☺ Je précise ça parce qu'il y a des gens qui font de la lutte contre le vieillissement et/ou la mort un cheval de bataille et qui ont l'air de penser qu'il y a une mentalité « pro-mort » (affirmant que la mort est non seulement inévitable mais aussi souhaitable) contre laquelle ils doivent combattre avec des spots de propagande comme celui-ci. Je trouve ça un peu surréaliste : oui, évidemment, si on trouve une technologie médicale qui permet d'arrêter complètement le vieillissement, il faudra se poser la question de comment persuader les gens de ne plus faire d'enfants ou d'accepter quand même de mourir ou je ne sais quoi, mais est-ce qu'il y a vraiment des gens qui ont besoin d'une campagne de pub pour une technologie qui a présentement l'air aussi inatteignable que la pierre philosophale ?

Je ne prétends à aucun titre à l'originalité : je suis sûr que des auteurs de SF plus talentueux que moi ont décrit des mondes très proches de ce que j'évoque avec mes Qriqrx. Et des idées très proches de ce que je vais suggérer plus bas ont été évoquées à propos de la conscience et de l'identité-de-soi : voir notamment vers la fin de ce texte et l'ensemble de celui-ci.

Bref, c'est parti pour encore une couche de radotage de ma part.

*

Ce que j'ai déjà essayé à diverses reprises (surtout ici, mais sans doute aussi assez mal ; et peut-être également dans ce fragment) de développer est l'idée que, si le monde matériel n'est indéniablement pas une invention de l'homme, la manière dont nous le structurons mentalement est une construction humaine et sociale, et au cœur de cette construction du « monde enchanté » repose la conception de l'identité, qui peut prendre toutes sortes de formes. Je trouve l'idée assez bien décrite dans ce passage assez célèbre :

Getting up, he hurried into his study, returned at once with two cigarette lighters which he set down on the coffee table. Look at these. Look the same, don't they? Well, listen. One has historicity in it. He grinned at her. Pick them up. Go ahead. One's worth, oh, maybe forty or fifty thousand dollars on the collectors' market.

The girl gingerly picked up the two lighters and examined them.

Don't you feel it? he kidded her. The historicity?

She said, what is historicity?

When a thing has history in it. Listen. One of those two Zippo lighters was in Franklin D. Roosevelt's pocket when he was assassinated. And one wasn't. One has historicity, a hell of a lot of it. As much as any object ever had. And one has nothing. Can you feel it? He nudged her. You can't. You can't tell which is which. There's no mystical plasmic presence, no aura around it.

Gee, the girl said, awed. Is that really true? That he had one of those on him that day?

Sure. And I know which it is. You see my point. It's all a big racket; they're playing it on themselves. I mean, a gun goes through a famous battle, like the Meuse-Argonne, and it's the same as if it hadn't, unless you know. It's in here. He tapped his head. In the mind, not the gun. […]

I don't believe either of those two lighters belonged to Franklin Roosevelt, the girl said.

Wydnam-Matson giggled. That's my point! I'd have to prove it to you with some sort of document. A paper of authenticity. And so it's all a fake, a mass delusion. The paper proves its worth, not the object itself!

— Philip K. Dick, The Man in the High Castle, chap. 5

À part que dans l'Univers où nous vivons FDR n'a pas été assassiné, la même chose y vaut tout à fait : je lisais récemment, par exemple, que la veste portée par Harrison Ford quand il a joué Star Wars allait être vendue à un prix tout à fait conséquent. Ce qui a de la valeur, ce n'est pas la veste, c'est l'identité que nous plaquons dessus, et qui, contrairement aux atomes de la veste, est une construction sociale (c'est parce que nous savons que c'est la veste portée par Harrison Ford qu'elle a de la valeur).

Et comme cette identité est une construction humaine (ce qui, pour répéter l'éclaircissement que je formulais dans l'entrée passée où je parle du monde enchanté, n'est pas du tout une façon de la dénigrer !), elle obéit à des règles sociales qui ne sont pas forcément logiquement codifiables. L'histoire classique dans ce sens est celle du bateau de Thésée, dont les différentes parties sont remplacées et qui reste, néanmoins, le bateau de Thésée. Ou pas. Il n'y a pas de vérité absolue en la matière : ça dépend d'une sorte de consensus social, ou simplement de l'intime conviction de celui qui parle de ce bateau ou qui y pense.

J'y repensais à propos de je ne sais plus quel jardin francilien j'ai dû visiter : quand on dit qu'un jardin est de Le Nôtre, on peut se demander ce que ça veut dire au juste. À part peut-être quelques arbres qui peuvent vivre des siècles, toutes les plantes plantées à l'époque de Le Nôtre sont mortes : celles que nous voyons maintenant ne sont plus les mêmes. Parfois on apprend que le jardin a été transformée au 19e siècle et remis en état d'origine au 20e : a-t-il toujours la même identité ? Et si le jardin avait été complètement détruit, et recréé plus tard selon les plans d'origines, serait-ce quand même le même jardin ?

Un jardin est-il immortel ?

Certaines œuvres d'art ne le sont pas : si la Joconde brûlait, aucune copie ne serait considérée comme la Joconde ; on dirait qu'elle est détruite pour toujours. Mais d'autres, apparemment, le sont : le Pavillon allemand de Barcelone, celui qui est là aujourd'hui, n'est pas celui d'origine (lequel a été détruit après l'exposition universelle pour laquelle il avait été construit), c'est une reconstruction à l'identique faite dans les années '80. Néanmoins, on considère quand même que c'est le Pavillon allemand, une réincarnation de celui d'origine : sans doute parce que Mies van der Rohe était architecte, pas constructeur, si bien que l'œuvre sur laquelle on plaque l'identité Pavillon allemand est une sorte d'abstraction tandis que la Joconde est pensée comme un objet matériel. Un jardin est peut-être quelque part entre les deux. Ou un bâtiment ancien, dont on apprend parfois que beaucoup de pierres, voire toutes, ont été remplacées, ce qui ne nous empêche pas de considérer qu'il s'agit toujours du même[#4]. Un roman est encore plus abstrait : il ne peut mourir que si toutes les copies sont perdues, parce que le roman est considéré comme le texte, l'information contenue dans le livre-objet-physique. (Ce qui n'empêche que le manuscrit-objet-physique peut avoir sa propre identité, sa propre historicité pour reprendre le terme utilisé par Dick.)

On voit bien sûr où je veux en venir : je prétends que notre propre notion de soi est une construction de même nature au-dessus de la réalité physique que l'identité que nous attribuons culturellement aux jardins ou aux pavillons allemands. Ç'en est déjà une de considérer que le David-Madore-de-1988 et le David-Madore-de-2018 sont la même personne alors que, vus purement matériellement, ils ont beaucoup de différences ; on peut évidemment évoquer la continuité des souvenirs pour la justifier, mais même cela n'est pas convaincant (j'ai perdu beaucoup des souvenirs du David-Madore-de-1988, et j'en ai acquis de nouveaux ; et même si j'avais été frappé d'une amnésie totale, le consensus social serait quand même que les deux individus sont la même personne). Si on change le point de vue sur cette notion d'identité, on peut dire que le David-Madore-de-1988 n'existe plus, et pourtant qu'il n'est jamais mort : il s'est simplement fondu progressivement en d'autres identités. Dans le sens contraire, les Qriqrx de mon histoire, qui organisent la réincarnation sociale et qui considèrent qu'ils s'inscrivent comme des existences éphémères d'une même identité éternelle, n'ont pas plus ou pas moins raison que la vision d'un individu comme limitée par sa naissance et par sa mort :

La question de savoir ce que nous devenons après notre mort n'est pas une question métaphysique, c'est une convention culturelle (voire individuelle, cf. plus bas).

[#4] Peut-être que plutôt que le Pavillon allemand de Barcelone je devrais évoquer le grand sancturaire shintō d'Ise qui depuis plus d'un millénaire est détruit et reconstruit tous les 20 ans, de façon à être à la fois toujours nouveau et pourtant toujours le même — un lien entre le passé et le présent. Je pense que c'est là essentiellement la manière dont mes Qriqrx voient leur réincarnation.

*

Évidemment, il y a des raisons de considérer comme « naturel » le point de vue selon lequel un organisme biologique a une unique identité de sa naissance à sa mort. Du moins, un organisme qui se reproduit comme nous autres humains, parce que pour une plante qu'on peut cloner et bouturer, c'est déjà plus difficile de décider ce que cette identité veut dire. Surtout, cette « naturalité » biologique a une incidence sur notre mode de pensée : l'évolution nous a programmé avec un instinct de conservation de soi très fort, et cet instinct nous pousse psychologiquement (via la peur de la mort et via l'« altruisme » envers notre moi futur) à cette notion d'identité associée à la forme biologique que nous cherchons à préserver. (C'est là une objection qu'on peut faire à l'existence de mes Qriqrx ; mais ce n'est pas comme si ça n'arrivait pas souvent de mettre en place des constructions culturelles qui vont à rebours de tendances biologiques chez l'homme !) Une civilisation constituée de poulpes (lesquels se laissent mourir une fois qu'ils se sont reproduits) aurait sans doute une attitude très différente par rapport à la mort, appuyée sur une convention différente quant à ce que devient leur identité après leur mort.

*

En plus de cette continuité biologique, et indistinctement mêlée à elle, il y a une continuité « mémétique », c'est-à-dire la continuité de la mémoire d'une personne, que j'ai déjà évoquée plus haut, et plus généralement, de tout ce qu'on pourrait appeler son « contenu informationnel ». On pourrait y distinguer la partie intrinsèque (les informations caractérisant la personne elle-même), et la partie extrinsèque, ou sociale (l'information comme un lien social entre plusieurs personnes), même si cette distinction n'est pas toujours bien claire. C'est en tout cas largement là-dessus que nous concentrons un attachement affectif : ce que j'aime chez mes proches, c'est tout ce que nous avons vécu ensemble, ce sont ces expériences partagées, des instants figés dans ma mémoire, c'est leur façon de penser, leur caractère, le son de leur voix, leur odeur, bref, tout ce que mon cerveau associe à eux. Si un de mes proches meurt (comme récemment un collègue), ce sont autant de fils coupés brutalement et qui laissent une sensation de vide. En tant qu'adepte du copyisme (cf. ici), c'est surtout cela que je considère comme la tragédie de la mort : si je peux me permettre de détourner légèrement une citation célèbre, à chaque fois qu'un homme meurt, c'est une bibliothèque qui brûle (et pas seulement en Afrique). Comme je citais Dick plus haut, je peux aussi placer une autre citation un peu trop célèbre, tirée d'un film adapté d'une de ses œuvres, et qui reflète bien cet aspect particulier de la mort :

I've… seen things you people wouldn't believe… attack ships on fire off the shoulder of Orion… I watched C-beams glitter in the dark near the Tannhäuser Gate… All those moments will be lost… in time… like tears… in rain… Time to die.

— (Roy Batty in) Blade Runner

(Ça marche mieux avec le jeu de Rutger Hauer et la musique de Vangelis.)

Il est certain qu'aucun tour de passe-passe ontologique ne permettra de faire disparaître cet aspect de la mort. Mes Qriqrx font le mieux qu'ils peuvent : contrairement aux tülku tibétains qui espèrent que la mémoire sera magiquement transmise aux réincarnations, mes Qriqrx ne croient pas à la magie et prennent les choses entre leurs mains. Ils essaient de retenir ce qu'ils peuvent des vivants qui leur sont proches pour permettre, lors de leur mort, à ceux qui les réincarnent de s'approprier cette information. La mort devient donc une forme d'amnésie, une blessure mais non une fin, et une blessure indispensable car des individus immortels ne peuvent pas retenir la totalité de leur existence passée (les Qriqrx ne sont donc pas copyistes à l'extrême : ils laissent l'information se filtrer doucement au fil du temps). Après tout, nous perdons de l'information quoi que nous fassions (le contraire n'est pas forcément souhaitable).

*

Après la continuité biologique et la continuité mémétique (et leur enfant commun, la continuité sociale), il y a encore une autre forme de continuité (pas forcément bien distincte des précédentes) sur laquelle nous faisons reposer notre idée de l'identité de soi au cours de notre vie, c'est la continuité de la conscience, c'est-à-dire l'impression (l'illusion ?) que nous sommes la même personne à l'instant t+ε qu'à l'instant t. Il y a plein de choses, parfois plus ou moins mystiques, qui ont été dites, et de distinguos plus ou moins byzantins qui ont été faits, au sujet de la continuité de la conscience ou de la conscience elle-même (dans une entrée liée plus haut, j'avais assimilé ce concept à celui du « moi transcendental » et on m'a expliqué que je n'avais rien compris mais alors rien de rien parce que ça n'a juste aucun rapport). Certains voient dans la conscience et/ou dans sa continuité dans le temps quelque chose de tellement profond que ça ne peut certainement pas être expliqué par les lois de la physique telles que nous les connaissons, certains pensent que ça a un rapport avec le phénomène de l'écrasement de la fonction d'onde en mécanique quantique (cf. plus généralement ici), certains y voient un phénomène émergent de la manière dont notre pensée fonctionnent, ou une simple illusion, certains la décrivent comme la manifestation à l'échelle de notre perception du passage du temps[#5].

[#5] Le problème de la conscience (et de savoir si la continuité de celle-ci est une illusion) est certainement au moins en partie lié à celui du temps. Faisons une digression à ce sujet. Il y a un problème philosophique qui me paraît assez évident mais sur lequel je trouve étonnamment peu de renseignements en ligne (par exemple un terme standard, un philosophe célèbre qui aurait écrit dessus, quelque chose comme ça), c'est la question de savoir quelle preuve nous avons que le temps existe. (Je trouve ceci et cela, mais ça me semble dit de façon terriblement compliqué pour une idée que le considère comme très simple.) Je veux dire que nous n'avons aucune preuve de l'existence de l'avenir à part par extrapolation, et que les seules preuves que nous avons de l'existence du passé sont des traces laissées dans le présent mais dont nous inférons que ce sont des traces laissées par un certain passé parce que nous pensons que c'est comme ça que fonctionne le monde, et cette inférence dépend de notre reconstruction du passé, si bien que l'argument est circulaire. Si on imagine un Univers qui est exactement l'instant présent (ou plus exactement, afin de dire quelque chose de relativistiquement sensé, une hypersurface de type espace quelconque) de notre Univers, i.e., si on imagine que seul existe le présent, et si on retranche des lois de la physique tout ce qui prédit l'évolution dans le temps (i.e., tout, en fait), on obtient un Univers mathématiquement parfaitement sensé, parfaitement conforme à l'expérience, que rien ne pourra réfuter, donc il est difficile de justifier précisément pourquoi nous avons la certitude que ce n'est pas dans ce monde-là que nous vivons. Le problème se formule aussi du point de vue de l'épistémologie de la physique : toute expérience tendant à montrer l'existence du temps se déroulera forcément dans le passé, donc ne prouvera rien du tout. En clair, si vous me dites qu'il y a dix minutes j'ai affirmé le temps n'existe pas et que dix minutes ont passé depuis donc que j'ai tort, je vous répond que vous avez seulement le souvenir que j'aie affirmé une telle chose, et que pour croire à la réalité de ce souvenir vous devez d'abord croire à l'existence du temps. (Le rasoir d'Occam n'est pas très clair ici, parce qu'il n'est pas évident qu'il soit plus simple de postuler tout le passé de notre Univers que de postuler son seul présent ; en principe, si les lois de la physique sont déterministes, le contenu informationnel est exactement le même, justement, puisque chacun détermine l'autre, et si elles ne sont pas déterministes c'est encore pire puisque postuler l'existence du passé peut signifier qu'on postule encore plus de choses qui ne suffisent même pas à expliquer complètement le présent. La seule piste d'explication que je voie, c'est de prétendre que contenu informationnel et complexité ne sont pas synonymes, mais c'est peu satisfaisant.) Toujours est-il qu'il est possible d'avoir un sens extrêmement étroit de l'identité de soi consistant à dire je suis moi, maintenant, à cet instant, et rien d'autre (cf. le concept de totipsisme).

Ajout () : Une autre expérience de pensée, qui est tout autant dénuée de sens que de se dire que le temps n'existe pas (= que seul existe le présent, cf. paragraphe précédent) est de se dire que le temps passe à l'envers, c'est-à-dire que ce que nous appelons « passé » est ce qui va nous arriver (un destin inévitable que nous connaissons presque toujours avec certitude) tandis que le vrai passé (celui que nous appelons « avenir ») nous est complètement inconnu parce que nous l'oublions au fur et à mesure qu'il devient passé. Je vais revenir plus bas sur la notion de temps cyclique. Tout ça est juste un jeu de langage, sans aucune incidence sur les lois de la physique, mais le fait que ce soit, justement, un jeu de langage doit nous inciter à réfléchir sur le sens des mots qui nous paraîssent « évidents » (de même que, pour la conscience, le concept de zombie philosophique).

Mais évitons soigneusement ce champ de mines philosophico-métaphysique. Le fait est que chaque soir nous nous endormons et, au moins du point de vue de la continuité locale de la conscience, ce n'est pas différent de mourir. J'avais dû raconter déjà plusieurs fois dans ce blog que quand j'étais petit j'aimais à jouer mentalement avec l'idée suivante : je vais m'endormir, et quand je me réveillerai, je serai devenu quelqu'un d'autre, et j'aurai perdu tout souvenir d'avoir jamais été David Madore. Qu'est-ce que cela signifie au juste ? Pas grand-chose. Pas plus que la variante suivante : je vais mourir en m'endormant, mais personne n'en saura rien, parce que quelqu'un d'autre va naître demain matin en héritant de mon corps avec tous mes souvenirs, mon caractère et tout le reste, et c'est lui qui continuera ce que j'ai commencé. Cela ne signifie rien non plus, mais c'est une pensée intéressante : je l'eus trouvée terrifiante, maintenant je la trouve au contraire terriblement reposante (dans le genre de moi, le David Madore de matricule , ai fini ma tâche, je disparais en passant le relais au suivant), et peut-être que les Qriqrx éprouvent un soulagement semblable au moment de mourir (en sachant que quelqu'un d'autre sera là pour prendre le relais). Si ces idées sont fausses, c'est essentiellement juste parce qu'une convention sociale les considère comme fausses (i.e., parce que nous agissons en les considérant comme fausses).

*

Bref, à mes yeux, les Qriqrx représentent une forme de sagesse que (collectivement, en tant que société) nous n'avons pas, celle de préserver la mémoire de nos prédécesseurs (l'anglais a un joli mot, là : forebear) pour ne pas disparaître nous-mêmes, pour ne pas que la mort soit une pensée traumatisante. (Bien sûr, il y a des sociétés réelles qui ont des traditions qui se rapprochent un peu de ce que j'ai évoqué, de l'idée qu'il faut se souvenir de ses ancêtres, etc., mais tout ça est teinté d'une aura de magie bien inutile et dont je me demande si elle n'empêche pas l'effort mémoriel concret.)

*

Mais on peut préférer une vision plus individuelle. Après tout, si la société collectivement peut décider, et se convaincre, que l'identité de Machin passe dans Bidule après la mort, Machin peut aussi le décider lui-même. Si je suis convaincu que la mauvaise reproduction que j'ai dans ma cave est la Joconde, les autres gens vont peut-être me rire au nez, mais elle peut avoir autant de valeur à mes yeux, et autant d'authenticité dans ma perception du monde, que celle qui est exposée au Louvre. De même, fondamentalement, ce que je considère comme moi dépend de moi, la société peut me conditionner à penser de telle ou telle façon, mais c'est moi l'arbitre ultime de ce que je suis : par exemple, si je m'endors chaque jour avec la certitude de mourir et que je me réveille le matin avec la certitude d'être une personne nouvelle, c'est vrai dans le sens qui importe le plus, c'est-à-dire la perception qu'ont ces différents David Madore de qui ils sont. Si un petit groupe, même un tout petit groupe, décide de pratiquer la réincarnation comme mes Qriqrx, ils peuvent être immortels, même si la société dans l'ensemble les considérera comme des illuminés. Si je m'identifie à telle ou telle perspective après ma mort et que cette identification est sincère, alors elle est vraie dans le sens qui importe :

I am the master of my fate:
I am the captain of my soul.

— William Henley, Invictus

C'est la raison pour laquelle j'ai tendance à dire que les Chrétiens (par exemple), ceux qui sont vraiment croyants, vont vraiment au paradis après leur mort, que les Hindous se réincarnent vraiment (sauf les brahmanes, qui en sont dispensés), etc. Ce n'est pas physiquement vrai, dans cet univers, mais tout l'intéret de l'esprit humain est de ne pas être limité à cet univers : si on peut créer des mondes enchantés pour donner une valeur de vérité à Luke Skywalker est le fils de Darth Vader ou d'ailleurs les Qriqrx sont immortels, on peut en donner une à ce qu'on veut. Je préfère le pragmatisme de mes Qriqrx qui choisissent de rester dans le monde matériel, mais la démarche est néanmoins semblable[#6]. À condition qu'on y croie vraiment et sincèrement (c'est-à-dire qu'on s'indentifie, profondément, à cette créature mi-réelle, mi-imaginaire qui est de cet univers jusqu'à sa mort et d'un autre après). C'est intéressant, parce que cela rejoint un concept assez fondamental dans certaines religions : le fait que la croyance en la divinité soit précisément la manière dont on accède à l'immortalité (certaines religions en font une forme de jugement, ce qui est assez con, mais il me semble qu'il y a bien des mouvances qui articulent, au moins confusément, cette idée que ce n'est pas un jugement divin, c'est une conséquence logique du fait de croire ou de ne pas croire, et je suis globalement d'accord avec ça). Après, savoir s'il y a des gens qui croient vraiment aux religions auxquelles ils prétendent croire, j'avoue que je n'en sais rien, ça m'a toujours laissé un peu perplexe, mais ce n'est pas mon problème.

[#6] Ajout () : Vous voulez peut-être vivre éternellement et sans modifier les lois de la physique ? Je peux vous proposer une solution pour ça aussi : c'est le concept du temps cyclique. Il suffit de décréter que le même Univers se rejoue indéfiniment, encore et toujours, parfaitement identique à lui-même. (Si je dois formaliser ça, je peux dire que je remplace ℝ par ℤ×ℝ, ordonné lexicographiquement, comme coordonnée de temps, les lois de la physique étant inchangées pour la seconde coordonnée et indépendantes de la première, par exemple je remplace l'équation différentielle f″(t) = Φ(f,f′) par f″(i,t) = Φ(f,f′) avec la contrainte f(i+1,t) = f(i,t). Cette première coordonnée ne sert absolument à rien, bien sûr, à part faire plaisir à cette façon de voir les choses, donc les lois de la physique ne sont pas, en fait, modifiées, et elles sont toujours tout autant confirmées par l'expérience que celles dont je suis parti. Ça marche tout autant en relativité en remplaçant la variété M d'espace-temps par ℤ×M, d'ailleurs ça marche presque mieux puisque les lois sont alors exactement les mêmes. Bref, tout ça pour dire que ce point de vue est formellement infalsifiable, et tout aussi dénué de sens que les histoires de temps qui passent à l'envers ou de temps qui n'existe pas évoquées plus haut.) Dès lors, vous pouvez penser que dès que vous mourez vous repartez à votre naissance pour un nouveau tour d'un éternel manège (qui semble à chaque fois être le premier puisque vous n'avez aucun souvenir des tours précédents) : comme c'est une pure convention, il suffit de le croire pour que ce soit vrai. (Voilà, je vous ai donné la recette la plus simple de la vie éternelle. Merci qui ?)

(Hum, j'ai l'impression que je risque d'irriter à la fois beaucoup d'athées et beaucoup de croyants en racontant tout ça. Pourtant, ma façon de dire que tout le monde a raison est de l'irénisme sincère, et en même temps je prétends que ce n'est pas du relativisme à 0.02¤. Je suis convaincu que tous leurs dieux existent réellement, chacun dans son monde à lui, je suis juste en désaccord quand on me dit que ces dieux agissent sur notre univers physique. Il y a peut-être une certaine influence gnostique dans ce que je raconte ; et certainement beaucoup d'influence des deux plus célèbres livres de Richard Bach qui m'avaient énormément marqué quand j'étais petit, à savoir Jonathan Livinston Seagull et Illusions: The Adventures of a Reluctant Messiah.)

Peut-être que je choisis de me réincarner selon cette construction intellectuelle rigolote que j'avais imaginée il y a un certain temps ? Peut-être, mais je doute que je passe le test d'y croire vraiment et sincèrement. À défaut, essayons de prendre modèle sur mes pragmatiques Qriqrx et de nous souvenir de ceux dont nous sommes les héritiers spirituels, de façon qu'ils continuent d'exister un peu à travers nous.

↑Entry #2547 [older| permalink|newer] / ↑Entrée #2547 [précédente| permalien|suivante] ↑

↓Entry #2546 [older| permalink|newer] / ↓Entrée #2546 [précédente| permalien|suivante] ↓

(mercredi)

Quelques points de vue (de matheux) sur les grandeurs physiques et unités de mesure

Dans cette entrée, je voudrais évoquer la question des grandeurs physiques (longueur, durée, vitesse, masse, courant électrique…) et des unités de ces grandeurs. Je vais jeter un regard de matheux sur ce que ces choses sont, proposer quelques points de vue ou (esquisses de) définitions formelles possibles, et m'interroger sur l'utilité et la pertinence de ces points de vue, notamment pédagogiques, mais aussi du point de vue de la question de l'incertitude des mesures.

Je précise que cette entrée part un peu dans tous les sens, parce que j'ai commencé par écrire de la façon dont les idées me venaient (ou me revenaient, parce que ce sont des idées que je rumine depuis longtemps), et j'ai voulu raconter trop de choses à la fois, donc il y a plein de digressions. En plus de ça, j'ai un peu permuté les bouts que j'avais écrits (il en reste certainement des incohérences comme des je vais y revenir alors que les choses sont dans un autre ordre), puis repermuté, puis re-repermuté au fur et à mesure que j'ajoutais des digressions, et finalement je ne sais plus du tout dans quel ordre je dis les choses. Heureusement, il n'y a pas trop de lien logique clair ni de dépendance entre les différents morceaux ce que je raconte, donc on doit pouvoir lire cette entrée dans le désordre puisque c'est comme ça qu'elle a été écrite ! J'ai essayé de marquer par des triples accolades {{{…}}} (cf. ici) les digressions les plus identifiables, dans l'espoir que ça aide à s'y retrouver un peu.

À l'origine je voulais parler de la manière dont un mathématicien peut définir ce que sont les grandeurs physiques et leurs unités. Mais je n'ai pas résisté à parler d'autres choses, à faire un tableau de plein de grandeurs (ci-dessous) et à entrer dans des discussions sur ce que sont les grandeurs dans la pratique, sur les incertitudes et les échelles de masse. J'ai commencé à écrire des choses sur la réforme du SI qui doit avoir lieu d'ici quelques mois, puis je me suis dit que non, ça faisait vraiment trop, mais il en reste quand même des bouts… (Je garde donc pour une entrée ultérieure les explications précises sur la réforme du SI, même si j'y fais allusion à diverses reprises ici.) Bref, voilà pourquoi cette entrée est encore plus désordonnée que d'habitude. J'espère qu'il y a quand même des choses à en tirer !

Pour essayer de fixer la terminologie, j'appellerai grandeur (plutôt que dimension qui peut causer confusion) quelque chose comme « la masse » de façon abstraite ; et j'appellerai quantité [de cette grandeur] une masse particulière (par exemple 70kg), mesurée, donc, dans une unité. Si on veut parler comme un informaticien, donc, la grandeur sera, pour moi, le type (« la masse »), tandis que la quantité sera l'instance de ce type (70kg). Et l'unité est une quantité particulière (de la grandeur) qu'on a choisie pour exprimer toutes les autres. Comme n'importe quelle quantité non nulle (disons peut-être strictement positive) peut servir d'unité, la différence entre « quantité » et « unité » est juste une question de regard qu'on porte dessus.

Je ne sais pas si ce choix terminologique était le meilleur, je conviens que c'est un peu contre-intuitif de dire que la grandeur de [la quantité] 70kg est la masse, mais je ne suis pas certain qu'il existe de choix vraiment bon (et puis, maintenant que c'est fait, je n'ai plus envie de tout rééditer). J'ai essayé de m'y tenir systématiquement, de toujours utiliser le mot grandeur pour le type et quantité pour la valeur dans le type, mais je ne peux pas exclure quelques lapsus occasionnels.

Ajout () : En fait, je ne distingue pas vraiment la grandeur et la dimensionnalité de cette grandeur (définie formellement ci-dessous), par exemple je ne distingue pas les grandeurs « énergie » et « moment d'une force » (tous les deux ayant l'unité SI de kg·m²/s², même si dans un cas on l'appelle plutôt le joule et dans un autre cas plutôt le newton·mètre, la distinction est plus mnémotechnique que fondamentale) ; de même, pour moi, le watt et le volt·ampère sont bien la même chose, nonobstant le fait qu'on ne les utilise pas exactement de la même manière ; je vais faire occasionnellement allusion à ce problème.

Bref, qu'est-ce que c'est que toute cette histoire ?

Pour commencer, une des propriétés des grandeurs et des unités est qu'on peut les multiplier et les inverser (donc, les diviser) ; alors qu'on ne peut ajouter ou soustraire que des quantités de même grandeur, mais ça j'y reviendrai plus loin. Par exemple, une unité de longueur divisée par une unité de durée (=temps) donne une unité de vitesse (mètre par seconde, kilomètre par heure) : et il s'agit bien d'une division des quantités correspondantes (1km=1000m, 1h=3600s donc 1km/h = 1000m/3600s = (1000/3600)m/s = 0.2777…m/s). On peut dire que, indépendamment des unités, la grandeur « vitesse » est le quotient de la grandeur « longueur » par la grandeur « durée ». De même, la grandeur « surface » est le carré de la grandeur « longueur » (son produit par elle-même). Et la grandeur « fréquence » est l'inverse de la grandeur « durée » (l'unité SI de fréquence, le hertz, est l'inverse de l'unité SI de temps, la seconde).

{{{ Une remarque au passage : Je ne sais pas pourquoi, mais pédagogiquement la division des grandeurs (longueur divisée par durée égale vitesse) paraît généralement plus naturelle que le produit ; et il est difficile de donner un exemple de multiplication qui paraisse convaincant à Madame Michu (autre que la multiplication d'une grandeur par elle-même ou autre puissance : longueur fois longueur égale surface). C'est peut-être lié au fait que le produit tensoriel (cf. ci-dessous) est plus difficile à intuiter en algèbre linéaire que l'espace des applications linéaires. En tout cas, c'est certainement pour ça que les journalistes disent souvent watt par heure (comme si c'était un quotient) quand ils veulent évidemment parler des watts·heures (produit des unités). }}}

Parmi les grandeurs, il y en a une qui joue un rôle particulier, c'est la grandeur « nombre sans dimension » : par exemple, un nombre de moutons dans un pré est une quantité sans dimension, i.e., une quantité de cette grandeur ; cette grandeur, et seulement celle-là, a une unité naturelle, à savoir le nombre 1. C'est d'ailleurs bien sûr le sens du mot « unité ». (Ce qui n'interdit pas, à mon avis, qu'on puisse utiliser des préfixes SI dessus : je préconise qu'on dise un méga pour un million, un giga pour un milliard et un téra pour mille milliards, même s'il n'y a pas d'unité SI derrière.) Toute autre grandeur, ou quantité de cette grandeur, est dite dimensionnée.

Comme on peut multiplier et inverser des grandeurs, et que la multiplication est associative et autres propriétés usuelles, on peut dire que les grandeurs forment un groupe (abélien, c'est-à-dire que la multiplication est commutative). Pour des raisons qui n'apparaîtront pas plus loin, je vais avoir envie de l'appeler groupe de Picard des grandeurs physiques.

{{{ Faisons une sorte de digression. Je veins d'expliquer qu'on pouvait multiplier et inverser (donc, du coup, diviser) les grandeurs : par exemple, « longueur » divisé par « durée » égale « vitesse » ; mais on peut aussi, et c'était mon point de départ, multiplier et inverser les quantités, disons les quantités strictement positives, de ces grandeurs : par exemple, 600m divisé par 1min (soit 60s) égale 10m/s. Les quantités strictement positives forment donc aussi un groupe. Et ces deux groupes sont compatibles puisque (trivialement d'après mes définitions) la grandeur du produit de deux quantités est le produit des deux quantités ; mathématiquement, on formule cela en disant que la fonction qui à une quantité associe sa grandeur est un morphisme de groupes.

Poussons cela un peu plus loin. Un système d'unités est un choix d'une ou plusieurs quantités strictement positives servant d'unités pour leurs grandeurs correspondantes. Mais le SI (anciennement système métrique) vérifie bien plus que ça. D'abord, il y a une et une seule unité choisie pour chaque grandeur. Mais aussi, ces unités sont cohérentes les unes avec les autres : l'unité SI de vitesse (=longueur/durée) s'obtient en divisant l'unité SI de longueur (le mètre) par l'unité SI de durée (la seconde) ; ce qui n'est pas le cas, par exemple, du système américain, dont les unités de volume (=longueur³) (le gallon et ses sous-multiples) n'ont pas vraiment de rapport avec le cube des unités de longueur (il y a 576/77 gallons dans un pied cube, cherchez la logique…). Je dirai donc qu'un système d'unités — comme le SI — est cohérent (peut-être que je devrais dire giorgien) lorsqu'il choisit une et une seule unité pour chaque grandeur, et que, de plus, l'unité choisie pour un produit de grandeurs est précisément le produit des unités de ces différentes grandeurs. Mathématiquement, on peut formuler ça en disant qu'il s'agit d'une fonction qui à chaque grandeur associe une unité, et qui est elle aussi un morphisme de groupe (dans le sens contraire de celui du paragraphe précédent).

Je conclus cette digression en reformulant en langage de matheux ce que j'ai dit dans les deux paragraphes précédents :

Le groupe des quantités physiques strictement positives est une extension du groupe « de Picard » des grandeurs physiques par le groupe multiplicatif des nombres réels strictement positifs. Un système d'unités cohérent est une section de cette extension de groupes.

}}}

Mais oublions les quantités et revenons à l'ensemble des grandeurs physiques elles-mêmes (longueur, durée, vitesse, masse, énergie… cf. le tableau plus bas).

Ce « groupe de Picard » des grandeurs a une structure très simple : il existe un certain nombre de grandeurs dites fondamentales, typiquement la longueur [=distance], la durée [de temps], la masse, l'intensité de courant électrique, et peut-être quelques autres (je vais y revenir), mais mettons pour simplifier qu'il y ait juste ces quatre-là, et ensuite toute grandeur s'écrit de façon unique comme la grandeur longueur puissance d₁ fois durée puissance d₂ fois masse puissance d₃ fois intensité électrique puissance d₄ [fois éventuellement d'autres choses], où d₁,d₂,d₃,d₄ [et éventuellement d'autres] sont des entiers relatifs qu'on appelle collectivement la dimensionnalité de la grandeur (mais on pourrait l'identifier avec la grandeur elle-même). Par exemple, la vitesse étant la longueur divisée par la durée, c'est-à-dire longueur puissance +1 fois durée puissance −1, la dimensionnalité de la vitesse sera (+1,−1,0,0). Multiplier les grandeurs revient juste à ajouter les dimensionnalités, et diviser les grandeurs à les soustraire (i.e., inverser une grandeur revient à opposer la dimensionnalité). Pour un matheux, c'est dire que le « groupe de Picard » des grandeurs est un groupe abélien libre, disons (isomorphe à) ℤ⁴ où le 4 est le nombre de grandeurs fondamentales.

Le tableau ci-dessous (que j'ai dû refaire un nombre incalculable de fois, et à chaque fois en m'arrachant les cheveux parce que je me plantais bêtement dans les calculs ou que je retenais mal une formule et que du coup je tombais sur des incohérences) liste la plupart des grandeurs physiques les plus usuelles, i.e., les éléments les plus usuels du groupe de Picard, avec leur dimensionnalité sur les quatre grandeurs fondamentales que sont la longueur, la durée, la masse et l'intensité électrique. Les colonnes L,T,M,I donnent les composantes d₁,d₂,d₃,d₄ de la dimensionalité. Faire défiler :

GrandeurLTMIUnité SI
Longueur+1000m
Surface+2000
Volume+3000
Durée0+100s
Fréquence, vitesse angulaire0−1001/s = Hz, rad/s
Vitesse+1−100m/s
Accélération+1−200m/s²
Masse00+10kg
Moment d'inertie+20+10kg·m²
Masse volumique−30+10kg/m³
Quantité de mouvement+1−1+10kg·m/s
Viscosité [dynamique]−1−1+10kg/m/s = Pa·s
Action, moment cinétique+2−1+10kg·m²/s = J·s
Force+1−2+10kg·m/s² = N
Énergie, moment de force+2−2+10kg·m²/s² = J
Densité d'énergie, pression−1−2+10kg/m/s² = Pa
Flux énergétique0−3+10kg/s³ = W/m²
Puissance+2−3+10kg·m²/s³ = W
Courant électrique000+1A
Charge électrique0+10+1A·s = C
Densité de charge électrique−3+10+1A·s/m³ = C/m³
Induction magnétique (H)−100+1A/m
Densité de courant électrique−200+1A/m²
Induction électrique (D)−2+10+1A·s/m² = C/m²
Flux magnétique+2−2+1−1kg·m²/s²/A = Wb
Potentiel magnétique (A)+1−2+1−1kg·m/s²/A = T·m
Champ magnétique (B)0−2+1−1kg/s²/A = T
Champ électrique (E)+1−3+1−1kg·m/s³/A = V/m
Tension (=potentiel) électrique+2−3+1−1kg·m²/s³/A = V
Capacité électrique−2+4−1+2A²·s⁴/m²/kg = C/V = F
Permittivité diélectrique−3+4−1+2A²·s⁴/m³/kg = F/m
Perméabilité magnétique+1−2+1−2kg·m/s²/A² = H/m
Inductance+2−2+1−2kg·m²/s²/A² = H
Résistance électrique+2−3+1−2kg·m²/s³/A² = Ω
Résistivité électrique+3−3+1−2kg·m³/s³/A² = Ω·m

Ajout () : Je devrais en profiter pour mentionner quelque part le pratique programme units de GNU, fort pratique pour vérifier l'homogénéité et faire des conversions entre unités (notamment les très baroques unités américaines, mais pas uniquement).

{{{ Nouvelle digression : je pense que l'examen, du point de vue statistique, des exposants qui apparaissent ici, serait assez intéressant, et pourrait nous dire des choses sur les lois de la physique et/ou sur les choix plus ou moins naturels d'une « base de grandeurs fondamentales » (je vais y revenir). En tout cas, il y a des choses qu'on peut noter noter. Par exemple, je ne connais aucune grandeur physique pas franchement artificielle qui fasse intervenir la masse à la puissance ±2 ou plus (en valeur absolue). L'intensité éléctrique, elle, se retrouve aux exposants ±1 ou ±2 dans toutes les grandeurs électriques, je ne connais pas plus ; et encore, la somme des exposants de masse et d'intensité vaut toujours 0 ou ±1. Les grandeurs « géométriques » que sont l'espace et le temps apparaissent à des exposants plus variés, mais en remarquant que la somme des deux varie moins que chacun séparément, on pouvait peut-être déjà soupçonner une facette de la relativité, qui est que l'espace et le temps sont deux aspects d'une seule et même chose. }}}

Sous-jacent au tableau ci-dessus, il y a le choix d'une base de grandeurs fondamentales : il y a là deux sous-problèmes. D'abord le problème du nombre de grandeurs fondamentales : je me suis limité à quatre (longueur, durée, masse et intensité électrique), mais le SI en identifie d'autres (température thermodynamique, quantité de matière et intensité lumineuse) ; le nombre est un peu arbitraire, et je vais revenir sur ce problème. Mais il y a une autre question qui est celle, une fois choisi le nombre de grandeurs fondamentales et donc le « groupe de Picard » des grandeurs, de savoir à partir desquelles on exprime toutes les autres : mathématiquement il s'agit du choix d'une base de ce « groupe de Picard ». C'est un choix un peu arbitraire (ℤ⁴ a plein de bases !) mais peut-être pas tant que ça. Par exemple, le SI traite le courant électrique comme grandeur fondamentale permettant de construire toutes les grandeurs électriques (et définit donc une unité de courant électrique, l'ampère) : pourquoi pas la charge électrique, par exemple, ou n'importe quoi d'autre ayant ±1 dans la colonne I du tableau ? (En fait, la redéfinition du SI va, de facto, définir le coulomb, donc traiter la charge comme la grandeur fondamentale, mais en continuant à définir formellement l'ampère, donc utiliser le courant.) Une raison pour laquelle ce n'est pas arbitraire est qu'il y a des questions d'incertitude dans les mesures, je vais y revenir. Une autre raison peut être qu'on veut chercher à minimiser les valeurs absolues des exposants intervenant dans les grandeurs vraiment utilisées (cf. le tableau ci-dessus) : peut-être le fait que les exposants de la durée et du courant électrique sont corrélés dans le tableau ci-dessus suggère que la charge électrique a quelque chose de plus fondamental que le courant électrique. Peut-être même que la grandeur « charge sur masse » doit être considérée comme encore plus fondamentale. Je trouve que c'est une question intéressante, et je n'ai pas les idées aussi claires que je voudrais.

{{{ Il y a encore autre chose qu'il faut que je souligne (ceci est une nouvelle digression) : j'ai dit plus haut que le SI est un système cohérent d'unités : l'unité SI de vitesse est l'unité SI de longueur divisée par l'unité SI de temps, et ainsi de suite. Pas de nombre arbitraire à faire intervenir dans les calculs ! Il faut cependant nuancer cette affirmation. Tout ce que le système fournit, c'est une possibilité de multiplier et diviser les quantités de façon simple (les unités viennent automatiquement si on exprime tout dans le même système) : mais ça ne rend pas triviale la physique, évidemment, et notamment ça ne préjuge pas de ce que ces produits représentent ni des facteurs numériques qui peuvent intervenir dans des formules.

Ce que je veux dire, c'est que même si des extra-terrestres ont la même unité de longueur que nous (le mètre) et la même unité de durée (la seconde), et même s'ils ont eux aussi un système cohérent d'unités, il ne résulte pas forcément pour autant qu'ils seront d'accord avec nous sur une mesure d'accélération, tout simplement parce qu'ils ne sont pas forcément d'accord sur ce qu'ils appelleront l'« accélération » : pour nous, l'accélération est la dérivée de la vitesse, et du coup, si on accélère à un rythme constant a (en partant du repos) pendant une durée t, on parcourt une distance ½a·t² : ce facteur ½ apparaît en intégrant a·t, mais il aurait très bien pu se faire pour des raisons historiques qu'on choisisse comme quantité mesurée principale d'utiliser le ba (appelons ça la miccélération) tel que la distance parcourue en accélérant à rythme constant soit bt². La grandeur (dimensionnalité) de la miccélération est la même que celle de l'accélération, donc elles ont la même unité SI, le mètre par seconde au carré ; mais implicitement, quand nous quantifions un mouvement uniformément accéléré, nous pensons à l'accélération a alors que les extra-terrestres pensent peut-être à la miccélération ba.

Évidemment, comme j'ai pris la peine de bien distinguer les termes en inventant le mot miccélération, il n'y a pas de problème ; mais on s'imagine parfois que la seule donnée de la dimensionnalité donne la bonne définition de la quantité, et ce n'est pas le cas. Nous calculons l'énergie cinétique exprimée en joules avec la formule ½m·v² où m est la masse de l'objet qui se déplace et v sa vitesse, et surtout, nous supposons implicitement qu'un nombre de joules est une énergie, mais peut-être que pour nos extra-terrestres qui n'aiment pas les ½ la formule normale est m·v², et que pour eux, un nombre de joules représente donc ce que nous appellerions le double de l'énergie : il faudra bien faire attention à définir ce qu'on entend par énergie si on communique avec eux, il ne suffit pas de se contenter de la dimensionnalité. Sans faire intervenir d'extra-terrestres, le problème existe déjà plus ou moins entre la notion de fréquence et celle de pulsation (la pulsation étant égale à la fréquence multipliée par 2π), qui relèvent formellement de la même grandeur (dimensionnalité) ; on essaye de lever le problème en exprimant la fréquence en hertz (Hz) alors que la pulsation s'exprime en radians par seconde (rad/s), mais il n'est pas possible d'être systématique (je vais un peu revenir sur le problème du radian).

Tout ça n'a pas vraiment de rapport avec les unités de mesure physiques : c'est quelque chose qui apparaît en maths pures (on mesure les surfaces, par exemple, en les comparant à la surface d'un carré de coté 1, mais on aurait pu imaginer de faire ça en les comparant à la surface d'un disque de diamètre 1, et on dirait alors que 4/π est la constante magique qui calcule l'aire d'un carré…). Simplement, en physique, on s'attend parfois à ce que les unités nous donnent magiquement la bonne constante, or ce n'est juste pas le cas. Ceux qui ont eu le malheur d'être confrontés aux différentes sortes d'unité CGS (électrostatiques, électromagnétiques et gaussiennes) savent le chaos que cela peut engendrer : il n'est pas normal que les équations de Maxwell dépendent du choix du système d'unités (les équations de Maxwell expriment des relations entre quantités physiques, elles ne peuvent pas dépendre des unités choisies pour mesurer ces quantités !), mais accompagnant le choix d'unités il y a le choix de ce qu'on appelle exactement champ électrique, champ magnétique, etc., et des facteurs 4π qui passent d'un côté ou de l'autre.

Fin de la digression. }}}

Bon, mais revenons en arrière d'un cran. Qu'est-ce qu'une grandeur physique et une unité, finalement ? Comme je le suggérais plus haut, un informaticien dirait certainement que les grandeurs sont des types et que les quantités et unités sont des instances de ces types. Voici une réponse possible de matheux, qui est (au moins partiellement) compatible avec cette réponse d'informaticien (note : si ce qui suit vous passe au-dessus de la tête ou simplement vous semble inutilement compliqué, je vais justement faire des commentaires de niveau méta ci-dessous sur la question de savoir si c'est pédagogiquement intéressant ou non) :

  1. Une grandeur physique est un espace vectoriel réel de dimension 1 ; une quantité de cette grandeur est un élément de cet espace vectoriel. (Commentaire : Autrement dit, on peut ajouter, soustraire, et multiplier par un réel les quantités d'une même grandeur ; comme deux vecteurs d'un espace vectoriel de dimension 1 sont toujours colinéaires, on peut aussi diviser entre elles deux quantités d'une même grandeur — si le dénominateur n'est pas nul — et obtenir un nombre sans dimension ; en revanche, on ne peut pas ajouter deux quantités d'une grandeur différente.)
  2. Une unité d'une grandeur physique est une base de l'espace vectoriel de dimension 1 en question, c'est-à-dire simplement un élément non nul, que l'on fixe. (Commentaire : Tout espace vectoriel admet une base, en l'occurrence il suffit de prendre un élément non nul ; mais le point crucial est qu'il n'y a pas ici de base naturelle, il faut en choisir une. Une fois choisie une unité u de la grandeur, toutes les autres quantités de cette grandeur s'expriment comme des multiples réels λu de l'unité : ceci revient à dire que fixer la base d'un espace vectoriel de dimension 1 revient à choisir un isomorphisme avec ℝ.)
  3. Les nombres sans dimension sont simplement la grandeur correspondant à l'espace vectoriel ℝ, qui, lui, a une base naturelle, à savoir 1.
  4. Données deux grandeurs physiques correspondant à des espaces vectoriels U et V de dimension 1, la grandeur quotient de V par U est la grandeur correspondant à l'espace vectoriel L(U,V) des applications linéaires UV ; et si u est une unité (=base) de U et v de V, l'unité quotient v/u de la grandeur quotient est l'application linéaire envoyant u sur v, c'est-à-dire λuλv. (Commentaire : Il est clair que si U et V sont de dimension 1 alors L(U,V) est de dimension 1, et plus précisément, si U = {λu : λ∈ℝ} et V = {λv : λ∈ℝ}, on a L(U,V) = {λ(v/u) : λ∈ℝ} où v/u est l'application linéaire UV donnée par λuλv. À titre d'exemple, le mètre par seconde est une base de l'espace vectoriel L(durées,longueurs) représentée par l'application linéaire qui envoie la durée de λ secondes sur la longueur de λ mètres.)
  5. En particulier, l'inverse d'une grandeur physique correspondant à un espace vectoriel U de dimension 1 est l'espace dual U* := L(U,ℝ) (que dans ce contexte on peut aussi noter U⊗−1) des applications linéaires U→ℝ ; et si u est une unité (=base) de U, l'unité inverse u−1 ou 1/u de la grandeur inverse U* est la base duale de la base u, c'est-à-dire l'application linéaire envoyant u sur 1. (Commentaire : Le bidual d'un espace vectoriel U de dimension finie étant naturellement isomorphe à U lui-même, l'inverse de l'inverse d'une grandeur est la grandeur elle-même ; et de plus, l'inverse de l'inverse d'une unité est l'unité elle-même.)
  6. Données deux grandeurs physiques correspondant à des espaces vectoriels U et V de dimension 1, la grandeur produit de U par V est la grandeur correspondant à l'espace vectoriel produit tensoriel UV. (Note : En général, le produit tensoriel UV est défini avec une application bilnéaire (⊗):U×VUV de telle sorte que les applications linéaires UVW s'identifient naturellement aux applications bilinéaires U×VW par composition avec (⊗) ; mais dans le contexte particulier des espaces vectoriels de dimension finie, on peut définir le produit tensoriel UV plus simplement comme L(U*,V), l'élément uv de UV étant l'application linéaire U*V donnée par φ ↦ φ(uv. Concrètement, si U a une base (ei) et V a une base (fj), alors UV est l'espace vectoriel dont une base est (eifj), et si u = ∑ixiei et v = ∑jyjfj alors uv = ∑i,jxiyj(eifj).) Et si u et v sont des unités (=bases) de U et V respectivement, l'unité produit u·v de la grandeur produit est définie comme la base uv de UV.
  7. Les égalités de grandeurs (« homogénéités » physiques) correspondent à des isomorphismes naturels d'espaces vectoriels. À titre d'exemple, si U et V sont deux grandeurs, on a un isomorphisme naturel U⊗L(U,V)→V donné par uφ ↦ φ(u) (déduite de l'application bilinéaire (u,φ)↦φ(u) de composition), ce qui reflète le fait que diviser une grandeur V par une grandeur U et la remultiplier par elle redonne bien la grandeur V de départ.

Est-ce que dire tout ça éclaire une situation confuse ou bien obscurcit sous du formalisme inutile quelque chose qui était déjà parfaitement clair ? Cela dépend certainement de l'orientation d'esprit du lecteur ! Il y a des gens pour qui ce point de vue est véritablement utile pour comprendre, et des gens pour qui c'est du jargon complètement gratuit ; à tel point que je pense que ça peut servir d'une sorte de « test de personnalité » scientifique. Mais je pense que ça peut être aussi un exemple très utile pour se rappeler la difficulté fondamentale de la pédagogie : il y a plus d'une tournure d'esprit, et ce qui peut être éclairant pour une peut être obscurcissant pour une autre, et il est très difficile pour un enseignant de dire je vais vous donner un autre point de vue : si vous trouvez qu'il vous embrouille, oubliez-le, sinon, retenez-le ou même je vais vous donner plusieurs points de vue sur la même chose, retenez celui que vous préférez, même si, fondamentalement, je pense que c'est ce qu'il faut faire (dans la mesure où le temps le permet).

Évidemment, mon exemple peut aussi servir (et est peut-être plus utile, il faut bien le dire) dans l'autre sens : pour faire comprendre des concepts d'algèbre linéaire à des gens qui ont déjà une idée de ce que c'est qu'une grandeur physique et une unité de mesure (i.e., à peu près tout le monde à part un matheux fou qui aurait vécu depuis son enfance dans une grotte constituée de livres de Bourbaki). Notamment, je pense que cela peut servir à illustrer : (a) le sens du mot canonique[#]/naturel, et le fait que deux objets mathématiques soient isomorphes ne signifie pas qu'il soit opportun de fixer un tel isomorphisme, ou en tout cas, que si on le fait, il peut être important de se rappeler qu'on a fait un choix (tous les espaces vectoriels réels de dimension 1 sont isomorphes, mais les choix qu'on peut faire ont une réelle importance — par exemple les États-Unis n'ont pas fait les mêmes choix que le reste du monde) ; (b) la notion de dual dans un cas très simple (et pourquoi l'isomorphisme d'un espace vectoriel de dimension finie, même de dimension 1, avec son dual n'est pas canonique, tandis que l'isomorphisme avec le bidual, lui, l'est) ; et aussi (c) le concept de produit tensoriel.

[#] J'aime beaucoup la « définition » suivante du mot canonique en mathématiques : un objet d'un certain type est canonique quand, si j'en construit un et que mon voisin de bureau en construit un autre, nous aurons probablement construit le même. Si je dois choisir une base de ℝ, je vais choisir 1 et mon voisin de bureau aussi ; si je dois choisir une base de l'espace vectoriel des masses sans être courant de ce qui existe déjà, il est peu probable que je choisisse pile le même kilogramme que le citoyen Fortin.

*

On peut varier ou modifier le point de vue. En voici un autre, qui est différent mais compatible avec celui donné ci-dessus : il consiste à considérer comme fondamentale l'opération de « transformation homogène » dans une quantité physique ; pour dire les choses de façon simple, il s'agit de multiplier toutes les longueurs par un nombre disons λ₁, toutes les durées par un nombre λ₂, toutes les masses par un nombre λ₃, tous les courants électriques par un nombre λ₄ (et continuer comme ça pour toutes les autres grandeurs fondamentales qu'on peut avoir dégagées) ; évidemment, on va alors multiplier les vitesses par λ₁/λ₂, les accélérations par λ₁/λ₂², et plus généralement toute quantité d'une grandeur qui a la dimensionalité (d₁,d₂,d₃,d₄) (valeur des quatre colonnes numériques du tableau) par λd·λd·λd·λd. Les nombres sans dimension, eux, ne changent pas du tout. Cette opération de transformation homogène peut se voir comme reflétant le caractère arbitraire du choix des unités (i.e., la liberté qu'on avait à les définir) : on peut considérer qu'on est en train de diviser chaque unité fondamentale par le λ correspondant ; on peut aussi prétendre qu'il s'agit d'une symétrie des lois de la physique, même si c'est un petit peu une arnaque de dire ça (parce qu'on doit changer, dans l'histoire, les constantes fondamentales dimensionnées). En tout cas, le point crucial de l(a vérification d)'homogénéité est que quand on effectue cette transformation homogène sur toutes les quantités dimensionnées, toutes les égalités se préservent ; en particulier, si on ajoute, ou si on exprime l'égalité entre, deux quantités, elles doivent avoir la même dimensionnalité, i.e., être de la même grandeur, pour que l'homogénéité fonctionne. Redisons tout ça plus formellement en langage de matheux :

Appelons groupe multiplicatif le groupe des réels non nuls, disons même strictement positifs (je n'ai pas envie de m'embêter avec la question des signes des quantités), pour la multiplication. Si r est le nombre de grandeurs fondamentales (par exemple, r=4 si on compte longueur, durée, masse et intensité électrique), notons G et appelons groupe des homogénéités d'unités le produit de r copies du groupe multiplicatif. Une grandeur physique est alors une façon dont se multiplient les quantités correspondantes sous l'action du groupe des homogénéités : c'est-à-dire que c'est une représentation du groupe G des homogénéités (= un espace vectoriel U, muni d'un morphisme de groupes continu G→GL(U) — définissant donc une action de G sur U — où GL(U) est le groupe des applications linéaires inversibles UU) ; et plus exactement, c'est une représentation irréductible, ce qui, dans ce contexte, veut juste dire, de dimension 1 : du coup, un morphisme de G dans le groupe multiplicatif, ou caractère (abélien) de G (à savoir (λ₁,λ₂,λ₃,λ₄) ↦ λd·λd·λd·λd). Vérifier l'homogénéité d'une égalité, c'est vérifier que le groupe des homogénéités opère de la même façon sur les deux membres, donc qu'ils vivent dans la même représentation.

Bref, une grandeur physique est une représentation irréductible (= de dimension 1) de G, et pour ce qui est des unités et de la manière dont on les multiplie et inverse, le point de vue exposé précédemment s'applique, en remarquant que le dual d'une représentation irréductible de G est une représentation irréductible de G (ceci est un fait général), et que le produit tensoriel de deux représentations irréductibles de G est une représentation irréductible de G (ceci dépend du fait que G est abélien).

Ce que j'ai appelé plus haut groupe de Picard des grandeurs physiques est alors vu comme le groupe des caractères de G (= groupe dual). Et le choix de grandeurs fondamentales revient à choisir une base de celui-ci, i.e., des représentations fondamentales de G.

Je pense que ce point de vue a un intérêt à la fois mathématique et physique. Mathématique parce qu'il « explique » pourquoi les grandeurs physiques forment elles-mêmes un groupe : c'est le groupe des caractères du groupe G des homogénéités physiques ; et il donne un sens plus précis (que le point de vue précédent) à la question de savoir quand deux grandeurs sont ou ne sont pas la même (ci-dessus je parlais d'isomorphismes « naturels » ou « canoniques », mais c'est une question un peu byzantine de savoir quand deux objets sont « naturellement » isomorphes ; alors que savoir si le groupe G agit de par le même caractère est une question bien définie). Physiquement, parce que cela prépare à l'idée de rechercher des symétries de la physique et de faire agir des groupes plus compliqués que juste des homogénéités.

C'est un problème à la fois pédagogique et scientifique que de savoir quelle quantité de formalisme il faut introduire pour exposer une notion, et comme je le disais plus haut, la réponse dépend hautement de la personne à laquelle on s'adresse, c'est-à-dire qu'il n'y a pas de « bonne » réponse. Ce qui peut apporter quelque chose à ceux qui ont l'esprit orienté d'une certaine manière, paraîtra souvent gratuitement compliqués à d'autres. C'est un problème qui revient notamment souvent en théorie des catégories (même s'il n'est pas exclusif à la théorie des catégories !), une branche des mathématiques que certains considèrent comme une façon extraordinairement compliquée de dire des trivialités et d'autres comme une façon extraordinairement puissante d'unifier toutes sortes de choses apparemment disparates.

Si on est, justement, théoricien des catégories, on préférera sans doute voir les grandeurs physiques comme les objets d'une catégorie monoïdale symétrique dont tous les objets sont inversibles. C'est à cause de ça que j'ai choisi le terme de groupe de Picard. Si on est informaticien théoricien, on peut vouloir voir la catégorie monoïdale symétrique en question comme un modèle du fragment multiplicatif de la logique linéaire, ce qui rejoint l'idée de typage évoquée plus haut : les notations sont heureusement cohérentes, et UV (qui coïncide ici avec UV) est le type correspondant au produit des unités tandis que U est le type correspondant à l'inverse d'une unité et UVUV au quotient. Ce n'est certainement pas très utile pour comprendre les unités physiques, mais ça peut aider à se former une intuition de la logique linéaire que de se dire que le type des surfaces peut être vu comme le type longueur⊗longueur.

Mais revenons à des choses plus concrètes. Quelles sont toutes les grandeurs physiques possibles ? Et qu'est-ce que ça signifie, au juste, que deux quantités aient la même grandeur ? En fait, ce n'est pas si clair que ça. (L'approche « groupe d'homogénéités » exposée plus haut devrait fournir une réponse, mais en fait elle demande justement, un choix de groupe d'homogénéités, et on peut avoir des doutes sur ce qu'est le groupe en question.)

Il y a plusieurs choses qui peuvent faire qu'on ne sera pas d'accord sur le nombre de grandeurs (ou du coup, d'unités) fondamentales. D'abord, on peut inventer toutes sortes de grandeurs et d'unités : par exemple, si on fait de l'économie, on peut avoir une grandeur « valeur économique » avec pour unité l'euro ; ou le dollar ; ou en fait, comme c'est déplaisant (et contraire au formalisme ci-dessus) que le rapport entre deux unités varie au cours du temps, une grandeur différente pour chaque sorte de devise ou de commodité sur le marché, ce qui montre que la création d'un nombre gigantesque de grandeurs fondamentales peut avoir un sens. Ensuite, on peut inventer toutes sortes de pseudo-unités : le radian, par exemple, qui sert essentiellement à retenir la position des 2π dans les expressions mathématiques, ou encore les (déci)bel, néper et logon qui servent à mémoriser la base des logarithmes (ils sont dans les rapports respectifs de log(10), log(e) et log(2)). Mais il y a quelque chose de plus intéressant que je veux évoquer, c'est la question du scindage et de l'unification de grandeurs.

Pour expliquer cette histoire de scindage et d'unification, prenons deux exemples qui sont, j'insiste, exactement de la même nature :

  • On considère classiquement les longueurs (dans l'espace) et les durées (de temps) comme deux grandeurs différentes. Mais il y a une constante fondamentale dimensionnée qui les relie : la vitesse de la lumière. Celle-ci vaut (exactement) 299792458m/s en unités SI (avec la grandeur « vitesse », c'est-à-dire « longueur sur durée »).
  • Les Américains ont tendance à mesurer les longueurs (distances horizontales) en miles (mi), et les hauteurs (distances verticales) en pieds (ft). On pourrait donc vouloir considérer qu'il s'agit de deux grandeurs différentes, chacune avec son unité. À ce moment-là, au lieu d'avoir un rapport entre les deux unités, on a une constante fondamentale dimensionnée qui apparaît, la constante qui exprime la hauteur d'un mat qui, posé horizontalement, a une certaine longueur : et cette constante vaut (exactement) 5280ft/mi (avec la grandeur « hauteur sur longueur », qu'on pourrait appeler « pente »).

Unifier deux grandeurs (par exemple les longueurs et les durées), c'est trouver une constante fondamentale qui s'exprime dans le rapport entre ces deux grandeurs et décider qu'elle vaut 1 : cette constante fournit donc un isomorphisme entre les deux grandeurs, c'est-à-dire permet la conversion de l'une à l'autre, et on peut considérer qu'il s'agit d'une seule et même grandeur. La constante fondamentale disparaît alors complètement de l'histoire, puisqu'elle a été remplacée par le nombre 1 : elle survit éventuellement en tant que facteur de conversion entre deux unités de la même grandeur (puisque les grandeurs séparées avant unification avaient chacune son unité, on en a maintenant deux pour la meme grandeur, donc le nombre 1 s'exprime comme un facteur de conversion) : par exemple, une fois qu'on décide que les longueurs et les durées sont la même grandeur, on a deux unités de cette grandeur, la seconde et le mètre, reliées par la conversion 1 seconde(-lumière) = 299792458 mètres, le rapport 1 = (1s)/(1s) = (299792458m)/(1s) = 299792458m/s étant ce qui subsiste de la vitesse de la lumière une fois l'unification faite.

(Il faut faire attention, dans l'histoire, à ce que quand on décide de rendre une constante égale à 1 pour unifier deux grandeurs, on fait un choix de ce qu'est exactement la constante, qui n'est pas forcément toujours évident : le système CGS électrostatique, par exemple, est défini en rendant la permittivité du vide égale non pas à 1, mais à 1/4π, d'où toutes sortes de 4π qui apparaissent ou disparaissent des formules quand on le compare au SI. Cf. ce que je disais plus haut sur le fait que les systèmes cohérents d'unités ne fixent pas magiquement toutes les formules. (En plus de ça, comme la permittivité diélectrique a un exposant +2 dans le tableau ci-dessus, la rendre égale à 1 pour définir les grandeurs électriques fait apparaître des exposants fractionnaires tout à fait désagréables dans l'histoire.))

Dans le sens contraire, scinder une grandeur en deux, c'est créer une constante fondamentale dimensionnée reflétant ce qui était, avant scindage, simplement le nombre 1, et qui devient la base d'une loi de proportionnalité (pour calculer la hauteur d'un mat ayant une certaine longueur horizontale, on multiplie cette longueur par la constante fondamentale valant 5280ft/mi (dont la grandeur est donc une hauteur-par-longueur-horizontale)).

J'insiste sur le fait que, une fois effectué le scindage, la constante 5280ft/mi, dans mon second exemple, est exactement autant une constante fondamentale de la physique que la vitesse de la lumière l'est dans le premier exemple. Je sais bien qu'on a tendance à réagir instinctivement en se disant ce n'est pas possible ! 299792458m/s c'est vraiment une grandeur fondamentale de la physique, c'est la vitesse de la lumière, quelque chose qu'on mesure par l'expérience, alors que 5280ft/mi c'est juste le rapport arbitraire entre deux unités idiotes du système américain, ça ne peut pas être une constante fondamentale de la physique, et pourtant, toutes les constantes fondamentales qui ont des dimensions sont bien de cette sorte. La raison pour laquelle il a fallu mesurer la vitesse de la lumière est que, faute de savoir que les longueurs et les durées étaient fondamentalement la même chose (ou, même en le sachant, faute de pouvoir les mesurer de façon interchangeable, cf. ci-dessous), on a défini des unités différentes pour les deux : la mesure de la vitesse de la lumière est alors la mesure du rapport entre deux unités qui ont été définies de façon complètement indépendante ; si on considère les hauteurs et les longueurs comme des grandeurs différentes et qu'on définit des unités différentes avec des étalons différents, il va falloir faire une expérience consistant à reporter verticalement l'étalon horizontal et le comparer à l'étalon vertical, pour arriver à trouver cette constante de conversion. Laquelle représente bien quelque chose de fondamental (la montée de la pente de 45°).

{{{ Une digression sur les constantes sans dimension : Bien sûr, quand je dis qu'on peut faire apparaître ou disparaître des constantes fondamentales par scindage ou unification de grandeurs, il s'agit uniquement de constantes fondamentales dimensionnées : les constantes fondamentales sans dimension (qui sont les « vraies » constantes fondamentales), elles, ne peuvent pas être absorbées par une redéfinition des unités (ni évidemment quand on a deux constantes fondamentales dimensionnées de même dimension, parce que leur rapport est alors sans dimension ; ni, plus généralement, quand on peut fabriquer une constante sans dimension à partir de plusieurs constantes fondamentales). Il faut noter que la physique classique et la relativité (restreinte ou générale) n'ont aucune constante fondamentale sans dimension. Le modèle standard, lui, en a une vingtaine (j'en ai déjà parlé dans cette entrée) ; il y a un vrai problème philosophique autour de la question de savoir si ces constantes devraient être « prévisibles », et ce que ça signifie (ça impliquerait certainement au moins qu'il s'agisse de nombres réels définissables dans ZFC par opposition à des nombres essentiellement aléatoires), mais je ne veux pas entrer dans ce sujet aujourd'hui. Parmi ces constantes fondamentales, il y en a au moins une qui n'est pas spécialement ésotérique : c'est la constante de structure fine qui est le rapport entre, d'une part, le carré de la charge de l'électron, et, d'autre part, 4π fois la permittivité du vide (ε₀) fois la vitesse de la lumière (c) fois la constante de Planck réduite () : le produit d'autre part définit une charge « naturelle », la charge de Planck (essentiellement la charge q telle qu'en prenant deux telles charges séparées par une distance d quelconque, la longueur d'onde quantique associée à l'énergie électrostatique séparant ces deux charges soit égale à la distance d elle-même ; il y a peut-être moyen de dire ça mieux, mais on voit l'idée). Cela signifie que si on cherche à définir des unités « naturelles » pour l'électromagnétisme, il faut faire un choix : on peut soit absorber la charge de Planck (par exemple en absorbant la vitesse de la lumière, la constante de Planck et la permittivité du vide éventuellement à un facteur 4π), soit absorber la charge de l'électron, mais on ne peut pas faire les deux. La même remarque vaut si, même sans vouloir fixer des constantes à « 1 », on veut s'en servir pour la définition des unités (et ceci est pertinent pour la redéfinition du SI). }}}

Je reviens aux histoires d'unification et de scindage de grandeurs.

La situation n'est évidemment pas toujours totalement claire. En-dessous de la situation « unifiée » où je décide que la longueur et la durée sont exactement la même grandeur (et que la vitesse de la lumière vaut 1, sans dimension, qui disparaît donc du monde des constantes fondamentales [dimensionnées]), il y a la situation « fixée » où je garde la longueur et la durée formellement comme des grandeurs distinctes, mais je fixe la valeur exacte de la constante sans dimension, c'est-à-dire que je m'en sers pour définir l'unité d'une grandeur par rapport à l'autre : c'est l'analyse la plus plausible de la situation du SI pour ce qui est du mètre et de la seconde (considérés comme des unités de grandeurs distinctes, mais dont le rapport est fixé par le fait que la vitesse de la lumière vaille exactement 299792458m/s). Ça peut être une simple question de point de vue de savoir si on a complètement unifié de grandeurs ou simplement fixé la constante. En revanche, si les unités sont définies de façon indépendantes et que la constante fondamentale est encore sujette à détermination expérimentale, alors du point de vue métrologique, on ne peut pas unifier les grandeurs (même si on peut vouloir le faire du point de vue théorique).

L'opération de scindage, quant à elle, peut paraître complètement idiote ! Je l'ai illustrée avec les pieds et les miles, mais même le système américain ne l'envisage pas comme ça : le pied et le mile sont considérés comme deux unités d'une même grandeur (unifiée), la longueur, pas comme des unités de deux grandeurs différentes (même si elles sont vaguement utilisées comme telles). Il y a, cependant, parfois de bonnes raisons de le faire.

Dans le cas des longueurs et des durées, la raison devrait être assez évidente. Dès qu'on fait de la relativité, il devient essentiellement incontournable d'unifier longueurs et durées (distances et temps) : ne pas le faire serait aussi absurde qu'essayer de faire de la géométrie euclidienne en mesurant les distances dans des unités différentes selon deux axes et en insistant que non non non ce n'est pas du tout la même grandeur. Mais quand on vit dans un monde où tout va beaucoup plus lentement que la lumière cela a un sens de séparer les deux, de même que si on vit dans un monde où les reliefs sont très très faibles par rapport aux longueurs horizontales cela peut avoir un sens de scinder la longueur en une double grandeur, longueur horizontale et hauteur. Dans la vie courante, il serait très malcommode d'utiliser la seconde pour mesurer des distances ou le mètre pour mesurer des temps, même si, au niveau métrologique, le mètre est maintenant défini à partir de la seconde (je vais y revenir).

Une autre raison de scinder peut être de retenir des nombres purement mathématiques. La grandeur « angle », notamment, est un scindage de la grandeur triviale (= nombres sans dimension) qui permet d'introduire des unités pour cette grandeur : tours, radians, degrés (ou, si on est un Français fou, grades). Garder le choix de l'unité, notamment entre tours et radians dans l'expression des angles, devrait permettre de conserver la liberté d'où on place des 2π dans certaines expressions mathématiques (par exemple de mettre d'accord ceux qui veulent que la transformée de Fourier de f est l'intégrale de f(x)·exp(−2iπxu) et ceux qui veulent que ce soit l'intégrale de f(x)·exp(−ixu)). En pratique, ça ne marche pas si bien que ça, parce que 2π est une constante purement mathématique, elle peut apparaître toute seule aux dépens de l'homogénéité, on ne peut pas la forcer à apparaître avec les unités « radians » (ou « radians par tour » ou quelque chose comme ça) à chaque fois qu'elle se manifeste (la longueur d'un cercle de rayon 1 mètre est 2π mètres, pas 2π radians·mètres) : bref, il n'y a pas de groupe d'homogénéités sensé capable de changer la valeur de 2π. Mais même si ça ne marche que partiellement et s'il faut parfois tricher avec l'homogénéité, c'est quand même un moyen mnémotechnique qui peut avoir son intérêt.

Encore une autre raison peut être de servir à retenir l'information que la quantité à subi tel ou tel traitement mathématique. C'est un peu comme ça que je considère le lumen (=candela·stéradian) : on peut dire que la grandeur « flux lumineux » du SI, dont le lumen est l'unité, est un scindage de la grandeur « puissance » (dont l'unité est le watt), avec apparition d'une constante « fondamentale » de 683lm/W (l'efficacité-pic) qui est aussi bizarrement « fondamentale » que le 5280ft/mi évoqué plus haut. En fait, le fait d'exprimer la puissance en lumens sert à mémoriser l'information le spectre a été pondéré, fréquence par fréquence, par une fonction simulant la sensibilité de l'œil humain (ce que demande l'unité, c'est que cette courbe de pondération ait son pic à 540×1012 Hz et qu'à ce pic la pondération soit donnée par 683lm/W). Mais en un certain sens, cette valeur de 683lm/W est bien quelque chose qu'il a fallu déterminer expérimentalement (à savoir à partir de la précédente définition de la candela, qui était l'intensité lumineuse, dans la direction perpendiculaire, d'une surface de 1/600 000 mètre carré d'un corps noir à la température de congélation du platine sous la pression de 101 325 newtons par mètre carré).

Mais la raison vraiment sérieuse pour scinder une grandeur (et certainement, pour ne pas en unifier deux), c'est pour des raisons d'incertitude dans les mesures. Même si on savait dès le début du 20e siècle que l'espace et le temps sont un seul et même concept, métrologiquement, ça n'aurait pas eu de sens de les unifier avant que les progrès de l'interférométrie soient suffisants pour permettre de réaliser les distances de façon très précise à partir de fréquences, i.e., tant que la vitesse de la lumière n'était pas connue avec une extrême précision. Je vais évoquer quelques exemples de scindages que le temps et les progrès de la métrologie ont permis (ou sont en train de permettre) de résorber.

En réalité, du point de vue métrologique, ça peut avoir un sens de considérer que des grandeurs sont différentes, même si théoriquement (ou conceptuellement) c'est la même chose, lorsqu'on mesure les quantités en question de façon différente, et surtout, lorsque cette différence de façon de mesurer est associée à une incertitude. Précisément, imaginons le scénario suivant : on a une seule grandeur théorique, appelons-la U, au sein de cette grandeur théorique il y a des quantités qu'on mesure selon un procédé 1 et des quantités qu'on mesure selon un procédé 2 ; on sait calculer avec précision le rapport entre des quantités mesurées selon le même procédé mais qu'il y a beaucoup d'incertitude sur le rapport entre des quantités mesurées selon des procédés différents ; dans ce cas, il y a un sens à scinder la grandeur U en des grandeurs U₁ et U₂, l'une mesurée selon le procédé 1, l'autre selon le procédé 2, chacune ayant son unité, si bien qu'on a deux unités chacune réalisée avec précision et permettant des mesures précises, et une constante « fondamentale » (reflétant l'isomorphisme théorique entre U₁ et U₂) qui est connue avec une mauvaise précision — en fait, on a « versé » toute l'incertitude dans cette unique constante fondamentale.

Je vais essayer d'expliquer cette utilité de scinder les grandeurs sur l'exemple des masses. Typiquement on considère qu'il s'agit d'une seule grandeur physique, mais il pourrait y avoir un sens à distinguer trois grandeurs « masse » :

Il y a trois domaines importants des masses : les masses microscopiques (comparables à la masse d'un atome), les masses mésoscopiques (comparables au kilogramme), et les masses astronomiques (comparables à la masse d'une étoile). Évidemment, il y a des masses intermédiaires, mais ces trois domaines sont importants à cause de la manière dont on mesure les masses : une masse mésoscopique se mesure avec une balance qui la rapporte, moyennant un certain nombre d'étapes intermédiaires, au prototype international du kilogramme (qu'on va prochainement mettre à la retraite, mais ce n'est pas encore fait au moment où j'écris). Une masse astronomique se mesure par la gravitation qu'elle exerce, c'est-à-dire en observant quelque chose qui orbite autour et en appliquant la troisième loi de Kepler. Une masse microscopique se mesure en la comparant à la masse d'un atome connu, par exemple le carbone-12 (il est bien pratique que tous les atomes d'un même isotope soient rigoureusement identiques, et qu'ils aient donc la même masse) ou en mesurant un effet quantique comme la longueur d'onde fondamentale associée à cette masse (via la constante de Planck).

Donc il y a un sens à avoir trois unités différentes de masse : par exemple, l'unité de masse atomique, qui vaut 1/12 de la masse d'un atome de carbone-12, pour les masses microscopiques ; le kilogramme, qui est la masse du prototype stocké dans un coffre-fort au sous-sol de l'observatoire du pavillon de Breteuil à Saint-Cloud, pour les masses mésoscopique ; et la masse solaire, qui est la masse de notre Soleil, pour les masses macroscopiques. Évidemment, on peut convertir entre ces unités, mais le point important est que certaines masses sont connues plus précisément dans l'une de ces unités que dans les autres. Donc, si l'on veut, on peut imaginer scinder la grandeur « masse » en trois grandeurs, « masse-quantique », « masse » et « masse-gravitante », il y aurait des constantes « fondamentales » reliant les trois, mais elles ne sont pas connues avec une précision parfaite (comme je vais l'expliquer, du point de vue incertitude, la constante reliant la masse à la masse-gravitante peut être indifféremment la constante de Newton ou la masse du Soleil ou de la Terre ; et la constante reliant la masse à la masse-quantique peut être indifféremment la constante de Planck ou la masse d'un atome de carbone-12 ou d'un électron).

C'est surtout pour les masses d'ordre astronomique que c'est important, parce que les incertitudes sont énormes. La masse du Soleil, exprimée en kilogrammes, vaut 1.988 48×1030 (c'est-à-dire le rapport entre la masse du Soleil et celle du prototype international du kilogramme), et elle est connue avec une incertitude relative d'environ 5×10−5 ; il en va de même de la masse de la Terre en kilogrammes, 5.972 4×1024 ; mais le rapport entre les deux, c'est-à-dire la masse de la Terre en masses solaires ou vice versa, est connu avec une précision 25000 fois meilleure (environ 2×10−9) que ce que ces chiffres suggèrent : la masse de la Terre vaut 3.003 489 62×10−6 M (où M est le symbole de la masse solaire). Tout simplement parce qu'on arrive très bien à calculer le rapport entre les effets gravitationnels de la Terre et du Soleil, mais très mal à relier ça à la masse du prototype international du kilogramme. C'est le signe que le kilogramme n'est pas approprié pour mesurer les masses astronomiques parce qu'exprimer des masses dans cette unité fait perdre de la précision (calculer le rapport entre les deux grandeurs exprimées en kilogramme ne donne pas la précision voulue), alors que le kilogramme est approprié pour mesurer les objets mésoscopiques (on obtient toute la précision dans un rapport de masses mésoscopiques en se référant au kilogramme) : la manière dont on pèse ces différentes sortes de masses n'est pas la même. C'est précisément le cas de figure où j'explique plus haut qu'il peut y avoir un sens à scinder la grandeur pour gérer l'incertitude.

Imaginons donc que j'introduise la grandeur de « masse-gravitante ». La masse-gravitante est simplement proportionnelle à la masse [inertielle] (du moins si on croit certains principes fondamentaux de nos théories de la gravitation, essentiellement le principe d'équivalence !), mais je veux la traiter comme une grandeur à part parce que cette constante de proportionnalité est mal connue.

On peut mesurer la masse-gravitante en diverses unités : une première approche consiste à utiliser la masse solaire M ; une approche différente consiste à définir la masse-gravitante d'une masse M à travers l'effet gravitationnel 𝒢·M produit par cette masse, où 𝒢 désigne la constante de Newton, et donc unifier plus ou moins la grandeur de masse-gravitante (qu'on vient d'inventer !) avec la grandeur de 𝒢·M, dont l'unité SI est le m³/s² : autrement dit, on peut utiliser l'unité m³/s²/𝒢 (éventuellement en l'appelant directement m³/s² si on veut une unification complète) comme unité de masse gravitante. Ces deux approches (utiliser comme unité la masse solaire M ou via la constante de Newton le m³/s²/𝒢) sont quasiment équivalentes du point de vue métrologique (même si elles ne le sont pas tant du point de vue conceptuel), parce que le rapport entre les deux unités, la masse solaire M, et l'unité m³/s²/𝒢, est bien connue — c'est tout simplement l'effet gravitationnel 𝒢·M du Soleil (cf. ci-dessous). Il y a donc plusieurs façons de dire essentiellement la même chose :

La constante de gravitation de Newton 𝒢, qui a classiquement les dimensions de longueur3·temps−2·masse−1, est connue avec une précision assez mauvaise dans les unités SI de m³/s²/kg (elle vaut 6.674 08×10−11 m³/s²/kg avec une incertitude relative de 4.7×10−5 d'après CODATA2014), alors qu'en unités de m³/s² par masse solaire, elle est connue beaucoup plus précisément (d'après les valeurs 2009 des constantes astronomiques de l'IAU, elle vaut 1.327 124 420 99×1020 m³/s²/M avec une incertitude relative d'environ 10−10) ; c'est parce que le produit 𝒢·M (constante héliocentrique de la gravitation, i.e., effet gravitationnel du soleil) est la valeur qui régit toute la mécanique du système solaire et on la connaît donc très très bien. Si, comme je le propose, on scinde la grandeur de masse en masse et masse-gravitante, et si on exprime cette dernière en masses solaires, la constante fondamentale qui exprime la proportionalité entre masse et masse gravitante, qui vaut 1.988 48×1030 kg/M, n'est pas connue très précisément[#2], tandis que la constante de Newton, elle, est connue très précisément dans la grandeur longueur3·temps−2·masse_gravitante−1, où elle vaut 1.327 124 420 99×1020 m³/s²/M (et a masse gravitante du Soleil est connue exactement, elle vaut 1M puisqu'elle sert à définir l'unité).

[#2] Pour être précis, il faut bien distinguer cette constante, 1.988 48×1030 kg/M (qui est classiquement sans dimension et qu'on a transformé en une constante ayant la grandeur de masse par masse_gravitante), et la masse du Soleil, qui, elle, vaut 1.988 48×1030 kg (le produit de cette constante par la masse gravitante du Soleil qui se trouve valoir 1M).

L'autre approche, toujours en scindant la notion de masse en masse et masse-gravitante, consiste à fixer la valeur de 𝒢 et utiliser comme unité de masse gravitante non pas celle du Soleil, mais une unité plus cohérente avec le SI, à savoir le m³/s²/𝒢 (soit à peu près 15Tg), ce qui revient plus ou moins à poser 𝒢=1 pour unifier la grandeur masse-gravitante avec la grandeur volume/durée² dont l'unité SI est le m³/s². (Si on prend cette approche, 𝒢 devient la constante de proportionalité entre masse et masse gravitante, la constante de Newton dans la grandeur longueur3·temps−2·masse_gravitante−1 devient triviale, et la masse gravitante du Soleil est connue avec une très bonne précision.) Les deux approches (mesurer la masse gravitante en unités de masse solaire ou en multipliant par 𝒢) sont conceptuellement différentes, mais reviennent essentiellement au même pour ce qui est de la précision des mesures. Mais je veux bien souligner le fait suivant : poser 𝒢=1 dans un système d'unités serait catastrophique pour des masses usuelles (à cause de l'imprécision avec laquelle on connaît 𝒢 à l'échelle du kilogramme), mais devient tout à fait sensé si on travaille à l'échelle astronomique, c'est-à-dire si on a scindé la notion de masse en masse et masse-gravitante.

{{{ Tout ceci a d'ailleurs un sens historique : à la fin du 18e siècle, Henry Cavendish a mené une expérience qu'on interprète généralement maintenant en disant qu'il a mesuré la constante 𝒢 de Newton (dans la grandeur longueur3·temps−2·masse−1). Mais le but de Cavendish n'était pas de mesurer la constante de la gravitation, c'était de mesurer la masse de la Terre. Si on utilise l'interprétation proposée plus haut consistant à scinder la grandeur « masse » en « masse » et « masse-gravitante », et qu'on mesure les masses gravitantes en masses(-gravitantes) terrestres, alors la constante de la gravitation vue en la grandeur longueur3·temps−2·masse_gravitante−1 était connue d'après l'accélération de la pesanteur (et le rayon de la Terre), et ce que Cavendish a mesuré est la constante de proportionnalité entre les masses et les masses-gravitantes, ce qui lui donne effectivement la masse de la Terre. Et fondamentalement, c'est toujours le même problème que depuis cette époque : on ne peut pas peser directement un astre en le mettant dans une balance, le mieux qu'on puisse faire est de prendre un objet mésoscopique aussi lourd que possible mais dont on peut connaître la masse, mesurer sa masse gravitante (i.e., l'attraction gravitationnelle qu'il exerce sur une balance de torsion), et en déduire le rapport entre les deux. }}}

Les choses sont analogues dans le domaine microscopique en remplaçant masse du Soleil (ou de la Terre, ou quelque chose comme ça) par douzième de la masse d'un atome de carbone-12 (ou masse de l'électron, ou quelque chose comme ça) et constante de Newton par constante de Planck (enfin, peut-être, inverse de la constante de Planck réduite, mais vous voyez l'idée) : je peux donc être tenté de scinder la grandeur « masse » en « masse » et « masse-quantique », et, pour cette dernière, utiliser une unité qui pourrait être, selon l'approche choisie, le douzième de la masse d'un atome de carbone-12 (unité de mass atomique) ou le ·s/m², le rapport entre ces quantités étant connu avec plus de précision qu'aucune d'elle ne l'est du kilogramme…

…du moins c'était le cas historiquement. Maintenant, l'écart a essentiellement disparu depuis que des efforts énormes ont été faits pour mesurer avec une très grande précision la constante de Planck (dans les unités SI, c'est-à-dire relativement au kilogramme), ou, ce qui revient essentiellement au même d'après ce que je viens de dire, la valeur de l'unité de masse atomique en kilogrammes (ou encore le nombre d'Avogadro, comme je vais le dire), ou encore, dans la perspective où on aurait scindé la grandeur « masse » en « masse » et « masse-quantique », la constante de proportionnalité entre les deux. Ceci va permettre de redéfinir le kilogramme sur la base des unités atomiques, en fixant la valeur de la constante de Planck (il serait revenu quasiment au même de fixer le nombre d'Avogadro). Du coup, mon exemple devient un peu confus. Il est par ailleurs rendu encore plus confus par l'existence d'encore une autre unité couramment utilisée pour les masses de l'ordre atomique, à savoir le MeV/c² (un eV étant l'énergie produit de la [valeur absolue de la] charge de l'électron par la tension de 1V) ; comme le prototype du kilogramme intervient dans la définition du MeV (à travers le volt), le MeV/c² n'est pas indépendant du kilogramme et ne peut donc pas être considéré comme une unité de la grandeur « masse-quantique » qu'on prendrait le soin de distinguer soigneusement de la masse[#3] ; je dis ça parce que j'avais commencé par le penser avant de me rendre compte de mon erreur.

[#3] En fait, il y a une confusion dans la confusion : c'est que le volt de l'électron-volt a sans doute souvent été, dans la pratique, un volt conventionnel 90 : si c'est le cas, en fait, cet « électron-volt-90 » est défini comme la moitié de la constante de Planck h multipliée par la fréquence de 483 597.9 GHz, et donc l'unité redevient indépendante du prototype du kilogramme et redevient une unité de « masse-quantique ». Il faudra que j'essaie d'expliquer correctement ces histoires d'unités conventionnelles 90 quand je parlerai de la réforme du SI.

En fait, la manière dont le SI a approché cette histoire de masses microscopiques est un peu différente : plutôt que de scinder la grandeur « masse » et créer comme je le suggère ci-dessus une nouvelle grandeur pour les masses très petites, le SI a… scindé la grandeur triviale (celle des nombres sans dimension). Et inventé une grandeur bizarre, « quantité de matière », qui résulte de ce scindage, et une « constante fondamentale », le nombre d'Avogadro (dimensionné !, malgré son nom : il a la grandeur de l'inverse d'une quantité de matière, i.e., pour unité l'inverse de la mole), qui convertit cette grandeur en nombre sans dimension.

La définition de la mole (pour encore quelques mois) est qu'il s'agit de la quantité de matière contenue dans 12g de carbone-12 : autrement dit, une mole de foobars signifie un nombre de foobars égal au nombre d'atomes de carbone-12 dans 12g de cette substance. Le nombre d'Avogadro est le rapport de proportionalité entre nombre d'atomes et quantité de matière, et concrètement, exprimé en 1/mol, c'est le nombre d'atomes dans 12g de carbone-12.

Mais du coup, la grandeur « masse par quantité de matière », dont l'unité SI est le kilogramme par mole, peut être considérée comme une mesure de masse microscopique (on mesure la masse de plein de petits foobars identiques pour exprimer la masse microscopique de chacun), avec pour unité 1000/12 fois la masse d'un atome de carbone-12. Plus exactement, le dalton (unité de masse atomique) est un gramme par mole divisé par le nombre d'Avogadro. Mesurer très précisément le nombre d'Avogadro revient exactement à mesurer très précisément la masse d'un atome de carbone-12 (ou l'unité de masse atomique, ou en fait n'importe quel atome, disons, le silicium-28) relativement au prototype international du kilogramme.

{{{ J'en profite pour faire une nouvelle petite digression et signaler une conséquence amusante : comme on connaît déjà très précisément le rapport entre l'unité de masse atomique et la constante de Planck (ou de façon équivalente, la constante de Planck exprimée en unités de masse atomiques fois c² fois la seconde), une façon de mesurer très précisément la constante de Planck consiste à fabriquer une sphère ultra-pure de silicium-28, compter son nombre d'atomes par des techniques d'interférométrie, et la peser par rapport au prototype international du kilogramme ! Je dis ça parce que c'est quelque chose que j'ai mis beaucoup de temps à comprendre dans les histoires de redéfinition du SI : il y a deux approches a priori possibles pour redéfinir le kilogramme, (A) fixer la constante de Planck (qu'il faut ensuite réaliser avec une balace de Watt-Kibble, ce qui nécessite aussi de fixer les unités électriques, c'est compliqué et je ne rentre pas dans le détail aujourd'hui), ou (B) fixer le nombre d'Avogadro en gardant la définition de la mole comme le nombre d'atomes dans 12g de carbone-12 (du coup, le kilogramme devient 1000 fois la masse du gramme tel que ce nombre soit celui qu'on a fixé comme nombre d'Avogadro ; et on réalise ça avec une sphère de silicium-28). En fait, ces deux approches sont essentiellement équivalentes au niveau précision, à cause du fait que la constante de Planck est bien connue relativement à l'unité de masse atomique. Il se trouve qu'on a choisi (A) pour la réforme du SI (et aussi de fixer le nombre d'Avogadro, en abandonnant le lien avec le carbone-12, mais ça ça n'a pas de rapport avec le kilogramme), mais quelle que soit la définition choisie, la réalisation du kilogramme peut se faire soit avec une balance de Watt-Kibble soit avec une sphère ultra-pure de silicium-28, et non seulement peut, mais on a attendu que les deux approches expérimentales concordent avant de procéder à la réforme. J'essaierai de raconter tout ça plus en détails dans une autre entrée. (Symétriquement, au niveau astronomique, notons que pour mesurer la constante de Newton en unités SI, une approche théoriquement possible consisterait à peser directement la Terre ou le Soleil par rapport au prototype du kilogramme ; mais ça, je vois mal comment ce serait possible.) }}}

*

Morale de l'histoire : une définition possible d'une grandeur est un ensemble de quantités entre lesquelles on arrive à mesurer expérimentalement des rapports avec une précision raisonnable. S'il y a des domaines tels que les rapports intradomaine se mesurent beaucoup plus précisément que les rapports interdomaine, ça peut avoir un sens de définir deux grandeurs différentes, comme on l'a fait avec la mole.

Évidemment, le problème est que ces choses peuvent changer avec le temps et les progrès de la métrologie, et qu'on peut se retrouver avec des unités un peu factices. La seconde et le mètre étaient définis indépendamment, parce que la mesure de la vitesse de la lumière n'était pas assez bonne. Mais avec les progrès de l'interférométrie, on a pu redéfinir le mètre à partir de la seconde : la vitesse de la lumière est donc maintenant une valeur exacte (299792458m/s), puisque c'est la définition du mètre d'être la distance que la lumière parcourt dans le vide en (1/299792458) s : on a donc métrologiquement réunifié les distances et les durées, et on se retrouve avec de facto deux unités pour la même chose (enfin, dans la vie courante, c'est quand même sans doute bien pratique d'avoir les deux ; mais les Américains prétendent parfois que leurs pieds et leurs pouces sont bien pratiques, donc bon…). Le kelvin était défini à partir du point triple de l'eau et va être redéfini de manière à fixer la constante de Boltzmann. La mole est encore, au moment où j'écris, définie comme la valeur telle que la masse molaire du carbone-12 soit de 12g/mol ; mais elle va être redéfinie comme un nombre exact d'entités (6.022 140 76×1023, soit 602 214 076 000 000 000 000 000 pour insister sur le fait que c'est un entier exact), donnant un nouveau facteur de conversion un peu bidon.

Il me resterait à discuter de la redéfinition de l'ampère et du kilogramme et des enjeux associés, ce qui est quelque chose que je veux faire depuis longtemps, mais je fatigue, et parler véritablement de métrologie m'écarterait un peu des considérations générales sur ce que sont les unités, donc je vais m'arrêter ici. (J'avais aussi des idées sur la manière de formaliser mathématiquement l'incertitude expérimentale dans un jeu de mesures physiques de différentes quantités et les rapports entre elles, mais ça aussi, je vais passer.)

↑Entry #2546 [older| permalink|newer] / ↑Entrée #2546 [précédente| permalien|suivante] ↑

↓Entry #2545 [older| permalink|newer] / ↓Entrée #2545 [précédente| permalien|suivante] ↓

(dimanche)

Je persiste à ne pas comprendre la théorie quantique des champs

J'ai écrit il y a quelques jours une tentative de vulgarisation sur le sujet de la physique des particules, mais je dois être bien clair sur le fait que c'est partiellement une escroquerie : pas que j'aie dit des choses fausses (je pense que ce que j'ai raconté, dans la mesure où ce n'est pas simplifié au point de ne plus avoir de sens, est raisonnablement correct), mais que fondamentalement je ne comprends toujours pas de quoi il est question. Disons que j'ai une certaine idée de la physique du modèle standard, une certaine idée des mathématiques qui le sous-tendent, et quelques bribes sur la manière dont ces choses se connectent, mais le dessin d'ensemble est toujours extrêmement flou ; j'ai quelques bouts de puzzle qui sont en place dans ma tête, y compris des bouts côté physique et des bouts côté maths, mais malgré quelques pièces placés çà et là entre les deux, il demeure un gros trou au milieu du puzzle, et je ne sais pas le compléter ni même s'il est complétable. Et ce qui est encore plus frustrant, c'est que ce n'est toujours pas clair pour moi si c'est le cas pour tout le monde ou juste pour moi (je pense que c'est quelque chose entre les deux : il y a des choses qui sont floues pour tout le monde, et il y en a beaucoup plus qui sont floues pour moi).

En tant que matheux, j'aime bien que les choses soient définies de façon raisonnablement précise et rigoureuse, ou en tout cas avoir l'impression qu'avec un peu d'efforts j'arriverais à les rendre précises et rigoureuses, même si cette précision ne permet pas de faire des calculs. Un physicien, lui, (s'il n'est pas théoricien des cordes 😉), est en principe préoccupé par le fait de savoir tirer des conséquences expérimentales de ses théories, peu importe qu'elles soient mathématiquement rigoureuses. (Feynmann a notoirement comparé la rigueur mathématique à la rigor mortis, mais il semble que la citation ait été déformée, je la trouve sous cette forme injustement simpliste : ce n'est pas la rigueur mathématique qui devrait poser problème à un physicien, c'est le manque de rigueur physique, or les deux ne sont pas incompatibles.)

Dans la plupart des théories physiques que je connais (mécanique newtonienne classique, électromagnétisme, relativité restreinte, relativité générale, ou même la « première quantification »), j'ai l'impression que l'intervalle entre ces deux approches n'est pas infranchissable ; dans le cas de la théorie quantique des champs, je me heurte vraiment à un mur.

Je souligne que quand je demande que les choses soient définies de façon mathématiquement précise, je n'en demande pas tant que ça. Par exemple, si une théorie physique s'énonce en disant que l'état du monde est régi par telle équation aux dérivées partielles, ça me convient assez bien : je ne demande pas forcément que ce soit accompagné d'un théorème d'existence et d'unicité du problème de Cauchy (des solutions de l'équation). C'est mieux s'il y en a un, mais ça je comprends que c'est le boulot des matheux (et des analystes, dont je ne fais pas partie) de le démontrer : il n'y a pas de problème à ce que les physiciens disent l'équation est la suivante, et physiquement on pense qu'il y a existence et unicité de la solution dans les conditions raisonnables de validité de la théorie. Mais je voudrais au moins que le problème soit posé de façon précise.

D'ailleurs, je ne demande même pas que le problème soit posé de façon précise dans les détails, mais au moins d'avoir quelques idées sur comment il pourrait l'être. Je ne pense vraiment pas que ce soit tomber dans la rigor mortis que d'en demander tant.

Si je lis un livre de théorie quantique des champs pour les physiciens, j'ai l'impression insupportable qu'on m'explique comment faire plein de calculs (et à la limite, je comprends ces calculs, même si je n'ai pas envie de les vérifier ligne par ligne, au moins je comprends le principe de ce qui se fait). Essentiellement des calculs (« perturbatifs ») d'« amplitudes » et de « sections efficaces », qui sont des choses qu'on peut relier ensuite à des vraies mesures faites par des vrais expérimentateurs dans des vrais accélérateurs de particules. Mais fondamentament j'ai l'impression de ne comprendre ce que sont aucun des objets manipulés dans les calculs (à commencer par la notion même de champ quantique). A contrario, si je lis un livre de théorie quantique des champs pour les matheux, on me donne des jolis axiomes (notamment ceux de Wightman), on me parle de groupes de Lie et de représentations, de choses qui me sont plus compréhensibles, mais fondamentalement j'ai l'impression de ne pas comprendre le rapport avec la physique, ou en tout cas avec ce qui est raconté dans les livres pour physiciens. Où est le dictionnaire entre ces deux points de vue ?

Il y a bien un certain Eberhard Zeidler qui avait commencé à écrire un livre monumental en N volumes censé faire un pont entre les maths et la physique, dont j'attendais beaucoup, j'ai acheté les deux ou trois premiers volumes, et j'ai fini par être très déçu : ça ressemble à un brain dump de tout ce que sait le Monsieur (il y a des bouts qui parlent de théorie de Galois, d'analyse non-standard, de groupes de tresses… le Monsieur est certainement cultivé, mais, qu'il s'agisse de choses que je connais déjà ou pas, je doute qu'il soit nécessaire, ni même tellement utile, d'exposer tout ça pour faire le pont entre matheux et physiciens en théorie quantique des champs).

Dans un genre très différent, il y a un Anthony Zee qui a écrit un livre intitulé Quantum Field Theory in a Nutshell, qui est rigolo à lire, et qui donne l'impression qu'on comprend tout quand on le lit, mais en fait, rétrospectivement, je me demande si ce n'est pas complètement une illusion, et dès qu'on repose le bouquin cette impression d'avoir tout compris se dissipe comme quand on se réveille d'un rêve où on pensait avoir trouvé la réponse à la Vie, l'Univers et Tout le reste.

Et le pire, avec mon incompréhension de la théorie quantique des champs, c'est que je ne sais pas décrire exactement ce que je ne comprends pas. Si j'avais une question précise à poser, je pourrais la poster sur physics.stackexchange.com ou essayer d'embêter des physiciens théoriciens jusqu'à ce qu'ils me répondent… mais ma sensation de floue est elle-même floue. (Il y a peut-être quelque chose de quantique là-dessous.) Je n'ai même pas vraiment l'impression que mon principal problème porte sur les fameux infinis qui apparaissent partout quand on essaie de faire de la théorie quantique des champs (et qu'on fait disparaître avec un tour de passe-passe appelé renormalisation) ; je ne suis pas non plus persuadé que ce soit à cause des intégrales de chemin (qu'on ne sait notoirement pas formaliser mathématiquement) que je suis tout perdu : je crois que je suis trop bête pour arriver à être embêté par ces problèmes « sophistiqués ».

Il y a quand même un ou deux points sur lesquels se concentrent mon incompréhension : (1) quel objet mathématique décrit l'état du monde, et quelle sorte de relation décrit son évolution, en théorie quantique des champs ?, et (2) en admettant qu'on dispose d'un ordinateur infiniment puissant, comment le programmerait-on pour calculer exactement (dans le cadre du modèle standard) l'évolution d'un système de particules ? (comment doit-on spécifier les entrées, quelles variables seront utilisées par le programme, et comment fera-t-il la simulation ?).

Ni les livres pour physiciens ni ceux pour matheux ne tentent de répondre à l'une ou l'autre de ces questions (ni me me disent clairement si quelqu'un a la réponse ou si le problème est obscur pour tout le monde) ; au mieux on apprend que la réponse à (1) est quelque chose comme un vecteur (de norme 1) dans un espace de Hilbert (d'accord, mais quand je demande quel vecteur dans quel espace de Hilbert précisément, je n'obtiens que de l'agitage de mains et peut-être le mot Wightman) ; et au mieux on n'obtient que des succédanés de (2) pour des processus très particuliers (des particules qui viennent de loin, qui interagissent, et qui repartent loin).

C'est frustrant, parce que pour d'autres théories physiques, j'ai l'impression d'avoir une vision assez claire des choses. Pour la mécanique newtonienne classique, la réponse à (1) est fournie par la position et la quantité de mouvement de toutes les particules du système, l'évolution étant décrite par des équations différentielles ordinaires [EDO] couplées, que je sais écrire, et ceci me fournit la réponse à (2). Pour la relativité générale ou la théorie classique des champs, la réponse à (1) est fournie par la valeur des champs (qui sont des fonctions sur l'espace-temps et à valeurs dans différents fibrés), l'évolution étant décrite par des équations aux dérivées partielles [EDP] (non-linéaires) couplées, et ceci me fournit là aussi la réponse à (2) ; par exemple, en relativité générale, il s'agit des équations d'Einstein, j'ai l'impression de les comprendre, je crois que je saurais les implémenter, peut-être pas de façon efficace mais de façon qui foncionne, si on me donnait un ordinateur suffisamment rapide. (Même s'il faut préciser qu'il y a des subtilités : formellement, les équations d'Einstein sont sous-déterminées à cause de la liberté de choix de jauge / système de coordonnées. Et il y a sans doute plein de problèmes numériques dont je n'ai aucune idée : mais au moins j'ai l'impression de comprendre quel est le problème auquel je suis confronté.) Je suis tout à fait prêt à ne pas faire mon matheux pinailleur et passer sous silence des problèmes par exemple concernant la régularité des fonctions en question ou le type de solution recherché dans les EDP.

Mais pour la théorie quantique des champs ? Aucune idée.

C'est frustrant, parce que je sais écrire ce qui s'appelle le Lagrangien du modèle standard, à partir de lui je sais tirer un système d'équations aux dérivées partielles faisant intervenir des fonctions φi(x) qui ont des noms comme le champ de l'électron, celui du quark haut, celui du Higgs, celui du photon, etc. Ça s'appelle la théorie classique des champs (disons, le modèle standard classique). Et ça, donc, j'ai l'impression de comprendre le sens que ça a mathématiquement (des EDP non-linéaires couplées, je n'aime pas trop, mais au moins je comprends la définition et l'idée générale). Mais je ne comprends pas à quoi ressemblent les solutions de ce « modèle standard classique » ni si elles ont une quelconque signification physique (ou pas du tout)[#].

[#] Enfin, côté bosonique, elles ont un certain sens puisque les équations de Maxwell en font partie ; côté fermionique, elles doivent décrire quelque chose comme le comportement d'un seul fermion. Mais je n'ai vraiment pas les idées claires.

[Cartoon by S. Harris]Et je comprends qu'ensuite, on est censé effectuer une « seconde quantification » et ainsi « remplacer les champs φi(x) par des opérateurs (linéaires)[#2] » sur un espace(?) de Fock(??) d'états(???) dont la définition est pour moi toujours claire comme du jus de chaussettes (tous les documents censés l'expliquer alignent des platitudes sur la construction des algèbres symétrique ou altérnée, puis a miracle occurs et on obtient l'espace de Fock). Je comprends qu'il y un truc appelé les axiomes de Wightman qui est censé aider à rendre la chose rigoureuse, mais quand je lis ces axiomes, ils sont terriblement banals, je ne comprends pas le rapport entre eux et tout le schmilblick du lagrangien, et je ne comprends même pas si les axiomes en question sont vraiment censés répondre à mon incompréhension (du genre qu'est-ce qu'on est en train de faire, là, au juste ? je n'y comprends rien de rien !) ou à une objection beaucoup plus pointue (du genre en fait, vos fonctions, ce sont des distributions, et du coup vos opérateurs ne peuvent pas être bornés ! — le genre de problème mathématique que je suis prêt à oublier pour le moment, le temps d'essayer de comprendre au moins vaguement quelque chose à toute l'histoire !).

[#2] Il y a quelque chose de très mystifiant dans toute l'histoire. On part de particules vérifiant les lois de Newton (qui ne sont pas linéaires dès qu'il y a des interactions) ; on invente la mécanique quantique (« première quantification »), et une équation comme celle de Schrödinger (ou de Klein-Gordon, ou de Dirac) qui est linéaire, et c'est un point essentiel pour pouvoir faire des superpositions quantiques que le truc soit linéaire ; puis on introduit des interactions entre les champs, qui détruisent la linéarité, mais on restaure la linéarité par cette « seconde quantification ». C'est vraiment incompréhensiblement bizarre, à mes yeux, que le comportement d'un champ quantique en un point d'espace-temps soit à peu près, par rapport à son homologue classique, comme le comportement d'un oscillateur harmonique quantique par rapport à son homologue classique… alors que c'est une oscillation dans une sorte d'espace interne qui n'a rien à voir avec les vrais oscillateurs. Je n'ai jamais trouvé d'explication variment claire sur le sens de toute la procédure (à part le monde est comme ça). Ni de comment on sait que les états de la seconde quantification ne vont pas eux-même se retrouver à interagir (est-ce qu'il y a des expériences qui testent la linéarité des superpositions de champs quantiques ? à quoi ressemblent-elles ?) et qu'il faurait alors introduire une troisième quantification pour restaurer de nouveau la linéarité, et pourquoi ça ne continuerait pas indéfiniment (voire, si on imagine des limites inductives de quantifications, transfiniment). [Cf. ce texte, ainsi que les réponses trouvées ici.] Quelqu'un (Edward Nelson, apparemment, mais je ne sais pas si c'est le même Edward Nelson que celui d'ici et ) a dit que the first quantization is a mystery but the second is a functor, mais je trouve ce foncteur vraiment bizarre et surtout l'idée même de faire deux fois « la même chose ».

Je crois avoir vaguement compris approximativement les choses suivantes, mais si c'est correct c'est vraiment parce que ma boule de cristal fonctionnait bien, parce qu'aucun livre que j'aie feuilleté n'est clair sur la question :

  • La théorie quantique des champs a ceci de spécial par rapport à d'autres théories physiques que pour décrire complètement ne serait-ce qu'un état possible de l'Univers (disons : le vide !), il faut les décrire tous. Autrement dit, ça n'a pas vraiment de sens de partir d'un état et d'étudier juste celui-là : il faut construire l'espace de tous les états possibles. En fait, ce qu'on veut vraiment construire, c'est la matrice de changement de base entre une base de l'espace des états (qui représente, disons, des configurations de particules à un certain moment) et une autre base (idem, à un autre moment).
  • La description de cet espace de tous les états possibles (si on veut, la description complète du vide !), ou plutôt de cette matrice de changement de base, passe par le calcul de « fonctions de Wightman » (ou « fonctions de corrélation du vide », je ne comprends pas bien la différence s'il y en a une) notées quelque chose comme ⟨0|φ1(x1)φ2(x2)⋯φr(xr)|0⟩ où chacun des φ1,…,φr parcourt tous les champs de la théorie et chacun de x1,…,xr parcourt tous les points d'espace-temps. (Il y a donc, pour chaque valeur de r∈ℕ et chaque choix de r champs, une fonction de 4r variables dans l'histoire. Bon, et par ailleurs ces fonctions sont, en fait, des distributions — peut-être même juste des hyperfonctions — mais ça, je répète que je suis prêt à ne pas embêter les physiciens avec.)
  • Je crois vaguement qu'il devrait être possible d'écrire complètement les équations aux dérivées partielles satisfaites par ces fonctions de Wightman / corrélation. Ces EDP devraient même avoir un rapport avec les équations de la théorie classique des champs (modèle standard classique) évoqué plus haut. Bref, on devrait pouvoir écrire un système infini d'équations aux dérivées partielles couplées les unes aux autres (en un nombre de variables qui varie d'une équation à l'autre !), et je crois que c'est essentiellement ce système qu'il faudrait fournir à un ordinateur infiniment rapide si on voulait simuler complètement l'Univers (la chose remarquable étant qu'on résout toujours le même système quel que soit l'état initial de l'Univers, parce que la solution du système fournit la description de toute l'évolution de n'importe quel état). Mais l'ensemble de ce point demeure particulièrement obscur pour moi.
  • En admettant qu'on sache résoudre ce système d'équations (ce qui présuppose qu'il ait une solution, ce qui n'est pas clair, mais ce n'est pas le genre de choses qui me préoccupe à présent), on peut en déduire une description complète de l'espace de Hilbert des états possibles de l'Univers : essentiellement, une description des états doit être donnée par quelque chose qui ressemble à des superpositions continues des φ1(x1)φ2(x2)⋯φr(xr)|0⟩ où les xi sont en des points non causalement liés (i.e., non situés dans le cône de lumière les uns des autres), ce qui font que les φi(xi) commutent ; la connaissance des fonctions de Wightman / corrélation permet de réexprimer cet état selon d'autres bases, par exemple la base avec la même chose pour d'autres points d'espace-temps (ce qui revient à calculer une évolution de l'état dans le temps). (Ce point peut-être un rapport avec ce machin, mais c'est un peu un jet aléatoire de la part de ma boule de cristal, là.)

Si ce que j'ai compris est correct, c'est un peu un miracle, parce que vraiment, personne ne prend la peine de dire ce que je viens de dire. Notamment, je n'ai vu nulle part l'affirmation si on savait résoudre un système infini d'EDP couplées [et plus précisément, le système suivant : <…>], alors on saurait décrire complètement l'évolution n'importe quelle de n'importe quel état vers n'importe quel état de l'Univers. Affirmation qui, je répète, n'est peut-être pas juste parce que je n'ai Rien Compris®, mais ça donne une idée du genre d'explication que je voudrais trouver dans un livre. Et si par miracle j'ai bien compris, alors je trouve que la description de ce système d'EDP (même si elles n'ont aucun intérêt pour faire des vrais calculs en physique) est pédagogiquement cruciale, y compris son rapport avec les équations « classiques », et le passage exact de l'un à l'autre. Et si ce qui précède est tout faux et que j'ai tout mal compris, il est quand même anormal que les livres ne prennent pas la peine, quand ils évoquent les fonctions de Wightman (ce qui est d'ailleurs scandaleusement rare) ou les fonctions de corrélation du vide (ce qui est peut-être, ou peut-être pas, la même chose) de dire quelque chose comme on ne sait pas dire grand-chose sur ces fonctions ; on ne sait pas les écrire comme solutions d'EDP (parce qu'on pourrait naturellement le croire vu que c'est normalement le genre de choses qu'on attend de la physique).

On trouve vaguement des affirmations çà et là disant qu'on ne sait pas construire rigoureusement de théories non-triviales vérifiant les axiomes de Wightman, mais impossible pour moi de comprendre si c'est parce qu'on ne sait pas calculer les fonctions de Wightman pour ces théories (le rapport entre les axiomes et les fonctions de Wightman n'est déjà pas clair pour moi), si c'est parce qu'on ne sait pas prouver qu'elles existent, si c'est parce qu'on ne sait même pas écrire quelles équations ou conditions elles devraient vérifier, ou encore autre chose.

Bon, bref, je ne m'étends pas sur les fonctions de Wightman, parce que peut-être que ce n'est même pas ça qui répondrait à ma confusion complète sur tout le schmilblick.

Peut-être que je devrais plutôt essayer de comprendre les versions discrètes de la théorie quantique des champs. (Version discrète, c'est-à-dire, où on remplace l'espace, et peut-être aussi le temps, par un réseau euclidien ou minkowskien discret, ce qui élimine toutes sortes de problèmes d'infinis et je crois que des gens savent alors — même si moi je ne sais pas — lui donner un sens mathématique complètement rigoureux. Et on peut vaguement imaginer le sens qu'il y a ensuite à passer à une limite continue ou à espérer qu'il y en a une ; même si, de ce que je comprends, on pense que cette limite n'existe pas, ou est triviale, dans le cas de l'électrodynamique quantique, et dans le cas de la chromodynamique quantique, on pense qu'elle existe, mais c'est un problème à 1M$ de le prouver.) Par exemple, les gens qui font des calculs de chromodynamique quantique sur des réseaux, au moins ils font des calculs qu'ils mettent vraiment dans un ordinateur, donc il doit y avoir du code et des descriptions d'algorithmes utilisés, et ça peut commencer à vaguement répondre à ma question (2), même si j'ai peur que ça laisse la (1) en plan. (J'avais lu des livres sur le sujet, notamment celui d'Andrei Smilga — j'imagine que c'est un parent d'un des lecteurs de ce blog — et sur le moment je m'étais dit que j'avais compris, mais rétrospectivement je n'en suis plus si sûr.)

Ou peut-être que je devrais essayer de comprendre ce qu'est la LQG (gravitation quantique à boucles), qui [ajout :] combinée au modèle standard est une theory of everything, pas du tout confirmée par l'expérience, mais dont je crois comprendre qu'elle a un sens mathématique rigoureux (et basé sur l'idée que l'espace-temps est, au moins dans un certain sens, discret à très petite échelle) et qui peut, du coup, si on l'accepte, rendre rigoureuse la théorie quantique des champs. (Mais bon, peut-être que mon incompréhension sur la théorie quantique est tellement basique que ce n'est pas en cherchant des choses comme ça que je vais la résoudre. [Et puis ce n'est même pas certain que ça constitue une théorie bien-définie : cf. ce fil Twitter.])

Bref, voilà. Pour ne pas que cette entrée soit un pur étalage de je n'y comprends décidément rien, et pour qu'elle puisse éventuellement servir à d'autres, voici une tentative de bilbiographie, dans laquelle je rassemble (à partir de notes que je me suis gribouillées), avec un tout petit commentaire, quelques livres que j'ai feuilletés ou simplement envisagé de feuilleter et qui me semblaient possiblement prometteurs :

  • Livres pour physiciens (ou étudiants en physique) :
    • Matthew Schwartz, Quantum Field Theory and the Standard Model (2014) : si je me déguise en physicien, je le trouve vraiment très bon (je pense que c'est le plus clair que j'aie trouvé sur le sujet en étant passablement complet), mais comme les suivants que je vais lister, il ne répond vraiment pas à me interrogations de matheux.
    • Anthony Zee, Quantum Field Theory in a Nutshell (2e éd. 2010) : comme je le dis plus haut, rigolo à lire (plutôt dans le genre survol), il donne l'impression qu'on comprend tout quand on le lit, mais en fait, rétrospectivement, je me demande si ce n'est pas complètement une illusion.
    • Robert Klauber, Student Friendly Quantum Field Theory (2013) : comme les deux premiers mots du titre le suggèrent, ce livre a visiblement été écrit pour permettre à des étudiants (américains) de valider leurs examens, et cette approche didactique avec des encadrés synthétiques bien clairs et des points à retenir peut être un peu agaçante mais finalement c'est quand même parfois bien pratique même quand on n'est plus étudiant.
    • Andrei Smilga, Digestible Quantum Field Theory (2017) : je n'ai pas eu le temps de regarder, mais la table des matières a l'air bien, le titre est rigolo, et j'avais bien aimé le livre du même auteur sur la chromodynamique quantique.
    • Tom Lancaster & Stephen Blundell, Quantum Field Theory for the Gifted Amateur (2014) : je n'ai pas non plus eu le temps de regarder, mais j'aime beaucoup le titre, qui me donne modestement l'impression que c'est un livre fait pour moi. ☺
    • Thomas Banks, Modern Quantum Field Theory: A Concise Introduction (2008) : je n'ai pas d'avis personnel sur ce livre, mais j'ai entendu dire qu'il était bien et que son traitement de la renormalisation, notamment, était particulièrement éclairant.
    • Michael Peskin & Daniel Schroeder, An Introduction to Quantum Field Theory (1995) : il paraît que c'est une référence standard, je n'en sais pas plus.
    • Steven Weinberg, The Quantum Theory of Fields (1995 pour le premier volume, 1996 pour le deuxième) : autre référence standard (je crois d'ailleurs que j'en ai cosigné avec mon père la recension pour Classical and Quantum Gravity quand il est sorti, c'était un prétexte pour récupérer le volume) ; du point de vue de la physique il couvre énormément de terrain (mais aprfois très sommairement), et on y apprend un certain nombre de choses qu'on ne doit trouver nulle part ailleurs (par exemple une réflexion très intéressante sur la renormalisation) ; mais c'est un peu l'opposé de ce que cherche un matheux qui veut un petit peu de rigor mortis.
    • La liste pourrait continuer longtemps, à tel point que pour s'y retrouver il faudrait un livre sur le champ des livres sur la théorie quantique des champs : il y a encore le livre de Claude Itzykson & Jean-Bernard Zuber (Quantum Field Theory, 1980), celui de Lewis Ryder (Quantum Field Theory, 2e éd. 1996), celui de David Bailin & Alexander Love (Introduction to Gauge Field Theory, 1993), celui de V. Parameswaran Nair (Quantum Field Theory: A Modern Perspective, 2005), celui de Mark Srednicki (Quantum Field Theory, 2007), et les je ne sais combien de livres de Walter Greiner et divers coauteurs (collectivement Theoretische Physik, comme le volume avec Joachim Reinhardt, Feldquantisierung, traduit en anglais comme Field Quantization).
    • …et c'est sans compter les livres sur le modèle standard, qui sont encore un peu autre chose mais qui recoupent pas mal les livres sur la théorie quantique des champs (et d'ailleurs j'en ai mentionnés certains plus haut) : donc je peux encore lister le livre de Cliff P. Burgess & Guy D. Moore( The Standard Model: A Primer, 2007), celui de Paul Langacker (The Standard Model and Beyond, 2010), celui de John F. Donoghue, Eugene Golowich & Barry R. Holstein (Dynamics of the Standard Model, 1992), ou même le livre dans lequel j'ai appris plein de choses quand j'étais petit, de Francis Halzen & Alan D. Martin (Quarks and Leptons: An Introductory Course in Modern Particle Physics, 1984). Ajout : je peux lister encore les livres de W. N. Cottingham & D. A. Greenwood (An Introduction to the Standard Model of Particle Physics, 2007) et, au niveau vulgarisation/historique, de Martinus Veltman (Facts and Mysteries in Elementary Particle Physics, 2003).
  • Livres pour matheux, ou censés faire un pont avec les maths, ou censés être plus rigoureux :
    • Edson de Faria & Welington de Melo, Mathematical Aspects of Quantum Field Theory (2010) : en tant que matheux, je trouve ce livre vraiment agréable à lire (au moins ce que j'en ai feuilleté pour l'instant), il présente les choses de façon agréable et surtout je pense que je comprends vraiment ce que je lis ; mais je crains un peu de me retrouver sur ma faim avec quelques axiomes et toujours sans le lien qui me manque avec ce que racontent les physiciens.
    • Gerald Folland, Quantum Field Theory: A Tourist Guide for Mathematicians (2008) : je l'avais feuilleté autrefois, mais je ne sais plus vraiment ce que j'en avais pensé ; mais au moins le titre semble correspondre assez bien à ce que je cherche.
    • Robin Ticciati, Quantum Field Theory for Mathematicians (1999) : peut-être que je confonds avec le précédent ; la table des matières semble intéressante, mais je ne suis pas vraiment persuadé qu'il réponde à mes interrogations.
    • Eberhard Zeidler, Quantum Field Theory: A Bridge Between Mathematicians and Physicists (au moins trois volumes entre 2006 et 2011, peut-être encore trois publiés plus tard) : comme je le dis plus haut, le titre est très prometteur, mais ce livre est un peu un brain dump dans lequel je peine à trouver quoi que ce soit.
    • Pierre Deligne, Pavel Etingof, Daniel Freed & al, Quantum Fields and Strings: A Course for Mathematicians (1999) : ce livre est un peu le pendant « matheux » de ce que je disais côté « physicien » à propos du livre de Weinberg : il y a plein de maths dedans, que j'ai généralement l'impression de comprendre, mais je ne comprends pas du tout le lien avec la physique.
    • Frédéric Paugam, Towards the Mathematics of Quantum Field Theory (An advanced course) (2014) : titre prometteur, mais je n'ai pas eu le temps de regarder ce qu'il contient.
    • John Baez, Irving Segal & Zhengfang Zhou, Introduction to Algebraic and Constructive Quantum Field Theory (1992) : même commentaire.
  • Autres livres possiblement à regarder, peut-être sur des sujets plus pointus, en vrac :
    • Franco Strocchi, An Introduction to Non-Perturbative Foundations of Quantum Field Theory (2013) : je n'ai pas eu le temps de regarder, mais je l'ai noté comme possiblement prometteur (à la fois pour développer un lien entre maths et physique et pour parler de l'aspect non-perturbatif, donc d'autre chose que de séries convergentes qui en fait ne convergent pas du tout ce qui n'aide pas vraiment à comprendre la théorie).
    • Николай Николаевич Боголюбов, Анатолий Алексеевич Логунов, Анатолий Иванович Оксак & Иван Тодорович Тодоров [Nikolaj Bogolûbov, Anatolij Logunov, Anatolij Oksak & Ivan Todorov], Общие принципы квантовой теории поля (1987), traduit en anglais comme General Principles of Quantum Field Theory (1990) : un peu le même commentaire que le livre de Strocchi, avec en plus que celui-ci a l'air quand même assez indigeste (mais, on l'espère, du coup, plus complet).
    • Rudolf Haag, Local Quantum Physics: Fields, Particles, Algebras (2e éd. 1996) : aussi possiblement prometteur.
    • Carlo Rovelli & Francesca Vidotto, Covariant Loop Quantum Gravity: An elementary introduction to Quantum Gravity and Spinfoam Theory (2014 ; disponible en ligne) : probablement un bon point de départ pour apprendre ce que c'est que cette histoire de LQG.
    • Robert Wald, Quantum Field Theory in Curved Spacetime and Black Hole Thermodynamics (1994) : qu'on me signale en commentaire.

Il va de soi que je n'ai pas le temps de lire, ni même de feuilleter, tout ça. Si quelqu'un arrive à comprendre ce que je ne comprends pas (ce qui serait déjà mieux que je n'arrive à faire moi-même) et a des conseils, je suis preneur !

↑Entry #2545 [older| permalink|newer] / ↑Entrée #2545 [précédente| permalien|suivante] ↑

↓Entry #2544 [older| permalink|newer] / ↓Entrée #2544 [précédente| permalien|suivante] ↓

(jeudi)

J'ai peur de la fin du monde

Un lieu commun repris dans toutes sortes d'œuvres de fiction représente une sorte de gourou qui tient une pancarte disant la fin du monde est proche ! repentez-vous ! (je crois même avoir vu quelque chose de la sorte dans la vraie vie, mais c'était peut-être un faux souvenir). Le gourou en question est évidemment un illuminé. Je vais maintenant tenir des propos semblables (sauf le repentez-vous), et j'aimerais bien qu'on m'explique que je suis un crackpot et que mes inquiétudes sont, sinon infondées, du moins exagérées.

J'ai déjà exposé des idées de ce genre ici il y a longtemps (et dans une certaine mesure ici), mais il y a un certain plaisir à radoter exprès de temps en temps, et je vais développer bien plus que je ne l'avais fait autrefois. Désolé si ce n'est pas très drôle à lire, et si ça part un peu dans tous les sens. (Désolé aussi si c'est confus, mais comme je redis plein de fois la même chose, peut-être que la N-ième répétition sera la plus claire.) Et si vous trouvez que c'est du pur délire, je répète : tant mieux, et racontez-moi vos contre-arguments — il est évident qu'en la matière je préfère avoir tort qu'avoir raison.

J'ai été traumatisé (je suis obligé de divulgâcher, et je ne vois pas comment l'éviter, parce que dès que je dis le titre du livre, en rapport avec le sujet de cette entrée, c'est chose faite, mais bon, il y a plus dans le livre que je vais nommer que le petit peu que j'en révèle) par la lecture du roman Nightfall d'Isaac Asimov et Robert Silverberg (en fait, c'est une nouvelle d'Asimov que Silverberg a étendue en roman, mais peu importe qui a fait quoi au juste). Pour ceux qui veulent un divulgâchis sérieux (les autres, sautez la fin de ce paragraphe), je raconte un peu de quoi il est question. Cela se passe sur une planète très semblable à la Terre mais dont la surface est éclairée en permanence par plusieurs soleils : à cause de ça, les habitants cette planète ne connaissent pas le concept de « nuit » (ni d'« étoiles »), et ont une peur absolument panique du noir. Mais une fois tous les 2000 ans, lors d'un des moments où il n'y a qu'un soleil dans le ciel (d'une partie de la planète, je suppose — je ne me souviens plus si on apprend qu'un seul hémisphère est habité ou quelque chose comme ça), il se produit une éclipse qui obscurcit ce dernier soleil, provoque la nuit, et révèle les étoiles. Bien sûr, personne n'est au courant de ce fait (ni même de l'existence du satellite capable d'obscurcir le dernier soleil). Le livre commence par montrer en parallèle un groupe de scientifiques qui découvre une perturbation anormale dans le mouvement de la planète (qui va les conduire à déduire l'existence du satellite et de l'éclipse périodique) ; un autre groupe qui mène des fouilles archéologiques et découvre une civilisation plus ancienne que tout ce qui était connu et qui a été détruite par une sorte d'incendie cataclysmique il y a 2000 ans, puis une civilisation encore plus ancienne qui a subi le même sort, et plusieurs autres couches de ce genre, avec une sorte d'apocalypse tous les 2000 ans ; et enfin, un groupe d'illuminés religieux qui prophétisent que la fin du monde est proche. Je ne donne pas plus de détails, mais on devine qu'il y a un Gros Problème.

Un autre livre dont j'ai entendu parler (plutôt en bien), mais cette fois je ne l'ai pas lu et je ne compte pas le lire parce que je n'ai pas besoin qu'on remue mes phobies plus que ça, c'est Lights Out de David Crawford, qui, de ce que je comprends, est l'histoire d'une coupure d'électricité massive et de la difficulté à redémarrer le réseau électrique et de la difficulté à survivre quand il n'y a plus de courant et que tant de choses qu'on tient pour acquises en dépendent. (Voir aussi le petit texte d'Albert-László Barabási intitulé We're All On The Grid Together en bas de cette page, texte que j'ai déjà signalé dans une entrée précédente liée ci-dessus.)

De quoi est-ce que je veux parler au juste ? Quand j'évoque l'apocalypse, ce n'est certainement pas la fin de l'Univers (pour ça, voyez ceci ou, en plus précis, ici, mais ça ne m'empêche vraiment pas de dormir), ni même de la Terre, ni même de la vie sur Terre, peut-être même pas de la vie humaine, ni qu'un titan de l'espace rassemble sur son gantelet les Six Pierres Magiques Qui Rendent Omnipotent et claque des doigts, mais simplement l'effondrement de notre civilisation[#]. Bêtement, je me suis assez attaché à cette civilisation, malgré tous ses défauts et toutes ses bêtises, pour être assez contrarié à l'idée qu'elle s'effondre. Et aussi, le cliché usé du monde post-apocalyptique m'agace déjà assez prodigieusement dans sa présentation stéréotypée au cinéma, je n'ai vraiment pas envie de le vivre en vrai, merci.

[#] Une citation célèbre attribuée à Mohandas Gandhi, malheureusement apocryphe (mais absolument géniale qui qu'en soit l'auteur), veut qu'un journaliste ait demandé à Gandhi ce qu'il pensait de la civilisation occidentale, et il aurait répondu I think it would be a good idea.

Je peux imaginer toutes sortes de choses desquelles m'inquiéter : une nouvelle guerre mondiale (éventuellement nucléaire), des phénomènes climatiques extrême provoquant des émeutes de la faim, un effondrement complet du système économique dû à une crise boursière sans raison identifiable, une attaque Denial of Service provoquant un arrêt complet d'Internet et l'effondrement de toutes sortes de systèmes vitaux, une éjection de masse coronale du soleil qui grille tous les satellites et énormément de transformateurs sur Terre, une « intelligence » artificielle ayant un comportement délirant, l'élection de Donald Trump à la présidence des États-Unis (ah, tiens, ça c'est déjà fait), que sais-je encore. Mais en fait, ce n'est aucun de ces points précis qui m'inquiète particulièrement. Ou peut-être qu'ils m'inquiètent comme on est inquiet d'une étincelle quand on vit à côté d'un tas de barils de poudre, mais fondamentalement, ce sont les tas de barils de poudre qui sont problématiques.

Les phénomènes naturels qui à eux seuls peuvent provoquer l'extinction de l'Humanité ou de toute vie sur Terre (comme un sursaut gamma dirigé dans notre direction, une supernova de Betelgeuse dont on aurait sous-estimé les conséquences, ou tout bêtement l'impact d'un astéroïde classé de niveau 10 sur l'échelle de Turin) sont tous assez peu vraisemblables ; même les phénomènes qui sans forcément provoquer l'extinction de toute l'Humanité seraient capables d'en tuer une proportion très importante (une pandémie, l'éruption d'un sypervolcan) ne me semblent pas vraiment les plus menaçants. Ce qui m'inquiète vraiment, c'est l'instabilité que j'ai l'impression que notre civilisation globalisée a installée autour d'elle-même comme autant de barils de poudre qui font qu'une étincelle beaucoup plus modeste peut suffire à la faire exploser.

Ce qui m'inquiète, donc, ce n'est pas une cause précise de fin du monde, c'est l'idée générale que notre civilisation n'est pas très stable au sens « résistante aux perturbations ». Et globalemnet parlant, j'ai tendance à décrire cette instabilité[#2] que je crois percevoir comme due à une tendance à empiler les dépendances en recherchant l'efficacité aux dépens de la résilience. Je vais essayer de m'expliquer.

[#2] Il va de soi que, ici comme ailleurs, quand je dis instabilité, je veux en fait parler de métastabilité. La société ne peut pas être un équilibre véritablement instable, le fait qu'elle résiste au moins aux petites perturbations (et qu'elle ait tenu un temps non-infinitésimal) le prouve : donc le terme technique correct est celui d'équilibre métastable. Mais c'est ce qu'on appelle communément un cas d'instabilité (manque de stabilité absolue), et je commettrai cet abus de langage usuel.

Je suis loin d'être un luddite, mais le principal facteur d'instabilité que je vois est la dépendance en la technologie. Et je ne parle pas forcément de technologies très sophistiquées comme la crainte d'effets d'intelligences artificielles hors de contrôle (encore moins malicieuses). Je parle plutôt de l'attitude consistant, quand on a développé une nouvelle technologie, à tout passer par elle parce que c'est plus simple et plus efficace ; quitte à faire peut-être une étude sur les taux d'échecs moyens de cette technologie, mais sans se demander quels sont les grandes déviations dans cette statistique.

Un exemple concret : le courant électrique. L'Humanité a vécu pendant des millénaires sans courant électrique : donc en soi, on n'a évidemment pas besoin du courant. Mais tout le mode de vie et même de survie d'une énorme proportion de l'Humanité est maintenant organisé autour du principe qu'elle dispose du courant électrique, peut-être pas en permanence, peut-être pas de manière totalement fiable (on dispose par exemple d'onduleurs ou de groupes électrogènes dans les hôpitaux et autres systèmes critiques en cas de dysfonctionnement temporaire du réseau électrique), mais néanmoins qu'il ne sera pas absent pendant des semaines ou des mois d'affilée. Si cette hypothèse vient en défaut, il me semble évident que les conséquences peuvent être extrêmement graves : après avoir développé la technologie « courant électrique », l'Humanité s'est créé une dépendance à cette technologie : on n'est pas juste ramenés à fonctionner sans courant électrique comme on pouvait le faire avant que la disponibilité de celui-ci, parce que toute l'organisation qui permettait de le faire a été perdue ou oubliée (plutôt que gardée comme solution de secours).

Honnêtement, je ne sais pas quelles seraient les conséquences si, disons, toute l'Europe était privée d'électricité pendant un an. Mais j'ai un peu du mal à imaginer comment une ville comme Paris pourrait ne pas mourir très rapidement de faim (et même de soif, cf. ci-dessous), et comment les morts pourraient ne pas se compter en dizaines de millions. Pire encore, j'ai peur que l'arrêt complet du réseau électrique n'entraîne très rapidement une cascade d'échecs et de faillites de tous les sous-systèmes constituant la société si bien que ça deviendrait tout simplement impossible de la redémarrer (aussi bien le réseau électrique que la société conçue comme un système dynamique).

On peut peut-être comparer la société à un organisme vivant dont le réseau électrique serait le cœur, ou quelque chose comme ça, mais j'ai une vision plus informaticienne : celle de la société comme un système d'exploitation mal conçu sur lequel tournent toutes sortes de services (démons) qui dépendent les uns les autres de façon compliquée : si l'un d'entre eux cesse de fonctionner, j'imagine que les autres cessent aussi rapidement, et, surtout, qu'il n'y ait aucune procédure pour les « relancer », une telle procédure étant impossible à cause des dépendances cycliques : les services qui tournent actuellement sont des mises à jours de versions antérieures qui sont elles-mêmes des mises à jours de versions encore antérieures, etc., et plus personne ne sait effectuer un bootstrap. Même dans les cas d'échecs de seulement quelques sous-systèmes (disons le gouvernement), il a l'air très difficile de redémarrer l'ensemble, je m'inquiète de ce que donnerait un échec beaucoup plus profond.

Bien sûr, il est possible que des gens très malins aient réfléchi au problème, aient prévu des scénarios très précis de quoi faire si l'Europe venait à être privée de courant pendant des semaines, des mois ou des années, et aient trouvé moyen que ça ne cause pas particulièrement de morts. Si c'est le cas, je veux bien qu'on m'explique ces scénarios (et qu'on me traite de crackpot), parce que je suis passablement sceptique.

Bien sûr aussi, je ne me prononce pas spécialement quant à la probabilité de l'étincelle « coupure de courant généralisée à l'échelle du continent durant plus que quelques heures/jours ». Je comprends bien sûr que les réseaux électriques sont conçus avec une certaine recherche de la redondance et de la robustesse. Mais le problème avec les études statistiques sur la robustesse, c'est qu'il est très difficile d'évaluer les grandes déviations (qui, par définition, sont très rares). Je n'ai pas la compétence technique pour juger ni la plausibilité ni l'impact réel d'un événement comme une éjection de masse coronale massive (et ses effets destructeurs sur les transformateurs de courant — en même temps d'ailleurs que les satellites — sur la moitié de la Terre), une attaque par impulsion électromagnétique (explosion d'une bombe atomique à haute altitude), ou une attaque informatique sur les logiciels de contrôle. Mais à la limite, ce n'est pas la nature ou la probabilité précises de l'étincelle qui me concernent, c'est l'idée générale.

Je crois que c'est plus ou moins ça la théorie du cygne noir de N. N. Taleb : ça n'a pas vraiment d'intérêt de s'intéresser à un scénario très précis (même si j'espère qu'on fait tout le nécessaire pour protéger le réseau électrique contre les éjections de masse coronales d'ampleur multimillénaire, les impulsions électromagnétiques provoquées par l'équivalent de l'explosion d'une Tsar bomba, et — ce qui est certainement plus compliqué — la capture informatique totale de plusieurs ordinateurs le contrôlant), il y aura de toute façon un autre scénario auquel personne n'aura pensé (le cygne noir).

Le problème intrinsèque, ce sont plutôt les dépendances. L'hypothèse « le réseau électrique existe et fonctionne en permanence », par exemple.

Je donne un exemple de dépendance : le réseau de distribution de l'eau potable est antérieur au réseau électrique. Certes, pas avec les standards actuels de qualité, de quantité et de pression, mais a priori il est possible d'avoir un réseau d'eau qui fonctionne au moins a minima sans courant électrique. Seulement, en pratique, je doute que ce soit le cas. Traditionnellement, la pression venait de châteaux d'eau. Maintenant, il me semble que les châteaux d'eau disparaissent et la pression d'eau au robinet est assurée par des pompes… électriques. Donc, pas d'électricité, pas d'eau courante. Les pompes ont peut-être des groupes électrogènes qui assurent leur fonctionnement même en cas de coupure de courant d'une certaine durée, et même sans pompe les réservoirs doivent maintenir un niveau de pression pendant un certain temps avant de se vider, mais je doute que ce soit très long. Fondamentalement, le réseau d'eau potable dépend du réseau électrique, on ne revient même pas au niveau pré-électrique si le courant est complètement coupé. C'est une des nombreuses dépendances entre sous-systèmes.

Je me trompe peut-être complètement sur cet exemple précis (je n'arrive pas vraiment à trouver de documentation fiable), mais même s'il n'est pas factuellement correct, ce n'est qu'un exemple du genre de problème que je veux évoquer : on fait dépendre un système d'un autre, parce que c'est plus efficace (d'utiliser des pompes que de construire des châteaux d'eau), on étudie sans doute la probabilité d'échec sur des statistiques, mais quelles hypothèses a-t-on fait sur les grandes déviations dans ces statistiques ?

De la même façon, il me semble qu'essentiellement tous les systèmes de communication, de nos jours, dépendent d'Internet. Il n'existe plus de « réseau téléphonique » indépendant. Il n'y a pas, et il n'y a jamais eu, de réseau complètement autonome pour les services d'urgence. Parce que ça coûterait trop cher à maintenir. Même au niveau de la boucle locale, le fil de cuivre jusqu'à la maison (qui portait d'ailleurs sa propre alimentation électrique) est en train de disparaître. Je ne suis même pas persuadé que la Poste (celle qui transporte des lettres physiques, je veux dire) puisse faire son travail sans Internet. Toutes ces dépendances existent parce que c'est plus efficace. Mais ce qu'on gagne en efficacité, on le paie en fiabilité : une attaque (Denial of Service distribuée) capable de faire tomber Internet ne ferait pas tomber qu'Internet, elle ferait tomber tous les réseaux de communication. Et c'est d'autant plus inquiétant qu'Internet est conçu selon une architecture best effort, qui le rend particulièrement flexible mais aussi particulièrement vulnérable à ce genre d'attaques, vulnérabilité qu'amplifie l'état désastreux de la sécurité informatique et notamment celle des systèmes embarqués (voir les commentaires de cette entrée) : Internet était conçu pour résister à une attaque nucléaire, pas à une attaque distribuée (d'ailleurs, je ne suis pas non plus persuadé qu'il résiste à une attaque nucléaire : son aspect décentralisé et ultra-redondant n'est probablement plus qu'un vœu pieux, que ce soit au niveau du routage ou du DNS).

Là aussi, je me trompe sans doute beaucoup sur les détails et peut-être pas que sur les détails (il est très difficile de trouver des tableaux d'ensemble des moyens de communication et de leur dépendance à Internet, surtout que celle-ci peut être cachée ; et même en étant raisonnablement bien informé sur l'architecture d'Internet, je n'ai qu'une idée très vague de sa robustesse), mais on comprend l'idée générale : dans un souci d'efficacité, on a mis sur le même système (Internet) des choses hautement critiques et des milliards de caméras ou de frigos « intelligents » dont la sécurité est épouvantable et qui sont autant de points de relais possibles pour une attaque distribuée. Ça me donne froid dans le dos.

Il est évident qu'Internet dépend du réseau électrique. Ce qui m'inquiète un peu est que la dépendance soit circulaire. Les gens ne sont pas complètement cons non plus, donc ce n'est pas le cas au niveau le plus basique : il y a des moyens de communication spécialisés pour la gestion du réseau électrique, comme des fibres optiques le long des câbles électriques (qui servent entre autres à transmettre Internet, mais j'imagine quand même qu'on a la bonne idée d'en dédier un bout, à très bas niveau, à la gestion du réseau lui-même). Mais si on imagine des problèmes de très grande envergure (énormément de transformateurs et de centrales hors service en même temps), dépassant largement la maintenance basique, comment communiquer avec les personnes capables de résoudre les problèmes, quand tous les réseaux de communication sont coupés ? Et si Internet cesse de fonctionner pendant des jours, des semaines ou des mois, combien de temps le réseau électrique peut-il rester en fonctionnement quand il devient extrêmement difficile d'assurer son entretien faute de possibilité de communiquer ?

Bref, je me demande si le simple arrêt d'Internet pendant quelques jours (diffile d'évaluer la durée critique, évidemment !) ne suffirait pas à déclencher les échecs en cascade que j'évoque plus haut. Et là ce n'est pas tellement du niveau du délire que d'envisager cette hypothèse : ça s'est essentiellement déjà produit en 1988 (évidemment, la taille d'Internet était beaucoup plus modeste à l'époque, mais les moyens d'attaque étaient aussi plus modestes — il n'est pas clair que l'Internet des objets mal sécurisés ne rende pas les attaques à grande échelle beaucoup plus faciles maintenant qu'elles ne l'étaient en 1988).

Mes craintes de dépendances en cascade et d'instabilité sont les mêmes dans le domaine de l'économie, donc je n'ai pas vraiment l'impression que ce soit un modèle de stabilité ou de prévision raisonnée des grandes déviations. En fait, je crois même comprendre que c'est essentiellement le fait de ne pas avoir pris en compte les grandes déviations et/ou d'avoir imaginé que des événements étaient indépendants alors qu'ils ne l'étaient pas qui a causé la crise de 2008. Ces crises sont exactement le genre de choses dont je parle : un déclencheur insignifiant, peut-être même impossible à identifier, se répercute en prenant de l'ampleur et finit par atteindre des proportions telles que la civilisation tout entière en ressent les effets. Et suite à la crise, il était très difficile de « redémarrer » l'économie, de bootstrapper la confiance en celle-ci, bref, de revenir à l'état antérieur.

Cette histoire de redémarrer les sous-systèmes est peut-être la plus importante, et elle est très bien illustrée par la fin du roman Nightfall. Une fois qu'on a une civilisation en ruine, même si aucun cataclysme n'a eu lieu et que tous les éléments matériels d'une civilisation qui fonctionne sont présents, pourtant, ils ne marchent plus ; de même qu'un organisme mort a tous les éléments nécessaires à la vie et pourtant, le système dynamique est cassé, et c'est drôlement compliqué de le « redémarrer ». Si tous les ordinateurs s'arrêtaient de fonctionner, par exemple, et même si le savoir demeurait, reconstruire un ordinateur serait très difficile (parce qu'actuellement, la fabrication des ordinateurs dépend d'autres ordinateurs).

Je pourrais multiplier les exemples ou les domaines d'illustration, mais ce n'est pas très intéressant. Mes inquiétudes sont essentiellement :

  • que la société est construite sur des dépendances complexes, et souvent circulaires, entre sous-systèmes (ou le terme délibérément vague de sous-système désigne quelque chose comme le réseau électrique, Internet, le réseau de transports, l'approvisionnement en nourriture, les services publics, l'économie réelle, le système bancaire, l'état de droit, que sais-je encore),
  • que la technologie et la recherche de l'efficacité ont tendance à rendre ces dépendances encore plus aiguës et à empêcher de revenir à un fonctionnement a minima antérieur à la technologie en question,
  • que plus la technologie est récente, plus son instabilité est potentiellement grande et plus il est déraisonnable d'en faire dépendre l'existence même de la civilisation — mais on le fait quand même,
  • que de même, la globalisation a distribué les dépendances géographiquement, si bien qu'un effondrement dans une région du monde peut se propager à la planète entière,
  • que certains sous-systèmes sont connectés par des mécanismes tellement rapides qu'aucun humain ne peut réagir à temps, en cas d'échec ou comportement aberrant, avant que la faute ne se propage,
  • que personne n'a de vue claire sur l'ensemble de ces dépendances ou n'est capable de prévoir les faillites en cascade qui pourraient se propager entre sous-systèmes,
  • que personne n'a non plus de vue claire sur les grandes déviations pouvant causer la faillite d'un sous-système (ni même sur l'ensemble des scénarios l'amenant),
  • qu'une fois qu'un sous-système ou un ensemble de sous-systèmes tombent, les dépendances font qu'il devient d'autant plus probable qu'ils en entraînent rapidement d'autres,
  • que les dépendances font aussi qu'il est difficile de « redémarrer » les sous-systèmes qui sont tombés, surtout s'il y en a plus d'un (et d'autant plus difficile s'il faut courir contre la montre avant qu'encore d'autres sous-systèmes ne tombent),
  • que l'effondrement en cascade de tous les sous-systèmes constitue une forme d'apocalypse, i.e., la fin de notre civilisation.

Évidemment, tout ça ne montre pas que la civilisation est instable, seulement qu'elle l'est « possiblement », mais cela suggère tout de même qu'elle l'est de plus en plus, et que donc même les signes incertains du passé (tel ou tel événement n'a pas causé d'effondrement complet de la civilisation — qu'il s'agisse de la Peste noire ou de la crise financière de l'année YYYY) ne nous informent pas tant que ça sur la stabilité pour l'avenir. Je vais revenir sur la difficulté d'estimer les probabilités.

Tout cela s'additionne à d'autres inquiétudes relatives à des risques plus classiques (qu'on peut qualifier de known unknowns par opposition aux unknown unknowns que sont les cygnes noirs) : changement climatique catastrophique et guerre nucléaire, par exemple. Et quand je dis s'additionne, ce ne sont pas deux choses indépendantes qui s'ajoutent : les effets du changement climatique sont non seulement directs, mais aussi représentent des causes supplémentaires d'instabilité ; et la menace nucléaire (qui n'est pas du tout passée malgré la fin de la guerre froide) est aussi un facteur évident d'instabilité de tout l'empilement géopolitique instable. Il en va de même, à leur échelle, de tous les conflits sociaux ou sociopolitiques. Je pourrais évoquer, encore, le terrorisme, non pas pour ses effets directs (qui sont insignifiants) mais pour ses effets psychologiques (la prétendue guerre contre le terrorisme, à la différence du terrorisme, n'est pas quelque chose d'insignifiant, et peut constituer une cause d'instabilité de la société dans son ensemble), mais cf. ce que je vais dire à l'instant à propos de politique.

Parlant de politique, donc, certains seront naturellement tentés d'interpréter tout ce qui précède selon leur grille de lecture préférée, par exemple c'est évident que le capitalisme, avec sa recherche à tout prix du profit, est la cause de toutes ces instabilités ou au contraire c'est la réglementation étatique qui crée des dépendances en empêchant le développement de systèmes distribués plus robustes, ou évidemment des versions plus moralisatrices comme c'est la faute de notre cupidité ou c'est parce que nous ne nous rendons pas compte de l'importance fondamentale de la société ou de l'état de droit. Il y a une forme de mauvaise foi courante de l'esprit humain qui fait que quand il y a quelque chose qu'on n'aime pas on a envie de mettre tout ce qu'on peut sur son dos (les jours raccourcissent ! c'est forcément la faute de <telle opinion politique que je déteste>), et je n'y échappe certainement pas (cf. aussi ce que je disais ici) ; donc je suis obligé de me dire que je suis probablement de mauvaise foi quand j'analyse, au paragraphe précédent, que la lutte contre le terrorisme est une cause d'instabilité. Et je ne parle pas que de politique : les geeks auront tendance à faire des raisonnements du même genre à base de c'est parce qu'on ne fait pas The Right Thing en développant <ceci-cela> : je ne dis pas qu'il n'y a pas une part de vérité dans cette accusation (Internet des objets mal sécurisé, I'm looking at you) ou les autres, mais je crois que c'est un peu rater le tableau d'ensemble. Idem pour ceux qui accuseraient la technologie, que je pointe du doigt mais qui est un peu un hareng rouge dans le problème lui-même.

Ce qui est terrible, en fait, c'est qu'il n'y a peut-être pas de morale dans l'histoire. Autant les catastrophes écologiques et les menaces de guerre mondiale peuvent être considéré comme des dangers « moraux » parce qu'ils viennent en quelque sorte sanctionner notre manque de respect de notre environnement ou notre bellicisme, autant l'instabilité générale n'a pas vraiment de morale collective ou individuelle. Je ne peux pas imaginer de préconisation sur comment nous comporter, collectivement ou individuellement, pour décroître ces risques. Peut-être que l'instabilité est une caractéristique inhérente à toute forme de civilisation, que l'instabilité extrême caractérise toute civilisation avancée, qu'il n'y a rien à y faire, et peut-être même que c'est la réponse au paradoxe de Fermi. Je dois évoquer la trop célèbre phrase de James Branch Cabell dans The Silver Stallion : The optimist proclaims that we live in the best of all possible worlds; and the pessimist fears this is true.

De même, s'il y a des optimistes(?) qui se disent que peut-être que notre civilisation va en effet s'effondrer mais que ce n'est pas si grave parce qu'il y en aura une autre qui prendra sa place et qu'elle sera forcément(??) meilleure(???), je suis juste tenté de prendre ma tête dans mes mains. Souhaiter la fin de la civilisation dans l'idée que quelque chose de mieux émerge est un peu comparable à se suicider en se disant qu'on va se réincarner en quelque chose de mieux.

Il est concevable que l'effondrement de la civilisation globalisée ne soit pas la fin de l'espèce humaine. Même si les techniques très artificielles développées par notre civilisation permettent seules de maintenir en vie (pour le meilleur ou pour le pire…) un nombre aussi énorme d'individus de l'espèce, il est possible qu'un petit nombre survive néanmoins à sa disparition. Je suis un peu sceptique, parce que notre civilisation laisserait derrière elle, en s'effondrant, un certain nombre de scories auxquelles n'avaient pas à faire face les chasseurs-cueilleurs d'avant le début de la civilisation en question (à commencer par, justement, des milliards d'affamés prêts à tout). Mais à la limite, c'est quelque chose que je ne trouve pas très intéressant : dans la mesure où je me projette dans l'avenir au-delà de ma propre mort, ce n'est pas dans la survie de l'espèce humaine, laquelle ne m'intéresse que parce qu'elle est porteuse des valeurs dans lesquelles j'ai été éduqué. I.e., la survie de l'Humanité en tant que patrimoine génétique (qui n'est que le fruit du hasard et de la nécessité, et dont je ne suis que le récipiendaire fortuit) ne m'intéresse que très peu. Ce qui m'intéresse éventuellement, c'est la survie de l'Humanité en tant que patrimoine « mémétique » : sa mémoire, ses découvertes et ses réussites intellectuelles et culturelles (patrimoine auquel j'ai modestement, à mon échelle, contribué) : or c'est justement un peu ça le cœur de ce que j'entends par « civilisation » (ou disons, la bonne idée qui la sous-tend, cf. la citation qui-n'est-pas-de-Gandhi ci-dessus). Si j'imagine, suite à une apocalypse, que les hommes biologiques redeviennent des chasseurs-cueilleurs mais que, demain, les chiens développent une forme d'intelligence comparable à la nôtre et redécouvrent et prolongent notre patrimoine, je dirai : ce sont eux nos successeurs, pas les Homo sapiens biologiques mais les Homo faber qui se projettent au-delà de la biologie (et qui peut-être, ainsi, causent leur perte, et peut-être que c'est inévitable).

Il y a des gens qu'on appelle les survivalistes ou preppers parce qu'ils se préparent à une possible apocalypse en mettant en place les moyens qu'ils estiment propres à assurer leur survie personnelle (ou celle de leurs proches, voire celle de tous les gens du coin comme ce gentil gourou canadien). Typiquement en construisant des bunkers capables de résister à des attaques atomiques et en y entreposant des quantités énormes de nourriture. Est-ce que je suis un prepper ? Non, tout le contraire, en fait : si la civilisation s'effondre complètement, je ne veux pas faire partie des survivants, je veux être le premier à mourir, parce que, outre que j'ai déjà dit plus haut que je détestais le « post-apocalyptique », je suis un produit de cette civilisation, je n'ai de sens qu'en son sein, je suis incapable d'une autre forme de vie, et je serais de toute façon inutile pour assurer la survie de l'espèce humaine (en fait, je serais bien trop occupé à chouiner que nous avons tout perdu et que c'est trop horrible et que le monde n'a plus aucun sens).

Si (si !) je devais vraiment préparer l'apocalypse, ce serait en essayant de sauvegarder la mémoire de l'Humanité sur un support extrêmement durable (comme peut-être celui-ci ?), en essayant de faire autant de copies que possible de Wikipédia et du projet Gutenberg et de choses de ce genre, et en les disposant à des endroits stratégiques pour qu'elles puissent être trouvées par les éventuelles générations ultérieures (humaines ou, cf. ci-dessus, canines). Et peut-être en essayant de placer, sur d'autres supports (ayant moins de capacité mais plus faciles à décoder) des pierres de Rosette ou autres miettes de pain destinées à aider un éventuel bootstrap jusqu'à la capacité à lire ces documents principaux (imaginez graver quelque chose un peu comme ceci dans la pierre, mais à destination de l'avenir et pas d'extra-terrestres). Bref, à défaut de préserver la civilisation, en essayant de préserver l'information[#3].

[#3] Quelqu'un (qui a trop lu Fahrenheit 451 ?) me suggérait à ce propos que, pour protéger une partie du patrimoine mémétique de l'humanité, il serait raisonnable d'essayer (personnellement) de rester en vie, parce que mon cerveau en contient une petite partie. L'idée est gentille mais, à part en étant déraisonnablement optimiste, le temps qu'il faut pour arriver, en partant de zéro, à un niveau de civilisation où ce que j'ai dans le cerveau puisse être vaguement utile, est considérablement supérieur à ce qui me reste d'espérance de vie. Le cerveau humain n'est pas une forme très pérenne de stockage de l'information, sauf à avoir une civilisation raisonnablement bien développée pour assurer la transmission des savoirs.

Bon, tout ceci étant dit, est-ce que ça m'inquiète vraiment ?

Honnêtement, je n'en sais rien.

Il est vraiment trop difficile de faire quoi que ce soit qui ressemble à un calcul de probabilités dans l'affaire. J'ai beau être mathématicien, je ne suis pas Hari Seldon — je n'ai pas de psychohistoire à ma disposition pour prévoir l'avenir de l'Humanité jusqu'à et après l'effondrement de la civilisation, ni même la probabilité de tels événements. Faut-il tabler sur 10−5/an (une apocalypse tous les cent mille ans) ? 10−4/an (une apocalypse tous les dix mille ans) ? 10−3/an (une apocalypse tous les mille ans) ? 10−2/an (notre civilisation n'aurait qu'un siècle d'espérance de vie à ce régime) ? 10−1/an (à peine une décennie) ? Je n'en sais évidemment rien.

J'ai l'intuition que cette probabilité n'est pas négligeable même compte tenu de ma propre espérance de vie (qui n'est pas gigantesque[#4]). On peut vaguement justifier cette intuition par des raisonnements de type argument de l'apocalypse (le nombre de personnes actuellement vivant sur Terre n'est pas négligeable devant le nombre de personnes nées dans toute l'histoire de l'Humanité donc la probabilité d'extinction de l'Humanité pendant la durée de vie de l'un d'entre eux n'est pas négligeable !), qu'on peut éventuellement décliner technologie par technologie (par exemple : le temps — ou, ce qui serait encore plus inquiétant, le nombre de bits échangés — de toute l'histoire d'Internet est probablement comparable à ce qui s'est déjà passé, et si on suppose que la civilisation s'effondre si Internet s'effondre, c'est assez inquiétant), mais il est bien connu que les arguments de l'apocalypse ne convainquent personne (comme le dit Randall Munroe, Almost everyone who hears this argument immediately sees something wrong with it. The problem is, everyone thinks it's wrong for a different reason. And the more they study it, the more they tend to change their minds about what that reason is.).

[#4] Pourquoi est-ce que ce genre de réflexions me fait penser à ce comic et surtout à son title-text [= le texte qui s'affiche quand on laisse le curseur de souris sur l'image] ?

Peut-être que ce qui augmente d'autant mes inquiétudes, c'est que quand j'ai évoqué tous ces arguments à des gens dont j'estime l'intelligence, ils ne m'ont pas dit tu es un crackpot ! mais des choses comme je partage ton analyse et tes craintes ou ça rejoint certaines réflexions que je m'étais faites.

Il y a certainement une part d'instinctif dans l'histoire. Si je dois de toute façon mourir personnellement, le fait que ce soit concomitant à l'effondrement de la civilisation devrait m'être un peu indifférent… et pourtant…

Your despair is pretense. Your fear is not the broad overwhelming that adheres to the destruction of an ideal, but the puny seeping fear of personal destruction.

Il y a quelque chose que je trouve particulièrement terrifiant dans l'idée d(e survivre dans) un monde post-apocalyptique, en plus de la perte de tout espoir pour l'avenir : c'est le retour des barrières géographiques que nous croyons avoir abolies. Actuellement, non seulement j'ai tout le savoir du monde au bout de mes doigts, mais, sur un plan plus personnel, je peux communiquer instantanément avec les proches. Si tous les systèmes de communication s'effondrent, si on n'a plus comme moyen de locomotion que ses pieds (peut-être un vélo si on a de la chance), les distances deviennent soudainement gigantesques, et je trouve particulièrement horrible l'idée de ne pas pouvoir savoir ce qui serait arrivé à mes proches et ce qu'ils deviendraient.

Alors pour que ce soit dit maintenant que les moyens de communication existent encore : si jamais l'apocalypse survient de votre vivant et que vous vous souvenez de cette entrée de blog : je vous aime tous, bonne chance, et que la mémoire de l'Humanité soit avec vous !

Ajout () : J'apprends l'existence du néologisme collapsologie en rapport avec le sujet de cette entrée (voir aussi ce fil Twitter).

↑Entry #2544 [older| permalink|newer] / ↑Entrée #2544 [précédente| permalien|suivante] ↑

↓Entry #2543 [older| permalink|newer] / ↓Entrée #2543 [précédente| permalien|suivante] ↓

(mercredi)

J'aimerais bien comprendre d'où viennent tous ces PDF cassés

(Attention, râlerie !)

Tout le monde utilise le format PDF. Sur le principe, c'est une bonne idée : un format standardisé de documents sous forme vectorielle, c'est exactement ce dont on a besoin pour échanger des documents pré-formatés et prêts à être imprimés. Sauf qu'en fait, comme souvent dans le monde de l'informatique, il y a un truc qui est censé être un standard, et il y a, en fait, mille et une façons de l'interpréter, mille et une façons dont un document peut être rendu, et mille et une petites crottes de ragondin qui viennent tout compliquer. J'imprime mes PDF typiquement avec les programmes evince, xpdf ou okular, je suppose que, Unix étant Unix, les documents sont convertis douze fois en PostScript et de nouveau en PDF à travers les entrailles incompréhensibles de GhostScript, de CUPS, du système d'impression centralisé mis en place à Télécom ParisPloum, et enfin du photocopieur multifonction qui sert d'imprimante dans mon couloir (et qui accepte certainement les PDF directement, mais ce serait trop simple si on pouvait juste les lui envoyer !).

Par exemple, dès que j'imprime une page contenant de la transparence, comme le format PDF supporte la transparence mais pas le format PostScript (et je ne comprends pas pourquoi on n'a pas juste décidé en fait, si, les mécanismes de transparence de PDF sont rétroactivement déclarés valables en PostScript, ce qui aurait tout simplifié), quelque part dans ces entrailles incompréhensibles, un programme décide que hum, je ne peux pas fabriquer un PostScript avec de la transparence, ce n'est pas possible !, rasterisons ça en image bitmap à la place, et la page sort à l'impression complètement différente du reste du document, et beaucoup plus moche. (J'aimerais bien trouver comment lui dire bordel, produis un PostScript contenant de la transparence, ou passe par le format PDF tout du long puisque l'imprimante le supporte, ou à la limite, démerde-toi pour que la rasterisation produise un résultat parfaitement indiscernable à l'œil nu si elle est fait à ton niveau ou plus bas dans la chaîne, mais en tout cas, arrange-toi pour que les pages ayant de la transparence dans le PDF ne s'impriment pas différemment des autres ! ; mais ce n'est pas tellement ça l'objet de ma râlerie aujourd'hui.)

Parfois mes documents s'impriment à l'envers ou sont agrafés au mauvais endroit ou autre bug bizarre : pendant longtemps, tous les documents PDF que je récupérais de l'arXiv étaient imprimés avec la première page à l'envers (et juste la première page), certainement à cause du numéro que l'arXiv appose sur le côté de la première page, mais je ne comprends pas le rapport exact de cause à effet ; à un autre moment, tous les PDF que j'imprimais recto-verso n'étaient recto-verso qu'à partir de la page 2, la page 1 s'imprimant toujours seule sur une page (et du coup, la parité des pages était cassée). Bref, toutes sortes de bugs incompréhensibles, que j'ai tendance à mettre sur le dos du format PDF.

Mais parmi ces bugs, il y en a un que je rencontre particulièrement souvent. Il semble apparaître sur des PDF issus de vieilles versions de TeX, ou de vieilles sources, ou quelque chose de ce goût. J'en ai un exemple avec cet article (cliquez sur PDF dans la colonne download à droite). Selon l'outil que j'utilise pour lire ce PDF, soit c'est très lent, soit c'est très moche, soit il me crache des bordées d'injures. Notamment, xpdf, quand je lis un tel PDF, affiche des quantités énormes de lignes Syntax Warning: Bad bounding box in Type 3 glyph, ce qui donne une petite idée de ce qui se passe (les polices de Type 3 sont les polices PostScript/PDF les plus générales, celles qui peuvent contenir n'importe quelles commandes PostScript, et je suppose qu'elles sont générées par pdfTeX ou je ne sais lequel des mille et un mécanismes de conversion d'un fichier TeX en PDF — parce que ce serait Trop Facile s'il y en avait un seul — lorsque la police n'existe pas au format vectoriel compatible PDF et qu'il faut faire appel à Metafont pour générer des polices bitmap ; et une bounding box incorrecte doit signifier que la police déclare des métriques qui sont incompatibles avec ce qu'elle contient réellement ; mais ce que tout ça ne m'explique pas, c'est comment on s'est retrouvé à produire des polices Type 3 ayant une bounding box incorrecte ni, a fortiori, comment réparer ce problème).

Et un des symptômes de ce phénomène de fichiers PDF bizarrement cassés, c'est que parfois, quand on les manipule, tous les signes moins disparaissent. Par exemple, si je prends le PDF que j'ai donné ci-dessus comme exemple, et que je le passe par pdftocairo -pdf (qui est censé transformer un PDF en un PDF absolument identique, mais parfois ça aide à nettoyer des problèmes périphériques au format PDF), à la page 2, vers le milieu de la 4e ligne du dernier paragraphe, où on est censée lire the first i−1 induction steps, le texte devient the first i 1 induction steps (le signe moins disparaît complètement, quoi).

J'aimerais bien comprendre comment une merde de ce genre est possible. Je devine que le problème est lié au fait que la bounding box du signe moins est très peu haute, peut-être même de hauteur nulle (ce qui serait évidemment un bug en soi : aucun caractère visible ne peut avoir une boîte de taille nulle), mais ça ne m'explique pas comment ce problème est apparu pour commencer. Si le format PDF était bien foutu, ça devrait être possible de dire avec clarté soit que le fichier PDF distribué par l'arXiv est cassé (i.e., le programme qui l'a produit est cassé), soit que pdftocairo l'est, mais en tout cas que l'un d'entre eux doit être réparé. Mais je soupçonne que le format n'est pas assez bien défini pour qu'on puisse dire qui est coupable (et c'est peut-être « les deux »).

Je donne ici l'exemple de pdftocairo, on va me dire, je n'ai qu'à ne pas l'utiliser. Certes, mais il y a toutes sortes d'autres contextes où le même problème se produit. J'ai déjà entendu des histoires de matheux qui ont envoyé des articles à publier et quand le journal est sorti, tous les signes moins manquaient (sur le papier). Ce qui, s'agissant d'un article de maths, est un peu gênant ; et un peu mystérieux parce que ce n'était sans doute pas la première fois que le journal rencontrait un article produit par TeX. Le point commun entre tous les contextes « les signes moins disparaissent » est obscur (voir par exemple ce vieux fil de discussion comp.text.tex, qui n'a visiblement aucun rapport avec pdftocairo). On trouve un bug de ce genre (le même ?) rapporté contre evince dans ce bug-report, qui est censé avoir été corrigé dans Cairo, mais soit la correction n'a pas atteint la version 0.48.0 de pdftocairo que j'utilise, soit c'est encore autre chose (de toute façon, je doute que ce soit le même bug que celui signalé dans le fil comp.text.tex vieux de 17 ans, donc des variantes du même phénomène doivent réapparaître périodiquement).

Mise à jour () : En compilant un cairo récent (version 1.15.12) et un pdftocairo récent (poppler-0.67.0), le problème du signe moins qui disparaît ne se pose plus. (Comme je le dis en commentaire, c'est bien ma veine de tomber sur un bug vieux de vingt ans(?) et de découvrir qu'il est corrigé dans la version juste après celle que j'ai sur mon PC…) Ça ne m'empêche pas de penser que ce PDF est foireux (ou alors que les polices bitmap sont vraiment très mal gérées par tous les programmes que j'ai), ne serait-ce que compte tenu de la lenteur de l'affichage et de la laideur du résultat à l'écran : c'était peut-être un bug de pdftocairo de ne pas reproduire les caractères ayant une bounding box nulle, mais c'est aussi un bug du document si des caractères non vides ont une bounding box nulle.

Et surtout, j'aimerais bien savoir comment réparer ces PDF tout cassés : comment les transformer en des fichiers qui s'affichent à l'écran, avec tous les programmes que je suis susceptibles d'utiliser, de façon jolie et semblable à ce qui sortira effectivement de l'imprimante. (Dans certains cas, j'utilise pdftocairo à cet effet, mais comme je viens d'expliquer, là, ça ne marche pas.) Si c'est la bounding box qui pose problème, est-ce qu'il n'y a pas un outil pour recalculer la bounding box de tous les caractères du PDF, ou pour l'augmenter de 1 ou 2 points  ? (ou, si ça ne suffit pas, la rendre égale à la page tout entière, d'ailleurs). Si j'en juge par l'ancienneté de l'article de l'arXiv vers lequel j'ai fait un lien, ce problème existe depuis au moins 20 ans, c'est impressionnant qu'il continue à poser problème maintenant…

(Merci d'avoir fait semblant d'écouter ma râlerie et merci d'avance de vos témoignages de soutien et de compassion.)

↑Entry #2543 [older| permalink|newer] / ↑Entrée #2543 [précédente| permalien|suivante] ↑

↓Entry #2542 [older| permalink|newer] / ↓Entrée #2542 [précédente| permalien|suivante] ↓

(vendredi)

Vulgarisation de la physique des particules avec un peu d'algèbre linéaire

Bon anniversaire à moi ! 🎉🎂 Comme cadeau, vous pouvez lire le texte qui suit sur la physique des particules et faire semblant de l'avoir trouvé intéressant !

Je ne sais même pas pourquoi je parle de ça, moi. J'ai plein d'autres choses qui s'empilent dans la TODO-list (enfin, la TORANT-list) de ce blog, mais bon, ce truc m'est revenu à l'idée, voilà, voilà.

J'écrivais il n'y a pas longtemps à propos de la vulgarisation scientifique que ça me semble intéressant et important de faire de la semi-vulgarisation : de la vulgarisation qui s'adresse non pas au grand public mais à des gens qui ont déjà des connaissances préalables ou partielles dans tel ou tel domaine proche (ou préalable) de celui qu'on cherche à vulgariser, par exemple des scientifiques d'autres disciplines. Évidemment, cette idée est d'autant plus féconde qu'on peut trouver des connaissances intermédiaires relativement répandues et qui aident à bien mieux éclairer la cible qu'on cherche à expliquer.

Il y a un exemple qui, depuis longtemps, me semble particulièrement prometteur à cet égard, c'est celui de :

  • connaissance présupposée = de l'algèbre linéaire (au moins en dimension finie),
  • cible à expliquer = la théorie des particules (disons le modèle standard).

Ça n'a rien d'original. J'en ai d'ailleurs parlé à plusieurs reprises (voir notamment ici et ), ne serait-ce que pour dire que je ne suis pas la personne la mieux placée pour faire ça (cf. ici) ; et j'en avais même fait un petit bout à propos des neutrinos. Mais je peux être un peu plus précis sur ce dont il est question.

Il y a évidemment bien plus dans la mécanique quantique, ou a fortiori dans la théorie quantique des champs, que de l'algèbre linéaire ! Néanmoins, il me semble que beaucoup des phénomènes les plus contre-intuitifs de la mécanique quantique, et beaucoup des choses les plus difficiles à vulgariser auprès du grand public en physique des particules, deviennent immensément plus clairs dès qu'on introduit un petit peu d'algèbre linéaire. Or l'algèbre linéaire est quand même quelque chose de moins ésotérique, et sa compréhension est plus répandue, que les arcanes de la physique des particules : mais comme en même temps comprendre un peu la structure de l'Univers à très petite échelle intéresse beaucoup de gens, je pense qu'il y a matière à ce que l'approche soit féconde.

C'est ce que j'avais fait (enfin, essayé de faire) dans mon petit texte sur les oscillations des neutrinos, mais le principe général devrait pouvoir s'appliquer à d'autres morceaux du modèle standard. (Le modèle standard est la théorie qui décrit le tableau général de la physique des particules élémentaires et forces fondamentales connues, gravitation exclue, dans le cadre de la théorie quantique des champs.) Je veux dire, l'image qu'on donne du modèle standard si on cherche à la vulgariser auprès du grand public présente toutes sortes d'inexactitudes difficiles à corriger, juste en listant les particules élémentaires, notamment dans le secteur électrofaible ; alors que dès qu'on introduit un peu d'algèbre linéaire, il devrait être possible de dresser un portrait beaucoup plus fidèle de la théorie (y compris la brisure spontanée de la symétrie et le condensat de Higgs), sans aller jusqu'à en donner des équations (sans expliquer ce que sont un lagrangien et la renormalisation). Essentiellement, il s'agirait de rester globalement au niveau de la « première quantification » (= « théorie classique des champs », la terminologie est épouvantable), quitte à discuter plus tard des subtilités supplémentaires apportées au niveau de la théorie quantique des champs ; et de toute façon, même au niveau de la théorie classique des champs, se contenter de choses comme compter les dimensions et évoquer des changements de bases entre espaces de particules.

Mais, au risque de décevoir, ce n'est pas vraiment ce que je fais ici. Même si cette entrée est déjà très longue, je n'ai pas du tout la place d'y faire un portrait correct du modèle standard. (Si je pouvais persuader un vrai physicien de prendre les choses vraiment au sérieux, évidemment, ce serait parfait ; ou si on me dénichait un texte déjà écrit dans ce genre.) À défaut, ce que je peux faire, c'est donner, à travers des exemples (plus ou moins détaillés, et parfois juste esquissés), quelques pistes sur ce à quoi ressemblerait une telle vulgarisation.

Point de vue général

Le point de départ des explications c'est que ce qu'on appelle particule élémentaire est une vibration, une onde, dans un « champ quantique ». (On peut supposer que le lecteur, en plus de connaître un peu d'algèbre linéaire, a au moins une vague idée de ce que c'est qu'une onde et que ce n'est pas la peine de recourir à des comparaisons fatiguées à base d'ondes sur la surface de l'eau.) Le fait que ces champs soient, justement, quantiques (← « seconde quantification »), a pour implication le fait que ces vibrations viennent par quantités minimales, par « quanta », et c'est ce qu'on appelle une particule (dualité onde-corpuscule) ; mais ce n'est pas tellement ça le sujet de la vulgariation. Faisons comme si on avait affaire à des vibrations prenant leurs valeurs dans un « espace vibratoire »[#] (i.e., restons au niveau de la « première quantification »).

[#] Je ne trouve pas de terme générique pour désigner le ou les espaces vectoriels dans lesquels les différents champs de la théorie (classique ou quantique) des champs prennent leurs valeurs. Donc je sors de mon chapeau ce terme complètement pourri d'espace vibratoire.

La chose que je veux plutôt souligner, c'est que cet espace vibratoire est d'une certaine dimension, i.e., qu'il y a un certain nombre de dimensions dans lesquelles les champs quantiques peuvent vibrer. Naïvement, une dimension = une particule : l'électron est une vibration du champ électronique, c'est-à-dire une vibration dans la direction « champ électronique », le muon est une vibration du champ muonique, c'est-à-dire une vibration dans la direction « champ muonique », le photon est une vibration du champ électromagnétique, etc. Mais c'est là qu'on peut commencer à ajouter des complications intéressantes. D'abord, il n'y a pas une vibration « électron », il y en a plutôt quatre (en gros, l'électron de chiralité gauche, l'électron de chiralité droite, le positron [=anti-électron] de chiralité gauche et le positron de chiralité droite, je vais y revenir à l'exemple nº3) ; il n'y a pas une vibration « photon », il y en a plutôt deux (la lumière polarisée horizontalement et la lumière polarisée verticalement, les directions étant choisies arbitrairement, et on peut d'ailleurs préférer les polarisations circulaires). Mais surtout :

Le choix des dimensions dans lesquelles on considère les vibrations n'est pas évident : il n'y a pas vraiment de base naturelle de l'espace vibratoire (l'espace dans lequel les champs quantiques prennent leurs valeurs) ; ou parfois, il y a plusieurs bases naturelles différentes.

Plus précisément : beaucoup de phénomènes (comme la masse, ou les interactions entre les particules) vont être décrits par des opérateurs [=applications] linéaires (typiquement des matrices hermitiennes sur un espace hermitien mais peu importe à ce niveau de détails) diagonalisables dans une base orthonormée de l'espace vibratoire ; mais comme ces opérateurs ne commutent pas, la base qui en diagonalise un (qui n'est d'ailleurs généralement pas unique) n'est pas forcément celle qui en diagonalise un autre.

Ce qui signifie que ce qui se comporte comme une particule pour un phénomène, par exemple la masse (qui est en fait l'interaction avec le Higgs, mais peu importe pour le moment), ne se comporte pas comme une particule pour un autre phénomène, par exemple l'interaction faible, et vice versa.

En gros, il y a un opérateur « masse » qui, dans une certaine base, est diagonal avec pour valeurs diagonales (valeurs propres) : dans la dimension « électron » la masse de l'électron, dans la dimension « muon » la masse du muon, etc. ; donc si on veut définir la masse d'une particule, ça a un sens à condition de définir les particules comme des vibrations selon ces dimensions-là ; manque de chance, il y a un opérateur « interactions faibles » qui, lui, a envie d'une base différente. (Et la matrice de passage entre ces deux bases a un sens et peut être mesurée expérimentalement, cf. l'exemple nº2 ci-dessous.)

C'est essentiellement ce que j'avais essayé d'expliquer dans le cas des neutrinos, mais j'ai essayé de le dire, là, de façon plus générale, et je pense qu'une fois qu'on a compris cette idée générale (qui nécessite, donc, un peu d'algèbre linéaire : le fait de savoir ce qu'est une base, la non-unicité des bases, le fait qu'un opérateur hermitien se diagonalise en base orthonormée, ce genre de choses), on a une idée beaucoup plus précise de la physique des particules, ou en tout cas, on aurait la possibilité de lire une vulgarisation qui donne une image raisonnablement précise du modèle standard.

Je donne quelques exemples de ce qu'on peut expliquer comme phénomènes physiques en partant, grosso modo, de ce que j'ai souligné ci-dessus. Ces différents exemples sont assez banals (on les trouve dans tous les livres d'introduction à la physique des particules ou au modèle standard), mais ce que je veux surtout illustrer, c'est qu'on peut en parler sans trop écrire d'équations et en restant à un niveau intermédiaire entre la vulgarisation grand public et la description mathématique précise. (Je ne sais pas si mes explications sont très bonnes parce qu'il faudrait sans doute une entrée plus longue que celle-ci qui l'est déjà assez, mais j'espère au moins que cela convaincra que ça serait possible.) Je précise que les différents exemples qui suivent sont largement indépendants (même si le quatrième évoque des choses que j'ai dites dans les trois premiers) et que, au sein de chacun d'eux, j'essaye d'aller de plus en plus dans les détails. Mais auparavant, il faut que je fasse un tour d'horizon ultra-rapide des particules élémentaires.

[Tableau des particules élémentaires]

Panorama ultra-rapide préliminaire des particules élémentaires.

Il y a deux sortes de particules élémentaires : les fermions (« particules de matière ») et les bosons (« particules de force »).

Les fermions sont joliment arrangés en trois « générations » ou « familles » (la légère, la moyenne et la lourde), avec, dans chacune, des générations : deux particules appelées leptons (l'un portant la charge électrique −1, comme l'éléctron, et l'autre électriquement neutre, qu'on appelle un neutrino, et dont la masse est très faible), et deux (« saveurs » de) quarks (l'un ayant la charge −1/3 et l'autre la charge +2/3). Il y a donc six leptons et six (saveurs de) quarks ; pour les sortes de quarks, on utilise le terme saveur parce que les quarks ont aussi une couleur, mais je vais y revenir. Les quarks sont les constituants de particules non-élémentaires appelées hadrons (comme le proton et le neutron), au sein desquels ils sont liés par la force forte.

Les bosons sont responsables des forces fondamentales de la nature : c'est un abus de dire ça, mais je vais y revenir. En mettant de côté la gravitation (représentée par le symbole G dans le tableau ci-contre, mais qui est négligeable au niveau des particules élémentaires, et qui ne fait pas partie du modèle standard parce qu'on ne sait pas la rendre quantique), les forces fondamentales sont : la force forte ou chromodynamique (celle qui relie les quarks ensemble), la force faible et l'électromagnétisme qui sont en fait deux facettes d'une même force électrofaible, et vraiment à part, le Higgs. Les bosons responsables de la force forte s'appellent gluons (notés g ; il y a aussi des bosons non-élémentaires qui sont responsables de la force qui résulte de la force forte entre les hadrons — particules formées de quarks — mais je n'en parlerai pas du tout) ; les bosons responsables de la force faible sont le Z⁰ et le W⁺/W ; et les bosons responsables de l'électromagnétisme sont les photons (γ). Le Higgs est assez différent des autres, et j'y reviendrai dans mon exemple nº4. Dans la vie courante, nous ne voyons de façon vraiment évidente que les effets de l'électromagnétisme, parce que les quarks et les gluons sont « confinés » au sein des hadrons, ils ne peuvent jamais apparaître « nus », et parce que les bosons Z et W ont une masse importante (contrairement aux gluons et photons qui n'en ont pas), ce qui a pour effet de limiter leur effet à courte distance.

Bon, il est abusé de dire que les bosons sont responsables des forces : il faut un peu mieux expliquer ce point. Un boson comme le photon est une vibration dans un champ (vectoriel pour tous les bosons, sauf le Higgs qui est scalaire), et ce champ interagit avec les particules qui « sentent » la force en question (les particules chargées dans le cas du photon, les particules ayant de la « couleur » dans le cas du gluon, et en gros toutes les particules sauf le photon et le gluon dans le cas du Z, du W et du Higgs). Il est abusé de dire que deux charges électriques interagissent en s'envoyant des photons sous prétexte qu'elles interagissent via le champ électromagnétique, dont le photon est la vibration. Néanmoins, c'est souvent pratique de dire ça, à la fois parce que c'est imagé, et parce que c'est la manière dont on fait certains calculs de développement limités (approche « perturbative ») en dessinant des diagrammes dits « de Feynmann » qui représentent graphiquement des histoires de particules qui en absorbent ou en émettent d'autres. Comme compromis pour éviter de trop abuser, on dit parfois que deux particules chargées échangent des photons virtuels.

Le scénario naïf/simplifié/abusé/imagé, mais qu'il est quand même utile de garder en tête, par lequel deux particules chargées électriquement interagissent, donc, c'est que l'une émet un ou plusieurs photons (« virtuels »), que l'autre absorbe, et ceci produit une force entre les deux particules. (Précisons que ce scénario est tellement simplifié que ça n'a pas vraiment de se sens de se demander qui émet et qui reçoit les photons : fondamentalement, c'est symétrique.) Pour les interactions fortes entre particules « colorées », la même chose vaut en échangeant des gluons, mais avec la complication que les gluons sont eux-mêmes « colorés », donc (a) ils interagissent aussi entre eux (via d'autres gluons), et (b) un quark qui émet un gluon coloré va changer de couleur pour conserver la couleur dans l'histoire (p.ex., un quark rouge qui émet un gluon rouge-anti-vert devient vert) ; je vais revenir là-dessus dans mon exemple nº1 pour essayer de rendre ce tableau un tout petit peu moins faux. Pour les interactions faibles, il y a (1) celles par « courant neutre »[#2] qui se font en échangeant des bosons Z⁰, et qui ne sont pas très différentes de l'électromagnétisme sauf que la charge qui intervient est différente (les neutrinos participent au jeu, notamment) et que ce sont uniquement les particules « chirales gauches » qui les ressentent (je vais y revenir dans mon exemple nº3), et (2) celles par « courant chargé » qui se font en échangeant des bosons W⁺/W⁻, et qui changent la particule dans l'histoire (la version la plus naïve étant qu'un lepton négativement chargé qui émet un W⁻ ou absorbe un W⁺ se transforme en le neutrino correspondant, et qu'un quark de charge −1/3 qui émet un W⁻ ou absorbe un W⁺ se transforme en le quark de charge +2/3 correspondant ; je vais rendre ça un petit peu moins faux dans mon exemple nº2) ; signalons quand même que les interactions faibles par courant chargé sont responsables pour la désintégration du neutron : en gros, un quark « bas » du neutron émet un boson W⁻, se transforme en quark « haut », et le boson W⁻ se désintègre lui-même en électron + antineutrino (ce qui est un peu pareil que si un neutrino absorbait un W⁻ et se transformait en électron). En fait, l'électromagnétisme, les interactions faibles par courant neutre et celles par courant chargé sont des facettes d'une même « force électrofaible », mais pour la comprendre il faut évoquer le Higgs revenir aux premiers instants de la vie de l'Univers, ce sera l'objet de mon exemple nº4.

[#2] On peut dire que le courant chargé était connu depuis longtemps, mais la prédiction de l'existence du courant neutre, confirmée expérimentalement en 1973, est un des succès majeurs de la théorie Glashow-Salam-Weinberg des interactions faibles (qui fait maintenant partie du modèle standard), suivie par la découverte des bosons Z et W eux-mêmes (en tant que particules, donc) en 1983.

Exemple nº1 : la « couleur » des quarks et gluons (et la notion de symétrie de jauge).

Les quarks, ces particules qui ne peuvent pas exister seules et qui constituent entre autres les protons et les neutrons, ont une propriété appelée couleur à laquelle on attribue symboliquement les trois valeurs possibles rouge, vert et bleu (des labels complètement arbitraires et dont il n'est pas utile que je précise qu'ils n'ont rien à voir avec la couleur vue par l'œil humain). En fait, cela veut dire qu'il s'agit d'une vibration dans un espace de dimension 3. (Ou plutôt, 3 fois toutes les autres dimensions qui peuvent exister par ailleurs ! je crois compter 72 dimensions au total pour les vibrations « quarks » : 6 « saveurs » × 3 « couleurs » × 4 dimensions pour la chiralité et l'antiparticule. Mais oublions tout le reste et ne considérons pour le moment que la couleur.)

Mais cet espace de dimension 3 n'a pas de base naturelle : ce n'est pas juste que les labels rouge, vert et bleu sont arbitraires, mais il n'a même pas trois directions privilégiées. Il n'y a pas de notion de « quark rouge », de « quark vert » et de « quark bleu », comme si c'étaient trois particules bien définies : il y a juste trois dimensions, sans base naturelle, dans lesquelles le champ du quark peut vibrer. On peut effectuer des changements de base dans cet « espace interne » de vibrations du quark sans changer la physique : c'est-à-dire qu'il y a un groupe de symétries ; le groupe en question n'est pas tout à fait le groupe SO(3) des rotations en trois dimensions, parce que les espaces sont complexes (je ne vais pas vraiment essayer d'expliquer pourquoi) : le groupe naturel qui intervient est le groupe SU(3) des matrices unitaires 3×3 de déterminant 1 (il est de dimension 8) ; mais bon, au niveau de vague où je vais rester, ce n'est pas très important de quel groupe il s'agit exactement.

En fait, la symétrie est encore plus profonde que ce que je viens de dire : il n'y a pas juste symétrie globale de l'espace des couleurs, il y a ce qu'on appelle une « symétrie de jauge », et je voudrais essayer d'expliquer un minimum ce que ça veut dire.

Ce n'est pas juste que l'espace des couleurs du quark n'a pas de base naturelle (invariance globale) : il n'y a même pas de lien évident entre une base qu'on pourrait avoir choisie en un point de l'espace-temps et une base qu'on pourrait avoir choisie en un autre point de l'espace-temps ! Donc, si vous avez deux quarks à des endroits différents, ou même un seul quark à différents moments de son histoire, ce n'est même pas évident de dire s'ils ont ou pas la même couleur. Alors, pour être plus précis, si vous choisissez une base (« rouge », « vert », « bleu ») de l'espace des couleurs à un point donné de l'espace-temps, vous pouvez transporter cette base en un point voisin très proche, puis un autre point voisin, et ainsi de suite, et vous arrivez comme ça à transporter la base d'un point à un autre, mais le résultat peut dépendre du chemin suivi. On dit que l'espace interne des couleurs peut avoir une « courbure »[#3].

[#3] (Parce que la situation est exactement comme celle, sur un espace courbe, par exemple la surface d'une sphère, où vous pouvez choisir une direction [tangente] en un point, et déplacer cette direction de proche en proche en suivant un chemin pour l'amener à un autre point, mais le résultat dépend généralement du chemin suivi. Pour ceux qui savent ce que ça veut dire, mathématiquement, l'espace de couleur des quarks est un fibré sous SU(3) de fibre ℂ³, le champ chromodynamique, cf. ci-dessous, est une connexion sur ce fibré, mais cette connexion n'est pas plate.)

Les gluons, eux, sont des particules élémentaires (des bosons) que s'échangent les quarks pour interagir entre eux via la couleur : j'ai déjà expliqué plus haut que c'est abusé de dire ça mais qu'on le dit quand même ; en fait, les bosons sont les vibrations du champ chromodynamique qui force les quarks à rester ensemble. (Même ça est abusé, en fait : ce serait une description correcte en théorie classique des champs, mais le champ chromodynamique se comporte vraiment de façon essentiellement quantique, à tel point qu'il donne une structure compliquée au vide, et les gluons ne sont pas vraiment des vibrations non plus. Je ne peux pas en dire plus à part que c'est Compliqué®.)

Le champ chromodynamique n'est pas seulement celui qui permet aux particules « colorées » d'interagir, il est aussi celui qui « connecte » les espaces de couleurs entre des points différents : on peut choisir arbitrairement une base de l'espace de couleurs en chaque point, mais c'est le champ chromodynamique qui va permettre de transporter la base d'un point à un autre (selon un chemin quelconque). Et si on choisit une base de l'espace des couleurs en un point, et qu'on la transporte en un autre point selon deux chemins différents, disons dans l'espace, la différence entre les deux bases qu'on obtient de la sorte mesure essentiellement le « flux » du champ[#4] chromodynamique entre ces deux chemins (quelque chose d'analogue à la courbure d'espace dans le cas de la gravitation, mais aussi au flux magnétique dans le cas de l'électromagnétisme). Même si je ne peux pas faire mieux, au niveau où je me suis placé, que cette description désagréablement vague, c'est l'idée fondamentale de la notion de « symétrie de jauge ».

[#4] Bon, je suis quand même un peu emmerdé par le mot champ : pour ce qui est des bosons de jauge (photon, gluons et Z/W), il y a deux choses qu'on peut avoir envie d'appeler champ : d'une part (1) le potentiel vecteur (qui, mathématiquement, peut se voir comme une connexion sur le fibré dont il est la jauge), A dans le cas de l'électromagnétisme (y compris le potentiel électrique), et d'autre part (2) l'intensité de champ, qui est essentiellement une sorte de dérivée du précédent (mathématiquement, la courbure associée à la connexion en question), qui réunit, dans le cas électromagnétique, ce qu'on appelle classiquement le champ électrique et le champ magnétique. Je fais des phrases et des descriptions suffisamment vagues pour que cette différence ne soit le plus souvent pas vraiment importante (le (2) dérive du (1), et permet « plus ou moins » de le retrouver, à un « choix de jauge » près justement) ; je n'avais pas vraiment envie de préciser cette différence, mais ça m'embête quand même. Le problème terminologique vient du fait que le mot champ dans la théorie quantique des champs fait plutôt référence à l'objet le plus basique, donc (1) ; mais que classiquement, ce qu'on appelle champ électromagnétique, c'est le (2).

Les gluons, dans la description la plus naïve, ont une couleur et une anti-couleur : par exemple, il y a un gluon rouge-anti-vert (un quark rouge peut émettre un gluon rouge-anti-vert et devenir un quark vert ; tandis qu'un quark vert qui absorberait ce gluon rouge-anti-vert deviendrait rouge). Mais bon, justement, c'est naïf, parce qu'il y a huit glons, pas six ou neuf comme on se l'imaginerait en considérant les combinaisons couleur-anti-couleur (six si on pense que les deux couleurs doivent différer, neuf si on ne le pense pas). Pour l'anecdote personnelle, je me souviens que quand j'étais petit et que mon papa essayait de m'expliquer ces choses-là (dans l'espoir naïf de faire de moi un physicien, ha ha ha, je l'ai bien eu en devenant mathématicien[#5]), j'en étais arrivé à pleurer parce qu'il « refusait de me dire » pourquoi il y avait huit gluons et pas neuf, il me disait there's one missing, je lui demandais but which one, il disait the white one, je lui disais que dans ce cas ça devrait faire six, et il n'arrivait pas à m'expliquer correctement. Parce que je ne connaissais pas (assez) d'algèbre linéaire. Il aurait pu me dire : les huit gluons sont : (rouge-anti-vert + vert-anti-rouge)/√2, i·(rouge-anti-vert − vert-anti-rouge)/√2, (vert-anti-bleu + bleu-anti-vert)/√2, i·(vert-anti-bleu − bleu-anti-vert)/√2, (rouge-anti-bleu + bleu-anti-rouge)/√2, i·(rouge-anti-bleu − bleu-anti-rouge)/√2, (rouge-anti-rouge − vert-anti-vert)/√2 et enfin (rouge-anti-rouge + vert-anti-vert − 2·bleu-anti-bleu)/√6… mais je ne sais pas si une telle réponse m'aurait tellement Éclairé (et cette base, pour standard qu'elle est, n'en demeure pas moins assez arbitraire).

[#5] Mais il a quand même réussi à m'intéresser à toutes ces choses. À vrai dire, cette entrée est en partie un message écrit à l'intention du David-Madore-de-1992-ou-alentours, c'est la manière dont j'expliquerais à mon moi-plus-jeune un certain nombre de choses que je n'arrivais pas du tout à comprendre à l'époque (et que j'ai quand même fini par comprendre avec le temps).

Le fait est que les gluons sont des vibrations dans un espace de dimension 8 (enfin, 16 parce qu'ils ont deux polarisation, mais oublions ce facteur), que la base est absolument arbitraire, mais ce qui ne l'est pas, c'est la manière dont cet espace de dimension 8 « s'accouple » avec deux espaces de dimension 3 dans le cadre d'une interaction quark-gluon-quark (qui peut être un quark qui émet un gluon, un gluon qui se désintègre en quark-antiquark, ou une paire quark-antiquark qui se désintègre en un gluon ; tout ça est en fait fondamentalement la même chose). Je peux être plus précis : si on choisit une base de l'espace des couleurs faisant des modes vibratoires d'un quark des vecteurs à trois entrées, les l'espace des modes vibratoires des gluons seront les matrices 3×3 anti-hermitiennes (c'est-à-dire égales à l'opposé de la conjuguée complexe de leur transposée) de trace nulle (voyez ici pour une base, expliquant la liste des huit gluons que je viens de donner) ; le fait que les matrices 3×3 anti-hermitiennes correspondent aux éléments infinitésimalement voisins de l'identité dans SU(3) (l'algèbre de Lie tangente, pour être plus correct) est relié à cette idée que le champ gluonique effectue le changement de base, dans l'espace de couleurs, entre des points infinitésimalement voisins.

Bon, mon explication n'est toujours pas hyper terrible, j'ai caché plein de poussière sous le tapis, j'ai tu le fait qu'il y a des espaces complexes et d'autres réels dans l'histoire (disons que les gluons sont des vibrations dans un espace de dimension 8 réel ; les quarks dans un espace de dimension 3 complexe, donc il faudrait compter deux fois la dimension, mais il y a un deux absorbé ailleurs, par exemple dans le fait qu'il y a des antiparticules aussi : si je faisais la vulgarisation en détails j'essayerais d'être moins flou sur tout ça). Si on s'adresse à quelqu'un qui connaît un peu de théorie de la représentation, on peut bien sûr être encore plus précis et dire : la couleur des quarks vit dans la représentation standard de SU(3), la couleur des gluons vit dans la représentation adjointe de SU(3) (qui est le facteur direct non trivial dans le produit tensoriel de la représentation standard avec son dual). En tout cas, je pense que c'est déjà beaucoup mieux comprendre le phénomène de « couleur » que l'idée la plus naïve que j'ai d'abord exposée.

Objection : On pourrait me dire que ma présentation est pourrie parce que j'essaie directement de parler de théories de jauge sur le cas le plus compliqué, SU(3), au lieu de dire au préalable que l'électromagnétisme est une théorie de jauge U(1) (= groupe des nombres complexes de module 1), c'est-à-dire que les particules chargées sont des vibrations dans un espace vectoriel complexe dont la phase (= l'argument complexe) n'a pas de sens physique et même la manière dont la comparaison des phases entre deux points distincts de l'espace est assurée par l'électromagnétisme (et la dépendance de cette comparaison dans le chemin effectué dépend du flux du champ électromagnétique — flux magnétique s'il s'agit de deux chemins dans l'espace — entre les chemins comparés). En fait, autant je comprends qu'on commence par dire ça quand on s'adresse à des gens qui connaissent déjà la physique, autant je ne suis pas persuadé que ce soit très Éclairant en général, puisque, justement, ça ne correspond pas du tout à notre façon d'imaginer l'électromagnétisme que de penser que la charge électrique q est la représentation de U(1) par élévation à la puissance q sur un espace interne qu'on ne voit pas du tout et dont le potentiel électromagnétique est la connexion (personnellement, mathématiquement ça me parle, mais intuitivement je n'imagine pas du tout cet espace interne : encore moins, ce qui n'est pas peu dire, que l'espace des couleurs des quarks). Bon, peut-être qu'il y a une meilleure manière d'exposer les choses, mais je ne la vois pas. En tout cas, maintenant, c'est dit, si vous trouvez que ça vous Éclaire, relisez mon exemple de SU(3) à la lecture de cette précision sur l'électromagnétisme.

Exemple nº2 : la saveur des quarks et la matrice de Cabibbo-Kobayashi-Maskawa

(en fait, c'est exactement pareil que pour les neutrinos, mais vu un peu différemment). Oublions la couleur des quarks (qui concerne les interactions « fortes », médiées par les gluons) et concentrons-nous sur une de leurs autres caractéristiques, la « saveur ». Il y a six saveurs de quarks : bas, haut, étrange, charme, beau et vrai (de nos jours on dit plutôt bottom et top pour les deux derniers, mais ça ne passe pas en français, même en anglais ça induit une confusion avec les deux premiers qui sont down et up, et surtout, c'est beaucoup moins poétique, donc j'insiste pour utiliser beau et vrai).

Contrairement à la couleur, ces étiquettes ne sont pas arbitraires. Ce sont des dimensions naturelles, à savoir les vecteurs-propres de masse. Le quark vrai, par exemple, a une masse de 160GeV environ, le quark beau une masse de 4.2GeV environ, les autres sont plus légers encore[#6]. Ce sont aussi des valeurs propres de la charge électrique : la charge des quarks bas, étrange et beau vaut −1/3 (i.e., 1/3 fois celle de l'électron), celle des quarks haut, charme et vrai vaut +2/3 ; donc, si on oublie la masse, la charge électrique distingue deux sous-espaces vectoriels de dimension trois complémentaires dans l'espace des saveurs des quarks : l'espace bas⊕étrange⊕beau (espace propre de charge −1/3) et l'espace haut⊕charme⊕vrai (espace propre de charge +2/3).

[#6] Bon, il y a plein de subtilités là aussi : la notion de masse d'un quark n'est pas si évidente à définir, elle dépend du « schéma de renormalisation » utilisé, et la masse des quarks légers est très mal connue : essentiellement tout ça est dû au fait que les quarks ne peuvent pas exister seuls, en tout cas à basse énergie, et ce d'autant moins qu'ils sont légers où alors leur masse est noyée dans l'interaction avec les autres quarks. Mais en oubliant tous ces détails, les saveurs des quarks sont des valeurs propres de masse — c'est-à-dire en fait d'interaction avec le Higgs comme je le dirai dans dans mon exemple nº4.

Maintenant, les quarks interagissent avec toutes les forces fondamentales de la nature, et notamment avec les interactions dites faibles, médiée par les bosons Z⁰ (que je vais laisser de côté[#7]) et W⁺/W⁻. Présentation naïve : un quark charme (disons) peut émettre un W⁺ et devenir un quark étrange (remarquez que la charge se conserve dans l'histoire : le quark charme avait charge +2/3, le boson W⁺ charge +1 et on se retrouve avec charge −1/3), et plus généralement, un quark haut, resp. charme, resp. vrai, peut émettre un boson W⁺ et devenir un quark bas, resp. étrange, resp. beau (ça peut aussi fonctionner dans l'autre sens avec émission d'un boson W⁻, mais comme les quarks charme et vrai sont beaucoup plus lourds que les quarks étrange et beau, il est énergétiquement plus sensé de le dire comme je l'ai dit) ; ou encore, un boson W⁺ peut se désintégrer en paire quark + anti-quark de la forme haut-anti-bas, charme-anti-étrange, ou vrai-anti-beau, un boson W⁻ en paire bas-anti-haut, étrange-anti-charme, ou beau-anti-vrai. Tout ça n'est pas totalement faux, mais pas tout à fait correct non plus. Dans la vision que j'ai présentée, il y a trois « générations » de quarks (première génération : bas et haut ; deuxième génération : étrange et charme ; troisième génération : beau et vrai ; avec à chaque fois un quark négatif, de charge −1/3, et un positif, de charge +2/3), et l'émission d'un boson W⁺ permettrait de transformer le quark de charge +2/3 en quark de charge −1/3 de la même génération ; il y aurait conservation du nombre de quarks de chaque génération. Or ce n'est pas le cas.

[#7] Une raison de les laisser de côté est que les bosons Z⁰ ne changent pas la saveur des quarks (on pourrait tout à fait imaginer ça), qu'un quark, disons, charme, puisse interagir par courant neutre et devenir un quark, disons, haut (dans les deux cas la charge électrique vaut +2/3). Le modèle standard prédit que ça n'existe pas (sous-note en bas de page : au niveau « arbre » des diagrammes de Feynmann ; comme d'habitude, la renormalisation vient foutre en l'air toute la belle simplicité de l'histoire).

On peut améliorer la description naïve que je viens de faire (« l'émission d'un W⁺ transforme le quark de charge +2/3 d'une génération en quark de charge −1/3 de la même génération ») en disant que parfois il prend la fantaisie au quark qui émet un W⁺ de se transformer en quark d'une autre génération, par exemple à un quark charme qui émet un W⁺ de se transformer en quark bas (cela arrive dans environ un cas sur 20) plutôt qu'en étrange. Mais évidemment, ce n'est pas un « hasard », c'est une superposition quantique : quand un quark charme émet un W⁺, il se transforme en une superposition d'environ 0.225×bas + 0.973×étrange + 0.041×beau (la somme des carrés de ces coefficients doit faire 1) ; et si on observe la masse de cette « particule » (i.e., cette superposition de vecteurs propres de masse ; appelons-la un quark « interagit-avec-le-charme »), on trouve dans 0.225²=5% des cas qu'on a affaire à un quark bas, dans 0.041²=0.17% des cas qu'on a affaire à un quark beau, et dans le reste des cas qu'on a affaire à un quark étrange.

C'est-à-dire que bien que les interactions faibles préservent la somme directe de l'espace des saveurs des quarks en quarks négatifs (bas⊕étrange⊕beau) d'une part et (⊕) quarks positifs (haut⊕charme⊕vrai) d'autre part, en revanche, si je choisis la base (haut, charme, vrai) d'un côté, la base qui lui correspond de l'autre n'est pas (bas, étrange, beau), mais elle est légèrement tournée. La matrice de Cabibbo-Kobayashi-Maskawa est la matrice de passage entre les bases (bas, étrange, beau) et (interagit-avec-le-haut, interagit-avec-le-charme, interagit-avec-le-vrai). (Quand on ne connaissait que les deux premières générations, il y avait juste un angle de rotation dans l'histoire, l'angle de Cabibbo, d'environ 13° entre les bases orthonormées (bas, étrange) et (interagitt-avec-le-haut, interagit-avec-le-charme) ; maintenant qu'on connaît trois générations, c'est plus compliqué, c'est une matrice 3×3.) Ça rend le monde vraiment bizarre (c'est une rotation tellement… bizarrement arbitraire), mais c'est essentiel pour faire que les quarks étrange et beau ne soit pas stables (s'il n'y avait pas cette différence de vecteurs propres entre masse et interactions faibles, ils ne pourraient jamais se désintégrer en autre chose).

Je donne juste un exemple pour montrer que même sans rien connaître à la théorie quantique des champs on peut vaguement faire des calculs d'ordres de grandeurs. Considérons le méson D⁰, un hadron constitué d'un quark charme et d'un anti-quark anti-haut. Il n'y a que les interactions faibles qui peuvent changer la saveur des quarks, donc ce D⁰ ne peut se désintégrer que par interactions faibles, ce qui explique qu'il ait une durée de vie relativement longue (pour un hadron) d'environ 4×10−13s ; mais considérons comment il se désintègre le plus souvent : le quark charme émet un boson W⁺ et se transforme en quark interagit-avec-le-charme (donc une superposition du bas, de l'étrange et du beau) ; le W⁺ va lui-même se désintégrer typiquement en positrion et neutrino-de-l'électron ou en muon et neutrino-du-muon, mais peu importe : on va surtout se retrouver avec un méson étrange-anti-haut (appelé K⁻) ou bien bas-anti-haut (appelé π⁻) (le beau-anti-haut est interdit pour des raisons énergétiques : le quark beau est plus lourd que le quark charme), et d'après les chiffres que j'ai donnés plus haut, comme le quark interagit-avec-le-charme est à environ 5% un quark bas et à environ 95% un quark étrange, le bas-anti-haut devrait être environ 20 fois moins probable que l'étrange-anti-haut : je m'attends donc à ce que le D⁰ se désintègre environ 20 fois moins souvent en π⁻ + positron + neutrino qu'en K⁻ + positron + neutrino. Le Review of Particle Properties m'apprend que le D⁰ se désintègre dans 3.53% des cas en K⁻ + positron + neutrino, et dans 0.291% des cas en π⁻ + positron + neutrino, un rapport de 12 ; je trouve que ce n'est pas trop mal pour un calcul aussi simpliste.

Sous-exemple : la phase de Kobayashi-Maskawa.

Bon, les choses sont encore un petit peu plus compliquées que ce que j'ai dit. En fait l'espace des saveurs est un espace vectoriel complexe (de dimension complexe 3) ; et même si la « phase complexe » (c'est-à-dire la multiplication par un complexe de module 1) n'a aucune importance, ni même aucune signification physique dans la définition de la base (l'élément de base qu'est « quark haut » n'est défini qu'à une telle multiplication complexe près), le caractère complexe a quand même son importance. En effet, la matrice 3×3 de passage entre les bases n'est pas une matrice de rotation réelle (= élément de SO(3)) mais une matrice complexe unitaire (= élément de U(3), éventuellement SU(3) si on veut) ; il est vrai que les phases complexes de chacune des lignes ou colonnes sont arbitraires, c'est-à-dire qu'on peut les multiplier comme on veut par des complexes de module 1, mais en partant d'une matrice unitaire 3×3 (soit 8 paramètres réels indépendants), même en ayant la possibilité de multiplier chaque ligne et chaque colonne par un complexe de module 1 (ce qui tue 5 paramètres réels : un par ligne et un par colonne, mais en fait un de moins parce que multiplier toutes les lignes ou toutes les colonnes revient au même), il reste quand même un paramètre de plus que dans une matrice de rotation réelle 3×3 (laquelle a trois paramètres, les trois angles d'Euler), un paramètre qu'on ne peut pas absorber et qui a un sens physique. On dit que la matrice de Cabibbo-Kobayashi-Maskawa a trois angles et une phase complexe, appelée phase de Kobayashi-Maskawa ; bon, il y a plein de façons de paramétrer la matrice et je ne suis pas sûr que la phase de Kobayashi-Maskawa soit un paramètre défini de façon standard, mais en tout cas il y a bien quatre paramètres en tout qui ont un sens physique.

(Une façon de définir ce dernier paramètre s'appelle l'invariant de Jarlskog. Voir notamment cette question où je le définis et j'essaie de le comprendre plus mathématiquement. Notamment, si on sait ce que c'est que le plan projectif complexe, on peut s'imaginer qu'on a affaire à deux triangles dans le plan projectif complexe, le triangle bas-étrange-beau et le triangle haut-charme-vrai, chacun étant autopolaire, c'est-à-dire que les distances entre sommets sont toutes π/2 — ce qui rend d'ailleurs douteux l'usage du terme « triangle » —, et ce qu'on cherche à faire en écrivant une matrice unitaire modulo les phases complexes, c'est exprimer le passage de l'un à l'autre, donc l'invariant de Jarlskog devrait avoir une interprétation géométrique. Bon, je ne sais pas si ça aide de dire ça comme ça, en fait.)

Ce paramètre supplémentaire qu'est la phase de Kobayashi-Maskawa ou invariant de Jarlskog, et qui ne peut exister qu'à partir de 3 génerations de quarks (s'il y a deux générations, toute matrice unitaire 2×2 peut être rendue réelle orthogonale en multipliant ses lignes et ses colonnes par des complexes de module 1), a de vraies conséquences physiques : la violation de l'invariance CP. L'invariance P, ce serait l'idée que quand on regarde une expérience de physique dans un miroir, cela donne encore une expérience conforme aux lois de la physique : ce n'est pas le cas dans les interactions faibles, par exemple parce que la désintégration d'un neutron émet un antineutrino qui tourne toujours dans le sens de la main droite ; l'invariance C, ce serait l'idée que quand on remplace les particules par leurs antiparticules (et réciproquement), les lois de la physique sont également invariantes : ce n'est pas le cas non plus, parce que les antineutrons, eux, émettent des neutrinos qui tournent dans le sens de la main gauche. L'invariance CP, c'est l'idée que si on fait ces deux changements à la fois — regarder dans un miroir et échanger particules et antiparticules — alors les lois de la physique restent les mêmes ; et elle, elle est « beaucoup plus vraie » que l'invariance C ou l'invariance P séparément, mais elle n'est quand même pas vraie. Et la phase de Kobayashi-Maskawa est intimement liée à cette violation de l'invariance CP, en gros parce que quand on regarde le monde dans un miroir et qu'on échange particules et antiparticules, cela a pour effet de transformer en son opposée la phase en question, et que comme on peut la mesurer, l'invariance CP est brisée. Ce que devrait faire une vulgarisation correctement faite sur le sujet, c'est expliquer tout ça mieux que ce que je viens de faire, et faire le lien avec des expériences réelles qui infirment l'invariance CP ; notamment les fameuses observations sur les kaons (qui sont un bon endroit où parler d'algèbre linéaire : pour les interactions fortes il y a deux kaons neutres qui sont le bas-anti-étrange et l'étrange-anti-bas, et pour les interactions faibles il y a deux kaons neutres qui sont la somme et la différence de ces deux particules divisées par √2, appelés respectivement kaon neutre court et kaon neutre long ; et il y a des vecteurs propres CP qui sont encore un tout petit peu différents du kaon court et du kaon long ; l'article Wikipédia n'est pas mal, mais on doit pouvoir dire tout ça de façon plus accessible).

Pour en savoir plus sur la matrice de Cabibbo-Kobayashi-Maskawa et sa détermination expérimentale, voir ce review par le Particle Data Group ; et sur la violation CP associée, cette autre review (mais tout ça est assez technique).

Exemple nº3 : la chiralité et la masse.

Commençons par considérer une particule élémentaire qui n'a pas de masse, mais qui a un « spin » non nul (le spin étant cette propriété fondamentale qui est à la fois un moment cinétique intrinsèque et une forme de symétrie interne) ; alors, comme les escaliers et l'ADN, elle peut tourner dans l'un de deux sens : selon la main droite dans son sens de mouvement, ou selon la main gauche dans son sens de mouvement. (Enfin, « tourner », c'est un abus de langage, mais disons que cas leur moment cinétique est de même signe que celui d'une toupie qui tournerait comme ça. Des raisons de relativité font qu'il n'est pas possible de tourner dans une autre direction, par exemple perpendiculairement au mouvement — je ne rentre pas dans les détails.) Cette mesure du sens de rotation par rapport au sens du mouvement s'appelle l'hélicité, et pour une particule sans masse c'est synonyme de chiralité. Pour les photons, ce sont les deux formes classique de la polarisation circulaire de la lumière. Pour donner un autre exemple, en faisant l'approximation que les neutrinos n'ont pas de masse (ce qui est ce que suppose le modèle standard compris de façon traditionnel, mais on sait maintenant que c'est faux), les neutrinos qu'on observe (ceux qui nous viennent du soleil, disons) sont toujours d'hélicité gauche : ils tournent selon la main gauche dans le sens de leur mouvement. Bref, il y a deux chiralités possibles (même si on peut imaginer une particule sans masse, comme le neutrino du modèle standard traditionnel, qui n'aurait qu'une de ces chiralités), et, pour une particule sans masse, ces deux chiralités — ces deux modes de vibration — ne se mélangent pas, hors interactions éventuelles. Le point critique est que, pour une particule qui est de masse nulle, et qui va donc à la vitesse de la lumière, ça a bien un sens de considérer la rotation dans le sens du mouvement, parce que tout le monde est d'accord sur le sens du mouvement : on ne peut pas aller plus vite que la particule et ainsi la voir aller dans le sens contraire.

Pour une particule massive, qui va moins donc vite que la lumière, on peut toujours définir l'hélicité comme la composante du moment cinétique selon la direction du mouvement. L'hélicité se conserve dans le temps. Mais si on va plus vite que la particule, on la voit aller dans le sens opposé, donc tourner dans le sens opposé relativement à son mouvement ; c'est-à-dire que l'hélicité n'est pas invariante par changement de référentiel (contrairement au cas d'une particule sans masse). À côté de ça, il y a une autre propriété, la chiralité (et dont l'hélicité est, pour les particules massives, une approximation) : on peut imaginer ça comme une sorte de propriété intrinsèque de la particule, ou un mode vibratoire particulier : l'électron existe à la fois en chiralité gauche et en chiralité droite ; contrairement à l'hélicité, la chiralité est invariante par changement de référentiel ; mais aussi contrairement à l'hélicité, la chiralité n'est pas constante dans le temps pour une particule massive (elle ne « commute pas au hamiltonien », c'est-à-dire à l'évolution dans le temps, i.e., les vecteurs-propres de chiralité ne sont pas solutions de l'équation d'évolution). Un électron libre « oscille » entre sa version chirale gauche et sa version chirale droite : à vitesse nulle, les deux versions chirales ont la même amplitude dans cette oscillation, mais plus l'électron va vite, plus une composante chirale est importante dans cette superposition et plus l'hélicité se rapproche de la chiralité.

Et ce qui est bizarre, c'est que les interactions faibles n'interagissent qu'avec les quarks et leptons (leptons = électron, muon, tauon, et les neutrinos qui vont avec) de chiralité gauche (et avec leurs antiparticules exclusivement de chiralité droite). Pour le neutrino du modèle standard traditionnel, qui n'a pas de masse, ça veut dire que la variante chirale droite n'interagit avec rien (les neutrinos n'ont ni charge électrique ni couleur, ils ne sentent que les interactions faibles, et la variante chirale droite ne sent pas ça non plus : c'est une particule « stérile »), donc autant dire qu'elle n'existe pas. Maintenant qu'on sait que les neutrinos ont une masse, comme les électrons, ils doivent forcément osciller entre les deux chiralités (en plus d'osciller entre les différentes saveurs si on choisit de les mesurer selon la base neutrino-de-l'électron, neutrino-du-muon et neutrino-du-tauon pertinente pour les interactions faibles).

Ce qui est intéressant dans cette histoire masse = oscillation entre les deux chiralités, c'est que ça se comporte dans le formalisme exactement comme une interaction : le terme de masse (dans ce qu'on appelle le « lagrangien » de la théorie, peu importe ce que c'est) est exactement ce que serait une interaction, sauf que c'est une interaction où une particule entre et une particule sort — par exemple, un électron-chiral-gauche entre et un électron-chiral-droit sort. Cette observation est pertinente parce que c'est comme ça qu'on peut décrire les masses par l'intervention du champ de Higgs : on transforme, en quelque sorte, cette interaction en une interaction à trois, où un électron-chiral-gauche interagit avec le Higgs et devient ainsi un électron-chiral-droit. Mais ce sera mon exemple nº4.

Sous-exemple : neutrinos de Dirac et de Majorana.

Même si j'ai glissé de la poussière sous le tapis, l'idée générale est qu'il y a quatre sortes d'électrons, i.e., quatre dimensions de vibration du champ électronique : l'électron-chiral-droit, l'électron-chiral-gauche, le positron-chiral-droit et le positron-chiral-gauche (le positron étant l'antiparticule de l'électron). L'électron et le positron sont distingués par la charge électrique, donc ne peuvent pas être identiques. Pour ce qui est du neutrino, en revanche, dès lors qu'il a une masse, les choses sont moins claires : il y a une particule chirale gauche, et une particule chirale droite, mais qui dit que l'une n'est pas l'antiparticule de l'autre ? Il y a deux hypothèses possibles pour donner une masse au neutrino : (A) le neutrino de Dirac (ou plus exactement, neutrino ayant une masse de Dirac) se comporte comme l'électron, il y a les quatre dimensions, le neutrino-chiral-droit, le neutrino-chiral-gauche, l'antineutrino-chiral-droit et l'antineutrino-chiral-gauche (tout ça fois trois à cause des trois génerations, mais laissons-les de côté), les interactions faibles interagissent avec le neutrino-chiral-gauche et l'antineutrino-chiral-droit, mais le terme de masse de Dirac permet de transformer le neutrino-chiral-droit en neutrino-chiral-gauche, et l'antineutrino-chiral-droit en l'antineutrino-chiral-gauche ; (B) le neutrino de Majorana (ou plus exactement, neutrino ayant une masse de Majorana) n'a que l'a moitié des dimensions, le chiral-droit et le chiral-gauche (on peut dire que le premier est l'antineutrino et le second le neutrino, si on veut, en tout cas, ils sont antiparticule l'une de l'autre), les interactions faibles interagissent avec les deux, et le terme de masse de Majorana transforme directement l'un en l'autre. Le scénario (B) où le neutrino étant sa propre antiparticule, a des conséquences expérimentales en principe testables, par exemple la désintégration bêta double sans neutrino (jamais observée), ou plus généralement, la non conservation du nombre leptonique. En fait, on peut aussi mélanger (A) et (B), c'est-à-dire avoir à la fois un terme de masse de Dirac et un terme de masse de Majorana, c'est même un mécanisme proposé pour expliquer que la masse des neutrinos soit si légère.

Exemple nº4 : le mécanisme de Higgs et la brisure spontanée de la symétrie.

Bon, là ça va être plus long, et peut-être que je m'embourbe complètement.

J'ai expliqué dans l'exemple nº1 ci-dessus que la couleur des quarks, qui est la charge des interactions fortes, « vivait » dans un espace de dimension 3 sans base naturelle (avec pour groupe de symétries SU(3)). Les interactions électrofaibles ont elles-aussi une symétrie interne (de groupe SU(2)×U(1)), mais celle-ci a été « brisée » par la valeur du champ de Higgs très tôt dans l'histoire de l'Univers. C'est quelque chose qu'on peut essayer d'expliquer. L'idée générale est que, sans que que l'espace vibratoire ait changé, la base sur laquelle il est pertinent de le considérer, elle, a changé avec la brisure de la symétrie.

Au commencement (littéralement au commencement du monde : entre peut-être 10−32 et 10−12 secondes après le Big Bang), les particules élémentaires qui sont maintenant les leptons (leptons = électron, muon, tauon, et les neutrinos qui vont avec) et quarks, et aussi les photons et bosons Z et W et le Higgs, étaient très différentes de ce qu'elles sont maintenant. Déjà, elles n'avaient pas de masse (sauf, dans une certaine mesure, le boson de Higgs lui-même, cf. ci-dessous), donc elles allaient toutes à la vitesse de la lumière. Mais aussi, la description naturelle était complètement différente.

Oublions les trois générations qui compliquent un peu les choses (cf. mon exemple nº2) : sans elles, les particules élémentaires actuelles qui m'intéressent sont les suivantes. Côté fermions (particules de matière), on a l'électron (de charge électrique −1) sous ses quatre dimensions (électron-chiral-gauche, électron-chiral-droit, positron-chiral-droit et positron-chiral-gauche), le neutrino (de charge électrique 0) sous ses deux ou quatre dimensions (le neutrino-chiral-droit, le neutrino-chiral-gauche, l'antineutrino-chiral-droit et l'antineutrino-chiral-gauche : il est possible que seuls les deux du milieu existent), le quark bas (de charge électrique −1/3) sous ses quatre dimensions (comme l'électron) fois trois couleurs si on veut, et le quark haut (de charge électrique +2/3) sous ses quatre dimensions (idem). Côté bosons (particules de force), on a le photon (2 dimensions pour les deux polarisations de la lumière), le boson Z⁰ (3 dimensions parce que comme il est massif il peut tourner dans n'importe quelle direction), le boson W⁺/W⁻ (3 dimensions chacun, l'un étant l'antiparticule de l'autre), et le boson de Higgs (une seule dimension parce qu'il est scalaire) ; je laisse de côté les gluons qui ne vont pas intervenir dans l'histoire. Donc 32 dimensions de fermions (sans compter les trois générations !, mais en comptant la couleur des quarks en décidant que le neutrino-chiral-droit et l'antineutrino-chiral-gauche existent vraiment), et 12 dimensions de bosons.

Maintenant, je vais dresser le portrait des particules élémentaires telles qu'elles existaient à l'époque reculée dont je parle (avant la « brisure spontanée de la symétrie »). Les champs eux-mêmes n'ont pas changé, donc on doit compter le même nombre de dimensions (et même le même nombre de dimensions côté fermions et côté bosons), c'est juste que la manière dont on les organise est complètement différente. Ma description est un peu longue, mais je veux prendre la peine de l'écrire complètement (et de donner des noms différents, et un peu évocateurs, aux particules), parce que personne ne le fait jamais. (Je vais quand même essayer de faire en sorte qu'on puisse la lire en diagonale.)

À l'époque reculée dont je parle, donc, les « mêmes » particules étaient les suivantes :

Déjà, côté fermions, il y avait des particules que je vais appeler les « sénestroleptons » : les sénestroleptons n'avaient pas de masse, donc allaient toujours à la vitesse de la lumière, et tournaient toujours dans le sens de la main gauche (d'où leur nom). En rappelant que j'oublie les trois générations qui compliquent les choses, les sénestroleptons existaient en deux variantes, un phénomène appelé « isospin (faible) » (il faut imaginer ça comme la couleur des quarks ; peut-être qu'« odeur » serait un meilleur terme, en fait), disons « iso-bas » (mentholé ?) et « iso-haut » (musqué ?), mais c'est comme la couleur des quarks, le choix de ces dimensions est, enfin, était à l'époque, complètement arbitraire (et, pire, même pas vraiment reliable d'un point à l'autre de l'espace-temps). On a quatre dimensions de sénestroleptons : le sénestrolepton iso-bas et iso-haut et l'antisénestrolepton idem. Ensuite, il y avait une particule que je vais appeler le dextrélectron (et son antiparticule) et peut-être une particule que je vais appeler le dextroneutrino (et son antiparticule) ; toutes les deux étaient sans masse et tournaient toujours selon le sens de la main droite. À cette époque, le dextrélectron n'avait pas de rapport particulier avec les sénestroleptons (même s'il interagit avec eux) ; le dextrélectron n'avait pas les variantes iso-bas/iso-haut (il n'a pas d'odeur ?) ; idem pour le dextroneutrino, qui n'existe peut-être même pas.

Pour les quarks, c'était à peu près la même histoire : on avait les sénestroquarks, tournant dans le sens de la main gauche, qui existaient en deux variantes (odeurs ?), « iso-bas » et « iso-haut » (fois trois couleurs si on veut se rappeler les couleurs) totalement interchangeables, et on avait le dextrobas et le dextrohaut, tournant, eux, dans le sens de la main droite, qui n'avaient pas vraiment de rapport entre eux ni avec les sénestroquarks. (Et malheureusement le bas et le haut dans dextrobas et dextrohaut n'ont, à cette époque en tout cas, rien à voir avec l'iso-bas/iso-haut : le dextrobas et le dextrohaut étaient des particules bien distinctes, et qui n'avaient pas la variante iso-bas/iso-haut.)

Puis il y avait le Higgs, ou peut-être que je devrais l'appeler le préHiggs, parce que ce n'était pas vraiment le même que maintenant, il avait quatre dimensions ; il ne tourne pas sur lui-même (il est de spin nul, ou scalaire), donc il n'y a pas d'histoire de gauche ou de droite dans le Higgs, mais à cette époque il y avait un préHiggs iso-bas, un préHiggs iso-haut (toujours avec la même remarque comme quoi la distinction entre l'iso-bas et l'iso-haut est arbitraire), et les anti-préHiggs correspondants. Le préHiggs était une particule bizarre, en fait, et c'est même abusé de dire que c'était une particule, ou alors sa masse est imaginaire (certains diront que c'est une sorte de tachyon, mais ça donne sans doute la mauvaise intuition), c'est-à-dire que les petites vibrations autour de zéro du champ de Higgs sont, en fait, instables, et c'est ça qui a causé tout le changement, mais je vais y revenir.

Puis il y avait des bosons (de spin 1), sans masse, appelés B et W, disons peut-être plutôt préW. Le B ressemblait un peu au photon actuel (lequel en est partiellement l'héritier), il avait deux dimensions de polarisation, et interagissait avec une charge appelée « hypercharge (faible) » assez semblable à la charge électrique. Le préW existait en trois variantes essentiellement indistinguables (de la même façon qu'il y a huit gluons indistinguables de nos jours), fois deux degrés de polarisation, ce qui fait 6 dimensions.

Donc, si on compte les dimensions, côté fermionique on a 4 pour le sénestrolepton, 2+2 pour le dextrélectron et le dextroneutrino (s'il existe), 4×3 pour les sénestroquarks (le 3 est la couleur), 2×3+2×3 pour le dextrobas et le dextrohaut, ça fait 32, le compte est bon ; côté bosons, on a 4 pour le préHiggs, 2 pour le B, et 6 pour le préW, ça fait 12, comme maintenant.

De même que le photon actuel interagit avec les particules ayant une charge, le boson B interagissait avec les particules ayant une « hypercharge » : cette hypercharge valait −1 pour les sénestroleptons, −2 pour le dextrélectron, 0 pour le dextroneutrino s'il existait (i.e., il n'interagissait pas avec le B), +1/3 pour les sénestroquarks, −2/3 pour le dextrobas, et +4/3 pour le dextrohaut ; on voit de nouveau sur ces chiffres que les sénestroleptons étaient des particules bien différentes du dextrélectron. L'hypercharge valait encore +1 pour le préHiggs, et 0 pour les bosons B et préW (le B n'interagit ni avec lui-même ni avec le préW). J'insiste sur le fait que la notion actuelle de charge électrique n'avait pas de sens à l'époque : ce qui est le plus proche est la notion d'hypercharge. L'hypercharge était conservée dans toutes les interactions. Le boson préW, lui, interagissait avec les particules ayant de l'« isospin », c'est-à-dire les variantes iso-bas/iso-haut, donc concrètement : les sénestroleptons, les sénestroquarks, le préW lui-même, et le préHiggs ; la variante iso-bas/iso-haut est conservée, mais comme pour les quarks actuels c'est un peu difficile à décrire parce que le boson préW porte lui-même de telles variante. Enfin, le préHiggs, lui, interagissait avec tout : avec lui-même, avec le boson B (puisque le préHiggs avait une hypercharge), avec le boson préW (puisque le préHiggs avait les variantes iso-bas/iso-haut), et avec les sénestroleptons, dextrélectron, dextroneutrino (s'il existe, et encore, très faiblement), sénestroquarks, dextrobas et dextrohaut. Mais attention, quand un dextrélectron interagit avec le préHiggs, il se transforme en sénestrolepton : c'est-à-dire que le préHiggs transforme les vibrations dextrélectroniques en sénestroleptoniques ou vice versa ; il transforme de même les sénestroquarks en dextrobas ou en dextrohaut.

Ceci était une description, donc, du monde « avant la brisure spontanée de la symétrie » (un terme qu'il faut que j'explique). Cela peut surprendre : peut-être a-t-on l'impression que le tableau des particules que j'ai dressé est encore moins symétrique que celui du monde (après brisure de symétrie) où nous vivons maintenant : au lieu d'avoir des électrons et des neutrinos qui peuvent tourner dans le sens qu'ils veulent, on a des « sénestroleptons » qui tournent toujours vers la gauche, et des « dextrélectrons » et des « dextroneutrinos » (vous aurez compris que tous ces termes sont de moi) qui tournent toujours vers la droite… ça a l'air très peu symétrique, tout ça ! Pourtant, la symétrie gauche-droite du monde actuel est illusoire : c'est un fait (expérimentalement vérifié) que les interactions faibles ne traitent pas du tout pareil les particules de chiralité gauche ou droite, c'était déjà le cas avant la « brisure spontanée de la symétrie », c'est toujours le cas maintenant — ce n'est pas de cette symétrie-là qu'il s'agit. En revanche, dans le monde actuel, l'électron de chiralité gauche et le neutrino de chiralité gauche sont deux particules bien différentes (elles n'ont pas la même charge, elles n'ont pas la même masse), mais avant la brisure spontanée de la symétrie, c'était la même particule (ou du moins deux variantes « iso-bas » et « iso-haut » de la même particule, que j'appelle « sénestrolepton », comme on a des quarks rouges et verts mais il est impossible de choisir globalement les couleurs) : c'est essentiellement cette symétrie-là (de « groupe de jauge » SU(2)×U(1) [#8]) qui a été brisée. C'est une symétrie portant uniquement sur les particules de chiralité gauche (celles que j'ai appelées sénestroleptons et sénestroquarks) : celles de chiralité droite (dextrélectron, dextroneutrino, dextrobas, dextrohaut) n'ont jamais eu la symétrie en question ; mes noms obscurcissent malheureusement ce fait (parce que je les ai choisis pour garder une certaine correspondance avec les noms « actuels »), mais les particules de chiralité droite n'ont essentiellement aucun rapport avec celles de chiralité gauche si ce n'est que le (pré)Higgs peut les transformer les unes en les autres. Les deux sénestroleptons (iso-bas et iso-haut) sont bien la même particule ; le dextrélectron et le dextroneutrino n'ont pas vraiment de rapport entre eux (d'ailleurs, le premier interagit avec le boson B, le second n'interagit qu'avec le Higgs, et encore très faiblement, et ce n'est même pas certain qu'il ait existé). Cela peut sembler bizarre, maintenant que la symétrie est brisée, de dire que l'électron-chiral-gauche et le neutrino-chiral-gauche sont fondamentalement la même particule alors que l'électron-chiral-droit et le neutrino-chiral-droit (s'il existe) n'ont rien à voir, mais c'est vraiment ça le contenu de la théorie. Je vais essayer de le redire autrement plus bas.

[#8] Pourquoi écrire SU(2)×U(1) et pas U(2), d'ailleurs (ils sont isomorphes) ? Parce que la « constante de couplage » mesurant (dans les unités naturelles) la force des interactions n'est pas la même pour SU(2) (le boson préW) et pour U(1) (le boson B). Le rapport entre les deux (la tangente de l'angle de Weinberg) est d'ailleurs un nombre que le modèle standard ne prédit pas (et qui n'a pas l'air d'avoir une valeur mathématiquement remarquable).

En attendant, que s'est-il passé (environ 10−12 secondes après le Big Bang) ? Le truc est que le préHiggs, était une vibration autour d'une position instable (donc, pas une vibration possible du tout, en fait, puisqu'on ne peut pas vibrer autour d'un état instable). Le zéro du champ de Higgs est un état d'équilibre, mais un état d'équilibre instable. Il y a un dessin obligatoire à faire, là, mais je ne vais pas le faire parce que vous pouvez le trouver en ligne en mille et une variantes : le dessin du « chapeau mexicain » du potentiel de Higgs (en gros, l'énergie en fonction de l'emplacement dans l'espace vibratoire du champ de Higgs), où on voit bien que le zéro (centre de symétrie du chapeau) est instable, puisque c'est un maximum local et pas un minimum local. À très haute température (quelque chose comme 1015K), ça n'a pas beaucoup d'importance, les fluctuations thermiques ont lieu bien au-dessus du niveau de la bosse du chapeau, on peut considérer qu'il s'agit de fluctuations autour de zéro (même si le zéro est instable et donc que le préHiggs, en tant que particule, n'a guère de sens). Mais quand la température diminue, le champ de Higgs ne peut pas rester autour de zéro : il se condense en une valeur d'énergie minimale, c'est-à-dire non nulle, la même dans tout l'espace[#8b], une valeur dans le vide. C'est ce qu'on appelle le condensat de Higgs. (Un condensat en théorie quantique des champs est un champ qui prend une valeur non nulle dans le vide, c'est-à-dire dans l'état d'énergie minimale. Et c'est ce qui fait parfois dire que le vide est rempli de bosons de Higgs : ce n'est pas vraiment ça, les bosons de Higgs sont des vibrations autour de la valeur du condensat, mais c'est vrai que des interactions qui faisaient intervenir le préHiggs se font maintenant, sans autre intervention, dans le vide.)

[#8b] Précision/ajout : On me fait en commentaire l'objection suivante : comment est-il possible que le champ de Higgs se soit condensé à la même valeur partout dans l'Univers alors que l'Univers était déjà causalement non-connexe (i.e., trop grand pour pouvoir transmettre l'information à la vitesse de la lumière entre n'importe quel point et n'importe quel autre) 10−12 secondes après le Big Bang ? Je n'ai pas une réponse complètement satisfaisante à ça. Une partie de la réponse est que (a) l'intensité du champ de Higgs dans le vide est imposée par le fait que c'est la valeur du minimum d'énergie, donc celle-ci ne pose pas de problème, et (b) pour ce qui est de la direction, ça n'a pas vraiment de sens de se demander si le Higgs a la même direction en plusieurs endroits de l'Univers, parce qu'on peut toujours fixer arbitrairement la direction « interne » en tout point, quitte à modifier en conséquence les champs du W et du Z (c'est le sens d'une symétrie de jauge, que j'essaie — mais mal — d'expliquer un peu plus loin). Mais je ne suis quand même pas très satisfait de cette partie (b) : certes, on peut par « changement de jauge » absorber une différence de direction du champ de Higgs dans les champs du W et du Z, mais il y a quand même un contenu physique à la question : je prends un électron dans une région de l'Univers, je la transporte dans une autre région de l'Univers, est-ce que c'est toujours un éléctron ? (Selon qu'on a une variation de la direction du champ de Higgs ou qu'on a absorbé celle-ci dans les champs du W et du Z, la raison sera différente : dans un cas ce sera parce que la particule sera différente par rapport au Higgs, dans l'autre, parce qu'elle aura « reçu un W en chemin », mais l'expérience a quand même un sens. Certes, on ne peut pas transporter l'électron entre des régions causalement séparées de l'Univers, mais il doit quand même y avoir des interfaces quelque part si le champ de Higgs n'est pas constant partout.) Or je ne crois pas que ce soit possible qu'il y ait des étendues macroscopiques où le champ du W ou du Z prenne des valeurs non nulles… Bref, je n'ai pas de réponse satisfaisante à l'objection : je pense que ce que j'ai dit est une partie de réponse, mais il me manque d'autres pièces pour la compléter.

Or l'espace vibratoire du Higgs avait, initialement, cette symétrie qui faisait qu'on ne pouvait pas distinguer iso-bas et iso-haut. Une fois que le Higgs s'est condensé en une valeur bien définie, la symétrie est brisée : on a le champ de Higgs comme « boussole » pour définir une direction privilégiée dans l'espace iso-bas/iso-haut. Et même, du coup, deux directions perpendiculaires (iso-bas et iso-haut)[#9].

[#9] On fait la convention que le Higgs pointe dans la direction « iso-bas », qui est la direction interne de l'électron-chiral-gauche et du quark-bas-chiral-gauche. Mais en fait le Higgs intervient dans les interactions à la fois par sa direction et par sa direction perpendiculaire, donc s'il y a bien un choix de deux directions perpendiculaires, il n'y en a pas une qui soit vraiment privilégiée par rapport à l'autre. (Je signale ce point parce qu'il m'avait complètement échappé jusqu'à ce que j'écrive cette entrée, en y repensant je me suis demandé mais comment le Higgs peut-il donner une masse au quark haut s'il a la direction iso-bas ?, et en me documentant j'ai vu qu'il y avait cette subtilité qui m'avait échappé : que la représentation standard de SU(2) est isomorphe à son dual.)

L'électron-chiral-gauche est la variante du sénestrolepton qui a l'orientation iso-bas, et le neutrino-chiral-gauche est la variante qui a l'orientation iso-haut : si ces particules nous semblent maintenant très différentes, c'est juste que la valeur du champ de Higgs dans le vide a créé cette dissymétrie : l'une est la direction du Higgs et l'autre est la direction perpendiculaire. Plus exactement, le Higgs s'est figé dans une valeur qui est prête à transformer (si j'ose dire) les dextrélectrons en une certaine variante du sénestrolepton, donc on appelle ces deux particules « électrons », et les dextroneutrinos en l'autre variante du sénestrolepton, donc on appelle ces deux particules « neutrinos ». Il n'y avait pas, avant brisure spontanée de la symétrie, une variante du sénestrolepton qui avait plus d'affinité pour le dextrélectron et une qui avait plus d'affinité pour le dextroneutrino, mais après brisure spontané de la symétrie, le champ de Higgs incite à faire les identifications que je viens de dire. La même chose vaut pour les quarks, où a priori il y avait d'un côté des sénestroquarks (complètement symétriques) et de l'autre des dextrobas et des dextrohaut (n'ayant rien à voir), mais une fois que le Higgs s'est figé, on va dire : les sénestroquarks qui interagissent avec les dextrobas via la valeur condensée du Higgs, je les appelle « quarks bas », et ceux qui interagissent avec les dextrohauts « quarks hauts » — c'est bien le Higgs qui a causé cette identification, pas la théorie sous-jacente.

Si le champ de Higgs donne une masse aux particules, disons l'électron (cette association du sénestrolepton dirigé dans le sens d'isospin du Higgs et du dextrélectron), c'est justement parce qu'il est capable de convertir un électron-chiral-gauche en électron-chiral-droit et vice versa, et j'ai essayé d'expliquer (à l'exemple nº3) que la conversion d'un chiral-gauche en un chiral-droit est justement ce que fait la masse d'une particule.

Pour ce qui est des bosons, il y a aussi des bouleversements. L'hypercharge cesse d'être une quantité conservée, parce que le champ de Higgs est présent dans le vide et a une hypercharge, donc on peut prendre ou donner de l'hypercharge du vide, ça n'a plus de sens. Donc, plus d'hypercharge conservée. En revanche, si on prend juste la bonne combinaison entre l'hypercharge et l'isospin de sorte que le Higgs n'en ait pas, alors on obtient une quantité conservée : cette quantité s'appelle la charge électrique (et le Higgs, par définition, n'en a pas) ; la charge électrique est la même que l'hypercharge (à un facteur ½ près qui est une convention historique) pour les particules qui ne parlaient pas au boson préW : dextrélectron (il avait une hypercharge de −2, du coup l'électron a une charge de −1), dextrobas et dextrohaut — en revanche, le dextroneutrino n'avait pas d'hypercharge, donc il n'a pas de charge (et si le neutrino-chiral-droit interagit, c'est uniquement en se transformant en neutrino-chiral-gauche par la faible masse du neutrino). Le boson de Higgs est uniquement l'oscillation du champ de Higgs dans la direction du gradient de potentiel (donc il y en a un seul, et il a une masse). Les oscillations du champ de Higgs dans la direction perpendiculaire… bon, c'est plus compliqué.

Là, il faudrait vulgariser correctement ce qui est, justement, le méchanisme de Brout-Englert-Higgs. J'avoue qu'à ce stade-là d'une entrée déjà très longue, je capitule un peu, et c'est un peu ardu : il faut expliquer plus correctement que je ne l'ai fait la différence entre une symétrie (globale) et une symétrie de jauge, expliquer que ce que j'ai dit avec l'histoire du chapeau mexicain était quand même plutôt la description d'une brisure spontanée de symétrie à la Nambu-Goldstone, et que le mécanisme de Brout-Englert-Higgs est plus subtil (la symétrie n'est pas vraiment brisée, ou plutôt, la symétrie est brisée mais la jauge ne l'est pas — quelque chose comme ça), et d'ailleurs lors de la confirmation expérimentale de l'existence du Higgs, beaucoup de gens ont essayé de produire ces explications et je ne sais pas si c'était un grand succès. • Très sommairement : une symétrie de jauge, c'est que non seulement l'espace vibratoire a des directions (« internes ») dans lesquelles il n'y a pas de choix naturel de base, parce qu'il y a un groupe de symétries (SU(3) dans le cas de la couleur, SU(2)×U(1) dans le cas des interactions électrofaibles), mais en plus, si vous faites un choix de directions en un point de l'espace-temps et que vous le transportez en un autre point, la base à laquelle vous arrivez dépend du chemin suivi, et la dépendance dans le chemin suivi est précisément mesurée par le champ de jauge (le champ des gluons, ou le champ électrofaible) ; en fait, on peut toujours fixer arbitrairement la direction « interne » en tout point, quitte à modifier en conséquence les champs du W et du Z (il s'agit d'un degré de liberté illusoire). Donc quand le champ de Higgs se condense à une valeur non nulle, il choisit certes une direction dans l'espace interne, mais cette direction était de toute façon fixable en redéfinissant les champs : donc autant les petites vibrations dans d'amplitude du champ (vibrations dans le sens de la pente du chapeau mexicain) donnent des bosons de Higgs, autant les petites variations de direction s'absorbent dans les bosons « de jauge » que sont le W et le Z, et en contrepartie il leur donne une masse. (Quant à la partie des symétries qui n'a pas été brisée par la valeur du champ de Higgs dans le vide, elle n'acquiert pas de masse et devient l'électromagnétisme et le photon.)

OK, ce que je viens de raconter était sans doute incompréhensible si on ne savait pas déjà ce dont il était question. Donc, à ce sujet, je capitule : pour fournir une explication correcte, il faudrait en écrire beaucoup plus que ce que j'ai envie d'écrire en ce moment. Mais je pense que c'est possible toujours à un niveau assez modeste (même s'il faut dire que, pour ce qui est des symétries de jauge, des notions sur la théorie des groupes de Lie compacts et leurs représentations — ou en tout cas SU(3) et SU(2)×U(1) — seraient bien utiles). Pour ceux qui connaissent une quantité raisonnable de maths et qui veulent en savoir plus sans apprendre de théorie quantique des champs, en restant uniquement au niveau de la théorie classique des champs, je peux recommander le livre de Валерий Анатольевич Рубаков [V. A. Rubakov], Классические калибровочные поля, traduit en anglais sous le nom Classical Theory of Gauge Fields (notamment les chaptres 4–6 et 14) ; j'ai trouvé ce livre très rigolo à lire (en anglais, je l'avoue).

Pour dire quand même un mot sur les bosons : le photon est une combinaison linéaire entre le boson B et la variante/direction d'isospin du boson préW qui laisse invariante la direction du Higgs, la combinaison[#10] étant telle qu'elle n'interagit pas avec le Higgs, tandis que le boson Z⁰ est la combinaison orthogonale entre le même boson B et la même variante du préW ; les autres variantes du préW deviennent les bosons W⁺/W⁻. Bon, ce n'est pas terriblement clair non plus tout ça.

[#10] On introduit l'angle de Weinberg à ce sujet : c'est l'angle θ tel que le potentiel électromagnétique soit A = cos(θB + sin(θ).W₃ et que le champ correspondant du boson Z soit Z = −sin(θB + cos(θ).W₃, où B est le champ du boson B et W₃ la composante du préW qui laisse invariante la direction du Higgs. Cet angle θ (dont le cosinus est le rapport des masses du W et du Z) vaut environ 29°, encore une de ces constantes bizarres (comparer à l'angle de Cabibbo de l'l'exemple nº1 ci-dessus) exprimant le fait que les interactions faibles sont « penchées » de façon bizarre. (J'ai vaguement le souvenir qu'un physicien célèbre a demandé si Dieu n'était pas ivre le jour où il a conçu les interactions faibles, mais je ne retrouve pas la phrase exacte ni de qui il pouvait s'agir.)

Il vaut sans doute mieux que j'arrête là. Mais si au moins j'ai réussi à faire un peu passer l'idée que, quand l'univers était très chaud, non seulement les électrons, neutrinos, quarks et bosons Z/W n'avaient pas de masse, mais en plus ils étaient organisés différemment, que l'électron-chiral-gauche et le neutrino-chiral-gauche étaient la même particule (sénestrolepton) et de même le quark-haut-chiral-gauche et le quark-bas-chiral-gauche, alors que l'électron-chiral-droit, l'éventuel neutrino-chiral-droit et les différents quarks chiraux-droits étaient des particules n'ayant pas grand-chose à voir (ni entre eux ni avec les précédents), et que pourtant tout ça était plus symétrique, eh bien ce sera déjà ça.

TOnotDO :

Pour aller vraiment plus loin, il faudrait évoquer les phénomènes véritablement quantiques : le vide de la chromodynamique quantique et les condensats qui vont avec et qui donnent l'essentiel de leur masse au proton et au neutron (ce n'est pas le Higgs, qui n'est responsable que de la — faible — masse des quarks « nus »), le problème CP fort (et le mystérieux « angle du vide » de la chromodynamique quantique) ; la question des anomalies, comme l'anomalie chirale, et le lien avec la topologie (notamment le très mystérieux sphaléron qui crée des particules out of thin air à partir de superpositions quantiques d'invariants topologiques du champ électrofaible). Mais pour tout ça, je n'ai ni le courage ni vraiment la compétence.

Ajout () : Je dois sans doute mentionner l'article introductif The Algebra of Grand Unified Theories de John Baez et John Huerta (je pense surtout à la section 2, qui parle du modèle standard : après, il va au-delà), destiné aux matheux, et qui entreprend d'exposer des choses qui recoupent pas mal celles que j'ai racontées (avec plus de théorie des représentations et un peu plus de précisions).

↑Entry #2542 [older| permalink|newer] / ↑Entrée #2542 [précédente| permalien|suivante] ↑

↓Entry #2541 [older| permalink|newer] / ↓Entrée #2541 [précédente| permalien|suivante] ↓

(lundi)

Exilé hors du royaume magique

J'aime beaucoup les travaux du dessinateur et bédéiste Boulet[#] parce qu'il arrive non seulement à me faire rire (ce qui n'est pas trop difficile) mais aussi à me toucher. Je range cette entrée dans la catégorie « livres » de ce blog parce que je recommande l'ensemble de ses Notes[#2], mais je viens surtout de tomber sur sa fable(?) Maudit Royaume (publiée en 2014 dans le numéro 3 du trimestriel Papier et republiée à la fin du volume 11 de ses Notes) dont voici une version en ligne. Cette histoire a beaucoup résonné en moi.

(Divulgâchis maintenant. Suivez le lien ci-dessus ou lisez ses Notes[#2] avant de continuer à lire.)

Le thème qui m'a frappé, qui est présent dans plusieurs des histoires de Boulet mais particulièrement bien illustré dans celle-ci, c'est le contraste douloureux entre le monde féerique, magique et enchanté de nos rêves et des récits fantastiques et contes qui les ont alimentés — (Je dis nous mais je ne sais pas qui nous sommes, disons que je parle au moins pour moi et certainement pas que pour moi ; j'imagine que le dessinateur doit ressentir quelque chose de proche.) — entre ce monde féérique et le monde matériel dans lequel nous vivons vraiment. Lequel n'est certes pas dénué de choses dont on peut s'émerveiller (là aussi, Boulet a pas mal dessiné à ce sujet), mais il demeure une dissonance entre les deux.

Cette dissonance est particulièrement douloureuse quand on est scientifique, parce qu'un scientifique n'a pas le droit de croire à la magie, et ça ne l'empêche pas d'y rêver. À un certain niveau, j'envie les gens qui croient au surnaturel, aux dieux ou à ce genre de choses, et qui n'ont pas une part de rationalité froide dans leur cerveau pour leur rappeler sans arrêt rêve toujours : tout ça n'existe pas — ou qui arrivent à la faire taire. Ils peuvent vivre dans un monde enchanté.

Alors bien sûr, il est quand même possible pour un scientifique de s'émerveiller, de conserver un monde enchanté au-dessus du monde réel (j'avais développé ça de façon sans doute inutilement compliquée ici), et bien sûr de rêver (soit au sens littéral, soit en consommant des romans, des bédés, des films, etc.), soit même en étant artiste et en créant (quitte à risquer de devenir fou ?). Mais même dans la fiction, la rationalité vient vous embêter : oui, alors là, en fait, c'est pas logique que l'enchanteur veuille capturer la princesse, parce que s'il a le pouvoir de…mais ta gueule, bordel de merde, rationalité obsessive !. Et pour ce qui est du monde réel, je suis, comme tout le monde, déçu quand on annonce la mise au point d'une technique d'invisibilité, que ce ne soit pas une cape comme dans Harry Potter ou un anneau magique comme celui de Bilbo mais un truc minuscule qui arrive à canaliser certaines formes de micro-ondes ; ou que quand on révèle l'existence d'eau liquide sur Mars ce ne soit pas les canaux des rêves de Schiaparelli et de Lowell mais un lac enfoui sous la glace. (Évidemment, je le sais à l'avance quand je lis les titres qui les annoncent, mais ça ne m'empêche pas d'être déçu de savoir à l'avance que je serai déçu ; et je sais rationnellement que c'est un exploit d'avoir fabriqué le truc minuscule indétectable aux micro-ondes ou d'avoir détecté l'eau liquide sous la glace, mais ça ne m'empêche pas d'être frustré.)

Et puis, comme je l'ai déjà écrit, un élémental de praséodyme, ça ne le fait pas : c'était bien mieux quand les éléments étaient quatre et s'appelaient Terre, Eau, Air et Feu.

Bref, je me sens comme exilé hors du royaume magique. C'est ce qui m'a poussé à écrire de la mauvaise littérature fantastique et qui me pousse encore à le faire de temps en temps (mais de moins en moins, parce que je deviens vieux, usé et fatigué, et de moins en moins capable de voir les éléphants dans les boas). Je sais que je radote, je l'ai déjà raconté plusieurs fois sur ce blog (ici à propos d'un de mes personnages de roman, et encore ici), et surtout, c'est le thème de cette nouvelle, qui a des idées en commun avec l'histoire de Boulet.

Je ne sais pas si le fait d'être mathématicien est, à cet égard, plus ou moins enviable que si j'étais physicien ou biologiste. Les mathématiques n'excluent pas vraiment la magie : on pourrait tout à fait imaginer un monde fantastique basé sur une description mathématique précise de la magie (là aussi je sais que je radote), ce serait quelque chose d'intéressant à élaborer[#3]. Les maths sont les mêmes dans tous les univers possibles, même ceux où la magie existe (du moins, on a tendance à le croire). Et à un certain niveau, les maths contiennent déjà de la magie (en tout cas, elles contiennent indiscutablement de la numérologie : j'ai assez parlé du pouvoir magique des nombres 696 729 600 et 244 823 040 pour ne pas insister)[#4]. Mais peut-être que cela rend les choses encore plus frustrantes : je pourrais être un mathématicien dans un monde où la magie existe et je ne le suis pas ! Dammit!

[#] Là je fais un lien vers son blog, mais en fait je ne le lis pas en ligne : j'achète ses Notes sous forme de bouts d'arbres morts. Il n'y a pas vraiment de raison (ce n'est pas comme si je ne lisais pas plein de webcomics en ligne, donc je n'ai rien contre en principe), juste qu'on m'a offert le volume 10 pour mon anniversaire il y a deux(?) ans, alors ensuite j'ai acheté et lu les 9 à 1 dans l'ordre décroissant (de numéro mais aussi, à mon avis, de qualité ← ceci est une sorte de double négation pour dire qu'il s'améliore avec le temps), et puis je me suis rendu compte tout récemment que le 11 était sorti et je viens de le finir.

[#2] (Pas cher)

[#3] J'espère toujours qu'à force de répéter cette idée, un oulipien fou va s'en emparer et m'épargner le boulot fastidieux d'être moi-même l'oulipien fou.

[#4] Ou pour prendre un exemple venu de la crypto : Alice (chevalière guerrière et sauveuses de princes en détresse) et Bob (prince charmant prisonnier dans une tour) disposent d'un canal de communication sur lequel Ève (cruelle physicienne qui maintient Bob prisonnier) entend absolument tout ce qui se passe mais ne peut pas modifier le contenu : par la magie de la crypto, Alice et Bob peuvent quand même réussir à s'échanger des messages secrets qu'Ève ne pourra pas déchiffrer. (C'est évident si Alice et Bob ont convenu à l'avance d'une clé secrète de chiffrement, mais la vraie magie c'est que c'est possible même sans ça.)

↑Entry #2541 [older| permalink|newer] / ↑Entrée #2541 [précédente| permalien|suivante] ↑

↓Entry #2540 [older| permalink|newer] / ↓Entrée #2540 [précédente| permalien|suivante] ↓

(vendredi)

Quelques réflexions sur le tirage au sort en politique

Je n'aime pas parler de politique parce qu'à chaque fois que je le fais, j'ai l'impression de dire des conneries brouillonnes et de mauvaise foi, avec lesquelles je ne serai moi-même pas d'accord un an ou même un mois plus tard. Néanmoins, j'ai l'impression que l'exercice a quelque chose d'utile, je veux dire pour moi, certainement pas pour mon lecteur, pour moi pour organiser mes pensées, me rendre compte qu'elles ne sont pas intéressantes, et passer à autre chose. Je dois d'ailleurs dire que je suis toujours fasciné par les gens qui ont des opinions politiques très arrêtées, et parfois j'ai l'impression que c'est le cas de tout le monde, comme si trouver un bon mode d'organisation de la société n'était pas, euh, quelque chose comme LE problème sur lequel nous nous grattons la tête depuis des milliers d'années, bizarrement les gens n'ont pas tous une idée sur comment vaincre le cancer ou comment démontrer l'hypothèse de Riemann mais ils ont l'air de tous avoir une idée sur comment organiser la société, ce qui est probablement au moins aussi dur ; et peut-être que cette tendance fait elle-même partie du problème qu'il faut résoudre. (Vous voyez quand je dis que j'ai les idées brouillonnes, j'ai déjà réussi à dire plein de conneries vaseuses dans mon premier paragraphe.)

Mais ce n'est pas comme si je ne m'étais pas moi aussi arraché les cheveux sur la question (de l'organisation de la société) ; ou peut-être plutôt sur la sous-question qui est aussi la méta-question, celle des institutions (chargées de gouverner la société), celle de la constitution idéale. J'ai lu toutes les constitutions de la France et un certain nombre d'autres ainsi que les traités européens, j'ai aussi lu plein de livres sur le droit constitutionnel historique et comparé, j'ai lu entre autres Platon et Tocqueville, j'ai bien sûr lu des expositions mathématiques de la théorie du choix social et plusieurs démonstrations du théorème d'Arrow, bref, je me suis passablement bien documenté — und bin so klug als wie zuvor. Je veux notamment dire que j'ai eu plein d'idées géniales (voir par exemple ici), dont je me suis généralement rapidement rendu compte qu'elles n'étaient pas du tout géniales, en fait.

J'en viens au fait : parmi les idées censément géniales que d'autres gens que moi ont eu, il y a la suivante, sur laquelle on m'a suggéré de donner mon avis parce que je ne l'ai jamais clairement fait. Il s'agit de l'idée, plutôt que d'élire des dirigeants, de les tirer au sort parmi les citoyens du pays : une démocratie basée sur le tirage au sort plutôt que sur des élections. Plus exactement, l'idée, telle que je la comprends, est de tirer au sort, parmi l'ensemble de tous les citoyens majeurs du pays, une assemblée, dont le nombre de membres doit être suffisant pour qu'elle soit représentative, et de lui confier tel ou tel pouvoir, par exemple un pouvoir de contrôle sur tel ou tel autre organe institutionnel, le pouvoir législatif, le pouvoir de désignation de l'exécutif (étant entendu que l'exécutif lui-même est probablement trop difficile à exercer collégialement par une grande assemblée) ou enfin le pouvoir constituant (ce qui peut servir de bootstrap au système).

Les vertus que ses partisans voient dans le tirage au sort, par opposition aux élections, sont, de ce que j'en comprends, et en espérant ne pas trop déformer, essentiellement les suivantes (dans un ordre quelconque, et en étant bien d'accord qu'il y a beaucoup de redondance entre les points qui suivent) :

  • Le tirage au sort garantit une assemblée représentative de la diversité de la population dans son ensemble (et notamment des genres, des catégories sociales et des origines ethniques), bref, des dirigeants qui ressemblent vraiment à ceux qu'ils doivent diriger et dont ils sont censés être l'émanation, l'incarnation et la représentation — ce qui, expérimentalement, ne marche vraiment pas bien pour les assemblées élues.
  • Indépendamment de la problématique de la représentativité de la diversité, le tirage au sort garantit une variété de modes de pensée et élimine donc le problème des dirigeants tous formés dans le « même moule ».
  • Le tirage au sort donne le pouvoir à des gens qui n'ont pas forcément envie de l'exercer, or ce sont précisément à ces gens-là qu'il faut confier le pouvoir et pas à ceux qui le recherchent (parce que ceux qui recherchent le pouvoir ont plus tendance à être des malhonnêtes, des menteur, des manipulateurs ou des gens dangereux, que la moyenne). De plus, le tirage au sort étant imprévisible, il diminue la prise de la corruption (qui n'est excerçable que pendant la durée étroite du mandat).
  • Symboliquement, le tirage au sort est le seul à être véritablement démocratique (il donne le pouvoir au peuple), alors que l'élection est aristocratique (au sens étymologique : elle donne le pouvoir à — ceux qui sont censés être — les meilleurs).
  • Le tirage au sort est le seul mode de désignation véritablement impartial et non manipulable. C'est le seul qui assure équitablement à chacun la même chance de participer aux décisions.
  • Le tirage au sort assure que l'assemblée élue ait à cœur les intérêts de l'ensemble de la Nation (dont elle n'est extraite que temporairement, et qu'elle est destinée à regagner) ; alors que les intérêts d'un groupe de politiciens de carrière en divergent fortement.
  • Le tirage au sort empêche qu'un groupe, clan ou parti politique puisse accaparer le pouvoir, ou, a fortiori, que les élus eux-mêmes deviennent un clan en soi.
  • Le fait d'être tirés au sort en petit groupe pour décider de telle ou telle question incite les gens à se plonger réellement sérieusement et en profondeur dans le dossier en question, et à se faire un avis personnel éclairé, ce qui n'arrive pas s'ils doivent élire quelqu'un pour prendre les décisions à leur place, ou, pire encore, s'ils doivent voter directement (par referendum / démocratie directe) sur la question, car alors ils tomberont facilement victimes de slogans trompeurs ou de propagande fallacieuse.

Certains soulignent aussi que le tirage au sort était largement utilisé par la constitution d'Athènes (notamment dans la désignation de la βουλή, sorte de commission générale et préparatoire aux travaux de l'assemblée du peuple ou ἐκκλησία) : c'est là un argument ad antiquitatem sans intérêt, et je l'ignore donc. (J'ai déjà fait remarquer que je suis un peu perplexe quant à la vertu d'ériger en modèle un système politique auquel il manquait manifestement les contre-pouvoirs efficaces capables de s'opposer à la volonté de la majorité et d'éviter le massacre de Mélos.) [Ajout : sur ce point, on me signale en commentaires deux articles intéressants de Lays Ferra, Contre Chouard (très long) et Contre Chouard II (plus court et pouvant être lu indépendamment) ; bon, je suis embêté dans le plan minutieusement calculé de cet article, parce que je mentionne Chouard plus loin, mais à part ça, ces articles sont intéressants historiquement (notamment si on veut en savoir plus sur la constitution athénienne), et contredisent surtout l'idée que les tirés au sort étaient législateurs ou a fortiori constituants.] • On peut aussi citer les débats autour de la réforme de la constitution islandaise à partir de 2009 (on a tiré au hasard des citoyens pour les inviter à donner leur avis sur ce que la constitution devrait contenir) : mais je crois comprendre qu'il s'agissait d'une initiative privée et dont il reste à prouver que c'était une bonne idée. Les autres arguments que je viens d'énumérer, en revanche, me paraissent au minimum sérieux et recevables.

Je liste maintenant quelques contre-arguments assez évidents, que je vais essayer de répartir en grandes catégories :

  • Sur la représentativité, la compétence, etc. :
    • Être homme politique est un métier comme un autre : ils ont certes une forme de pouvoir, peut-être plus évidente que d'autres métiers, ou dont il est plus tentant d'abuser, mais le problème de leur représentativité, de leur honnêteté ou de leur attachement aux intérêts de ceux qu'ils doivent défendre ou représenter est fondamentalement le même que celui des médecins, des banquiers, des enseignants, des juges, des avocats, etc. Qui est un problème réel et sérieux mais qu'on ne propose pas de résoudre en tirant au sort les médecins et autres.
    • Comme les médecins, banquiers, enseignants, juges, avocats, etc., les hommes politiques ont une forme de compétence (savoir diriger, arbitrer, trancher est une qualité que tout le monde n'a pas — je suis personnellement certain d'en être complètement privé, et j'ai pu le constater expérimentalement à toutes sortes de reprises), et même s'il est quasi impossible de sélectionner cette qualité sans sélectionner aussi dans une certaine mesure le défaut qui va avec de la soif du pouvoir, cette qualité est néanmoins trop importante pour être laissée au hasard.
    • Plus spécifiquement : le simple fait de pouvoir consulter des experts (l'argument généralement donné pour expliquer qu'il n'est pas grave d'avoir des gens pas spécialement compétents sur quoi que ce soit) ne suffit pas pour avoir la compétence de trancher entre les avis contradictoires d'experts, ou de ne pas se laisser manipuler par eux.
    • Concrètement, il suffit d'assister à n'importe quelle assemblée générale de copropriété pour se rendre compte à quel point des gens pas spécifiquement formés à prendre des décisions s'en sortent mal. (Même lorsqu'il s'agit de leurs intérêts immédiats.)
  • Sur le symbole, l'équité, la perception du tirage au sort :
    • Symboliquement, le tirage au sort n'est pas juste ni équitable, il est tout le contraire : il est l'essence de l'injustice et de l'arbitraire. Attribuer le pouvoir selon le hasard d'un tirage au sort est peut-être socialement plus juste mais pas individuellement plus juste que l'attribuer selon, disons, le hasard (justement) de la naissance. (Quand on entend que quelqu'un a gagné au loto, la réaction ressemble plus souvent à c'est injuste !, pourquoi pas moi ? qu'à très bien, le loto est une façon d'assurer que la population des riches soit plus représentative socialement et ethniquement.)
    • Le tirage au sort ne confère aucune légitimité aux yeux des gouvernés. Au contraire, ils se sentent dépossédés de leur pouvoir individuel de choisir. Dans une élection, chaque voix compte. Dans un tirage au sort, chacun peut en principe être choisi, mais s'il ne l'est pas, son avis individuel n'est nullement pris en compte. (Or la proportion des citoyens qui serait, un jour dans leur vie, sélectionnée, resterait négligeable sur l'ensemble de la population.) Même s'il est vrai que chacun serait « statistiquement » représenté, c'est faire violence aux individus que de les réduire à des statistiques, et la beauté de la démocratie élective est que chaque votant participe réellement au processus, individuellement et pas seulement statistiquement.
    • Le tirage au sort ne confère aucune responsabilité aux yeux des choisis. Penser qu'ils feront usage de leur pouvoir d'autant plus sagement qu'ils le savent dû au seul hasard est aussi naïf que de s'imaginer que les gagnants du loto font un usage particulièrement sage de l'argent qui leur tombe du ciel : au contraire, ils seront d'autant plus tentés d'en profiter personnellement qu'ils sauront que c'est une occasion unique, qui ne se représentera pas, et dont ils ne sont redevables à personne.
  • Sur l'effet sur la société :
    • La suppression des élections supprimerait le débat d'idées qui va avec : nul ne serait incité à se faire un avis sur les questions politiques puisqu'on ne participerait aux décisions qu'au hasard (extrêmement improbable !) d'un tirage au sort.
    • La suppression des élections supprimerait la possibilité effective et essentielle de s'engager activement dans le processus de décision de son pays (au-delà du simple militantisme).
    • La suppression des élections supprimerait la notion même de parti politique (certains, évidemment, voient ça comme un but), qui aident à structurer les opinions politiques en grands choix de sociétés et envisagent le long terme.
    • Ajout : La mise en œuvre d'un programme politique demande une certaine cohérence et constance (et une capacité à prendre parfois des mesures impopulaires) que ne peut pas assurer une assemblée sans cesse nouvelle et reflétant à chaque fois toute l'opinion publique (donc sans majorité bien définie).
  • Sur la corruption et la résistance aux pressions :
    • Dans un système où les dirigeants font de la politique leur métier, la réélection ou la non-réélection sont les sanctions possibles d'un travail bien ou mal fait. Une personne tirée au sort n'a aucune récompense ou punition dans les mêmes conditions : même si son honnêteté (moyenne, par définition) est plus grande que celle d'un homme politique de carrière, elle ne le sauvera pas de la « tragédie des communs ».
    • Des personnes tirées au hasard ne sont pas armées pour résister aux pressions, tentatives de corruption, d'intimidation ou de trafic d'influence, dont elles seront assaillies en arrivant au pouvoir.

Un autre contre-argument parfois entendu est c'est populiste, et dit comme ça je le trouve assez con : je ne vois pas en quoi c'est plus (ni moins) populiste de tirer les dirigeants au sort que de les élire ; l'argument devient moins idiot si on dit que ça risque de renforcer le pouvoir de la majorité au détriment des minorités (ce qui est un vrai problème, qui n'a probablement pas de bonne solution, le mieux qu'on sache faire étant probablement de donner plus de pouvoir aux juges), mais j'ai du mal à croire que ça soit spécialement pire avec un tirage au sort qu'avec des élections.

Il y a bien sûr des contre-contre-arguments et des contre-contre-contre-arguments, mais je ne vais pas m'étaler indéfiniment. Disons juste que le principal contre-contre-argument que j'aie entendu est que la compétence de savoir diriger, arbitrer et trancher n'est pas une vraie compétence et que même dans la mesure où ç'en est une, les élections ne la sélectionnent absolument pas. Pour ceux qui veulent des arguments plus longs, je renvoie à cette page d'Étienne Chouard en faveur du tirage au sort (dont il est un des principaux, ou en tout cas des plus connus, défenseurs), et ce texte de Tommy Lasserre dans le sens contraire.

Puisque j'ai été sommé de donner mon avis personnel sur la question (enfin, mon avis à l'instant, parce qu'il pourrait bien être différent dans un mois ou dans un an), je dois dire qu'à peu près tous les arguments et contre-arguments que j'ai listés ci-dessus me semblent pertinents. C'est-à-dire que le tirage au sort est une idée intéressante, mais qu'elle a aussi d'énormes défauts, et que la question à se poser n'est pas de savoir si on peut remplacer les élections par un tirage au sort mais comment donner un certain rôle au tirage au sort dans une démocratie sans miner les principes de la démocratie elle-même (notamment l'engagement individuel, pas seulement statistique, de chaque citoyen).

Ajout/digression : Je devrais ajouter quelque part que je n'aime pas du tout, dans les arguments en faveur du tirage au sort, tout ce qui consiste essentiellement à cracher sur les dirigeants actuels (élus ou nommés). Même quand je n'aime pas les idées politiques, disons, du Premier ministre, j'essaie de garder en tête le fait qu'il a ce que je considère comme un boulot de merde (littéralement : plus une merde est grave plus elle remonte haut dans la hiérarchie, et ce qui remonte jusqu'au bureau du Premier ministre, ce sont les merdes les plus énormes) dont je ne voudrais pour rien au monde (et ce serait une catastrophe si on me le confiait ou si on me tirait au hasard pour l'exercer), que la critique est aisée mais l'art est difficile. Et aussi, le fait qu'un système politique soit hautement perfectible ne signifie pas que n'importe quelle idée simpliste supposée le remplacer soit automatiquement meilleure !

Une possibilité parfois avancée est celle de faire un compromis. Par exemple, avoir un parlement bicaméral, dont une chambre serait élue et l'autre tirée au sort. Ce serait incontestablement un progrès par rapport au furoncle qu'est le sénat dans la démocratie française. (Ceci étant, mon idée géniale numéro 1729 pour le sénat était de le désigner par petites fractions, peut-être 1/5 à chaque fois, à la fin de chaque mandat de la chambre basse, en faisant élire les nouveaux membres par la chambre basse sortante, de façon à représenter à la chambre haute les différentes majorités qui se sont succédé à la chambre basse ; ce qui permet d'en faire une chambre de réflexion à plus long terme, reflétant moins les soubresauts de l'opinion publique, et à laquelle il est alors justifié de donner un verrou sur toute réforme constitutionnelle. Maintenant, tant qu'à refaire le monde, on peut aussi imaginer un parlement tricaméral, avec une assemblée, un sénat comme je viens de dire, et une troisième chambre tirée au hasard ; on pourrait même imaginer qu'une loi doive être votée dans les mêmes termes par deux des trois assemblées, cela donnerait une dynamique intéressante.) Mais je ne suis pas persuadé que ce tout ça soit une idée fantastique : le problème demeure que donner du pouvoir aléatoirement sera ressenti comme une forme d'injustice et d'arbitraire.

On peut aussi faire un compromis d'un genre différent : mettre le tirage au sort à la fin d'une élection. Par exemple, imaginer que l'élection présidentielle se fasse non pas entre des candidats, mais entre des groupes d'un certain nombre de candidats (au pif, disons cinq). On ne pourrait se présenter que par groupe de cinq, et les électeurs éliraient un groupe de cinq, selon les modalités qui prévalent actuellement. Et à l'extrême fin, une fois qu'un groupe de cinq a été élu, un des cinq serait tiré au hasard pour occuper effectivement la fonction. L'intérêt de la manœuvre serait d'empêcher la campagne de se concentrer sur une seule personne, de forcer le débat à avoir lieu autour des idées, de fonder la légitimité de l'élection sur des projets et pas des individus, et d'obliger les hommes politiques à constituer des alliances. Je trouve cette idée très amusante, même si je ne sais pas ce que ça donnerait en pratique. Mais c'est une forme de tirage au sort complètement différente de celle qui était évoquée plus haut, et qui n'a pas du tout les mêmes vertus, donc c'est un peu un hors-sujet. Ajout : j'oubliais de faire un lien vers ce texte qui explicite une autre proposition intéressante (même si je ne suis pas forcément d'accord dans les détails) sur la manière de forcer le débat politique à se tourner vers les idées plutôt que les personnes.

Mais finalement, je pense que le rôle du tirage au sort qui me séduit le plus est encore un peu différent. Essentiellement, il s'agirait de confier non pas tant un pouvoir à des citoyens tirés au sort mais plutôt une mission — disons donc que j'imagine des commissions tirées au hasard, pas une assemblée. Ces commissions auraient certes des pouvoirs, mais ils seraient très limités, en temps et en périmètre. Un peu comme un jury d'assises, que l'on convoque pour juger une affaire bien précise, et que l'on renvoie après. En contrepartie, on peut en avoir beaucoup. Tirer au hasard une commission ne coûte essentiellement rien (il faut dédommager les commissaires, mais un pays comme la France ou une institution comme l'UE peut bien se permettre d'en avoir beaucoup en même temps), on peut donc en créer autant qu'il y a de missions à traiter, et les renvoyer ensuite. Cela éviterait que les personnes tirées au hasard se croient dépositaires d'un pouvoir, ou que le citoyen non tiré au hasard les voie comme des sortes de gagnants du loto.

Je peux imaginer toutes sortes de missions qu'on pourrait confier à de telles commissions tirées au hasard, et qui serviraient de complément et de contrôle à un système politique traditionnel (avec des élections, un parlement, etc.). Je donne quelques exemples, mais ce ne sont que des exemples. La première mission évidente, c'est celle, justement, d'attribuer d'autres missions : je peux donc imaginer une commission (tirée au hasard) et qui aurait comme seul et unique pouvoir de créer d'autres commissions (également tirées au hasard) et de leur affecter des missions (de contrôle, d'étude, d'enquête, de décision, etc.) dans un cadre bien précis ; façon d'éviter que cette commission-mère croie avoir un pouvoir autonome : elle n'aurait que le pouvoir de créer des pouvoirs, qui seraient ensuite entre les mains de personnes tirées au hasard. (Bien sûr, cela n'exclut pas que d'autres institutions, comme le parlement ou un simple groupe parlementaire, puissent aussi créer des commissions tirées au hasard.)

Même si on imagine donner un rôle législatif à des personnes tirées au hasard (et je répète que je suis sceptique à ce sujet), en tout cas, l'indirection me semble cruciale pour éviter l'effet « gagnants au loto » : si la commission tirée au hasard ne peut pas faire de loi sur tel ou tel sujet mais seulement convoquer une autre commission qui aura, elle, le pouvoir de faire une loi sur un sujet étroitement défini par sa lettre de mission, personne ne s'imaginera détenir un grand pouvoir. Mais de toute façon, j'imagine plutôt un rôle de complément à un parlement élu (qui pourrait, cependant, forcer le parlement à inscrire tel ou tel sujet dans son ordre du jour, à voter sur tel ou tel sujet, ou à convoquer un referendum).

Les autres missions de commissions tirées au hasard pourraient être, par exemple, de s'emparer d'un sujet de société pour examiner la possibilité de légiférer à son sujet (possibilité qui serait alors renvoyée devant le parlement, ou à referendum, ou peut-être devant encore une autre commission tirée au hasard). Ou bien de réfléchir à la possibilité de faire un referendum, d'en préparer le débat et de veiller à ce qu'il soit serein. Ou bien d'enquêter sur tout sujet ou tout scandale qui intéresse l'opinion publique (avec au moins les pouvoirs d'une commission d'enquête parlementaire). Ou encore, d'étudier la possibilité de la destitution du tenant de tel ou tel poste institutionnel ou la dissolution de telle ou telle assemblée (possibilité qui serait, de nouveau, confirmée par un referendum ou par encore une nouvelle commission tirée au hasard pour mener une contre-enquête). Ce ne sont que quelques idées, mais on voit le genre : pour résumer, avoir une assemblée parlementaire tirée au hasard me semble plutôt néfaste, mais avoir des commissions tirées au hasard avec des missions ciblées et limitées, mais qui puissent se convoquer les unes les autres et, au final, exercer un contrôle indépendant et fort sur les institutions élues ou nommées, cela me semble nettement plus prometteur.

On aura bien deviné que ces réflexions sont au moins en partie inspirées par l'actualité politique française. Je vais m'abstenir de commenter sur le fond de cette affaire parce que j'en entends suffisamment sur Twitter et je remarque que l'avis de tout le monde sur le fond coïncide comme par hasard avec leur opinion politique a priori (je veux dire, je n'ai pas réussi à trouver une seule personne qui dise soit j'admire et je continue d'admirer la politique d'Emmanuel Macron mais je suis horrifiée par son attitude dans cette affaire soit je déteste la politique d'Emmanuel Macron mais je trouve qu'on s'émeut pour pas grand-chose dans cette histoire), et comme ce sont des choses qui devraient être indépendantes, la seule explication est que tout le monde est de mauvaise foi ; et comme mon propre avis (qui n'est guère favorable au président) suit cette règle générale, j'en déduis que je suis de mauvaise foi comme tout le monde, or je n'aime pas être de mauvaise foi. (Pardon, j'adore être de mauvaise foi, mais je n'aime pas l'être involontairement.) Mais il y a quand même une chose que je peux dire en ne touchant que marginalement au fond, et quitte à radoter lourdement, c'est que je suis horrifié par l'étendue des pouvoirs du président, qui n'est pas censé avoir d'autorité sur la police[#], or manifestement il en a dans les faits, et personne n'a l'air de vraiment se scandaliser qu'il en ait[#2]. Toujours est-il que le problème dans le problème, c'est que le président français n'est vraiment responsable devant personne, à la fois parce que le parlement ne peut pas l'écouter (ce qui est une honte), il ne peut que lancer une procédure très lourde en cas de manquement à ses devoirs manifestement incompatible avec l'exercice de son mandat, et parce que même si insitutionnellement le parlement pouvait l'écouter, il ne le ferait pas parce que le système politique français et son culte du chef ne savent produire que des godillots (ce qui est tout autant une honte).

[#] Le président de la République n'est pas le supérieur du ministre de l'Intérieur ni de qui que ce soit au gouvernement, il a juste le pouvoir de présider le conseil des mininistres, ce n'est déjà pas normal qu'on le considère comme le chef du gouvernement ; mais même s'il était le supérieur du ministre de l'Intérieur, la relation être le supérieur de n'est pas transitive.

[#2] Une observation générale : quand quelqu'un fait X qu'il n'est censé ni faire ni pouvoir faire, il devrait y avoir deux scandales bien distincts : qu'il ait fait X, et qu'il ait pu faire X. Souvent l'opinion publique soit mélange complètement les deux soit se focalise sur un seul des deux. Je me souviens par exemple quand on a appris que le mobile d'Angela Merkel était écouté par les services secrets américains, beaucoup de gens se sont émus du fait que les Américains écoutent le mobile de la chancelière allemande — mais je n'ai rien entendu sur le second scandale, qui ait que les américains avaient les moyens d'écouter le mobile en question, ce qui est une question bien différente.

Donc, pour en revenir à mon sujet, ce serait un excellent cas concret et utile d'application de commissions citoyennes tirées au sort : que l'opposition parlementaire (et/ou une commission permanente chargée de créer d'autres commissions, cf. ci-dessus) puisse ouvrir une commission citoyenne, tirée au sort donc aussi impartiale que possible (contrairement au parlement), commission laquelle aurait la mission d'enquêter sur des faits précisément délimités, et à cette fin de convoquer et d'interroger toutes les personnes qu'elle jugerait utile, y compris le président de la République, et y compris sur des questions classées secret défense[#3] ; cette commission d'enquête pourrait ensuite publier un rapport et/ou, si elle l'estime approprié, ouvrir une procédure de destitution (qui aurait elle-même des garde-fous, évidemment, parce qu'il ne faut pas que la moindre vague d'impopularité puisse faire tomber l'exécutif ; je ne vais pas décrire plus précisément mes idées possibles à ce sujet parce que, comme je l'ai dit plus haut, ça n'a qu'un intérêt limité d'imaginer des constitutions idéales).

[#3] L'intérêt de tirer les membres de la commission au hasard, c'est qu'elle ne peut pas être infiltrée par des puissances étrangères (sauf à infiltrer une proportion significative de la population, auquel cas de toute façon tout est foutu). Donc il n'y a pas d'objection tenable à ce que ses membres reçoivent automatiquement et de droit toutes les accréditations nécessaires à entendre tous les secrets pertinents pour leur enquête. (Si quelqu'un dit mais ça revient à accréditer n'importe qui !, c'est qu'il n'a pas compris la manière dont fonctionne le hasard : cf. le fait que, même s'il n'est pas raisonnable de partir en laissant un sac sans surveillance parce que n'importe qui pourrait le voler, il est parfaitement raisonnable de prendre une ou deux personnes choisies au hasard et leur demander de surveiller le sac.)

Évidemment, rien de tout ça n'est très satisfaisant : le problème du fait qu'il est peut-être trop facile pour des professionnels de berner une vingtaine de personnes tirées au hasard est sérieux ; ou plutôt que, même après avoir auditionné les responsables de la majorité qui leur diront X et les responsables de l'opposition qui leur diront ¬X et des experts qui leur diront tout et son contraire, chacun se repliera sans doute sur sa mauvaise foi politique naturelle (cf. ci-dessus) et il est peu probable que se produisent des miracles comme dans Twelve Angry Men. Ça reste néanmoins plus satisfaisant que d'utiliser les commissions d'enquête parlementaires, qui sont par essence politiquement biaisées : au moins le tirage au sort laisse-t-il imaginable qu'il y ait suffisamment de personnes de bonne volonté pour arriver à vaincre leur propre mauvaise foi. (Surtout que je crois beaucoup à l'effet psychologique important d'annoncer à quelqu'un que sa mission est d'être politiquement impartial, peut-être de lui en faire réciter le serment.)

D'ailleurs, il semble que, pendant la campagne présidentielle, un candidat avait proposé presque exactement ça : que le président de la République soit auditionné, chaque année, par des citoyens tirés au hasard, pour rendre compte de son action. Comment s'appelait-il, déjà, ce candidat ? Ah oui, Emmanuel Macron. [Bon, là j'aurais voulu faire un lien vers une page Web qui aurait explicité cette proposition, mais je ne trouve rien de vraiment convaincant. Si quelqu'un a un lien à proposer, je suis preneur.] Bizarrement, je n'ai pas l'impression que cette proposition ait survécu dans la réforme de la constitution qu'il essaie de mener maintenant.

Bon, bref, tout ça est mon avis personne à moi que j'ai, et que j'ai maintenant : je me réserve expressément le droit de me contredire demain avec force. Mais en l'état, je résume cette position par : le tirage au sort est une excellente idée tant que les personnes tirées au sort reçoivent non pas des pouvoirs mais des missions précises (la plus importante étant celle de contrôler ceci ou d'enquêter sur cela).

Tout ça reste de la masturbation intellectuelle parce que les constitutions réelles ne ressemblent pas à des constitutions idéales et parce que les gens qui écrivent les premières ne daignent pas consulter ceux qui rêvent les secondes (et surtout pas des avis aléatoires sur Internet). Mais bon, la masturbation intellectuelle, c'est un peu ma spécialité, alors…

↑Entry #2540 [older| permalink|newer] / ↑Entrée #2540 [précédente| permalien|suivante] ↑

↓Entry #2539 [older| permalink|newer] / ↓Entrée #2539 [précédente| permalien|suivante] ↓

(jeudi)

Où je me perds dans les tarifs d'Orange

Je vais passer quelques jours en Suisse avec le poussinet. Comme je suis accro à l'Internet mobile, je veux savoir si mon offre couvre la Suisse, ou plutôt, à quel prix. Ça devrait être facile. « Devrait. »

Le problème est que j'ai une offre qui n'existe plus. (Je suppose que c'est très courant : les opérateurs changent tout le temps leurs formules, ils ne peuvent pas vraiment le faire rétroactivement, donc plein de clients doivent se retrouver avec des offres en extinction. Pour les punir, on les met dans l'impossibilité pratique de savoir à quoi ils ont droit au juste.)

Plus précisément, je suis chez Orange, et j'ai une offre prépayée Mobicarte, parce que je n'aime pas l'idée qu'un opérateur mobile puisse débiter librement mon compte bancaire s'il lui prend la fantaisie de rêver que j'ai consommé 80Go de données aux îles Tuvalu.

Mon offre s'appelle Classique [facturation à la] seconde ([version] 2009). Là, il est encore possible de trouver des infos dessus. Avec cette offre telle quelle, l'accès Internet coûte 0.50€/Mo (je vais expliquer au paragraphe suivant que je ne paye pas ça) dans toute la région Europe, DOM et Suisse/Andorre ; par ailleurs, vers cette même région, les SMS coûtent 0.12€ (ou 0.10€ le week-end) l'unité, les MMS coûtent 0.30€ et les appels vocaux coûtent 0.50€/min : ça, ça colle avec ce qui m'est facturé. En fait, ce ne sont pas vraiment des euros, ce sont des zorkmids, parce que quand je recharge en payant 100€ (ce que je fais, tous les 10 mois environ), Orange me crédite 150€ sur mon compte, donc c'est comme si je payais 2/3 des prix que je viens de dire (où s'ils étaient en fait en zorkmids valant (2/3)€ ; ceci étant, pour des raisons légales, ce sont quand même bien des euros).

Maintenant, la complication, c'est que j'ai une option Internet Max, tout aussi éteinte, qui me coûte 12€/mois (c'est-à-dire en fait 12 zorkmids) renouvelée automatiquement, et qui me donne un Internet « illimité ». Où illimité signifie que j'ai droit à 500Mo/mois, après quoi ils ont le droit de brider mon débit, mais pas de me facturer plus (j'aime beaucoup ce principe : c'est ce qui se faisait initialement, et j'ai l'impression que ce genre de clause a disparu des offres [ajout : en fait il semble que j'aie mal compris et que peut-être ça reste courant]). Or je soupçonne fortement qu'ils n'ont pas ou plus les moyens techniques de brider, parce que je n'ai rien observé de particulier quand il m'est arrivé de dépasser 500Mo/mois [ajout : en fait il semble que le bridage corresponde à un bloquage de la 4G, mais comme de toute façon je n'accède pas à la 4G… il ne m'arrive rien]. Ceci étant, 500Mo/mois correspond à peu près à ce que je consomme effectivement, donc cette offre me va très bien. Dans la pratique, je paye donc de l'ordre de 10€/mois pour une offre Internet prépayée de facto illimitée, j'ai l'impression que c'est assez concurrentiel. Il y a certes des limitations : je paye très chers les appels (mais je n'en passe jamais), je paye très chers les SMS et MMS (mais j'en envoie extrêmement peu), je ne sais pas si j'ai droit à la 4G (de toute façon, ma SIM ne le fait pas et j'ai la flemme d'en changer), et je ne suis pas très sûr de ce qui se passe si je dépasse les 500Mo de données téléchargées (dans la pratique, rien du tout). Comme essentiellement tout ce que je fais, c'est lire Wikipédia et utiliser Google Maps, je ne regarde jamais de vidéos sur mobile, tout ça correspond très bien à mon usage, et j'en suis content.

Bref, j'ai la formule Classique seconde (2009) + option Internet Max (Interenet illimité), deux choses qui n'existent plus de l'offre Orange. Avant que l'Union européenne n'interdise le frais d'itinérance en Europe, je prenais des packs spéciaux quand je quittais la France. Ces frais d'itinérance ayant été supprimés, dans l'UE, j'ai toujours Internet illimité. J'ai observé il y a quelques mois que c'était bien le cas en Italie : mes accès Internet étaient effectivement gratuits (légalement ils sont obligés, mais on pouvait toujours craindre un bug dans la combinaison d'une option éteinte et d'une réglementation toute fraîche). Mais qu'en est-il de la Suisse ?

Sur mon espace client Orange, j'ai droit au charmant message suivant :

L'ancienneté de votre offre ne permet pas l'affichage du détail de vos services et options. N'hésitez pas à découvrir nos nouvelles offres.

Ben voyons.

Sur le document contractuel des tarifs Orange, ma formule Classique seconde (2009) apparaît bien avec les tarifs que j'ai listés plus haut (tableau en bas de la page numérotée 7, qui est la 4 du PDF). L'option Internet Max, en revanche, n'est mentionnée nulle part. Elle se rapproche des recharges Max (le Club Contexte vous salue, Messieurs de chez Orange) listées à la page numérotée 5, mais ne correspond à aucune d'entre elles (puisqu'elle coûte 12€ pour un mois et ne donne accès qu'à Internet illimité, pas aux SMS/MMS).

Ce que je trouve de plus précis pour décrire l'option Internet Max, c'est ce contrat (qui confirme que c'est bien illimité, avec bridage possible à partir de 500Mo), mais il est antérieur à la suppression des frais d'itinérance dans l'UE et ne s'applique donc que pour la France.

Ce que je constate quand même, c'est que partout dans les tarifs Orange, la Suisse et Andorre sont regroupées avec l'UE et les DOM. Cela suggère qu'Orange ne fait aucune distinction, et que cette absence de distinction s'appliquera même à moi, parce qu'ils n'ont tout simplement pas l'infrastructure technique pour la faire (et qu'ils n'ont pas envie de la créer pour quelques offres éteintes). Ajout : on me signale en commentaire ce document qui dit assez clairement que la Suisse, comme l'UE, est désormais assimilée à la France sur toutes les offres Orange : ça répond assez bien à ma question.

Bref, au pire ça me coûtera 0.50€/Mo (ce qui est exorbitant mais quand même pas hors de mes moyens), au mieux ça ne me coûtera rien, et ça semble impossible de savoir à l'avance. (Je pense que ce n'est même pas la peine que j'appelle le service client au téléphone ou que je demande dans une boutique : je passerai une heure à attendre, puis une heure à expliquer ma question, et au final je n'aurai aucune réponse.)

Bon, je le saurai bientôt. Mais ce qui est un peu agaçant, c'est que la seule façon de savoir semble être d'aller en Suisse et de voir si le crédit de mon compte mobile fond comme la neige au soleil.

(Solutions de repli : (0) payer les 0.50€/Mo (enfin, zorkmids), (1) passer à une recharge Max d'Orange, qui me coûtera 67% de plus que ce que je paye actuellement, et sans retour en arrière possible, et me limitera à 2Go/mois mais en contrepartie j'aurai les SMS et MMS illimités, ou (2) prendre une offre prépayée quelconque chez un opérateur suisse, mais je serai embêté de devoir jongler avec deux cartes SIM ou bien je devrai utiliser un mobile de secours pour être quand même joignable sur mon numéro français.)

Bref, #FirstWorldProblems.

Bilan : Rétrospectivement, l'analayse la Suisse, comme l'UE, est assimilée à la France était la bonne (au moins dans mon cas), et je n'ai pas payé pour l'usage d'Internet.

↑Entry #2539 [older| permalink|newer] / ↑Entrée #2539 [précédente| permalien|suivante] ↑

↓Entry #2538 [older| permalink|newer] / ↓Entrée #2538 [précédente| permalien|suivante] ↓

(lundi)

Qui est on dans on a gagné ? (plus une digression sur les astronautes)

Pour des raisons évidentes, aujourd'hui, j'ai entendu un certain nombre de gens dire des choses dans le genre de on a gagné. Ça m'a amené à repenser à quelque chose que j'avais déjà raconté dans une entrée passée, et que j'ai envie de développer un peu. J'y écrivais :

Par exemple, je pourrais prendre des groupes d'une dizaine ou d'une douzaine de millionnaires (mettons onze, ça fait un bon nombre, ça, onze), dire aux gens voilà, ces gens représentent votre pays ou votre ville, et les faire courir après un objet sphérique auquel ils chercheraient à imprimer une trajectoire particulière, pour un résultat essentiellement aléatoire qu'on perdrait son temps à essayer d'interpréter. […]

Sérieusement, je suis fasciné par la manière dont les gens arrivent à se sentir émotionnellement impliqués par les résultats d'une compétition sportive dans laquelle ils ne sont pas personnellement inscrits, comment ils arrivent à avoir la sensation d'avoir gagné quand « leur » équipe gagne, et d'en être véritablement heureux. C'est quelque chose d'à la fois merveilleux, terrifiant, et absolument inexplicable (enfin, c'est peut-être explicable scientifiquement par des mécanismes de psychologie évolutive, mais je veux dire que c'est incompréhensible lorsqu'on ne ressent pas soi-même le phénomène — même si on le ressent pour quelque chose d'extrêmement proche).

J'avais un copain qui me racontait qu'en 1998, quand la France avait gagné la coupe du monde de football association et que des gens fous de joie criaient dans les rues on a gagné ! on a gagné !, il s'était amusé à faire l'ingénu : ah, vous avez gagné quelque chose ? félicitations !, qu'est-ce que c'est ? du football ? ah, vous jouez au football ? et vous avez gagné contre qui ? (etc.) — les réactions étaient apparemment intéressantes.

Pour que les choses soient claires, je ne veux pas faire mon Sheldon Cooper sur le mode ha, ha, regardez ces créatures simples qui s'émerveillent des lois de la mécanique classique appliquées au mouvement d'une sphère et aux tactiques qui en résultent. Le fait que les résultats soient essentiellement aléatoires, je l'ai déjà signalé. À la limite, je suis plutôt jaloux qu'on arrive à éprouver ainsi du bonheur par procuration. Mais surtout, je n'ai aucun doute que ce phénomène général s'applique aussi à moi, simplement pas dans les circonstances précises d'un match sportif entre villes ou pays […].

J'insiste : mon but n'est pas de me plaindre ou de me moquer des fans de foot, ni de faire mon geek grincheux qui n'aime pas le foot[#]. En fait, mon but n'est pas du tout de parler de foot. Il est de m'interroger sur le nous dans nous avons gagné (enfin, le on dans on a gagné, mais je ne veux pas non plus m'étendre sur la disparition du pronom de la première personne du pluriel en français parlé). Je suppose que les linguistes ont un terme pour ça, un pronom de la première personne du pluriel qui englobe plus que les personnes qui ont strictement participé à l'action mais d'autres personnes qui estiment s'y rattacher : je n'ai pas envie de chercher le bon terme, et mon intention n'est pas de parler de linguistique. Appelons-ça un nous d'adhésion (et symétriquement, on peut avoir le vous d'adhésion quand on s'adresse à quelqu'un qui n'a pas personnellement participé à quelque chose). Donc nous avons gagné, à part prononcé par l'un des gus qui étaient sur le terrain et éventuellement leur entraîneur, c'est un nous d'adhésion.

Je repense à cette histoire que quelqu'un m'avait racontée d'un classiciste qui avait sans faire attention, affirmé que nous avions remporté la bataille de Marathon. Qui peut légitimement dire nous avons gagné à Marathon ? Les Athéniens actuels ? Les Grecs ? Les Européens ? Personne, parce que tous ceux qui ont vraiment combattu dans cette bataille sont morts depuis environ 2500 ans ? Tous ceux qui se considèrent comme héritiers de la culture classique ?

Ou encore, qui peut légitimement dire nous avons marché sur la Lune ? Les quatre personnes encore vivantes qui ont effectivement posé le pied sur la Lune ? (Par Artémis !, je ne pensais pas qu'il en restait aussi peu.) Les astronautes[#2] en général ? Les employés de la NASA ? Tous les Américains ? Toute l'Humanité ? (Ce serait légitimé par la phrase gravée sur la plaque qui a été posée par les astronautes d'Apollo 11 : we came in peace for all mankind. Ça ne me semble pas ridicule de dire nous avons posé le pied sur la Lune pour la première fois en 1969 même si, divulgâchis, je n'y étais pas personnellement.) En fait, je me souviens avoir entendu quelqu'un choisir une autre interprétation : dénonçons-le, il s'agissait de Brandon Carter qui un jour, au cours d'un dîner, s'est tourné vers ses filles et moi et a dit c'est nous qui avons marché sur la Lune, pas vous, et ce qu'il voulait dire, c'était notre génération (ceux qui sont nés vers les années '30).

Dans tous les cas, la réponse à qui peut dire nous ? est celui qui voudra bien s'identifier à ce groupe, parce qu'il n'y a pas de police pour vérifier votre carte d'appartenance au club des vainqueurs de Marathon ou de ceux qui ont marché sur la Lune. (La porte ouverte me remercie pour le grand coup de hache bénie que nous lui avons donné.) Mais ce qui m'intéresse, c'est ce qu'on fait spontanément, sans y réfléchir, et c'est pour ça que m'intéresse l'histoire de ce classiciste pour qui nous avons gagné la bataille de Marathon : ce n'était pas une volonté délibérée de s'afficher comme ceci ou cela, c'était presque un lapsus. Le supporter des Bleus dit on a gagné, mais moi, quand j'ai appris qu'ils avaient gagné, j'ai dit, justement, ils ont gagné — ce n'était pas médité, c'est juste ce qui m'est naturellement venu comme phrase.

Il serait donc intéressant de trouver moyen de poser à des gens (disons des Français, pour cet exemple) des questions comme qui a gagné la seconde guerre mondiale ? pour voir s'ils répondent les Alliés ou nous ou les Russes, les Américains, les Britanniques et nous ou d'autres choses de ce genre. Puis varier les groupes ou les dates. Est-ce que les supporters de foot actuels disent on avait déjà gagné en 1998 ? Y compris s'ils n'étaient pas nés à ce moment-là ? (Oui, oui, je me sens vieux, tout ça tout ça.)

Je n'ai rien d'intelligent à dire sur la question, à part qu'il est intéressant de se la poser. Le problème est que, maintenant que j'en ai pris conscience, je ne dirai plus nous spontanément, donc je n'aurai pas la réponse me concernant. Mais j'essaierai de faire plus attention à ce point quand les gens parlent.

Ajout () : On me signale ce sketch de Mitchell&Webb qui, en plus d'être hilarant, est effectivement hautement pertinent pour la question.

[#] En tout cas, les petits dérangements causés par le Mondial, s'il y en a ce nombre tous les quatre ans, et moins quand la France se fait éliminer rapidement, ce n'est pas la mer à boire. A contrario, il y a des garçons choupinous dans l'équipe, je n'ai rien contre voir des photos de Griezmann apparaître sur les murs du métro, moi.

[#2] Ah, ça me rappelle que je m'étais promis de ranter quelque part contre cette idée profondément conne selon laquelle il faudrait dire cosmonaute pour les Russes, astronaute pour les Américains, spationaute pour les Français (Européens ?), et ne parlons pas des cas où ça devient vraiment ridicule : taïkonaute (terme inventé par des zinzins pour plaire aux médias occidentaux) voire vyomanaute. Je ne sais pas si ça vaut vraiment la peine de faire ce rant ou de fracasser une seconde porte ouverte en pointant du doigt le fait qu'il n'y a aucun autre métier où on trouve nécessaire de pratiquer une distinction de ce genre. En revanche, comme supplément-bonus à cette entrée, je peux en profiter pour signaler ce que j'avais appris en cherchant à savoir comment cette distinction était apparue :

Le terme astronaute semble être vieux, utilisé dans la fiction, et au début pour désigner le vaisseau et pas ses passagers. La première occurrence répertoriée par le OED et signalée sur Wikipédia est le roman de science-fiction de 1880, Across the Zodiac de Percy Greg, où astronaut est utilisé de la sorte. La première occurrence répertoriée par le OED pour désigner le passager date de 1929, dans le Journal of the British Astronomical Association (et encore, je me demande comment ils arrivent à conclure que ça désigne la personne, puisque c'est The first obstacle encountered by the would-be Astronaut, viz. terrestrial gravitation — ça pourrait aussi faire référence au vaisseau, mais peut-être que le contexte est plus clair).

Le terme cosmonaute, lui, semble avoir une origine beaucoup plus précise, si j'en crois la Wikipédia en russe (vaguement soutenue par l'OED, mais contredite par la Wikipédia en anglais laquelle attribue le terme à Mihail Klavdievič Tihonravov [Михаил Клавдиевич Тихонравов]) : elle vient de l'oeuvre scientifique d'un Juif polonais qui a étudié en France et travaillé pour l'URSS, Ary Abramovič Sternfeld [Ари Абрамович Штернфельд], dans un texte de 1929–1933, Introduction à la cosmonautique (traduit en russe en 1937 comme Введение в космонавтику). Le rebondissement est donc que le terme cosmonaute semble en fait être apparu pour la première fois… en français. (Et du coup, en fait, beaucoup de dictionnaires se plantent en prétendant que le terme français vient du russe, c'est exactement le contraire !)

La Wikipédia en russe, toujours, ajoute que ces termes cosmonaute et cosmonautique ont longtemps paru exotiques, et que même l'auteur de fictions et de vulgarisations scientifiques Âkov Isidorovič Perel'man [Яков Исидорович Перельман] a reproché à Ary Sternfeld de compliquer les choses en utilisant des néologismes plutôt que les termes établis astronautique, astronaute, raketodrome (je ne sais pas quoi transcrire, ici, le terme russe [ракетодром] est essentiellement ce que j'ai écrit, raketa [ракета] veut dire fusée).

Quand Youri Gagarine [Ûrij Alekseevič Gagarin / Юрий Алексеевич Гагарин] s'est envolé, un conseil d'experts (dont Sergueï Korolev [Sergej Pavlovič Korolëv / Сергей Павлович Королёв] et Mstislav Vsevolodovič Keldyš [Мстислав Всеволодович Келдыш]) a décidé que le terme cosmonaute [kosmonavt / космонавт] était plus approprié, et à partir de la fin 1960, tous les documents officiels russes utilisaient le terme lëtčik-kosmonavt [лётчик-космонавт ; décidément, je ne sais vraiment pas comment décider de transcrire le russe], soit quelque chose comme aviateur-cosmonaute. La logique est expliquée par un paragraphe plus loin (dans la Wikipédia en russe) qui précise que le terme astronaute [astronavt / астронавт] s'est spécialisée en science-fiction pour désigner un cosmonaute du futur lointain, capable de vols interstellaires.

Et dans ce sens je suppose que c'est raisonnablement logique : on ne peut pas atteindre les étoiles donc astronaute est trop ambitieux, cosmonaute est plus modeste, j'imagine que c'est pour ça que Sternfeld l'a préféré et que les experts soviétiques l'ont choisi. L'allemand Raumfahrer (et pas Sternfahrer ou Sternenfahrer) est d'ailleurs essentiellement construit sur le même modèle.

L'anglais ayant tous les mots possibles imaginables, il a quand même inventé un mot pour quelqu'un capable d'atteindre les étoiles (l'astronavt russe, vous suivez ?), c'est starfarer. Scandale, ce mot n'apparaît pas dans mon édition de l'OED. Mais c'est utilisé dans le titre d'un jeu, starfarers of Catan, qui traduit l'allemand Sternenfahrer von Catan.

Bref, si on tient absolument à ne pas considérer les termes astronaute et cosmonaute comme interchangeables, plutôt que de les choisir en fonction de la nationalité de la personne, le plus raisonnable est d'utiliser astronaute pour quelqu'un capable de traverser les distances interstellaires (uniquement dans la SF, donc), et cosmonaute (ou peut-être planétonaute) pour celui qui reste dans notre système solaire.

↑Entry #2538 [older| permalink|newer] / ↑Entrée #2538 [précédente| permalien|suivante] ↑

↓Entry #2537 [older| permalink|newer] / ↓Entrée #2537 [précédente| permalien|suivante] ↓

(dimanche)

Un problème d'algorithmique (en lien secret avec la formule de Weyl)

Méta : Régulièrement je tombe sur des problèmes mathématiques qui me paraissent tellement simples, tellement naturels et/ou tellement évidents (je veux dire évidents à poser, pas forcément évidents à résoudre !) que c'est inconcevable qu'il n'existe pas déjà une littérature abondante à leur sujet. Mais faute de connaître les bons mots-clés ou la bonne façon de formuler le problème (car souvent un même problème admet mille et une reformulations ou réinterprétations), je peux galérer pour mettre le doigt sur cette littérature. C'est extrêmement frustrant. Pour digresser sur ce problème en général, cf. par exemple cette vidéo où le YouTubeur Tom Scott passe la moitié du temps à raconter combien il a eu du mal à trouver le terme Inogon light pour en savoir plus sur un type de signal nautique utilisant intelligemment des effets de moiré pour montrer aux bateaux où aller en fonction de leur position. L'Internet a quelque chose de la Kabbale : quand on connaît le Vrai Nom de quelque chose, on acquiert du pouvoir sur cette chose — en l'occurrence, le pouvoir d'en savoir plus. Le problème que je veux évoquer ici fait partie de ces problèmes qui me semblent tellement « s'imposer » que je suis sûr qu'il a un nom et qu'il y a des chapitres entiers de bouquins d'algorithmiques qui lui sont consacrés ; mais comme je ne le formule pas forcément sous le bon angle, je ne trouve pas.

Il s'agit, donc, de quelque chose que je comprends raisonnablement bien du côté mathématique, mais dont l'algorithmique me laisse passablement perplexe. Ce qui veut dire que j'ai beaucoup de choses à raconter, dont beaucoup ne sont sans doute pas pertinentes pour le problème algorithmique, mais je ne sais pas au juste ce qui l'est et ce qui ne l'est pas.

Voici la première variante du problème algorithmique, qui est la plus simple et élémentaire à énoncer : je vais l'appeler la variante (AS), parce que je vais vouloir en formuler un certain nombre, ce sera plus commode si je leur donne des noms. (Le S signifie symétrique ; le A est là comme dans la classification de Killing-Cartan, mais pour l'instant peu importe.)

(AS) On se donne x et y deux vecteurs (de longueur, disons, n≥1), à coordonnées entières. Je suppose que la somme des coordonnées de x est nulle, et pareil pour y (je ne sais pas si ça sert vraiment à quelque chose).

Problème : trouver tous les produits scalaires possibles σ(xy entre y et un vecteur σ(x) obtenu en permutant les coordonnées de x, avec, pour chacun, son nombre d'occurrences, c'est-à-dire le nombre de permutations σ des coordonnées de x qui conduisent à ce produit scalaire.

Exemple : si x=(−2,−1,0,1,2) et y=(−2,0,0,1,1), la réponse attendue est {−7: 4 fois, −6: 4 fois, −5: 12 fois, −4: 8 fois, −3: 12 fois, −2: 4 fois, −1: 8 fois, 0: 16 fois, 1: 8 fois, 2: 4 fois, 3: 12 fois, 4: 8 fois, 5: 12 fois, 6: 4 fois, 7: 4 fois} (chaque produit scalaire possible σ(xy étant suivi de son nombre d'occurrences : notamment, il y a 16 permutations des coordonnées de x qui donnent un produit scalaire nul avec y). • Autre exemple : si x=y=(−2,−1,0,1,2), la réponse attendue est {−10: 1 fois, −9: 4 fois, −8: 3 fois, −7: 6 fois, −6: 7 fois, −5: 6 fois, −4: 4 fois, −3: 10 fois, −2: 6 fois, −1: 10 fois, 0: 6 fois, 1: 10 fois, 2: 6 fois, 3: 10 fois, 4: 4 fois, 5: 6 fois, 6: 7 fois, 7: 6 fois, 8: 3 fois, 9: 4 fois, 10: 1 fois}.

Il y a évidemment plein de façons de reformuler ça et plein de remarques évidentes à faire. Par exemple, je peux dire qu'il s'agit de considérer toutes les façons d'apparier (bijectivement) les coordonnées de x avec celles de y et de sommer les produits des coordonnées appariées entre elles : sous cette forme, il est évident que le résultat est symétrique entre x et y ; par ailleurs, il est clair que ça ne change rien de permuter les coordonnées de x ou celles de y, donc on peut les supposer triées au départ. Si on veut, je me donne deux paquets (deux « multiensembles ») x et y de nombres, de même taille, mais sans ordre, et je cherche toutes les façons de faire un produit scalaire.

On peut considérer le résultat comme un multiensemble (le multiensemble de tous les produits scalaires σ(xy comptés avec la multiplicité de l'occurrence de chacun). On peut aussi coder le résultat comme un polynôme (de Laurent, c'est-à-dire admettant des puissances négatives de l'indéterminée), en l'indéterminée t disons, c'est-à-dire mettre comme coefficient devant tk le nombre de fois que k apparaît comme produit scalaire σ(xy : autrement dit, il s'agit de calculer la somme S(x,y) des tσ(xyσ parcourt toutes les permutations de n objets. (Et pour reprendre un de mes exemples, si x=y=(−2,−1,0,1,2), on a S(x,y) = t10 + 4·t9 + 3·t8 + 6·t7 + 7·t6 + 6·t5 + 4·t4 + 10·t3 + 6·t2 + 10·t + 6 + 10·t−1 + 6·t−2 + 10·t−3 + 4·t−4 + 6·t−5 + 7·t−6 + 6·t−7 + 3·t−8 + 4·t−9 + t−10.) Il est évident que la taille totale du multiensemble, c'est-à-dire la valeur en t=1 du polynôme S(x,y), vaut n! (soit 120 dans mes exemples) ; si x ou y est nul, alors le la seule valeur d'un produit scalaire est 0 (donc S(x,y) vaut le polynôme constant n!).

Une autre remarque évidente est que si on multiplie ou divise toutes les coordonnées de x ou toutes celles de y par une même constante, le résultat pour les vecteurs ainsi modifiés se déduit trivialement de celui pour les vecteurs de départ (formulé sur S(x,y), cela signifie que S(rx,sy) s'obtient en remplaçant t par trs dans S(x,y)). On peut donc admettre que x et y aient des coordonnées rationnelles (le polynôme S(x,y) est alors possiblement un polynôme de « Laurent-Puiseux »(?), c'est-à-dire une combinaison linéaire formelle de tii parcourt un ensemble fini de rationnels). On pourrait même admettre que x et y aient des coordonnées réelles quelconques, mais je ne vais pas vouloir faire ça.

Il faut que je fasse une remarque plus importante sur ce que je cherche algorithmiquement. L'algorithme naïf consiste juste à énumérer toutes les n! permutations distinctes. Il est clair que sur des vecteurs x et y quelconques, par exemple si on prend des réels vraiment arbitraires (imaginez 2n réels algébriquement indépendants) ou des entiers suffisamment grands, aucun des produits scalaires σ(xy n'aura de multiplicité. C'est-à-dire qu'il y en aura n! distincts. Dans ces conditions, mon problème n'admet visiblement aucune solution intelligente : il faut de toute façon calculer n! valeurs, donc il n'y a rien de mieux à faire qu'énumérer les n! permutations σ. Si j'attends une réponse intéressante, c'est que je m'intéresse à des données contraintes pour que ça ne se produise pas : je vais dire que x et y sont à valeur (entières et) de valeur absolue pas beaucoup plus grande que n. Disons, pour fixer les idées, qu'il y a une constante C telle que chaque coordonnée de x et de y est majorée par Cn en valeur absolue (et je cherche un algorithme ayant une complexité significativement meilleure, lorsque C est fixée, que l'algorithme naïf en nn·log(n) ou quelque chose de ce goût-là). De fait, si chaque coordonnée de x ou de y est majorée par Cn en valeur absolue, chaque produit scalaire sera majoré par au plus Cn³, donc il y en a au plus 2Cn³+1 distincts (car ce sont des entiers), et certainement pas n! : dès lors, il est raisonnable a priori de chercher s'il peut y avoir mieux que l'algorithme naïf, peut-être même quelque chose de polynomial en n (encore une fois : pour C fixé). En revanche, je suis tout à fait susceptible de m'intéresser à des cas où toutes les coordonnées de x, et toutes celles de y, sont distinctes (je précise ça, parce qu'il est évident que s'il y a des répétitions, on peut diviser d'autant le nombre de permutations considéré).

Fondamentalement, je ne sais pas résoudre ce problème algorithmique de façon plus intelligente qu'en énumérant les n! permutations. Pourtant, je sais dire beaucoup de choses dessus (et je vais le faire !), mais peut-être que toutes ces choses sont complètement hors-sujet algorithmiquement. Peut-être que je suis bien naïf d'imaginer qu'on puisse faire fondamentalement mieux que n! pour traiter ce problème. Je n'en sais rien.

Je m'intéresse aussi au problème suivant :

(AA) Pareil que la variante d'origine (AS), mais en alternant les signes selon la signature de la permutation, autrement dit :

On se donne x et y deux vecteurs (de longueur, disons, n), à coordonnées entières. Je suppose que la somme des coordonnées de x est nulle, et de même pour y.

Problème : trouver tous les produits scalaires possibles σ(xy entre y et un vecteur σ(x) obtenu en permutant les coordonnées de x, avec, pour chacun, le nombre de permutations paires moins le nombre de permutations impaires qui donnent ce produit scalaire. C'est-à-dire que chaque permutation compte pour ε(σ), où ε(σ) vaut +1 pour une permutation paire et −1 pour une permutation impaire (et on fait le total de ces ε(σ) pour chaque produit scalaire possible).

Exemple : si x=y=(−2,−1,0,1,2), la réponse attendue est {−10: 1 au total, −9: −4 au total, −8: 3 au total, −7: 6 au total, −6: −7 au total, −5: −2 au total, −4: −4 au total, −3: 10 au total, −2: 6 au total, −1: −10 au total, 0: 2 au total, 1: −10 au total, 2: 6 au total, 3: 10 au total, 4: −4 au total, 5: −2 au total, 6: −7 au total, 7: 6 au total, 8: 3 au total, 9: −4 au total, 10: 1 au total}. Remarquons que mon autre exemple (où y=(−2,0,0,1,1)) donne, dans cette variante du problème, des totaux (multiplicités) tous nuls (cf. ci-dessous).

Il est possible que cette variante (AA), bien que de description plus compliquée, soit finalement algorithmiquement plus simple que la variante (AS) de départ pour la même raison que les déterminants sont plus faciles à calculer que les permanents. Je n'en sais rien. (Par ailleurs, elle va me servir à définir la variante ().) Il est en tout cas clair que les ensembles à parcourir sont les mêmes, seules changent les multiplicités.

Pour cette variante (AA) aussi, on peut coder le résultat sous forme d'un polynôme, appelons-le disons Δ(x,y), c'est-à-dire qu'il s'agit de la somme des ε(σtσ(xyσ parcourt toutes les permutations de n objets. Cette fois, le polynôme prend la valeur 0 en t=1 (pour n≥2, il y a autant de permutations impaires que de permutations paires). Il est, par ailleurs, identiquement nul dès que x ou y a des valeurs répétées.

Ajout important () : J'avais écrit les paragraphes ci-dessus (les déterminants sont plus faciles à calculer que les permanents) sans trop faire attention, mais en fait, c'est exactement ça : Δ(x,y) est le déterminant de la matrice dont les entrées sont les txiyj tandis que S(x,y) est son permanent. (Je ne sais pas pourquoi je ne m'en rends compte que maintenant : je n'avais vraiment pas les yeux en face des trous, d'autant que j'avais explicitement fait la remarque ci-dessus, ainsi que celle, ci-dessous, sur le déterminant de Vandermonde ! J'aurais dû prendre le temps de plus réfléchir avant de ranter dans mon blog — ceci dit, c'est justement le fait de ranter qui m'a aidé à trouver cette solution.) Du coup, ça fournit la réponse à mon problème (AA) et ça suggère que le problème (AS) de départ n'en a probablement pas (puisque les permanents sont notoirement difficiles à calculer) ; il reste encore à voir comment on peut se sortir de () (voir plus bas) dans le cas où la définition donne « 0/0 », et aussi à trouver comment transformer en déterminants les problèmes (BA) et compagnie qui sont exposés plus bas.

Toute la suite de cette entrée est constituée de remarques et commentaires supplémentaires par rapport à ces problèmes, et encore des variantes ; mais essentiellement, il s'agit de diverses digression, peut-être sans pertinence algorithmique par rapport au problème de base.

Pour commencer ces digressions, il faut que je dise quelque chose à propos du vecteur de Weyl : le vecteur de Weyl, dans ce contexte (A), c'est juste le vecteur ρ dont les coordonnées consécutives diffèrent toujours de 1, c'est-à-dire (−½(n−1), −½(n−3), …, ½(n−3), ½(n−1)) ; pour n=5, c'est donc le vecteur (−2, −1, 0, 1, 2) que j'ai utilisé pour mes exemples (ce qui était peut-être une mauvaise idée parce qu'il a des propriétés magiques, mais maintenant je n'ai plus envie de refaire des calculs). Le vecteur de Weyl est à coordonnées entières-et-demi lorsque n est pair (pour n=4 par exemple c'est (−3/2, −1/2, 1/2, 3/2)), mais ce n'est pas grave, j'ai expliqué qu'on pouvait très bien définir S(x,y) et Δ(x,y) dans ce cas. L'intérêt du vecteur ρ est que si l'un de x ou de y vaut ce vecteur très spécial, il y a une formule magique qui permet de calculer Δ(x,y), à savoir que Δ(ρ,y) se factorise (en tant que polynôme en t) comme produit des tyjtyi où (i,j) parcourt les paires d'indices telles que i<j (c'est la formule du dénominateur de Weyl, qui, dans ce cas, est juste la formule de Vandermonde). Maintenant, ce n'est pas si intéressant, eu égard à mon problème (AS) ou même (AA), de savoir calculer Δ(x,y) lorsque x ou y est ce vecteur très particulier, et la formule ne se généralise pas (pour un x et un y arbitraires, Δ(x,y) n'admet pas de factorisation intéressante).

Mais ça peut me servir à introduire une troisième expression et le problème algorithmique de la calculer. J'introduis donc cette expression Χ(x,y), qui est liée à la fois à S(x,y) et à Δ(x,y). Précisément, je vais définir la quantité Χ(x,y) := Δ(ρ+x,y)/Δ(ρ,y) (cette fois, ce n'est plus symétrique en x et y ; et au fait ce n'est pas un X, c'est un Chi, comme l'initiale du mot caractère 😉), où je suppose que x est trié par ordre croissant (je ne définis Χ(x,y) que dans ce cas).

En fait, il y a un problème dans ma définition de Χ(x,y) lorsque y a des coordonnées répétées, parce que ma définition donne 0/0, mais il y a plein de façons naturelles, toutes équivalentes, de quand même donner un sens à Χ(x,y) dans ce cas. Par exemple, on peut ignorer la valeur de y et considérer temporairement les tyi comme n indéterminées, écrire Δ(z,y) comme un polynôme (de Laurent) en ces indéterminées (c'est la somme des ε(σtσ(zytσ(zy s'interprète comme un monôme en les tyi dont les exposants sont les coordonnées de σ(z)), ensuite faire le quotient Δ(ρ+x,y)/Δ(ρ,y) dans l'anneau des polynômes (de Laurent) en n indéterminées tyi, constater que miraculeusement ce quotient est encore un polynôme (de Laurent ; le dénominateur divise exactement le numérateur), et resubstituer les valeurs de yi pour définir Χ(x,y) comme polynôme (de Laurent) en t. Comme je viens de le signaler, ce n'est pas juste une fraction rationnelle, c'est un polynôme (de Laurent).

Par exemple, pour x=y=(−2,−1,0,1,2)=ρ, le dénominateur est Δ(ρ,y) = t10 − 4·t9 + 3·t8 + 6·t7 − 7·t6 − 2·t5 − 4·t4 + 10·t3 + 6·t2 − 10·t + 2 − 10·t−1 + 6·t−2 + 10·t−3 − 4·t−4 − 2·t−5 − 7·t−6 + 6·t−7 + 3·t−8 − 4·t−9 + t−10, le numérateur est Δ(ρ+x,y) = Δ(2ρ,y) = (le même polynôme en remplaçant t par t² partout), et le quotient Χ(x,y) = Δ(ρ+x,y)/Δ(ρ,y) (ici il n'y a pas de problème de 0/0) vaut t10 + 4·t9 + 9·t8 + 18·t7 + 31·t6 + 46·t5 + 64·t4 + 82·t3 + 96·t2 + 106·t + 110 + 106·t−1 + 96·t−2 + 82·t−3 + 64·t−4 + 46·t−5 + 31·t−6 + 18·t−7 + 9·t−8 + 4·t−9 + t−10.

Bref, j'ai le problème algorithmique :

() Donné x et y deux vecteurs à coordonnées entières avec x à coordonnées croissantes, calculer la quantité Χ(x,y) définie ci-dessus.

Pourquoi définir justement ce Χ(x,y)-là ? À vrai dire, c'est surtout lui qui m'intéresse, ou en tout cas, c'est lui qui m'a amené à m'intéresser aux problèmes énoncés ci-dessus. Ce que j'ai écrit comme définition de Χ(x,y), en fait, c'est la formule de caractère de Weyl, un petit peu déguisée (pour les experts, c'est la valeur, sur le groupe à un paramètre engendré par y, du caractère de plus haut poids x de An−1, c'est-à-dire SU(n−1) ; pour les non-experts, les explications sont un peu longues, mais probablement pas vraiment pertinentes pour le problème algorithmique).

Ajout () : Je peux ajouter que Χ(x,y) s'obtient en substituant les monômes tyj dans le polynôme de Schur défini par les xi (auxquels on ajoute une constante pour les rendre tous positifs). Il y a des zillions de formules connues sur les polynômes de Schur, mais ce n'est pas évident de savoir ce qui est pertinent pour faire la substitution.

Il se trouve que ce Χ(x,y) a des propriétés amusantes, par exemple ses coefficients (qui sont symétriques par rapport à 0) sont croissants puis décroissants, et il me semble que c'est un fait essentiellement combinatoire qu'on ne sait prouver que par la théorie de la représentation des groupes de Lie. Calculer la valeur en t=1 de Χ(x,y) n'est pas difficile (c'est la formule de la dimension de Weyl : c'est un polynôme en x, dans ce cas y n'intervient pas). Il est, par ailleurs, possible de relier Χ(x,y) au S(x,y) de départ, ce n'est pas juste qu'il a manifestement le même degré :

En fait, on peut exprimer Χ(x,y), indépendamment de y, comme une combinaison des S(x′,y) à coefficients rationnels positifs (indépendants de y, donc), où x′ parcourt tous les vecteurs à coordonnées entières, croissantes, et dont les sommes partielles sont en tout point inférieures à celles de x (y compris x lui-même) ; et réciproquement, on peut exprimer S(x,y) (en supposant x à coordonnées croissantes) comme combinaison linéaire des Χ(x′,y) à coefficients entiers (indépendants de y), où x′ parcourt les mêmes valeurs qu'on vient de dire. (Si on préfère, les S(x,y) et Χ(x,y) s'expriment les uns en fonction des autres par des combinaisons linéaires triangulaires, « triangulaires » étant comprises par rapport à l'ordre qui rend un vecteur entier croissant inférieur à un autre si les sommes partielles du premier sont en tout point inférieures à celles du second.) On sait d'ailleurs calculer explicitement les coefficients de cette combinaison, mais la pertinence algorithmique de la chose m'échappe un peu. Enfin, à titre d'exemple, pour x=(−2,−1,0,1,2), le polynôme Χ((−2,−1,0,1,2), y) est la combinaison des S(x′,y) suivants et avec les coefficients suivants : (1/5)·S((0,0,0,0,0), y) + (7/3)·S((−1,0,0,0,1), y) + 2·S((−1,−1,0,1,1), y) + S((−1,−1,0,0,2), y) + (1/3)·S((−1,−1,−1,1,2), y) + S((−2,0,0,1,1), y) + (1/3)·S((−2,0,0,0,2), y) + (1/3)·S((−2,−1,1,1,1), y) + S((−2,−1,0,1,2), y). Ou inversement, S((−2,−1,0,1,2), y) vaut −2·Χ((0,0,0,0,0), y) + 2·Χ((−1,0,0,0,1), y) + 2·Χ((−1,−1,0,1,1), y) − 2·Χ((−1,−1,−1,1,2), y) − 2·Χ((−2,0,0,0,2), y) − 2·Χ((−2,−1,1,1,1), y) + Χ((−2,−1,0,1,2), y).

Mais bon, je répète que je n'ai pas les idées bien claires sur la difficulté à calculer les coefficients exprimant les Χ(x,y) comme combinaison linéaire des S(x′,y) ou vice versa. J'étais parti sur l'idée de calculer les Χ(x,y) en les ramenant aux S(x′,y) et donc au problème (AS), mais en fait c'est peut-être exactement le contraire qu'il faut faire.

(Fin de la digression sur les Χ(x,y).)

Une autre chose que je peux dire (et qui est une nouvelle digression), c'est qu'on peut aussi espérer calculer les S(x,y), que je vais noter juste S(x) parce que je fixe provisoirement y, par une sorte de récurrence sur x. L'observation (facile) est la suivante sur le produit de S(x) et S(z) (comme polynômes en t) :

S(xS(z) est la somme des S(x+σ(z)) où σ parcourt toutes les permutations (de n objets).

Évidemment, ce n'est pas très utile si je cherche à éviter une somme sur les n! permutations dans le calcul de S(x) en la remplaçant par une autre somme sur les n! permutations. Mais ce que je peux faire, c'est appliquer cette observation à des vecteurs z particuliers qui n'ont que peu de permutations. Par exemple le vecteur ei qui a les i dernières coordonnées égales à 1 et les ni premières égales à 0 ; enfin, ce vecteur-là il n'est pas de somme nulle, mais si je soustrais i/n à toutes ses coordonnées (donc i coordonnées égales à (ni)/n et ni égales à −i/n), ça ne change rien ; l'emplacement des coordonnées, bien sûr, n'a guère d'importance puisque de toute façon on va sommer sur toutes les permutations. Calculer S(ei) est facile : c'est i!·(ni)! fois la somme des tkk parcourt toutes les sommes d'un sous-ensemble de i parmi n coordonnées de y. Même calculer tous les S(ei) (ce qui demande essentiellement de parcourir les 2n sous-ensembles de coordonnées de y) est moins coûteux que parcourir les n! permutations. L'idée, ensuite, serait de calculer les S(x) par récurrence sur… quelque chose, je ne sais pas bien quoi : comme on connaît les S(ei), on connaît les S(eiS(ej), mais on peut exprimer ceux-ci comme des combinaisons des S(ei) et des S(ei+ej), par exemple S(e₁)·S(e₂) = (n−1)! · (2S(e₁+e₂) + (n−2)·S(e₃)) (se rappeler que S(e₁) énumère toutes les coordonnées yi de y, S(e₂) énumère toutes les sommes de deux coordonnées distinctes de y et S(e₃) les sommes de trois coordonnées distinctes, et enfin S(e₁+e₂) énumère toutes les expressions 2yi+yj avec ij), ce qui peut servir à calculer S(e₁+e₂) connaissant S(e₁), S(e₂) et S(e₃).

Mais au final je m'y perds dans ce qui se récurre, et je n'arrive pas à savoir si cette approche a un intérêt algorithmique ou non. Évidemment elle ne peut pas en avoir en général, mais je rappelle que j'ai fait l'hypothèse que chaque coordonnée de x (et de y) est majorée par Cn en valeur absolue. Tout ça est peut-être idiot.

(Fin de la digression sur cette possible approche de calcul.)

Je peux aussi définir d'autres variantes du problème. Notamment :

(BS)=(CS) On se donne x et y deux vecteurs (de longueur, disons, n), à coordonnées entières. Je ne suppose plus que la somme des coordonnées de x ni de y est nulle.

Problème : trouver tous les produits scalaires possibles σ(xy entre y et un vecteur σ(x) obtenu en permutant les coordonnées de x et en changeant arbitrairement leurs signes (avec, pour chacun, son nombre d'occurrences, c'est-à-dire le nombre de permutations signées σ des coordonnées de x qui conduisent à ce produit scalaire).

(BA)=(CA) Idem mais on veut la somme des ε(σ) défini comme valant la signature (dans ±1) de la permutation multipliée par les différents changements de signes effectués (i.e., ε(σ) est le déterminant de la matrice représentant la permutation signée).

(DS) Comme (BS)/(CS), mais on ne peut effectuer qu'un nombre pair de changements de signes. • (DA) Idem, et on veut la somme des ε(σ), qui sont les signatures des permutations (le produit des changements de signes est de toute façon +1).

Les problèmes (BS) et (CS) sont identiques (et de même (BA) et (CA)), il y a juste une différence dans le vecteur de Weyl (qui de toute façon ne fait pas partie du problème) : pour (CA), ρ vaut (1, 2, 3, …, n), tandis que pour (BA), il vaut (1/2, 3/2, 5/2, …, (2n−1)/2). Quant à (DA), son vecteur de Weyl vaut (0, 1, 2, …, n−1). Dans tous les cas, on a une factorisation de Δ(ρ,y), analogue au cas précédent, mais que je n'écris pas. Et on reprend la définition de Χ(x,y) := Δ(ρ+x,y)/Δ(ρ,y), qui est de nouveau un polynôme (de Laurent), et mes problèmes (), () et () consistent à le calculer. (La contrainte de croissance sur x doit aussi être un peu modifiée : pour () ou (), elle est que x soit à coordonnées croissantes et positives ; pour (), elle est que x soit à coordonnées positives sauf éventuellement la première, et croissantes si on remplace la première par sa valeur absolue.)

Et bien sûr, il y a les cas exceptionnels : dès lors qu'on a un groupe de Weyl opérant sur un réseau de racines, on a les trois problèmes que j'ai évoqués. Par exemple, le problème (E₈S) consiste, donnés deux vecteurs entiers x et y (ou rationnels, enfin, peu importe comme on l'a vu), de longueur 8, à trouver tous les produits scalaires possibles σ(xy, chacun avec ses multiplicités, où σ parcourt les 696 729 600 transformations que j'avais expliquées ici, tandis que le problème (F₄S) concerne des vecteurs de longueur 4, et le groupe de Weyl est décrit ici (mais comme il a juste 1152 éléments, le problème algorithmique n'est pas trop difficile). Pour définir les problèmes (E₈Χ) et (F₄Χ), j'ajoute que les vecteurs de Weyl de E₈ et F₄ sont respectivement (0, 1, 2, 3, 4, 5, 6, 23) et (1/2, 3/2, 5/2, 11/2).

↑Entry #2537 [older| permalink|newer] / ↑Entrée #2537 [précédente| permalien|suivante] ↑

↓Entry #2536 [older| permalink|newer] / ↓Entrée #2536 [précédente| permalien|suivante] ↓

(samedi)

Où je décide de jouer avec Twitter

Il n'est pas complètement à exclure que la concision acérée dans l'expression de mes idées, jointe à la chasse impitoyable aux circonlocutions inutiles, ne dénombrent pas parmi les qualités pour lesquelles je suis le plus renommé.[#] Sans doute ne fais-je pas partie de ceux qui, à l'instar du président américain, savent rendre toute la sobre richesse de leur pensée dans l'implacable carcan des 280 caractères : nous autres esprits plus médiocres devons répandre notre logorrhée dans les cercles décidément moins reconnus des blogs personnels.

Malgré ça, je me suis déjà souvent dit que je devrais me créer un compte Twitter, ne serait-ce que parce qu'en lecture, c'est une source d'information indubitablement utile, et que tant qu'à faire je pourrais m'en servir à la fois pour annoncer les entrées que je publie dans ce blog, et aussi pour poster des choses trop courtes pour que j'ose en faire une nouvelle entrée (il ne faudrait pas saboter ma réputation de verbomane).

Je n'aime pas trop le fait que Twitter soit une plate-forme propriétaire[#2], mais en fait, j'utilise beaucoup MathOverflow (une instance de StackExchange), qui n'est pas spécialement moins propriétaire que Twitter. Et à la réflexion, je me suis dit que ce que je considérais le plus important, c'était que mes données ne restent pas prisonnières de la plate-forme.

C'est-à-dire que je tiens à pouvoir garder une copie de tout ce que j'y fais de sorte que toute cette information soit encore disponible si la plate-forme disparaît un jour. S'agissant de StackExchange, j'utilise déjà leur API pour garder une copie personnelle de tout ce que je poste sur MathOverflow (ainsi que toutes les questions auxquelles je réponds, toutes les réponses à mes questions, et d'autres choses de ce genre). J'avais commencé avec Reddit (dont j'essaie actuellement de me tenir éloigné parce que c'est décidément trop chronophage). Dès lors, il n'y a pas spécialement de raison de ne pas me créer un compte Twitter selon la même logique, puisqu'il y a une API qui permet a minima de récupérer toutes les informations disponibles par leur interface Web ou application Android. (Ce n'était pas évident quand on lit la page vers laquelle je viens de lier, qui a l'air de concerner uniquement des usages corporate, qu'on puisse ouvrir un compte API gratuitement et s'en servir pour faire de l'archivage, mais apparemment c'est le cas puisque j'ai réussi. En revanche, s'agissant de Facebook, je n'ai pas vraiment l'impression qu'une telle API existe : leurs interfaces semblent vraiment orientées vers les gens qui veulent faire de la pub, développer des jeux Facebook, ce genre de choses, et pas archiver leurs propres données[#3].)[#4][#5]

Bon, ce n'est pas tout qu'une API existe, il faut encore arriver à s'en servir. Heureusement, s'agissant de celle de Twitter, il y a une bibliothèque Perl, le langage que je préfère quand il s'agit d'écrire ce genre de scripts. La difficulté, ensuite, c'est de comprendre comment l'API fonctionne, parce qu'il y a toujours plein de choses qui ne sont pas, ou qui sont très mal, documentées : ce n'est dit nulle part, par exemple, que le texte d'un tweet est renvoyé sous forme HTML-échappée (un ‘&’ est retourné comme &amp;, par exemple, ce qui est bizarre parce que, fondamentalement, un tweet n'est pas du HTML, donc il n'y a aucune raison de l'échapper de la sorte) ; et c'est encore moins dit si la position des hashtags, URL et compagnie renvoyée par l'API est comptée en caractères avant ou après échappement (ou d'ailleurs si ces caractères sont vraiment des caractères Unicode ou des unités de codage UTF-16 comme en Java ; expérimentalement, ce sont bien des caractères Unicode, et ils sont comptés après échappement HTML[#6]). Il faut aussi se dépatouiller de la demi-douzaine de façons différentes dont on peut « retweeter » sur ce machin, qui sont mal expliquées et certaines, je crois le deviner, obsolètes[#7].

Je crois avoir vaincu ces petites difficultés techniques et produit un programme qui archive tout ce que je tweeterai, que je mettrai en ligne sur cette page (qui ne sera pas mise à jour en temps réel, puisqu'elle est surtout destinée à être une archive, mais probablement assez souvent quand même). Je vais certainement découvrir de nouvelles subtilités de l'API, mais j'imagine que je saurai m'en sortir.

Voilà, j'ai réussi à dire en beaucoup plus que 280 caractères, et avec sept notes en bas de page, ce qui tenait finalement en 36 caractères :

Bref, j'ai ouvert un compte Twitter.

[#] Pourtant, quand j'étais lycéen, je me tirais plutôt bien de l'épreuve de résumé du bac français. (Je mettais d'ailleurs un point d'honneur à rendre toujours le nombre exact de mots demandés, sans jamais exploiter la marge de ±10% permise.) C'est peut-être parce qu'il est plus facile de sabrer dans la pensée d'autrui que dans la sienne propre. ☺

[#2] Il y a bien des alternatives comme Mastodon, qui ont parfois des idées intéressantes, mais il y a le problème de l'effet de Matthieu — sous la forme que ce qui fait l'intérêt d'un réseau social, c'est le contenu qui est déjà dessus, donc les utilisateurs attirent les autres utilisateurs, d'où le fait que le succès appartienne à celui qui a eu le hasard de réussir (en premier). Je ne sais pas comment on peut lutter contre ça. (Par ailleurs, Mastodon a d'autres problèmes, comme le fait qu'ils n'ont pas pu/su/voulu créer un namespace unique pour les noms d'utilisateurs et qu'on se retrouve donc avec des noms à rallonge aussi ridicules que si tout le monde se nommait par son adresse mail.)

[#3] Alors vous allez me dire, il y a quand même moyen de récupérer toutes les informations qu'on a sur Facebook (le RGPD doit plus ou moins l'imposer). Mais s'il n'y a pas un mécanisme pour le faire de façon incrémentale (je n'ai pas envie, tous les jours, de récupérer tout ce que j'ai fait sur la plate-forme depuis que j'ai commencé à m'en servir !), et éventuellement filtrée, ce n'est pas très utile. Bref, il faut une API.

[#4] À ce sujet, je reconnais parfaitement la validité de la critique suivante : j'ai mis en place un système de commentaires sur ce blog, et je n'ai pas créé d'API pour interagir avec. Je le sais, et ça m'embête. Pour ma défense : (1) il n'y a aucun mécanisme d'authentification, pas de notion de compte ou quoi que ce soit de ce genre, donc je ne peux pas proposer à quelqu'un de récupérer toutes ses données, je n'ai moi-même pas trace de quel commentaire appartient vraiment à qui, (2) comme le HTML que je sers est très propre et que les URL sont assez évidentes, il serait simple à scripter, donc si quelqu'un trouve vraiment mon interface insupportable, il peut faire ça, et (3) j'ai depuis Une Éternité® de réécrire ce système de commentaire, qui est un vieux script Perl bien moisi qui ne permet même pas de faire du HTML basique et ne permet les liens qu'avec une syntaxe chiante que personne n'a envie de respecter, je n'ai jamais trouvé le temps pour changer tout ça, mais si un jour je le fais, une API minimale pour lire les commentaires sera incluse.

[#5] Ce n'est pas qu'une question d'archivage (au sens : garder pour l'Éternité), d'ailleurs : c'est aussi une question de recherche. J'aime bien pouvoir retrouver ce que j'ai déjà écrit sur tel ou tel sujet, et pour ça, la commande egrep est extrêmement précieuse… à condition d'avoir les données sous une forme grepable.

[#6] C'est un chouïa illogique, comme façon de faire, mais je suppose que ça simplifie le boulot des gens qui veulent produire du HTML facilement à partir d'un Tweet, qui sont probablement les plus importants consommateurs de l'API.

[#7] Est-ce qu'on peut faire un native retweet par l'interface Web ? J'ai essayé d'en faire un sans modifier le message, et il a quand même enregistré un tweet commençant en interne par RT.

↑Entry #2536 [older| permalink|newer] / ↑Entrée #2536 [précédente| permalien|suivante] ↑

↓Entry #2535 [older| permalink|newer] / ↓Entrée #2535 [précédente| permalien|suivante] ↓

(mardi)

Un peu de mécanique quantique : information négative et probabilités négatives

J'ai commis l'imprudence (eu égard au nombre de choses que j'ai à faire en ce moment[#]) de regarder cette vidéo d'un exposé de Ron Garrett à Google Tech, qui est apparue dans mes suggestions YouTube, et dont le titre est joliment provocateur : The Quantum Conspiracy: What Popularizers of QM Don't Want You to Know.

[#] L'imprudence n'est d'avoir sacrifié environ une heure pour regarder une vidéo d'environ une heure, mais la prévisible conséquence que ça allait me faire perdre beaucoup plus de temps que ça à réfléchir aux sujets évoqués dans la vidéo, puis à d'autres sujets connexes. Ou à écrire une entrée dans mon blog pour reraconter ce que j'ai appris.

Je ne sais pas dans quelle mesure il est bon en tant qu'exposé de vulgarisation (clairement il s'adresse à un public — des gens de chez Google, je suppose — qui savent déjà un minimum ce qu'est la mécanique quantique et connaissent un peu d'algèbre linéaire), il est probable qu'il essaie de dire trop de choses dans le temps imparti. Mais sur le fond, je trouve très intéressante l'idée qu'il expose d'une interprétation de la mécanique quantique basée sur la théorie de l'information (quantique !) et que Ron Garrett appelle facétieusement la zero-world interpretation (par opposition à celle-ci, bien plus célèbre). L'idée semble être due à plusieurs personnes : voir notamment cet article de Cerf et Adami (ou celui-ci) sur lequel est essentiellement basé la fin de l'exposé de Garrett (mais qui ne propose pas vraiment d'interprétation de la mécanique quantique, il expose juste les bases de la théorie de l'information quantique et comment voir l'intrication quantique dans ce cadre), cet article de Mermin qui définit ce qu'il appelle l'Ithaca interpretation, et cet article de Rovelli qui définit la relational interpretation, qui est peut-être, ou peut-être pas, essentiellement la même chose, c'est un peu difficile à dire parce que ces gens ne prennent pas la peine d'expliciter les relations entre leurs idées, mais en tout cas c'est aussi intéressant. (Je précise que je n'ai pas lu tout ça en détail, cf. la note ci-dessus, mais au moins en diagonale ça a l'air intéressant.)

Bon, a-t-on besoin d'une quinzième interprétation de la mécanique quantique, je ne sais pas (à ce niveau-là je pense qu'il commence à être nécessaire de développer des méta-interprétations de la mécanique quantique, qui cherchent à interpréter les interprétations, à définir ce qu'elles doivent faire, à les identifier les unes aux autres, etc.). Mais au moins je retiens l'idée de l'information quantique, que je ne connaissais pas (enfin, j'avais peut-être entendu parler, mais je n'avais certainement pas réfléchi dessus) :

Classiquement, si on tire deux bits aléatoires indépendants, on a deux variables qui contiennent chacune un bit d'information, avec zéro bits en commun et deux bits au total (chaque variable apporte un bit de plus que la connaissance de l'autre séparément) ; si au contraire on tire un bit aléatoire et qu'on le recopie, on a deux variables qui contiennent chacune un bit d'information, avec un bit en commun et un bit au total (chaque variable apporte zéro bits de plus que la connaissance de l'autre séparément). Le point rigolo expliqué dans l'exposé de Garrett ou dans l'article de Cerf et Adami (liens ci-dessus) est l'idée de voir un état comme l'état de Bell (deux qubits parfaitement intriqués) comme : deux variables qui contiennent chacune un bit d'information, mais avec ayant deux bits en commun, et zéro bits au total (chaque variable apporte −1 bit de plus que la connaissance de l'autre séparément !).

Mesurer quantiquement (le spin d'un photon, disons), c'est créer un état intriqué avec l'appareil de mesure, donc, dans cette interprétation, on se retrouve dans un tel état où la particule mesurée et l'appareil de mesure portent chacun un bit d'information mais il y en a zéro au total, parce qu'il n'y a pas de hasard dans l'histoire ; ce qui fait apparaître le hasard, dans cette interprétation, c'est de jeter une des variables (la particule), donc les −1 bits supplémentaires qu'elle apportait par rapport à l'autre, et on se retrouve avec 1 bit d'information — un hasard apparu du fait qu'on a jeté quelque chose. Bon, je ne sais pas si cela éclaire les choses, et mes explications sont peut-être plus mauvaises que celles de Garrett ou de Cerf&Adami, mais en tout cas c'est un calcul sur lequel il est intéressant de méditer.

La description mathématique est simple, mais si ça ne vous intéresse pas vous pouvez passer à la suite, qui parle d'autre chose qui est peut-être, ou peut-être pas, la même chose (ce n'est pas clair pour moi).

Je commence par rappeler très brièvement les notions de base de théorie de l'information classique. L'entropie (classique) d'une distribution de probabilité discrète ou variable aléatoire discrète A est H(A) := −∑i pi·log(pi) où pi = P[A=i] et où i parcourt les différentes valeurs envisageables pour A (on convient que 0·log(0)=0 ; par ailleurs, le log est généralement divisé par log 2 pour obtenir un résultat en bits ou logons) ; on peut voir ça comme l'espérance de −log(pi) : intuitivement — et pas seulement intuitivement —, elle représente la quantité d'information apportée par la connaissance de la valeur de A (chaque −log(pi) représente la quantité d'information apportée dans ce cas précis, et l'espérance est donc la quantité d'information apportée par A globalement). Si A et B sont deux variables, l'entropie jointe H(A,B) est simplement l'entropie de la variable (A,B) (le couple, vivant dans le produit cartésien) : c'est la quantité d'information qu'apporte la connaissance de A et de B à la fois ; l'entropie conditionnelle H(A|B) est définie comme H(A,B) − H(B) (c'est la quantité d'information supplémentaire qu'apporte la connaissance de B si on connaît déjà celle de A), et on peut aussi l'exprimer en utilisant des probabilités conditionnelles ; quant à l'information mutuelle (ou entropie commune, ou autres termes de ce genre), I(A;B) ou H(A;B) (symétrique en A et B) est définie comme H(A) + H(B) − H(A,B) = H(A) − H(A|B) = H(B) − H(B|A) : intuitivement, c'est l'information apportée communément par A et B (donc redondante si on a les deux), voyez le diagramme de Venn standard ; l'information mutuelle sera nulle pour deux variables indépendantes, on peut l'imaginer comme une sorte de corrélation, mais contrairement à la corrélation de la régression linéaire, elle détecte de l'information jointe quelle que soit sa forme (dès que B est une fonction de A, l'entropie conditionnelle H(B|A) est nulle, par exemple).

Pour passer en quantique, ce qui tient lieu de distribution de probabilité (moralement, une distribution de probabilité sur les états quantiques) est un opérateur densité sur l'espace de Hilbert des états du système, c'est-à-dire une matrice hermitienne A semidéfinie positive de trace 1 (i.e., diagonalisable en base orthonormée avec une diagonale représentant une distribution de probabilité au sens usuel ; je me place en dimension finie pour ne pas compliquer les choses inutilement) ; ou, si on préfère, en termes quantiques, un observable dont les valeurs sont les probabilités (i.e., la probabilité a priori d'être dans l'état qu'on a observé !). On parle aussi d'état mélangé. Un état pur |ψ⟩ se voit comme état mélangé particulier décrit par l'opérateur densité |ψ⟩⟨ψ|, c'est-à-dire la projection sur |ψ⟩. Quant à la valeur moyenne, i.e., l'espérance, d'un observable X sur un état mélangé A, c'est tr(AX), une expression sensée quand on pense au cas où A et X ont le bon goût de commuter (donc de se diagonaliser simultanément en base orthonormée), car on retrouve alors la valeur de l'espérance classique ∑i pi·X(i) en notant pi les valeurs diagonales (i.e., propres) de A et X(i) celles de X. En particulier, il est raisonnable de définir l'entropie H(A) de A comme −tr(A·log(A)) (où il faut comprendre ça comme la valeur en A de la fonction −z·log(z) prolongée par 0 en 0 ; le plus simple est de dire : on diagonalise A et on prend l'entropie −∑i pi·log(pi) de la distribution constituée par ses termes diagonaux).

On peut alors faire les même définitions que dans le cas classique. Pour éviter de m'embêter à essayer de définir des variables aléatoires quantiques, je vais supposer que j'ai juste deux sous-systèmes, décrits par des espaces (de Hilbert) A et B formant mon système AB = AB, dans lequel j'ai mon état mélangé, que je ne sais pas comment noter parce qu'il faudrait logiquement le noter AB mais je ne veux pas donner l'impression que c'est un produit (c'est ce qui tient lieu de distribution jointe), donc je vais le noter C, opérateur densité sur AB, donc. Ses marginales sont alors définies comme A = trB(C) (opérateur densité sur A) et B = trA(C) (opérateur densité sur B) où trA désigne, bien sûr, la trace relativement à A (je me place en dimension finie donc l'espace des opérateurs sur AB est le produit tensoriel de ceux des opérateurs sur A et B respectivement, et trA consiste à prendre le produit tensoriel de la trace sur la première partie et de l'identité sur la seconde) ; il est logique de prendre de telles « traces partielles » pour sommer, intuitivement, les valeurs qui ne concernent pas A, ou pas B (sachant que la trace totale tr = trAB = trA∘trB, elle, vaut 1 par définition d'un état mélangé / opérateur densité). On définit alors H(A,B) = −trAB(C·log(C)) et H(A) = −trA(A·log(A)) et H(B) = −trB(B·log(B)) et H(A|B), H(B|A) et H(A;B) exactement comme dans le cas classique.

Remarquons que si C est un état pur |ψ⟩⟨ψ|, son entropie est nulle (en complétant |ψ⟩ en base orthonormée, C est diagonale avec un 1 et ailleurs juste des 0).

Je prends un exemple explicite où A et B sont tous les deux de dimension 2 (un qubit) avec pour base orthonormée |0⟩ et |1⟩, et en notant |00⟩=|0⟩⊗|0⟩, |01⟩=|0⟩⊗|1⟩, |10⟩=|1⟩⊗|0⟩ et |11⟩=|1⟩⊗|1⟩ les quatre états pour deux qubits. L'état intriqué dont on part est |ψ⟩ := (|00⟩+|11⟩)/√2. Pour être intriqué, ça reste un état pur (un élément de AB). L'opérateur densité C = |ψ⟩⟨ψ| qui lui correspond est (|00⟩⟨00| + |00⟩⟨11| + |11⟩⟨00| + |11⟩⟨11|) / 2, et elle a une entropie nulle comme expliqué au paragraphe précédent. Mais ses marginales sont A = trB(C) = (|0⟩⟨0| + |1⟩⟨1|) / 2 (les deux termes du milieu sont de trace nulle) et B est formellement identique ; et cette fois, H(A) = 1 bit (il est déjà écrit sous forme diagonale) et H(B) = 1 bit, donc H(A|B) = −1 bit, H(B|A) = −1 bit et H(A;B) = 2 bits, comme je l'avais annoncé. On a vraiment affaire à une « variable aléatoire quantique » (l'état mixte C) qui est « sans hasard » (c'est un état pur) mais telle qu'en la projetant sur une de ses marginales (A ou B), il y ait un bit de hasard !

Plus généralement, on peut se convaincre que si on part d'un état (|00⋯0⟩+|11⋯1⟩)/√2 de k qubits parfaitement intriqué, on obtient k variables qui chacune apportent 1 bit d'information mais avec un total de zéro, et si on oublie une quelconque des variables, les k−1 autres deviennent classiques parfaitement corrélées. Notamment, si on part de deux photons parfaitement intriqués et qu'on mesure leurs spins, même séparés par la moitié de l'Univers, on obtient la même valeur : pas besoin, dans cette interprétation, d'invoquer de spooky action at a distance : on a juste jeté (ou ignoré) −1 bit d'information et on se retrouve avec des observations parfaitement corrélées.

Il faut juste s'habituer à l'idée que l'information puisse être négative. Mais à ce sujet, il est sans doute pertinent de signaler que même dans le cas classique, l'information jointe peut être négative, quand il s'agit de l'information jointe d'au moins trois variables. L'exemple est très simple : si A et B sont deux bits aléatoires indépendants et C est leur XOR, alors l'information totale H(A,B,C) est de 2 bits, chacune de H(A) = H(B) = H(C) vaut 1 bit, donc H(A|B,C) = 0 et symétriquement (ce qui est logique car la connaissance de deux des trois variables suffit à tout savoir), H(A,B|C) = 1 bit, et quand on met tout ça ensemble (faites le diagramme de Venn !), on trouve que l'information mutuelle H(A;B;C) à l'intersection vaut −1 bit.

De l'information négative, je passe aux probabilités négatives, qui sont aussi quelque chose en rapport avec la mécanique quantique. Ce que je ne comprends pas, c'est le rapport exact entre les deux (est-ce deux façons différentes d'interpréter les mêmes choses, deux fois la même façon mais dite différemment, ou deux choses bien différentes ?).

Voici la petite histoire : considérons deux boîtes, appelons-les A et B, chacune contient trois tiroirs, appelons-les X, Y et Z. Si on ouvre un tiroir d'une boîte, on en extrait un contenu, mais la boîte explose (on ne peut donc ouvrir qu'un seul tiroir d'une boîte donnée). Le contenu sera soit le mot oui, soit le mot non. Les boîtes ont la propriété suivante :

  • si on ouvre un seul tiroir d'une seule boîte, le contenu est oui avec probabilité ½ et non avec probabilité ½ ;
  • si on ouvre le tiroir de même nom de chacune des deux boîtes, le contenu est toujours le même ;
  • si on ouvre deux tiroirs de noms différents, le contenu est le même avec probabilité ¼ et différent avec probabilité ¾.

Votre défi est de fabriquer de telles boîtes. Les probabilités doivent se comprendre comme ceci : vous devez fabriquer ces boîtes en série (plein de paires de boîtes A&B), et si on mène des statistiques, on doit trouver asymptotiquement les probabilités annoncées.

Pour essayer de voir comment on peut s'y prendre, classiquement, on se dit qu'on va choisir une certaine distribution de contenus (X,Y,Z) pour chaque boîte, parmi les huit possibilités (oui/non puissance 3). Comme ouvrir un même tiroir quelconque des boîtes A et B doit fournir toujours le même résultat, elles doivent toujours avoir les mêmes contenus, donc il y a une seule distribution à tirer, et en fait, pour des raisons de symétrie entre tiroirs et de symétrie oui/non, on peut dire qu'on fabrique une proportion p/2 de (paires de) boîtes (oui,oui,oui), autant de boîtes (non,non,non), et une proportion (1−p)/6 de chacune des six autres. Cela vérifie bien les deux premières conditions, et pour la troisième on trouve qu'en ouvrant deux tiroirs différents on obtient des contenus identiques avec probabilité (1+2p)/3 et différents avec probabilité 2(1−p)/3. L'ennui c'est que le minimum du premier est 1/3 et qu'on veut 1/4. C'est donc impossible. Je n'ai fait qu'esquisser la preuve, mais en général on appelle ça les inégalités de Bell.

(C'est sans doute plus frappant si on demande que deux tiroirs de noms différents aient des contenus toujours différents. De façon rigolote, pouvoir fabriquer des paires de boîtes, comme ça, reviendrait alors exactement à pouvoir fournir une preuve à divulgation nulle de connaissance du fait que le graphe complet sur trois sommets (=triangle) serait coloriable avec deux couleurs, ce que, manifestement, il n'est pas. Mais restons avec les probabilités de ¼ et ¾, qui ne sont pas non plus possibles classiquement.)

Ou alors, pour que ce soit possible, il faudrait, pardon, il suffirait de pouvoir fabriquer des boîtes (des paires de boîtes identiques) qui contiennent (oui,oui,oui) et (non,non,non) avec probabilité chacun −1/8, et chacun des six autres avec probabilité 3/16. Avec des probabilités négatives ça devient possible.

Le rapport avec le quantique, c'est justement que, quantiquement, c'est possible de fabriquer de telles boîtes : on fabrique deux photons parfaitement intriqués de polarisation opposée, on met chacun dans une boîte, chaque boîte peut détecter la polarisation du photon selon l'un de trois axes (X, Y ou Z) séparés mutuellement de π/3, les axes de la boîte B étant perpendiculaires à ceux de même nom de la boîte A (de manière à répondre la même chose si les photons sont polarisés de façon opposée). Pour ceux qui veulent faire les calculs, on part d'un état intriqué (|HV⟩−|VH⟩)/√2 (H=polarisation horizontale, V=verticale) ; et disons que X(A) répond non sur |H⟩ et oui sur |V⟩, tandis que Y(A) répond non sur ½|H⟩+½√3|V⟩ et oui sur −½√3|H⟩+½|V⟩, et Z(A) répond non sur −½|H⟩+½√3|V⟩ et oui sur −½√3|H⟩−½|V⟩ ; et les détecteurs de (B) font pareil en échangeant oui et non.

La conclusion qu'on tire généralement de cette expérience, c'est que les variables cachées ne peuvent pas expliquer la mécanique quantique (il est impossible que chaque boîte ait choisi à l'avance en secret si elle réondrait oui ou non à chacune des questions X, Y et Z), et du coup il y aurait une spooky action at a distance d'une boîte sur l'autre quand on interroge son contenu, action qui voyage plus vite que la lumière (mais ne permet heureusement pas de transporter de l'information comme ça). Ou peut-être une forme de rétrocausalité. Ou en tout cas quelque chose de Très Bizarre. Personnellement, je n'ai jamais été très impressionné par cette expérience, et si elle peut s'expliquer avec des probabilités négatives (je ne prétends pas que cette explication soit la meilleure, ni qu'elle soit souhaitable, ni qu'elle s'étende à d'autres expériences du même genre, ni quoi que ce soit du genre, juste que le fait que cette interprétation simple est possible dans ce cas), ça ne me semble pas un sacrifice énorme d'abandonner l'axiome que les probabilités sont nécessairement positives (qui est certes mathématiquement commode, mais dont le fondement épistémologique s'agissant du monde réel ne me paraît pas du tout solide, étant entendu qu'on parle de probabilités « cachées » et que les statistiques sur des effets réellement mesurés doivent, évidemment, être positives au final). Je veux dire, je n'ai aucun mal à conceptualiser une paire de boîte identiques qui contiennent (oui,oui,oui) et (non,non,non) avec probabilité chacun −1/8, et chacun des six autres avec probabilité 3/16, tant qu'on ne peut ouvrir qu'un tiroir de chaque boîte et jamais plus : je ne vois pas pourquoi on préférerait imaginer une spooky action at a distance que ça.

Ce que je ne sais pas, c'est :

  • Dans quelle mesure on peut interpréter la mécanique quantique en général (plutôt juste que cette expérience très étroite) avec des variables cachées qui admettraient des probabilités négatives (mais de façon que toute probabilité qui est mesurable soit, bien sûr, au final positive) ; et surtout, même si on peut, dans quelle mesure on peut le faire de manière « canonique », naturelle, élégante, respectant par exemple les symétries de la physique, et garantissant le réalisme local (si tant est que les probabilités négatives sont considérées comme compatibles avec le « réalisme local »…).
  • S'il y a (ou sinon, pourquoi pas) une interprétation standard de la mécanique quantique basée essentiellement sur l'idée de probabilités négatives. (Feynman en parle dans son exposé Simulating Physics with Computers, mais c'est essentiellement pour rejeter l'idée.) De nouveau, je ne prétends pas qu'une telle interprétation soit une bonne idée, mais que si elle est possible elle mérite certainement d'être sur la table (aux côtés de tant d'autres).
  • Quel est le rapport précis entre les probabilités négatives dont je parle dans cette deuxième partie et les informations négatives dont je parlais dans la première. (Je remarque que si on convient que l'entropie −∑i pi·log(pi) devient −∑i pi·log|pi| dans le cas de probabilités négatives, on peut obtenir la situation évoquée plus haut, à savoir deux variables qui contiennent chacune un bit d'information mais avec ayant deux bits en commun et zéro bits au total en tirant (0,0) et (1,1) avec probabilité 0.64691 chacun, et (0,1) et (1,0) avec probabilité −0.14691 chacun. Mais je ne sais pas si ce calcul a le moindre sens ni si on peut donner une interprétation à ces valeurs.)
  • Si l'interprétation « information quantique » a quelque chose d'intelligent à dire sur l'expérience de Bell telle que je l'ai présentée ci-dessus. De nouveau, le lien entre information et probabilités n'est pas terriblement clair.

↑Entry #2535 [older| permalink|newer] / ↑Entrée #2535 [précédente| permalien|suivante] ↑

Only the 20 most recent entries were included above. Continue to older entries.

Seules les 20 plus récentes entrées ont été incluses ici. Continuer à lire les entrées plus anciennes.


Entries by month / Entrées par mois:

2018 Jan 2018 Feb 2018 Mar 2018 Apr 2018 May 2018 Jun 2018 Jul 2018 Aug 2018 Sep 2018
2017 Jan 2017 Feb 2017 Mar 2017 Apr 2017 May 2017 Jun 2017 Jul 2017 Aug 2017 Sep 2017 Oct 2017 Nov 2017 Dec 2017
2016 Jan 2016 Feb 2016 Mar 2016 Apr 2016 May 2016 Jun 2016 Jul 2016 Aug 2016 Sep 2016 Oct 2016 Nov 2016 Dec 2016
2015 Jan 2015 Feb 2015 Mar 2015 Apr 2015 May 2015 Jun 2015 Jul 2015 Aug 2015 Sep 2015 Oct 2015 Nov 2015 Dec 2015
2014 Jan 2014 Feb 2014 Mar 2014 Apr 2014 May 2014 Jun 2014 Jul 2014 Aug 2014 Sep 2014 Oct 2014 Nov 2014 Dec 2014
2013 Jan 2013 Feb 2013 Mar 2013 Apr 2013 May 2013 Jun 2013 Jul 2013 Aug 2013 Sep 2013 Oct 2013 Nov 2013 Dec 2013
2012 Jan 2012 Feb 2012 Mar 2012 Apr 2012 May 2012 Jun 2012 Jul 2012 Aug 2012 Sep 2012 Oct 2012 Nov 2012 Dec 2012
2011 Jan 2011 Feb 2011 Mar 2011 Apr 2011 May 2011 Jun 2011 Jul 2011 Aug 2011 Sep 2011 Oct 2011 Nov 2011 Dec 2011
2010 Jan 2010 Feb 2010 Mar 2010 Apr 2010 May 2010 Jun 2010 Jul 2010 Aug 2010 Sep 2010 Oct 2010 Nov 2010 Dec 2010
2009 Jan 2009 Feb 2009 Mar 2009 Apr 2009 May 2009 Jun 2009 Jul 2009 Aug 2009 Sep 2009 Oct 2009 Nov 2009 Dec 2009
2008 Jan 2008 Feb 2008 Mar 2008 Apr 2008 May 2008 Jun 2008 Jul 2008 Aug 2008 Sep 2008 Oct 2008 Nov 2008 Dec 2008
2007 Jan 2007 Feb 2007 Mar 2007 Apr 2007 May 2007 Jun 2007 Jul 2007 Aug 2007 Sep 2007 Oct 2007 Nov 2007 Dec 2007
2006 Jan 2006 Feb 2006 Mar 2006 Apr 2006 May 2006 Jun 2006 Jul 2006 Aug 2006 Sep 2006 Oct 2006 Nov 2006 Dec 2006
2005 Jan 2005 Feb 2005 Mar 2005 Apr 2005 May 2005 Jun 2005 Jul 2005 Aug 2005 Sep 2005 Oct 2005 Nov 2005 Dec 2005
2004 Jan 2004 Feb 2004 Mar 2004 Apr 2004 May 2004 Jun 2004 Jul 2004 Aug 2004 Sep 2004 Oct 2004 Nov 2004 Dec 2004
2003 May 2003 Jun 2003 Jul 2003 Aug 2003 Sep 2003 Oct 2003 Nov 2003 Dec 2003