J'ai commis l'imprudence (eu égard au nombre de choses que j'ai à
faire en ce moment[#]) de
regarder cette
vidéo d'un exposé de Ron Garrett à Google Tech, qui est apparue
dans mes suggestions YouTube, et dont le titre est joliment
provocateur : The Quantum Conspiracy: What
Popularizers of QM Don't Want You to Know
.
[#] L'imprudence n'est
d'avoir sacrifié environ une heure pour regarder une vidéo d'environ
une heure, mais la prévisible conséquence que ça allait me faire
perdre beaucoup plus de temps que ça à réfléchir aux sujets évoqués
dans la vidéo, puis à d'autres sujets connexes. Ou à écrire une
entrée dans mon blog pour reraconter ce que j'ai appris.
Je ne sais pas dans quelle mesure il est bon en tant qu'exposé de
vulgarisation (clairement il s'adresse à un public — des gens de chez
Google, je suppose — qui savent déjà un minimum ce qu'est la mécanique
quantique et connaissent un peu d'algèbre linéaire), il est probable
qu'il essaie de dire trop de choses dans le temps imparti. Mais sur
le fond, je trouve très intéressante l'idée qu'il expose d'une
interprétation de la mécanique quantique basée sur la théorie de
l'information (quantique !) et que Ron Garrett appelle facétieusement
la zero-world interpretation
(par opposition
à celle-ci,
bien plus célèbre). L'idée semble être due à plusieurs
personnes : voir
notamment cet article
de Cerf et Adami
(ou celui-ci) sur
lequel est essentiellement basé la fin de l'exposé de Garrett (mais
qui ne propose pas vraiment d'interprétation de la mécanique
quantique, il expose juste les bases de la théorie de l'information
quantique et comment voir l'intrication quantique dans ce
cadre), cet article de
Mermin qui définit ce qu'il appelle l'Ithaca
interpretation
,
et cet article de
Rovelli qui définit la relational
interpretation
, qui est peut-être, ou peut-être pas,
essentiellement la même chose, c'est un peu difficile à dire parce que
ces gens ne prennent pas la peine d'expliciter les relations entre
leurs idées, mais en tout cas c'est aussi intéressant. (Je précise
que je n'ai pas lu tout ça en détail,
cf. la note ci-dessus, mais au
moins en diagonale ça a l'air intéressant.)
Bon, a-t-on besoin
d'une quinzième interprétation de
la mécanique quantique, je ne sais pas
(à ce
niveau-là je pense qu'il commence à être nécessaire de développer
des méta-interprétations de la mécanique quantique, qui
cherchent à interpréter les interprétations, à définir ce qu'elles
doivent faire, à les identifier les unes aux autres, etc.). Mais au
moins je retiens l'idée de l'information quantique, que je ne
connaissais pas (enfin, j'avais peut-être entendu parler, mais je
n'avais certainement pas réfléchi dessus) :
Classiquement, si on tire deux bits aléatoires indépendants, on a
deux variables qui contiennent chacune un bit d'information, avec zéro
bits en commun et deux bits au total (chaque variable apporte un bit
de plus que la connaissance de l'autre séparément) ; si au contraire
on tire un bit aléatoire et qu'on le recopie, on a deux variables qui
contiennent chacune un bit d'information, avec un bit en commun et un
bit au total (chaque variable apporte zéro bits de plus que la
connaissance de l'autre séparément). Le point rigolo expliqué dans
l'exposé de Garrett ou dans l'article de Cerf et Adami (liens
ci-dessus) est l'idée de voir un état comme
l'état de Bell
(deux qubits parfaitement intriqués) comme : deux variables qui
contiennent chacune un bit d'information, mais avec
ayant deux bits en commun, et zéro bits au total
(chaque variable apporte −1 bit de plus que la connaissance de
l'autre séparément !).
Mesurer quantiquement (le spin d'un photon, disons), c'est créer un
état intriqué avec l'appareil de mesure, donc, dans cette
interprétation, on se retrouve dans un tel état où la particule
mesurée et l'appareil de mesure portent chacun un bit d'information
mais il y en a zéro au total, parce qu'il n'y a pas de hasard dans
l'histoire ; ce qui fait apparaître le hasard, dans cette
interprétation, c'est de jeter une des variables (la particule), donc
les −1 bits supplémentaires qu'elle apportait par rapport à l'autre,
et on se retrouve avec 1 bit d'information — un hasard apparu du fait
qu'on a jeté quelque chose. Bon, je ne sais pas si cela éclaire les
choses, et mes explications sont peut-être plus mauvaises que celles
de Garrett ou de Cerf&Adami, mais en tout cas c'est un calcul sur
lequel il est intéressant de méditer.
La description mathématique est simple, mais si ça ne vous
intéresse pas vous pouvez passer à
la suite, qui parle d'autre chose qui est peut-être, ou peut-être
pas, la même chose (ce n'est pas clair pour moi).
Je commence par rappeler très brièvement les notions de base de
théorie de l'information classique. L'entropie (classique)
d'une distribution de probabilité discrète ou variable aléatoire
discrète A est H(A) :=
−∑i pi·log(pi)
où pi
= P[A=i] et où i parcourt les
différentes valeurs envisageables pour A (on convient que
0·log(0)=0 ; par ailleurs, le log est généralement divisé par log 2
pour obtenir un résultat en bits
ou logons
) ; on peut voir ça
comme l'espérance de −log(pi) :
intuitivement — et pas seulement intuitivement —, elle représente la
quantité d'information apportée par la connaissance de la valeur
de A (chaque −log(pi)
représente la quantité d'information apportée dans ce cas précis, et
l'espérance est donc la quantité d'information apportée
par A globalement). Si A et B sont
deux variables,
l'entropie jointe H(A,B)
est simplement l'entropie de la variable (A,B)
(le couple, vivant dans le produit cartésien) : c'est la quantité
d'information qu'apporte la connaissance de A et
de B à la fois ;
l'entropie conditionnelle H(A|B)
est définie comme H(A,B)
− H(B) (c'est la quantité d'information
supplémentaire qu'apporte la connaissance de B si on
connaît déjà celle de A), et on peut aussi l'exprimer en
utilisant des probabilités conditionnelles ; quant à
l'information
mutuelle (ou entropie commune, ou autres termes
de ce genre), I(A;B)
ou H(A;B) (symétrique en A
et B) est définie comme H(A)
+ H(B) − H(A,B)
= H(A) − H(A|B)
= H(B)
− H(B|A) : intuitivement, c'est
l'information apportée communément par A et B
(donc redondante si on a les deux), voyez
le diagramme
de Venn standard ; l'information mutuelle sera nulle pour deux
variables indépendantes, on peut l'imaginer comme une sorte de
corrélation, mais contrairement à la corrélation de la régression
linéaire, elle détecte de l'information jointe quelle que soit sa
forme (dès que B est une fonction de A,
l'entropie conditionnelle H(B|A) est
nulle, par exemple).
Pour passer en quantique, ce qui tient lieu de distribution de
probabilité (moralement, une distribution de probabilité sur les états
quantiques) est
un opérateur
densité sur l'espace de Hilbert ℋ des
états du système, c'est-à-dire une matrice hermitienne A
semidéfinie positive de trace 1 (i.e., diagonalisable en base
orthonormée avec une diagonale représentant une distribution de
probabilité au sens usuel ; je me place en dimension finie pour ne pas
compliquer les choses inutilement) ; ou, si on préfère, en termes
quantiques, un observable dont les valeurs sont les probabilités
(i.e., la probabilité a priori d'être dans l'état qu'on a
observé !). On parle aussi d'état mélangé. Un état
pur |ψ⟩ se voit comme état mélangé particulier
décrit par l'opérateur densité
|ψ⟩⟨ψ|, c'est-à-dire la projection
sur |ψ⟩. Quant à la valeur moyenne, i.e.,
l'espérance, d'un observable X sur un état
mélangé A, c'est tr(AX), une
expression sensée quand on pense au cas où A
et X ont le bon goût de commuter (donc de se diagonaliser
simultanément en base orthonormée), car on retrouve alors la valeur de
l'espérance classique
∑i pi·X(i)
en notant pi les valeurs diagonales
(i.e., propres) de A et X(i) celles
de X. En particulier, il est raisonnable de définir
l'entropie H(A) de A comme
−tr(A·log(A)) (où il faut comprendre ça comme la
valeur en A de la fonction −z·log(z)
prolongée par 0 en 0 ; le plus simple est de dire : on
diagonalise A et on prend l'entropie
−∑i pi·log(pi)
de la distribution constituée par ses termes diagonaux).
On peut alors faire les même définitions que dans le cas classique.
Pour éviter de m'embêter à essayer de définir des variables aléatoires
quantiques, je vais supposer que j'ai juste deux sous-systèmes,
décrits par des espaces (de Hilbert) ℋA
et ℋB formant mon
système ℋAB
= ℋA ⊗ ℋB,
dans lequel j'ai mon état mélangé, que je ne sais pas comment noter
parce qu'il faudrait logiquement le noter AB mais je ne
veux pas donner l'impression que c'est un produit (c'est ce qui tient
lieu de distribution jointe), donc je vais le
noter C, opérateur densité
sur ℋAB, donc. Ses marginales sont alors
définies comme A = trB(C) (opérateur
densité sur ℋA) et B =
trA(C) (opérateur densité
sur ℋB) où trA désigne, bien
sûr, la trace relativement à ℋA (je me
place en dimension finie donc l'espace des opérateurs
sur ℋA ⊗ ℋB
est le produit tensoriel de ceux des opérateurs
sur ℋA et ℋB
respectivement, et trA consiste à prendre le produit
tensoriel de la trace sur la première partie et de l'identité sur la
seconde) ; il est logique de prendre de telles « traces partielles »
pour sommer, intuitivement, les valeurs qui ne concernent pas A, ou
pas B (sachant que la trace totale tr = trAB =
trA∘trB, elle, vaut 1 par définition d'un état
mélangé / opérateur densité). On définit
alors H(A,B) =
−trAB(C·log(C))
et H(A) =
−trA(A·log(A))
et H(B) =
−trB(B·log(B))
et H(A|B), H(B|A)
et H(A;B) exactement comme dans le
cas classique.
Remarquons que si C est un état pur
|ψ⟩⟨ψ|, son entropie est nulle (en
complétant |ψ⟩ en base orthonormée, C est
diagonale avec un 1 et ailleurs juste des 0).
Je prends un exemple explicite où ℋA
et ℋB sont tous les deux de dimension 2
(un qubit) avec pour base orthonormée |0⟩ et |1⟩, et en
notant |00⟩=|0⟩⊗|0⟩,
|01⟩=|0⟩⊗|1⟩, |10⟩=|1⟩⊗|0⟩
et |11⟩=|1⟩⊗|1⟩ les quatre états pour deux
qubits. L'état intriqué dont on part est |ψ⟩ :=
(|00⟩+|11⟩)/√2. Pour être intriqué, ça reste un état
pur (un élément de ℋAB). L'opérateur
densité C = |ψ⟩⟨ψ| qui
lui correspond est (|00⟩⟨00| + |00⟩⟨11| +
|11⟩⟨00| + |11⟩⟨11|) / 2, et elle a une
entropie nulle comme expliqué au paragraphe précédent. Mais ses
marginales sont A = trB(C) =
(|0⟩⟨0| + |1⟩⟨1|) / 2 (les deux termes du
milieu sont de trace nulle) et B est formellement
identique ; et cette fois, H(A) = 1 bit (il est
déjà écrit sous forme diagonale) et H(B) =
1 bit, donc H(A|B) =
−1 bit, H(B|A) = −1 bit
et H(A;B) = 2 bits, comme je l'avais
annoncé. On a vraiment affaire à une « variable aléatoire quantique »
(l'état mixte C) qui est « sans hasard » (c'est un état
pur) mais telle qu'en la projetant sur une de ses marginales
(A ou B), il y ait un bit de hasard !
Plus généralement, on peut se convaincre que si on part d'un état
(|00⋯0⟩+|11⋯1⟩)/√2 de k qubits parfaitement
intriqué, on obtient k variables qui chacune apportent 1
bit d'information mais avec un total de zéro, et si on oublie une
quelconque des variables, les k−1 autres deviennent
classiques parfaitement corrélées. Notamment, si on part de deux
photons parfaitement intriqués et qu'on mesure leurs spins, même
séparés par la moitié de l'Univers, on obtient la même valeur : pas
besoin, dans cette interprétation, d'invoquer
de spooky action at a distance : on a juste jeté
(ou ignoré) −1 bit d'information et on se retrouve avec des
observations parfaitement corrélées.
Il faut juste s'habituer à l'idée que l'information puisse être
négative. Mais à ce sujet, il est sans doute pertinent de signaler
que même dans le cas classique,
l'information jointe peut être négative, quand il
s'agit de l'information jointe d'au moins trois variables. L'exemple
est très simple : si A et B sont deux bits
aléatoires indépendants et C est
leur XOR, alors l'information
totale H(A,B,C) est de
2 bits, chacune de H(A)
= H(B) = H(C) vaut 1 bit,
donc H(A|B,C) = 0 et
symétriquement (ce qui est logique car la connaissance de deux des
trois variables suffit à tout
savoir), H(A,B|C) = 1 bit,
et quand on met tout ça ensemble (faites le diagramme de Venn !), on
trouve que l'information
mutuelle H(A;B;C) à
l'intersection vaut −1 bit.
⁂
De l'information négative, je passe aux probabilités négatives, qui
sont aussi quelque chose en rapport avec la mécanique
quantique. Ce que je ne comprends pas, c'est le rapport exact
entre les deux (est-ce deux façons différentes d'interpréter
les mêmes choses, deux fois la même façon mais dite différemment, ou
deux choses bien différentes ?).
Voici la petite histoire : considérons deux boîtes, appelons-les
A et B, chacune contient trois tiroirs, appelons-les X, Y et Z. Si on
ouvre un tiroir d'une boîte, on en extrait un contenu, mais la boîte
explose (on ne peut donc ouvrir qu'un seul tiroir d'une boîte donnée).
Le contenu sera soit le mot oui
, soit le mot non
. Les
boîtes ont la propriété suivante :
- si on ouvre un seul tiroir d'une seule boîte, le contenu
est
oui
avec probabilité ½ et non
avec
probabilité ½ ;
- si on ouvre le tiroir de même nom de chacune des deux boîtes, le
contenu est toujours le même ;
- si on ouvre deux tiroirs de noms différents, le contenu est le
même avec probabilité ¼ et différent avec probabilité ¾.
Votre défi est de fabriquer de telles boîtes. Les probabilités
doivent se comprendre comme ceci : vous devez fabriquer ces boîtes en
série (plein de paires de boîtes A&B), et si on mène des
statistiques, on doit trouver asymptotiquement les probabilités
annoncées.
Pour essayer de voir comment on peut s'y prendre, classiquement, on
se dit qu'on va choisir une certaine distribution de contenus (X,Y,Z)
pour chaque boîte, parmi les huit possibilités (oui/non puissance 3).
Comme ouvrir un même tiroir quelconque des boîtes A et B doit fournir
toujours le même résultat, elles doivent toujours avoir les mêmes
contenus, donc il y a une seule distribution à tirer, et en fait, pour
des raisons de symétrie entre tiroirs et de symétrie oui/non, on peut
dire qu'on fabrique une proportion p/2 de (paires de)
boîtes (oui,oui,oui), autant de boîtes (non,non,non), et une
proportion (1−p)/6 de chacune des six autres. Cela vérifie
bien les deux premières conditions, et pour la troisième on trouve
qu'en ouvrant deux tiroirs différents on obtient des contenus
identiques avec probabilité (1+2p)/3 et différents avec
probabilité 2(1−p)/3. L'ennui c'est que le minimum du
premier est 1/3 et qu'on veut 1/4. C'est donc impossible. Je n'ai
fait qu'esquisser la preuve, mais en général on appelle ça les
inégalités de Bell.
(C'est sans doute plus frappant si on demande que deux tiroirs de
noms différents aient des contenus toujours différents. De
façon rigolote, pouvoir fabriquer des paires de boîtes, comme ça,
reviendrait alors exactement à pouvoir fournir une preuve à
divulgation nulle de connaissance du fait que le graphe complet sur
trois sommets (=triangle) serait coloriable avec deux couleurs, ce
que, manifestement, il n'est pas. Mais restons avec les probabilités
de ¼ et ¾, qui ne sont pas non plus possibles classiquement.)
Ou alors, pour que ce soit possible, il faudrait, pardon,
il suffirait de pouvoir fabriquer des boîtes (des paires de
boîtes identiques) qui contiennent (oui,oui,oui) et (non,non,non) avec
probabilité chacun −1/8, et chacun des six autres avec
probabilité 3/16. Avec des probabilités négatives ça devient
possible.
Le rapport avec le quantique, c'est justement que, quantiquement,
c'est possible de fabriquer de telles boîtes : on fabrique deux
photons parfaitement intriqués de polarisation opposée, on met chacun
dans une boîte, chaque boîte peut détecter la polarisation du photon
selon l'un de trois axes (X, Y ou Z) séparés mutuellement de π/3, les
axes de la boîte B étant perpendiculaires à ceux de même nom de la
boîte A (de manière à répondre la même chose si les photons sont
polarisés de façon opposée). Pour ceux qui veulent faire les calculs,
on part d'un état intriqué (|HV⟩−|VH⟩)/√2
(H=polarisation horizontale, V=verticale) ; et disons que X(A)
répond non
sur |H⟩ et oui
sur |V⟩, tandis
que Y(A) répond non
sur ½|H⟩+½√3|V⟩ et oui
sur −½√3|H⟩+½|V⟩, et Z(A) répond non
sur
−½|H⟩+½√3|V⟩ et oui
sur
−½√3|H⟩−½|V⟩ ; et les détecteurs de (B) font pareil en
échangeant oui
et non
.
La conclusion
qu'on tire
généralement de cette expérience, c'est que les variables cachées
ne peuvent pas expliquer la mécanique quantique (il est impossible que
chaque boîte ait choisi à l'avance en secret si elle
réondrait oui
ou non
à chacune des questions X, Y et Z),
et du coup il y aurait une spooky action at a
distance d'une boîte sur l'autre quand on interroge son contenu,
action qui voyage plus vite que la lumière (mais ne permet
heureusement pas de transporter de l'information comme ça). Ou
peut-être
une forme
de rétrocausalité. Ou en tout cas quelque chose de Très Bizarre.
Personnellement, je n'ai jamais été très impressionné par cette
expérience, et si elle peut s'expliquer avec des probabilités
négatives (je ne prétends pas que cette explication soit la
meilleure, ni qu'elle soit souhaitable, ni qu'elle s'étende à d'autres
expériences du même genre, ni quoi que ce soit du genre, juste que le
fait que cette interprétation simple est possible dans ce cas), ça ne
me semble pas un sacrifice énorme d'abandonner l'axiome que les
probabilités sont nécessairement positives (qui est certes
mathématiquement commode, mais dont le fondement épistémologique
s'agissant du monde réel ne me paraît pas du tout solide, étant
entendu qu'on parle de probabilités « cachées » et que les
statistiques sur des effets réellement mesurés doivent, évidemment,
être positives au final). Je veux dire, je n'ai aucun mal à
conceptualiser une paire de boîte identiques qui contiennent
(oui,oui,oui) et (non,non,non) avec probabilité chacun −1/8, et chacun
des six autres avec probabilité 3/16, tant qu'on ne peut ouvrir qu'un
tiroir de chaque boîte et jamais plus : je ne vois pas pourquoi on
préférerait imaginer une spooky action at a
distance que ça.
Ce que je ne sais pas, c'est :
- Dans quelle mesure on peut interpréter la mécanique quantique en
général (plutôt juste que cette expérience très étroite) avec des
variables cachées qui admettraient des probabilités négatives (mais de
façon que toute probabilité qui est mesurable soit, bien sûr, au final
positive) ; et surtout, même si on peut, dans quelle mesure on peut le
faire de manière « canonique », naturelle, élégante, respectant par
exemple les symétries de la physique, et garantissant le réalisme
local (si tant est que les probabilités négatives sont considérées
comme compatibles avec le « réalisme local »…).
- S'il y a (ou sinon, pourquoi pas) une interprétation standard de
la mécanique quantique basée essentiellement sur l'idée de
probabilités négatives. (Feynman en parle dans son
exposé Simulating Physics with Computers,
mais c'est essentiellement pour rejeter l'idée.) De nouveau, je ne
prétends pas qu'une telle interprétation soit une bonne idée, mais que
si elle est possible elle mérite certainement d'être sur la table (aux
côtés de tant d'autres).
- Quel est le rapport précis entre les probabilités négatives dont
je parle dans cette deuxième partie et les informations négatives dont
je parlais dans la première. (Je remarque que si on convient que
l'entropie
−∑i pi·log(pi)
devient
−∑i pi·log|pi|
dans le cas de probabilités négatives, on peut obtenir la situation
évoquée plus haut, à savoir deux variables qui contiennent chacune un
bit d'information mais avec ayant deux bits en commun et zéro
bits au total en tirant (0,0) et (1,1) avec probabilité 0.64691
chacun, et (0,1) et (1,0) avec probabilité −0.14691 chacun. Mais je
ne sais pas si ce calcul a le moindre sens ni si on peut donner une
interprétation à ces valeurs.)
- Si l'interprétation « information quantique » a quelque chose
d'intelligent à dire sur l'expérience de Bell telle que je l'ai
présentée ci-dessus. De nouveau, le lien entre information
et probabilités n'est pas terriblement clair.
Ajout : voir
aussi ce bout
de ce billet ultérieur, ainsi
que celui-ci.