David Madore's WebLog: Un peu de mécanique quantique : information négative et probabilités négatives

J'ai commis l'imprudence (eu égard au nombre de choses que j'ai à faire en ce moment[#]) de regarder cette vidéo d'un exposé de Ron Garrett à Google Tech, qui est apparue dans mes suggestions YouTube, et dont le titre est joliment provocateur : The Quantum Conspiracy: What Popularizers of QM Don't Want You to Know.

[#] L'imprudence n'est d'avoir sacrifié environ une heure pour regarder une vidéo d'environ une heure, mais la prévisible conséquence que ça allait me faire perdre beaucoup plus de temps que ça à réfléchir aux sujets évoqués dans la vidéo, puis à d'autres sujets connexes. Ou à écrire une entrée dans mon blog pour reraconter ce que j'ai appris.

Je ne sais pas dans quelle mesure il est bon en tant qu'exposé de vulgarisation (clairement il s'adresse à un public — des gens de chez Google, je suppose — qui savent déjà un minimum ce qu'est la mécanique quantique et connaissent un peu d'algèbre linéaire), il est probable qu'il essaie de dire trop de choses dans le temps imparti. Mais sur le fond, je trouve très intéressante l'idée qu'il expose d'une interprétation de la mécanique quantique basée sur la théorie de l'information (quantique !) et que Ron Garrett appelle facétieusement la zero-world interpretation (par opposition à celle-ci, bien plus célèbre). L'idée semble être due à plusieurs personnes : voir notamment cet article de Cerf et Adami (ou celui-ci) sur lequel est essentiellement basé la fin de l'exposé de Garrett (mais qui ne propose pas vraiment d'interprétation de la mécanique quantique, il expose juste les bases de la théorie de l'information quantique et comment voir l'intrication quantique dans ce cadre), cet article de Mermin qui définit ce qu'il appelle l'Ithaca interpretation, et cet article de Rovelli qui définit la relational interpretation, qui est peut-être, ou peut-être pas, essentiellement la même chose, c'est un peu difficile à dire parce que ces gens ne prennent pas la peine d'expliciter les relations entre leurs idées, mais en tout cas c'est aussi intéressant. (Je précise que je n'ai pas lu tout ça en détail, cf. la note ci-dessus, mais au moins en diagonale ça a l'air intéressant.)

Bon, a-t-on besoin d'une quinzième interprétation de la mécanique quantique, je ne sais pas (à ce niveau-là je pense qu'il commence à être nécessaire de développer des méta-interprétations de la mécanique quantique, qui cherchent à interpréter les interprétations, à définir ce qu'elles doivent faire, à les identifier les unes aux autres, etc.). Mais au moins je retiens l'idée de l'information quantique, que je ne connaissais pas (enfin, j'avais peut-être entendu parler, mais je n'avais certainement pas réfléchi dessus) :

Classiquement, si on tire deux bits aléatoires indépendants, on a deux variables qui contiennent chacune un bit d'information, avec zéro bits en commun et deux bits au total (chaque variable apporte un bit de plus que la connaissance de l'autre séparément) ; si au contraire on tire un bit aléatoire et qu'on le recopie, on a deux variables qui contiennent chacune un bit d'information, avec un bit en commun et un bit au total (chaque variable apporte zéro bits de plus que la connaissance de l'autre séparément). Le point rigolo expliqué dans l'exposé de Garrett ou dans l'article de Cerf et Adami (liens ci-dessus) est l'idée de voir un état comme l'état de Bell (deux qubits parfaitement intriqués) comme : deux variables qui contiennent chacune un bit d'information, mais avec ayant deux bits en commun, et zéro bits au total (chaque variable apporte −1 bit de plus que la connaissance de l'autre séparément !).

Mesurer quantiquement (le spin d'un photon, disons), c'est créer un état intriqué avec l'appareil de mesure, donc, dans cette interprétation, on se retrouve dans un tel état où la particule mesurée et l'appareil de mesure portent chacun un bit d'information mais il y en a zéro au total, parce qu'il n'y a pas de hasard dans l'histoire ; ce qui fait apparaître le hasard, dans cette interprétation, c'est de jeter une des variables (la particule), donc les −1 bits supplémentaires qu'elle apportait par rapport à l'autre, et on se retrouve avec 1 bit d'information — un hasard apparu du fait qu'on a jeté quelque chose. Bon, je ne sais pas si cela éclaire les choses, et mes explications sont peut-être plus mauvaises que celles de Garrett ou de Cerf&Adami, mais en tout cas c'est un calcul sur lequel il est intéressant de méditer.

La description mathématique est simple, mais si ça ne vous intéresse pas vous pouvez passer à la suite, qui parle d'autre chose qui est peut-être, ou peut-être pas, la même chose (ce n'est pas clair pour moi).

Je commence par rappeler très brièvement les notions de base de théorie de l'information classique. L'entropie (classique) d'une distribution de probabilité discrète ou variable aléatoire discrète A est H(A) := −∑_i p_i·log(p_i) où p_i = P[A=i] et où i parcourt les différentes valeurs envisageables pour A (on convient que 0·log(0)=0 ; par ailleurs, le log est généralement divisé par log 2 pour obtenir un résultat en bits ou logons) ; on peut voir ça comme l'espérance de −log(p_i) : intuitivement — et pas seulement intuitivement —, elle représente la quantité d'information apportée par la connaissance de la valeur de A (chaque −log(p_i) représente la quantité d'information apportée dans ce cas précis, et l'espérance est donc la quantité d'information apportée par A globalement). Si A et B sont deux variables, l'entropie jointe H(A,B) est simplement l'entropie de la variable (A,B) (le couple, vivant dans le produit cartésien) : c'est la quantité d'information qu'apporte la connaissance de A et de B à la fois ; l'entropie conditionnelle H(A|B) est définie comme H(A,B) − H(B) (c'est la quantité d'information supplémentaire qu'apporte la connaissance de B si on connaît déjà celle de A), et on peut aussi l'exprimer en utilisant des probabilités conditionnelles ; quant à l'information mutuelle (ou entropie commune, ou autres termes de ce genre), I(A;B) ou H(A;B) (symétrique en A et B) est définie comme H(A) + H(B) − H(A,B) = H(A) − H(A|B) = H(B) − H(B|A) : intuitivement, c'est l'information apportée communément par A et B (donc redondante si on a les deux), voyez le diagramme de Venn standard ; l'information mutuelle sera nulle pour deux variables indépendantes, on peut l'imaginer comme une sorte de corrélation, mais contrairement à la corrélation de la régression linéaire, elle détecte de l'information jointe quelle que soit sa forme (dès que B est une fonction de A, l'entropie conditionnelle H(B|A) est nulle, par exemple).

Pour passer en quantique, ce qui tient lieu de distribution de probabilité (moralement, une distribution de probabilité sur les états quantiques) est un opérateur densité sur l'espace de Hilbert ℋ des états du système, c'est-à-dire une matrice hermitienne A semidéfinie positive de trace 1 (i.e., diagonalisable en base orthonormée avec une diagonale représentant une distribution de probabilité au sens usuel ; je me place en dimension finie pour ne pas compliquer les choses inutilement) ; ou, si on préfère, en termes quantiques, un observable dont les valeurs sont les probabilités (i.e., la probabilité a priori d'être dans l'état qu'on a observé !). On parle aussi d'état mélangé. Un état pur |ψ⟩ se voit comme état mélangé particulier décrit par l'opérateur densité |ψ⟩⟨ψ|, c'est-à-dire la projection sur |ψ⟩. Quant à la valeur moyenne, i.e., l'espérance, d'un observable X sur un état mélangé A, c'est tr(AX), une expression sensée quand on pense au cas où A et X ont le bon goût de commuter (donc de se diagonaliser simultanément en base orthonormée), car on retrouve alors la valeur de l'espérance classique ∑_i p_i·X(i) en notant p_i les valeurs diagonales (i.e., propres) de A et X(i) celles de X. En particulier, il est raisonnable de définir l'entropie H(A) de A comme −tr(A·log(A)) (où il faut comprendre ça comme la valeur en A de la fonction −z·log(z) prolongée par 0 en 0 ; le plus simple est de dire : on diagonalise A et on prend l'entropie −∑_i p_i·log(p_i) de la distribution constituée par ses termes diagonaux).

On peut alors faire les même définitions que dans le cas classique. Pour éviter de m'embêter à essayer de définir des variables aléatoires quantiques, je vais supposer que j'ai juste deux sous-systèmes, décrits par des espaces (de Hilbert) ℋ_A et ℋ_B formant mon système ℋ_AB = ℋ_A ⊗ ℋ_B, dans lequel j'ai mon état mélangé, que je ne sais pas comment noter parce qu'il faudrait logiquement le noter AB mais je ne veux pas donner l'impression que c'est un produit (c'est ce qui tient lieu de distribution jointe), donc je vais le noter C, opérateur densité sur ℋ_AB, donc. Ses marginales sont alors définies comme A = tr_B(C) (opérateur densité sur ℋ_A) et B = tr_A(C) (opérateur densité sur ℋ_B) où tr_A désigne, bien sûr, la trace relativement à ℋ_A (je me place en dimension finie donc l'espace des opérateurs sur ℋ_A ⊗ ℋ_B est le produit tensoriel de ceux des opérateurs sur ℋ_A et ℋ_B respectivement, et tr_A consiste à prendre le produit tensoriel de la trace sur la première partie et de l'identité sur la seconde) ; il est logique de prendre de telles « traces partielles » pour sommer, intuitivement, les valeurs qui ne concernent pas A, ou pas B (sachant que la trace totale tr = tr_AB = tr_A∘tr_B, elle, vaut 1 par définition d'un état mélangé / opérateur densité). On définit alors H(A,B) = −tr_AB(C·log(C)) et H(A) = −tr_A(A·log(A)) et H(B) = −tr_B(B·log(B)) et H(A|B), H(B|A) et H(A;B) exactement comme dans le cas classique.

Remarquons que si C est un état pur |ψ⟩⟨ψ|, son entropie est nulle (en complétant |ψ⟩ en base orthonormée, C est diagonale avec un 1 et ailleurs juste des 0).

Je prends un exemple explicite où ℋ_A et ℋ_B sont tous les deux de dimension 2 (un qubit) avec pour base orthonormée |0⟩ et |1⟩, et en notant |00⟩=|0⟩⊗|0⟩, |01⟩=|0⟩⊗|1⟩, |10⟩=|1⟩⊗|0⟩ et |11⟩=|1⟩⊗|1⟩ les quatre états pour deux qubits. L'état intriqué dont on part est |ψ⟩ := (|00⟩+|11⟩)/√2. Pour être intriqué, ça reste un état pur (un élément de ℋ_AB). L'opérateur densité C = |ψ⟩⟨ψ| qui lui correspond est (|00⟩⟨00| + |00⟩⟨11| + |11⟩⟨00| + |11⟩⟨11|) / 2, et elle a une entropie nulle comme expliqué au paragraphe précédent. Mais ses marginales sont A = tr_B(C) = (|0⟩⟨0| + |1⟩⟨1|) / 2 (les deux termes du milieu sont de trace nulle) et B est formellement identique ; et cette fois, H(A) = 1 bit (il est déjà écrit sous forme diagonale) et H(B) = 1 bit, donc H(A|B) = −1 bit, H(B|A) = −1 bit et H(A;B) = 2 bits, comme je l'avais annoncé. On a vraiment affaire à une « variable aléatoire quantique » (l'état mixte C) qui est « sans hasard » (c'est un état pur) mais telle qu'en la projetant sur une de ses marginales (A ou B), il y ait un bit de hasard !

Plus généralement, on peut se convaincre que si on part d'un état (|00⋯0⟩+|11⋯1⟩)/√2 de k qubits parfaitement intriqué, on obtient k variables qui chacune apportent 1 bit d'information mais avec un total de zéro, et si on oublie une quelconque des variables, les k−1 autres deviennent classiques parfaitement corrélées. Notamment, si on part de deux photons parfaitement intriqués et qu'on mesure leurs spins, même séparés par la moitié de l'Univers, on obtient la même valeur : pas besoin, dans cette interprétation, d'invoquer de spooky action at a distance : on a juste jeté (ou ignoré) −1 bit d'information et on se retrouve avec des observations parfaitement corrélées.

Il faut juste s'habituer à l'idée que l'information puisse être négative. Mais à ce sujet, il est sans doute pertinent de signaler que même dans le cas classique, l'information jointe peut être négative, quand il s'agit de l'information jointe d'au moins trois variables. L'exemple est très simple : si A et B sont deux bits aléatoires indépendants et C est leur XOR, alors l'information totale H(A,B,C) est de 2 bits, chacune de H(A) = H(B) = H(C) vaut 1 bit, donc H(A|B,C) = 0 et symétriquement (ce qui est logique car la connaissance de deux des trois variables suffit à tout savoir), H(A,B|C) = 1 bit, et quand on met tout ça ensemble (faites le diagramme de Venn !), on trouve que l'information mutuelle H(A;B;C) à l'intersection vaut −1 bit.

⁂

De l'information négative, je passe aux probabilités négatives, qui sont aussi quelque chose en rapport avec la mécanique quantique. Ce que je ne comprends pas, c'est le rapport exact entre les deux (est-ce deux façons différentes d'interpréter les mêmes choses, deux fois la même façon mais dite différemment, ou deux choses bien différentes ?).

Voici la petite histoire : considérons deux boîtes, appelons-les A et B, chacune contient trois tiroirs, appelons-les X, Y et Z. Si on ouvre un tiroir d'une boîte, on en extrait un contenu, mais la boîte explose (on ne peut donc ouvrir qu'un seul tiroir d'une boîte donnée). Le contenu sera soit le mot oui, soit le mot non. Les boîtes ont la propriété suivante :

si on ouvre un seul tiroir d'une seule boîte, le contenu est oui avec probabilité ½ et non avec probabilité ½ ;
si on ouvre le tiroir de même nom de chacune des deux boîtes, le contenu est toujours le même ;
si on ouvre deux tiroirs de noms différents, le contenu est le même avec probabilité ¼ et différent avec probabilité ¾.

Votre défi est de fabriquer de telles boîtes. Les probabilités doivent se comprendre comme ceci : vous devez fabriquer ces boîtes en série (plein de paires de boîtes A&B), et si on mène des statistiques, on doit trouver asymptotiquement les probabilités annoncées.

Pour essayer de voir comment on peut s'y prendre, classiquement, on se dit qu'on va choisir une certaine distribution de contenus (X,Y,Z) pour chaque boîte, parmi les huit possibilités (oui/non puissance 3). Comme ouvrir un même tiroir quelconque des boîtes A et B doit fournir toujours le même résultat, elles doivent toujours avoir les mêmes contenus, donc il y a une seule distribution à tirer, et en fait, pour des raisons de symétrie entre tiroirs et de symétrie oui/non, on peut dire qu'on fabrique une proportion p/2 de (paires de) boîtes (oui,oui,oui), autant de boîtes (non,non,non), et une proportion (1−p)/6 de chacune des six autres. Cela vérifie bien les deux premières conditions, et pour la troisième on trouve qu'en ouvrant deux tiroirs différents on obtient des contenus identiques avec probabilité (1+2p)/3 et différents avec probabilité 2(1−p)/3. L'ennui c'est que le minimum du premier est 1/3 et qu'on veut 1/4. C'est donc impossible. Je n'ai fait qu'esquisser la preuve, mais en général on appelle ça les inégalités de Bell.

(C'est sans doute plus frappant si on demande que deux tiroirs de noms différents aient des contenus toujours différents. De façon rigolote, pouvoir fabriquer des paires de boîtes, comme ça, reviendrait alors exactement à pouvoir fournir une preuve à divulgation nulle de connaissance du fait que le graphe complet sur trois sommets (=triangle) serait coloriable avec deux couleurs, ce que, manifestement, il n'est pas. Mais restons avec les probabilités de ¼ et ¾, qui ne sont pas non plus possibles classiquement.)

Ou alors, pour que ce soit possible, il faudrait, pardon, il suffirait de pouvoir fabriquer des boîtes (des paires de boîtes identiques) qui contiennent (oui,oui,oui) et (non,non,non) avec probabilité chacun −1/8, et chacun des six autres avec probabilité 3/16. Avec des probabilités négatives ça devient possible.

Le rapport avec le quantique, c'est justement que, quantiquement, c'est possible de fabriquer de telles boîtes : on fabrique deux photons parfaitement intriqués de polarisation opposée, on met chacun dans une boîte, chaque boîte peut détecter la polarisation du photon selon l'un de trois axes (X, Y ou Z) séparés mutuellement de π/3, les axes de la boîte B étant perpendiculaires à ceux de même nom de la boîte A (de manière à répondre la même chose si les photons sont polarisés de façon opposée). Pour ceux qui veulent faire les calculs, on part d'un état intriqué (|HV⟩−|VH⟩)/√2 (H=polarisation horizontale, V=verticale) ; et disons que X(A) répond non sur |H⟩ et oui sur |V⟩, tandis que Y(A) répond non sur ½|H⟩+½√3|V⟩ et oui sur −½√3|H⟩+½|V⟩, et Z(A) répond non sur −½|H⟩+½√3|V⟩ et oui sur −½√3|H⟩−½|V⟩ ; et les détecteurs de (B) font pareil en échangeant oui et non.

La conclusion qu'on tire généralement de cette expérience, c'est que les variables cachées ne peuvent pas expliquer la mécanique quantique (il est impossible que chaque boîte ait choisi à l'avance en secret si elle réondrait oui ou non à chacune des questions X, Y et Z), et du coup il y aurait une spooky action at a distance d'une boîte sur l'autre quand on interroge son contenu, action qui voyage plus vite que la lumière (mais ne permet heureusement pas de transporter de l'information comme ça). Ou peut-être une forme de rétrocausalité. Ou en tout cas quelque chose de Très Bizarre. Personnellement, je n'ai jamais été très impressionné par cette expérience, et si elle peut s'expliquer avec des probabilités négatives (je ne prétends pas que cette explication soit la meilleure, ni qu'elle soit souhaitable, ni qu'elle s'étende à d'autres expériences du même genre, ni quoi que ce soit du genre, juste que le fait que cette interprétation simple est possible dans ce cas), ça ne me semble pas un sacrifice énorme d'abandonner l'axiome que les probabilités sont nécessairement positives (qui est certes mathématiquement commode, mais dont le fondement épistémologique s'agissant du monde réel ne me paraît pas du tout solide, étant entendu qu'on parle de probabilités « cachées » et que les statistiques sur des effets réellement mesurés doivent, évidemment, être positives au final). Je veux dire, je n'ai aucun mal à conceptualiser une paire de boîte identiques qui contiennent (oui,oui,oui) et (non,non,non) avec probabilité chacun −1/8, et chacun des six autres avec probabilité 3/16, tant qu'on ne peut ouvrir qu'un tiroir de chaque boîte et jamais plus : je ne vois pas pourquoi on préférerait imaginer une spooky action at a distance que ça.

Ce que je ne sais pas, c'est :

Dans quelle mesure on peut interpréter la mécanique quantique en général (plutôt juste que cette expérience très étroite) avec des variables cachées qui admettraient des probabilités négatives (mais de façon que toute probabilité qui est mesurable soit, bien sûr, au final positive) ; et surtout, même si on peut, dans quelle mesure on peut le faire de manière « canonique », naturelle, élégante, respectant par exemple les symétries de la physique, et garantissant le réalisme local (si tant est que les probabilités négatives sont considérées comme compatibles avec le « réalisme local »…).
S'il y a (ou sinon, pourquoi pas) une interprétation standard de la mécanique quantique basée essentiellement sur l'idée de probabilités négatives. (Feynman en parle dans son exposé Simulating Physics with Computers, mais c'est essentiellement pour rejeter l'idée.) De nouveau, je ne prétends pas qu'une telle interprétation soit une bonne idée, mais que si elle est possible elle mérite certainement d'être sur la table (aux côtés de tant d'autres).
Quel est le rapport précis entre les probabilités négatives dont je parle dans cette deuxième partie et les informations négatives dont je parlais dans la première. (Je remarque que si on convient que l'entropie −∑_i p_i·log(p_i) devient −∑_i p_i·log|p_i| dans le cas de probabilités négatives, on peut obtenir la situation évoquée plus haut, à savoir deux variables qui contiennent chacune un bit d'information mais avec ayant deux bits en commun et zéro bits au total en tirant (0,0) et (1,1) avec probabilité 0.64691 chacun, et (0,1) et (1,0) avec probabilité −0.14691 chacun. Mais je ne sais pas si ce calcul a le moindre sens ni si on peut donner une interprétation à ces valeurs.)
Si l'interprétation « information quantique » a quelque chose d'intelligent à dire sur l'expérience de Bell telle que je l'ai présentée ci-dessus. De nouveau, le lien entre information et probabilités n'est pas terriblement clair.

Ajout : voir aussi ce bout de ce billet ultérieur, ainsi que celui-ci.