David Madore's WebLog: Mélanges probabilistes et superpositions quantiques

Précisions d'emblée que le but de ce billet, qui évoque le rapport entre (pour prendre un exemple célèbre) un chat vivant avec probabilité ½ et mort avec probabilité ½ (« mélange probabiliste ») et un chat dans un état quantique qui combine vivant et mort (« superposition quantique ») n'est pas vraiment de faire de la vulgarisation, encore moins de la physique. Je m'en sers, comme je fais parfois, surtout pour gribouiller rapidement ce que j'ai (moi matheux) réussi à comprendre de textes que je trouve souvent obscurs, et pour noter des questions que je (me) pose si je veux y réfléchir plus attentivement Un Jour™, mais ça ne signifie pas que d'autres trouveront mes explications plus claires que ce qu'on peut trouver ailleurs. Il s'agit essentiellement de choses très classiques, mais que je trouve généralement très mal expliquées (notamment par le fait qu'on prend rarement le soin d'essayer de décrire le parallèle entre mélanges probabilistes et superpositions quantiques séparément avant de dire comment ces deux choses se combinent), quoique certaines des questions que je soulève au passage n'ont pas l'air d'être beaucoup discutées, et c'est dommage.

Quoi qu'il en soit, ce qui suit s'adresse à des lecteurs qui savent au moins un peu d'algèbre linéaire (en gros, pour qui les mots espace de Hilbert ont un sens — je ne parlerai que de la dimension finie donc on peut préférer espace hermitien), et sont globalement familiers avec le fait qu'une matrice hermitienne est diagonalisable. Et encore une fois, mon point de vue va être celui d'un matheux, pas d'un physicien (témoin le fait que je vais à peine évoquer de lois de la physique) : la question est celle de la représentation mathématique d'états d'un système physique. (Et j'en profite pour pointer du doigts certains faits géométriques sur cette représentation.) Mais au passage, ça soulève des questions, qui me semblent intéressantes, sur la philosophie de la physique (notamment que signifient les probabilités, et dans quelle mesure elles font partie de la réalité du monde).

Je dois aussi préciser que j'ai changé plein de fois d'avis sur ce que je voulais raconter ici, que j'ai fait mon plan a posteriori et que j'ai réécrit plein de fois des passages sans vérifier la cohérence avec ce qui était déjà ailleurs, ce qui explique sans doute des virages un peu bizarres, des redites ou incohérences de propos et des digressions inutiles (comme d'habitude, j'essaie de rédiger de manière à ce qu'on puisse les sauter, mais je ne sais pas dans quelle mesure j'y arrive). Par ailleurs, comme ça m'arrive souvent, j'ai écrit ce texte jusqu'au point où j'en ai eu marre de l'écrire, ce qui explique qu'après être parti dans toutes les directions il s'arrête un peu brutalement et sans vraie conclusion — mais je pense que mes lecteurs (enfin, ceux qui sont assez patients pour lire mes billets jusqu'au bout) ont l'habitude de ça.

Plan

Plan
Mélanges probabilistes et superpositions quantiques séparément
Comment combiner mélanges probabilistes et superpositions quantiques ?

Mélanges probabilistes et superpositions quantiques séparément

Comme promis, je commence comme un matheux. Supposons que A soit un ensemble, que je vais prendre fini pour simplifier et que j'imagine comme les états basiques que peut prendre un système physique.

Mon but est dans un premier temps de définir deux types de constructions[#] qu'on peut faire sur cet ensemble A, que je vais ensuite comparer et contraster, et que je vais appeler mélanges probabilistes et superpositions quantiques ; puis, dans la suite, je discuterai comment on peut les combiner.

[#] Techniquement, j'imagine qu'on doit pouvoir faire de chacune de ces constructions une monade, mais je ne veux pas tomber dans ce trou de lapin-là.

Mélanges probabilistes

Si je ne sais pas exactement dans quel état se trouve mon système, je peux représenter mon ignorance sous la forme d'une distribution de probabilités sur A : concrètement, ça va prendre la forme d'une fonction de A vers les réels positifs (donnant la probabilité de chaque état) dont la somme totale est 1. De façon équivalente, si je note [a], lorsque a∈A la fonction qui vaut 1 en a et 0 ailleurs (i.e., la distribution de probabilités concentrée en a), une distribution de probabilités p quelconque sur A s'écrit comme une combinaison convexe des [a], c'est-à-dire une combinaison linéaire à coefficients positifs de somme 1 (les coefficients étant justement la probabilité p(a) de chaque a, i.e., on a p = ∑_a∈A p(a) · [a], avec, je répète, p(a)≥0 pour chaque a, et ∑_a∈A p(a) = 1). Je parlerai aussi de mélange probabiliste des éléments de a pour une telle combinaison convexe.

À titre d'exemple, si A = {vivant, mort} désigne les deux états possibles de vie d'un chat, le mélange probabiliste ½([vivant] + [mort]) désigne un chat qui a 50% de chances d'etre vivant et 50% de chances d'être mort.

Géométriquement, il faut penser à cet ensemble de distributions de probabilités / combinaisons convexes / mélanges probabilistes (selon le terme qu'on préfère) comme un simplexe dont les sommets sont les éléments de A (i.e., lorsque A a 2 éléments, c'est un segment les reliant, quand il en a 3 c'est un triangle ayant ces sommets, quand il en a 4 c'est un tétraèdre, etc.) ; et les coordonnées barycentriques dans le simplexe sont les valeurs p(a) de la distribution de probabilités p considérée.

Je n'ai rien dit d'intelligent, ou même d'intéressant dans tout ça : c'est complètement standard, c'est juste différents points de vue un tout petit peu différents sur la même chose.

Superpositions quantiques

Maintenant, quand on fait de la mécanique quantique, il y a autre chose qui intervient, et qu'il faut bien distinguer de ce qui précède : ce sont les superpositions quantiques. Cette fois, je vais considérer un espace vectoriel complexe[#2], et même hilbertien (= hermitien), dont une base orthonormée est formée de vecteurs notés |a⟩ où a∈A, et je m'intéresse aux vecteurs de norme 1 dans cet espace (éventuellement : modulo la phase, c'est-à-dire modulo multiplication par les complexes de module 1, ce qui en fait un « espace projectif » complexe, cf. ici). Autrement dit, les éléments de l'espace sont les ∑_a∈A u(a) · |a⟩ avec u(a) des nombres complexes et ∑_a∈A |u(a)|² = 1 ; le produit scalaire hermitien de deux tels éléments |u⟩ := ∑_a∈A u(a) · |a⟩ et |v⟩ := ∑_a∈A v(a) · |a⟩ est donné par ⟨u|v⟩ := ∑_a∈A u(a)^* · v(a) où z^* désigne ici le conjugué d'un nombre complexe (normalement noté avec une barre au-dessus, mais c'est pénible à faire en HTML) (j'ai pris ici la convention des physiciens selon laquelle le produit scalaire hermitien est antilinéaire dans sa première variable et linéaire dans la seconde). La notation suggère de définir ⟨a| comme la forme linéaire valant 1 en |a⟩ et 0 sur tous les autres |b⟩, si bien que le produit scalaire par ∑_a∈A u(a) · |a⟩ à gauche s'écrit comme la forme linéaire ∑_a∈A u(a)^* · ⟨a|. Bon, là je n'ai rien dit d'intelligent.

[#2] Le fait qu'on ait apparemment nécessairement affaire à des coefficients complexes, quel que soit le système physique décrit, me laisse un peu perplexe, et apparemment je ne suis pas le seul.

Pour reprendre l'exemple précédent, si A = {vivant, mort} désigne les deux états possibles de vie d'un chat, alors (|vivant⟩ + |mort⟩)/√2 désigne un chat dans un état quantique qui superpose ces deux états. Mais on notera que (|vivant⟩ − |mort⟩)/√2 est aussi un tel état, qui semble très analogue, mais qui est orthogonal au précédent comme on le voit en calculant le produit hermitien (et on peut légitimement se demander ce que tout ça veut dire). Et de même, (|vivant⟩ + i·|mort⟩)/√2 et (|vivant⟩ − i·|mort⟩)/√2 devraient avoir un sens et être orthogonaux l'un à l'autre (quoique pas aux précédents). Ceci étant dit, autant c'est rigolo de donner mes exemples avec des chats vivants ou morts ou en superposition quantique entre les deux, ce n'est peut-être pas un très bon exemple[#3][#3b], en fait, justement à cause de la difficulté de donner un sens à ces états que je viens d'écrire, donc dans la suite je vais passer à un exemple plus abstrait du genre A = {0,1}, c'est-à-dire les états basiques de ce qu'on appelle un qubit : vous pouvez imaginer ‘0’ et ‘1’ comme signifiant qu'un chat est vivant et mort si vous voulez, mais si vous voulez des exemples physiquement plus plausibles, l'article Wikipédia que je viens de lier a divers exemples, et je vais juste dire un mot de deux d'entre eux dans les paragraphes suivants.

[#3] Je ne sais plus qui me faisait le reproche je ne sais où d'utiliser le chat de Schrödinger comme exemple de superposition quantique, alors que c'est justement un exemple censé illustrer le doute qu'on peut avoir sur l'existence ou le sens de superpositions quantiques sur des objets macroscopiques. Si on croit la mécanique quantique jusqu'au bout, et notamment si on croit sa linéarité exacte, alors oui, on peut faire des superpositions quantiques macroscopiques, et même c'est ce qui arrive à l'Univers tout entier dès qu'on fait une « mesure », et il y a toutes sortes de tentatives d'explications, ou de bouts d'explications (décohérence, interprétation « multi-mondes » d'Everett-DeWitt) sur pourquoi on ces superpositions ne se manifestent pas de façon visible dans notre expérience quotidienne. Mais mon but ici n'est pas vraiment de parler de ces choses-là (même si je ne peux pas faire l'économie d'au moins une mention au passage — dont acte ; cf. aussi la note #8 plus bas).

[#3b] Ajout (2024-02-03) : Bien sûr, le problème avec le chat, ce n'est pas juste qu'il est macroscropique, c'est qu'il a bien plus d'états que {vivant, mort} : il y a peut-être quelque chose comme 10^10²⁷ états qualifiables de vivant et de mort. En quoi ceci est vraiment pertinent pour toute la discussion n'est pas clair pour moi, ni si on choisit de les regrouper en deux paquets (i.e., de fabriquer deux sous-espaces de grande dimension) ni si on décide d'en choisir un très particulier dans chaque paquet (mais je note quand même que, par un phénomène de concentration de la mesure, si on choisit un état vivant au hasard et un état mort au hasard, ils seront essentiellement orthogonaux — donc au moins ça justifie de travailler avec comme des états basiques).

À titre d'exemple de qubit, il y a la polarisation d'un photon : si |↺⟩ représente un photon polarisé circulairement d'hélicité droite[#4] et |↻⟩ un photon polarisé circulairement d'hélicité gauche, alors (|↺⟩ + |↻⟩)/√2 et (|↺⟩ − |↻⟩)/√2 peuvent représenter des photons respectivement polarisés horizontalement et verticalement[#5][#6], tandis que (|↺⟩ + i·|↻⟩)/√2 et (|↺⟩ − i·|↻⟩)/√2 peuvent en représenter de polarisations diagonales.

[#4] Comme bien expliqué sur Wikipédia, il y a deux conventions opposées sur ce qu'une polarisation circulaire horaire ou anti-horaire signifie, selon qu'on prend le point de vue de la source qui voit l'onde partir ou de la cible qui voit l'onde arriver. Par contre, l'hélicité, il me semble que ça devrait être inambigu : on met le pouce (droit ou gauche, selon qu'on parle d'hélicité droite ou gauche) dans le sens de propagation de l'onde et en courbant les autres doigts ils indiquent dans quel sens l'onde tourne autour de son sens de propagation. Donc pour moi, hélicité droite = sens anti-horaire (= trigonométrique) vu par la cible = sens horaire (= rétrograde) vu par la source, tandis que hélicité gauche = sens horaire (= rétrograde) vu par la cible = sens anti-horaire (= trigonométrique) vu par la source. (Et les petits dessins ‘↺’ et ‘↻’ que j'utilise évoquent ce que voit la cible.) Mais apparemment, toujours si j'en crois Wikipédia, des gens ont aussi réussi à mélanger les conventions gauche/droite, et là je ne comprends pas comment ils ont pu faire un truc pareil. Enfin bon, tout ça n'a aucune importance pour ce que je veux raconter ici.

[#5] Là aussi, on trouve des conventions contradictoires, bien sûr, mais la convention moderne semble être de dire qu'une onde se propageant horizontalement a une polarisation horizontale par référence à la direction du champ électrique oscillant : le champ magnétique, lui, oscille dans une direction perpendiculaire au champ électrique et au vecteur de propagation de l'onde, donc verticalement pour une onde de polarisation horizontale.

[#6] Mathématiquement, imaginez que |↺⟩ est la fonction exp(2iπν·t) où ν est la fréquence du photon et t est le temps retardé par la distance depuis la source, et le composantes réelle et complexe sont, disons, les composantes horizontale et verticale du champ électrique ou quelque chose comme ça, tandis que |↻⟩ est exp(−2iπν·t) ; alors (|↺⟩ + |↻⟩)/√2 et (|↺⟩ − |↻⟩)/√2 décrivent les fonctions cos(2πν·t) et i·sin(2πν·t) respectivement.

La raison pour laquelle je précise l'exemple du paragraphe précédent est pour souligner que ces états en superposition quantique sont parfaitement valables (je vais dire ci-dessous que, contrairement à la situation probabiliste, il n'y a rien d'objectif qui distingue les états basiques que j'ai choisis des autres états fabriqués par combinaisons linéaires de ceux-ci : le fait qu'un état soit « superposé » n'a pas de sens en soi), et ça se voit bien sur cet exemple-là : les polarisations circulaires n'ont rien de plus naturel que les polarisations horizontales/verticales ou diagonales. Par ailleurs, on se dit que ce sont des choses qui ont un vrai sens physique, pas des expressions de notre ignorance.

J'ai évoqué les photons ci-dessus pas juste pour le plaisir d'utiliser les caractères ‘↺’ et ‘↻’, mais aussi parce que je pense que c'est raisonnablement simple à comprendre — modulo les prises de tête sur les conventions contradictoires quant au sens de la polarisation — mais on peut aussi dire un mot du qubit décrivant le spin de l'électron au repos. Là les deux états basiques pourraient être |↑⟩ et |↓⟩ représentant un électron avec un spin dirigé vers le haut ou vers le bas respectivement : alors (|↑⟩ + |↓⟩)/√2 et (|↑⟩ − |↓⟩)/√2 peuvent représenter un électron avec un spin dirigé vers la droite et la gauche respectivement, tandis que (|↑⟩ + i·|↓⟩)/√2 et (|↑⟩ − i·|↓⟩)/√2 peuvent en représenter un avec un spin dirigé vers l'avant et l'arrière respectivement[#7].

[#7] Le lecteur astucieux me demandera mais ça dépend très hautement du fait que l'espace est de dimension 3, ça : que se passe-t-il en d'autres dimensions ? — et, en effet, c'est une particularité de la dimension 3 que l'état de spin d'une particule de spin ½ soit représenté par un qubit. En général, en dimension d le spin d'une telle particule devrait avoir 2^⌊d/2⌋ états basiques (c'est la dimension de la représentation spinorielle du groupe Spin_d ; je ne sais d'ailleurs pas comment Wikipédia réussit à cacher cette information aussi efficacement dans la page que je viens de lier), c'est-à-dire l'équivalent de ⌊d/2⌋ qubits. Donc, oui, c'est particulier à la dimension 3 qu'on puisse décrire ça aussi simplement que vers le haut et vers le bas. Pour la polarisation du photon, il me semble que c'est d−1 états basiques (donc, en grande dimension, il y a beaucoup moins d'information dans le spin d'un photon que d'un électron, vous interprétez ça comme vous voulez).

Ressemblances et différences entre les deux

Il y a des ressemblances entre mélange probabiliste et superposition quantique, et j'ai fait exprès de choisir une description analogue avec des combinaisons linéaires pour faire ressortir ces ressemblances (et je regrette que toute description de la mécanique quantique ne commence pas par une telle discussion). Il y a aussi des différences cruciales, à la fois physiques et mathématiques.

Une différence évidente qu'on peut avoir envie de soulever est que le mélange probabiliste concerne notre ignorance de l'état du monde tandis que la superposition quantique décrit vraiment quelque chose d'objectif. C'est une interprétation possible, mais je pense que les deux termes de cette affirmation sont discutables, et la question est finalement assez délicate (et ça va faire l'objet de la fin de ce billet de pointer ça du doigt). En tout cas, on peut décrire le phénomène de la mesure en mécanique quantique en deux étapes (je vais y revenir) : d'abord un passage de (|0⟩ + |1⟩)/√2 (disons) à ([0] + [1])/2 (je prends un exemple où A={0,1}), i.e., l'écrasement de la superposition quantique en un mélange probabiliste, qui est irréversible mais déterministe et que plus bas je vais appeler transformation de Copenhague, puis la condensation du mélange probabiliste en d'un des états, cette deuxième phase n'étant pas plus mystérieuse qu'un tirage à pile ou face (puisque c'est exactement ça), mais qui est la seule à être non-déterministe. Il ne tient qu'à nous de décréter que ([0] + [1])/2 est un vrai état objectif qui a vraiment un sens physique, et que les lois des probabilités sont de vraies lois de la physique : je ne vois pas ce qui permettrait de dire qu'elles n'en sont pas, donc c'est une question d'interprétation. (En revanche, cet état est bien distinct de la superposition quantique (|0⟩ + |1⟩)/√2 avec laquelle il a quelque ressemblance.)

Une différence physique fondamentale entre superpositions quantiques et mélanges probabilistes est que les superpositions quantiques peuvent interférer les unes avec les autres. C'est douteux dans le cas d'un chat (il y a vraiment une question expérimentalement non résolue, là, il me semble, de savoir dans quelle mesure des objets macroscopiques peuvent vraiment entrer dans des superpositions quantiques : pour ça il faut croire que la linéarité de la mécanique quantique vaut de façon exacte). Mais par exemple pour un photon qui passerait par un interféromètre de Mach-Zehnder vide, on voit qu'on peut décomposer le photon en deux superpositions quantiques puis recréer le photon d'origine en faisant interférer constructivement ces deux superpositions d'un côté et destructivement de l'autre : voilà des choses qu'on ne peut assurément pas faire avec des mélanges probabilistes.

Une autre différence fondamentale, plus mathématique celle-là, est que pour les mélanges probabilistes, on peut retrouver A (les états basiques dont on est parti) à partir de l'ensemble des mélanges probabilistes : ce sont les sommets du simplexe, or le fait qu'un état soit un sommet ou pas est quelque chose qui a un sens intrinsèque (le bon terme est celui de points extrémaux d'un convexe). Alors que pour les superpositions quantiques, A est juste une base orthonormée de l'espace (ou de l'espace projectif associé, peu importe), et il y en a plein, et elles se valent toutes, donc dans ce cas la notion d'état basique est dans la tête de celui qui les étiquette comme tels : l'espace des superpositions quantiques est homogène.

Néanmoins, il y a aussi des ressemblances entre mélanges probabilistes et superpositions quantiques.

Une ressemblance importante est que, qu'il s'agisse de mélanges probabilistes ou de superpositions quantiques, les lois de la physique sont linéaires : si on part d'un mélange probabiliste entre [a] et [b] et qu'on le laisse évoluer dans le temps, on obtient le mélange probabiliste avec les mêmes probabilités des évolutions de [a] et de [b] ; et de même, si on part d'une superposition quantique entre |a⟩ et |b⟩ et qu'on la laisse évoluer dans le temps, on obtient la superposition quantique avec les mêmes coefficients des évolutions de |a⟩ et de |b⟩. Dans le cas probabiliste, c'est la condition de chaîne de Markov ; dans le cas quantique, c'est un des postulats de la mécanique quantique que cette linéarité[#8]. En fait, dans le cas quantique il y a un peu plus : l'évolution n'est pas juste linéaire, elle est unitaire, c'est-à-dire qu'elle préserve le produit hermitien (c'est plus ou moins une conséquence du fait que le vecteur de norme 1 doit évoluer en un vecteur de norme 1 : on a affaire à une transformation projective de l'espace projectif complexe). Dans le cas probabiliste, si on impose que l'évolution soit réversible, elle ne peut faire qu'une permutation des éléments de A (les seules bijections linéaires d'un simplexe sont obtenues en permutant ses sommets), alors que dans le cas quantique, le fait que la transformation soit unitaire impose qu'elle soit réversible dans le temps.

[#8] Digression : Le fait que les lois de la mécanique quantique soient (exactement !) linéaires est une partie de leur mystère. C'est cette linéarité qui fait que toute expérience quantique qui produit un résultat (|0⟩+|1⟩)/√2 et qu'on mesure ensuite selon la base |0⟩,|1⟩, l'Univers tout entier passe dans l'état (|on a mesuré 0⟩ + |on a mesuré 1⟩)/√2 : et même si la théorie de la décohérence peut expliquer pourquoi on ne peut peut plus détecter cette superposition quantique comme telle (en gros, faute de pouvoir jouer à faire interférer l'Univers), on ne sait pas vraiment expliquer pourquoi on n'observe, au final, que on a mesuré 0 ou on a mesuré 1 (l'explication d'Everett-DeWitt étant qu'en fait il faut comprendre ça comme deux Univers parallèles, un dans lequel chaque branche de l'alternative se produit). ❧ On peut être tenté de contourner le problème en disant en fait la linéarité doit être une approximation, et probablement les lois de la physique ne sont pas exactement linéaires. Un premier problème avec cette idée est que ceci semble permettre une communication plus vite que la lumière (je n'ai pas lu le papier lié, donc je ne peux pas en dire plus). Mais une autre réponse qu'on peut faire, et qui me semble finalement plus intéressante, est la suivante. On est parti d'une mécanique classique (des particules) qui n'est pas linéaire, on l'a quantifiée pour obtenir la mécanique quantique qui est linéaire (et décrite en termes de champs, sur lesquels les variables de la mécanique classique deviennent des opérateurs linéaires) ; maintenant, quand les champs interagissent, ça donne une non-linéarité, et là, surprise, on découvre qu'il faut quantifier une deuxième fois pour obtenir la théorie quantique des champs, qui est de nouveau linéaire (les champs deviennent à leur tour des opérateurs linéaires sur un espace d'états plus compliqué). Et c'est vraiment un phénomène général que quand on a un truc non-linéaire on peut remplacer la multiplication non-linéaire par une composition d'applications linéaires agissant sur un espace plus compliqué, ce qui restaure la linéarité. Donc si on essaye de casser la linéarité de la théorie quantique des champs en introduisant un nouveau terme non-linéaire au niveau suivant, on va juste ouvrir la voie à une troisième quantification et ainsi repousser le problème plus loin. C'est surtout ça qui me persuade que la linéarité doit être exacte : à chaque fois qu'on a un truc non-linéaire, la nature invente une quantification pour remettre la linéarité.

Bref, entre mélanges probabilistes et superpositions quantiques, on a deux situations qui se ressemblent mais pas complètement. Grosso modo, on peut être tenté de résumer ce qui a été dit par les probabilités sont à L¹ réel ce que le quantique est à L² complexe si on veut.

Produits tensoriels

Une autre ressemblance entre la situation probabiliste et la situation quantique est celle des produits tensoriels, qui est ce qui se produit quand on réunit deux systèmes « indépendants » : prenons donc le temps d'en dire un mot.

Si en plus de mon système décrit par l'ensemble A j'ai un autre système complètement indépendant et que j'appelle B l'ensemble des états basiques de cet autre système, de sorte que le produit A×B est l'ensemble des états basiques possibles de l'ensemble, je peux considérer ça comme un nouveau système, i.e., regarder l'ensemble des mélanges probabilistes, ou des superpositions quantiques, sur A×B. On obtient ainsi un produit tensoriel : le produit tensoriel d'espaces vectoriels de bases A et B respectivement est (et je peux prendre ça ici pour une définition) celui de base A×B.

Mais cette histoire de produit tensoriel n'est pas juste la construction de l'ensemble des mélanges probabilistes / superpositions quantiques sur A×B : j'ai aussi dans les deux cas (et de façon analogue dans les deux) une opération que je vais noter ‘⊗’ qui prend un mélange/superposition sur A et un autre sur B et qui en fabrique un sur A×B et qui correspond à construire un état sur le système global en mettant ensemble les deux bouts.

Dans le cas probabiliste cette opération ‘⊗’ va envoyer ∑_a∈A p(a) · [a] (avec les p(a) positifs de somme 1) et ∑_b∈B q(b) · [b] (idem) sur ∑_(a,b)∈A×B p(a) · q(b) · [(a,b)] : c'est bien une distribution de probabilités sur A×B, mais on n'obtient pas toutes les distributions de probabilités sur A×B ainsi, seulement celles dont les composantes sur A et B sont indépendantes — c'est exactement la définition du mot indépendant que la probabilité de (a,b) soit le produit de celle de a et de celle de b.

Dans le cas quantique, l'opération ‘⊗’ va envoyer |u⟩ := ∑_a∈A u(a) · |a⟩ (avec les u(a) complexes vérifiant ∑_a∈A |u(a)|² = 1) et |v⟩ := ∑_b∈B v(b) · |b⟩ sur |u⟩⊗|v⟩ := ∑_(a,b)∈A×B u(a) · v(b) · |(a,b)⟩ ; et cette fois les états qu'on obtient de la sorte s'appellent non-intriqués (ou faudrait-il dire extriqués ?), concept qui est donc l'analogue pour la situation des superpositions quantiques de l'indépendance dans le cas probabiliste.

Géométriquement, cette opération ‘⊗’ s'appelle le plongement de Segre, et on voit qu'elle permet de voir le produit de deux simplexes comme une partie du simplexe sur le produit de leurs sommets (mais attention, la partie ainsi obtenue n'est pas linéaire ! ce n'est pas un polytope, c'est une portion de quadrique) ou le produit de deux espaces projectifs complexes dans un espace projectif complexe (idem, pas de façon linéaire). Mais je digresse.

Espérance

Encore un point qui mérite d'être dit : si on a une fonction réelle f:A→ℝ sur l'ensemble A, en probabilités ça s'appelle une variable aléatoire, et son espérance dans un mélange probabiliste ∑_a∈A p(a) · [a] est simplement la même combinaison convexe ∑_a∈A p(a) · f(a) des valeurs de la fonction.

Quelle est l'analogue de ça pour les superpositions quantiques ? Ce qui va jouer le rôle de la fonction f est une matrice hermitienne F dont les lignes et colonnes sont étiquetées par les éléments de A (ou — et je confondrai allégrement les deux — une application linéaire hermitienne sur notre espace hilbertien) : dans la terminologie de la mécanique quantique, on appelle ça un observable, et en notant ⟨a|F|b⟩ l'élément à la ligne a et colonne b de la matrice, l'espérance de la valeur de F sur une superposition quantique |u⟩ := ∑_a∈A u(a) · |a⟩ vaut ∑_(a,b)∈A×A u(a)^* · u(b) · ⟨a|F|b⟩, ou simplement ⟨u|F|u⟩.

Pour résumer, les observables du mélange probabiliste sont des formes linéaires, tandis que les observables des superpositions quantiques sont des formes hermitiennes. Je sais pas bien quoi penser de cette constatation un peu triviale.

Copenhague

Les ressemblances formelles entre mélanges probabilistes et superpositions quantiques que j'ai tenté de souligner dans ce qui précède font qu'on peut avoir tendance à confondre les deux.

Mais pour ajouter à la confusion, la mécanique quantique, ou plus exactement l'interprétation de Copenhague de la mécanique quantique, affirme qu'on passe du quantique au probabiliste quand on fait une « mesure » (sans définir précisément ce qu'est une mesure).

Précisément, si on a un système dans une superposition quantique ∑_a∈A u(a) · |a⟩ et qu'on mesure son état dans A, il se transforme (selon l'interprétation de Copenhague) en le mélange probabiliste ∑_a∈A |u(a)|² · [a]. La condition d'être un vecteur de norme 1 donne exactement ce qu'il faut pour que les |u(a)|² soient des probabilités. C'est à la fois joli et assez perturbant qu'on ait deux trucs distincts-mais-qu'on-peut-confondre qui se transforment l'un en l'autre.

Mathématiquement, cette « transformation de Copenhague » définit une transformation de l'espace projectif complexe (prenez juste la sphère de norme 1 si vous ne voulez pas penser à l'espace projectif complexe, qui est juste son quotient par les complexes de module 1) vers le simplexe, consistant à envoyer (u₀ : ⋯ : u_n) complexes sur (|u₀|², …, |u_n|²) réels positifs de somme 1. Cette application a la propriété remarquable de préserver la mesure (appelons-ça le théorème d'Archimède-Wootters), c'est-à-dire que si votre superposition quantique était tirée au hasard uniformément sur la sphère (ou l'espace projectif), votre distribution de probabilités à l'arrivée est elle-même aléatoire uniforme sur le simplexe. (De façon encore plus vague mais peut-être plus parlante[#9] : si vous ne savez rien sur l'état quantique et que vous faites cette projection copenhaguienne sur une distribution de probabilités, vous ne savez rien sur cette dernière.) C'est frappant (et noter que ça ne marcherait pas si les u_i étaient réels), mais je ne sais pas si c'est important physiquement. (Mathématiquement, il y a des choses à dire, par exemple en lien avec l'« application moment » sur les variétés toriques, cf. la réponse qu'on m'a faite dans la question MathOverflow que je viens de donner, mais là aussi je ne sais pas à quel point c'est pertinent.)

[#9] Encore une reformulation : pour tirer au hasard un point sur l'espace projectif complexe de dimension d, on commence par tirer |u₀|²,…,|u_d|² dans le simplexe réel de dimension d, puis on choisit une phase indépendamment pour chacun des u_i. Je l'ai d'ailleurs déjà écrit ici.

Comment combiner mélanges probabilistes et superpositions quantiques ?

Bon, mais évidemment ce n'est pas tenable de penser qu'on ait des choses complètement séparées que sont les mélanges probabilistes et les superpositions quantiques : si ces deux choses existent, on doit pouvoir les combiner : s'il est possible d'avoir des situations où on a un mélange probabiliste entre deux états et des situations où on a une superposition quantique, il y a forcément des situations où on a les deux qui interviennent à la fois.

Bon, mais comment décrire ces situations ?

Une approche naïve

L'approche que je vais qualifier de naïve (mais naïve ne signifie pas forcément fausse ici) consiste simplement à les empiler : on considère les superpositions quantiques entre les états de A comme de nouveaux états (quantiques, donc) dont on peut considérer des mélanges probabilistes (modulo le fait que l'ensemble des états quantiques n'est plus fini, je vais y revenir, mais ignorons temporairement ce problème technique qui n'est pas ce qui me préoccupe vraiment).

Pourquoi dans cet ordre-là et pas dans le sens inverse (i.e., pourquoi pas des superpositions quantiques de mélanges probabilistes, ce qui n'a pas de raison de donner la même chose) ? La justification philosophique est que les superpositions quantiques représentent quelque chose de réel sur le monde, alors que les mélanges probabilistes représentent plutôt quelque chose comme notre ignorance du monde : donc ça a certainement un sens de faire des mélanges probabilistes de superpositions quantiques, mais pas vraiment de faire des superpositions quantiques de mélanges probabilistes.

Après tout, si (|↺⟩ + |↻⟩)/√2 est un vrai état qui a un vrai sens physique (disons, un photon polarisé horizontalement) et que les probabilités servent juste à quantifier notre ignorance, je peux très bien dire que je ne sais pas si le système est dans l'état |↺⟩ ou (|↺⟩ + |↻⟩)/√2, peut-être que mon collègue physicien a tiré (classiquement !) à pile ou face pour décider de préparer l'un ou l'autre état (en plaçant un polariseur circulaire ou horizontal), et du coup la description (pour ce qui me concerne) de l'état est ½ [|↺⟩] + ½ [(|↺⟩ + |↻⟩)/√2].

La façon naïve de s'y prendre, donc, c'est juste d'empiler les deux constructions comme je viens de le dire : les mélanges probabilistes sont fabriqués « librement » sur les états quantiques comme suggéré au paragraphe précédent. Autrement dit, et plus précisément, je considère des mesures de probabilités (de Radon[#10]) sur l'ensemble des états quantiques (qui sont eux-mêmes des combinaisons linéaires d'états basiques ; bon, ici c'est vraiment important de les voir comme un espace projectif, parce qu'on ne veut vraiment pas distinguer |u⟩ et −|u⟩ ou encore i·|u⟩).

[#10] Si on ne sait pas ce qu'est une mesure de Radon, on peut ignorer cette précision. Ce que je veux dire, c'est que prendre uniquement les combinaisons convexes (i.e., finies !) de superpositions quantiques est un peu trop restrictif (ça exclut notamment la mesure uniforme sur l'espace projectif, or faire un tirage uniforme d'un état quantique est une opération parfaitement raisonnable), mais prendre toutes les mesures de probabilités introduit des objets qui ne semblent vraiment pas avoir de sens, comme la mesure valant 0 sur les parties dénombrables et 1 sur les parties de complémentaire dénombrable.

Pour autant que je comprenne, cette description naïve n'est pas fausse (au sens où elle serait réfutée par l'expérience), elle est inutilement précise, au sens où elle stocke trop d'information (qui n'a pas de sens physique), et on peut faire avec moins. Et c'est quelque chose d'assez mystérieux qu'on puisse faire avec moins, et je pense que ce n'est pas assez souligné. Mais comment ?

Matrices de densité

Voilà, cette construction naïve n'est pas ce qu'on fait en physique. Il y a un postulat (postulat ? convention ? décret ?) dont la nature épistémologique m'échappe, et qui veut qu'on décrive cette situation où on a à la fois superpositions quantiques et mélanges probabilistes par une matrice de densité (j'en ai déjà dit un mot avant), c'est-à-dire une matrice hermitienne positive de trace 1 (dont les lignes et colonnes sont étiquetées par les éléments de A). Expliquons un peu :

Un mélange probabiliste sans superposition quantique est décrit par une matrice de densité diagonale dont les éléments diagonaux sont les probabilités associées à chacun des états basiques (éléments de A). Autrement dit, ∑_a∈A p(a) · [a] se voit comme la matrice dont l'entrée (a,b) vaut p(a) lorsque a=b et 0 sinon. On peut noter ∑_a∈A p(a) · |a⟩⟨a| pour cette matrice (où |a⟩⟨a| désigne la matrice de densité ayant 1 dans la case (a,a) et 0 partout ailleurs), et il est évident qu'elle est hermitienne positive de trace 1.
Une superposition quantique sans mélange probabiliste est décrite par une matrice de densité de rang 1, c'est-à-dire une matrice de la forme |u⟩⟨u| pour un certain état quantique |u⟩ : c'est-à-dire, si |u⟩ = ∑_a∈A u(a) · |a⟩ que la matrice est de la forme |u⟩⟨u| := ∑_(a,b)∈A×A u(a)^* · u(b) · |a⟩⟨b| où |a⟩⟨b| désigne la matrice (qui n'est pas une matrice de densité en général) ayant 1 dans la case (a,b) (c'est-à-dire ligne a et colonne b si on fait comme d'habitude agir les matrices par la gauche sur des vecteurs-colonne) et 0 partout ailleurs. Il est de nouveau évident que la matrice |u⟩⟨u| qu'on vient de dire est bien hermitienne positive de trace 1.

On parle d'état pur pour les éléments que je viens de décrire (ou plus exactement, on pourra dire que |u⟩⟨u| est la matrice de densité décrivant un état pur correspondant à |u⟩). Les états purs sont donc essentiellement la meme chose que les vecteurs de mon espace de Hilbert qui servait à représenter les superpositions quantiques, sauf qu'on les a transformés en matrices de rang 1 (et cette transformation tue l'indétermination par un complexe de module 1 qui nous embêtait un peu).

(Géométriquement, cette application |u⟩ ↦ |u⟩⟨u| est plus ou moins liée — ou analogue — au plongement de Veronese quadratique).
Un mélange probabiliste de superpositions quantiques, ou état mixte (ou mélangé) est décrit par la combinaison convexe (i.e., linéaire à coefficients positifs de somme 1) des matrices de rang 1 décrites au point précédent (celles décrivant des états purs). Comme une combinaison convexe de matrices hermitienne positive de trace 1 est encore une matrice hermitienne positive de trace 1, on a bien une matrice comme on vient de le dire.

Mais en fait, inversement, le théorème spectral pour les matrices hermitiennes assure que, quitte à choisir la bonne base orthonormée (|u_i⟩)_i de l'espace de Hilbert, on peut toujours écrire une matrice ρ hermitienne positive de trace 1 comme ∑_i p_i · |u_i⟩⟨u_i|, où les p_i, qui sont les valeurs-propres de ρ, sont positives et de somme 1, se réinterprètent donc comme les probabilités de ce mélange probabiliste des états purs correspondant aux |u_i⟩ (lesquels sont les vecteurs-propres de ρ). Comme on peut toujours décider de considérer les |u_i⟩ comme l'ensemble des états basiques, on peut dire que (quitte à changer d'avis sur les états basiques pour ne plus les voir comme des superpositions quantiques) on est toujours dans le cas du premier point de cette énumération.

À titre d'exemple (avec A={0,1}), le mélange probabiliste ([0] + [1])/2 est décrit, en vertu du premier point, par la matrice 2×2 diagonale de diagonale égale à ½ ; en revanche, la superposition quantique (|0⟩ + |1⟩)/√2 est décrite par la matrice dont les quatre coefficients valent ½ ; quant à (|0⟩ − |1⟩)/√2, c'est celle dont les deux coefficients diagonaux valent ½ et les deux hors-diagonaux valent −½.

On peut faire des mélanges probabilistes d'états mixtes en faisant simplement la combinaison convexe des états matrices de densité qui les décrivent. Les superpositions quantiques, en revanche, n'ont de sens que sur les états purs (ceux qui correspondent à un |u⟩, et on les fait en combinant linéairement les |u⟩ en question).

Donc pour redire les choses un peu autrement : on part de A, les vecteurs (de norme 1) obtenus en combinant linéairement avec coefficients complexes les éléments de A (vus comme des vecteurs basiques |a⟩) s'appellent états purs |u⟩, et on leur associe la matrice |u⟩⟨u| de rang 1 qui leur correspond, puis quand on fait des combinaisons convexes de ces choses-là on obtient les états mixtes, décrits par des matrices de densité (matrices hermitiennes positives de trace 1).

Cinq niveaux de construction

Récapitulons un peu. Partant d'un ensemble (fini) A d'« états basiques », j'ai défini cinq ensembles d'états plus ou moins riches :

L'ensemble A lui-même (mettons pour fixer les idées qu'il ait n éléments).
L'ensemble des mélanges probabilistes des éléments de A, qui géométriquement est le simplexe dont A est l'ensemble des sommets. (C'est donc un convexe de dimension n−1.)
L'ensemble des superpositions quantiques des éléments de A (modulo une phase globale, c'est-à-dire un complexe de module 1), qui géométriquement est l'espace projectif complexe ayant A pour base. (C'est une variété de dimension réelle 2n−2.)
L'ensemble « naïf » des mélanges probabilistes des superpositions quantiques, c'est-à-dire des mesures de probabilités (de Radon) sur l'ensemble du point précédent. (C'est un espace de dimension infinie.)
L'ensemble des matrices de densité, i.e., matrices hermitiennes positives de trace 1, qui reste à comprendre géométriquement, mais qui est un convexe de dimension (réelle) n²−1 (il y a différentes façons de compter pour arriver à ce résultat, mais ce n'est en tout cas pas difficile).

Pour comprendre un peu mieux la géométrie de la chose, considérons le premier cas non-trivial, celui où A a n=2 éléments :

L'ensemble des mélanges probabilistes est un segment (simplexe de dimension 1) entre ces deux extrémités.
L'ensemble des superpositions quantiques est la droite projective complexe ou sphère de Riemann sur laquelle les deux éléments de A sont deux pôles opposés (traditionnellement étiquetés ‘0’ et ‘∞’ sur la sphère de Riemann ; pour faire la correspondance, imaginez que u₀·|0⟩ + u₁·|1⟩ est envoyé sur le point de la sphère qui correspond au complexe u₀/u₁ par projection stéréographique).
L'ensemble « naïf » des mélanges probabilistes des superpositions quantiques est trop gros pour pouvoir être géométriquement décrit de façon utile, même dans ce cas n=2, mais on peut y penser comme toutes les façons de pondérer la surface de la sphère du point précédent.
L'ensemble des matrices de densité est une boule (c'est-à-dire une sphère remplie) dont les deux pôles sont les deux éléments de A, le segment qui les relie (l'axe de la boule, si on veut) est le segment du premier point énuméré ci-dessus, tandis que la surface de la boule est la sphère du deuxième point.

Seul le dernier point mérite quelque justification : cette présentation s'appelle la boule de Bloch, et les explications précises sont données dans l'article Wikipédia à ce sujet, mais pour le dire rapidement, donnés x,y,z trois réels dont la somme des carrés est ≤1, on leur associe la matrice hermitienne 2×2 dont les coefficients sont (1+z)/2, (x−i·y)/2, (x+i·y)/2 et (1−z)/2 : il est clair que cette matrice hermitienne est bien positive de trace 1 (pour mémoire, une matrice hermitienne 2×2 est positive ssi ses coefficients diagonaux sont positifs et son déterminant aussi), et qu'elles s'obtiennent toutes ainsi (avec x,y,z manifestement uniques) ; celles qui sont de rang 1 sont celles de déterminant nul, c'est-à-dire x²+y²+z²=1, donc c'est bien la surface de la sphère.

Plus généralement, avec n≥3, on aurait obtenu un convexe dont l'ensemble des points extrémaux[#11] est l'espace projectif complexe de dimension complexe n−1 (encore une fois, je renvoie à ce billet si on veut en savoir plus sur la « forme » de l'espace projectif complexe) : ce dernier est plongé[#12] dans l'espace affine réel (de dimension n²−1) des matrices hermitiennes de trace 1 comme les matrices de rang 1 (ou, ce qui revient au même, les projecteurs), et on prend l'enveloppe convexe de ce machin. C'est très joli si on arrive à voir en dimension assez grande. (Apparemment le terme de spectraèdre, ou spécifiquement de spectraplexe, est parfois utilisé ici.) Mais à défaut d'y arriver, on peut prendre note du fait que ça ne donne certainement pas une boule, comme le démontre le fait que son intersection avec le sous-espace des matrices diagonales donne, comme on l'a vu, un simplexe.

[#11] Attention : ce sont les points extrémaux, pas le bord : pour des raisons de dimension (les états purs sont de dimension 2n−2, le bord des états mixtes est de dimension n²−2), dès que n≥3, il y a beaucoup de points du bord qui ne sont pas extrémaux (=purs). Ça n'a rien de très surprenant : le simplexe classique est de dimension n−1, son bord est de dimension n−2, tandis que ses points extrémaux sont ses sommets, donc de dimension 0. En fait, c'est plutôt le fait que les points extrémaux ne soient pas de dimension 0 qui est la surprise de la mécanique quantique, comme je vais le noter plus bas.

[#12] Ce plongement « de Veronese » préserve — à constante près (√2 pour les choix les plus standards de normalisation) — la distance naturelle sur l'espace projectif complexe, dite métrique de Fubini-Study.

Il faut cependant se garder des évidences trompeuses : revenant au cas n=2, on peut avoir envie de se dire que c'est clair que l'enveloppe convexe d'une sphère va donner une boule, mais on peut toujours la plonger dans un espace de dimension très grande de manière à ce que l'enveloppe convexe soit beaucoup plus grande. C'est essentiellement ce qui se passe dans mon troisième point : on plonge la sphère dans un espace de dimension infinie (j'agite un peu les mains ici) en donnant à chaque point sa dimension, et l'enveloppe convexe (toujours en agitant les mains) n'est pas du tout la même.

Pour ce qui est du rapport entre mon espace « naïf » du point (3) ci-dessus et l'espace (4) des matrices de densité (espaces des états mixtes, spectraplexe, il a trop de noms, c'est embêtant), il y a une application évidente de l'un vers l'autre : à savoir, celle qui prend un élément de l'espace du point (3), i.e., une mesure de probabilités (de Radon) π sur l'espace projectif (2) des états |u⟩, et lui associe l'intégrale (= la moyenne) de |u⟩⟨u| selon π, autrement dit la matrice de densité obtenue en moyennant selon π les matrices de rang 1 |u⟩⟨u| associés aux états purs (si π est juste une combinaison convexe de mesures de Dirac, c'est la combinaison convexe des |u⟩⟨u| du support de ces Diracs). Cette application n'est évidemment pas du tout du tout injective puisqu'on va d'un espace de dimension infinie vers un espace de dimension n²−1, et je vais reparler de cette non-injectivité plus bas.

Manipulation des matrices de densité

Toute cette section est une sorte de digression pour en dire plus sur les matrices de densité et comment on fait diverses choses dessus. On peut la sauter complètement.

Mathématiquement, il n'y a pas de doute que l'espace (4) des matrices hermitiennes positives de trace 1 (qu'on l'appelle ensemble des matrices de densité, des états mixtes ou spectraplexe) est un objet très élégant, et il y a plein de choses à en dire[#13] sous toutes sortes de points de vue. Par exemple, du point de vue algorithmique, il se trouve qu'il est très étudié[#14].

[#13] Ce qui m'amène notamment à me demander si on peut calculer les volumes intrinsèques de ce « spectraplexe ».

[#14] La programmation semidéfinie est à la programmation linéaire ce que le spectraplexe est au simplexe, ou ce que que la mécanique quantique est aux probabilités discrètes. Je ne sais pas quoi penser de ce fait.

Mais expliquons un peu comment on manipule ces matrices de densité ou qu'on « lit » certaines choses dessus.

Pour commencer, si on reprend ma définition d'un « observable » donnée plus haut comme une matrice F hermitienne (cette fois je ne demande pas qu'elle soit positive ou de trace 1), l'espérance de F est simplement donnée par la formule très simple trace(F·ρ) où ρ est la matrice de densité qui décrit le système, qui généralise à la fois l'espérance en probabilités et aussi le cas des états purs que j'ai déjà évoqué plus haut (où elle vaut ⟨u|F|u⟩). Il est peut-être pertinent que je rappelle que trace(F·ρ) = trace(ρ·F).

Si on décide de mesurer dans quel état de A se trouve le système, cette « transformation de Copenhague » va transformer la matrice de densité ρ décrivant le système en la matrice qui (sur la base donnée par A) a les mêmes éléments diagonaux (lesquels représentent donc la probabilité de se retrouver dans chaque état basique a∈A) mais des zéros partout ailleurs : bref, c'est l'opération qui ne conserve que la diagonale de la matrice et met à zéro tout le reste (elle produit bien une matrice hermitienne positive de trace 1, qui bien sûr, dépend du choix de la base A). Un peu plus généralement, si on a une décomposition de l'espace en somme directe orthogonale, quitte à changer les vecteurs basiques, on peut la voir comme une partition de A en paquets, et la transformation de Copenhague associée à la mesure du paquet où on est revient à remplacer la matrice ρ par la matrice diagonale par blocs où chaque bloc correspond à un paquet. En prenant pour somme directe orthogonale celle qui diagonalise un observable F, on fait le lien avec ce qui est dit au paragraphe précédent.

Du point de vue de la théorie de l'information, comme les n valeurs-propres de la matrice de densité forment une distribution de probabilité (et que, comme je l'ai déjà signalé, on peut vraiment considérer, quitte à faire une transformation unitaire changeant les états basiques pour mettre la matrice sous forme diagonale et avoir donc affaire à un vrai mélange probabiliste sur ces nouveaux états basiques), on peut reprendre plein de définitions de la théorie de l'information. Par exemple, comme l'entropie d'un mélange probabiliste ∑_a∈A p(a) · [a] est ∑_a∈A −p(a) · log(p(a)), on peut recopier cette définition en remplaçant les p(a) par les valeurs-propres de la matrice de densité, ceci donne la quantité (appelée dans ce contexte entropie de von Neumann) −trace(ρ·log(ρ)) où ρ est la matrice de densité (notamment, dans le cas n=2 de la boule de Bloch, l'entropie vaut − ½ · log(¼·(1−d²)) − d · atanh(d) où d est la distance euclidienne au centre de la sphère), et elle est d'ailleurs toujours finie (pour A fini !) alors que si on avait pris ma définition « naïve » des mélanges probabilistes de superpositions quantiques, on tomberait facilement sur des entropies infinies.

Il y a quantité d'autres choses que je pourrais raconter sur ces matrices de densité, par exemple concernant le produit tensoriel puisque j'en ai parlé plus haut pour les mélanges probabilistes et superpositions quantiques séparément : si A et B sont deux ensembles d'états, et ρ une matrice de densité sur A et σ idem pour B, alors la matrice (dont les lignes et colonnes sont indicées par A×B) notée ρ⊗σ obtenue en multipliant de façon évidente, c'est-à-dire[#15] que la composante à la ligne (a,b) et colonne (a′,b′) de ρ⊗σ est égale à celle à la ligne a colonne a′ de ρ fois celle à la ligne b colonne b′ de σ. Les états pouvant s'écrire ρ⊗σ peuvent être qualifiés d'indépendants-non-intriqués. On peut définir les états seulement non-intriqués en prenant l'enveloppe convexe de ces états-là, ou ce qui revient au même, celle des états purs correspondant aux |u⟩⊗|v⟩. (Je ne sais pas si ça a un sens d'essayer de définir les états indépendants mais possiblement intriqués.) Dans l'autre sens, donné une matrice de densité τ sur A×B, on peut définir sa trace partielle sur A (ou tuant B, je ne sais pas comment on doit dire), et qui consiste à voir la matrice τ sur A×B comme une matrice sur A de blocs qui sont elles-mêmes des matrices sur B, et remplacer chacun de ces derniers par sa trace[#16] : noter que cette trace partielle est un état mixte en général même si on était parti pour τ d'un état pur. Grâce à ça, il est par exemple possible de transporter la notion d'information mutuelle de τ entre A et B (c'est la somme des entropies des traces partielles de τ sur A et sur B moins celle de τ elle-même).

[#15] Ou si on préfère une formule illisible, si ρ = ∑_{(a,a′)∈A×A} ⟨a|ρ|a′⟩ · |a⟩⟨a′| en notant ⟨a|ρ|a′⟩ la composante à la ligne a colonne a′ de ρ, et si σ = ∑_{(b,b′)∈B×B} ⟨b|σ|b′⟩ · |b⟩⟨b′| de même, alors ρ⊗σ = ∑_{(a,b,a′,b′)∈A×B×A×B} ⟨a|ρ|a′⟩ · ⟨b|σ|b′⟩ · |a,b⟩⟨a′,b′|.

[#16] Ou si on préfère une formule illisible, si τ = ∑_{(a,b,a′,b′)∈A×B×A×B} ⟨a,b|τ|a′,b′⟩ · |a,b⟩⟨a′,b′|, alors la trace partielle en question vaut trace_B(τ) := ∑_{(a,a′)∈A×A} ∑_b∈B ⟨a,b|τ|a′,b⟩ · |a⟩⟨a′|.

Mais quelle est cette magie ?

Bon voilà, tout ça est très joli, mais qu'est-ce que ça veut dire au juste ?

Qui a « décidé » qu'il fallait représenter les mélanges probabilistes de superpositions quantiques par des matrices de densité et pas par la représentation naïve que j'ai évoquée, et quel est le statut épistémologique de cette décision ? Qu'est-ce que ça implique physiquement ? Qu'est-ce qui n'irait pas avec cette représentation naïve ?

Je veux insister sur le point suivant : le fait qu'on n'utilise pas la description « naïve », i.e., « libre », signifie qu'il y a une interaction entre mélanges probabilistes et superpositions quantiques.

Dans ma représentation « naïve », il y a vraiment deux types de combinaisons différentes : les superpositions quantiques des éléments de A et les mélanges probabilistes de ceux-ci ; pour les mélanges probabilistes, chaque superposition quantique est indépendante de toutes les autres. Mais dans la représentation par matrices de densité, ce n'est pas comme ça : la même matrice de densité peut s'obtenir de plusieurs façons différentes comme mélange probabiliste de superpositions quantiques (différentes).

Spécifiquement, si je reprends mon exemple A = {0,1}, on est en train de dire que les états

([|0⟩] + [|1⟩])/2

([(|0⟩ + |1⟩)/√2] + [(|0⟩ − |1⟩)/√2])/2

— sont le même (dans ma présentation (4) par matrices de densité), parce que la matrice de densité qui les décrit tous les deux est la moitié de la matrice identité (c'est le centre de la boule de Bloch). Alors que dans ma représentation « naïve » (3) ils sont distincts.

Enfonçons le clou : ça signifie que les deux expériences suivantes :

Un collègue physicien tire (classiquement !) à pile ou face avec une pièce parfaitement équitable et, dans un cas prépare un photon de circulairement d'hélicité droite et dans l'autre cas prépare un photon de circulairement d'hélicité gauche.
Un collègue physicien tire (classiquement !) à pile ou face avec une pièce parfaitement équitable et, dans un cas prépare un photon de polarisation horizontale et dans l'autre cas prépare un photon de polarisation verticale.

— elles doivent conduire au même état[#17]. Notamment, quelles que soient les expériences qu'on mène derrière (même en ayant la possibilité de faire des statistiques en répétant des expériences sur autant de copies que je veux de l'état toujours préparé de la même manière !) on ne peut pas distinguer ces deux situations.

[#17] Cet état-là est vraiment spécial parce que c'est le centre de la boule de Bloch, c'est l'état d'entropie maximale (à savoir, log(2), ou si on préfère : 1 bit), et c'est aussi le seul qui ne détermine pas une base de diagonalisation particulière (à des phases et à permutation près) puisqu'il est diagonal sur n'importe quelle base. Mais ce n'est pas important : n'importe quel état strictement mixte (i.e., pas pur) peut s'écrire comme combinaison convexe d'états purs d'une infinité de manières différentes. Par exemple, l'état ([(|0⟩] + [(|0⟩ + |1⟩)/√2])/2 est le même, pour les matrices de densité, que ((2+√2)/4)·[(√(2+√2)/2)·|0⟩ + (√(2−√2)/2)·|1⟩] + ((2−√2)/4)·[(√(2−√2)/2)·|0⟩ − (√(2+√2)/2)·|1⟩] (soit approximativement 0.854·[0.924·|0⟩ + 0.383·|1⟩] + 0.146·[0.383·|0⟩ − 0.924·|1⟩], et je me demande maintenant bien pourquoi je me suis emmerdé à faire ce calcul qui n'a aucun intérêt).

C'est vraiment remarquable, surtout si on pense que ces deux états sont vraiment le même (et pas juste expérimentalement impossible à distinguer ; mais on peut se demander philosophiquement si la notion d'états distincts mais expérimentalement indistinguables a un sens) :

En effet, si les probabilités ne font pas partie de la physique (mais sont juste une abstraction mathématique de notre ignorance), ou n'interagissent pas avec les superpositions quantiques, on devrait tomber sur ma description « naïve » des choses : après tout, si un état quantique |u⟩ et un état quantique |v⟩ ont vraiment un sens physique, et si j'ai une chance sur deux d'avoir l'état |u⟩ et une chance sur deux d'avoir l'état |v⟩, ben c'est l'un ou l'autre et pas autre chose : donc ce n'est pas possible qu'il y ait une probabilité non nulle d'être dans un autre état |w⟩, et notamment qu'il soit un mélange de |w⟩ et d'autre chose.

Donc en fait, il faut croire que ce n'est pas comme ça : non seulement la mécanique quantique fait intervenir des probabilités, mais elle « interagit » avec les probabilités. Mais voici encore une façon de dire les choses : partant de n états basiques, on obtient un espace de probabilités de dimension n²−1 et qui n'est pas un simplexe (c'est ce fameux spectraplexe) — déjà en soi c'est bizarre, un espace de probabilités de dimension finie est censé être un simplexe. On peut bien sûr choisir une base affine de cet espace en prenant n² points affinement indépendants dedans (par exemple dans la boule de Bloch on pourrait choisir un tétraèdre sur la sphère), et tout état s'écrira comme une combinaison affine de ces points… mais possiblement avec des coefficients négatifs, c'est-à-dire une probabilité négative d'être dans ces états (et il n'y a aucune façon de choisir les points qui évite d'avoir parfois de telles probabilités négatives). Dès lors, ce n'est pas tellement surprenant qu'on se retrouve facilement avec des inégalités qui violent celles des probabilités classiques et/ou semblent pouvoir s'expliquer par des probabilités négatives (cf. ce que j'écrivais dans ce bout sur les inégalités de Bell de ce billet (qui référence notamment cet excellent survey), et aussi dans cet autre billet plus ancien que j'ai déjà lié).

Pour dire les choses de façon encore un peu différente :

certes, le mélange probabiliste n'est pas la même chose que la superposition quantique (même si les deux sont des formes de combinaison linéaires, l'une a lieu sur les matrices de densité, l'autre sur les vecteurs avant de les transformer en matrices de densité),
et certes, il est impossible d'obtenir un état pur comme mélange probabiliste d'autres états (puisque ce sont les points extrémaux),
néanmoins, les états purs (dans la description par matrices de densité) ne sont quand même pas libres vis-à-vis du mélange probabiliste (autrement dit, on ne peut certes pas les obtenir par combinaisons convexes (= mélanges probabilistes) d'autres états, mais on peut les obtenir si on autorise des coefficients négatifs, ou, ce qui revient au même, plusieurs mélanges différents peuvent donner le même résultat).

J'ai dit plus haut que ([|0⟩] + [|1⟩])/2 = ([(|0⟩ + |1⟩)/√2] + [(|0⟩ − |1⟩)/√2])/2 au sens où ils ont la même matrice de densité. On peut chercher à redire ça en disant que l'état pur (|0⟩ − |1⟩)/√2 se comporte comme un mélange probabiliste généralisé correspondant à prendre l'état |0⟩ avec probabilité 1, l'état |1⟩ avec probabilité 1 aussi, et l'état (|0⟩ + |1⟩)/√2 avec probabilité −1. La question qui demeure, donc, c'est quel est le sens « philosophique » à donner à cette affirmation.