Il y a deux ans j'avais écrit ce
billet au sujet de ChatGPT dont la fièvre venait
d'emparer le monde en tant que première IA
conversationnelle disponible au grand public, et j'étais parti dans
des réflexions assez décousues portant à la fois sur l'histoire de la
recherche en IA, la question philosophique de si les
machines peuvent penser et des menaces que cela représente, et aussi
les limitations de l'état (alors) actuel de ChatGPT.
Mais j'avais notamment écrit : au moins à court terme […] je suis
beaucoup plus inquiet de ce que nous ferons des IA que de
ce que les IA feront de nous
. Deux ans après, le
soufflé des IA étant, je l'espère, un peu retombé (au
moins par rapport à certaines illusions qu'on pouvait avoir formées),
je voudrais tenter de nouvelles réflexions, tout aussi
décousues[#], mais portant
peut-être un peu plus sur l'usage que nous faisons des IA
que sur les IA elles-mêmes.
[#] Décousues parce que (un peu comme j'explique plus bas que les IA fonctionnent elles-mêmes) je n'ai décidé à l'avance ni de plan ni de fil directeur à ce billet, j'ai juste écrit les idées qui me venaient à l'esprit sur le thème général des IA. Aussi parce que (comme ça m'arrive souvent) son écriture s'est enlisée quand je me suis mis à en avoir marre.
Je précise que je ne parle ici essentiellement, sauf brève allusion occasionnelle, que des IA textuelles, et pas des autres sortes (notamment celles qui produisent ou manipulent des images, mais il y a évidemment encore d'autres usages des réseaux de neurones).
Et encore une fois, il faut que je préface tout ce qui suit en disant que je ne suis pas particulièrement expert. J'ai quelques idées sur la manière dont les IA, au moins celles génératrices de texte, fonctionnent (disons que je saurais, en principe, en écrire une simple), j'ai lu une poignée d'articles de recherche[#2] sur des questions diverses autour de leur fonctionnement, je suis assurément capable de les comprendre (ce n'est pas comme si c'était compliqué), j'ai discuté avec des gens qui sont vraiment experts du sujet (et/ou qui l'enseignent), mais je ne peux pas me dire plus compétent que ça.
[#2] Assez pour
remarquer une très nette tendance à la dégradation scientifique suite
au hype autour du thème IA
:
comme la covid l'avait déjà
montrée, quand tout le monde veut publier sur le même sujet, ça
donne de la bouillie scientifique, et il n'y a pas besoin d'être
expert du domaine pour remarquer qu'il y a plein de publis qui sont de
la merde produite par des gens qui veulent mettre de l'IA
partout.
Je ne compte donc pas expliquer comment, mathématiquement ou informatiquement, les IA actuelles fonctionnent. Si vous voulez des explications à ce sujet, pour faire le service minimal je peux me contenter de recopier ici un ajout que j'avais fait au billet d'il y a deux ans, avec quelques liens intéressants :
Pour ceux qui veulent en savoir plus sur le fonctionnement interne des transformeurs (et des réseaux neuronaux, pour commencer) du point de vue mathématique, je recommande cette série de vidéos par l'excellent vulgarisateur 3Blue1Brown sur le sujet : 1, 2, 3, 4, 5, 6, 7 et résumé (les 1–4 sont sur les réseaux de neurones en général, les 5–7 sur les transformeurs en particulier, et on peut tout à fait commencer par la 5 ; la dernière vidéo est un résumé de l'ensemble, et on peut aussi commencer par elle). ❧ Je peux aussi signaler l'article
Formal Algorithms for Transformersde Phuong et Hutter qui a le mérite de donner du pseudo-code précis qu'il n'est pas évident de trouver ailleurs.[Autres liens :] cette vidéo YouTube n'est pas mal (ou celle-ci si vous voulez juste un bref aperçu), et voici l'article de 2017 qui a introduit l'architecture des transformeurs, dont voici le principal schéma récapitulatif.
Ajout () : Ce billet du blog de Matoo, qui fait lui-même des liens vers divers autres textes intéressants, apporte son propre éclairage sur des questions autour des IA, et je le recommande aussi.
❦
☞ L'IA servie à toutes les sauces vs. le Jihad butlérien
Je dis plus haut que le soufflé est un peu retombé, ou en tout cas,
je voudrais le croire. Comme d'habitude, quand une technologie semble
trop belle pour être vraie, c'est que c'est le cas. On commence à y
voir un peu plus clair dans les choses pour lesquelles
l'IA (dans son état actuel) peut être utile, et
finalement elles ne sont pas si nombreuses que ça : le caractère
extrêmement impressionnant de ChatGPT en 2023 s'est avéré
être surtout un tour de prestidigitation, et si je n'irais pas jusqu'à
dire que ça ne sert à rien, ça ne sert pas à grand-chose. La
meilleure preuve est l'insistance avec laquelle on essaie de nous
vendre de l'IA dans tout, à nous les enfoncer dans la
gorge : si elles étaient vraiment utiles, il n'y aurait pas tellement
besoin de nous supplier d'utiliser un produit gratuit. (Elon Musk,
par exemple, a mis des boutons Grok
partout dans Twitter, parce
qu'il a vraiment envie qu'on s'en serve. Et s'il a tellement envie
qu'on s'en serve, c'est que c'est surtout lui que ça
sert[#3].)
[#3] Comme le dit un adage célèbre au sujet du capitalisme : quand c'est gratuit, c'est que c'est vous qui êtes le produit.
Mais a contrario, les luddites naturolâtres qui essaient de mener contre tout usage de l'IA une sorte de croisade rappelant le « Jihad butlérien » de Dune sont à peu près aussi pénibles que les techbros qui veulent en mettre partout. Même s'il y a indiscutablement un débat sérieux à avoir sur, par exemple, la consommation énergétique des IA ou l'impact sur les métiers artistiques des IA génératrices d'images, les deux camps[#4] pèchent par une importance exagérée donnée à une technologie qui est, finalement, dans son état actuel, surtout assez médiocre et limitée.
[#4] Comme j'aime bien rappeler, souvent dans un débat enflammé entre deux « camps » opposés, en fait les deux camps sont des alliés objectifs parce que même s'ils ont des positions opposées (ou qui prétendent l'être…) sur le fond d'une question, ils ont la même position sur la méta-question de savoir si cette question est importante pour la société, et chaque camp nourrit l'autre en insistant sur cette importance. L'exemple le plus frappant, c'est que les sécuritaristes qui veulent imposer de la surveillance policière partout au prétexte de notre sécurité sont les alliés des terroristes qui leur fournissent le prétexte dont ils tirent leur pouvoir. Mais il y a plein d'autres exemples : on peut appliquer cette analyse à beaucoup de guerres civiles (où les deux camps vivent surtout de leur capacité à… diviser la population en deux camps), pendant la pandémie de covid les cinglés du zéro covid étaient les alliés des cinglés complotistes antivax, et ainsi de suite. Je pense que dans beaucoup de cas s'agissant d'une technologie émergente et d'importance largement surfaite, notamment pour ce qui est des IA, le conflit de façade entre les technosolutionnistes qui veulent mettre cette technologie partout et les luddistes qui veulent la voir disparaître de la face de la Terre, est en réalité une alliance dans l'intérêt exagéré porté à cette question.
☞ A-t-on fait des progrès en IA depuis 1950 ?
Je n'irais pas tout à fait jusqu'à dire qu'il n'y a eu aucun progrès en intelligence artificielle depuis le texte fondateur de Turing en 1950, ou même depuis 2006 quand j'ai écrit ce vieux billet, voire depuis 2023. On a maintenant, disons, des trucs qui font bien illusion. Mais je ne sais pas si ces progrès techniques aient été accompagnés du moindre progrès théorique. Je dirais que le principal progrès que nous ayons fait c'est que nous nous sommes rendu compte que nous n'avions aucune p🤔tain d'idée de ce que la discipline cherche à faire, de ce que c'est que l'intelligence, et encore moins de comment elle fonctionne.
☞ En fait, le test de Turing est une mauvaise définition de l'intelligence
Turing avait
proposé un test
(qui porte maintenant son nom) pour détecter de façon pragmatique si
une machine pense : en gros, est-ce qu'elle arrive à se faire passer
pour un humain dans un jeu d'imitation. Le but de ce critère était de
s'affranchir de considérations philosophiques vaseuses sur ce
que penser
veut dire ; à la place, on a un but concret :
réussir ce test. (Pour être bien clair, j'étais moi-même persuadé,
jusque vers 2023, que le fait de réussir le test de Turing était une
définition satisfaisante de l'intelligence.) Je ne sais pas dans
quelle mesure on y arrive maintenant (il y a toutes sortes de
variations[#5] dans ce que
signifie administrer le test de Turing
), mais clairement on
peut dire qu'il y a eu un progrès dans cette direction.
Malheureusement, je suis maintenant aussi persuadé que le test n'était
finalement pas une bonne définition de l'intelligence : c'est juste
une cheap
plastic imitation de l'intelligence, et ça ne nous avance ni
de façon théorique ni de façon pratique pour comprendre ce que c'est
que l'intelligence ou comment elle fonctionne.
[#5] Notamment : est-ce que l'examinateur est un expert en intelligence artificielle ou est-ce que c'est l'homme de la rue ? Et comment a été choisi le candidat humain ?
En fait, quand on y pense, ç'aurait dû être évident que c'était de
l'anthropomorphisme assez naïf d'identifier « intelligence » à des
compétences en matière de langage. Il est évident que des animaux
sont au moins modérément intelligents sans forcément avoir de grandes
capacités de communication, et certainement de communication en
langage humain. Il y a d'ailleurs aussi des humains qui, pour toutes
sortes de raisons (p.ex., parce qu'ils sont neuroatypiques) ne
réussiraient pas un test de Turing, et ne sont pas forcément moins
intelligents que vous ou moi (enfin, vous je ne sais pas, mais moi
certainement). C'est d'ailleurs sans doute une preuve non seulement
d'anthropomorphisme mais d'une culture humaine particulière qui
identifie le fait de bien penser au fait de bien écrire ou de bien
parler. (Mes lecteurs habitués à déceler la vacuité de ma pensée sous
mes tournures ampoulées ne se laisseront pas avoir par un subterfuge
aussi grossier. )
Alors oui, on peut m'accuser de faire
un sophisme du
vrai Écossais : maintenant que nous avons des machines qui passent
plus ou moins le test de Turing, je prétends que, finalement, ce
n'était pas une bonne définition de l'intelligence. Mais le test de
Turing n'était pas censé être une définition de l'intelligence, juste
un critère proche et plus facile à tester. (Turing
écrit : Instead of attempting such a definition I
shall replace the question by another, which is closely related to it
and is expressed in relatively unambiguous words.
) Ce n'est pas
spécialement inhabituel, quand on est face à un concept qu'on ne sait
pas définir proprement[#6], de
tenter des définitions empiriques ou approximatives, quitte à les
rejeter ou les améliorer plus tard. Or clairement,
les IA actuelles ne sont pas intelligentes en un sens
raisonnable du terme[#7], et je
ne suis même pas persuadé qu'elles aient fait le moindre progrès dans
cette direction, en tout cas pas vers une intelligence
« générale ».
[#6] Un autre exemple serait celui de la vie. Pour ma part, j'aime bien la définition avancée par Jacques Monod dans le Le Hasard et la Nécessité, qui propose les trois propriétés suivantes pour définir la vie : la téléonomie — c'est-à-dire l'organisation suivant l'apparence d'un projet ou d'un but comme caractéristique émergente —, la morphogenèse autonome que constitue la création de structures internes, et l'invariance reproductive sur laquelle peut se construire le mécanisme darwinien d'évolution par mutations aléatoires et sélection des plus aptes. Mais je n'exclus nullement que la découverte d'une forme de vie extra-terrestre qui ne répondrait pas aux critères qu'on aurait adoptés et qui serait quand même « évidemment vivante », ou au contraire, d'une forme de non-vie qui répondrait aux critères, obligerait à repenser la définition. Même en mathématiques, il peut arriver qu'on découvre qu'une définition est « fausse » (quand elle est vérifiée par quelque chose qu'on ne voulait « évidemment pas » mettre sous la définition, ou inversement).
[#7] Un indice dans ce
sens est qu'on a tenté de les rendre intelligentes en leur ajoutant la
capacité de produire une sorte de flux de tokens interne (au lieu que
l'IA réponde directement à la question, elle produit une
sorte de « réflexion interne » qu'elle utilise pour générer sa
réponse ; c'est ce que fait ChatGPT quand on active le
mode Reason
, ou bien Grok avec le
mode Think
, et je suppose qu'ils sont plein à
avoir ça ; Grok laisse d'ailleurs visualiser ce flux de réflexion
interne, et il faut reconnaître que c'est rigolo à voir). C'est une
piste raisonnable vu qu'il est évidemment absurde de suggérer qu'on
peut répondre intelligemment à n'importe quelle question en utilisant
un temps de calcul constant par mot, comme le fait le modèle
de base. Sauf qu'en fait l'amélioration apportée par ce gadget est
vraiment marginale : si on n'est pas intelligent en générant un mot,
on ne le devient pas magiquement en en générant
plein in imo capite.
☞ Peut-être que le mot d'intelligence
n'a pas de sens
Maintenant il faut surtout reconnaître qu'on n'a aucune idée de ce qu'est l'intelligence (ou l'intelligence « générale »), et on en a encore moins idée maintenant qu'en 1950 (enfin, on se rend mieux compte qu'on n'en a aucune idée). Peut-être simplement qu'il faut accepter que c'est un mot qui ne veut juste rien dire : il essaie de regrouper sous un même chapeau la capacité à résoudre des problèmes qui n'ont aucun rapport les uns avec les autres, capacité de résolution qui s'avère être un peu corrélée chez les humains, mais c'est peut-être une spécificité du développement du cerveau humain, voire une spécificité de notre culture[#8], sans que ces choses aient rien à voir entre elles. L'idée qu'il y ait une sorte d'Heuristique Ultime (l'intelligence générale) qui résout n'importe quelle sorte de problèmes est peut-être fondamentalement naïve, une illusion basée sur nos propres capacités. Je ne sais pas. Mais en tout cas, maintenant qu'on a des trucs inintelligents qui imitent assez bien l'intelligence, on sait que c'est plus compliqué que ce qu'on croyait.
[#8] Ça peut être aussi bête que : les gens qui ont du temps à perdre à s'entraîner à résoudre le problème X ont aussi du temps à perdre à s'entraîner à résoudre le problème Y. Manifestement ça ne dit pas grand-chose sur une corrélation profonde entre la résolution de ces deux problèmes.
C'est un peu con, de se rendre compte qu'on est en train d'essayer
de faire un truc (atteindre l'intelligence générale
) qui n'a
peut-être même pas de sens. L'intelligence artificielle, c'est un peu
comme si on avait toute une branche de la science qui prétendait
essayer de donner une âme aux ordinateurs parce que personne ne
s'était vraiment préoccupé de savoir ce que ça signifie, au juste,
une âme
, ni si ça existe vraiment.
☞ On n'a aucune idée de pourquoi et comment nos IA fonctionnent
Mais l'autre déception, c'est que même dans la mesure où on admet
que les IA actuelles sont quand même intelligentes, et
dans la mesure où on admet qu'elles servent à quelque chose, on ne
comprend pas pour autant comment elles fonctionnent ! Ce sont juste
des gigantesques tableaux de nombres (les poids
), fabriqués par
un processus d'entraînement à partir de quantités énormes de texte, le
processus d'entraînement tendant à faire évoluer les poids de manière
à favoriser la reproduction du texte d'entraînement,
mais in fine on n'a aucune idée de pourquoi ça
fonctionne. L'intelligence (ou la part
d'intelligence qu'ont nos IA) est un phénomène
émergent, mais même en le voyant se produire nous ne comprenons pas
pour autant comment il se produit.