David Madore's WebLog: 2026-06

Vous êtes sur le blog de David Madore, qui, comme le reste de ce site web, parle de tout et de n'importe quoi (surtout de n'importe quoi, en fait), des maths à la moto et ma vie quotidienne, en passant par les langues, la politique, la philo de comptoir, la géographie, et beaucoup de râleries sur le fait que les ordinateurs ne marchent pas, ainsi que d'occasionnels rappels du fait que je préfère les garçons, et des petites fictions volontairement fragmentaires que je publie sous le nom collectif de fragments littéraires gratuits. • Ce blog eut été bilingue à ses débuts (certaines entrées étaient en anglais, d'autres en français, et quelques unes traduites dans les deux langues) ; il est maintenant presque exclusivement en français, mais je ne m'interdis pas d'écrire en anglais à l'occasion. • Pour naviguer, sachez que les entrées sont listées par ordre chronologique inverse (i.e., la plus récente est en haut). Cette page-ci rassemble les entrées publiées en juin 2026 : il y a aussi un tableau par mois à la fin de cette page, et un index de toutes les entrées. Certaines de mes entrées sont rangées dans une ou plusieurs « catégories » (indiqués à la fin de l'entrée elle-même), mais ce système de rangement n'est pas très cohérent. Le permalien de chaque entrée est dans la date, et il est aussi rappelé avant et après le texte de l'entrée elle-même.

You are on David Madore's blog which, like the rest of this web site, is about everything and anything (mostly anything, really), from math to motorcycling and my daily life, but also languages, politics, amateur(ish) philosophy, geography, lots of ranting about the fact that computers don't work, occasional reminders of the fact that I prefer men, and some voluntarily fragmentary fictions that I publish under the collective name of gratuitous literary fragments. • This blog used to be bilingual at its beginning (some entries were in English, others in French, and a few translated in both languages); it is now almost exclusively in French, but I'm not ruling out writing English blog entries in the future. • To navigate, note that the entries are listed in reverse chronological order (i.e., the most recent is on top). This page lists the entries published in June 2026: there is also a table of months at the end of this page, and an index of all entries. Some entries are classified into one or more “categories” (indicated at the end of the entry itself), but this organization isn't very coherent. The permalink of each entry is in its date, and it is also reproduced before and after the text of the entry itself.

[Index of all entries / Index de toutes les entréesLatest entries / Dernières entréesXML (RSS 1.0) • Recent comments / Commentaires récents]

Entries published in June 2026 / Entrées publiées en juin 2026:

↓Entry #2855 [older| permalink|newer] / ↓Entrée #2855 [précédente| permalien|suivante] ↓

(jeudi)

Nouvelles réflexions sur les LLM et les maths

Méta : Le billet qui suit est une adaptation d'un long fil Bluesky dont je me suis dit après l'avoir écrit que, finalement, il aurait plus sa place sous forme de billet de blog. (J'ai surtout ajouté quelques notes explicatives, et parfois un peu reformulé les phrases.) Je reprends un certain nombre de choses que je disais dans mon autre billet récent sur le même sujet, parfois en les disant un peu différemment, et j'ajoute d'autres idées que j'avais oublié d'exprimer, en revanche je ne m'appesantis pas sur le unit distance problem en particulier. Bref, le présent billet peut être lu indépendamment de l'autre. Il peut aussi être lu indépendamment de la vidéo qui sert de point de départ à toutes ces réflexions (et à laquelle je reproche globalement de présenter un point de vue très restrictif). Et j'espère qu'il est largement compréhensible pour les non-mathématiciens (c'est quand même le but !), d'autant que la vidéo commentée est faite par un philosophe.

Comme d'habitude, ce texte est 100% écrit par mon petit cerveau de mathématicien humain : ce n'est pas pour me vanter, c'est plutôt pour justifier les fautes de frappe ou d'orthographe certainement nombreuses et qu'une IA n'aurait pas faites.

*

Le point de départ, donc, c'est qu'on m'a demandé de regarder cette vidéo du philosophe vulgarisateur Monsieur Phi sur les progrès des LLM[#] en maths et de donner mon avis.

[#] Je rappelle que les LLM (Large Language Models) sont le principal type d'IA génératrices de texte (p.ex., ChatGPT, Claude, Gemini, DeepSeek, sont essentiellement des LLM, même s'ils ont des passerelles vers d'autres types d'IA, par exemple pour produire ou analyser des images). J'essaie, sans forcément être parfaitement cohérent, d'utiliser le terme IA (qui ne veut pas dire grand-chose, en tout cas scientifiquement) pour le domaine en général, et LLM pour celles dont il est question ici.

Bon alors d'abord, j'ai bien regardé la vidéo, et je dois commencer par dire que tout ce que j'y ai entendu me semble juste, et plutôt bien expliqué. En revanche, il y a un certain nombre de choses qui auraient pu être dites et qui ne l'ont pas été, et pour certaines je le regrette. Voici donc ce que je peux ajouter à titre personnel. (Et oui, bien sûr, je ne m'attends pas à ce qu'une vidéo YouTube dise tout ce que je raconte ci-dessous, mais je trouve quand même que le message se résume pas mal à les IA sont devenues très fortes très vite, sur lequel il y a beaucoup de mise en perspective à faire.)

(Plan :)

☞ Les preuves erronées

D'abord, ça me semble important de souligner que les LLM actuels continuent à l'heure actuelle à produire énormément de démonstrations fausses (théorèmes hallucinés, appliqués avec les mauvaises hypothèses, confusions quand un terme a plusieurs sens, etc.). Même les « bons » modèles. (Oui, les bons en font moins, mais on leur demande des choses plus compliquées, et là ils en font encore beaucoup.) On peut parfois détecter ces erreurs, certainement les réduire, en demandant au LLM de vérifier sa propre preuve, mais même ainsi, la confiance n'est pas terrible. Du coup, si on veut quelque certitude, soit il faut formaliser la preuve en Lean[#2], ce qui n'est possible qu'avec un tout petit bout de la recherche en maths (dont beaucoup de problèmes d'Erdős[#3], qui ont la spécificité d'être très élémentaires), soit la faire vérifier par un expert humain, et là on a un bottleneck, parce que les experts ont autre chose à foutre que vérifier N preuves générées par IA dont beaucoup sont du bullshit.

[#2] Comme je l'explique dans un bout de mon précédent billet sur le sujet, Lean est un outil informatique dans lequel on peut exprimer des preuves mathématiques de façon formelle, et qui vont alors la vérifier (de façon complètement automatisée, et fiable). On peut demander à un LLM d'écrire ou de convertir la preuve en Lean. Mais pour que la preuve soit effectivement formalisable en Lean, il faut que tous les outils qu'elle utilise aient été eux-mêmes préalablement formalisés en Lean, ce qui, à l'heure actuelle, est loin de couvrir la totalité du spectre des mathématiques connues.

[#3] Paul Erdős était grand collectionneur de problèmes mathématiques, et ses problèmes sont devenus une sorte de défi pour les boîtes d'IA (je me demande ce qu'Erdős lui-même aurait pensé de cette situation, d'ailleurs). Mais il faut souligner que les problèmes d'Erdős représentent les intérêts du collectionneur, et qu'ils ont notamment un biais très important en faveur des énoncés élémentaires, souvent sans grande théorie derrière, et de certains domaines particuliers des maths (grosso modo : la combinatoire, la théorie des graphes, la théorie des nombres « élémentaire » / combinatoire / additive, éventuellement la théorie descriptive des ensembles).

En fait, c'est complètement con : on a automatisé une partie intéressante de la résolution de problèmes mathématiques (trouver une preuve), mais pas vraiment la partie chiante (vérifier les preuves), qui est pourtant, du point de vue théorique, parfaitement automatisable. (Un peu comme on préférerait que les IA nous débarrassent des choses chiantes de la vie, comme le ménage, et pas des choses créatives et intéressantes.)

☞ La difficulté de vérifier

Et en pratique, ce qui est en train de se passer en ce moment en maths, ce n'est pas tant que les problèmes ouverts tombent les uns après les autres (à part les problèmes d'Erdős), c'est que tout le monde est noyé par les preuves bidon produites par IA : avant, pour reconnaître un crackpot en maths c'était très facile (juste au style), maintenant, comme les preuves bidon produites par IA sont superficiellement hyper plausibles, c'est devenu extrêmement difficile de savoir sauf à tout lire en détails. Là on a un vrai problème.

(Et à moins de tout formaliser, ce n'est pas clair que le progrès des LLM nous tire d'affaire, parce que ce qui compte est le rapport entre leur capacité à générer du bullshit avancé et leur capacité à en détecter, et c'est pas évident comment il évolue.)

☞ Le positif et le négatif

C'est pour ça que je souligne que, à l'heure actuelle, il n'est pas du tout clair que la contribution des IA aux maths soit positive (même en ignorant totalement leurs coûts !). Il y a des termes >0 et des termes <0, et j'ai personnellement tendance à penser que la somme est <0.

Je peux aussi mentionner l'impact négatif qu'ont les LLM sur le site MathOverflow (une sorte de réseau social des mathématiciens, sous forme de questions-réponses); on peut toujours rêver qu'elles vont remplacer ça en mieux, mais pour l'instant ce n'est pas clair (ni gratuit !).

Donc je trouve assez fallacieux de ne parler que des progrès que les LLM ont apportés pour certains problèmes et de taire complètement tous les aspects négatifs sur la discipline. Peut-être que les contributions >0 vont augmenter à l'avenir, mais les <0 risquent d'empirer aussi ! Bref, bien malin qui saura dire à quoi ressemblera la somme.

L'enthousiasme (d'ailleurs assez relatif) de gens comme Terry Tao[#4] n'engage qu'eux : ce n'est pas parce qu'il est très fort que son avis est plus important que n'importe quel autre mathématicien. Et je trouve d'ailleurs significatif que la vidéo ne retienne, des commentaires de 9 mathématiciens sur la preuve d'OpenAI du unit distance problem, que les plus positifs : j'encourage beaucoup à lire ceux de Melanie Matchett Wood, avec lesquels je me sens très en phase.

[#4] Terence Tao est professeur à UCLA, médaillé Fields, et considéré par beaucoup comme un des plus brillants mathématiciens vivant actuellement (voire le plus brillant, parce qu'il a un fan-club franchement pénible ; mais indiscutablement il est très fort pour résoudre des problèmes, et aussi capable de comprendre un nombre impressionnant de domaines différents des mathématiques). Il fait preuve d'un certain enthousiasme pour le rôle que les IA vont jouer dans l'avenir des mathématiques, ce qui agace parfois certains collègues, surtout que ses propos sont pas mal utilisés par les zélotes de l'IA. (Mais bon, il est aussi signataire de la déclaration de Leiden, donc ce n'est certainement pas un enthousiasme sans réserves.)

☞ La difficulté n'est pas une grandeur unique

Beaucoup de spéculations (notamment dans la vidéo de Monsieur Phi) se fondent sur l'idée implicite que la difficulté d'un problème mathématique est une sorte de valeur objective, et notamment qu'elle serait la même pour les LLM et pour les humains. Vu qu'elle est déjà hyper différente d'un humain à l'autre, ça me semble particulièrement audacieux, comme hypothèse. Mais en tout cas, l'idée que les LLM deviennent très bons pour certains problèmes très durs pour les humains donc ils vont dépasser les humains en tout (je ne dis pas que la conclusion est fausse), elle repose sur une hypothèse très douteuse sur la nature linéaire de la difficulté mathématique.

Évidemment, c'est difficile de tester l'hypothèse il y a des problèmes de maths faciles pour les humains et difficiles pour les LLM parce que tout ce qui a jamais été écrit par un humain est connu des LLM (donc par définition elles savent faire), et qu'on ne sait même pas dans quelle direction chercher. Mais le fait est que certains collègues trouvent les LLM vraiment mauvais et d'autres spectaculairement bons, et on ne comprend pas bien la raison de ces différences (nature des problèmes ? qualité des modèles ? capacité à prompter efficacement ? effet placebo/nocebo dû aux préjugés sur les IA ?), mais pour l'instant on n'a vraiment aucune mesure scientifique sérieuse, juste plein d'anecdotes. En tout cas il est probable que les problèmes d'Erdős ne soient pas hyper représentatifs.

Je résumerais un peu la situation actuelle à celle où une boîte pharmaceutique aurait un produit à vendre et on mettrait en avant plein de témoignages de gens qui ont été guéris par ce médicament : je ne dis pas que ça ne dit rien, mais ça ne remplace pas une étude scientifique.

☞ Le problème de l'arrêt des exponentielles

La spéculation puisque les progrès sont très rapides, ils vont forcément aller extrêmement loin me semble particulièrement infondée : je ne sais pas quel mur les LLM peuvent risquer de heurter (économique ? énergétique ? technologique ? du processus d'entraînement ? de la nature même du modèle ?) mais je ne vois aucune raison particulière de penser que la position de telle ou telle barrière (si elle existe) est corrélée à la vitesse à laquelle on fonce dessus. Comme je le dis tout le temps (et comme j'ai passé toute la pandémie de covid à expliquer) : observer une exponentielle ne dit rien sur la manière dont elle s'arrêtera.

☞ Les maths comme benchmark

En tout état de cause, les développements ultra-rapides de ces derniers mois me semblent largement dus à une décision stratégique : OpenAI et les autres boîtes d'IA ont décidé d'utiliser les maths comme « benchmark »[#5] censément objectif pour montrer leur supériorité les unes sur les autres (notamment dans le contexte de l'introduction en bourse d'OpenAI). Évidemment, ce qui les intéresse n'est pas de faire des maths ni d'aider la science ou les mathématiciens, mais de vendre leurs produits. OpenAI a clairement décidé d'investir massivement pour une annonce spectaculaire, en ciblant les problèmes d'Erdős spécifiquement. Je ne dis pas que les LLM ne peuvent pas progresser plus généralement, mais il faut une certaine naïveté pour s'imaginer que ce développement est représentatif de quelque chose qui pourra être soutenu, ou qu'il est représentatif des maths en général, pire, de l'intelligence en général.

[#5] Comprendre : comme moyen d'évaluation, comme test pour se comparer les unes aux autres.

(Et là je me dois de citer la loi de Goodhart comme je le fais souvent : utiliser les maths / problèmes d'Erdős comme benchmark pour les IA avait peut-être un sens, mais dès que les boîtes s'en sont aperçu, ça a cessé d'être un bon benchmark.)

C'est donc notamment à cause de ça que beaucoup de mathématiciens sont exaspérés de la manière dont les boîtes d'IA font leur pub sur leur dos et leur donnent un rôle quasiment de prospectus publicitaire, au détriment de la discipline.

↑Entry #2855 [older| permalink|newer] / ↑Entrée #2855 [précédente| permalien|suivante] ↑

Continue to older entries. / Continuer à lire les entrées plus anciennes.


Entries by month / Entrées par mois:

2026 Jan 2026 Feb 2026 Mar 2026 Apr 2026 May 2026 Jun 2026
2025 Jan 2025 Feb 2025 Mar 2025 Apr 2025 May 2025 Jun 2025 Jul 2025 Aug 2025 Sep 2025 Oct 2025 Nov 2025 Dec 2025
2024 Jan 2024 Feb 2024 Mar 2024 Apr 2024 May 2024 Jun 2024 Jul 2024 Aug 2024 Sep 2024 Oct 2024 Nov 2024 Dec 2024
2023 Jan 2023 Feb 2023 Mar 2023 Apr 2023 May 2023 Jun 2023 Jul 2023 Aug 2023 Sep 2023 Oct 2023 Nov 2023 Dec 2023
2022 Jan 2022 Feb 2022 Mar 2022 Apr 2022 May 2022 Jun 2022 Jul 2022 Aug 2022 Sep 2022 Oct 2022 Nov 2022 Dec 2022
2021 Jan 2021 Feb 2021 Mar 2021 Apr 2021 May 2021 Jun 2021 Jul 2021 Aug 2021 Sep 2021 Oct 2021 Nov 2021 Dec 2021
2020 Jan 2020 Feb 2020 Mar 2020 Apr 2020 May 2020 Jun 2020 Jul 2020 Aug 2020 Sep 2020 Oct 2020 Nov 2020 Dec 2020
2019 Jan 2019 Feb 2019 Mar 2019 Apr 2019 May 2019 Jun 2019 Jul 2019 Aug 2019 Sep 2019 Oct 2019 Nov 2019 Dec 2019
2018 Jan 2018 Feb 2018 Mar 2018 Apr 2018 May 2018 Jun 2018 Jul 2018 Aug 2018 Sep 2018 Oct 2018 Nov 2018 Dec 2018
2017 Jan 2017 Feb 2017 Mar 2017 Apr 2017 May 2017 Jun 2017 Jul 2017 Aug 2017 Sep 2017 Oct 2017 Nov 2017 Dec 2017
2016 Jan 2016 Feb 2016 Mar 2016 Apr 2016 May 2016 Jun 2016 Jul 2016 Aug 2016 Sep 2016 Oct 2016 Nov 2016 Dec 2016
2015 Jan 2015 Feb 2015 Mar 2015 Apr 2015 May 2015 Jun 2015 Jul 2015 Aug 2015 Sep 2015 Oct 2015 Nov 2015 Dec 2015
2014 Jan 2014 Feb 2014 Mar 2014 Apr 2014 May 2014 Jun 2014 Jul 2014 Aug 2014 Sep 2014 Oct 2014 Nov 2014 Dec 2014
2013 Jan 2013 Feb 2013 Mar 2013 Apr 2013 May 2013 Jun 2013 Jul 2013 Aug 2013 Sep 2013 Oct 2013 Nov 2013 Dec 2013
2012 Jan 2012 Feb 2012 Mar 2012 Apr 2012 May 2012 Jun 2012 Jul 2012 Aug 2012 Sep 2012 Oct 2012 Nov 2012 Dec 2012
2011 Jan 2011 Feb 2011 Mar 2011 Apr 2011 May 2011 Jun 2011 Jul 2011 Aug 2011 Sep 2011 Oct 2011 Nov 2011 Dec 2011
2010 Jan 2010 Feb 2010 Mar 2010 Apr 2010 May 2010 Jun 2010 Jul 2010 Aug 2010 Sep 2010 Oct 2010 Nov 2010 Dec 2010
2009 Jan 2009 Feb 2009 Mar 2009 Apr 2009 May 2009 Jun 2009 Jul 2009 Aug 2009 Sep 2009 Oct 2009 Nov 2009 Dec 2009
2008 Jan 2008 Feb 2008 Mar 2008 Apr 2008 May 2008 Jun 2008 Jul 2008 Aug 2008 Sep 2008 Oct 2008 Nov 2008 Dec 2008
2007 Jan 2007 Feb 2007 Mar 2007 Apr 2007 May 2007 Jun 2007 Jul 2007 Aug 2007 Sep 2007 Oct 2007 Nov 2007 Dec 2007
2006 Jan 2006 Feb 2006 Mar 2006 Apr 2006 May 2006 Jun 2006 Jul 2006 Aug 2006 Sep 2006 Oct 2006 Nov 2006 Dec 2006
2005 Jan 2005 Feb 2005 Mar 2005 Apr 2005 May 2005 Jun 2005 Jul 2005 Aug 2005 Sep 2005 Oct 2005 Nov 2005 Dec 2005
2004 Jan 2004 Feb 2004 Mar 2004 Apr 2004 May 2004 Jun 2004 Jul 2004 Aug 2004 Sep 2004 Oct 2004 Nov 2004 Dec 2004
2003 May 2003 Jun 2003 Jul 2003 Aug 2003 Sep 2003 Oct 2003 Nov 2003 Dec 2003

[Index of all entries / Index de toutes les entréesLatest entries / Dernières entréesXML (RSS 1.0) • Recent comments / Commentaires récents]