Comments on Quelques nouvelles réflexions sur les IA et leur utilisation

N (2025-11-09T22:29:12Z)

connaissais-tu cette citation de Larry Telser
<URL: https://en.wikipedia.org/wiki/Larry_Tesler>

"AI is whatever hasn't been done yet."

aussi décrit dans <URL: https://en.wikipedia.org/wiki/AI_effect#Definition>

Thomas (2025-07-26T04:16:15Z)

@Hugues : C'est sympa qu'ils partagent leurs solutions, mais ça serait encore mieux s'il y avait du code open-source et/ou une publication expliquant le protocole.

Je crois bien que la dernière fois qu'un tel papier a été publié, c'était pour AlphaGeometry (<URL: https://www.nature.com/articles/s41586-023-06747-5>) et quand on y regarde de plus près ce n'était pas si « groundbreaking » que ça puisque qu'il existait déjà des solveurs déterministes de géométrie euclidienne qui performaient très bien.

Hugues (2025-07-23T11:32:21Z)

Je commente ce post avec un peu de retard, pour signaler que je suis impressionné par ces réponses à des exercices d'Olympiades de maths :
https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf
Il y a encore seulement deux ans je n'aurais jamais imaginé qu'une machine soit capable de produire ça.

Koko90 (2025-06-24T14:05:54Z)

Je crois pas que les gens réalisent à quel point le travail de centaines de milliers d'humains c'est juste comprendre un texte simple en langage naturel et ensuite prendre une décision élémentaire à partir de ça (avec l'opérateur qui n'a pas de pouvoir décisionnel réel, c'est un algo, mais exécuté par un humain).
Plein d'agents d'assurance, les banquiers, les employés chargés de verser les prestations sociales.
Exemple réel : t'es agent pour l'assurance retard/annulation d'une compagnie de train. Un type a eut 2 heures de retard et a dut dormir à l'hôtel à cause de ça. C'est couvert dans le contrat. Il va écrire un mail qui raconte ça (en joignant la facture). Un humain va le lire, en déduire que oui, c'est couvert, et procéder au remboursement. Ce qui bloque, qui fait qu'on devait payer un humain, c'est qu'une machine ne savait pas lire le langage naturel.
Un exercice de lecture élémentaire (lire un texte de trois paragraphes et réponde à des question basiques dessus, aucune algo ne savait faire). Et là on sait (oui, je sais, un LLM comprend pas vraiment, mais c'est pas la question).
Oui, ça automatise pas tous les travails, c'est pas comme si l'AI allait écrire des romans et faire de la recherche en maths. Mais bon, il y a combien de romanciers et de chercheurs en maths ? Moins dans toute la France que de gens qui sont remplaçables par de l'AI dans une unique compagnie d'assurance.
On s'en fout qu'elle comprenne pas vraiment. Si on luit dit "Brian is in the kitchen" puis qu'on demande "Where is Brian?" elle sait dire "in the kitchen." Et ça ça couvre incroyablement beaucoup de postes de travail.
Donc oui, il va y avoir des tas de gens remplacés par de l'AI. En vrai ça a commencé, on le remarque déjà dans plusieurs domaines.
C'est comme l'introduction des photocopieuses. C'est terriblement con une photocopieuse. Ca fait juste la partie la plus stupide du travail d'une secrétaire (qui peut faire des choses bien plus compliquées que recopier un document), mais une simple Xerox remplaçait 50% des secrétaires d'une boîte (car les secrétaires passaient 50% de leurs temps à recopier des documents).

Nostradamus (2025-05-30T13:45:38Z)

Tiens, je prédis une entrée d'ici demain soir…

Cigaes (2025-05-30T11:59:59Z)

Je pense que le l'anthropomorphisme au cœur de l'idée du test de Turing procède d'une grande part de vanité : je ne sais pas définir ce qu'est l'intelligence, mais étant moi-même (suprêmement) intelligent je sais forcément la reconnaître quand je la vois.

En ce qui concerne ce qu'est l'intelligence, si on se force à adopter une définition extérieure sur la base de ce que l'intelligence peut faire d'observable, alors je pense que ce qu'on a actuellement n'est que quantitativement différent de ce que les gens appellent générique : il s'agit d'avoir un réseau de significants et de signifiés assez dense pour qu'une erreur grossière ne puisse pas passez inaperçue.

Mais je pense également que les modèles de langage son un cul-de-sac. On a gagné un temps fou en greffant aux IA un réseau de siginfiants déjà construit par des humains, mais les signifiés ne sont inculqués que par induction. Donc il manque aux IA par LLM toutes les règles qui viennent de la compréhension du monde tellement évidente qu'elle n'est jamais exprimée en mots.

Il leur manque également tout ce qui est dit mais rarement écrit, comme les hésitations ou les demandes de clarification, ce qui explique le biais pour répondre à côté de la plaque plutôt que de simplement demander de quoi on parle.

Mais je pense que cet état de fait pour une définition externe est parasité par la volonté d'une définition qui atteste un état intérieur : l'existence de qualia et d'une pensée capable de réflexion métaphysique, d'une volonté propre et d'un libre arbitre. Mais ces phénomènes sont encore complètement mystérieux, et complètement inaccessibles de l'extérieur, donc c'est une volonté vaine.

Ce que je ressens quand mon intelligence est engagée à la recherche de solution à un problème, que ce soit architecture informatique ou fixation de meuble, c'est que se produit dans mon cerveau un processus assez nettement parallèle de recherche et de mise à l'épreuve de solutions sous une forme modélisée abstraite. Cette recherche est d'autant plus active que je pense au problème, par exemple en imaginant, sous forme de monologue interne, écrire une doc ou l'expliquer à quelqu'un, mais elle peut aussi se produire pendant les temps morts des séries que je regarde, surtout les problèmes très génériques.

Je peux imaginer qu'un des facteurs biologiques de l'intelligence est la quantité de… neurones ? synapses ?… que le cerveau peut consacrer à la recherche de solutions pendant une séance de pensée. Mais aussi à la quantité de… la même chose ? autre chose ?… qu'il peut consacrer à conserver une modélisation des solutions à moyen et à long terme.

Si tout ça puisait dans le même pool de whatever totalement indifférenciés, alors la taille de ce pool serait un bon candidat au titre de facteur générique d'intelligence. Mais croire à l'existence d'un tel pool me semble extrêmement naïf par rapport à ce qu'on sait du fonctionnement du cerveau. En particulier, les cellules de ce pool vont certainement se spécialiser et devenir plus aptes à modéliser et chercher des solutions pour certaines classes de problèmes. Une partie de cette spécialisation va arriver extrêmement tôt, et le résultat est indistinguable d'un cerveau nativement plus adepte à certains problèmes qu'à d'autres.

En outre, c'est un peu comme résumer la puissance d'un microprocesseur à la quantité de mémoire cache embarquée : c'est un facteur important, mais c'est loin d'être le seul. Je doute qu'il y ait un équivalent facile de la fréquence d'horloge : si certains cerveaux allaient visiblement plus vite que d'autres on l'aurait remarqué depuis longtemps et les fans du QI s'en gargariseraient. En revanche, des différences sur l'existence de structures dédiées, équivalentes à la différence entre une instruction câblée et une instruction implémentée en microcode, ne me semble pas à exclure. Des différences discrètes globales, à comparer à des différences de microarchitecture, qui pourraient rendre plus ou moins efficace toutes les formes de réflexion ou simplement certaines par rapport à d'autres, me semble également à envisager hypothétiquement.

Les tenants de l'existence d'un facteur global d'intelligence arguent toujours que leurs dadas sont corrélés à des résultats pertinents comme la réussite scolaire ou professionnelle, mais ça montre surtout à quel point ils ignorent comment marchent les corrélations et à quel point celles établies par les sciences sociales et cognitives sont faibles.

Et petit point annexe : relire un code qu'on n'a pas écrit est nettement plus fastidieux que de l'écrire en premier lieu.

Pierre Termier (2025-05-03T14:27:13Z)

Un commentaire sur la note #7:
Je ne comprends pas en quoi la nature du raisonnement utilisée par les LLM pour résoudre des problèmes non triviaux (i.e. la génération de mots intermédiaires, cachés) est un indice qu’ils ne soient pas fondamentalement intelligents. Au contraire, ça me semble tout à fait analogue à notre propre manière de réfléchir, qui n’est ni plus ni moins qu’un « dialogue interne ». Ce dialogue utilise principalement des mots et est rapidement limité lorsqu’un individu manque de vocabulaire (c’est l’hypothèse faible de Sapir Whorf).

Enfin, tout l’argumentaire autour de la réflexion globale et du « degré de réflexion » utilisé pour chaque mot n’apporte rien selon moi car rien n’indique que nous, humains, fonctionnons différemment, à partir du moment où on prend en compte le dialogue interne susmentionné (« Tiens, ce problème me fait penser à tel autre problème que j’avais résolu en le découpant de tel manière etc. »).
De même pour tout l’argumentaire autour du fait que les IAs sont prisonnières du texte: les être vivants, de même, sont prisonniers de leurs expériences sensorielles. Et en ce sens l’intelligence, n’est en fait que l’apprentissage et l’acquisition du monde.

En revanche, je te rejoins sur le fait qu’il est peut être vain de définir l’intelligence, et que ça ne semble en fin de compte être qu’un ensemble de compétences difficilement comparables. Dans cet ensemble, l’IA a déjà dépassé l’humain dans beaucoup de dimensions, et il n’est pas pertinent de parler d’IA « générale ».

Apokrif (2025-05-03T07:28:05Z)

@Mewtow: non, même le grand public produit des vidéos par IA.

Charles (2025-05-01T18:47:37Z)

> faire écrire du code par une IA me semble vraiment idiot en général

C'est un peu péremptoire comme argument. Peut-être que tu n'utilises pas les bons outils ou/et que tu manques de pratique.

Dans mon entreprise, on a des outils qui sont de mieux en mieux intégrés à notre IDE et qui deviennent incontournables. Bien sur, on ne peut générer qu'une partie du code, et on peut aussi perdre du temps, mais ça améliore significativement la productivité quand même, et les outils évoluent très rapidement.

Il y a 6 mois, je n'utilisais les LLMs que pour me générer des fonctions de quelques lignes, typiquement si je n'étais pas sur de la syntaxe. Et puis pour la complétion de code.

Aujourd'hui, ils peuvent faire des tâches beaucoup plus compliquées. J'ai un accès à un agent qui a connaissance de tous les fichiers de mon projet, qui sait compiler, exécuter des linters, itérer, faire des recherches d'API etc… Avec l'expérience, on sait à peu près ce que l'agent saura faire et comment lui demander. Typiquement, l'outil me produit des changements, que je peux facilement accepter ou rejeter, et revisiter mon prompt.

Je n'ai pas accès à ta conversation, mais pour ton programme de validité de logique propositionnelle, j'utiliserais sans aucun doute un LLM pour écrire le parser des options de la ligne de commande, générer des tests pour le parser, et très probablement pour le parser lui même.

Je trouve que la limitation principale n'est finalement pas un problème d'hallucination, mais plutôt de vitesse d'exécution. Il faut parfois plusieurs itérations. Par exemple, s'il produit un parser bidon, on peut reprendre le prompt pour le guider, ce qui peut prendre qq minutes, et casser le flow du programmeur. Peut-être qu'à la fin ça ne marchera pas, on peut alors faire soit même quelques cas, et laisser l'outil compléter le reste.

Concernant les hallucinations et la correction du programme, il y a plusieurs façons de contourner. Lui faire écrire les tests, ou utiliser des languages typés et lui imposer les signatures. Et d'ailleurs, ce sont des méthodes qu'on préconise indépendamment des LLMs, utiliser des languages fortement typés (ou ajouter des annotations de types), écrire des tests, identifier les signatures des fonctions auxiliaires et s'assurer qu'on arrivera à les combiner avant de les écrire. Découper le code en une série de petits commits "self-contained" et testé, qui seront validés par les collègues. D'une certaine manière, toutes les méthodes pour réduire la complexité du processus de développement qui marchent pour les humains, marchent aussi pour les LLMs.

Ilia Smilga (2025-05-01T17:22:12Z)

Je ne vois vraiment pas ce qui te permet de conclure que le test de Turing n'est plus pertinent comme mesure d'intelligence. Après tout, ce qui te convainc que ChatGPT et consorts ne sont pas intelligents, c'est bien le fait d'examiner le texte qu'ils produisent, non ?

Il faut bien sûr distinguer le test de Turing "à la légère" d'un test de Turing sérieux. ChatGPT est certes capable de se faire passer pour un humain dans une conversation banale de 5 minutes. En revanche, il est clair qu'un examinateur déterminé, un minimum renseigné et sans limite de temps peut sans problème le démasquer s'il en a vraiment besoin. Je pense que c'est le deuxième qui mérite d'être vraiment appelé "test de Turing" ; et qu'il offre, pour le coup, une mesure tout à fait pertinente.

(Cela dit, si on s'accorde à dire que "test de Turing" signifie "pouvoir faire la causette pendant 5 minutes", alors je pense que je suis d'accord avec toi. Il y a 5 ans j'aurais dit, je pense, qu'une telle capacité nous renseignerait probablement sur quelque chose de plus profond. Aujourd'hui avec ChatGPT, je suis obligé d'admettre qu'il n'en est rien.)

Par ailleurs, tu as l'air de penser que le développement de l'IA a heurté un mur, et que, vu les limitations inhérentes des modèles actuels, il n'y a rien de spectaculaire à attendre dans les quelques prochaines années. (Je déforme peut-être tes pensées ? N'hésite pas à me reprendre.) Tu as bien mis le doigt sur le problème qui me semble être la limitation la plus importante des modèles actuels : le fait qu'ils n'aient accès au monde qu'au travers du texte. Mais cette limitation ne me semble pas insurmontable : il suffirait d'entraîner un LLM en lui donnant accès à une caméra et un manipulateur physique, pour lui donner un accès plus direct au monde réel… (Savoir si c'est *une bonne idée* de le faire effectivement est une toute autre question. J'ai tendance à penser que non, car j'ai très peur d'une IA véritablement intelligente - surtout vu la culture actuelle de "move fast and break things".) Et il me semble qu'AlphaZero a pleinement fait ses preuves quant au fait qu'un LLM peut tout à fait se comporter de façon "intelligente" s'il a le moyen d'être confronté à une mesure objective de son intelligence. Du coup, ne penses-tu pas qu'une telle approche pourrait donner des résultats vraiment impressionnants ?

Mewtow (2025-05-01T14:16:59Z)

Au final, la montagne a accouché d'une souris. Les IA actuelles ne font que des illustrations ou pondre du texte, dans un monde où l'internet est déjà dominé par la vidéo. Et vu la surproduction de contenu datant d'avant l'IA, pas sur que son introduction change grand chose.

Il faut être franc, la production de texte sur le net est réduite à Wikipédia, Reddit et les réseaux sociaux. Les blogs et forums ont périclité, les sites spécialisés aussi. La majeure partie du trafic internet est sur Youtube, Twitch ou d'autres plateformes dans le genre, qui sont épargnées par les effets de l'IA.

Ruxor (2025-05-01T13:43:22Z)

J'ajoute comme remarque générale que si faire écrire du code par une IA me semble vraiment idiot en général, demander à une IA de *relire* et critiquer du code qu'on a écrit pour trouver les problèmes, proposer des améliorations, etc., ça c'est souvent une bonne idée.

Ruxor (2025-05-01T13:40:20Z)

@jeanas: De fait, Perl a ça, et c'est ce qu'utilise le programme que j'ai écrit (avec une couche de syntaxe un peu plus plaisante, quand même).

jeanas (2025-05-01T12:01:56Z)

> Mais par ailleurs, il « pense » qu'on peut parser une grammaire parenthésée juste avec des regexps comme /^(.+) \/\\ (.+)$/ et /^(.+) -> (.+)$/ ce qui est franchement drôle

Juste pour l'anecdote, avec certaines définitions des expressions régulières étendues, il est effectivement possible de parser les mots bien parenthésés, avec des groupes de capture récursifs.

Ruxor (2025-05-01T10:01:05Z)

@Charles: Parce que, non, les IA ne savent pas du tout faire ce genre de choses. Enfin, je ne sais pas pour Claude, je n'ai pas envie de me créer yet another f*cking account, mais ChatGPT m'a généré cette bouillie-ci : <URL: https://gist.github.com/Gro-Tsen/bcc89713ac113df7b2dbb953df75a30c > (conversation ici : <URL: https://chatgpt.com/c/68133e59-b440-800f-8d5e-8394002cb420 >), et c'est tellement bourré de problèmes que ce n'est pas vraiment sauvable ni réutilisable. Bon, pour commencer, il n'a pas « compris » le problème, qui était de tester la validité de la formule sur le cadre (c'est-à-dire sur toutes les valuations possibles sur le cadre) et pas juste une valuation donnée. Mais par ailleurs, il « pense » qu'on peut parser une grammaire parenthésée juste avec des regexps comme /^(.+) \/\\ (.+)$/ et /^(.+) -> (.+)$/ ce qui est franchement drôle (et d'ailleurs il y en a une, « /^(.+) \\/ (.+)$/ » où il a même oublié un backslash : c'est marrant parce que le coloriseur syntaxique voit l'erreur dans la sortie que l'IA pond).

Globalement, relire du code est aussi fastidieux que d'écrire du code, et comme avec les IA il y a du bullshit à nettoyer partout, on va devoir absolument tout relire jusqu'à la moindre regexp, je ne vois pas trop ce qu'on y gagne sauf dans des cas où c'est du code boilerplate hyper standardisé. La partie difficile quand on écrit du code, c'est surtout de décider comment on va s'y prendre, et ce sera toujours plus simple de trouver ça soi-même que d'essayer de comprendre une pseudo-solution proposée par une IA. Et même pour écrire les passages « faciles », je perdrais plus de temps à expliquer à l'IA les standards de code que je veux qu'elle suive que d'écrire le code lui-même.

Charles (2025-04-30T23:14:07Z)

> savoir si une formule de logique propositionnelle intuitionniste est vérifiée dans un cadre de Kripke). Je n'ai certainement pas écrit le programme par IA

Pourquoi pas ? il me semble que c'est le genre de tâche que l'on réalise très bien avec Claude par exemple. Et si ce n'est pas l'intégralité du programme, on peut lui faire faire une bonne partie (le parseur, les tests etc…). Et si on a des préférences sur la structure ou le style, il peut les prendre en compte.

Je peux comprendre que si on fait ça comme un hobby, on a envie de le coder soi-même. Mais dans un contexte professionnel, ça peut être difficile de justifier le temps perdu de l'avoir écrit sans aide.