David Madore's WebLog: Au sujet de la manie d'évaluer la recherche

Méta : Il y a des sujets sur lesquels il me démange d'écrire, mais en même temps je me rends compte que ce n'est probablement pas une bonne idée de m'y lancer parce que je vais en écrire des kilopages, ou m'énerver en écrivant, ou les deux à la fois, et au mieux ce sera indigeste, mal relu et peu convaincant (ou seulement convaincant pour les déjà-convaincus). Mais parfois la démangeaison l'emporte quand même. Dont acte. Il s'agit ici d'une sorte de continuation de cette entrée récente et/ou de ce fil Twitter, mais en essayant d'argumenter un peu plus précisément. (À part ça, je reconseille de lire les nouvelles Les dessous de paillasse d'Élodie Sabin-Teyssier que je recommandais déjà dans l'entrée que je viens de lier.)

Le déclencheur immédiat de mon énervement, quelque chose qui a fait bondir l'ensemble de la communauté des chercheurs français, a été une phrase récemment prononcée par le président du CNRS, Antoine Petit, qui défendait une loi de programmation de la recherche comme une loi ambitieuse, inégalitaire, oui, inégalitaire, une loi vertueuse et darwinienne, qui encourage les scientifiques, équipes, laboratoires, établissements les plus performants à l'échelle internationale, une loi qui mobilise les énergies (comprendre : nous voulons un environnement de recherche qui conduise à la survie du plus apte pour aboutir à une élite). La stupidité de cette phrase est tellement crasse, le niveau d'incompréhension qu'elle démontre tant de Darwin que des sciences sociales est si effarant que, sauf à placer son auteur à un tel niveau de bêtise, je ne peux formuler qu'une hypothèse, c'est qu'il s'agit d'un troll, d'une provocation destinée à faire réagir les chercheurs dans le cadre d'un calcul politique auprès de l'opinion publique : disqualifier d'avance ceux qui se plaindront de la loi comme des mauvais, des inaptes qui n'ont pas leur place dans ce monde darwinien, tandis que les bons, l'élite, sont ceux qui en bénéficient et vice versa. Réagir à cette phrase, s'indigner, donc, c'est déjà perdre à ce jeu pervers ; mais ne pas réagir, c'est perdre aussi : c'est un catch-22 qui a fait ses preuves en politique que d'abaisser le débat par les déclarations les plus répugnantes qui ne laissent le choix qu'entre perdre en réagissant ou perdre en se taisant. Je peux donc lier vers quelques réactions à cette phrase, par exemple celle-ci qui dissèque patiemment l'absurdité du concept de darwinisme social appliqué aux sciences, ou cette pétition, mais en gardant à l'esprit que c'est nourrir les trolls que de leur répondre, et ainsi perdre au jeu qu'ils nous proposent et où on ne peut que perdre.

Je suis un peu surpris, ceci dit, qu'aucune des réponses faites à Antoine Petit ne semble avoir évoqué l'expérience des poulets de Muir, qui montre de façon spectaculaire qu'en sélectionnant les individus les « meilleurs », les « plus productifs » (en l'occurrence, les poules pondant le plus d'œufs), on peut aboutir à une diminution considérable de la production recherchée — parce que ces individus[#] les plus productifs le sont au détriment de la coopération avec les autres, et que la compétition est finalement beaucoup plus nuisible à la production souhaitée : il faut manquer cruellement d'imagination pour ne pas se rendre compte qu'en sélectionnant les chercheurs « pondant » le plus de résultats on risque d'obtenir le même résultat qu'en sélectionnant les poules les plus productives, c'est-à-dire une compétition stérile et délétère à l'objectif recherché.

[#] Les résultats sont assez différents si, au lieu de sélectionner les individus, on sélectionne les groupes, mais sous l'hypothèse que ces groupes n'aient pas d'interaction entre eux (uniquement au sein de chaque groupe), donc l'applicabilité à la recherche de cette partie est hautement sujette à caution.

Je pourrais aussi reprendre des métaphores que j'aime bien. Comme celle, que j'ai déjà évoquée (dans un contexte un peu différent), du pommier, et de l'absurdité de l'idée de couper les racines qui ne produisent pas de fruits parce qu'on n'est intéressé que par les branches, qui produisent des fruits. (L'absurdité de la démarche sera sans doute plus évidente que dans le cas des poules : on comprend plus aisément que le pommier est un organisme vivant dont il est absurde de sélectionner telle partie par opposition à telle autre.) Ou encore celle-ci (que je vole à quelqu'un sur Twitter) : vouloir sélectionner la recherche d'excellence, c'est comme vouloir ne garder d'une montagne que son sommet. [Ajout (2019-12-14) : Pour rendre cette jolie image un peu plus scientifique, on me suggère de signaler l'hypothèse Ortega selon laquelle l'essentiel du travail scientifique est contenu dans des contributions modestes.]

Mais encore une fois, c'est probablement perdre son temps que de jouer à réfuter ce genre d'idées : ceux qui les émettent n'y croient sans doute pas sérieusement, ils cherchent juste des tours de passe-passe pour faire croire au grand public qu'il y aura plus d'argent injecté dans la recherche (celle qui compte, la recherche d'excellence) tout en en mettant en réalité beaucoup moins. (Et si jamais le tour de passe-passe devient évident, comme la recherche s'inscrit dans la durée et les effets d'une augmentation ou diminution des crédits aussi, ce sera longtemps plus tard, quand ces administrateurs ou politiques ne seront plus là.)

D'autre part, la tension entre coopération et compétition est un phénomène beaucoup plus large que la situation du seul monde de la recherche, touchant à toutes les facettes de la société, de ses fondements en théorie des jeux et en biologie de l'évolution ou en éthologie et jusqu'à l'existence même de la société comme nous le rappellent, dans le camp « coopération », la troisième partie de la devise de la République française, fraternité, et dans le camp « compétition », une phrase emblématique de Margaret Thatcher, there is no such thing as society. Je préfère ne pas m'aventurer dans un débat aux termes si généraux, mais avons-le franchement : pour le cas de la recherche, je persiste personnellement dans le point de vue, inspiré d'une forme de positivisme peut-être naïf, selon lequel, collectivement, je conçois l'objectif de la recherche comme une forme de progrès qui doit bénéficier à l'Humanité tout entière, peut-être même à l'honneur de l'esprit humain, et, individuellement, je considère les autres chercheurs — qu'ils soient de domaines proches ou éloignés, de mon équipe ou d'un autre pays — comme des pairs avec lesquels je veux coopérer, fût-ce dans le cadre d'un débat scientifique où le désaccord n'est pas exclu, et non comme des rivaux qu'il s'agirait de battre à un classement quelconque de l'excellence. J'ai même la faiblesse de croire que ce point de vue, tout bisounours qu'il est dans le monde draconien de la recherche publish-or-perish du XXIe siècle et des lubies de l'impitoyable classement de Shanghaï, est néanmoins encore largement partagé par les chercheurs du monde entier, ou, si j'ose le dire avec une pointe d'ironie, les bons chercheurs.

Mais pour redescendre d'un cran en généralité, et en évitant de trop nourrir les trolls affamés du darwinisme académique de M. Petit, je voudrais dire quelque chose au sujet de l'évaluation. Car même si on ne va pas jusqu'à l'idée de punir les mauvais chercheurs improductifs (ce que devrait être la punition, d'ailleurs, n'est jamais très clair, ni comment elle va les remettre sur le droit chemin de la recherche d'excellence, celle qui permet de monter au classement de Shanghaï), bref, le bâton, même si on se contente d'envisager la carotte, c'est-à-dire l'idée de récompenser les bons chercheurs productifs (ceux qui propulsent l'établissement en haut du classement de Shanghaï), il reste cette idée de séparer les bons et les mauvais, et donc, d'évaluer. Et il n'est pas si facile de se rendre compte combien déjà cette idée-là est insidieuse : peut-être même plus insidieuse que l'idée du « monde darwinien » qui en est la prolongation logique, parce qu'elle paraît de bon sens et, si on ne parle que de carottes (récompenses), peut sembler passablement inoffensive. Je prétends que non, — et pas seulement à cause du germe de compétition qu'elle fait naître dans un monde où il est essentiel, pour la qualité du débat scientifique, que les participants soient des pairs et pas une hiérarchie.

Quoi de plus évident, en effet, de se dire qu'on va motiver les chercheurs, et ainsi les rendre plus productifs, en décorant l'excellence, peut-être en accordant une forme de gratification à ceux qui auront produit le plus de résultats (publications, brevets, que sais-je) ? Et quoi de plus naturel pour la société de vouloir évaluer la recherche qu'elle paye et mesurer combien elle produit ?

Le premier problème dans ce raisonnement concerne la notion de motivation et la manière dont elle agit. Penser qu'on va encourager les gens par des récompenses (ou à plus forte raison, par la peur d'une sanction) pour les rendre plus productifs présuppose le fait que le manque de productivité est lié à un manque de motivation (donc d'effort). Dans le cas de la recherche, je n'y crois pas une seule seconde. L'immense majorité des chercheurs aiment leur métier (c'est d'ailleurs aussi pour ça qu'ils se désolent de la manière dont ce métier évolue en une compétition) ; et ils aiment le sujet de leurs recherches. C'est banal de le dire, mais on ne devient pas chercheur, on ne renonce pas à des salaires souvent immensément plus grands auxquels on pourrait prétendre à ce niveau de qualification, par amour de l'argent. On le devient avant tout par une combinaison entre l'idéalisme de penser qu'on contribue au progrès de l'Humanité et la simple curiosité intellectuelle de savoir comment le monde est fait (et, pour un enseignant, de faire partager ce savoir). J'en veux notamment pour preuve qu'il s'agit d'un des seuls métiers du monde où il existe une statut d'émérite, c'est-à-dire un chercheur qui est à la retraite et qui sans recevoir de salaire supplémentaire continue à exercer les fonctions de chercheur qu'il avait lors de sa carrière active. Je renvoie aussi à ce fil Twitter, ou plutôt à celui du message que je cite, où un certain nombre de chercheurs ont fait essentiellement la même réponse que moi : si j'étais payé inconditionnellement, je continuerais à faire le même travail. Je ne dis pas ça pour prétendre que les chercheurs seraient désintéressés par l'argent ou la reconnaissance, ce n'est évidemment pas le cas, mais ce qui est vrai est que n'est pas pour ça qu'ils font leur recherche, et si la motivation première ne suffit pas, ajouter de l'argent ou des honneurs n'aidera pas ; d'ailleurs, en matière d'honneurs, le principal honneur qui vaut est celui de la reconnaissance par les pairs qui vient avec un résultat important.

Mais ce n'est pas tout : il y a une série d'expériences d'économie comportementale qui m'a énormément marqué quand j'en ai entendu parler dans un livre de Dan Ariely et dont je n'ai malheureusement pas la référence précise (mais voici un texte où il en parle, et peut-être qu'un de mes petits elfes va la retrouver pour moi ; mise à jour (2019-12-19) : il s'agit probablement du problème de la bougie), en tout cas elle est d'une très grande pertinence ici, et elle est essentiellement la suivante (de ce que j'en ai retenu). On demande aux sujets de l'expérience de réaliser une certaine tâche, à savoir résoudre un problème (comme une petite énigme), et pour certains (tirés au hasard) il y a une récompense à la clé, plus ou moins importante : le résultat de l'expérience est que ceux à qui on a promis une récompense réussissent moins bien que ceux à qui on n'en a pas promis ; et même, plus la récompense promise est élevée, plus elle a un impact négatif important sur la résolution du problème. On peut avancer différentes explications pour ce phénomène, la plus évidente étant le stress induit par la perspective de la récompense (car il n'y a pas que les bâtons qui provoquent le stress, il y a aussi les carottes !) qui s'opposerait à la sérénité propice à la réflexion. Le fait est que certaines tâches ne subissent pas le même effet, et sont réussies d'autant plus efficacement s'il y a une récompense à la clé : ce sont essentiellement les tâches qui ne requièrent pas de créativité. Je laisse au lecteur le soin de se demander si la créativité est quelque chose qui peut intervenir dans la recherche scientifique (divulgâchis : oui). Notons par ailleurs, pour ceux qui proposeraient des récompenses sous une forme non financière (distinctions, décorations…), que la pression de la reconnaissance sociale semble pouvoir avoir le même effet négatif.

Tout ceci est évidemment à prendre avec des pincettes, parce qu'on ne peut pas simplement transposer le résultat d'une expérience simple de ce genre (avec des humains ou encore moins avec des poules) dans un contexte social. Mais cela suggère au moins de se méfier de l'« évidence » selon laquelle en offrant des récompenses on motive les gens et qu'on les rend ainsi plus productifs. (Une autre raison de proposer des récompenses peut être un simple désir d'équité, mais à ce sujet, je répète que le principal honneur qui accompagne un résultat scientifique est généralement la fierté de l'avoir obtenu et peut-être la reconnaissance académique qu'on en tirera : ce système se construit lui-même et, s'il n'est pas exempt de problèmes, il n'est pas spécialement nécessaire d'y ajouter.) J'ai peur que beaucoup des administrateurs de la recherche et hommes politiques confrontés à gérer ce dossier soient pour ainsi dire incapables de comprendre qu'on puisse avoir une motivation intrinsèque à faire son métier et à vouloir travailler dans la sérénité plutôt que dans le stress.

Mais l'autre facette du phénomène que je dois évoquer, c'est l'ensemble des effets pervers qu'ont le processus d'évaluation quel qu'il soit, et le système de carottes et bâtons qui l'accompagne.

Il y a un mécanisme social très général et très important qui est la loi de Campbell suivante : Plus un indicateur social quantitatif est utilisé comme aide à la décision en matière de politique sociale, plus cet indicateur est susceptible d'être manipulé et d'agir comme facteur de distorsion, faussant ainsi les processus sociaux qu'il est censé surveiller. (Penser à tous les effets pervers provoqués quand, par exemple, on commence à récompenser les policiers selon le nombre d'arrestations ou d'affaires élucidées.) Dans le cas de la recherche, cela donne la situation suivante : si on part d'un indicateur, disons bibliométrique (nombre de publications, nombre de pages de publications, nombre total de citations, h-index) qui a priori n'est pas idiot, et qu'on l'utilise pour évaluer les chercheurs d'une manière qui a un impact sur leur carrière les incitant à le maximiser, ils vont faire tout leur possible pour maximiser cet indicateur, ce qui détruira son utilité : si on évalue au nombre de publications les chercheurs publieront autant d'articles insignifiants qu'ils le pourront, si on les évalue à la page ils délaieront autant que possible, si on les évalue à la citation ils se citeront entre copains, etc. Attendre des effets bénéfiques est naïf comme je l'ai expliqué ci-dessus au sujet des motivations et du stress, mais attendre des effets négatifs est prévisible, et c'est ce qu'on observe effectivement. [Ajout : cf. aussi la loi de Goodhart, très proche de la loi de Campbell.]

La publication scientifique est ce qu'il y a de plus sérieux, parce que c'est le moyen par lequel les chercheurs communiquent leurs résultats entre eux, i.e., coopèrent : en l'utilisant comme base d'évaluation, on l'a transformée en moyen de compétition, et on l'a pervertie : on a créé les incitations perverses à manipuler la bibliométrie, à multiplier les publications insignifiantes, à falsifier les résultats d'expériences. C'est un dommage irréparable. Les chercheurs de ce début de XXIe siècle publient, selon moi, beaucoup trop : ils ne publient pas parce qu'ils ont quelque chose d'important à faire connaître à leur communauté, ils publient, et parfois trichent pour publier, parce qu'ils y sont incités par les effets pervers d'un système d'évaluation absurde. En voulant un système d'évaluations censément pour obtenir de la meilleure science, on a sérieusement endommagé l'utilité d'un des rouages essentiels de la science (et s'il n'est pas ruiné plus complètement que ça, c'est seulement parce que l'honnêteté intellectuelle continue de prévaloir contre ces incitations perverses, c'est en dépit d'elles et pas grâce à elles).

Il ne sert à rien de chercher à contourner le problème en modifiant le mécanisme d'évaluation (remplacer le nombre de publications par des systèmes plus subtils à base de citations, par exemple) : tout système d'évaluation ayant un impact sur les carrières créera forcément ces incitations perverses : on réussira à ruiner les bibliographies plus ou moins comme on a ruiné le contenu des articles, mais on ne pourra pas éviter la loi de Campbell sous une forme ou une autre. (La seule possibilité d'évaluation qui ne conduise pas à ce type d'effets consiste à évaluer de façon purement observatoire, c'est-à-dire sans rétroaction sur les personnes évaluées : ce n'est pas une idée idiote, cela peut servir à l'orientation de la recherche à haut niveau, mais je m'écarte du sujet.)

Mais les dommages de l'évaluation ne s'arrêtent pas à la loi de Campbell et à son jeu d'incitations perverses. Je dois aussi mentionner la quantité phénoménale d'efforts dépensés en pure perte pour cette évaluation ou pour tous les contrôles administratifs qui l'accompagnent : des rapports que personne ne lira, des CV et listes de publications qui doivent être joints à tout et n'importe quoi. Mais aussi toute la paperasse qui accompagne le demi-frère de l'évaluationite : la « recherche par projets » (la différence en principe est que le projet est un jugement a priori sur une recherche à venir tandis que l'évaluation concerne une recherche passée ; dans la pratique, ça ne change pas grand-chose, parce que prévoir la recherche à venir est souvent tellement absurde qu'on utilise les résultats passés pour demander des financements pour l'avenir). Je ne veux pas rentrer trop dans les détails de ce sujet-là, mais la quantité d'efforts déployée pour quémander des sommes souvent miséreuses et qui sont finalement octroyées, aléatoirement, selon des critères opaques et absurdes, et après des formalités administratives délirantes, tout ça est un gâchis tellement ridicule de temps humain de gens qui pourraient l'employer à faire de la recherche que ce serait vraiment drôle si ce n'était pas triste. (Je ne dis pas que le système de financement par projet n'a aucune place défendable dans la recherche, notamment pour des dépenses importantes avec des investissements matériels importants ; mais il devrait selon moi faire partie d'une palette plus large de financements où chaque chercheur permanent, en plus de son salaire, ainsi que chaque laboratoire et chaque structure intermédiaire, disposerait aussi d'un minimum de moyens discrétionnaires avec un contrôle administratif léger, — le genre de choses qui ont essentiellement disparu devant l'obsession de tout contrôler.)

Ajout (2019-12-14) : Un autre phénomène que je comptais évoquer dans cette entrée et qui m'est complètement sorti de la tête en l'écrivant, c'est l'effet de Matthieu (ou de l'accumulation des avantages), qui est fortement lié à un des thèmes qui me sont chers, celui de la reproductibilité du succès : dès lors qu'on commence à récompenser les chercheurs qui obtiennent des résultats, en oubliant que le succès est avant tout une question de moyens et de chance, on crée un effet de boule de neige conduisant à une sorte de star-system plus ou moins aléatoire (comme, par exemple, sur les réseaux sociaux par le biais de l'effet auto-entretenu des recommandations et des vues) qui s'oppose à la variété des points de vue et à la discussion entre égaux nécessaires au bon fonctionnement du monde académique.

L'enjeu de tout ça, c'est simplement la liberté intellectuelle des chercheurs. Ne pas avoir peur d'être mal évalué, ne pas devoir justifier le moindre bouquin acheté par un formulaire en trois exemplaires signé et tamponné par cinq chefs de structures ou évalué par deux rapporteurs, bref, le fait de pouvoir agir un peu indépendamment, c'est la condition sine qua non de la liberté académique et de la créativité qui va avec l'audace d'explorer des sujets pas forcément immédiatement productifs ou pas forcément dans l'air du temps. A contrario, en voulant tout évaluer et tout contrôler, on pousse tout le monde à faire la même chose comme des lemmings. Au moment où j'écris, par exemple, les lemmings informaticiens veulent tous faire de l'IA (du machine learning, en fait), ou des sciences des données : on va envoyer un nombre incalculable de doctorants dans cette direction parce que c'est ce que tout le monde veut faire, jusqu'au jour où la girouette de la mode académique aura tourné dans une autre direction et les derniers de ces doctorants se retrouveront avec une spécialité qui d'un seul coup n'intéressera plus personne. Ces détestables effets de mode ne sont bien sûr pas exclusivement dus à la manie de l'évaluation, mais ils sont amplifiés par elle, parce que tout le monde veut courir dans la direction « porteuse », la direction où il y a des sous et de bonnes évaluations, celle où on ne prend pas de risque, bref, la direction où tout le monde va ; et le chercheur qui aurait le courage de manifester son indépendance en pointant du doigt que ces modes sont des montagnes de bouse de taureau peut craindre pour sa carrière.

En vérité, la bonne recherche nécessite des chercheurs indépendants. Indépendants même du jugement les uns des autres. (Ce qui ne signifie pas qu'on renonce à la notion de publication revue par les pairs, même s'il y a peut-être lieu de se demander comment elle doit évoluer pour s'adapter aux nouvelles technologies et mettre fin à la rapacité des éditeurs et au star-system de certaines revues. Mais la publication revue par les pairs n'est pas la seule forme de contribution scientifique possible.)

Je crois qu'une des obsessions qui sous-tendent l'évaluationite est la peur qu'il y aurait des chercheurs qui ne feraient rien, et profiteraient simplement de leur salaire et de la possibilité de voyager de conférence en conférence à travers le monde sans rien contribuer d'utile. Il faut donc répondre brièvement à cette peur : oui, cela existe, mais c'est extrêmement rare, parce que le parcours pour arriver à un poste permanent de chercheur est tellement difficile et décourageant pour un salaire finalement bien ingrat qu'il est essentiellement impossible d'y arriver sans une certaine forme de vocation pour le sujet dans lequel on se propose de travailler, et au final il ne doit pas y avoir plus de chercheurs tire-au-flanc que de prêtres catholiques qui se feraient ordonner juste pour toucher le traitement. L'immense majorité des chercheurs mal « évalués » par les mécanismes simplistes mis en place, par exemple ceux qui publient très peu, sont, en réalité, utiles de toutes sortes d'autres manières à l'édifice collectif qu'est la science (qu'ils fassent de la vulgarisation ou de l'enseignement ou une autre forme de diffusion des savoirs, qu'ils servent d'intermédiaire entre différentes disciplines, qu'ils fassent profiter leurs collègues de leur culture scientifique, etc.). La hantise du tire-au-flanc conduit en fait à une injustice envers ce type de profils atypiques. Mais là aussi, j'ai peur que beaucoup d'administrateurs de la recherche et d'hommes politiques aient le plus grand mal à comprendre qu'on puisse être laissé sans contrôle et néanmoins se comporter de façon honnête.

Au final, ce que la société doit se demander, et elle doit le faire lucidement, c'est quel est le rapport bénéfice-risque de l'évaluation de la recherche (ou, sous sa forme la plus extrême, de la compétition provoquée entre les chercheurs) : vaut-il mieux un monde de la recherche dominé par la coopération entre pairs, quitte à supporter quelques tire-au-flanc, qui mène une recherche libre, parfois audacieuse, pas toujours optimale, mais généralement motivée par le bien commun, ou au contraire un monde d'évaluation et de compétition, où le temps passé à faire de la recherche est détourné sous forme de stress, de paperasse, de course à la dernière mode, et parfois de falsification de résultats pour monter dans les classements ? Je pense que ma façon de poser la question montre suffisamment clairement ce que j'en pense.

Suite : voir aussi l'entrée suivante.